このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240620となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# AI駆動型レーザーパラメータ探索:グレディサロゲート最適化を用いたフォトニック表面の逆設計
AI Driven Laser Parameter Search: Inverse Design of Photonic Surfaces using Greedy Surrogate-based Optimization ( http://arxiv.org/abs/2407.03356v1 ) ライセンス: Link先を確認 | Luka Grbcic, Minok Park, Juliane Müller, Vassilia Zorba, Wibe Albert de Jong, | (参考訳) 特定の光学特性で設計されたフォトニック表面は、様々なエネルギー収穫・貯蔵システムでの使用においてますます重要になっている。
そこで本研究では,そのような表面を設計するためのサロゲートに基づく最適化手法を開発した。
シュロゲートに基づく最適化フレームワークはランダムフォレストアルゴリズムを用いており、ゆるやかな予測に基づく探索戦略を用いて、ユーザーが定義した光学特性に対する誤差を最小限に抑えるレーザー加工パラメータを識別する。
本稿では,2つの合成ベンチマークと2つの特定のフォトニック表面逆設計ターゲットのケースについて述べる。
すべてのベンチマークにおける他の最適化アルゴリズムと比較して、優れたパフォーマンスを示す。
さらに, 提案手法の性能向上を図るために, 対象光特性の変化に対する逆設計ウォームスタートの手法を実証する。
Photonic surfaces designed with specific optical characteristics are becoming increasingly important for use in in various energy harvesting and storage systems. , In this study, we develop a surrogate-based optimization approach for designing such surfaces. The surrogate-based optimization framework employs the Random Forest algorithm and uses a greedy, prediction-based exploration strategy to identify the laser fabrication parameters that minimize the discrepancy relative to a user-defined target optical characteristics. We demonstrate the approach on two synthetic benchmarks and two specific cases of photonic surface inverse design targets. It exhibits superior performance when compared to other optimization algorithms across all benchmarks. Additionally, we demonstrate a technique of inverse design warm starting for changed target optical characteristics which enhances the performance of the introduced approach. | 翻訳日:2024-07-22 22:09:04 公開日:2024-06-20 |
# 適応性にインスパイアされたエレガンス:効率的な単眼感情認識のためのニューラルネットワークをスパイクする相乗的知識蒸留
Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition ( http://arxiv.org/abs/2407.09521v1 ) ライセンス: Link先を確認 | Yang Wang, Haiyang Mei, Qirui Bao, Ziqi Wei, Mike Zheng Shou, Haizhou Li, Bo Dong, Xin Yang, | (参考訳) 本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。
この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
このアプローチのコアとなる強みは、従来のフレームで見られる、十分な、粗い時間的手がかりを効果的に感情認識に活用する能力である。
その結果,従来のフレーム領域からの時間的情報と空間的情報の両方を有効に解釈し,イベントベースカメラなどの特殊なセンシング装置の必要性を排除した。
提案手法の有効性は,既存の単眼感情認識データセットとコンパイルされた単眼感情認識データセットの両方を用いて完全に実証し,既存の最先端手法よりも精度と効率の両立を図った。
We introduce a novel multimodality synergistic knowledge distillation scheme tailored for efficient single-eye motion recognition tasks. This method allows a lightweight, unimodal student spiking neural network (SNN) to extract rich knowledge from an event-frame multimodal teacher network. The core strength of this approach is its ability to utilize the ample, coarser temporal cues found in conventional frames for effective emotion recognition. Consequently, our method adeptly interprets both temporal and spatial information from the conventional frame domain, eliminating the need for specialized sensing devices, e.g., event-based camera. The effectiveness of our approach is thoroughly demonstrated using both existing and our compiled single-eye emotion recognition datasets, achieving unparalleled performance in accuracy and efficiency over existing state-of-the-art methods. | 翻訳日:2024-07-22 13:28:38 公開日:2024-06-20 |
# マルチモーダルファンデーションモデルとクラスタリングによる改良型あいまいさ損失
Using Multimodal Foundation Models and Clustering for Improved Style Ambiguity Loss ( http://arxiv.org/abs/2407.12009v1 ) ライセンス: Link先を確認 | James Baker, | (参考訳) 創造的なテキスト・ツー・イメージモデルを教えるには、事前訓練された分類器を必要とするスタイルの曖昧さの損失を使用する必要がある。
本研究では,分類器やラベル付きデータセットを訓練する必要のない,創造性を近似するために使用される,スタイルあいまいさ学習の新たな形態について検討する。
次に、拡散モデルを最大化するために拡散モデルをトレーニングし、創造性を備えた拡散モデルを構築し、創造性と新規性を維持しつつ、人間の判断のための自動メトリクスに基づいて従来の方法を改善する方法を見つけます。
Teaching text-to-image models to be creative involves using style ambiguity loss, which requires a pretrained classifier. In this work, we explore a new form of the style ambiguity training objective, used to approximate creativity, that does not require training a classifier or even a labeled dataset. We then train a diffusion model to maximize style ambiguity to imbue the diffusion model with creativity and find our new methods improve upon the traditional method, based on automated metrics for human judgment, while still maintaining creativity and novelty. | 翻訳日:2024-07-22 11:30:12 公開日:2024-06-20 |
# AIエージェントと教育 - スケールでのシミュレートされた実践
AI Agents and Education: Simulated Practice at Scale ( http://arxiv.org/abs/2407.12796v1 ) ライセンス: Link先を確認 | Ethan Mollick, Lilach Mollick, Natalie Bach, LJ Ciccarelli, Ben Przystanski, Daniel Ravipinto, | (参考訳) 本稿では,適応型教育シミュレーション作成における生成AIの可能性について検討する。
複数のAIエージェントのシステムを活用することで、シミュレーションはパーソナライズされた学習体験を提供し、AI生成メンター、ロールプレイヤ、インストラクターによるシナリオでスキルを実践する機会を提供する。
PitchQuestという,AIによる指導の提供,実践の促進,適切なフィードバックの提供といった能力を示す,ベンチャーキャピタルのピッチングシミュレータのプロトタイプについて説明する。
本稿では、シミュレーションの背景にある教育、それを支える技術、そしてAIを教育に利用する際の倫理的考察について論じる。
厳密なテストの必要性と限界を認識しながら、生成AIは効果的で魅力的なシミュレーションを作成するための障壁を著しく減らし、大規模な経験的学習の新たな可能性を開くことができると提案する。
This paper explores the potential of generative AI in creating adaptive educational simulations. By leveraging a system of multiple AI agents, simulations can provide personalized learning experiences, offering students the opportunity to practice skills in scenarios with AI-generated mentors, role-players, and instructor-facing evaluators. We describe a prototype, PitchQuest, a venture capital pitching simulator that showcases the capabilities of AI in delivering instruction, facilitating practice, and providing tailored feedback. The paper discusses the pedagogy behind the simulation, the technology powering it, and the ethical considerations in using AI for education. While acknowledging the limitations and need for rigorous testing, we propose that generative AI can significantly lower the barriers to creating effective, engaging simulations, opening up new possibilities for experiential learning at scale. | 翻訳日:2024-07-22 08:57:39 公開日:2024-06-20 |
# CEBench: LLMパイプラインのコスト効果評価のためのベンチマークツールキット
CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines ( http://arxiv.org/abs/2407.12797v1 ) ライセンス: Link先を確認 | Wenbo Sun, Jiaqi Wang, Qiming Guo, Ziyu Li, Wenlu Wang, Rihan Hai, | (参考訳) ChatGPT や Claude 3 のようなオンライン大規模言語モデル (LLM) サービスは、新たな機会を積極的に実現することによって、ビジネスオペレーションや学術研究を変革している。
しかし、データ共有の制限のため、医療や金融といった分野は、コストのかかるハードウェアリソースを使用したローカルLLMアプリケーションをデプロイすることを好んでいる。
このシナリオは、LLMの有効性とかなりの財政的負担のバランスを必要とする。
さらに、モデルの急速な進化は、ベンチマーク作業の頻度と冗長性を高める。
既存のベンチマークツールキットは、有効性に重点を置いており、しばしば経済的な考察を見落としており、その発見は実践的なシナリオには適用できない。
CEBenchは多目的ベンチマークに特化して設計されたオープンソースのツールキットで、LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
CEBenchは構成ファイルを簡単に変更できるので、ステークホルダーはこれらのトレードオフを効果的に評価し、最適化することができる。
この戦略的能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
CEBenchは、評価プロセスの合理化とコスト効率の強調により、さまざまな産業や研究分野における経済的に実行可能なAIソリューションの開発を促進することを目指している。
コードとデモは \url{https://github.com/amademicnoboday12/CEBench} で公開されている。
Online Large Language Model (LLM) services such as ChatGPT and Claude 3 have transformed business operations and academic research by effortlessly enabling new opportunities. However, due to data-sharing restrictions, sectors such as healthcare and finance prefer to deploy local LLM applications using costly hardware resources. This scenario requires a balance between the effectiveness advantages of LLMs and significant financial burdens. Additionally, the rapid evolution of models increases the frequency and redundancy of benchmarking efforts. Existing benchmarking toolkits, which typically focus on effectiveness, often overlook economic considerations, making their findings less applicable to practical scenarios. To address these challenges, we introduce CEBench, an open-source toolkit specifically designed for multi-objective benchmarking that focuses on the critical trade-offs between expenditure and effectiveness required for LLM deployments. CEBench allows for easy modifications through configuration files, enabling stakeholders to effectively assess and optimize these trade-offs. This strategic capability supports crucial decision-making processes aimed at maximizing effectiveness while minimizing cost impacts. By streamlining the evaluation process and emphasizing cost-effectiveness, CEBench seeks to facilitate the development of economically viable AI solutions across various industries and research fields. The code and demonstration are available in \url{https://github.com/amademicnoboday12/CEBench}. | 翻訳日:2024-07-22 08:57:39 公開日:2024-06-20 |
# 多言語FActScoreの解析
An Analysis of Multilingual FActScore ( http://arxiv.org/abs/2406.19415v1 ) ライセンス: Link先を確認 | Kim Trong Vu, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai, | (参考訳) FActScoreは英語でLarge Language Models (LLMs) が生成する長文の事実を推定する指標として人気を集めている。
しかし、他の言語でFActScoreの振る舞いを研究する研究は行われていない。
本稿では,多言語設定におけるFActScoreの4成分パイプラインにおける各コンポーネントの制限について検討する。
強い多言語 LLM で生成されたテキストに FActScore の新しいデータセットを導入する。
評価の結果, LLMは, 事実抽出と事実採点の両方において, 異なる行動を示すことが明らかとなった。
LLMは、さまざまなレベルのリソースを持つ言語間で一貫性があり信頼性の高いFActScoreを生成しない。
また,評価されたFActScoreの品質において,知識源が重要な役割を担っていることも確認した。
ウィキペディアを知識源として使うことは、中級言語と低級言語のカバー範囲が限られているため、長文の真のFActScoreを妨げる可能性がある。
また、すべての言語でのFActScore推定を改善するために、知識ソースに3つの軽減策を組み込んでいます。
FActScore has gained popularity as a metric to estimate the factuality of long-form texts generated by Large Language Models (LLMs) in English. However, there has not been any work in studying the behavior of FActScore in other languages. This paper studies the limitations of each component in the four-component pipeline of FActScore in the multilingual setting. We introduce a new dataset for FActScore on texts generated by strong multilingual LLMs. Our evaluation shows that LLMs exhibit distinct behaviors in both fact extraction and fact scoring tasks. No LLM produces consistent and reliable FActScore across languages with varying levels of resources. We also find that the knowledge source plays an important role in the quality of the estimated FActScore. Using Wikipedia as the knowledge source may hinder the true FActScore of long-form text due to its limited coverage in medium- and low-resource languages. We also incorporate three mitigations to our knowledge source that ultimately improve FActScore estimation across all languages. | 翻訳日:2024-07-07 13:43:41 公開日:2024-06-20 |
# LLM-A*:大規模言語モデルによる経路計画におけるインクリメンタルヒューリスティック検索
LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning ( http://arxiv.org/abs/2407.02511v1 ) ライセンス: Link先を確認 | Silin Meng, Yiwei Wang, Cheng-Fu Yang, Nanyun Peng, Kai-Wei Chang, | (参考訳) 経路計画はロボット工学と自律航法における基本的な科学的問題であり、障害物を避けながら出発点から目的地までの効率的な経路を導出する必要がある。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
逆に、大規模言語モデル(LLM)は、文脈理解を通じてより広い環境分析に優れ、環境に対するグローバルな洞察を提供する。
しかし、それらは詳細な空間的および時間的推論において不足しており、しばしば無効または非効率な経路につながる。
本研究では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力を相乗的に組み合わせた LLM-A* の経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
両方の手法の長所を統合することで、LLM-A*は、有効なパスフィニングに必要な妥当性を妥協することなく、従来のアルゴリズムの計算とメモリの制限に対処する。
Path planning is a fundamental scientific problem in robotics and autonomous navigation, requiring the derivation of efficient routes from starting to destination points while avoiding obstacles. Traditional algorithms like A* and its variants are capable of ensuring path validity but suffer from significant computational and memory inefficiencies as the state space grows. Conversely, large language models (LLMs) excel in broader environmental analysis through contextual understanding, providing global insights into environments. However, they fall short in detailed spatial and temporal reasoning, often leading to invalid or inefficient routes. In this work, we propose LLM-A*, an new LLM based route planning method that synergistically combines the precise pathfinding capabilities of A* with the global reasoning capability of LLMs. This hybrid approach aims to enhance pathfinding efficiency in terms of time and space complexity while maintaining the integrity of path validity, especially in large-scale scenarios. By integrating the strengths of both methodologies, LLM-A* addresses the computational and memory limitations of conventional algorithms without compromising on the validity required for effective pathfinding. | 翻訳日:2024-07-07 13:14:55 公開日:2024-06-20 |
# 睡眠時無呼吸と重症度を予測する最小限のソフトウェア・スマートフォン・デバイスの検証:超越的研究
Validation of a new, minimally-invasive, software smartphone device to predict sleep apnea and its severity: transversal study ( http://arxiv.org/abs/2406.16953v1 ) ライセンス: Link先を確認 | Justine Frija, Juliette Millet, Emilie Bequignon, Ala Covali, Guillaume Cathelain, Josselin Houenou, Helene Benzaquen, Pierre Alexis Geoffroy, Emmanuel Bacry, Mathieu Grajoszex, Marie-Pia d Ortho, | (参考訳) 閉塞性睡眠時無呼吸(OSA)は頻繁で、心臓血管の合併症や日中の過度な睡眠障害の原因となる。
診断基準であるPSG (Polysomnography) の入手が困難であったため診断に難渋している。
スマートフォンのセンサーを使う別の方法は、診断を高めるのに役立つかもしれない。
Apnealは、スマートフォンのマイクで音を録音し、スマートフォンの加速度計とジャイロスコープのおかげで動きを計測し、患者のAHIを推定するアプリケーションである。
本稿では,第1手動採点ステップによる単中心的概念実証実験を行い,2022年末にアプニールで導入した逐次的深層学習モデルを用いて,成体患者46名(女性34名,平均BMI28.7kg/m2)を対象に,記録信号からの呼吸事象の自動検出を行った。
15以上のAHIでは手動スコアの感度は0.91であり, 正の予測値(PPV)は0.89であった。
30以上のAHIでは感度が0.85, PPV 0.94であった。
その結果,AHIが0.85,AUC-PRが0.94でAHIが15,AUC-ROCが0.95,AUC-PRが30,AHIが0.93であった。
イベントの自動アノテーションは,PSGによるスコアと比較して,スマートフォンによる信号の手動採点が可能で正確であることを示す。
ディープラーニングモデルに基づく自動スコアリング手法は,有望な結果を提供する。
以上の結果を確認するためには,SAHSの重症度が異なる被験者を対象とする多段階的検証研究が必要である。
Obstructive sleep apnea (OSA) is frequent and responsible for cardiovascular complications and excessive daytime sleepiness. It is underdiagnosed due to the difficulty to access the gold standard for diagnosis, polysomnography (PSG). Alternative methods using smartphone sensors could be useful to increase diagnosis. The objective is to assess the performances of Apneal, an application that records the sound using a smartphone's microphone and movements thanks to a smartphone's accelerometer and gyroscope, to estimate patients' AHI. In this article, we perform a monocentric proof-of-concept study with a first manual scoring step, and then an automatic detection of respiratory events from the recorded signals using a sequential deep-learning model which was released internally at Apneal at the end of 2022 (version 0.1 of Apneal automatic scoring of respiratory events), in adult patients during in-hospital polysomnography.46 patients (women 34 per cent, mean BMI 28.7 kg per m2) were included. For AHI superior to 15, sensitivity of manual scoring was 0.91, and positive predictive value (PPV) 0.89. For AHI superior to 30, sensitivity was 0.85, PPV 0.94. We obtained an AUC-ROC of 0.85 and an AUC-PR of 0.94 for the identification of AHI superior to 15, and AUC-ROC of 0.95 and AUC-PR of 0.93 for AHI superior to 30. Promising results are obtained for the automatic annotations of events.This article shows that manual scoring of smartphone-based signals is possible and accurate compared to PSG-based scorings. Automatic scoring method based on a deep learning model provides promising results. A larger multicentric validation study, involving subjects with different SAHS severity is required to confirm these results. | 翻訳日:2024-06-26 19:10:10 公開日:2024-06-20 |
# SRViT:衛星観測から放射反射率を推定する視覚変換器
SRViT: Vision Transformers for Estimating Radar Reflectivity from Satellite Observations at Scale ( http://arxiv.org/abs/2406.16955v1 ) ライセンス: Link先を確認 | Jason Stock, Kyle Hilburn, Imme Ebert-Uphoff, Charles Anderson, | (参考訳) 静止衛星画像から高分解能(3km)合成レーダ反射率場を大規模に生成するトランスフォーマーベースニューラルネットワークを提案する。
本研究は,アメリカ合衆国における気象事象の短期的対流予測の強化と数値天気予報のためのデータ同化の支援を目的とする。
受容野が限られている畳み込みアプローチと比較して, 様々な反射率閾値において, シャープネスと精度が向上した。
特定の大気現象に関する追加のケーススタディは、我々の量的発見を支持し、新しい帰属法は、モデル出力を理解するための領域の専門家を導くために導入された。
We introduce a transformer-based neural network to generate high-resolution (3km) synthetic radar reflectivity fields at scale from geostationary satellite imagery. This work aims to enhance short-term convective-scale forecasts of high-impact weather events and aid in data assimilation for numerical weather prediction over the United States. Compared to convolutional approaches, which have limited receptive fields, our results show improved sharpness and higher accuracy across various composite reflectivity thresholds. Additional case studies over specific atmospheric phenomena support our quantitative findings, while a novel attribution method is introduced to guide domain experts in understanding model outputs. | 翻訳日:2024-06-26 19:10:10 公開日:2024-06-20 |
# 幾何学的制約を持つ非線形物理系のデータ駆動計算法
Data-Driven Computing Methods for Nonlinear Physics Systems with Geometric Constraints ( http://arxiv.org/abs/2406.16956v1 ) ライセンス: Link先を確認 | Yunjin Tong, | (参考訳) 科学的発見がデータによってますます推進される状況において、機械学習(ML)と従来の科学的方法論の統合は、変革的なアプローチとして現れている。
本稿では、第一原理に基づく手法やブルートフォース機械学習手法に固有の計算的・実践的制約に対処するために、物理ベースの先行技術と高度なML技術とを相乗化する、新しいデータ駆動型フレームワークを提案する。
本フレームワークでは, 分離型および非分離型ハミルトニアン系, 双曲型偏微分方程式, 非圧縮型流体力学を含む, 特定の物理系を, 特定の非線形系に組み込む4つのアルゴリズムを紹介する。
物理法則の本質的な定式化は、システムの本質的な対称性と保存法則を保存し、解が物理的に妥当で計算学的に効率的であることを保証する。
これらの先行性の統合はまた、ニューラルネットワークの表現力を高め、従来の手法がしばしば見逃す物理現象に典型的な複雑なパターンをキャプチャすることを可能にする。
その結果、予測精度、ロバスト性、予測能力の点で既存のデータ駆動技術よりも優れており、特に、小さなデータセット、短いトレーニング期間、小さなサンプルサイズに依存するにもかかわらず、トレーニングセットから欠落した特徴を認識している。
In a landscape where scientific discovery is increasingly driven by data, the integration of machine learning (ML) with traditional scientific methodologies has emerged as a transformative approach. This paper introduces a novel, data-driven framework that synergizes physics-based priors with advanced ML techniques to address the computational and practical limitations inherent in first-principle-based methods and brute-force machine learning methods. Our framework showcases four algorithms, each embedding a specific physics-based prior tailored to a particular class of nonlinear systems, including separable and nonseparable Hamiltonian systems, hyperbolic partial differential equations, and incompressible fluid dynamics. The intrinsic incorporation of physical laws preserves the system's intrinsic symmetries and conservation laws, ensuring solutions are physically plausible and computationally efficient. The integration of these priors also enhances the expressive power of neural networks, enabling them to capture complex patterns typical in physical phenomena that conventional methods often miss. As a result, our models outperform existing data-driven techniques in terms of prediction accuracy, robustness, and predictive capability, particularly in recognizing features absent from the training set, despite relying on small datasets, short training periods, and small sample sizes. | 翻訳日:2024-06-26 19:10:10 公開日:2024-06-20 |
# 自律運転における視覚言語モデル:調査と展望
Vision Language Models in Autonomous Driving: A Survey and Outlook ( http://arxiv.org/abs/2310.14414v2 ) ライセンス: Link先を確認 | Xingcheng Zhou, Mingyu Liu, Ekim Yurtsever, Bare Luka Zagar, Walter Zimmer, Hu Cao, Alois C. Knoll, | (参考訳) 自律運転(AD)分野における視覚言語モデル(VLM)の適用は、その卓越した性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。
言語データを取り入れることで、運転システムは現実世界の環境をよりよく理解し、運転の安全性と効率を向上させることができる。
本研究では,この領域における視覚言語モデルの進歩を包括的かつ体系的に調査し,認識と理解,ナビゲーションと計画,意思決定と制御,エンドツーエンドの自動運転,データ生成などを紹介する。
本稿では、ADにおけるメインストリームのVLMタスクと、よく利用されるメトリクスについて紹介する。
さらに、様々な分野における現在の研究や応用を概観し、既存の言語による自律運転データセットを網羅的に要約する。
最後に、ADにおけるVLMのメリットと課題について論じ、研究者に現在の研究ギャップと今後のトレンドについて述べる。
The applications of Vision-Language Models (VLMs) in the field of Autonomous Driving (AD) have attracted widespread attention due to their outstanding performance and the ability to leverage Large Language Models (LLMs). By incorporating language data, driving systems can gain a better understanding of real-world environments, thereby enhancing driving safety and efficiency. In this work, we present a comprehensive and systematic survey of the advances in vision language models in this domain, encompassing perception and understanding, navigation and planning, decision-making and control, end-to-end autonomous driving, and data generation. We introduce the mainstream VLM tasks in AD and the commonly utilized metrics. Additionally, we review current studies and applications in various areas and summarize the existing language-enhanced autonomous driving datasets thoroughly. Lastly, we discuss the benefits and challenges of VLMs in AD and provide researchers with the current research gaps and future trends. | 翻訳日:2024-06-26 04:39:08 公開日:2024-06-20 |
# 適応的勾配法で正方根を除去できるか? : 2次視点
Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v6 ) ライセンス: Link先を確認 | Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani, | (参考訳) Adam(W)のような適応的な勾配最適化アルゴリズムは、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。
彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。
これらの方法はしばしば近似二階法として動機付けされるが、平方根は基本的な違いを表す。
本研究では,適応的手法の動作が根の除去時にどのように変化するか,すなわち2階のモチベーションを補強するかを検討する。
意外なことに、これらの平方根自由適応法は、変換器の性能を維持しながら、畳み込みアーキテクチャ上のSGDへの一般化ギャップを閉じている。
2階の観点は、プリコンディショナー不変性の概念を通じて任意の曲率近似を組み込むことができる非対角法の開発にも実用的な利点がある。
シャンプーのような根ベースの手法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要としないため、半精度でうまく高速に機能する。
本研究は,適応的手法の開発に関する新たな知見を提供し,その成功における適応性の役割について重要な疑問を提起するものである。
(実験コード:https://github.com/yorkerlin/remove-the-square-root Optimizationr code:https://github.com/f-dangel/sirfshampoo)
Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e.,strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for developing non-diagonal methods that can incorporate arbitrary curvature approximations through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, root-free counterparts work well and fast with half-precision since they do not require numerically unstable matrix root decompositions and inversions. Overall, our findings provide new insights into the development of adaptive methods and raise important questions regarding the overlooked role of adaptivity in their success. (experiment code: https://github.com/yorkerlin/remove-the-square-root optimizer code: https://github.com/f-dangel/sirfshampoo) | 翻訳日:2024-06-26 02:11:02 公開日:2024-06-20 |
# ロボットが歩くもの、貿易するものも―インフォームドデータとLLMを用いたレジーム適応実行
What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs ( http://arxiv.org/abs/2406.15508v1 ) ライセンス: Link先を確認 | Raeid Saqur, | (参考訳) 機械学習技術は金融市場の予測問題に応用され、ダイナミックなレシエーションの切り替えや、真の(隠れた)市場変数の相関や共分散の変化に苦しむ。
ロボット工学における強化学習の成功,特に四足歩行ロボットの未確認地形へのアジャイルなロコモーション適応からインスピレーションを得て,事前学習されたLLMの世界の知識を活用し,LLMアライメント技術(*RLMF**)を用いた本質的な自然市場報酬を動的に適用する革新的なアプローチを導入する。
強烈な実証実験の結果,金融市場の体制転換に適応する上で,我々の手法の有効性が示された。
提案したアルゴリズムフレームワークは、既存の(FLARE)ベンチマークストックモーメント(SM)タスクにおいて、最高のパフォーマンスのSOTA LLMモデルよりも15倍以上の精度向上を実現している。
最近提案されたNIFTY SMタスクでは、適応ポリシーはGPT-4のような1兆のパラメータモデルで表されるSOTAよりも優れている。
本稿では,2相・教師・学生のアーキテクチャとモデルの実装,経験的結果,および情報ゲインの観点からの言語埋め込みの役割の分析について述べる。
Machine learning techniques applied to the problem of financial market forecasting struggle with dynamic regime switching, or underlying correlation and covariance shifts in true (hidden) market variables. Drawing inspiration from the success of reinforcement learning in robotics, particularly in agile locomotion adaptation of quadruped robots to unseen terrains, we introduce an innovative approach that leverages world knowledge of pretrained LLMs (aka. 'privileged information' in robotics) and dynamically adapts them using intrinsic, natural market rewards using LLM alignment technique we dub as "Reinforcement Learning from Market Feedback" (**RLMF**). Strong empirical results demonstrate the efficacy of our method in adapting to regime shifts in financial markets, a challenge that has long plagued predictive models in this domain. The proposed algorithmic framework outperforms best-performing SOTA LLM models on the existing (FLARE) benchmark stock-movement (SM) tasks by more than 15\% improved accuracy. On the recently proposed NIFTY SM task, our adaptive policy outperforms the SOTA best performing trillion parameter models like GPT-4. The paper details the dual-phase, teacher-student architecture and implementation of our model, the empirical results obtained, and an analysis of the role of language embeddings in terms of Information Gain. | 翻訳日:2024-06-25 23:44:36 公開日:2024-06-20 |
# パラメータ化流体力学探索のための機械学習可視化ツール
Machine Learning Visualization Tool for Exploring Parameterized Hydrodynamics ( http://arxiv.org/abs/2406.15509v1 ) ライセンス: Link先を確認 | C. F. Jekel, D. M. Sterbentz, T. M. Stitt, P. Mocz, R. N. Rieben, D. A. White, J. L. Belof, | (参考訳) 我々は、衝撃流体力学、すなわち、大きな変形を起こす圧縮性固体、液体、気体に関する問題に関する計算研究に興味を持っている。
これらの問題は動的で非線形であり、複雑な不安定性を示す。
ハイパフォーマンスコンピューティングの進歩により、流体力学問題をパラメータ化し、シミュレーション状態データの$\mathcal{O}\left({\rm TB}\right)$を計算研究することができる。
大規模なシミュレーションデータセットの圧縮、閲覧、補間に使用できる対話型機械学習ツールを提案する。
このツールは、計算科学者や研究者が「何」の状況を素早く視覚化し、感度分析を行い、複雑な流体力学実験を最適化することを可能にする。
We are interested in the computational study of shock hydrodynamics, i.e. problems involving compressible solids, liquids, and gases that undergo large deformation. These problems are dynamic and nonlinear and can exhibit complex instabilities. Due to advances in high performance computing it is possible to parameterize a hydrodynamic problem and perform a computational study yielding $\mathcal{O}\left({\rm TB}\right)$ of simulation state data. We present an interactive machine learning tool that can be used to compress, browse, and interpolate these large simulation datasets. This tool allows computational scientists and researchers to quickly visualize "what-if" situations, perform sensitivity analyses, and optimize complex hydrodynamic experiments. | 翻訳日:2024-06-25 23:44:36 公開日:2024-06-20 |
# 非可換幾何学的視点を持つ曲線空間(時間)における量子力学
Quantum Mechanics in Curved Space(time) with a Noncommutative Geometric Perspective ( http://arxiv.org/abs/2406.15512v1 ) ライセンス: Link先を確認 | Otto C. W. Kong, | (参考訳) 我々は、古典的な場合の正確な類似として量子粒子に対する弱等価原理のバージョンを、自由粒子運動のハイゼンベルク画像解析に基づいて提示した。
ここでは、これを一般曲線空間(時間)における量子力学の完全な定式化とみなす。
我々の基本的な視点は、量子可観測代数に対応する非可換シンプレクティック幾何学を真剣に考えることである。
粒子位置座標変換と不変内積をベクトルと余ベクトルに割り当てる非自明な計量が従って実装される。
これにより、位相空間の古典的な図形を余接束として類似させることができる。
量子観測可能な一般計量の下での自由粒子運動の方程式としての質量非依存の量子測地方程式は、不変ハミルトニアンから得られる。
運動量観測のハーミシティは参照フレーム依存と見なされる。
我々の結果は、Schr\"odinger波動関数の表現に基づいて得られる代替とは大きく対照的である。
したがって、この研究は量子重力に対する全く異なるアプローチを示している。
We have previously presented a version of the Weak Equivalence Principle for a quantum particle as an exact analog of the classical case, based on the Heisenberg picture analysis of free particle motion. Here, we take that to a full formalism of quantum mechanics in a generic curved space(time). Our basic perspective is to take seriously the noncommutative symplectic geometry corresponding to the quantum observable algebra. Particle position coordinate transformations and a nontrivial metric assigning an invariant inner product to vectors, and covectors, are implemented accordingly. That allows an analog to the classical picture of the phase space as the cotangent bundle. The mass-independent quantum geodesic equations as equations of free particle motion under a generic metric as a quantum observable are obtained from an invariant Hamiltonian. Hermiticity of momentum observables is to be taken as reference frame dependent. Our results have a big contrast to the alternative obtained based on the Schr\"odinger wavefunction representation. Hence, the work points to a very different approach to quantum gravity. | 翻訳日:2024-06-25 23:34:50 公開日:2024-06-20 |
# PKU-SafeRLHF:Llamaファミリーモデルのための安全アライメント設定データセット
PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models ( http://arxiv.org/abs/2406.15513v1 ) ライセンス: Link先を確認 | Jiaming Ji, Donghai Hong, Borong Zhang, Boyuan Chen, Josef Dai, Boren Zheng, Tianyi Qiu, Boxun Li, Yaodong Yang, | (参考訳) 本研究では,大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計されたPKU-SafeRLHFデータセットを紹介する。
SafeRLHF と BeaverTails の兄弟プロジェクトとして,質問応答ペアに対する有用性と無害性のアノテーションを分離し,これらの属性を個別に考察する。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリに対して備え、軽度から重度まで3つの重度レベルをLlama- Familyモデルで生成する。
これに基づいて,2つの選好データ(無害・無害・無害)と1つの選好データ(無害・無害をゼロから引き離す)を含む166.8kの選好データを収集した。
大規模アノテーションデータを用いて,LLMのリスク管理のための重度感性モデレーションと,LLMの安全アライメントのための安全中心RLHFアルゴリズムをさらに訓練する。
このデータセットはコミュニティにとって貴重なリソースであり、LLMの安全なデプロイを支援するものだと考えています。
In this work, we introduce the PKU-SafeRLHF dataset, designed to promote research on safety alignment in large language models (LLMs). As a sibling project to SafeRLHF and BeaverTails, we separate annotations of helpfulness and harmlessness for question-answering pairs, providing distinct perspectives on these coupled attributes. Overall, we provide 44.6k refined prompts and 265k question-answer pairs with safety meta-labels for 19 harm categories and three severity levels ranging from minor to severe, with answers generated by Llama-family models. Based on this, we collected 166.8k preference data, including dual-preference (helpfulness and harmlessness decoupled) and single-preference data (trade-off the helpfulness and harmlessness from scratch), respectively. Using the large-scale annotation data, we further train severity-sensitive moderation for the risk control of LLMs and safety-centric RLHF algorithms for the safety alignment of LLMs. We believe this dataset will be a valuable resource for the community, aiding in the safe deployment of LLMs. | 翻訳日:2024-06-25 23:34:50 公開日:2024-06-20 |
# CsPbCl3ペロブスカイト量子ドットの精度予測のための機械学習モデル
Machine Learning Models for Accurately Predicting Properties of CsPbCl3 Perovskite Quantum Dots ( http://arxiv.org/abs/2406.15515v1 ) ライセンス: Link先を確認 | Mehmet Sıddık Çadırcı, Musa Çadırcı, | (参考訳) Perovskite Quantum Dots (PQDs) は、そのユニークな性質のため、いくつかのアプリケーションに将来性がある。
本研究では,入力データセットとして合成特徴を用いた$\mathrm{CsPbCl}_3$PQDのサイズ,吸収率 (1S abs) および発光特性 (PL) の予測における機械学習 (ML) の有効性について検討した。
この研究では、SVR(Support Vector Regression)、Nearest Neighbour Distance(NND)、Random Forest(RF)、Gradient Boosting Machine(GBM)、Decision Tree(DT)、Deep Learning(DL)のMLモデルを採用した。
SVRとNNDはいずれも極めて正確な結果を得たが、テストデータセットとトレーニングデータセットで優れたパフォーマンスを達成し、高い値のMathrm{R}^2$と低いRoot Mean Squared Error (RMSE)と低い平均絶対誤差 (MAE) で最高の特性予測を示した。
MLがより優れていることを考えると、QDsの分野を理解する能力はナノマテリアル設計の未来を形作るのに有益である。
Perovskite Quantum Dots (PQDs) have a promising future for several applications due to their unique properties. This study investigates the effectiveness of Machine Learning (ML) in predicting the size, absorbance (1S abs) and photoluminescence (PL) properties of $\mathrm{CsPbCl}_3$ PQDs using synthesizing features as the input dataset. the study employed ML models of Support Vector Regression (SVR), Nearest Neighbour Distance (NND), Random Forest (RF), Gradient Boosting Machine (GBM), Decision Tree (DT) and Deep Learning (DL). Although all models performed highly accurate results, SVR and NND demonstrated the best accurate property prediction by achieving excellent performance on the test and training datasets, with high $\mathrm{R}^2$ and low Root Mean Squared Error (RMSE) and low Mean Absolute Error (MAE) metric values. Given that ML is becoming more superior, its ability to understand the QDs field could prove invaluable to shape the future of nanomaterials designing. | 翻訳日:2024-06-25 23:34:50 公開日:2024-06-20 |
# 転位話者ダイアリゼーションチャレンジ2023のシステム記述
System Description for the Displace Speaker Diarization Challenge 2023 ( http://arxiv.org/abs/2406.15516v1 ) ライセンス: Link先を確認 | Ali Aliyev, | (参考訳) 本稿では,会話環境問題(2023年版)における話者と言語のダイアリゼーションの解決策について述べる。
音声によるセグメンション発見にはVAD,これらのセグメントからの特徴抽出にはResnetアーキテクチャをベースとしたCNN,特徴クラスタリングにはスペクトルクラスタリングを併用した。
Hindiを使用したトレーニングは行われていないが、説明されたアルゴリズムは以下のメトリクスを達成している。
1%, DER27。
4%であった。
This paper describes our solution for the Diarization of Speaker and Language in Conversational Environments Challenge (Displace 2023). We used a combination of VAD for finding segfments with speech, Resnet architecture based CNN for feature extraction from these segments, and spectral clustering for features clustering. Even though it was not trained with using Hindi, the described algorithm achieves the following metrics: DER 27. 1% and DER 27. 4%, on the development and phase-1 evaluation parts of the dataset, respectively. | 翻訳日:2024-06-25 23:34:50 公開日:2024-06-20 |
# 校正選択分類
Calibrated Selective Classification ( http://arxiv.org/abs/2208.12084v2 ) ライセンス: Link先を確認 | Adam Fisch, Tommi Jaakkola, Regina Barzilay, | (参考訳) 選択分類(Selective classification)は、モデルがより効果的な精度を得るために、疑わしい時に予測(例えば「私は知らない」など)を控えることを可能にする。
典型的な選択モデルは、平均的により正確な予測を生成するのに効果的であるが、信頼性の高い誤った予測を許したり、信頼性の低い正しい予測を省略したりすることができる。
キャリブレーションされた不確実性の推定値と、真の周波数に対応する確率を同時に示すことは、平均的に正確に予測できるのと同じくらい重要である。
しかし、不確実性推定は特定の入力に対して信頼できない。
本稿では,「不確か」な不確実性のある事例を拒否する手法を提案する。
そこで我々は, 許容例の分布に関する不確実性推定値を用いた予測を行うことを目標とし, 選択校正と呼ぶ特性について検討した。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,選択的セレクタネットワークをトレーニングし,与えられたベースモデルの選択的校正誤差を改善する。
特に、我々の研究はロバストなキャリブレーションの実現に焦点を当てており、モデルがドメイン外のデータでテストするように意図的に設計されている。
我々は、分布的にロバストな最適化にインスパイアされたトレーニング戦略によりこれを達成し、既知のドメイン内トレーニングデータにシミュレートされた入力摂動を適用する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
Selective classification allows models to abstain from making predictions (e.g., say "I don't know") when in doubt in order to obtain better effective accuracy. While typical selective models can be effective at producing more accurate predictions on average, they may still allow for wrong predictions that have high confidence, or skip correct predictions that have low confidence. Providing calibrated uncertainty estimates alongside predictions -- probabilities that correspond to true frequencies -- can be as important as having predictions that are simply accurate on average. However, uncertainty estimates can be unreliable for certain inputs. In this paper, we develop a new approach to selective classification in which we propose a method for rejecting examples with "uncertain" uncertainties. By doing so, we aim to make predictions with {well-calibrated} uncertainty estimates over the distribution of accepted examples, a property we call selective calibration. We present a framework for learning selectively calibrated models, where a separate selector network is trained to improve the selective calibration error of a given base model. In particular, our work focuses on achieving robust calibration, where the model is intentionally designed to be tested on out-of-domain data. We achieve this through a training strategy inspired by distributionally robust optimization, in which we apply simulated input perturbations to the known, in-domain training data. We demonstrate the empirical effectiveness of our approach on multiple image classification and lung cancer risk assessment tasks. | 翻訳日:2024-06-24 20:54:41 公開日:2024-06-20 |
# シームズ畳み込みニューラルネットワークと半教師付き学習による量子絡み合いの同定
Identification of quantum entanglement with Siamese convolutional neural networks and semi-supervised learning ( http://arxiv.org/abs/2210.07410v4 ) ライセンス: Link先を確認 | Jarosław Pawłowski, Mateusz Krawczyk, | (参考訳) 量子絡み合いは、様々な量子情報プロトコルやアルゴリズムで一般的に使用される基本的な性質である。
それでも、絡み目を特定するという問題は、まだ2ドル以上のシステムに対する一般的な解決策には達していない。
本研究では、教師付き機械学習の一種であるディープ畳み込みNNを用いて、3量子系における任意の二分割の量子絡みを同定する。
本研究では, 学習データ外であるPTES状態においても, 一般に識別できない(かつ正確なラベル付けができない)挑戦的正転位絡み状態(PPTES)を除く, ランダム密度行列の合成データセット上でモデルをトレーニングすることが, モデル精度の向上につながることを実証した。
我々の目標は、PTESにおけるモデルの一般化を強化することである。
半教師付きで訓練された3つのシームズネットワークを通した絡み合い保存対称性演算を適用することにより、PTPSの精度と認識能力を向上させる。
さらに、シームズモデルのアンサンブルを構築することで、異なる種類の状態に対する異なるタイプの絡み合いの証人を見つけるというアイデアと類似して、より優れた一般化が観察される。
Quantum entanglement is a fundamental property commonly used in various quantum information protocols and algorithms. Nonetheless, the problem of identifying entanglement has still not reached a general solution for systems larger than $2\times3$. In this study, we use deep convolutional NNs, a type of supervised machine learning, to identify quantum entanglement for any bipartition in a 3-qubit system. We demonstrate that training the model on synthetically generated datasets of random density matrices excluding challenging positive-under-partial-transposition entangled states (PPTES), which cannot be identified (and correctly labeled) in general, leads to good model accuracy even for PPTES states, that were outside the training data. Our aim is to enhance the model's generalization on PPTES. By applying entanglement-preserving symmetry operations through a triple Siamese network trained in a semi-supervised manner, we improve the model's accuracy and ability to recognize PPTES. Moreover, by constructing an ensemble of Siamese models, even better generalization is observed, in analogy with the idea of finding separate types of entanglement witnesses for different classes of states. | 翻訳日:2024-06-24 20:54:41 公開日:2024-06-20 |
# 心の理論を用いた説明可能な協調対話システム
An Explainable Collaborative Dialogue System using a Theory of Mind ( http://arxiv.org/abs/2302.09646v3 ) ライセンス: Link先を確認 | Philip R. Cohen, Lucian Galescu, Maayan Shvo, | (参考訳) Evaはニューロシンボリックなドメインに依存しない多モード協調対話システムであり、タスク指向対話の目的はユーザを支援することであると真剣に考えている。
これを実現するために、システムは、意図や計画を推測し、成功への障害を検出し、それらを克服したり、より高い目標を達成するための計画を見つけ、ユーザーがそれらの目標を達成するのを助けるために、音声行為を含むその行動を計画する。
そうすることで、システムは独自の宣言的に特定された信念、目標、意図、およびそのユーザの理由を明確に維持する。
Evaは、異なるユーザのメンタル状態を追跡することができるため、複数のエージェントをマルチパーティ対話で関与させることができる。
Reasoningは、実装されたロジックのサブセット内で計算可能な推論を可能にする、Hhorn-clauseメタインタープリタによって実現される。
このシステムは階層型と後方鎖型の両方の計画を採用し、リッチなモーダル論理に基づく知識とアクション表現を運用する。
計画と推論のサブシステムは、以下を含む永続的な目標と意図の原則に従う。
1)複雑な行動を行う意図の形成と分解。
2 永続的目標及び意図を放棄することができる条件
3 計画の過程で作成する関係式を用いて、永続的な目標と意図の見直しを行う。
このシステムは、他の行動と同じように、その言動を扱います。
この一般的なアプローチにより、Evaは、要求、通知、質問、確認、オファー、受け入れ、感情表現など、さまざまな音声行為を計画できる。
対話エンジンはプランナーなので、対話が進むにつれて、システムは物理的、デジタル、およびスピーチアクションを使用して、柔軟に計画を生成し、実行し、潜在的に修復することができる。
重要なことは、Evaが発声を説明できるのは、発声を誘発する計画を作成したからだ。
Eva is a neuro-symbolic domain-independent multimodal collaborative dialogue system that takes seriously that the purpose of task-oriented dialogue is to assist the user. To do this, the system collaborates by inferring their intentions and plans, detects obstacles to success, finds plans to overcome them or to achieve higher-level goals, and plans its actions, including speech acts, to help users accomplish those goals. In doing so, the system maintains and reasons with its own declaratively-specified beliefs, goals and intentions, and explicitly reasons about those of its user. Because Eva can track different users' mental states, it can engage multiple agents in multi-party dialogues. Reasoning is accomplished with a modal Horn-clause meta-interpreter that enables computable inference within the subset of logic implemented. The system employs both hierarchical and backward-chaining planning, operating over a rich modal logic-based knowledge and action representation. The planning and reasoning subsystems obey the principles of persistent goals and intentions including: 1) The formation and decomposition of intentions to perform complex actions, 2) the conditions under which persistent goals and intentions can be given up, and 3) persistent goal and intention revision using the relativizing formulas that are created during the planning process. The system treats its speech acts just like its other actions. This general approach enables Eva to plan a variety of speech acts, including requests, informs, questions, confirmations, offers, acceptances, and emotive expressions. Because the dialogue engine is a planner, as the dialogue proceeds, the system can flexibly generate, execute, and potentially repair its plans using physical, digital, and speech actions. Importantly, Eva can explain its utterances because it has created a plan that caused it to utter them. | 翻訳日:2024-06-24 20:47:12 公開日:2024-06-20 |
# 知識の知識: 未知の未知を探索する 大規模言語モデルによる不確実性
Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models ( http://arxiv.org/abs/2305.13712v2 ) ライセンス: Link先を確認 | Alfonso Amayuelas, Liangming Pan, Wenhu Chen, William Wang, | (参考訳) 本稿では,Large Language Models (LLMs) の知識の理解と質問に対する不確実性について考察する。
具体的には,不確定な回答がないことによる不確実性の高さを特徴とする,未知の疑問に対処することに焦点を当てる。
そこで我々は,KUQ(Known-Unknown Questions)を用いた新しいデータセットを収集し,クエリの不確実性の起源を明らかにするための分類フレームワークを構築した。
その後、このデータセットを用いて微調整したオープンソースのLCMの性能について検討し、オープンエンド質問応答シナリオにおける未知クエリと未知クエリを区別する。
微調整されたモデルは大幅に改善され、F1スコアは前微調整状態と比較して大幅に向上した。
包括的分析を通じて,モデルの改良された不確実性明瞭化とその結果としての有効性に関する洞察を,マルチエージェント討論において明らかにする。
これらの知見は、LCMが不確実性を識別し、表現するためにどのように訓練されるかを理解するのに役立ち、それらが複雑な情報や不確実な情報をどう理解し、どのように表現するかについての知識を改善するのに役立ちます。
This paper investigates the capabilities of Large Language Models (LLMs) in the context of understanding their knowledge and uncertainty over questions. Specifically, we focus on addressing known-unknown questions, characterized by high uncertainty due to the absence of definitive answers. To facilitate our study, we collect a new dataset with Known-Unknown Questions (KUQ) and establish a categorization framework to clarify the origins of uncertainty in such queries. Subsequently, we examine the performance of open-source LLMs, fine-tuned using this dataset, in distinguishing between known and unknown queries within open-ended question-answering scenarios. The fine-tuned models demonstrated a significant improvement, achieving a considerable increase in F1-score relative to their pre-fine-tuning state. Through a comprehensive analysis, we reveal insights into the models' improved uncertainty articulation and their consequent efficacy in multi-agent debates. These findings help us understand how LLMs can be trained to identify and express uncertainty, improving our knowledge of how they understand and express complex or unclear information. | 翻訳日:2024-06-24 20:47:12 公開日:2024-06-20 |
# 不均一量子・電子技術のための直接結合ダイヤモンド膜
Direct-bonded diamond membranes for heterogeneous quantum and electronic technologies ( http://arxiv.org/abs/2306.04408v2 ) ライセンス: Link先を確認 | Xinghan Guo, Mouzhe Xie, Anchita Addhya, Avery Linder, Uri Zvi, Stella Wang, Xiaofei Yu, Tanvi D. Deshmukh, Yuzi Liu, Ian N. Hammock, Zixi Li, Clayton T. DeVault, Amy Butcher, Aaron P. Esser-Kahn, David D. Awschalom, Nazar Delegan, Peter C. Maurer, F. Joseph Heremans, Alexander A. High, | (参考訳) ダイヤモンドは、幅広い量子および電子技術の材料特性を最上位に挙げている。
しかし、単結晶ダイヤモンドのヘテロエピタキシャル成長は限定的であり、ダイヤモンドベースの技術の融合と進化を妨げる。
ここでは, シリコン, 溶融シリカ, サファイア, 熱酸化物, ニオブ酸リチウムなど多種多様な材料に単結晶ダイヤモンド膜を直接結合する。
ボンディングプロセスは, 膜合成, 転写, 乾燥面の官能化を両立させ, ほぼ一様の収率とスケーラビリティの経路を提供しながら, 最小限の汚染を可能にする。
膜厚を10nm, サブnmの界面領域, ナノメートルスケールの厚さ変化を200×200ドル以上で生成する。
我々は623(21)$\mu$sの結合膜における窒素空孔中心のスピンコヒーレンス時間$T_2$を測定する。
ダイヤモンドヘテロ構造と高品質のナノフォトニックキャビティを統合するための複数の手法を実証し、量子フォトニック応用におけるプラットフォームの汎用性を強調した。
さらに、我々の超薄型ダイヤモンド膜は全内部反射蛍光(TIRF)顕微鏡と互換性があることを示し、これは、不要な背景発光を拒絶しながら、生体細胞と相互にコヒーレントなダイヤモンド量子センサを実現する。
ここで実証されたプロセスは、量子および電子技術のための異種ダイヤモンドベースのハイブリッドシステムを合成するための完全なツールキットを提供する。
Diamond has superlative material properties for a broad range of quantum and electronic technologies. However, heteroepitaxial growth of single crystal diamond remains limited, impeding integration and evolution of diamond-based technologies. Here, we directly bond single-crystal diamond membranes to a wide variety of materials including silicon, fused silica, sapphire, thermal oxide, and lithium niobate. Our bonding process combines customized membrane synthesis, transfer, and dry surface functionalization, allowing for minimal contamination while providing pathways for near unity yield and scalability. We generate bonded crystalline membranes with thickness as low as 10 nm, sub-nm interfacial regions, and nanometer-scale thickness variability over 200 by 200 $\mu m^2$ areas. We measure spin coherence times $T_2$ for nitrogen-vacancy centers in bonded membranes of up to 623(21) $\mu$s, suitable for advanced quantum applications. We demonstrate multiple methods for integrating high quality factor nanophotonic cavities with the diamond heterostructures, highlighting the platform versatility in quantum photonic applications. Furthermore, we show that our ultra-thin diamond membranes are compatible with total internal reflection fluorescence (TIRF) microscopy, which enables interfacing coherent diamond quantum sensors with living cells while rejecting unwanted background luminescence. The processes demonstrated herein provide a full toolkit to synthesize heterogeneous diamond-based hybrid systems for quantum and electronic technologies. | 翻訳日:2024-06-24 20:37:28 公開日:2024-06-20 |
# フォールトトレラントな双曲型フロック量子誤り訂正符号
Fault-tolerant hyperbolic Floquet quantum error correcting codes ( http://arxiv.org/abs/2309.10033v3 ) ライセンス: Link先を確認 | Ali Fahimniya, Hossein Dehghani, Kishor Bharti, Sheryl Mathew, Alicia J. Kollár, Alexey V. Gorshkov, Michael J. Gullans, | (参考訳) 量子誤り訂正における中心的な目標は、ノイズ閾値を増大させ、論理量子ビットを維持するために必要な物理量子ビットの数を減少させることにより、フォールトトレラント量子コンピューティングのオーバーヘッドを減らすことである。
我々は、動的に生成された量子誤り訂正符号のファミリに基づいて、この目標に向かっての潜在的な経路を紹介し、これを「ハイパボリック・フロケット符号」と呼ぶ。
「」これらの符号は、負曲率を持つ双曲多様体上の位相コードを安定させる周期的に配置された非可換な2体測定の特定のシーケンスによって定義される。
我々は、コードを定義する処方則によると、$n$ qubitsの格子群に焦点を合わせ、有限符号化率$(1/8+2/n)$を確実に達成し、ディープ3シンドローム抽出回路を持つ。
双曲曲面符号と同様に、各時間ステップにおける符号の距離は、ほとんどの対数的に$n$でスケールする。
私たちが選択した格子の族は、このスケーリングが実際に達成可能であることを示している。
我々は,表現論的ノイズモデルにおいて0.1%,エンタングリング計測ノイズモデルにおいて0.25%に近い閾値を示す,効率的なマッチングベースのデコーダを開発し,ベンチマークする。
重み付きチェック演算子と3の量子ビット接続を利用すると、我々の双曲型Floquet符号の1つが400個の物理量子ビットを使ってコード距離8の52個の論理量子ビットを符号化する。
小さなエラー率では、この符号に匹敵する論理的誤り抑制は、同じノイズモデルとデコーダを持つハニカム・フロケ符号を使用する場合、多くの物理量子ビット (1924) の5倍を必要とする。
A central goal in quantum error correction is to reduce the overhead of fault-tolerant quantum computing by increasing noise thresholds and reducing the number of physical qubits required to sustain a logical qubit. We introduce a potential path towards this goal based on a family of dynamically generated quantum error correcting codes that we call "hyperbolic Floquet codes.'' These codes are defined by a specific sequence of non-commuting two-body measurements arranged periodically in time that stabilize a topological code on a hyperbolic manifold with negative curvature. We focus on a family of lattices for $n$ qubits that, according to our prescription that defines the code, provably achieve a finite encoding rate $(1/8+2/n)$ and have a depth-3 syndrome extraction circuit. Similar to hyperbolic surface codes, the distance of the code at each time-step scales at most logarithmically in $n$. The family of lattices we choose indicates that this scaling is achievable in practice. We develop and benchmark an efficient matching-based decoder that provides evidence of a threshold near 0.1% in a phenomenological noise model and 0.25% in an entangling measurements noise model. Utilizing weight-two check operators and a qubit connectivity of 3, one of our hyperbolic Floquet codes uses 400 physical qubits to encode 52 logical qubits with a code distance of 8, i.e., it is a $[[400,52,8]]$ code. At small error rates, comparable logical error suppression to this code requires 5x as many physical qubits (1924) when using the honeycomb Floquet code with the same noise model and decoder. | 翻訳日:2024-06-24 20:27:44 公開日:2024-06-20 |
# 連続動的デカップリングのための最適制御
Optimal Control for Continuous Dynamical Decoupling ( http://arxiv.org/abs/2310.08417v2 ) ライセンス: Link先を確認 | Nicolas André da Costa Morazotti, Adonai Hilário da Silva, Gabriel Audi, Reginaldo de Jesus Napolitano, Felipe Fernandes Fanchini, | (参考訳) 本稿では,CDD(Continuous Dynamical Decoupling)のための最適設計フィールドを開発するための戦略を提案する。
提案手法は,一般的な1量子ビット量子ゲートの忠実度を最大化する最適連続体構成を求める。
これを実現するために, ボソン浴の代わりに補助クビットを用いて浄化法を実装した。
2ビットのユニタリ群に対して、準リーマン幾何学の枠組みを用いることで、測地方程式を導出し、数値的に解き、最適時間依存のハミルトニアン制御を得る。
また、測地線方程式の解を見つけるのに要する時間が長いため、測地線解のサブセットでニューラルネットワークを訓練し、任意の所望のゲートに対して時間依存の制御ハミルトニアンを迅速に生成することができる。
We introduce a strategy to develop optimally designed fields for continuous dynamical decoupling (CDD). Our methodology obtains the optimal continuous field configuration to maximize the fidelity of a general one-qubit quantum gate. To achieve this, considering dephasing-noise perturbations, we employ an auxiliary qubit instead of the boson bath to implement a purification scheme, which results in unitary dynamics. Employing the sub-Riemannian geometry framework for the two-qubit unitary group, we derive and numerically solve the geodesic equations, obtaining the optimal time-dependent control Hamiltonian. Also, due to the extended time required to find solutions to the geodesic equations, we train a neural network on a subset of geodesic solutions, enabling us to promptly generate the time-dependent control Hamiltonian for any desired gate, which is crucial in circuit optimization. | 翻訳日:2024-06-24 20:27:44 公開日:2024-06-20 |
# AcTExplore: 未知のオブジェクトのアクティブな触覚探索
AcTExplore: Active Tactile Exploration of Unknown Objects ( http://arxiv.org/abs/2310.08745v3 ) ライセンス: Link先を確認 | Amir-Hossein Shahidzadeh, Seong Jong Yoo, Pavan Mantripragada, Chahat Deep Singh, Cornelia Fermüller, Yiannis Aloimonos, | (参考訳) 触覚探索は、把握や操作といった基本的なロボティクスタスクのオブジェクト構造を理解する上で重要な役割を担っている。
しかし, 触覚センサを用いた物体の探索は, 大規模で未知の環境やセンサの検知範囲が限られているため, 極めて困難である。
そこで本研究では,対象物表面を自動的に探索する大規模物体再構成のための強化学習によって駆動される能動的触覚探索手法であるAcTExploreを提案する。
十分な探索によって,本アルゴリズムは触覚データを段階的に収集し,オブジェクトの3次元形状を再構築する。
本手法は, 未確認のYCBオブジェクトに対して平均95.97%のIoUカバレッジを達成し, 原始形状でのみ訓練する。
プロジェクトWebページ: https://prg.cs.umd.edu/AcTExplore
Tactile exploration plays a crucial role in understanding object structures for fundamental robotics tasks such as grasping and manipulation. However, efficiently exploring such objects using tactile sensors is challenging, primarily due to the large-scale unknown environments and limited sensing coverage of these sensors. To this end, we present AcTExplore, an active tactile exploration method driven by reinforcement learning for object reconstruction at scales that automatically explores the object surfaces in a limited number of steps. Through sufficient exploration, our algorithm incrementally collects tactile data and reconstructs 3D shapes of the objects as well, which can serve as a representation for higher-level downstream tasks. Our method achieves an average of 95.97% IoU coverage on unseen YCB objects while just being trained on primitive shapes. Project Webpage: https://prg.cs.umd.edu/AcTExplore | 翻訳日:2024-06-24 20:27:44 公開日:2024-06-20 |
# 未知のコストによるワンショット戦略分類
One-Shot Strategic Classification Under Unknown Costs ( http://arxiv.org/abs/2311.02761v3 ) ライセンス: Link先を確認 | Elan Rosenfeld, Nir Rosenfeld, | (参考訳) 戦略的分類の目標は、戦略的入力操作に堅牢な決定ルールを学習することである。
いくつかの最近の研究は未知のレスポンスを扱うが、彼らは反復的なモデル展開でオンライン設定を独占的に研究している。
しかし、パブリックポリシーでは、多くのドメインがある:$\unicode{x2014}$ 特に、共通のモチベーションのユースケース$\unicode{x2014}$複数のデプロイメントが実現不可能、あるいは、1つの悪いラウンドが受け入れられない。
このギャップに対処するために、未知の応答下でのワンショット戦略分類の正式な研究を開始し、1つの分類器に1回コミットする必要がある。
利用者のコスト関数の不確実性に着目して、広範囲のコストに対して、たとえ真のコストの小さな誤推定であっても、最悪の場合、自明な精度が伴うことを証明することから始める。
これを踏まえ、我々はタスクをミニマックス問題とみなし、不確実なコストに対する最悪のリスクを最小限に抑えることを目的としている。
完全バッチおよび確率的設定の両方に対して効率的なアルゴリズムを設計し、$\tilde{\mathcal{O}}(T^{-\frac{1}{2}})$の速度でミニマックス解に収束する(オフライン)ことを証明した。
分析の結果,戦略的応答から生じる重要な構造,特にコスト関数に対する双対ノルム正規化の値が明らかになった。
The goal of strategic classification is to learn decision rules which are robust to strategic input manipulation. Earlier works assume that these responses are known; while some recent works handle unknown responses, they exclusively study online settings with repeated model deployments. But there are many domains$\unicode{x2014}$particularly in public policy, a common motivating use case$\unicode{x2014}$where multiple deployments are infeasible, or where even one bad round is unacceptable. To address this gap, we initiate the formal study of one-shot strategic classification under unknown responses, which requires committing to a single classifier once. Focusing on uncertainty in the users' cost function, we begin by proving that for a broad class of costs, even a small mis-estimation of the true cost can entail trivial accuracy in the worst case. In light of this, we frame the task as a minimax problem, aiming to minimize worst-case risk over an uncertainty set of costs. We design efficient algorithms for both the full-batch and stochastic settings, which we prove converge (offline) to the minimax solution at the rate of $\tilde{\mathcal{O}}(T^{-\frac{1}{2}})$. Our analysis reveals important structure stemming from strategic responses, particularly the value of dual norm regularization with respect to the cost function. | 翻訳日:2024-06-24 20:17:56 公開日:2024-06-20 |
# 感度の観点でプロンプトはどのように異なるか?
How are Prompts Different in Terms of Sensitivity? ( http://arxiv.org/abs/2311.07230v2 ) ライセンス: Link先を確認 | Sheng Lu, Hendrik Schuff, Iryna Gurevych, | (参考訳) In-context Learning (ICL)は、最も人気のある学習パラダイムの1つである。
プロンプトエンジニアリングに焦点を当てた文献が増えている一方で、異なるモデルやタスク間でのプロンプトの効果を比較する体系的な分析が欠如している。
このギャップに対処するため,関数の感度に基づいた包括的プロンプト解析を提案する。
分析の結果、感度はモデル性能の教師なしプロキシであり、精度と強い負の相関を示すことが明らかとなった。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために,勾配に基づく塩分濃度スコアを用いた。
さらに, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
入力情報が少ない場合には,この手法が特に有用であることを示す。
我々の研究は、プロンプトの分析に新たな視点を与え、ICLのメカニズムをより深く理解するのに役立ちます。
In-context learning (ICL) has become one of the most popular learning paradigms. While there is a growing body of literature focusing on prompt engineering, there is a lack of systematic analysis comparing the effects of prompts across different models and tasks. To address this gap, we present a comprehensive prompt analysis based on the sensitivity of a function. Our analysis reveals that sensitivity is an unsupervised proxy for model performance, as it exhibits a strong negative correlation with accuracy. We use gradient-based saliency scores to empirically demonstrate how different prompts affect the relevance of input tokens to the output, resulting in different levels of sensitivity. Furthermore, we introduce sensitivity-aware decoding which incorporates sensitivity estimation as a penalty term in the standard greedy decoding. We show that this approach is particularly helpful when information in the input is scarce. Our work provides a fresh perspective on the analysis of prompts, and contributes to a better understanding of the mechanism of ICL. | 翻訳日:2024-06-24 20:17:56 公開日:2024-06-20 |
# 内部および横断的不整合を用いた教師なしマルチモーダルディープフェイク検出
Unsupervised Multimodal Deepfake Detection Using Intra- and Cross-Modal Inconsistencies ( http://arxiv.org/abs/2311.17088v2 ) ライセンス: Link先を確認 | Mulin Tian, Mahyar Khayatkhoei, Joe Mathai, Wael AbdAlmageed, | (参考訳) ディープフェイクビデオは、刑事司法、民主主義、個人の安全とプライバシーに悪影響を及ぼす可能性のある社会への脅威が増えていることを示している。
一方、ディープフェイクを大規模に検出することは、既存のディープフェイク生成方法からのラベル付きトレーニングデータを必要とすることが多い、非常に困難な作業である。
さらに、最も正確な教師付きディープフェイク検出方法でさえ、新しい生成方法を用いて生成されたディープフェイクには一般化しない。
本稿では,ビデオセグメント間のモーダル内およびモーダル間不整合を直接同定することにより,ディープフェイクビデオを検出する新しい教師なし手法を提案する。
提案手法の背後にある基本的な仮説は、ディープフェイクビデオでは動きやアイデンティティの不整合は避けられないというものである。
我々はこの仮説を数学的かつ経験的に支持し、理論解析に基づく手法の構築を進める。
提案手法は,従来の非教師付きディープフェイク検出手法を,挑戦的なFakeAVCelebデータセットよりも優れており,また,推論中に各アイデンティティに対してプリスタン(実)サンプルを必要とせず,また実ビデオのみにトレーニングされているため,特定のディープフェイク手法に頼らないため,任意の多数のアイデンティティに適用可能であり,高い次元での推測に頼らず,かつ,人間の専門家によって検証可能なモダリティ不整合の正確な位置を特定できるため,信頼性の高いディープフェイク検出手法である。
Deepfake videos present an increasing threat to society with potentially negative impact on criminal justice, democracy, and personal safety and privacy. Meanwhile, detecting deepfakes, at scale, remains a very challenging task that often requires labeled training data from existing deepfake generation methods. Further, even the most accurate supervised deepfake detection methods do not generalize to deepfakes generated using new generation methods. In this paper, we propose a novel unsupervised method for detecting deepfake videos by directly identifying intra-modal and cross-modal inconsistency between video segments. The fundamental hypothesis behind the proposed detection method is that motion or identity inconsistencies are inevitable in deepfake videos. We will mathematically and empirically support this hypothesis, and then proceed to constructing our method grounded in our theoretical analysis. Our proposed method outperforms prior state-of-the-art unsupervised deepfake detection methods on the challenging FakeAVCeleb dataset, and also has several additional advantages: it is scalable because it does not require pristine (real) samples for each identity during inference and therefore can apply to arbitrarily many identities, generalizable because it is trained only on real videos and therefore does not rely on a particular deepfake method, reliable because it does not rely on any likelihood estimation in high dimensions, and explainable because it can pinpoint the exact location of modality inconsistencies which are then verifiable by a human expert. | 翻訳日:2024-06-24 20:08:09 公開日:2024-06-20 |
# 二重ヒルベルト空間における非アーベル位相秩序の効率的な作成
Efficient Preparation of Nonabelian Topological Orders in the Doubled Hilbert Space ( http://arxiv.org/abs/2311.18497v2 ) ライセンス: Link先を確認 | Shang Liu, | (参考訳) 非アーベル位相順序とその随伴励起を実現することは、評価された目的である。
本研究では、この目的に対する新しいアプローチとして、密度行列の空間である二重ヒルベルト空間における位相秩序を量子的にシミュレートする手法を提案する。
すべての量子二重モデルの基底状態(古典的コードは最も単純な例)は、二重ヒルベルト空間において効率的に準備できることを示し、有限深さ局所演算しか必要としない。
対照的に、従来のヒルベルト空間ではそうではない: これらのモデルのいくつかのみが効率的に準備可能であることが知られている。
さらに、非自明なエノンブレイディング効果(アーベルと非アーベルの両方)はヒルベルト空間において実現可能であるが、密度行列の本質的な性質は励起を制限している。
Realizing nonabelian topological orders and their anyon excitations is an esteemed objective. In this work, we propose a novel approach towards this goal: quantum simulating topological orders in the doubled Hilbert space - the space of density matrices. We show that ground states of all quantum double models (toric code being the simplest example) can be efficiently prepared in the doubled Hilbert space; only finite-depth local operations are needed. In contrast, this is not the case in the conventional Hilbert space: Ground states of only some of these models are known to be efficiently preparable. Additionally, we find that nontrivial anyon braiding effects, both abelian and nonabelian, can be realized in the doubled Hilbert space, although the intrinsic nature of density matrices restricts possible excitations. | 翻訳日:2024-06-24 20:08:09 公開日:2024-06-20 |
# LLM A*:ロボットのためのA*検索を可能にするループ大言語モデルの人間
LLM A*: Human in the Loop Large Language Models Enabled A* Search for Robotics ( http://arxiv.org/abs/2312.01797v2 ) ライセンス: Link先を確認 | Hengjia Xiao, Peng Wang, | (参考訳) 本研究では,大規模言語モデル(LLMs)がロボットなどの移動体エージェントを,ループ内および対話的な方法で(パス)計画する上で,どのように役立つかに焦点を当てる。
LLM A* という新しいフレームワークは LLM のコモンセンスを活用することを目的としており、ユーティリティ最適化 A* は少数ショットに近い経路計画を容易にするために提案されている。
プロンプトは2つの主な目的に使用される。
1)環境、コスト、ヒューリスティックス等の重要な情報を提供する。
;
2) 中間計画結果に対するフィードバックを LLM に伝達する。
このアプローチでは、人間からのフィードバックを受け取り、計画プロセス全体の透過性(“ホワイトボックス”に相当)を人間に与えます。
さらに、コーディングに熟練していないコミュニティへの人工知能技術のアクセシビリティと包摂性を向上する。
A* と RL との比較分析により、LLM A* は探索空間においてより効率が高く、RL を上回りながら A* に匹敵する経路を達成できることを示した。
LLM A*のインタラクティブな性質は、協調的な人間ロボットタスクにデプロイするための有望なツールでもある。
Codes and Supplemental MaterialsはGitHubにある。
This research focuses on how Large Language Models (LLMs) can help with (path) planning for mobile embodied agents such as robots, in a human-in-the-loop and interactive manner. A novel framework named LLM A*, aims to leverage the commonsense of LLMs, and the utility-optimal A* is proposed to facilitate few-shot near-optimal path planning. Prompts are used for two main purposes: 1) to provide LLMs with essential information like environments, costs, heuristics, etc.; 2) to communicate human feedback on intermediate planning results to LLMs. This approach takes human feedback on board and renders the entire planning process transparent (akin to a `white box') to humans. Moreover, it facilitates code-free path planning, thereby fostering the accessibility and inclusiveness of artificial intelligence techniques to communities less proficient in coding. Comparative analysis against A* and RL demonstrates that LLM A* exhibits greater efficiency in terms of search space and achieves paths comparable to A* while outperforming RL. The interactive nature of LLM A* also makes it a promising tool for deployment in collaborative human-robot tasks. Codes and Supplemental Materials can be found at GitHub: https://github.com/speedhawk/LLM-A-. | 翻訳日:2024-06-24 20:08:09 公開日:2024-06-20 |
# AboutMe: ウェブページにおける自己記述を用いた英語事前学習データフィルタの効果の文書化
AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters ( http://arxiv.org/abs/2401.06408v3 ) ライセンス: Link先を確認 | Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman, Lauren F. Klein, Jesse Dodge, | (参考訳) 大規模言語モデル(LLM)の能力は事前学習データから引き出され、モデル開発はデータキュレーションから始まる。
しかしながら、この初期段階で保持または削除されるデータに関する決定は、過度に精査されている。
本研究では,Web テキストを,その社会的・地理的文脈に関連づけた事前学習データソースとして普及させた。
我々は、ウェブサイト作成者の1030万の自己記述からなる新しいデータセットを作成し、それらが誰であるか、どこから来たのか、そのトピック的関心事、社会的役割、地理的関連性といった情報を抽出する。
次に,10個の「品質」および「言語識別」(langID)フィルタが,これらの社会的次元に沿って変化するWebページに与える影響について,最初の研究を行った。
データキュレーションにおける暗黙的な選好を照らし出す実験では、いくつかの品質分類器がトピックのドメインフィルタのように振る舞うことを示し、langIDは世界の一部の地域の英語コンテンツを見渡すことができる。
全体として、我々の研究は、データキュレーションの実践の事前訓練とその社会的意味に関する新しい研究を奨励することを願っている。
Large language models' (LLMs) abilities are drawn from their pretraining data, and model development begins with data curation. However, decisions around what data is retained or removed during this initial stage are under-scrutinized. In our work, we ground web text, which is a popular pretraining data source, to its social and geographic contexts. We create a new dataset of 10.3 million self-descriptions of website creators, and extract information about who they are and where they are from: their topical interests, social roles, and geographic affiliations. Then, we conduct the first study investigating how ten "quality" and English language identification (langID) filters affect webpages that vary along these social dimensions. Our experiments illuminate a range of implicit preferences in data curation: we show that some quality classifiers act like topical domain filters, and langID can overlook English content from some regions of the world. Overall, we hope that our work will encourage a new line of research on pretraining data curation practices and its social implications. | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# ボース気体中におけるボゴリューボフ運動量対の抑制と非ガウス相関の出現
Suppression of Bogoliubov momentum pairing and emergence of non-Gaussian correlations in ultracold interacting Bose gases ( http://arxiv.org/abs/2401.15340v2 ) ライセンス: Link先を確認 | Jan-Philipp Bureik, Gaétan Hercé, Maxime Allemand, Antoine Tenart, Tommaso Roscilde, David Clément, | (参考訳) 相互作用する電子系や相互作用する量子流体のような強い相関の量子物質は、線形なゆらぎや自由準粒子では理解できない性質を持つ。
これらの系の量子ゆらぎは確かに大きく、非ガウス統計(英語版)を総称的に示している。これは高次相関を検査することによってのみ得られる性質であり、その量的再構成は実験と理論の両方に深刻な課題をもたらす。
相関量子物質の主要な例は、超流動ヘリウムとより最近では超低温原子によって実現された強い相互作用を持つボース流体である。
ここでは、運動量空間における単原子分解相関を通じて、弱い状態から強く相互作用する状態へのボース気体の相互作用を実験的に研究する。
我々は、相互作用が強くなるにつれて、相互作用の弱い状態の象徴である反対モーメントのモード間のボゴリューボフ対が抑制されることを観察する。
ボゴリボフ理論の予測から外れたこのことは、我々の系における非線形量子ゆらぎの役割を強調する数値シミュレーションによって確認されたように、強い相関関係の開始を示唆する。
さらに, 非ガウス相関の直接的シグネチャである, より強い相互作用を持つ非ゼロの4-演算累積物質も明らかにした。
これらの結果は、相互作用するボソンのアンサンブルにおける非ガウス相関の出現と物理的起源に光を当てた。
Strongly correlated quantum matter -- such as interacting electron systems or interacting quantum fluids -- possesses properties that cannot be understood in terms of linear fluctuations and free quasi-particles. Quantum fluctuations in these systems are indeed large and generically exhibit non-Gaussian statistics -- a property captured only by inspecting high-order correlations, whose quantitative reconstruction poses a formidable challenge to both experiments and theory alike. A prime example of correlated quantum matter is the strongly interacting Bose fluid, realized by superfluid Helium and, more recently, ultra-cold atoms. Here, we experimentally study interacting Bose gases from the weakly to the strongly interacting regime through single-atom-resolved correlations in momentum space. We observe that the Bogoliubov pairing among modes of opposite momenta, emblematic of the weakly interacting regime, is suppressed as interactions become stronger. This departure from the predictions of Bogoliubov theory signals the onset of the strongly correlated regime, as confirmed by numerical simulations that highlight the role of non-linear quantum fluctuations in our system. Additionally, our measurements unveil a non-zero four-operator cumulant at even stronger interactions, which is a direct signature of non-Gaussian correlations. These results shed light on the emergence and physical origin of non-Gaussian correlations in ensembles of interacting bosons. | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# macro-at-$k$メトリクスを用いた複数ラベル分類のための一貫性アルゴリズム
Consistent algorithms for multi-label classification with macro-at-$k$ metrics ( http://arxiv.org/abs/2401.16594v2 ) ライセンス: Link先を確認 | Erik Schultheis, Wojciech Kotłowski, Marek Wydmuch, Rohit Babbar, Strom Borman, Krzysztof Dembczyński, | (参考訳) 本稿では,マルチラベル分類における複雑な性能指標の最適化について,集団ユーティリティ・フレームワークを用いて検討する。
主に、それぞれのラベルに個別に適用されるバイナリ分類ユーティリティの合計に線形に分解可能なメトリクスに焦点を合わせ、各インスタンスに対して正確に$k$ラベルが予測される追加の要件を設けます。
これらの"macro-at-k$"メトリクスは、長い尾ラベルを持つ極端な分類問題に対して望ましい性質を持っている。
残念なことに、at-k$制約は、他の独立したバイナリ分類タスクを結合するので、標準的なマクロバグよりもはるかに難しい最適化問題に繋がる。
この問題を統計的に研究し、最適な分類器の存在と形態を証明し、Frank-Wolfe法に基づく統計的に一貫した実践的な学習アルゴリズムを提案する。
興味深いことに、本研究の主な成果は、ラベルの混乱行列の非線形関数である、より一般的なメトリクスに関するものである。
実証的な結果は,提案手法の競争性能を示す証拠となる。
We consider the optimization of complex performance metrics in multi-label classification under the population utility framework. We mainly focus on metrics linearly decomposable into a sum of binary classification utilities applied separately to each label with an additional requirement of exactly $k$ labels predicted for each instance. These "macro-at-$k$" metrics possess desired properties for extreme classification problems with long tail labels. Unfortunately, the at-$k$ constraint couples the otherwise independent binary classification tasks, leading to a much more challenging optimization problem than standard macro-averages. We provide a statistical framework to study this problem, prove the existence and the form of the optimal classifier, and propose a statistically consistent and practical learning algorithm based on the Frank-Wolfe method. Interestingly, our main results concern even more general metrics being non-linear functions of label-wise confusion matrices. Empirical results provide evidence for the competitive performance of the proposed approach. | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# LLMは動的システムの統治原理を学習し、文脈内ニューラルスケーリング法則を明らかにする
LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law ( http://arxiv.org/abs/2402.00795v2 ) ライセンス: Link先を確認 | Toni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls, | (参考訳) 事前訓練された大言語モデル(LLM)は、時系列予測を含むゼロショットタスクを実行するのに驚くほど効果的である。
しかしながら、そのような機能の背後にあるメカニズムを理解することは、モデルの複雑さのために非常に難しいままである。
進化が物理的関心の原理によって支配される力学系の振る舞いを外挿するLLMの能力について検討する。
この結果から,LLaMA2はテキストを中心に訓練された言語モデルであり,微調整やプロンプトエンジニアリングを伴わずに,動的システム時系列の正確な予測を行うことができた。
さらに、学習した物理規則の精度は、入力コンテキストウィンドウの長さによって増大し、ニューラルネットワークのスケーリング法則の文脈内バージョンが明らかになる。
その過程で,LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。
Pretrained large language models (LLMs) are surprisingly effective at performing zero-shot tasks, including time-series forecasting. However, understanding the mechanisms behind such capabilities remains highly challenging due to the complexity of the models. We study LLMs' ability to extrapolate the behavior of dynamical systems whose evolution is governed by principles of physical interest. Our results show that LLaMA 2, a language model trained primarily on texts, achieves accurate predictions of dynamical system time series without fine-tuning or prompt engineering. Moreover, the accuracy of the learned physical rules increases with the length of the input context window, revealing an in-context version of neural scaling law. Along the way, we present a flexible and efficient algorithm for extracting probability density functions of multi-digit numbers directly from LLMs. | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# 推論経路集約の観点からの言語モデルの推論能力の理解
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation ( http://arxiv.org/abs/2402.03268v3 ) ライセンス: Link先を確認 | Xinyi Wang, Alfonso Amayuelas, Kexun Zhang, Liangming Pan, Wenhu Chen, William Yang Wang, | (参考訳) 事前訓練された言語モデル(LM)は、明示的な微調整なしで複雑な推論を行うことができる。
本研究では,次の学習目標を用いた事前学習が,そのような推論能力の出現にどのように寄与するかを理解するために,事前学習時に見られる間接的推論経路を集約することにより,LMを新たな結論の導出とみなすことができることを示す。
この視点は、知識グラフを用いた論理推論(KG)とチェーン・オブ・シント推論(CoT)という2つの重要な推論の場合に有効であることがわかった。
より具体的には、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
学習されたLM分布の分析により、関連するランダムウォークパス確率の重み付け和が、LMの理由を説明する合理的な方法であることが示された。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかになり、ラベルのないランダムウォーク推論パスを拡大することで、実世界のマルチステップ推論性能が向上する可能性が示唆された。
コード:https://github.com/WANGXinyiLinda/LM_random_walk
Pre-trained language models (LMs) are able to perform complex reasoning without explicit fine-tuning. To understand how pre-training with a next-token prediction objective contributes to the emergence of such reasoning capability, we propose that we can view an LM as deriving new conclusions by aggregating indirect reasoning paths seen at pre-training time. We found this perspective effective in two important cases of reasoning: logic reasoning with knowledge graphs (KGs) and chain-of-thought (CoT) reasoning. More specifically, we formalize the reasoning paths as random walk paths on the knowledge/reasoning graphs. Analyses of learned LM distributions suggest that a weighted sum of relevant random walk path probabilities is a reasonable way to explain how LMs reason. Experiments and analysis on multiple KG and CoT datasets reveal the effect of training on random walk paths and suggest that augmenting unlabeled random walk reasoning paths can improve real-world multi-step reasoning performance. code: https://github.com/WANGXinyiLinda/LM_random_walk | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# ゼロショット一般化のための専門専門家の道筋の学習
Learning to Route Among Specialized Experts for Zero-Shot Generalization ( http://arxiv.org/abs/2402.05859v2 ) ライセンス: Link先を確認 | Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel, | (参考訳) 近年、パラメータ効率の良い微調整によって特定のタスクやドメインに特化される「エキスパート」言語モデルが広く普及している。
ゼロショットの一般化を改善するために、専門家言語モデルの大規模なコレクションをどうやって再利用できるのか?
本研究では,パラメータ効率のよい微調整により生成した特殊モジュール間の経路を学習するPATGOOSE(Post-Hoc Adaptive Tokenwise Gating Over a Ocean of Specialized Experts)を提案する。
特殊モデル間の経路を学習する過去の方法とは異なり、PHATGOOSEは、各トークンとモデルの各層で異なる専門家が適応的に選択できれば、ゼロショットの一般化が改善される可能性を探っている。
重要なことに、我々の手法はポストホックであり、特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算を必要とする。
特殊モデル収集とゼロショット一般化ベンチマークを対象とする実験では、PHATGOOSEはポストホックルーティングの過去の手法より優れており、場合によっては明示的なマルチタスクトレーニング(同時データアクセスを必要とする)よりも優れていた。
PHATGOOSEが学習したルーティング戦略をよりよく理解するために,PHATGOOSEの性能が適応的かつモジュールごとのエキスパート選択に起因していることを示す定性的な実験を行った。
専門知識のリサイクルによるゼロショット一般化の改善に向けた今後の取り組みを支援するため,全コードをリリースする。
Recently, there has been a widespread proliferation of "expert" language models that are specialized to a specific task or domain through parameter-efficient fine-tuning. How can we recycle large collections of expert language models to improve zero-shot generalization to unseen tasks? In this work, we propose Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE), which learns to route among specialized modules that were produced through parameter-efficient fine-tuning. Unlike past methods that learn to route among specialized models, PHATGOOSE explores the possibility that zero-shot generalization will be improved if different experts can be adaptively chosen for each token and at each layer in the model. Crucially, our method is post-hoc - it does not require simultaneous access to the datasets used to create the specialized models and only requires a modest amount of additional compute after each expert model is trained. In experiments covering a range of specialized model collections and zero-shot generalization benchmarks, we find that PHATGOOSE outperforms past methods for post-hoc routing and, in some cases, outperforms explicit multitask training (which requires simultaneous data access). To better understand the routing strategy learned by PHATGOOSE, we perform qualitative experiments to validate that PHATGOOSE's performance stems from its ability to make adaptive per-token and per-module expert choices. We release all of our code to support future work on improving zero-shot generalization by recycling specialized experts. | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# 2均質ニューラルネットワークにおける微小初期化近傍の方向収束
Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks ( http://arxiv.org/abs/2402.09226v2 ) ライセンス: Link先を確認 | Akshay Kumar, Jarvis Haupt, | (参考訳) そこで本研究では,各重みが始点付近で初期化される小さな初期化のための2次元均一ニューラルネットワークの勾配流れのダイナミクスについて検討する。
正方形とロジスティックの両方の損失に対して、十分に小さな初期化の場合、勾配流のダイナミクスは、ニューラルネットワークの重みをニューラルネットワークの出力とトレーニングデータセットの対応するラベルとの相関を定量化するニューラルネットワーク関数のKKT(Karush-Kuhn-Tucker)点にほぼ収束させるのに十分な時間を原点近傍で過ごすことが示されている。
正方形損失のために、ニューラルネットワークは原点に近い初期化時にサドル・アンド・サドル力学を実行することが観察されている。
このことから,本論文では,あるサドル点近傍において,小さな大きさの重み間でも同様の方向収束性を示す。
This paper examines gradient flow dynamics of two-homogeneous neural networks for small initializations, where all weights are initialized near the origin. For both square and logistic losses, it is shown that for sufficiently small initializations, the gradient flow dynamics spend sufficient time in the neighborhood of the origin to allow the weights of the neural network to approximately converge in direction to the Karush-Kuhn-Tucker (KKT) points of a neural correlation function that quantifies the correlation between the output of the neural network and corresponding labels in the training data set. For square loss, it has been observed that neural networks undergo saddle-to-saddle dynamics when initialized close to the origin. Motivated by this, this paper also shows a similar directional convergence among weights of small magnitude in the neighborhood of certain saddle points. | 翻訳日:2024-06-24 19:58:24 公開日:2024-06-20 |
# LEMMA:外部知識を付加したLVLMによるマルチモーダル誤報検出に向けて
LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation ( http://arxiv.org/abs/2402.11943v2 ) ライセンス: Link先を確認 | Keyang Xuan, Li Yi, Fan Yang, Ruochen Wu, Yi R. Fung, Heng Ji, | (参考訳) 社会プラットフォーム上でのマルチモーダルな誤情報の増加は、個人や社会にとって大きな課題となっている。
その信頼性の向上と、テキストの誤報と比較して幅広い影響により、検出は複雑になり、多様なメディアタイプにわたる堅牢な推論と、正確な検証のための深い知識が必要である。
LVLM(Large Vision Language Model)の出現は、この問題に対する潜在的な解決策を提供する。
LVLMは、視覚情報やテキスト情報を処理する能力を活用し、複雑な情報を認識し、強力な推論スキルを示す有望な能力を示す。
本稿では,マルチモーダル誤情報検出におけるLVLMの可能性について検討する。
LVLM は LLM よりも優れた性能を示すが、その深い推論は証拠の欠如を伴って限られたパワーを示す可能性がある。
これらの観測結果に基づき,LVLMによる外部知識増強によるマルチモーダル誤報検出手法を提案する。
LEMMAは、LVLMの直観と推論能力を活用し、それらを外部知識で強化し、誤情報検出の精度を高める。
提案手法は,Twitter と Fakeddit のデータセットにおいて,上位ベースライン LVLM の精度を 7% と 13% に向上させる。
The rise of multimodal misinformation on social platforms poses significant challenges for individuals and societies. Its increased credibility and broader impact compared to textual misinformation make detection complex, requiring robust reasoning across diverse media types and profound knowledge for accurate verification. The emergence of Large Vision Language Model (LVLM) offers a potential solution to this problem. Leveraging their proficiency in processing visual and textual information, LVLM demonstrates promising capabilities in recognizing complex information and exhibiting strong reasoning skills. In this paper, we first investigate the potential of LVLM on multimodal misinformation detection. We find that even though LVLM has a superior performance compared to LLMs, its profound reasoning may present limited power with a lack of evidence. Based on these observations, we propose LEMMA: LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation. LEMMA leverages LVLM intuition and reasoning capabilities while augmenting them with external knowledge to enhance the accuracy of misinformation detection. Our method improves the accuracy over the top baseline LVLM by 7% and 13% on Twitter and Fakeddit datasets respectively. | 翻訳日:2024-06-24 19:46:30 公開日:2024-06-20 |
# TOM:地球観測のための拡張可能なデータセット
Major TOM: Expandable Datasets for Earth Observation ( http://arxiv.org/abs/2402.12095v2 ) ライセンス: Link先を確認 | Alistair Francis, Mikolaj Czerkawski, | (参考訳) ディープラーニングモデルはますますデータに飢えており、トレーニングに必要なデータセットの収集とコンパイルにはかなりのリソースを必要としている。
しかしながら、EOにおけるデータセットの展望は比較的微妙であり、さまざまなフォーマットやデータ構造による相互運用性は困難である。
より大きなデータセットを構築し、労力の重複を最小限に抑えるためには、複数のデータセットを組み合わせてアクセスするための共有フレームワークが必要です。
ここでは、この拡張可能なフレームワークとして、Major TOM(地球観測メタセット)を提案する。
主に、グリッドポイントのセットに基づく地理的インデックスシステムと、異なるソースを持つ複数のデータセットをマージ可能なメタデータ構造で構成されている。
フレームワークとしてのMajor TOMの仕様に加えて、この研究は大きなオープンアクセスデータセットMajorTOM-Coreも提示している。
このデータセットはコミュニティにすぐに役立つリソースを提供し、Major TOMエコシステムへの将来の追加のテンプレートとして機能する。
アクセス:https://huggingface.co/Major-TOM
Deep learning models are increasingly data-hungry, requiring significant resources to collect and compile the datasets needed to train them, with Earth Observation (EO) models being no exception. However, the landscape of datasets in EO is relatively atomised, with interoperability made difficult by diverse formats and data structures. If ever larger datasets are to be built, and duplication of effort minimised, then a shared framework that allows users to combine and access multiple datasets is needed. Here, Major TOM (Terrestrial Observation Metaset) is proposed as this extensible framework. Primarily, it consists of a geographical indexing system based on a set of grid points and a metadata structure that allows multiple datasets with different sources to be merged. Besides the specification of Major TOM as a framework, this work also presents a large, open-access dataset, MajorTOM-Core, which covers the vast majority of the Earth's land surface. This dataset provides the community with both an immediately useful resource, as well as acting as a template for future additions to the Major TOM ecosystem. Access: https://huggingface.co/Major-TOM | 翻訳日:2024-06-24 19:46:30 公開日:2024-06-20 |
# 私の指示に従ってビーンをスパイルする:検索・拡張生成システムからのスケーラブルなデータ抽出
Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems ( http://arxiv.org/abs/2402.17840v2 ) ライセンス: Link先を確認 | Zhenting Qi, Hanlin Zhang, Eric Xing, Sham Kakade, Himabindu Lakkaraju, | (参考訳) Retrieval-Augmented Generation (RAG)は、テスト時に外部知識を組み込むことで、事前訓練されたモデルを改善する。
Retrieval-In-Context RAG Language Models (LM) におけるデータストアリークのリスクについて検討する。
本稿では,命令調整されたLMを組み込んだRAGシステムのデータストアから,命令追従機能を利用してテキストデータを冗長に抽出できることを,インプロンプトインジェクションにより示す。
この脆弱性は、Llama2、Mistral/Mixtral、Vicuna、SOLAR、WizardLM、Qwen1.5、Platypus2にまたがる幅広い現代のLMに存在し、モデルのサイズが大きくなるにつれて、エクスプロイビリティが悪化する。
我々は,本研究をRAGモデルGPTに拡張し,ランダムに選択された25個のGPTに対して,100%の成功率で,最大2つのクエリでデータストアリークを発生させる攻撃を設計し,本書から77,000語,1,569,000語のコーパスから3%の確率でテキストデータを冗長に抽出する。
Retrieval-Augmented Generation (RAG) improves pre-trained models by incorporating external knowledge at test time to enable customized adaptation. We study the risk of datastore leakage in Retrieval-In-Context RAG Language Models (LMs). We show that an adversary can exploit LMs' instruction-following capabilities to easily extract text data verbatim from the datastore of RAG systems built with instruction-tuned LMs via prompt injection. The vulnerability exists for a wide range of modern LMs that span Llama2, Mistral/Mixtral, Vicuna, SOLAR, WizardLM, Qwen1.5, and Platypus2, and the exploitability exacerbates as the model size scales up. Extending our study to production RAG models GPTs, we design an attack that can cause datastore leakage with a 100% success rate on 25 randomly selected customized GPTs with at most 2 queries, and we extract text data verbatim at a rate of 41% from a book of 77,000 words and 3% from a corpus of 1,569,000 words by prompting the GPTs with only 100 queries generated by themselves. | 翻訳日:2024-06-24 19:46:30 公開日:2024-06-20 |
# 対称性変換の生成モデル
A Generative Model of Symmetry Transformations ( http://arxiv.org/abs/2403.01946v2 ) ライセンス: Link先を確認 | James Urquhart Allingham, Bruno Kacper Mlodozeniec, Shreyas Padhy, Javier Antorán, David Krueger, Richard E. Turner, Eric Nalisnick, José Miguel Hernández-Lobato, | (参考訳) データの対称性変換を正しく捉えることは、強力な一般化能力を持つ効率的なモデルにつながるが、対称性を取り入れた手法は、しばしば事前の知識を必要とする。
最近の進歩はデータセットから直接これらの対称性を学ぶことにあるが、この研究の大部分は差別的な設定に焦点を当てている。
本稿では,グループ理論のアイデアからインスピレーションを得て,データの近似対称性を明示的に捉えた生成モデルを構築する。
この結果、既定の可能な対称性の広いセットが与えられた場合、これらの対称性が実際に存在するかどうかを学習するモデルが導かれる。
我々のモデルは、データ拡張のための生成プロセスと見なすことができる。
生成モデルを学習し、アフィンおよび色変換の下で対称性を解釈可能な方法で捕捉する能力を実証的に示すための簡単なアルゴリズムを提供する。
対称性モデルと標準生成モデルを組み合わせることで,テストログ類似度が高くなり,データ効率が向上する。
Correctly capturing the symmetry transformations of data can lead to efficient models with strong generalization capabilities, though methods incorporating symmetries often require prior knowledge. While recent advancements have been made in learning those symmetries directly from the dataset, most of this work has focused on the discriminative setting. In this paper, we take inspiration from group theoretic ideas to construct a generative model that explicitly aims to capture the data's approximate symmetries. This results in a model that, given a prespecified broad set of possible symmetries, learns to what extent, if at all, those symmetries are actually present. Our model can be seen as a generative process for data augmentation. We provide a simple algorithm for learning our generative model and empirically demonstrate its ability to capture symmetries under affine and color transformations, in an interpretable way. Combining our symmetry model with standard generative models results in higher marginal test-log-likelihoods and improved data efficiency. | 翻訳日:2024-06-24 19:36:33 公開日:2024-06-20 |
# 非計算基底におけるガウスフェルミオン状態の効率的な表現
Efficient Representation of Gaussian Fermionic Pure States in Non-Computational Bases ( http://arxiv.org/abs/2403.03289v2 ) ライセンス: Link先を確認 | Babak Tarighi, Reyhaneh Khasseh, M. A. Rajabpour, | (参考訳) 本稿では,量子スピン系およびフェルミオンモデルにおいて,ガウスのフェルミオン状態を表現するための革新的なアプローチを紹介する。
生成確率やシャノンエントロピーなどの重要な量を正確に計算するために必要となる((\phi, \frac{\pi}{2}, \alpha))。
本稿では,基底変換を単純化するだけでなく,計算の複雑さを低減し,大規模システムの振幅を効率的に計算できる新しいアルゴリズムを提案する。
我々の重要な貢献は、振幅計算を反対称行列からサブマトリクスのファフィアン計算に変換する技術である。
応用として、周期的境界条件と開境界条件の両方を考慮して、臨界横フィールドイジングチェイン内の様々な基底と構成の生成確率を決定する。
本研究の目的は、周期系における生成確率の対数スケーリングを特徴付ける普遍定数項と、開系の場合の対数項の係数を特徴付けることにより、構成と基底を分類することである。
開放系の場合、この係数は境界条件変化作用素の中心電荷と共形重みに影響される。
この研究は、量子情報理論と多体物理学の研究者が利用できるツールキットを拡張し、非標準量子基底におけるガウスフェルミオン状態の探索に、より効率的でエレガントなソリューションを提供する。
This paper introduces an innovative approach for representing Gaussian fermionic states, pivotal in quantum spin systems and fermionic models, within a range of alternative quantum bases. We focus on transitioning these states from the conventional computational (\sigma^z) basis to more complex bases, such as ((\phi, \frac{\pi}{2}, \alpha)), which are essential for accurately calculating critical quantities like formation probabilities and Shannon entropy. We present a novel algorithm that not only simplifies the basis transformation but also reduces computational complexity, making it feasible to calculate amplitudes of large systems efficiently. Our key contribution is a technique that translates amplitude calculations into the Pfaffian computation of submatrices from an antisymmetric matrix, a process facilitated by understanding domain wall relationships across different bases. As an application, we will determine the formation probabilities for various bases and configurations within the critical transverse field Ising chain, considering both periodic and open boundary conditions. We aim to categorize the configurations and bases by examining the universal constant term that characterizes the scaling of the logarithm of the formation probability in the periodic system, as well as the coefficient of the logarithmic term in the case of open systems. In the open system scenario, this coefficient is influenced by the central charge and the conformal weight of the boundary condition-changing operator. This work is set to expand the toolkit available for researchers in quantum information theory and many-body physics, providing a more efficient and elegant solution for exploring Gaussian fermionic states in non-standard quantum bases. | 翻訳日:2024-06-24 19:36:33 公開日:2024-06-20 |
# BCI-EEG復号のための位相空間に基づく幾何学的ニューラルネットワーク
Geometric Neural Network based on Phase Space for BCI-EEG decoding ( http://arxiv.org/abs/2403.05645v2 ) ライセンス: Link先を確認 | Igor Carrara, Bruno Aristimunha, Marie-Constance Corsi, Raphael Y. de Camargo, Sylvain Chevallier, Théodore Papadopoulo, | (参考訳) 深層学習(DL)アルゴリズムの脳信号解析への統合は、コンピュータビジョンのような分野、特に脳-コンピュータインタフェース(BCI)における成功と比較してまだ初期段階にあり、脳の活動は筋肉の制御を必要とせずに外部デバイスを制御するためにデコードされる。
脳波検査(EEG)は、非侵襲的で費用効果の高い性質と時間分解能の優れたBCIシステムを設計するために広く採用されている選択である。
それでも、限られたトレーニングデータ、信号とノイズの低さ、およびオブジェクト内およびオブジェクト間の大きなばらつきを犠牲にしている。
最後に、多くの電極でBCIシステムを構築するには長い時間がかかるため、研究所外のBCIで信頼性の高いDLアーキテクチャが広く採用されるのを妨げている。
採用を改善するためには、例えば、少数の電極で動作する信頼性の高いアルゴリズムを使用して、ユーザの快適さを改善する必要がある。
アプローチ: 本研究の目的は, 限られた電極数で効率的な結果を提供するDLアルゴリズムの開発である。
SPDNetを用いた拡張共分散法を利用して,SPDNet$_{\psi}$アーキテクチャを提案する。
評価は5倍のクロスバリデーションで行われ、モータコルテックス上に位置する電極は3つしかない。
この方法論は、MOABB(Mother Of All BCI Benchmark)フレームワークを使用して、オープンソースのデータセットから100近い被験者でテストされた。
主な結果: SPDNet$_{\psi}$の結果は、SPDNetと組み合わせた拡張アプローチがMIデコーディングにおける現在の最先端DLアーキテクチャを著しく上回っていることを示している。
意義:この新しいアーキテクチャは、トレーニング可能なパラメータの少ないことと、カーボンフットプリントの削減によって説明できる。
The integration of Deep Learning (DL) algorithms on brain signal analysis is still in its nascent stages compared to their success in fields like Computer Vision, especially in Brain-Computer Interface (BCI), where the brain activity is decoded to control external devices without requiring muscle control. Electroencephalography (EEG) is a widely adopted choice for designing BCI systems due to its non-invasive and cost-effective nature and excellent temporal resolution. Still, it comes at the expense of limited training data, poor signal-to-noise, and a large variability across and within-subject recordings. Finally, setting up a BCI system with many electrodes takes a long time, hindering the widespread adoption of reliable DL architectures in BCIs outside research laboratories. To improve adoption, we need to improve user comfort using, for instance, reliable algorithms that operate with few electrodes. Approach: Our research aims to develop a DL algorithm that delivers effective results with a limited number of electrodes. Taking advantage of the Augmented Covariance Method with SPDNet, we propose the SPDNet$_{\psi}$ architecture and analyze its performance and computational impact, as well as the interpretability of the results. The evaluation is conducted on 5-fold cross-validation, using only three electrodes positioned above the Motor Cortex. The methodology was tested on nearly 100 subjects from several open-source datasets using the Mother Of All BCI Benchmark (MOABB) framework. Main results: The results of our SPDNet$_{\psi}$ demonstrate that the augmented approach combined with the SPDNet significantly outperforms all the current state-of-the-art DL architecture in MI decoding. Significance: This new architecture is explainable, with a low number of trainable parameters and a reduced carbon footprint. | 翻訳日:2024-06-24 19:36:33 公開日:2024-06-20 |
# ArgMed-Agents:argumentation Schemes による LLM Disscusion による説明可能な臨床診断
ArgMed-Agents: Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes ( http://arxiv.org/abs/2403.06294v2 ) ライセンス: Link先を確認 | Shengxin Hong, Liang Xiao, Xin Zhang, Jianxia Chen, | (参考訳) 臨床推論において、大きな言語モデル(LLM)を使用することには2つの大きな障壁がある。
第一に、LLMは自然言語処理(NLP)タスクにおいて大きな可能性を秘めているが、複雑な推論や計画における性能は期待に届かなかった。
第2に、LLMは解釈不能な方法を使用して、臨床医の認知過程と根本的に異なる臨床的決定を行う。
これはユーザーの不信につながる。
本稿では, LLMをベースとしたエージェントが, 相互作用による説明可能な臨床意思決定を行えるようにするためのマルチエージェントフレームワークArgMed-Agentsを提案する。
ArgMed-Agentsは、Argumentation Scheme for Clinical discussions(臨床推論における認知過程をモデル化するための推論メカニズム)を介して自己論証反復を行い、矛盾する関係を表す有向グラフとして議論プロセスを構築する。
究極的には、決定を支持するための合理的で一貫性のある一連の議論を特定するために記号的解法を用いる。
我々は、ArgMed-Agentsの形式モデルを構築し、理論的保証の予想を示す。
ArgMed-Agentsは、LSMが自己指向的な推論の説明を生成することによって、臨床議論的推論の過程を模倣することを可能にする。
セットアップ実験の結果,ArgMed-Agentsは,他のプロンプト手法と比較して,複雑な臨床的意思決定推論問題の精度を向上させるだけでなく,信頼性を高めるための意思決定説明を提供することがわかった。
There are two main barriers to using large language models (LLMs) in clinical reasoning. Firstly, while LLMs exhibit significant promise in Natural Language Processing (NLP) tasks, their performance in complex reasoning and planning falls short of expectations. Secondly, LLMs use uninterpretable methods to make clinical decisions that are fundamentally different from the clinician's cognitive processes. This leads to user distrust. In this paper, we present a multi-agent framework called ArgMed-Agents, which aims to enable LLM-based agents to make explainable clinical decision reasoning through interaction. ArgMed-Agents performs self-argumentation iterations via Argumentation Scheme for Clinical Discussion (a reasoning mechanism for modeling cognitive processes in clinical reasoning), and then constructs the argumentation process as a directed graph representing conflicting relationships. Ultimately, use symbolic solver to identify a series of rational and coherent arguments to support decision. We construct a formal model of ArgMed-Agents and present conjectures for theoretical guarantees. ArgMed-Agents enables LLMs to mimic the process of clinical argumentative reasoning by generating explanations of reasoning in a self-directed manner. The setup experiments show that ArgMed-Agents not only improves accuracy in complex clinical decision reasoning problems compared to other prompt methods, but more importantly, it provides users with decision explanations that increase their confidence. | 翻訳日:2024-06-24 19:36:33 公開日:2024-06-20 |
# 時間的Oracleの混在を伴わない実践的アワード強化学習のグローバルな最適化に向けて
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles ( http://arxiv.org/abs/2403.11925v5 ) ライセンス: Link先を確認 | Bhrij Patel, Wesley A. Suttle, Alec Koppel, Vaneet Aggarwal, Brian M. Sadler, Amrit Singh Bedi, Dinesh Manocha, | (参考訳) 平均回帰強化学習の文脈では、固定された政策の下でマルコフ連鎖が定常分布を達成するためには、混合時間のオラクル知識が必要であり、政策勾配法のグローバル収束に重要な課題を生じさせる。
この要件は、大きな状態空間を持つ環境での混合時間推定の困難さと費用が原因で特に問題となる。
この制限に対処するために,マルチレベルモンテカルロ勾配推定器を組み込んだマルチレベルアクタ・クリティカル(MAC)フレームワークを検討する。
提案手法では, 時間知識の混合への依存を効果的に緩和する。
さらに,本手法は先行研究から知られている$\mathcal{O}\left( \sqrt{\tau_{mix}} \right)の最も厳密な依存性を示す。
2Dグリッドの世界における目標達成ナビゲーション実験により、MACは、平均的な報酬設定のために既存の最先端のポリシー勾配に基づく手法よりも優れていることを示す。
In the context of average-reward reinforcement learning, the requirement for oracle knowledge of the mixing time, a measure of the duration a Markov chain under a fixed policy needs to achieve its stationary distribution, poses a significant challenge for the global convergence of policy gradient methods. This requirement is particularly problematic due to the difficulty and expense of estimating mixing time in environments with large state spaces, leading to the necessity of impractically long trajectories for effective gradient estimation in practical applications. To address this limitation, we consider the Multi-level Actor-Critic (MAC) framework, which incorporates a Multi-level Monte-Carlo (MLMC) gradient estimator. With our approach, we effectively alleviate the dependency on mixing time knowledge, a first for average-reward MDPs global convergence. Furthermore, our approach exhibits the tightest available dependence of $\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$known from prior work. With a 2D grid world goal-reaching navigation experiment, we demonstrate that MAC outperforms the existing state-of-the-art policy gradient-based method for average reward settings. | 翻訳日:2024-06-24 19:36:33 公開日:2024-06-20 |
# マスクオートエンコーダにおける残差接続と抽象的特徴学習
Residual Connections Harm Abstract Feature Learning in Masked Autoencoders ( http://arxiv.org/abs/2404.10947v2 ) ライセンス: Link先を確認 | Xiao Zhang, Ruoxi Jiang, William Gao, Rebecca Willett, Michael Maire, | (参考訳) 残差ネットワーク内のアイデンティティショートカットの強度を減衰させる重み付け係数を加えることで、最先端の自己教師付きマスク自動符号化(MAE)パラダイムにおける意味的特徴学習が大幅に向上することを示した。
MAEのVIT-B/16バックボーン内のIDショートカットの変更により、ImageNet上の線形探索精度は67.8%から72.7%に向上する。
この大きなギャップは、残差接続構造が勾配伝播を促進する上で重要な役割を担っているが、より深い層に浅い表現のエコーを注入することにより、抽象学習の能力を低下させる有害な副作用があることを示唆している。
層深さが増加するにつれてアイデンティティ接続の寄与を単調に減少させる定式化により、この欠点を緩和する。
我々の設計は、ネットワークのトレーニング容易性に影響を与えることなく、機能抽象化の段階的な開発を促進する。
修正された残差ネットワークで学習した表現を分析し、低効率な特徴ランクと下流タスク性能の相関関係を見出した。
We demonstrate that adding a weighting factor to decay the strength of identity shortcuts within residual networks substantially improves semantic feature learning in the state-of-the-art self-supervised masked autoencoding (MAE) paradigm. Our modification to the identity shortcuts within a VIT-B/16 backbone of an MAE boosts linear probing accuracy on ImageNet from 67.8% to 72.7%. This significant gap suggests that, while residual connection structure serves an essential role in facilitating gradient propagation, it may have a harmful side effect of reducing capacity for abstract learning by virtue of injecting an echo of shallower representations into deeper layers. We ameliorate this downside via a fixed formula for monotonically decreasing the contribution of identity connections as layer depth increases. Our design promotes the gradual development of feature abstractions, without impacting network trainability. Analyzing the representations learned by our modified residual networks, we find correlation between low effective feature rank and downstream task performance. | 翻訳日:2024-06-24 19:26:42 公開日:2024-06-20 |
# ニューラルネットワークの3次元拡散による部分認識形状生成
Part-aware Shape Generation with Latent 3D Diffusion of Neural Voxel Fields ( http://arxiv.org/abs/2405.00998v3 ) ライセンス: Link先を確認 | Yuhang Huang, SHilong Zou, Xinwang Liu, Kai Xu, | (参考訳) 本稿では,神経ボクセル場生成のための新しい潜時3次元拡散モデルを提案する。
既存の手法と比較して、高品質で正確な部分認識生成を保証するための2つの重要な設計がある。
一方,ニューラルボクセル場の3次元拡散過程を導入し,より高分解能でリッチなテクスチャや幾何学的詳細を正確に捉えることが可能となる。
一方、部分認識形状デコーダを導入して、部分符号を神経ボクセル場に統合し、正確な部分分解を誘導し、高品質なレンダリング結果を生成する。
実験と最先端手法との比較により,4種類のデータにまたがるアプローチを検証した。
その結果,既存の最先端手法よりも優れた部品認識形状生成において,提案手法の優れた生成能力を示した。
This paper presents a novel latent 3D diffusion model for the generation of neural voxel fields, aiming to achieve accurate part-aware structures. Compared to existing methods, there are two key designs to ensure high-quality and accurate part-aware generation. On one hand, we introduce a latent 3D diffusion process for neural voxel fields, enabling generation at significantly higher resolutions that can accurately capture rich textural and geometric details. On the other hand, a part-aware shape decoder is introduced to integrate the part codes into the neural voxel fields, guiding the accurate part decomposition and producing high-quality rendering results. Through extensive experimentation and comparisons with state-of-the-art methods, we evaluate our approach across four different classes of data. The results demonstrate the superior generative capabilities of our proposed method in part-aware shape generation, outperforming existing state-of-the-art methods. | 翻訳日:2024-06-24 19:26:42 公開日:2024-06-20 |
# 多項式ガウス積分作用素のポテンシャルと絡み合い
Positivity and entanglement of polynomial Gaussian integral operators ( http://arxiv.org/abs/2405.04438v2 ) ライセンス: Link先を確認 | Richárd Balka, András Csordás, Gábor Homa, | (参考訳) 正の保存は、オープン量子系の力学において重要な問題である: 正の破れは、常にモデルの妥当性の境界を示す。
自己随伴多項式ガウス積分作用素 $\widehat{\kappa}_{PG}$, すなわち、多変数核 $\kappa_{PG}$ は多項式 $P$ とガウス核 $\kappa_G$ の積である。
これらの作用素は、しばしば開量子系に現れる。
ガウス部が正であれば、$\widehat{\kappa}_{PG}$は正であることを示し、これは強で極めて簡単な正の検定をもたらす。
密度作用素 $\widehat{\kappa}_{PG}$: ガウス密度作用素 $\widehat{\kappa}_G$ がペレス・ホロデツキ規準を失敗すると、対応する多項式ガウス密度作用素 $\widehat{\kappa}_{PG}$ もまたすべての$P$の基準を満たさないので、すべて絡み合う。
奇次多項式を持つ多項式ガウス作用素が正の半定値でないことを証明する。
ガウス核上の新しいプレオーダー$\preceq$を導入し、もし$\kappa_{G_0}\preceq \kappa_{G_1}$なら$\widehat{\kappa}_{PG_0}\geq 0$は$\widehat{\kappa}_{PG_1}\geq 0$をすべての多項式に対して$P$とする。
したがって、多項式ガウス作用素の正の値を決定することは、同じ多項式係数を持つ他の多項式ガウス作用素の多くの値の正の値を決定する。
これは、実証テストがはるかに敏感で効率の良いものになることを実例で示します。
このプレオーダーは、絡み合いの問題にも影響します。
Positivity preservation is an important issue in the dynamics of open quantum systems: positivity violations always mark the border of validity of the model. We investigate the positivity of self-adjoint polynomial Gaussian integral operators $\widehat{\kappa}_{PG}$, that is, the multivariable kernel $\kappa_{PG}$ is a product of a polynomial $P$ and a Gaussian kernel $\kappa_G$. These operators frequently appear in open quantum systems. We show that $\widehat{\kappa}_{PG}$ can be only positive if the Gaussian part is positive, which yields a strong and quite easy test for positivity. This has an important corollary for the bipartite entanglement of the density operators $\widehat{\kappa}_{PG}$: if the Gaussian density operator $\widehat{\kappa}_G$ fails the Peres-Horodecki criterion, then the corresponding polynomial Gaussian density operators $\widehat{\kappa}_{PG}$ also fail the criterion for all $P$, hence they are all entangled. We prove that polynomial Gaussian operators with polynomials of odd degree cannot be positive semidefinite. We introduce a new preorder $\preceq$ on Gaussian kernels such that if $\kappa_{G_0}\preceq \kappa_{G_1}$ then $\widehat{\kappa}_{PG_0}\geq 0$ implies $\widehat{\kappa}_{PG_1}\geq 0$ for all polynomials $P$. Therefore, deciding the positivity of a polynomial Gaussian operator determines the positivity of a lot of another polynomial Gaussian operators having the same polynomial factor, which might improve any given positivity test by carrying it out on a much larger set of operators. We will show an example that this really can make positivity tests much more sensitive and efficient. This preorder has implication for the entanglement problem, too. | 翻訳日:2024-06-24 19:16:56 公開日:2024-06-20 |
# 自動微分と確率計画による偏見推論の簡易化
Simplifying debiased inference via automatic differentiation and probabilistic programming ( http://arxiv.org/abs/2405.08675v2 ) ライセンス: Link先を確認 | Alex Luedtke, | (参考訳) 本研究では,効率的な推定器の構築を簡略化するアルゴリズムを導入し,より広い範囲のオーディエンスに利用できるようにする。
「Dimple」は、興味のパラメータを表す入力コンピュータコードとして、効率的な推定器を出力する。
標準的なアプローチとは異なり、ユーザは効率的な影響関数として知られる関数微分を導出する必要はない。
Dimpleは、関心の統計関数に自動微分を適用することで、このタスクを回避している。
そのためには、この機能を、新しい微分可能性条件を満たすプリミティブの合成として表現する必要がある。
また、Dimpleはこの構成を使って見積もるべき問題を決定する。
ソフトウェアでは、プリミティブは互いに独立して実装でき、異なる推定問題にまたがって再利用できる。
概念実証Pythonの実装を提供し、パラメータ仕様から数行のコードで効率的に推定できる方法の例を紹介します。
We introduce an algorithm that simplifies the construction of efficient estimators, making them accessible to a broader audience. 'Dimple' takes as input computer code representing a parameter of interest and outputs an efficient estimator. Unlike standard approaches, it does not require users to derive a functional derivative known as the efficient influence function. Dimple avoids this task by applying automatic differentiation to the statistical functional of interest. Doing so requires expressing this functional as a composition of primitives satisfying a novel differentiability condition. Dimple also uses this composition to determine the nuisances it must estimate. In software, primitives can be implemented independently of one another and reused across different estimation problems. We provide a proof-of-concept Python implementation and showcase through examples how it allows users to go from parameter specification to efficient estimation with just a few lines of code. | 翻訳日:2024-06-24 19:16:56 公開日:2024-06-20 |
# グラフバックドア攻撃を再考する: 分散保存の観点から
Rethinking Graph Backdoor Attacks: A Distribution-Preserving Perspective ( http://arxiv.org/abs/2405.10757v2 ) ライセンス: Link先を確認 | Zhiwei Zhang, Minhua Lin, Enyan Dai, Suhang Wang, | (参考訳) グラフニューラルネットワーク(GNN)は、様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、最近の研究によると、GNNはバックドア攻撃に弱い。
一般的に、バックドア攻撃は、トレーニンググラフ内の一連のノードにバックドアトリガとターゲットクラスラベルをアタッチすることで、グラフを毒する。
有毒グラフでトレーニングされたGNNは、ターゲットクラスにトリガが付いたテストノードを予測するために誤解される。
その効果にもかかわらず、我々の経験的分析は、既存の方法によって生成されるトリガーは、クリーンデータと大きく異なる分布外(OOD)である傾向があることを示している。
したがって、これらのインジェクショントリガーは、現実世界のアプリケーションで広く使われている外れ値検出法で容易に検出および切断することができる。
そこで本稿では,IDトリガによる無意味なグラフバックドア攻撃の新たな問題について検討する。
我々は,IDトリガを生成するために,OOD検出器を逆学習戦略と組み合わせて導入し,分散中のトリガの属性を生成する。
IDトリガによる高い攻撃成功率を確保するため,有毒グラフで訓練した被害者モデルによるトリガ記憶の促進を目的とした新しいモジュールを提案する。
実世界のデータセットに対する大規模な実験は、高い攻撃成功率を維持しながら、様々な防衛戦略をバイパスできる分散トリガの生成において、提案手法の有効性を実証している。
Graph Neural Networks (GNNs) have shown remarkable performance in various tasks. However, recent works reveal that GNNs are vulnerable to backdoor attacks. Generally, backdoor attack poisons the graph by attaching backdoor triggers and the target class label to a set of nodes in the training graph. A GNN trained on the poisoned graph will then be misled to predict test nodes attached with trigger to the target class. Despite their effectiveness, our empirical analysis shows that triggers generated by existing methods tend to be out-of-distribution (OOD), which significantly differ from the clean data. Hence, these injected triggers can be easily detected and pruned with widely used outlier detection methods in real-world applications. Therefore, in this paper, we study a novel problem of unnoticeable graph backdoor attacks with in-distribution (ID) triggers. To generate ID triggers, we introduce an OOD detector in conjunction with an adversarial learning strategy to generate the attributes of the triggers within distribution. To ensure a high attack success rate with ID triggers, we introduce novel modules designed to enhance trigger memorization by the victim model trained on poisoned graph. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed method in generating in distribution triggers that can by-pass various defense strategies while maintaining a high attack success rate. | 翻訳日:2024-06-24 19:16:56 公開日:2024-06-20 |
# 超伝導時間結晶における空間パターンと同期の創発
Emergence of spatial patterns and synchronization in superconducting time crystals ( http://arxiv.org/abs/2405.14216v2 ) ライセンス: Link先を確認 | Bo Fan, Zi Cai, Antonio M. García-García, | (参考訳) 我々は、周期的に駆動される結合定数を持つ0温度での時間依存ボゴリューボフ・ド・ジェンヌ形式を用いて、無秩序超伝導体における駆動周波数の周波数半を特徴とする時間結晶相を同定した。
空間的不均一性の指数的な増加と秩序パラメータ振幅の指数的な抑制の後、時間結晶は異なる大きさの島を発達させる。
これらの島はそれぞれ同じ周波数の時間結晶であり、同質の時間結晶に対して位相シフトが$\pi$である。
出現後、この島は徐々に小さくなり、相転移は継続するが、初期サイズに依存するように突然同期するまで続く。
我々は、結晶相が終了する金属相において、依然として深い臨界障害強度を見出した。
さらに強い障害に対しては、ローカライゼーション効果が重要でない領域において、順序パラメータは駆動周波数とともに発振する。
We identify a time crystal phase characterized by a frequency half of the driving frequency in disordered superconductors by employing the time dependent Bogoliubov-de Gennes formalism at zero temperature with a periodically driven coupling constant. After a period of exponential increase of spatial inhomogeneities and exponential suppression of the order parameter amplitude, the time crystal develops islands of different sizes. Each of these islands is a time crystal with the same frequency albeit with a phase shift $\pi$ with respect to the homogeneous time crystal. After its emergence, the island gradually becomes smaller, though the phase shift persists, until it is abruptly synchronized at a time that it depends on its initial size. We find a critical disorder strength, still deep in the metallic phase, at which the time crystal phase terminates. For even stronger disorder, the order parameter oscillates with the driving frequency in regions where localization effects are not important. | 翻訳日:2024-06-24 19:16:56 公開日:2024-06-20 |
# Devil's Advocate: LLMエージェントの予測反射
Devil's Advocate: Anticipatory Reflection for LLM Agents ( http://arxiv.org/abs/2405.16334v4 ) ライセンス: Link先を確認 | Haoyu Wang, Tao Li, Zhiwei Deng, Dan Roth, Yang Li, | (参考訳) 本研究では,LLMエージェントにイントロスペクションを付与し,複雑なタスクを解く上での一貫性と適応性を向上する手法を提案する。
我々のアプローチは, LLMエージェントに対して, あるタスクを管理可能なサブタスク(つまり計画の作成)に分解し, それらの動作の適合性や結果について継続的に検査するように促す。
%,必要であれば,< the road not taken。
「''3倍の内観的介入を実施します。
1) 行動実行前の潜在的な失敗及び代替策の予見
2 計画実行における最大限の努力を確保するため、サブタスク目標との事後調整及び救済の事後追跡
3)今後の戦略改善に向けた計画完了に関する総合的な見直し。
この手法(ゼロショット方式)をWeb環境で実践的なタスクのためにWebArena内にデプロイし,実験することにより,既存のゼロショット方式よりも23.5%の精度で優れた性能を示す。
実験結果から,我々のイントロスペクション駆動型アプローチは,計画実行の堅牢なメカニズムを通じて未予測課題をナビゲートするエージェントの能力を向上するだけでなく,課題達成に必要な試行回数と計画修正を45%削減することで効率を向上させることが示唆された。
In this work, we introduce a novel approach that equips LLM agents with introspection, enhancing consistency and adaptability in solving complex tasks. Our approach prompts LLM agents to decompose a given task into manageable subtasks (i.e., to make a plan), and to continuously introspect upon the suitability and results of their actions. %; and when necessary, to explore ``the road not taken.'' We implement a three-fold introspective intervention: 1) anticipatory reflection on potential failures and alternative remedy before action execution, 2) post-action alignment with subtask objectives and backtracking with remedy to ensure utmost effort in plan execution, and 3) comprehensive review upon plan completion for future strategy refinement. By deploying and experimenting with this methodology -- a zero-shot approach -- within WebArena for practical tasks in web environments, our agent demonstrates superior performance with a success rate of 23.5% over existing zero-shot methods by 3.5%. The experimental results suggest that our introspection-driven approach not only enhances the agent's ability to navigate unanticipated challenges through a robust mechanism of plan execution, but also improves efficiency by reducing the number of trials and plan revisions by 45% needed to achieve a task. | 翻訳日:2024-06-24 19:16:56 公開日:2024-06-20 |
# 大規模言語モデルと脳内マッピング : 脳スコアの過度信頼に対する一事例
What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores ( http://arxiv.org/abs/2406.01538v2 ) ライセンス: Link先を確認 | Ebrahim Feghhi, Nima Hadidi, Bryan Song, Idan A. Blank, Jonathan C. Kao, | (参考訳) 大きな言語モデル(LLM)の顕著な能力を考えると、人間の脳との類似性を評価することへの関心が高まっている。
この類似性を定量化するための1つのアプローチは、モデルがいかに神経信号を予測するかを測定することである。
LLMの内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。
この推論は、LLMによって予測される神経活動のサブセットが言語処理のコア要素を反映している場合にのみ有効である。
本稿では、LLM-to-Brainマッピングの衝撃的な研究で使用される3つのニューラルネットワークを解析することにより、この仮定を疑問視する。
最初に、これらのデータセットを用いた以前の研究で示されたように、シャッフルトレインテストのスプリットを使用すると、時間的自己相関がLLMより優れているだけでなく、LLMが説明しているほとんどの神経の分散も説明できる。
したがって、私たちは前進する連続的な分割を使用します。
第二に、トレーニングされていないLLMの驚くほど高い脳のスコアは、それらが2つの単純な特徴である文の長さと文の位置以外の追加的な神経の分散を考慮しないことを示すことによって説明される。
このことは、トランスフォーマーアーキテクチャが計算をもっと脳に似たものに偏っているという証拠を弱めている。
第3に、このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞の推論による静的単語の埋め込みによって説明できる。
脳のスコアの過度な信頼は、LLMと脳の類似性を過度に解釈し、LLMが神経信号にマッピングしているものをデコンストラクションすることの重要性を強調した。
Given the remarkable capabilities of large language models (LLMs), there has been a growing interest in evaluating their similarity to the human brain. One approach towards quantifying this similarity is by measuring how well a model predicts neural signals, also called "brain score". Internal representations from LLMs achieve state-of-the-art brain scores, leading to speculation that they share computational principles with human language processing. This inference is only valid if the subset of neural activity predicted by LLMs reflects core elements of language processing. Here, we question this assumption by analyzing three neural datasets used in an impactful study on LLM-to-brain mappings, with a particular focus on an fMRI dataset where participants read short passages. We first find that when using shuffled train-test splits, as done in previous studies with these datasets, a trivial feature that encodes temporal autocorrelation not only outperforms LLMs but also accounts for the majority of neural variance that LLMs explain. We therefore use contiguous splits moving forward. Second, we explain the surprisingly high brain scores of untrained LLMs by showing they do not account for additional neural variance beyond two simple features: sentence length and sentence position. This undermines evidence used to claim that the transformer architecture biases computations to be more brain-like. Third, we find that brain scores of trained LLMs on this dataset can largely be explained by sentence length, position, and pronoun-dereferenced static word embeddings; a small, additional amount is explained by sense-specific embeddings and contextual representations of sentence structure. We conclude that over-reliance on brain scores can lead to over-interpretations of similarity between LLMs and brains, and emphasize the importance of deconstructing what LLMs are mapping to in neural signals. | 翻訳日:2024-06-24 19:07:12 公開日:2024-06-20 |
# YouTube SFV+HDR品質データセット
YouTube SFV+HDR Quality Dataset ( http://arxiv.org/abs/2406.05305v2 ) ライセンス: Link先を確認 | Yilin Wang, Joong Gon Yim, Neil Birkbeck, Balu Adsumilli, | (参考訳) ショートフォームビデオ(SFV)の人気はここ数年で劇的に増加し、何十億もの視聴者を抱える驚くべきビデオカテゴリーとなっている。
一方、高度な機能としてのHigh Dynamic Range(HDR)も、ビデオ共有プラットフォームでますます人気を博している。
SFVとHDRは、大きなインパクトを持つホットトピックとして、ビデオ品質の研究に新たな疑問をもたらす。
1) SFV+HDR品質評価は従来のユーザ生成コンテンツ(UGC)品質評価と大きく異なるか?
2) 従来のUGC用に設計された客観的な品質指標は,SFV+HDRでも有効か?
以上の質問に答えるために、我々は、信頼性の高い主観的品質スコアを持つ最初の大規模SFV+HDRデータセットを作成し、10の人気のあるコンテンツカテゴリをカバーした。
さらに、データセットの表現性を最大化するための一般的なサンプリングフレームワークも導入する。
我々は,ショートフォームSDRおよびHDRビデオの主観的品質スコアを包括的に分析し,最先端のUGC品質指標の信頼性と潜在的な改善について検討した。
The popularity of Short form videos (SFV) has grown dramatically in the past few years, and has become a phenomenal video category with billions of viewers. Meanwhile, High Dynamic Range (HDR) as an advanced feature also becomes more and more popular on video sharing platforms. As a hot topic with huge impact, SFV and HDR bring new questions to video quality research: 1) is SFV+HDR quality assessment significantly different from traditional User Generated Content (UGC) quality assessment? 2) do objective quality metrics designed for traditional UGC still work well for SFV+HDR? To answer the above questions, we created the first large scale SFV+HDR dataset with reliable subjective quality scores, covering 10 popular content categories. Further, we also introduce a general sampling framework to maximize the representativeness of the dataset. We provided a comprehensive analysis of subjective quality scores for Short form SDR and HDR videos, and discuss the reliability of state-of-the-art UGC quality metrics and potential improvements. | 翻訳日:2024-06-24 18:57:27 公開日:2024-06-20 |
# 深部強化学習のための検証誘導シールド
Verification-Guided Shielding for Deep Reinforcement Learning ( http://arxiv.org/abs/2406.06507v2 ) ライセンス: Link先を確認 | Davide Corsi, Guy Amir, Andoni Rodriguez, Cesar Sanchez, Guy Katz, Roy Fox, | (参考訳) 近年,現実世界の課題を解決するための効果的なアプローチとして,深層強化学習(DRL)が登場している。
しかし、DRLベースのポリシーは、成功にもかかわらず、信頼性の低さに悩まされ、安全クリティカルなドメインへのデプロイメントが制限される。
正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。
2つの主要なアプローチは、遮蔽と検証である。
シールドは、潜在的に危険なアクションをオーバーライドする外部のオンラインコンポーネント(すなわち `shield'')を使用することによって、ポリシーの安全な行動を保証するが、このアプローチは、すべての決定を検証するためにシールドを実行時に呼び出す必要があるため、かなりの計算コストがかかる。
一方、検証はオフラインプロセスであり、デプロイ前に安全でないポリシーを識別できるが、そのようなポリシーが安全でないと判断された場合、代替のアクションを提供することはない。
本研究では,この2つの手法を統合することでDRLの信頼性ギャップを橋渡しする,検証誘導遮蔽法を提案する。
提案手法は,入力領域を安全領域と安全領域に分割する形式的および確率的検証ツールを組み合わせたものである。
さらに、安全でない領域をコンパクトな表現に圧縮するクラスタリングおよびシンボル表現手法を用いる。
これにより、(潜在的に)安全でない地域でのみ、効率的な方法でシールドを一時的に活性化することができる。
私たちの新しいアプローチは、正式な安全保証を維持しながら、実行時のオーバーヘッドを大幅に削減します。
ロボットナビゲーション領域からの2つのベンチマークに対する我々のアプローチを広く評価するとともに、そのスケーラビリティと完全性について詳細な分析を行った。
In recent years, Deep Reinforcement Learning (DRL) has emerged as an effective approach to solving real-world tasks. However, despite their successes, DRL-based policies suffer from poor reliability, which limits their deployment in safety-critical domains. Various methods have been put forth to address this issue by providing formal safety guarantees. Two main approaches include shielding and verification. While shielding ensures the safe behavior of the policy by employing an external online component (i.e., a ``shield'') that overrides potentially dangerous actions, this approach has a significant computational cost as the shield must be invoked at runtime to validate every decision. On the other hand, verification is an offline process that can identify policies that are unsafe, prior to their deployment, yet, without providing alternative actions when such a policy is deemed unsafe. In this work, we present verification-guided shielding -- a novel approach that bridges the DRL reliability gap by integrating these two methods. Our approach combines both formal and probabilistic verification tools to partition the input domain into safe and unsafe regions. In addition, we employ clustering and symbolic representation procedures that compress the unsafe regions into a compact representation. This, in turn, allows to temporarily activate the shield solely in (potentially) unsafe regions, in an efficient manner. Our novel approach allows to significantly reduce runtime overhead while still preserving formal safety guarantees. We extensively evaluate our approach on two benchmarks from the robotic navigation domain, as well as provide an in-depth analysis of its scalability and completeness. | 翻訳日:2024-06-24 18:57:27 公開日:2024-06-20 |
# DKDL-Net:Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuningによる軽量軸受故障検出モデル
DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning ( http://arxiv.org/abs/2406.06653v2 ) ライセンス: Link先を確認 | Ovanes Petrosian, Li Pengyi, He Yulong, Liu Jiarui, Sun Zhaoruikun, Fu Guofeng, Meng Liping, | (参考訳) 転がり軸受の故障検出は, 断層診断技術の分野で急速に発展し, この分野では非常に重要な位置を占めている。
深層学習に基づく断層診断モデルは大きな成功を収めた。
同時に、フーリエ変換、ウェーブレット変換、実証モード分解といった新しい信号処理技術の継続的な改良により、転がり軸受の故障診断技術も大きく発展し、新たな研究段階に入ったと言える。
しかし、既存の手法のほとんどは工業分野の様々な程度に限られている。
主なものは、高速な特徴抽出と計算の複雑さである。
本稿では,これらの課題を解決するための軽量軸受断層診断モデルDKDL-Netを提案する。
このモデルは、知識蒸留と低階適応微調整を分離することにより、CWRUデータセットに基づいて訓練される。
具体的には,69,626個のトレーニング可能なパラメータを持つ6層ニューラルネットワークを用いて教師モデルを構築し,このモデルに基づいて,6838個のパラメータしか持たない学生サグモデルDKDL-Netを訓練した。
実験の結果、DKDL-Netは、モデル性能を維持しながら、テストセット上での計算複雑性の99.48%の精度を実現しており、これは最先端(SOTA)モデルよりも0.58%高い。
私たちのコードはGithubの https://github.com/SPBU-LiPengyi/DKDL-Net.git.com リンクで公開されています。
Rolling bearing fault detection has developed rapidly in the field of fault diagnosis technology, and it occupies a very important position in this field. Deep learning-based bearing fault diagnosis models have achieved significant success. At the same time, with the continuous improvement of new signal processing technologies such as Fourier transform, wavelet transform and empirical mode decomposition, the fault diagnosis technology of rolling bearings has also been greatly developed, and it can be said that it has entered a new research stage. However, most of the existing methods are limited to varying degrees in the industrial field. The main ones are fast feature extraction and computational complexity. The key to this paper is to propose a lightweight bearing fault diagnosis model DKDL-Net to solve these challenges. The model is trained on the CWRU data set by decoupling knowledge distillation and low rank adaptive fine tuning. Specifically, we built and trained a teacher model based on a 6-layer neural network with 69,626 trainable parameters, and on this basis, using decoupling knowledge distillation (DKD) and Low-Rank adaptive (LoRA) fine-tuning, we trained the student sag model DKDL-Net, which has only 6838 parameters. Experiments show that DKDL-Net achieves 99.48% accuracy in computational complexity on the test set while maintaining model performance, which is 0.58% higher than the state-of-the-art (SOTA) model, and our model has lower parameters. Our code is available at Github link: https://github.com/SPBU-LiPengyi/DKDL-Net.git. | 翻訳日:2024-06-24 18:57:27 公開日:2024-06-20 |
# AdaNCA: よりロバストな視覚変換器のアダプターとしての神経細胞性オートマタ
AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer ( http://arxiv.org/abs/2406.08298v3 ) ライセンス: Link先を確認 | Yitao Xu, Tong Zhang, Sabine Süsstrunk, | (参考訳) 視覚変換器(ViT)は画像分類タスクにおいて、特に局所的な注意や畳み込みによる局所的な情報を備えた場合、顕著な性能を示した。
このようなアーキテクチャは機能集約を粒度によって改善するが、ネットワークの堅牢性に寄与しないことが多い。
ニューラルセルオートマタ(NCA)は、局所的な相互作用を通じてグローバルなセル表現のモデリングを可能にし、そのトレーニング戦略とアーキテクチャ設計は、ノイズの多い入力に対して強力な一般化能力と堅牢性をもたらす。
本稿では,視覚変換器用Adaptor Neural Cellular Automata (AdaNCA)を提案する。
標準的なNAAの計算オーバーヘッドを克服するために,より効率的な対話学習のための動的インタラクションを提案する。
さらに,AdaNCAの配置解析とロバスト性改善に基づいて,AdaNCAの最も効果的な挿入点を同定するアルゴリズムを開発した。
パラメータの3%未満の増加により、AdaNCAはImageNet1Kベンチマークの敵攻撃下での精度の10%以上の絶対的な改善に貢献している。
さらに,8つのロバスト性ベンチマークと4つのViTアーキテクチャに対して,プラグインモジュールであるAdaNCAが常にViTのロバスト性を改善することを実証した。
Vision Transformers (ViTs) have demonstrated remarkable performance in image classification tasks, particularly when equipped with local information via region attention or convolutions. While such architectures improve the feature aggregation from different granularities, they often fail to contribute to the robustness of the networks. Neural Cellular Automata (NCA) enables the modeling of global cell representations through local interactions, with its training strategies and architecture design conferring strong generalization ability and robustness against noisy inputs. In this paper, we propose Adaptor Neural Cellular Automata (AdaNCA) for Vision Transformer that uses NCA as plug-in-play adaptors between ViT layers, enhancing ViT's performance and robustness against adversarial samples as well as out-of-distribution inputs. To overcome the large computational overhead of standard NCAs, we propose Dynamic Interaction for more efficient interaction learning. Furthermore, we develop an algorithm for identifying the most effective insertion points for AdaNCA based on our analysis of AdaNCA placement and robustness improvement. With less than a 3% increase in parameters, AdaNCA contributes to more than 10% absolute improvement in accuracy under adversarial attacks on the ImageNet1K benchmark. Moreover, we demonstrate with extensive evaluations across 8 robustness benchmarks and 4 ViT architectures that AdaNCA, as a plug-in-play module, consistently improves the robustness of ViTs. | 翻訳日:2024-06-24 18:57:27 公開日:2024-06-20 |
# グラフニューラルトンプソンサンプリング
Graph Neural Thompson Sampling ( http://arxiv.org/abs/2406.10686v2 ) ライセンス: Link先を確認 | Shuang Wu, Arash A. Amini, | (参考訳) グラフ構造データ上に定義された報酬関数を持つオンライン意思決定問題を考える。
我々はこの問題をグラフアクションバンディットの例として公式に定式化する。
次に,グラフニューラルネットワーク(GNN)を用いたトンプソンサンプリング(TS)アルゴリズムである‘texttt{GNN-TS}を提案する。
報酬関数上の一定の有界性仮定の下で、GNN-TS は(1)次数 $\tilde{\mathcal{O}}((\tilde{d} T)^{1/2})$ における相互作用のラウンド数、$T$ および有効次元 $\tilde{d}$ の概念、(2) グラフノードの数に独立な、最先端の後悔境界を達成することを証明している。
実験結果から,提案手法が競合性能を示し,グラフアクションのバンドイット問題に優れていたことが確認された。
We consider an online decision-making problem with a reward function defined over graph-structured data. We formally formulate the problem as an instance of graph action bandit. We then propose \texttt{GNN-TS}, a Graph Neural Network (GNN) powered Thompson Sampling (TS) algorithm which employs a GNN approximator for estimating the mean reward function and the graph neural tangent features for uncertainty estimation. We prove that, under certain boundness assumptions on the reward function, GNN-TS achieves a state-of-the-art regret bound which is (1) sub-linear of order $\tilde{\mathcal{O}}((\tilde{d} T)^{1/2})$ in the number of interaction rounds, $T$, and a notion of effective dimension $\tilde{d}$, and (2) independent of the number of graph nodes. Empirical results validate that our proposed \texttt{GNN-TS} exhibits competitive performance and scales well on graph action bandit problems. | 翻訳日:2024-06-24 18:47:43 公開日:2024-06-20 |
# DataComp-LM:言語モデルのための次世代トレーニングセットの探索
DataComp-LM: In search of the next generation of training sets for language models ( http://arxiv.org/abs/2406.11794v3 ) ライセンス: Link先を確認 | Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldaini, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar, | (参考訳) 言語モデルを改善することを目的として,制御されたデータセット実験のためのテストベッドであるDataComp for Language Models (DCLM)を紹介した。
DCLMの一部として、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
DCLMのベースラインとして、我々は広範囲な実験を行い、モデルに基づくフィルタリングが高品質なトレーニングセットを構成する上で鍵となることを発見した。
得られたデータセットであるDCLM-Baselineは、MMLUで7Bパラメータ言語モデルをスクラッチから64%の5ショットの精度で2.6Tのトレーニングトークンでトレーニングすることができる。
オープンデータ言語モデルにおける従来の最先端技術であるMAP-Neoと比較して、DCLM-Baseline は MMLU の6.6 パーセントの改善であり、計算能力は40% 削減された。
我々のベースラインモデルはMMLU上でのMistral-7B-v0.3とLlama 3 8B(63%と66%)に匹敵するものであり、Llama 3 8Bよりも6.6倍少ない計算でトレーニングしながら、平均53の自然言語理解タスクでも同様に機能する。
本結果は,言語モデルの学習におけるデータセット設計の重要性を強調し,データキュレーションのさらなる研究の出発点となる。
We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretraining recipes based on the OpenLM framework, and a broad suite of 53 downstream evaluations. Participants in the DCLM benchmark can experiment with data curation strategies such as deduplication, filtering, and data mixing at model scales ranging from 412M to 7B parameters. As a baseline for DCLM, we conduct extensive experiments and find that model-based filtering is key to assembling a high-quality training set. The resulting dataset, DCLM-Baseline enables training a 7B parameter language model from scratch to 64% 5-shot accuracy on MMLU with 2.6T training tokens. Compared to MAP-Neo, the previous state-of-the-art in open-data language models, DCLM-Baseline represents a 6.6 percentage point improvement on MMLU while being trained with 40% less compute. Our baseline model is also comparable to Mistral-7B-v0.3 and Llama 3 8B on MMLU (63% & 66%), and performs similarly on an average of 53 natural language understanding tasks while being trained with 6.6x less compute than Llama 3 8B. Our results highlight the importance of dataset design for training language models and offer a starting point for further research on data curation. | 翻訳日:2024-06-24 18:47:43 公開日:2024-06-20 |
# 今後の展望:経路計画におけるGPT-4の限界試験
Look Further Ahead: Testing the Limits of GPT-4 in Path Planning ( http://arxiv.org/abs/2406.12000v2 ) ライセンス: Link先を確認 | Mohamed Aghzal, Erion Plaku, Ziyu Yao, | (参考訳) 大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。
しかし、長期計画では依然として課題に直面している。
そこで本研究では,LLMの長い軌道を幾何的制約の下でナビゲートする能力を評価するためのプラットフォームとして,経路計画タスクを提案する。
提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。
これを用いて, GPT-4の様々なタスク表現とプロンプトアプローチを用いて, 計画能力について検討した。
フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
しかしながら、これらの手法はモデルの計画能力向上へのいくつかの期待を示すが、最適経路は得られず、拡張された地平線上での一般化に失敗する。
Large Language Models (LLMs) have shown impressive capabilities across a wide variety of tasks. However, they still face challenges with long-horizon planning. To study this, we propose path planning tasks as a platform to evaluate LLMs' ability to navigate long trajectories under geometric constraints. Our proposed benchmark systematically tests path-planning skills in complex settings. Using this, we examined GPT-4's planning abilities using various task representations and prompting approaches. We found that framing prompts as Python code and decomposing long trajectory tasks improve GPT-4's path planning effectiveness. However, while these approaches show some promise toward improving the planning ability of the model, they do not obtain optimal paths and fail at generalizing over extended horizons. | 翻訳日:2024-06-24 18:47:43 公開日:2024-06-20 |
# グレードスコア:オプション選択におけるLLM性能の定量化
Grade Score: Quantifying LLM Performance in Option Selection ( http://arxiv.org/abs/2406.12043v2 ) ライセンス: Link先を確認 | Dmitri Iourovitski, | (参考訳) 本研究では,Large Language Models (LLMs) の整合性と公平性を評価するために考案された新しい尺度 "Grade Score" を紹介する。
グレードスコアは、注文バイアスを測定するエントロピーと、選択安定性を評価し、LLMの信頼性と公平性に関する洞察を提供するモード周波数を組み合わせる。
本研究は,LLMの性能向上効果を実証し,評価スコアを最適化するために,迅速な工学的手法やオプションサンプリング手法などの手法を探求する。
その結果,LSMのプロンプトに対する性能の変化が示され,無関係な選択肢を含めることによる肯定的な影響が浮き彫りになった。
この研究では、特定のバイアスをターゲットとした指示に適応し、適応性を実証する命令追従モデルにおいて、創発的な行動を特定する。
グレードスコアはLLMの比較を促進するとともに、様々なアプリケーションにおける信頼性と公平性を改善するための潜在的な可能性として、意思決定プロセスの最適化に向けた進行中の研究を促進する。
すべてのコードはGitHub https://github.com/IoDmitri/GradeLabで入手できる。
This study introduces the "Grade Score", a novel metric designed to evaluate the consistency and fairness of Large Language Models (LLMs) when used as multiple-choice judges with respect to order bias and choice consistency. The Grade Score combines Entropy, which measures order bias, and Mode Frequency, which assesses choice stability, offering insights into LLMs' reliability and impartiality. The study explores techniques such as prompt engineering and option sampling strategies to optimize the Grade Score, demonstrating their effectiveness in enhancing LLMs' performance. Results showcase varying performances among LLMs with respect to prompts and highlight the positive impact of including irrelevant options. The study also identifies an emergent behavior in instruction-following models, where they adapt to instructions targeting specific biases, demonstrating their adaptability. The Grade Score facilitates comparisons between LLMs and encourages ongoing research towards optimizing their decision-making processes, with potential implications for improving their reliability and fairness in various applications. All code is available on GitHub https://github.com/IoDmitri/GradeLab | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# 物理インフォームドニューラルネットワークによる山火事拡散のパラメータ学習
Physics-informed neural networks for parameter learning of wildfire spreading ( http://arxiv.org/abs/2406.14591v1 ) ライセンス: Link先を確認 | Konstantinos Vogiatzoglou, Costas Papadimitriou, Vasilis Bontozoglou, Konstantinos Ampountolas, | (参考訳) 野生の火災は、自然の危険を脅かし、山火事の予防、監視、介入、および対応のために、データ駆動型で物理学にインフォームドされたデジタル双生児を開発する緊急の必要性を浮き彫りにしている。
この研究の方向性として、解釈可能な山火事拡散モデルの未知のパラメータを学習する物理インフォームドニューラルネットワーク(PiNN)を導入する。
検討された山火事拡散モデルでは、重要なモデルパラメータによって記述された基本的な物理法則が統合され、山火事の複雑な挙動を捉えるのに不可欠である。
提案した機械学習アプローチは、質量保存とエネルギー保存の第一原理のような、山火事のダイナミクスを規定する物理的制約を持つ人工ニューラルネットワークの理論を活用する。
物理インフォームドパラメータ同定のためのPiNNのトレーニングは,山火事拡散モデルの高忠実度シミュレータから得られた1次元および2次元(平面面)火災フロントの時間的変化のデータを用いて実現される。
パラメータ学習の結果は, 1次元および2次元の火災拡散シナリオにおいて, 未知の係数を明らかにする上で, 提案したPiNNの顕著な予測能力を示した。
さらに、この手法はノイズの多いデータの存在下で同じパラメータを識別することで堅牢性を示す。
提案するフレームワークは、インテリジェントな山火事管理とリスクアセスメントのための物理インフォームドデジタルツインに組み込まれることが想定されている。
Wildland fires pose terrifying natural hazards, underscoring the urgent need to develop data-driven and physics-informed digital twins for wildfire prevention, monitoring, intervention, and response. In this direction of research, this work introduces a physics-informed neural network (PiNN) to learn the unknown parameters of an interpretable wildfire spreading model. The considered wildfire spreading model integrates fundamental physical laws articulated by key model parameters, essential for capturing the complex behavior of wildfires. The proposed machine learning approach leverages the theory of artificial neural networks with the physical constraints governing wildfire dynamics, such as the first principles of mass and energy conservation. Training of the PiNN for physics-informed parameter identification is realized using data of the temporal evolution of one- and two-dimensional (plane surface) fire fronts that have been obtained from a high-fidelity simulator of the wildfire spreading model under consideration. The parameter learning results demonstrate the remarkable predictive ability of the proposed PiNN in uncovering the unknown coefficients in both the one- and two-dimensional fire spreading scenarios. Additionally, this methodology exhibits robustness by identifying the same parameters in the presence of noisy data. The proposed framework is envisioned to be incorporated in a physics-informed digital twin for intelligent wildfire management and risk assessment. | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# FPGAにおけるマルチエグジットによるドロップアウト型ベイズニューラルネットワークの強化
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA ( http://arxiv.org/abs/2406.14593v1 ) ライセンス: Link先を確認 | Hao, Chen, Liam Castelli, Martin Ferianc, Hongyu Zhou, Shuanglong Liu, Wayne Luk, Hongxiang Fan, | (参考訳) 信頼性の高い不確実性推定は、医療診断や自律運転といった様々な安全クリティカルな応用において重要な役割を担っている。
近年、ベイズニューラルネットワーク (BayesNNs) は、信頼性の高い不確実性推定で正確な予測を行う能力により、かなりの研究と工業的関心を集めている。
しかし、アルゴリズムの複雑さと結果のベイズNNのハードウェア性能は、現実のアプリケーションでは採用を妨げている。
このギャップを埋めるために,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは,計算とメモリのオーバーヘッドを低減し,精度と不確実性評価の精度を実現した,新しいマルチエグジット・ドロップアウト型ベイズNNを提案する。
ハードウェアレベルでは,提案するマルチエグジットベイズNNに対してFPGAベースのアクセラレータを生成可能な変換フレームワークを提案する。
資源消費を低減し、ハードウェア全体の性能を向上させるため、空間マッピングと時間マッピングの混合など、いくつかの最適化手法が導入された。
包括的実験により、我々のアプローチはCPU、GPU、その他の最先端ハードウェア実装と比較して高いエネルギー効率を達成することができることを示した。
この研究の今後の展開をサポートするため、私たちはhttps://github.com/os-hxfan/MCME_FPGA_Acc.gitでコードをオープンソース化しました。
Reliable uncertainty estimation plays a crucial role in various safety-critical applications such as medical diagnosis and autonomous driving. In recent years, Bayesian neural networks (BayesNNs) have gained substantial research and industrial interests due to their capability to make accurate predictions with reliable uncertainty estimation. However, the algorithmic complexity and the resulting hardware performance of BayesNNs hinder their adoption in real-life applications. To bridge this gap, this paper proposes an algorithm and hardware co-design framework that can generate field-programmable gate array (FPGA)-based accelerators for efficient BayesNNs. At the algorithm level, we propose novel multi-exit dropout-based BayesNNs with reduced computational and memory overheads while achieving high accuracy and quality of uncertainty estimation. At the hardware level, this paper introduces a transformation framework that can generate FPGA-based accelerators for the proposed efficient multi-exit BayesNNs. Several optimization techniques such as the mix of spatial and temporal mappings are introduced to reduce resource consumption and improve the overall hardware performance. Comprehensive experiments demonstrate that our approach can achieve higher energy efficiency compared to CPU, GPU, and other state-of-the-art hardware implementations. To support the future development of this research, we have open-sourced our code at: https://github.com/os-hxfan/MCME_FPGA_Acc.git | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# 広告主は安全なモデルの組み合わせを誤認できる
Adversaries Can Misuse Combinations of Safe Models ( http://arxiv.org/abs/2406.14595v1 ) ライセンス: Link先を確認 | Erik Jones, Anca Dragan, Jacob Steinhardt, | (参考訳) 開発者は、AIシステムがリリース前に敵によって悪用されるかどうかを評価する。例えば、モデルがサイバー攻撃、ユーザ操作、バイオテロリズムを可能にするかどうかをテストする。
本研究では,各モデルが安全である場合でも,各モデルの組み合わせを誤用することが可能であり,誤用に対する個別のテストが不十分であることを示す。
敵はまずタスクをサブタスクに分解し、次に最適なモデルで各サブタスクを解くことでこれを達成している。
例えば、敵は、整列フロンティアモデルで挑戦的だが良性なサブタスクを解き、より弱い不整列モデルで容易に、しかしまともなサブタスクを解くことができる。
そこで本研究では,ヒトがタスクの自然な分解を識別する手動分解法と,フロンティアモデルのための良質なタスクを生成する手動分解法について検討した。
これらの分解を用いて、敵が脆弱なコード、明示的なイメージ、ハッキングのためのピソンスクリプト、および操作的なツイートを、どちらのモデルよりもはるかに高いレートで作成できることを実証的に示す。
私たちの研究は、完全に整合したフロンティアシステムでさえ、悪意のあるアウトプットを生成せずに誤用を可能にすることを示唆しています。
Developers try to evaluate whether an AI system can be misused by adversaries before releasing it; for example, they might test whether a model enables cyberoffense, user manipulation, or bioterrorism. In this work, we show that individually testing models for misuse is inadequate; adversaries can misuse combinations of models even when each individual model is safe. The adversary accomplishes this by first decomposing tasks into subtasks, then solving each subtask with the best-suited model. For example, an adversary might solve challenging-but-benign subtasks with an aligned frontier model, and easy-but-malicious subtasks with a weaker misaligned model. We study two decomposition methods: manual decomposition where a human identifies a natural decomposition of a task, and automated decomposition where a weak model generates benign tasks for a frontier model to solve, then uses the solutions in-context to solve the original task. Using these decompositions, we empirically show that adversaries can create vulnerable code, explicit images, python scripts for hacking, and manipulative tweets at much higher rates with combinations of models than either individual model. Our work suggests that even perfectly-aligned frontier systems can enable misuse without ever producing malicious outputs, and that red-teaming efforts should extend beyond single models in isolation. | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# ICAL: 軌道変換によるマルチモーダルエージェントの継続的な学習
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights ( http://arxiv.org/abs/2406.14596v1 ) ライセンス: Link先を確認 | Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki, | (参考訳) 大規模生成言語と視覚言語モデル (LLMs と VLMs) は、意思決定と指示の追従のために、数ショットのインコンテクスト学習で優れている。
しかし、それらのコンテキストウィンドウに含めるためには、高品質な模範的なデモが必要である。
LLMとVLMは、汎用的で準最適なデモから、独自のプロンプト例を生成できますか?
In-Context Abstraction Learning (ICAL) を提案する。これは、準最適実験と人間のフィードバックからマルチモーダル体験の洞察を記憶する手法である。
新たな領域におけるノイズの多いデモンストレーションが与えられた後、VLMは、非効率なアクションを固定し、認知的抽象化(タスク関係、オブジェクトの状態変化、時間的サブゴール、タスクのコンストラル)を注釈することで、軌道を一般的なプログラムに抽象化する。
これらの抽象化は人間のフィードバックによって洗練され、対話的に適応され、エージェントは類似した環境で軌道を実行しようとする。
その結果,LLM と VLM を検索対象とするエージェントにおいて,プロンプトの例として用いることで,意思決定の大幅な向上が図られた。
TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型指導の最先端を超越している。
TEAChでは,目標条件の成功率が12.6%向上した。
VisualWebArenaでは、タスク成功率は、SOTAを14.3%から22.7%に改善しています。
Ego4D アクション予測では,数発の GPT-4V を改良し,教師付きモデルとの競争を継続する。
検索強化インコンテキストエージェントの微調整により,さらなる改善が期待できる。
我々のアプローチは専門家による事例への依存を著しく減らし、そのような洞察を欠くアクションプランからのコンテキスト内学習を一貫して上回ります。
Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations to be included in their context window. In this work, we ask: Can LLMs and VLMs generate their own prompt examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience insights from sub-optimal demonstrations and human feedback. Given a noisy demonstration in a new domain, VLMs abstract the trajectory into a general program by fixing inefficient actions and annotating cognitive abstractions: task relationships, object state changes, temporal subgoals, and task construals. These abstractions are refined and adapted interactively through human feedback while the agent attempts to execute the trajectory in a similar environment. The resulting abstractions, when used as exemplars in the prompt, significantly improve decision-making in retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the state-of-the-art in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on expert-crafted examples and consistently outperforms in-context learning from action plans that lack such insights. | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# QuIP: P4量子インターネットプロトコルプロトタイピングフレームワーク
QuIP: A P4 Quantum Internet Protocol Prototyping Framework ( http://arxiv.org/abs/2406.14597v1 ) ライセンス: Link先を確認 | Wojciech Kozlowski, Fernando A. Kuipers, Rob Smets, Belma Turkovic, | (参考訳) 量子絡み合いはネットワークパケットと根本的に異なり、いくつかの量子ネットワークスタックが提案されている。
量子ネットワークプロトコルの設計と評価を容易にするため、ハードウェアの可用性を抑えるためにいくつかのシミュレータも開発されている。
しかし、共有ツールやコミュニティ対応ノードアーキテクチャが欠如しているため、プロトコルの実装はシミュレータと密結合になっている。
異なるシミュレータ間の再利用性を制限することに加えて、事前の結果とシミュレーションの構築も困難にしている。
この問題に対処するため、我々は量子ネットワークプロトコル設計のためのP4ベースのQuantum Internet ProtocolプロトタイピングフレームワークQuIPを開発した。
QuIPは、プラットフォームに依存しない方法で量子ネットワークプロトコルを設計、実装するためのフレームワークである。
これは、柔軟に、しかし厳密に、どの量子ネットワークプロトコルをネットワークプログラミング言語P4$_{16}$で実装できるかのデバイスアーキテクチャを定義することによって実現される。
QuIPには、既存の量子ネットワークシミュレータでの実行を可能にするために必要なツールも付属している。
我々は、V1Quantumという全く新しいデバイスアーキテクチャを実演し、リンク層とネットワーク層プロトコルを実装し、既存のシミュレータNetSquidでそれをシミュレートした。
Quantum entanglement is so fundamentally different from a network packet that several quantum network stacks have been proposed; one of which has even been experimentally demonstrated. Several simulators have also been developed to make up for limited hardware availability, and which facilitate the design and evaluation of quantum network protocols. However, the lack of shared tooling and community-agreed node architectures has resulted in protocol implementations that are tightly coupled to their simulators. Besides limiting their reusability between different simulators, it also makes building upon prior results and simulations difficult. To address this problem, we have developed QuIP: a P4-based Quantum Internet Protocol prototyping framework for quantum network protocol design. QuIP is a framework for designing and implementing quantum network protocols in a platform-agnostic fashion. It achieves this by providing the means to flexibly, but rigorously, define device architectures against which quantum network protocols can be implemented in the network programming language P4$_{16}$. QuIP also comes with the necessary tooling to enable their execution in existing quantum network simulators. We demonstrate its use by showcasing V1Quantum, a completely new device architecture, implementing a link- and network-layer protocol, and simulating it in the existing simulator NetSquid. | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# SORRY-Bench: 大規模言語モデルの安全性をシステム的に評価する
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors ( http://arxiv.org/abs/2406.14598v1 ) ライセンス: Link先を確認 | Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo Huang, Udari Madhushani Sehwag, Kaixuan Huang, Luxi He, Boyi Wei, Dacheng Li, Ying Sheng, Ruoxi Jia, Bo Li, Kai Li, Danqi Chen, Peter Henderson, Prateek Mittal, | (参考訳) 安全でないユーザ要求を認識して拒否する、整列した大規模言語モデル(LLM)の能力を評価することは、安全でポリシーに準拠したデプロイメントに不可欠である。
しかし、既存の評価努力は、提案したベンチマークであるSORRY-Benchで対処する3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い分類をしばしば使用し、いくつかのきめ細かいトピックを過剰に表現している。
例えば、私たちが評価した10の既存のデータセットのうち、自己修復命令の拒否テストは不正行為のテストよりも3倍少ない。
SORRY-Benchは、45の潜在的な安全でないトピックと450のクラスバランスの安全でない命令の詳細な分類法を使用して、これを改善している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
SORRY-Benchに20種類の言語拡張を加え,これらの効果を系統的に検討した。
第3に、既存の評価は計算コストのかかる大規模なLCM(例えば、GPT-4)に依存している。
高速かつ高精度な自動安全評価器の設計選択について検討する。
7K以上のアノテーションを収集し,多様なLCM-as-a-judge設計のメタ評価を行うことにより,微調整 7B LLM が GPT-4 スケール LLM に匹敵する精度で計算コストを低減できることを示す。
そこで我々は,SORRY-Bench上で40以上のプロプライエタリかつオープンソース LLM を評価し,その特性を解析した。
我々は, LLMの安全性を, バランスよく, 粒状で, 効率よく, 体系的に評価するためのビルディングブロックを提供することを願っている。
Evaluating aligned large language models' (LLMs) ability to recognize and reject unsafe user requests is crucial for safe, policy-compliant deployments. Existing evaluation efforts, however, face three limitations that we address with SORRY-Bench, our proposed benchmark. First, existing methods often use coarse-grained taxonomies of unsafe topics, and are over-representing some fine-grained topics. For example, among the ten existing datasets that we evaluated, tests for refusals of self-harm instructions are over 3x less represented than tests for fraudulent activities. SORRY-Bench improves on this by using a fine-grained taxonomy of 45 potentially unsafe topics, and 450 class-balanced unsafe instructions, compiled through human-in-the-loop methods. Second, linguistic characteristics and formatting of prompts are often overlooked, like different languages, dialects, and more -- which are only implicitly considered in many evaluations. We supplement SORRY-Bench with 20 diverse linguistic augmentations to systematically examine these effects. Third, existing evaluations rely on large LLMs (e.g., GPT-4) for evaluation, which can be computationally expensive. We investigate design choices for creating a fast, accurate automated safety evaluator. By collecting 7K+ human annotations and conducting a meta-evaluation of diverse LLM-as-a-judge designs, we show that fine-tuned 7B LLMs can achieve accuracy comparable to GPT-4 scale LLMs, with lower computational cost. Putting these together, we evaluate over 40 proprietary and open-source LLMs on SORRY-Bench, analyzing their distinctive refusal behaviors. We hope our effort provides a building block for systematic evaluations of LLMs' safety refusal capabilities, in a balanced, granular, and efficient manner. | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# Stylebreeder: テキスト・ツー・イメージ・モデルによるアートスタイルの探索と民主化
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models ( http://arxiv.org/abs/2406.14599v1 ) ライセンス: Link先を確認 | Matthew Zheng, Enis Simsar, Hidir Yesiltepe, Federico Tombari, Joel Simon, Pinar Yanardag, | (参考訳) テキスト・ツー・イメージ・モデルは、高度に詳細で創造的なビジュアルコンテンツ生成を可能にすることで、デジタルアート制作の風景に革命をもたらした。
これらのモデルは様々な領域、特に芸術世代で広く使われており、創造的な表現の幅広い範囲を助長し、芸術的創造へのアクセスを民主化している。
本稿では,Artbreeder上での6.8M画像と1.8Mプロンプトの総合的データセットである‘texttt{STYLEBREEDER}’を紹介する。
本データセットでは,多様な芸術的スタイルの識別,パーソナライズされたコンテンツの生成,ユーザの興味に基づくスタイルの推薦を目的とした一連のタスクを紹介する。
サイバーパンク(cyberpunk)やピカソ(Picasso)といった従来のカテゴリを超越したユニークなユーザ生成スタイルを文書化することによって,世界中のユーザの創造的精神に深い洞察を与えることのできる,ユニークなクラウドソーススタイルの可能性を探る。
また,芸術的表現を向上させるためのパーソナライズ手法の評価や,スタイルのアトラスを導入し,これらのモデルをLoRA形式で公開的に利用できるようにする。
我々の研究は、ユニークな芸術表現を発見・促進し、芸術におけるAIをさらに民主化し、より多様性があり包括的な芸術コミュニティを育むためのテキスト・画像拡散モデルの可能性を実証している。
データセット、コード、モデルは、パブリックドメイン(CC0)ライセンスの下でhttps://stylebreeder.github.ioで入手できる。
Text-to-image models are becoming increasingly popular, revolutionizing the landscape of digital art creation by enabling highly detailed and creative visual content generation. These models have been widely employed across various domains, particularly in art generation, where they facilitate a broad spectrum of creative expression and democratize access to artistic creation. In this paper, we introduce \texttt{STYLEBREEDER}, a comprehensive dataset of 6.8M images and 1.8M prompts generated by 95K users on Artbreeder, a platform that has emerged as a significant hub for creative exploration with over 13M users. We introduce a series of tasks with this dataset aimed at identifying diverse artistic styles, generating personalized content, and recommending styles based on user interests. By documenting unique, user-generated styles that transcend conventional categories like 'cyberpunk' or 'Picasso,' we explore the potential for unique, crowd-sourced styles that could provide deep insights into the collective creative psyche of users worldwide. We also evaluate different personalization methods to enhance artistic expression and introduce a style atlas, making these models available in LoRA format for public use. Our research demonstrates the potential of text-to-image diffusion models to uncover and promote unique artistic expressions, further democratizing AI in art and fostering a more diverse and inclusive artistic community. The dataset, code and models are available at https://stylebreeder.github.io under a Public Domain (CC0) license. | 翻訳日:2024-06-24 18:37:49 公開日:2024-06-20 |
# 分子ポテンシャルエネルギー表面の量子エクストリーム学習と力場
Quantum Extreme Learning of molecular potential energy surfaces and force fields ( http://arxiv.org/abs/2406.14607v1 ) ライセンス: Link先を確認 | Gabriele Lo Monaco, Marco Bertini, Salvatore Lorenzo, G. Massimo Palma, | (参考訳) 量子機械学習アルゴリズムは、近い将来、量子化学シミュレーションにおいて重要な役割を果たすことが期待されている。
そのような応用の1つは、分子系のポテンシャルエネルギー表面と力場を学ぶための量子ニューラルネットワークのトレーニングである。
量子極端学習マシンのパラダイムを用いてこの問題に対処する。
この特定の教師付き学習ルーチンは、古典的コンピュータ上で実行される単純な線形回帰からなるリソース効率のトレーニングを可能にする。
我々は、任意の次元の分子を研究するために使用可能なセットアップをテストし、ネイティブゲート数に制限のあるNISQデバイスで即時使用できるように最適化した。
我々はこの設定を水素化リチウム、水、ホルムアミドの3つのケーススタディに適用し、ノイズレスシミュレーションと実際のIBM量子ハードウェアの実装を行った。
他の教師付き学習ルーチンと比較して、提案されたセットアップは最小限の量子リソースを必要とし、シミュレーションよりも高いレベルの予測精度を達成しつつ、量子プラットフォーム上で直接実装することが可能である。
私たちの奨励的な結果は、提案されたセットアップがスケーラブルである、より複雑な分子への将来の応用への道を開くものです。
Quantum machine learning algorithms are expected to play a pivotal role in quantum chemistry simulations in the immediate future. One such key application is the training of a quantum neural network to learn the potential energy surface and force field of molecular systems. We address this task by using the quantum extreme learning machine paradigm. This particular supervised learning routine allows for resource-efficient training, consisting of a simple linear regression performed on a classical computer. We have tested a setup that can be used to study molecules of any dimension and is optimized for immediate use on NISQ devices with a limited number of native gates. We have applied this setup to three case studies: lithium hydride, water, and formamide, carrying out both noiseless simulations and actual implementation on IBM quantum hardware. Compared to other supervised learning routines, the proposed setup requires minimal quantum resources, making it feasible for direct implementation on quantum platforms, while still achieving a high level of predictive accuracy compared to simulations. Our encouraging results pave the way towards the future application to more complex molecules, being the proposed setup scalable. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 離散変調連続変数を用いたマルチユーザ量子鍵分布のセキュリティ
Security of Multi-User Quantum Key Distribution with Discrete-Modulated Continuous-Variables ( http://arxiv.org/abs/2406.14610v1 ) ライセンス: Link先を確認 | Florian Kanitschar, Christoph Pacher, | (参考訳) 従来の量子鍵分配(QKD)プロトコルのポイントツーポイント設定では、秘密鍵の確立を目的とした2つの直接接続されたリモートパーティが一般的である。
本研究では、よく確立されたポイントツーポイント離散変調連続変数(CV)QKDプロトコルを、ポイントツーマルチポイント設定に自然な一般化を提案する。
我々は,コミュニケーション関係者間で4つの信頼レベルを探索し,無症候性限度における損失のみのチャネルと損失の大きい \&noisy チャネルに対して安全な鍵レートを提供する。
本研究により, CV-QKDは, 数十のユーザをマルチポイントネットワークで接続するのに適する候補であり, 近代的な通信インフラにおいて, 市販の部品を用いて, 高いコストで高いレートを達成できることが示唆された。
The conventional point-to-point setting of a Quantum Key Distribution (QKD) protocol typically considers two directly connected remote parties that aim to establish secret keys. This work proposes a natural generalization of a well-established point-to-point discrete-modulated continuous-variable (CV) QKD protocol to the point-to-multipoint setting. We explore four different trust levels among the communicating parties and provide secure key rates for the loss-only channel and the lossy \& noisy channel in the asymptotic limit. Our study shows that discrete-modulated CV-QKD is a suitable candidate to connect several dozens of users in a point-to-multipoint network, achieving high rates at a reduced cost, using off-the-shelf components employed in modern communication infrastructure. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 量子近似最適化アルゴリズムの性能ランドスケープにおけるノズルピースの欠落
Missing Puzzle Pieces in the Performance Landscape of the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2406.14618v1 ) ライセンス: Link先を確認 | Elisabeth Wybo, Martin Leib, | (参考訳) ランダムな正則グラフ上での最大カットと最大独立集合問題を考慮し、高い正則性に対してQAOAによって達成されるエネルギー密度を最大$d=100$まで計算する。
このような解析は、ハミルトニアン作用素の逆因果錐が木部分グラフに関連付けられており、効率的な古典的収縮スキームを開発できるため可能である。
両問題に対する最適性について,QAOA分析と最先端の上界を結合する。
これは、QAOAが大きな問題サイズに対して達成した近似比に、新しくより良い境界をもたらす。
最大カット問題に対するグラフ正則性の増加に伴い,QAOAにより達成される近似比が向上することを示す。
しかし、QAOAは最大独立集合問題に対して逆の挙動を示す。
この現象は、(QAOAのような)局所アルゴリズムが高い確率で最適に近い解に到達することを制限する、大きな$d$の重なり合うギャップ特性によって説明できる。
さらに,木部分グラフ上で決定されたQAOAパラメータを小さなグラフのインスタンスに適用し,その場合,最大カット問題に対してゴーマンス・ウィリアムソンのような古典的アルゴリズムを上回り,最大独立集合問題に対して最小の欲求性を与える。
このようにして、パラメータ最適化問題を回避し、期待される近似比のバウンダリを導出することができる。
We consider the maximum cut and maximum independent set problems on random regular graphs, and calculate the energy densities achieved by QAOA for high regularities up to $d=100$. Such an analysis is possible because the reverse causal cones of the operators in the Hamiltonian are associated with tree subgraphs, for which efficient classical contraction schemes can be developed. We combine the QAOA analysis with state-of-the-art upper bounds on optimality for both problems. This yields novel and better bounds on the approximation ratios achieved by QAOA for large problem sizes. We show that the approximation ratios achieved by QAOA improve as the graph regularity increases for the maximum cut problem. However, QAOA exhibits the opposite behavior for the maximum independent set problem, i.e. the approximation ratios decrease with increasing regularity. This phenomenon is explainable by the overlap gap property for large $d$, which restricts local algorithms (like QAOA) from reaching near-optimal solutions with high probability. In addition, we use the QAOA parameters determined on the tree subgraphs for small graph instances, and in that way outperform classical algorithms like Goemans-Williamson for the maximum cut problem and minimal greedy for the maximum independent set problem. In this way we circumvent the parameter optimization problem and are able to derive bounds on the expected approximation ratios. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 回路QEDの結合光子数分割方式を用いた二重レールキャビティ量子ビットの中間回路消去チェック
A mid-circuit erasure check on a dual-rail cavity qubit using the joint-photon number-splitting regime of circuit QED ( http://arxiv.org/abs/2406.14621v1 ) ライセンス: Link先を確認 | Stijn J. de Graaf, Sophia H. Xue, Benjamin J. Chapman, James D. Teoh, Takahiro Tsunoda, Patrick Winkel, John W. O. Garmon, Kathleen M. Chang, Luigi Frunzio, Shruti Puri, Robert J. Schoelkopf, | (参考訳) 非線形アンシラへの静的分散結合を用いた線形発振器の量子制御は、回路QEDにおいて様々な実験を行う。
この制御を複数の発振器に拡張し、必要なアンシラへの接続を最小化することで、ハードウェア効率の良いマルチモードの絡み合いと測定を可能にした。
本研究では, 単一モードに静的に結合したアンシラのスペクトルを, 強いパラメトリックビームスプリッタ結合を施すことにより, 2モードの接合光子数に依存することを示す。
2つの超伝導キャビティに符号化されたデュアルレール量子ビットに対して、ハードウェア効率の良い消去チェックを実現するために、この「接合光子数分割」方式は、単一オシレータ技術を2オシレータ制御に拡張する。
単一ビットゲートに既に必要とされているビームスプリッタ結合を利用することで、回路素子間の接続を最小限に抑えることができる。
さらに、パルス形状を選択する柔軟性により、異なるエラーチャネルに対する感受性を制限することができる。
我々はこの手法を用いて、消去率2.92 pm 0.01 %$とPauli エラー率0.31 pm 0.01 %$を発生させながら、消去率9.0 pm 0.5)\times10^{-4}$を欠落した消去率9.0 pm 0.5 でリークエラーを検出する。
Quantum control of a linear oscillator using a static dispersive coupling to a nonlinear ancilla underpins a wide variety of experiments in circuit QED. Extending this control to more than one oscillator while minimizing the required connectivity to the ancilla would enable hardware-efficient multi-mode entanglement and measurements. We show that the spectrum of an ancilla statically coupled to a single mode can be made to depend on the joint photon number in two modes by applying a strong parametric beamsplitter coupling between them. This `joint-photon number-splitting' regime extends single-oscillator techniques to two-oscillator control, which we use to realize a hardware-efficient erasure check for a dual-rail qubit encoded in two superconducting cavities. By leveraging the beamsplitter coupling already required for single-qubit gates, this scheme permits minimal connectivity between circuit elements. Furthermore, the flexibility to choose the pulse shape allows us to limit the susceptibility to different error channels. We use this scheme to detect leakage errors with a missed erasure fraction of $(9.0 \pm 0.5)\times10^{-4}$, while incurring an erasure rate of $2.92 \pm 0.01\%$ and a Pauli error rate of $0.31 \pm 0.01\%$, both of which are dominated by cavity errors. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 効率的な変分量子アルゴリズムのためのベイズ最適化
Bayesian Optimization Priors for Efficient Variational Quantum Algorithms ( http://arxiv.org/abs/2406.14627v1 ) ライセンス: Link先を確認 | Farshud Sorourifar, Diana Chamaki, Norm M. Tubman, Joel A. Paulson, David E. Bernal Neira, | (参考訳) 量子コンピュータは現在、問題を解くために変分量子アルゴリズム(VQA)と呼ばれるハイブリッド量子古典的アプローチに依存している。
一般に非凸であるブラックボックス最適化問題に対応しており、量子ハードウェアからの観測はノイズが多く、量子コンピューティング時間は高価である。
最初の点は問題構造に固有のものであり、結果として、VQAの古典的な部分を大域最適化戦略を用いて解く必要がある。
しかし、コストと精度の間にはトレードオフがあり、通常、量子コンピュータはビット文字列のセットを返し、それぞれのビットストリングをショットと呼ぶ。
量子コンピューティング(QC)の確率論的性質は、回路を正確に測定するために多くのショットを必要とする。
ショットあたりのQC時間は課金されるので、ショットの数を減らすことで、より安価で精度の低い観察が可能になる。
近年,量子回路パラメータのグローバルな最適化にベージアン最適化(BO)法を用いることへの関心が高まっている。
本研究は、VQAのショット効率最適化戦略を提供するため、基本的なBOフレームワークに2つの修正を加えることを提案する。
具体的には、回転角の周期性に先行を配置する手段と、数ショットの量子回路観測を用いて位相的先行を配置する枠組みを提供する。
本稿では, 計算化学シミュレーションにおいて, VQA 内での標準 BO 実装を統計的に上回る性能を有することを示すアブレーション実験により, 提案手法の有効性を実証する。
Quantum computers currently rely on a hybrid quantum-classical approach known as Variational Quantum Algorithms (VQAs) to solve problems. Still, there are several challenges with VQAs on the classical computing side: it corresponds to a black-box optimization problem that is generally non-convex, the observations from the quantum hardware are noisy, and the quantum computing time is expensive. The first point is inherent to the problem structure; as a result, it requires the classical part of VQAs to be solved using global optimization strategies. However, there is a trade-off between cost and accuracy; typically, quantum computers return a set of bit strings, where each bitstring is referred to as a shot. The probabilistic nature of quantum computing (QC) necessitates many shots to measure the circuit accurately. Since QC time is charged per shot, reducing the number of shots yields cheaper and less accurate observations. Recently, there has been increasing interest in using basic Bayesian optimization (BO) methods to globally optimize quantum circuit parameters. This work proposes two modifications to the basic BO framework to provide a shot-efficient optimization strategy for VQAs. Specifically, we provide a means to place a prior on the periodicity of the rotation angles and a framework to place a topological prior using few-shot quantum circuit observations. We demonstrate the effectiveness of our proposed approach through an ablation study, showing that using both proposed features statistically outperforms a standard BO implementation within VQAs for computational chemistry simulations. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# LLMは教育によって学べるか? : 予備的研究
Can LLMs Learn by Teaching? A Preliminary Study ( http://arxiv.org/abs/2406.14629v1 ) ライセンス: Link先を確認 | Xuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang, | (参考訳) 学生モデルを改善するための指導(例えば、知識蒸留)は、LLMにおいて広く研究されている方法論である。
しかし、人間にとって、教育は生徒を改良するだけでなく、教師も改善する。
LLMは教育(LbT)でも学べますか?
もしそうなら、人間が生成したデータやより強力なモデルに頼ることなく、モデルを継続的に前進させる可能性を解き放つことができます。
本稿では,この野心的な課題を予備調査する。
既存のLLMトレーニング/プロンプティングパイプラインにLbTのアイデアを組み込むことで,顕著な改善が期待できる。
具体的には、学生のフィードバックを観察し、フィードバックから学び、反復的に学習する3段階のLbTの1つのレベルを模倣する3つの手法を設計する。
調査結果は好意的だ。
例えば、人間におけるLbTと同様、(1)LbTは弱強一般化を誘導できる:強いモデルは、他の弱いモデルを教えることによって、自分自身を改善することができる;(2)学生の多様性は、複数の学生に教えることが、一人の生徒や教師自身を教えることよりも、より良くなるかもしれない。
我々は、この早期の約束が将来のLbTの研究を刺激し、LLMを改善するための教育の先進的な技術を採用することを願っている。
コードはhttps://github.com/imagination-research/lbt.comで公開されている。
Teaching to improve student models (e.g., knowledge distillation) is an extensively studied methodology in LLMs. However, for humans, teaching not only improves students but also improves teachers. We ask: Can LLMs also learn by teaching (LbT)? If yes, we can potentially unlock the possibility of continuously advancing the models without solely relying on human-produced data or stronger models. In this paper, we provide a preliminary exploration of this ambitious agenda. We show that LbT ideas can be incorporated into existing LLM training/prompting pipelines and provide noticeable improvements. Specifically, we design three methods, each mimicking one of the three levels of LbT in humans: observing students' feedback, learning from the feedback, and learning iteratively, with the goals of improving answer accuracy without training and improving models' inherent capability with fine-tuning. The findings are encouraging. For example, similar to LbT in human, we see that: (1) LbT can induce weak-to-strong generalization: strong models can improve themselves by teaching other weak models; (2) Diversity in students might help: teaching multiple students could be better than teaching one student or the teacher itself. We hope that this early promise can inspire future research on LbT and more broadly adopting the advanced techniques in education to improve LLMs. The code is available at https://github.com/imagination-research/lbt. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 非$$$-有理実二次体のいくつかの新しい無限族
Some new infinite families of non-$p$-rational real quadratic fields ( http://arxiv.org/abs/2406.14632v1 ) ライセンス: Link先を確認 | Gary McConnell, | (参考訳) 素数の有限集合を$\{ p_j \}$で固定し、2ドルまたは3ドルは含まない。
量子情報におけるSIC-POVMs問題の解法から生じるいくつかの観測を用いて、p_j$-有理実二次体の無限族を構成するための単純な方法論を与える。
あるいは、これらは、$\mathbb{Q}(\sqrt{D})$ の無限列として記述され、様々な$D$に対して、すべての$p_j$ は $k$-Wall-Sun-Sun 素数、あるいは同値に一般化された Fibonacci-Wieferich 素数である。
これらの技法の1つの特徴は、与えられた体 $K=\mathbb{Q}(\sqrt{D})$ を、極大アーベル群のガロア群のトーション群の$p$の巡回成分として、$K$の非有理化外部素数の$K$は、$a\geq1$の$p^a$の任意の大きさであるような体を与えるのに使うことができることである。
Fix a finite collection of primes $\{ p_j \}$, not containing $2$ or $3$. Using some observations which arose from attempts to solve the SIC-POVMs problem in quantum information, we give a simple methodology for constructing an infinite family of simultaneously non-$p_j$-rational real quadratic fields, unramified above any of the $p_j$. Alternatively these may be described as infinite sequences of instances of $\mathbb{Q}(\sqrt{D})$, for varying $D$, where every $p_j$ is a $k$-Wall-Sun-Sun prime, or equivalently a generalised Fibonacci-Wieferich prime. One feature of these techniques is that they may be used to yield fields $K=\mathbb{Q}(\sqrt{D})$ for which a $p$-power cyclic component of the torsion group of the Galois groups of the maximal abelian pro-$p$-extension of $K$ unramified outside primes above $p$, is of size $p^a$ for $a\geq1$ arbitrarily large. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 行動木を用いた適応マニピュレーション
Adaptive Manipulation using Behavior Trees ( http://arxiv.org/abs/2406.14634v1 ) ライセンス: Link先を確認 | Jacques Cloete, Wolfgang Merkt, Ioannis Havoutis, | (参考訳) 多くの操作タスクは、バルブの締め付けや緩めるためのねじれ運動のような一連の共通の動きのインスタンスを使用する。
しかし、同じ動きの異なるインスタンスは、しばしば異なる環境パラメータ(例えば、力/トルクレベル)を必要とするため、異なる操作戦略をうまく完成させる必要がある。
人間はこのような問題に最も適した操作戦略を直感的に適応することができるが、そのような動作をロボットに表現し実装することは未解決の問題である。
本稿では,ロボットがタスク実行中に個別の操作戦略を選択・切り替えする,適応的操作のための行動木に基づくアプローチを提案する。
さらに,提案手法は,例えばタスクインスタンスの最適戦略を学習するなど,過去の課題からパフォーマンスを最適化しようとする試みを学習することを可能にする。
われわれのアプローチでは、ロボットがタスクの失敗をプリエンプトし、より実現可能な戦略に変更するか、破滅的な失敗が起こる前にタスクを安全に終了させることもできる。
本稿では,一般適応型ロボット行動のためのシンプルな行動木設計法を提案し,産業的操作の文脈で適用する。
適応的な振る舞いは、単一の操作戦略のみを使用したすべてのベースライン動作よりも優れており、サンプルタスクの完了に要する試行回数と全体的な時間を大幅に削減した。
この結果から,タスク完了時の堅牢性や効率性の向上,人的監督や介入への依存の低減が示唆された。
Many manipulation tasks use instances of a set of common motions, such as a twisting motion for tightening or loosening a valve. However, different instances of the same motion often require different environmental parameters (e.g. force/torque level), and thus different manipulation strategies to successfully complete; for example, grasping a valve handle from the side rather than head-on to increase applied torque. Humans can intuitively adapt their manipulation strategy to best suit such problems, but representing and implementing such behaviors for robots remains an open question. We present a behavior tree-based approach for adaptive manipulation, wherein the robot can reactively select from and switch between a discrete set of manipulation strategies during task execution. Furthermore, our approach allows the robot to learn from past attempts to optimize performance, for example learning the optimal strategy for different task instances. Our approach also allows the robot to preempt task failure and either change to a more feasible strategy or safely exit the task before catastrophic failure occurs. We propose a simple behavior tree design for general adaptive robot behavior and apply it in the context of industrial manipulation. The adaptive behavior outperformed all baseline behaviors that only used a single manipulation strategy, markedly reducing the number of attempts and overall time taken to complete the example tasks. Our results demonstrate potential for improved robustness and efficiency in task completion, reducing dependency on human supervision and intervention. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 熟練したクーリエからの高効率オンデマンド注文ポーリング:リアルタイム多対一アサインの修正のためのグラフ表現学習の強化
Harvesting Efficient On-Demand Order Pooling from Skilled Couriers: Enhancing Graph Representation Learning for Refining Real-time Many-to-One Assignments ( http://arxiv.org/abs/2406.14635v1 ) ライセンス: Link先を確認 | Yile Liang, Jiuxia Zhao, Donghui Li, Jie Feng, Chen Zhang, Xuetao Ding, Jinghua Hao, Renqing He, | (参考訳) 最近はオンデマンドフードデリバリー(OFD)サービスが急増しており、注文後数十分以内で配送が完了している。
OFDでは、複数注文の同時配送をリアルタイムに行うことが、デリバリ時間を延ばす重要な効率源である。
プラットフォーム効率と消費者と宅配業者の体験を調和させるため、高品質な注文プールを構築することは、OFDプラットフォームにとって不可欠である。
しかし、注文代入の複雑さとリアルタイム性により、広範囲な計算が現実的ではないため、注文統合の可能性は著しく制限される。
さらに、オフライン環境は、しばしば未知の要因によって取り除かれ、プラットフォームが認識し、決定をプールすることの難しさを浮き彫りにしている。
それでも、環境をよく知る熟練宅配業者(SC)の配送行動は、システム意識を改善し、意思決定を効果的に伝えることができる。
SC配信ネットワーク(SCDN)は、OFDに適した非均一なネットワーク埋め込みを改良した手法に基づいて構築される。
それは、豊富な時間的・空間的な情報から特徴を抽出し、SC軌道に埋め込まれた順序の組み合わせの潜在ポテンシャルを明らかにすることを目的としている。
そのため、低次元ベクトルのスケーラブルな類似性計算により、注文代入の広い探索空間を効果的に切断することができ、包括的かつ高品質なプール結果がリアルタイムにより容易に識別できる。
SCDNは現在、Meituanディスパッチシステムに配備されている。
オンラインテストによると、SCDNではプールの品質と範囲が大幅に改善されている。
また,本システムでは,ピーク時の給油効率を45~55%向上すると同時に,タイムリーな納入コミットメントを維持できる。
The recent past has witnessed a notable surge in on-demand food delivery (OFD) services, offering delivery fulfillment within dozens of minutes after an order is placed. In OFD, pooling multiple orders for simultaneous delivery in real-time order assignment is a pivotal efficiency source, which may in turn extend delivery time. Constructing high-quality order pooling to harmonize platform efficiency with the experiences of consumers and couriers, is crucial to OFD platforms. However, the complexity and real-time nature of order assignment, making extensive calculations impractical, significantly limit the potential for order consolidation. Moreover, offline environment is frequently riddled with unknown factors, posing challenges for the platform's perceptibility and pooling decisions. Nevertheless, delivery behaviors of skilled couriers (SCs) who know the environment well, can improve system awareness and effectively inform decisions. Hence a SC delivery network (SCDN) is constructed, based on an enhanced attributed heterogeneous network embedding approach tailored for OFD. It aims to extract features from rich temporal and spatial information, and uncover the latent potential for order combinations embedded within SC trajectories. Accordingly, the vast search space of order assignment can be effectively pruned through scalable similarity calculations of low-dimensional vectors, making comprehensive and high-quality pooling outcomes more easily identified in real time. SCDN has now been deployed in Meituan dispatch system. Online tests reveal that with SCDN, the pooling quality and extent have been greatly improved. And our system can boost couriers'efficiency by 45-55% during noon peak hours, while upholding the timely delivery commitment. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 導出結合は因果コミュニケーションにおける真の絡み合いの収穫を可能にする
Derivative coupling enables genuine entanglement harvesting in causal communication ( http://arxiv.org/abs/2406.14637v1 ) ライセンス: Link先を確認 | Adam Teixidó-Bonfill, Eduardo Martín-Martínez, | (参考訳) 粒子検出器は, 平面時空において因果接触中であっても, その導体を介して無質量場の量子場に結合し, 実際にエンタングルメントを形成することができることを示す。
これは、微分カップリングモデルがいくつかの興味深い実験可能なシステムを捕捉し、収穫された絡み合いが全光接触でピークとなるため、特に関係がある。
We show that particle detectors coupled to a massless quantum field through its derivative can genuinely harvest entanglement form the field even when they are in causal contact in flat spacetime. This is particularly relevant since the derivative coupling model captures some interesting experimentally realizable systems and since the harvested entanglement peaks at full light contact. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 時のない宇宙における時間測定
Measuring time in a timeless universe ( http://arxiv.org/abs/2406.14642v1 ) ライセンス: Link先を確認 | Samuel Kuypers, Simone Rijavec, | (参考訳) 物理系は通常、外的実数値時間パラメータに対して進化すると仮定される。
この一見無邪気な仮定は、時間パラメータが物理的ではないために問題となる。
例えば、いかなる物理系においても観測可能であるわけではない。
量子論において、この問題はPage & Wootters (1984) によって解決され、宇宙は静止状態にあり、外部時間パラメータは無関係である。
代わりに、ページ・ウーター宇宙の部分系は、他の系と絡み合っているので、シュル・オーディンガー方程式に従って「進化」する。
これは、ページ・アンド・ウーターズが元々の定式化において行う仮定の1つであるため、時計が動的に孤立したシステムである必要があるとしばしば仮定される。
これは明らかに、別のシステムとの相互作用を必要とするため、時計が測定されるのを防ぐ。
本研究は,アイソレーションが十分だが必要ではないことを示し,クロック時間の測定を可能にする。
クロック同期についても論じる。
Physical systems are typically assumed to evolve relative to an external real-valued time parameter. This seemingly innocent assumption is problematic because the time parameter is not physical. For instance, it is not an observable of any physical system. In quantum theory, this problem is solved by a construction due to Page & Wootters (1984), in which the universe is in a stationary state so that the external time parameter is irrelevant. Instead, a subsystem of the Page-Wootters universe will `evolve' according to the Schr\"odinger equation because it is entangled with another system, aptly called a `clock'. It is often assumed necessary for the clock to be a dynamically isolated system, as this is one of the assumptions that Page & Wootters make in their original formulation. This apparently prevents the clock from being measured, as a measurement would require it to interact with another system. In this work, we show that isolation is a sufficient but not necessary condition, allowing clock time to be measured. We also discuss clock synchronisation. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# インターリーブ型テキスト・画像生成のためのホロスティック評価
Holistic Evaluation for Interleaved Text-and-Image Generation ( http://arxiv.org/abs/2406.14643v1 ) ライセンス: Link先を確認 | Minqian Liu, Zhiyang Xu, Zihao Lin, Trevor Ashby, Joy Rimchala, Jiaxin Zhang, Lifu Huang, | (参考訳) インターリーブされたテキスト・画像生成は興味深い研究方向であり、モデルが任意の順序で画像とテキストの両方を生成する必要がある。
インターリーブ世代の発展にもかかわらず、その評価の進歩は依然として著しく遅れている。
既存の評価ベンチマークでは、入力と出力の両方に対して任意にインターリーブされた画像とテキストをサポートしておらず、限られた数のドメインとユースケースしかカバーしていない。
また、現在の作業では、オープンエンドのシナリオの品質を評価するのに不足する類似度ベースのメトリクスを主に使用しています。
この目的のために、インターリーブドベンチ(InterleavedBench)を導入し、インターリーブドテキスト・画像生成の評価を慎重に行う。
InterleavedBenchは、さまざまな現実世界のユースケースをカバーする、豊富なタスク群を備えている。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
テキスト品質,知覚品質,画像コヒーレンス,画像コヒーレンス,テキスト画像コヒーレンス,有用性など,InterleavedEvalに不可欠な5つの側面を慎重に定義し,包括的かつきめ細かな評価を確実にする。
本研究では,従来の基準基準を超越した人的判断と強い相関関係を持つ既存モデルの評価を,広範囲にわたる実験と厳密な人的評価を通じて効果的に行うことができることを示す。
我々はまた、インターリーブ世代における今後の研究を促進するための重要な知見と洞察を与え、その評価を行った。
Interleaved text-and-image generation has been an intriguing research direction, where the models are required to generate both images and text pieces in an arbitrary order. Despite the emerging advancements in interleaved generation, the progress in its evaluation still significantly lags behind. Existing evaluation benchmarks do not support arbitrarily interleaved images and text for both inputs and outputs, and they only cover a limited number of domains and use cases. Also, current works predominantly use similarity-based metrics which fall short in assessing the quality in open-ended scenarios. To this end, we introduce InterleavedBench, the first benchmark carefully curated for the evaluation of interleaved text-and-image generation. InterleavedBench features a rich array of tasks to cover diverse real-world use cases. In addition, we present InterleavedEval, a strong reference-free metric powered by GPT-4o to deliver accurate and explainable evaluation. We carefully define five essential evaluation aspects for InterleavedEval, including text quality, perceptual quality, image coherence, text-image coherence, and helpfulness, to ensure a comprehensive and fine-grained assessment. Through extensive experiments and rigorous human evaluation, we show that our benchmark and metric can effectively evaluate the existing models with a strong correlation with human judgments surpassing previous reference-based metrics. We also provide substantial findings and insights to foster future research in interleaved generation and its evaluation. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 言語モデルにおけるデータ汚染スペクトルの展開:検出から修復まで
Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation ( http://arxiv.org/abs/2406.14644v1 ) ライセンス: Link先を確認 | Chunyuan Deng, Yilun Zhao, Yuzhao Heng, Yitong Li, Jiannan Cao, Xiangru Tang, Arman Cohan, | (参考訳) データ汚染は、大規模な言語モデル(LLM)の時代において、広範なインターネット由来のトレーニングコーパスに依存しているため、注目を集めている。
トレーニングコーパスの問題は、評価ベンチマークと重なり、汚染と評価され、近年の重大な研究の焦点となっている。
この研究の目的は、汚染を特定し、その影響を理解し、様々な観点から緩和戦略を探求することである。
しかし、基礎概念から先進的な洞察への明確な経路を提供する包括的な研究は、この初期の分野では欠落している。
そこで本研究では,データ汚染分野の包括的調査を行い,重要な課題,方法論,知見を概説するとともに,さらなる研究・開発の必要性を浮き彫りにしている。
特に,各段階および形態におけるデータ汚染の影響について検討することから始める。
次に、現在の汚染検知方法の詳細な分析を行い、それらの焦点、仮定、強度、限界を分類する。
また、今後の研究の明確な指針として緩和戦略についても論じる。
この調査は、データ汚染研究の最新の進歩の簡潔な概要として役立ち、将来の研究成果の直接的なガイドを提供する。
Data contamination has garnered increased attention in the era of large language models (LLMs) due to the reliance on extensive internet-derived training corpora. The issue of training corpus overlap with evaluation benchmarks--referred to as contamination--has been the focus of significant recent research. This body of work aims to identify contamination, understand its impacts, and explore mitigation strategies from diverse perspectives. However, comprehensive studies that provide a clear pathway from foundational concepts to advanced insights are lacking in this nascent field. Therefore, we present a comprehensive survey in the field of data contamination, laying out the key issues, methodologies, and findings to date, and highlighting areas in need of further research and development. In particular, we begin by examining the effects of data contamination across various stages and forms. We then provide a detailed analysis of current contamination detection methods, categorizing them to highlight their focus, assumptions, strengths, and limitations. We also discuss mitigation strategies, offering a clear guide for future research. This survey serves as a succinct overview of the most recent advancements in data contamination research, providing a straightforward guide for the benefit of future research endeavors. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# オンザフライロボット制御のためのLLM粒度
LLM Granularity for On-the-Fly Robot Control ( http://arxiv.org/abs/2406.14653v1 ) ライセンス: Link先を確認 | Peng Wang, Mattia Robbiani, Zhihao Guo, | (参考訳) 高齢者のような脆弱な個人にとって、生活の質を高める可能性から、補助ロボットは大きな注目を集めている。
コンピュータビジョン、大規模言語モデル、ロボット工学の融合により、視覚学と言語学を協調ロボットに組み込んで、積極的に対話的な支援を可能にする「視覚運動」モードが導入された。
視覚が信頼できない、あるいは利用できない状況では、ロボットを制御するために言語のみを頼りにできますか。
} この作業は、この質問に答える最初のステップを取ります。
1) 様々な粒度の言語プロンプトに対する補助ロボットの反応の評価
2)ロボットの飛行制御の必要性と実現可能性を探る。
議論を支援するために,Sawyerコボットを用いた実験を設計し,実施した。
Turtlebotのロボットケースは、補助ロボットが補助のために操作する必要があるシナリオへのソリューションの適応を実証するために設計されている。
コードはすぐにGitHubでリリースされ、コミュニティに利益をもたらす。
Assistive robots have attracted significant attention due to their potential to enhance the quality of life for vulnerable individuals like the elderly. The convergence of computer vision, large language models, and robotics has introduced the `visuolinguomotor' mode for assistive robots, where visuals and linguistics are incorporated into assistive robots to enable proactive and interactive assistance. This raises the question: \textit{In circumstances where visuals become unreliable or unavailable, can we rely solely on language to control robots, i.e., the viability of the `linguomotor` mode for assistive robots?} This work takes the initial steps to answer this question by: 1) evaluating the responses of assistive robots to language prompts of varying granularities; and 2) exploring the necessity and feasibility of controlling the robot on-the-fly. We have designed and conducted experiments on a Sawyer cobot to support our arguments. A Turtlebot robot case is designed to demonstrate the adaptation of the solution to scenarios where assistive robots need to maneuver to assist. Codes will be released on GitHub soon to benefit the community. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# 主要なエンティティ識別: 参照解決のための一般化可能な代替手段
Major Entity Identification: A Generalizable Alternative to Coreference Resolution ( http://arxiv.org/abs/2406.14654v1 ) ライセンス: Link先を確認 | Kawshik Manikantan, Shubham Toshniwal, Makarand Tapaswi, Vineet Gandhi, | (参考訳) CRモデルの限定的な一般化は、タスクの幅広い応用において大きなボトルネックとなっている。
先行研究は、特に言及検出において、一般化ギャップの主な原因の一つとしてアノテーションの違いを特定し、追加の注釈付きターゲットドメインデータを用いて提案した。
この追加アノテーションに頼るのではなく、CRタスクの代替式であるMajor Entity Identification (MEI)を提案する。
a) 入力で指定すべき対象エンティティを仮定し、
b) タスクを頻繁なエンティティのみに制限する。
広範囲な実験を通して、MEIモデルが複数のデータセット上のドメインにまたがって、教師付きモデルとLLMベースの少ショットプロンプトを用いて、適切に一般化されていることを実証した。
さらにMEIタスクは、現在のCRメトリクスよりも堅牢な分類ベースのメトリクスの使用を可能にする、分類フレームワークに適合する。
最後に、MEIは、ユーザが特定のエンティティや関心を持つエンティティのグループのすべての言及を検索できるので、実用的な使用法である。
The limited generalization of coreference resolution (CR) models has been a major bottleneck in the task's broad application. Prior work has identified annotation differences, especially for mention detection, as one of the main reasons for the generalization gap and proposed using additional annotated target domain data. Rather than relying on this additional annotation, we propose an alternative formulation of the CR task, Major Entity Identification (MEI), where we: (a) assume the target entities to be specified in the input, and (b) limit the task to only the frequent entities. Through extensive experiments, we demonstrate that MEI models generalize well across domains on multiple datasets with supervised models and LLM-based few-shot prompting. Additionally, the MEI task fits the classification framework, which enables the use of classification-based metrics that are more robust than the current CR metrics. Finally, MEI is also of practical use as it allows a user to search for all mentions of a particular entity or a group of entities of interest. | 翻訳日:2024-06-24 18:23:10 公開日:2024-06-20 |
# ハイパモーション:自律的なロコ操作のためのハイブリッド行動計画学習
HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation ( http://arxiv.org/abs/2406.14655v1 ) ライセンス: Link先を確認 | Jin Wang, Rui Dai, Weijie Wang, Luca Rossini, Francesco Ruscelli, Nikos Tsagarakis, | (参考訳) 多様な環境で自律的なハイブリッド動作を実現するロボットは、素材処理、家事、作業支援などの長期作業に有用である。
これには、本質的な動作能力の広範囲な活用、豊富な環境情報からの余裕の抽出、物理的相互作用の計画が必要である。
近年の進歩はヒューマノイド全体のコントロール能力を示すが、新しいタスクの汎用性と適応性を達成するのに苦労している。
本研究では,異なるシナリオにおけるタスクに基づいて行動を学び,選択し,計画するフレームワークであるHYPERmotionを提案する。
我々は、強化学習と全身最適化を組み合わせることで、38個の可動関節の運動を生成し、学習スキルを記憶するための運動ライブラリを作成する。
大規模言語モデル(LLM)の計画と推論機能を複雑なロコ操作タスクに適用し、一連の原始的な振る舞いを含む階層的なタスクグラフを構築し、より高レベルな計画で下位レベルの実行をブリッジする。
蒸留された空間幾何学と2次元観察と視覚言語モデル(VLM)との相互作用を活用して、ロボット形態選択器に知識を基盤にして、片腕または両腕、脚または車輪の移動において適切な行動を選択する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示され、構造化されていないシーンで自由テキストコマンドから高い自律性を示す。
ビデオとウェブサイト:hy-motion.github.io/
Enabling robots to autonomously perform hybrid motions in diverse environments can be beneficial for long-horizon tasks such as material handling, household chores, and work assistance. This requires extensive exploitation of intrinsic motion capabilities, extraction of affordances from rich environmental information, and planning of physical interaction behaviors. Despite recent progress has demonstrated impressive humanoid whole-body control abilities, they struggle to achieve versatility and adaptability for new tasks. In this work, we propose HYPERmotion, a framework that learns, selects and plans behaviors based on tasks in different scenarios. We combine reinforcement learning with whole-body optimization to generate motion for 38 actuated joints and create a motion library to store the learned skills. We apply the planning and reasoning features of the large language models (LLMs) to complex loco-manipulation tasks, constructing a hierarchical task graph that comprises a series of primitive behaviors to bridge lower-level execution with higher-level planning. By leveraging the interaction of distilled spatial geometry and 2D observation with a visual language model (VLM) to ground knowledge into a robotic morphology selector to choose appropriate actions in single- or dual-arm, legged or wheeled locomotion. Experiments in simulation and real-world show that learned motions can efficiently adapt to new tasks, demonstrating high autonomy from free-text commands in unstructured scenes. Videos and website: hy-motion.github.io/ | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# OpenDebateEvidence: 大規模Argument MiningとSummarizationデータセット
OpenDebateEvidence: A Massive-Scale Argument Mining and Summarization Dataset ( http://arxiv.org/abs/2406.14657v1 ) ライセンス: Link先を確認 | Allen Roush, Yusuf Shabazz, Arvind Balaji, Peter Zhang, Stefano Mezza, Markus Zhang, Sanjay Basu, Sriram Vishwanath, Mehdi Fatemi, Ravid Schwartz-Ziv, | (参考訳) 我々は,アメリカン・コンペティティブ・ディベート・コミュニティから派生した議論マイニングと要約のための包括的データセットであるOpenDebateEvidenceを紹介する。
このデータセットには、350万以上のドキュメントと豊富なメタデータが含まれており、議論を巻き起こした最も広範な証拠の1つである。
OpenDebateEvidenceは、高校や大学の議論における議論の複雑さを捉え、トレーニングと評価のための貴重なリソースを提供する。
我々は,様々な手法,モデル,データセットをまたいだ議論的抽象的要約のための,最先端の大規模言語モデルの有効性を実証した。
この包括的リソースを提供することで、計算議論を進展させ、議論者、教育者、研究者の実践的応用を支援することを目指している。
OpenDebateEvidenceは、計算議論におけるさらなる研究と革新をサポートするために公開されている。
https://huggingface.co/datasets/Yusuf5/OpenCaselist
We introduce OpenDebateEvidence, a comprehensive dataset for argument mining and summarization sourced from the American Competitive Debate community. This dataset includes over 3.5 million documents with rich metadata, making it one of the most extensive collections of debate evidence. OpenDebateEvidence captures the complexity of arguments in high school and college debates, providing valuable resources for training and evaluation. Our extensive experiments demonstrate the efficacy of fine-tuning state-of-the-art large language models for argumentative abstractive summarization across various methods, models, and datasets. By providing this comprehensive resource, we aim to advance computational argumentation and support practical applications for debaters, educators, and researchers. OpenDebateEvidence is publicly available to support further research and innovation in computational argumentation. Access it here: https://huggingface.co/datasets/Yusuf5/OpenCaselist | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 高コヒーレンス圧電フォトニック結晶共振器用薄膜石英
Thin-film quartz for high-coherence piezoelectric phononic crystal resonators ( http://arxiv.org/abs/2406.14660v1 ) ライセンス: Link先を確認 | Alec L. Emser, Cyril Metzger, Brendon C. Rose, Konrad W. Lehnert, | (参考訳) 圧電性フォトニック結晶共振器(PCR)は、音響量子処理のための有望なプラットフォームであるが、現在は共振器材料内の飽和2レベル系(TLS)欠陥のアンサンブルに結合することによって性能が制限されている。
優れたバルク力学的特性と高い結晶性により、新しい基質である薄膜石英からPCRを作製することで、この問題に対処する。
シングルフォノンパワーとミリケルビン温度 -- 量子フォノン処理に必要な条件 -- では、大きな内部機械的品質因子である$Q_i > 160,000$を実証する。
これは、圧電性PCRの単一フォノン寿命において、桁違いに改善されたことを示している。
これらの装置の損失チャネルを特徴付けるとともに,低出力応答はTLS浴とのカップリングによって制限され,TLSのかなりの部分がアルミニウムカップリング電極と関連していることがわかった。
高出力応答を探索するため、リングダウン測定を行い、Q_i \cdot f = 1.4 \times 10^{16}$ Hz の高出力品質係数周波数積を実演する。
Piezoelectric phononic crystal resonators (PCRs) are a promising platform for acoustic quantum processing, yet their performance is currently limited by coupling to an ensemble of saturable two-level system (TLS) defects within the resonator material. Motivated by its excellent bulk mechanical properties and high crystallinity, we address this by fabricating PCRs from a new substrate: thin-film quartz. At single-phonon powers and millikelvin temperatures -- requisite conditions for quantum phononic processing -- we demonstrate large internal mechanical quality factors, $Q_i > 160,000$. This represents an order of magnitude improvement in single-phonon lifetimes for piezoelectric PCR. We characterize the loss channels in these devices and find that, although improved, the low-power response is still limited by coupling to a TLS bath and that a significant portion of the TLSs are associated with the aluminum coupling electrodes. To explore the high-power response we perform ringdown measurements and demonstrate high-power quality factor-frequency products $Q_i \cdot f = 1.4 \times 10^{16}$ Hz. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# アドバンテージアライメントアルゴリズム
Advantage Alignment Algorithms ( http://arxiv.org/abs/2406.14662v1 ) ライセンス: Link先を確認 | Juan Agustin Duque, Milad Aghajohari, Tim Cooijmans, Tianyu Zhang, Aaron Courville, | (参考訳) LLMアシスタントから自動運転車まで、日常的な意思決定における人工知能エージェントの存在の増加は、個人の関心を最適化する各エージェントから衝突が発生するかもしれない未来を示唆している。
一般のゲームでは、これらの対立は明らかであり、単純強化学習エージェントがPareto-suboptimal Nash equilibriaで立ち往生する。
その結果、社会的ジレンマにおける社会的に有益な均衡を見出す方法として、反対の整形が導入された。
本研究は,提案するアルゴリズム群であるAdvantage Alignmentを紹介する。
これは、互いに相反する行為の確率を増大させることで、あるゲームにおける競合するエージェントの利点を整合させることによって達成される。
LOLA や LOQA などの既存手法がアドバンテージアライメント(Advantage Alignment)を暗黙的に実行することを示す。
これらの作品と比較すると、アドバンテージアライメントは数学的に反対のシェーピングの定式化を単純化し、連続的な作用領域に対してシームレスに作用する。
また,ソーシャルジレンマにおけるアルゴリズムの有効性を実証し,ソーシャルジレンマ版のNegotiation Gameを含む各ケースで最先端の結果を達成した。
The growing presence of artificially intelligent agents in everyday decision-making, from LLM assistants to autonomous vehicles, hints at a future in which conflicts may arise from each agent optimizing individual interests. In general-sum games these conflicts are apparent, where naive Reinforcement Learning agents get stuck in Pareto-suboptimal Nash equilibria. Consequently, opponent shaping has been introduced as a method with success at finding socially beneficial equilibria in social dilemmas. In this work, we introduce Advantage Alignment, a family of algorithms derived from first principles that perform opponent shaping efficiently and intuitively. This is achieved by aligning the advantages of conflicting agents in a given game by increasing the probability of mutually-benefiting actions. We prove that existing opponent shaping methods, including LOLA and LOQA, implicitly perform Advantage Alignment. Compared to these works, Advantage Alignment mathematically simplifies the formulation of opponent shaping and seamlessly works for continuous action domains. We also demonstrate the effectiveness of our algorithm in a wide range of social dilemmas, achieving state of the art results in each case, including a social dilemma version of the Negotiation Game. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 低資源科学自然言語推論のための協調学習
Co-training for Low Resource Scientific Natural Language Inference ( http://arxiv.org/abs/2406.14666v1 ) ライセンス: Link先を確認 | Mobashir Sadat, Cornelia Caragea, | (参考訳) 科学自然言語推論(Scientific Natural Language Inference, NLI)は、研究論文から抽出された文のペア間の意味的関係を予測するタスクである。
SciNLI(Sadat and Caragea, 2022b)のトレーニングセットの遠隔監視に基づく自動アノテーション手法により, 分類器の性能を必然的に低下させるラベルノイズが生じる。
本稿では,分類器の訓練力学に基づく重み付けを遠隔教師付きラベルに割り当てる手法を提案する。
すなわち、既存の半教師付き学習(SSL)アプローチとは異なり、分類器の歴史的挙動を考慮し、自動注釈付きラベルの品質を評価する。
さらに、予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重み付けを行うことにより、自動ラベル付きデータの使用を最大化するとともに、ノイズラベルがモデルトレーニングに最小限の影響を与える。
提案手法は,遠隔監視ベースラインに対するマクロF1の1.5%の改善と,他の強力なSSLベースラインに対する大幅な改善を実現する。
コードとデータはGithubで公開しています。
Scientific Natural Language Inference (NLI) is the task of predicting the semantic relation between a pair of sentences extracted from research articles. The automatic annotation method based on distant supervision for the training set of SciNLI (Sadat and Caragea, 2022b), the first and most popular dataset for this task, results in label noise which inevitably degenerates the performance of classifiers. In this paper, we propose a novel co-training method that assigns weights based on the training dynamics of the classifiers to the distantly supervised labels, reflective of the manner they are used in the subsequent training epochs. That is, unlike the existing semi-supervised learning (SSL) approaches, we consider the historical behavior of the classifiers to evaluate the quality of the automatically annotated labels. Furthermore, by assigning importance weights instead of filtering out examples based on an arbitrary threshold on the predicted confidence, we maximize the usage of automatically labeled data, while ensuring that the noisy labels have a minimal impact on model training. The proposed method obtains an improvement of 1.5% in Macro F1 over the distant supervision baseline, and substantial improvements over several other strong SSL baselines. We make our code and data available on Github. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 言語特異的LLM構築のための設計選択の探索
Exploring Design Choices for Building Language-Specific LLMs ( http://arxiv.org/abs/2406.14670v1 ) ライセンス: Link先を確認 | Atula Tejaswi, Nilesh Gupta, Eunsol Choi, | (参考訳) 大きな言語モデル(LLM)の急速な進歩にもかかわらず、ほとんどの言語のパフォーマンスは相変わらず満足できないままである。
本稿では,言語固有のLLMをモノリンガルおよび多言語LLMに適応させることにより構築する。
設計選択(基本モデル選択、語彙拡張、継続的な微調整)がLLMにどう影響するかを、効率(同じ量の情報をエンコードするためにトークンがいくつ必要か)とタスクパフォーマンスの両面で体系的に実験する。
1) 適応前の初期性能が最終性能の指標であるとは限らないことが判明した。
2) 簡便な語彙拡張と連続的な微調整により効率は容易に向上し, (3) 最適な適応法は言語に依存し, 最も単純なアプローチは様々な実験環境において良好に機能する。
低リソース言語での性能が悪くても、英語中心のモデルに適応すれば、多言語モデルに適応するよりも良い結果が得られる。
本研究は,既存の LLM を適応させることにより,言語固有の LLM を効率的に構築することの基礎となる。
Despite rapid progress in large language models (LLMs), their performance on a vast majority of languages remain unsatisfactory. In this paper, we study building language-specific LLMs by adapting monolingual and multilingual LLMs. We conduct systematic experiments on how design choices (base model selection, vocabulary extension, and continued fine-tuning) impact the adapted LLM, both in terms of efficiency (how many tokens are needed to encode the same amount of information) and end task performance. We find that (1) the initial performance before the adaptation is not always indicative of the final performance. (2) Efficiency can easily improved with simple vocabulary extension and continued fine-tuning in most LLMs we study, and (3) The optimal adaptation method is highly language-dependent, and the simplest approach works well across various experimental settings. Adapting English-centric models can yield better results than adapting multilingual models despite their worse initial performance on low-resource languages. Together, our work lays foundations on efficiently building language-specific LLMs by adapting existing LLMs. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# LLMの長期的障害に対する洞察: トランスフォーマーが知っているが分からない
Insights into LLM Long-Context Failures: When Transformers Know but Don't Tell ( http://arxiv.org/abs/2406.14673v1 ) ライセンス: Link先を確認 | Taiming Lu, Muhan Gao, Kuai Yu, Adam Byerly, Daniel Khashabi, | (参考訳) 大規模言語モデル(LLM)は位置バイアスを示し、長い文脈の中端からの情報を活用するのに苦労する。
本研究では,LLMの長文推論を隠蔽表現を用いて探索する。
LLMはターゲット情報の位置を符号化するが、正確な応答を生成するのに失敗することが多い。
このことは、情報検索と利用の切り離し、すなわち"知識はあるが分からない"現象を明らかにしている。
さらに、抽出時間と最終的な精度の関係を解析し、トランスモデルの基盤となる力学に関する洞察を提供する。
Large Language Models (LLMs) exhibit positional bias, struggling to utilize information from the middle or end of long contexts. Our study explores LLMs' long-context reasoning by probing their hidden representations. We find that while LLMs encode the position of target information, they often fail to leverage this in generating accurate responses. This reveals a disconnect between information retrieval and utilization, a "know but don't tell" phenomenon. We further analyze the relationship between extraction time and final accuracy, offering insights into the underlying mechanics of transformer models. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 多部量子非マルコビアン性における相関現象と臨界現象
Correlated and Critical Phenomena in Multipartite Quantum Non-Markovianity ( http://arxiv.org/abs/2406.14674v1 ) ライセンス: Link先を確認 | Ignacio González, Ángel Rivas, | (参考訳) 多部開量子系における非マルコビアン性一般評価の問題を考える。
この目的のために、以前に導入された非マルコフ測度について、適切な漸近的振舞いを持つ有限かつ加法的定量化器を定式化する。
次に、共振器内の2つの二層原子の動力学を、精密な処理を用いて原子間距離の関数として研究する。
マルコフ-非マルコフ遷移を有限距離で観測し、無限に閉じた原子の極限における不連続性を観察する。
さらに、高相関な力学のこの極限において、システムのサイズが臨界しきい値を超えると非マルコビアン性が発生する。
We consider the problem of the general assessment of non-Markovianity in multipartite open quantum systems. To this end, we elaborate on a previously introduced non-Markovian measure to formulate a finite and additive quantifier with appropriate asymptotic behavior. We then study the dynamics of two two-level atoms in a resonant cavity as a function of their interatomic distance using an exact treatment. We observe a critical behavior in the non-Markovianity in the form of a Markovian to non-Markovian transition at a finite distance and a discontinuity in the limit of infinitely close atoms. Additionally, in this limit of highly correlated dynamics, non-Markovianity can emerge when the size of the system exceeds a critical threshold. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# ProtoPNeXtより優れた解釈モデル
This Looks Better than That: Better Interpretable Models with ProtoPNeXt ( http://arxiv.org/abs/2406.14675v1 ) ライセンス: Link先を確認 | Frank Willard, Luke Moffett, Emmanuel Mokel, Jon Donnelly, Stark Guo, Julia Yang, Giyoung Kim, Alina Jade Barnett, Cynthia Rudin, | (参考訳) 原型部品モデルは、コンピュータビジョンのためのブラックボックスディープラーニングモデルに代わる一般的な解釈可能な代替品である。
しかし、ハイパーパラメータチューニングに対する高い感度でトレーニングすることは困難であり、新しいデータセットへの適用を阻害し、どのメソッドがパフォーマンスを真に改善するかを理解することは困難である。
プロトタイプ部分ネットワーク(ProtoPNets)の注意深い研究を容易にするため,プロトタイプ部分モデルのコンポーネント – ProtoPNeXtを統合するための新しいフレームワークを構築した。
ProtoPNeXtを用いて,元となるProtoPNetにベイズハイパーパラメータチューニングと角プロトタイプ類似度を適用すれば,複数のバックボーンにまたがるCUB-200上のプロトタイプモデルに対して,新しい最先端の精度が得られることを示す。
さらにこのフレームワークを,ProtoPNeXtに含まれるメトリクスによって測定された精度とプロトタイプの解釈可能性について共同で最適化するように展開する。
同じ資源を用いて、より優れたセマンティクスと+1.3%から-1.5%の精度のモデルを生成する。
コードとトレーニングされたモデルは、公開時に公開される。
Prototypical-part models are a popular interpretable alternative to black-box deep learning models for computer vision. However, they are difficult to train, with high sensitivity to hyperparameter tuning, inhibiting their application to new datasets and our understanding of which methods truly improve their performance. To facilitate the careful study of prototypical-part networks (ProtoPNets), we create a new framework for integrating components of prototypical-part models -- ProtoPNeXt. Using ProtoPNeXt, we show that applying Bayesian hyperparameter tuning and an angular prototype similarity metric to the original ProtoPNet is sufficient to produce new state-of-the-art accuracy for prototypical-part models on CUB-200 across multiple backbones. We further deploy this framework to jointly optimize for accuracy and prototype interpretability as measured by metrics included in ProtoPNeXt. Using the same resources, this produces models with substantially superior semantics and changes in accuracy between +1.3% and -1.5%. The code and trained models will be made publicly available upon publication. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 文脈における(スペイン語)曖昧な単語の双方向トランスフォーマー表現:新しい語彙資源と経験的分析
Bidirectional Transformer Representations of (Spanish) Ambiguous Words in Context: A New Lexical Resource and Empirical Analysis ( http://arxiv.org/abs/2406.14678v1 ) ライセンス: Link先を確認 | Pamela D. Rivière, Anne L. Beatty-Martínez, Sean Trott, | (参考訳) 語彙的曖昧さ(Lexical ambiguity) - 単一のワードフォームが異なる文脈に依存した意味を持ち、異なる大きな言語モデルのLLM(LLM)能力を比較して、同じ刺激の異なる文脈化された表現を形成するのに役立つツールとして機能する。
LLMの文脈化された単語埋め込みを英語以外の言語に対して体系的に比較する研究はほとんどない。
ここでは、スペイン語のあいまいな名詞の複数の双方向トランスフォーマー(BERT)意味表現を文脈で評価する。
目的の曖昧な名詞に対して同じあるいは異なる感覚を喚起する最小ペア文の新たなデータセットを開発する。
事前登録された研究では,各文対に対する文脈的人間関係性判定を収集する。
さまざまなBERTベースのLLMの文脈的セマンティック表現は、人間の判断に多少の違いがあるが、人間のベンチマークには及ばず、スペイン語では(英語とは違って)モデルスケールはパフォーマンスとは無関係である。
また,目的名詞の曖昧さのステレオタイプトラジェクトリを,所与のLLMファミリーのアーキテクチャによるトラバーサルの割合として同定し,部分的に英語で再現する。
我々は,(1)人間関係規範によるスペイン語文刺激のデータセット,(2)LLM仕様(アーキテクチャ,トレーニングプロトコル)が文脈的埋め込みに与える影響の進化的理解に寄与する。
Lexical ambiguity -- where a single wordform takes on distinct, context-dependent meanings -- serves as a useful tool to compare across different large language models' (LLMs') ability to form distinct, contextualized representations of the same stimulus. Few studies have systematically compared LLMs' contextualized word embeddings for languages beyond English. Here, we evaluate multiple bidirectional transformers' (BERTs') semantic representations of Spanish ambiguous nouns in context. We develop a novel dataset of minimal-pair sentences evoking the same or different sense for a target ambiguous noun. In a pre-registered study, we collect contextualized human relatedness judgments for each sentence pair. We find that various BERT-based LLMs' contextualized semantic representations capture some variance in human judgments but fall short of the human benchmark, and for Spanish -- unlike English -- model scale is uncorrelated with performance. We also identify stereotyped trajectories of target noun disambiguation as a proportion of traversal through a given LLM family's architecture, which we partially replicate in English. We contribute (1) a dataset of controlled, Spanish sentence stimuli with human relatedness norms, and (2) to our evolving understanding of the impact that LLM specification (architectures, training protocols) exerts on contextualized embeddings. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# ユニバーサル依存レンズによるドラヴィダ語族
Dravidian language family through Universal Dependencies lens ( http://arxiv.org/abs/2406.14680v1 ) ライセンス: Link先を確認 | Taraka Rama, Sowmya Vajjala, | (参考訳) Universal Dependencies (UD)プロジェクトは、多言語NLPを容易にするために、複数の言語に対して言語横断的に一貫性のある依存性アノテーションを作成することを目的としている。
現在は114言語に対応している。
ドラヴィダ語は2億人以上の人々が話し合っていますが、UDにはこの家族の言語は2つしかありません。
本稿では,Dravidian言語の形態的特徴と構文的特徴について検討し,UDフレームワークにアノテーションを付加する方法について検討する。
The Universal Dependencies (UD) project aims to create a cross-linguistically consistent dependency annotation for multiple languages, to facilitate multilingual NLP. It currently supports 114 languages. Dravidian languages are spoken by over 200 million people across the word, and yet there are only two languages from this family in UD. This paper examines some of the morphological and syntactic features of Dravidian languages and explores how they can be annotated in the UD framework. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 逆ロバスト分類器の一様収束
Uniform Convergence of Adversarially Robust Classifiers ( http://arxiv.org/abs/2406.14682v1 ) ライセンス: Link先を確認 | Rachel Morris, Ryan Murray, | (参考訳) 近年,データ分類問題における様々な種類の逆転摂動の影響に大きな関心が寄せられている。
これらのモデルの多くは、精度とロバスト性の間のトレードオフを伴う重要なパラメータである敵のパワーを取り入れている。
この研究は、大規模データや人口レベルの制限において、逆摂動型分類問題に対する一般的な枠組みを考察する。
そのような状態において、敵の強みが 0 になるにつれて、最適分類器はハウスドルフ距離においてベイズ分類器に収束することを示した。
これは以前の結果を大幅に強化し、一般的には$L^1$-type収束に焦点をあてる。
主論は直接幾何学比較に依拠し、幾何学的測度理論の技法に触発されている。
In recent years there has been significant interest in the effect of different types of adversarial perturbations in data classification problems. Many of these models incorporate the adversarial power, which is an important parameter with an associated trade-off between accuracy and robustness. This work considers a general framework for adversarially-perturbed classification problems, in a large data or population-level limit. In such a regime, we demonstrate that as adversarial strength goes to zero that optimal classifiers converge to the Bayes classifier in the Hausdorff distance. This significantly strengthens previous results, which generally focus on $L^1$-type convergence. The main argument relies upon direct geometric comparisons and is inspired by techniques from geometric measure theory. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# TAGLAS: 大規模グラフと言語モデルの時代におけるテキスト分散グラフデータセットのアトラス
TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models ( http://arxiv.org/abs/2406.14683v1 ) ライセンス: Link先を確認 | Jiarui Feng, Hao Liu, Lecheng Kong, Yixin Chen, Muhan Zhang, | (参考訳) 本稿では,テキスト分散グラフ(TAG)データセットとベンチマークのアトラスであるTAGLASについて述べる。
TAGは、ノードとエッジをテキストで表現したグラフであり、最近、グラフ言語やグラフ基盤モデルのトレーニングに広く適用可能になった。
TAGLASでは、23以上のTAGデータセットを、引用グラフから分子グラフ、タスク、ノード分類からグラフ質問応答までの範囲で収集、統合する。
従来のグラフデータセットやベンチマークとは異なり、TAGLASのすべてのデータセットは統一されたノードとエッジテキストの特徴形式を持ち、グラフモデルをさまざまなドメインからの複数のデータセットで同時にトレーニングし、評価することができる。
さらに、すべてのデータセットやタスクをロードする、標準化され、効率的で、単純化された方法を提供する。
また,テキストから埋め込みへの変換やグラフからテキストへの変換などの有用なユーティリティも提供しています。
最後に、標準的で使いやすい評価ユーティリティも提供します。
このプロジェクトはhttps://github.com/JiaruiFeng/TAGLASでオープンソース化されており、現在開発中である。
今後、より多くのデータセットやフィーチャを期待してください。
In this report, we present TAGLAS, an atlas of text-attributed graph (TAG) datasets and benchmarks. TAGs are graphs with node and edge features represented in text, which have recently gained wide applicability in training graph-language or graph foundation models. In TAGLAS, we collect and integrate more than 23 TAG datasets with domains ranging from citation graphs to molecule graphs and tasks from node classification to graph question-answering. Unlike previous graph datasets and benchmarks, all datasets in TAGLAS have a unified node and edge text feature format, which allows a graph model to be simultaneously trained and evaluated on multiple datasets from various domains. Further, we provide a standardized, efficient, and simplified way to load all datasets and tasks. We also provide useful utils like text-to-embedding conversion, and graph-to-text conversion, which can facilitate different evaluation scenarios. Finally, we also provide standard and easy-to-use evaluation utils. The project is open-sourced at https://github.com/JiaruiFeng/TAGLAS and is still under construction. Please expect more datasets/features in the future. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 音声モデルにおけるバイアス軽減のためのコントラスト学習手法
A Contrastive Learning Approach to Mitigate Bias in Speech Models ( http://arxiv.org/abs/2406.14686v1 ) ライセンス: Link先を確認 | Alkis Koudounas, Flavio Giobergia, Eliana Pastor, Elena Baralis, | (参考訳) 音声モデルは、異なる集団サブグループにおけるパフォーマンスの不均衡の影響を受け、これらのグループ全体で公平な治療に関する懸念を提起する。
従来、不公平さを軽減しようとする試みは、ユーザ定義サブグループに焦点を当てたり、他の影響を受けるサブグループを見過ごしたり、あるいはサブグループレベルで内部表現を明示的に改善することはなかった。
本稿では、低パフォーマンスサブグループにおける音声モデルのバイアスを軽減するために、コントラスト学習を初めて導入することを提案する。
我々は,タスク,サブグループ,サブグループ内のエラーなど,対照的な損失に対する異なるスコープに着目してモデルを導く3段階の学習手法を採用している。
2つの音声言語理解データセットと2つの言語を用いた実験は、我々の手法が内部サブグループ表現を改善し、モデルバイアスを低減し、性能を向上させることを示す。
Speech models may be affected by performance imbalance in different population subgroups, raising concerns about fair treatment across these groups. Prior attempts to mitigate unfairness either focus on user-defined subgroups, potentially overlooking other affected subgroups, or do not explicitly improve the internal representation at the subgroup level. This paper proposes the first adoption of contrastive learning to mitigate speech model bias in underperforming subgroups. We employ a three-level learning technique that guides the model in focusing on different scopes for the contrastive loss, i.e., task, subgroup, and the errors within subgroups. The experiments on two spoken language understanding datasets and two languages demonstrate that our approach improves internal subgroup representations, thus reducing model bias and enhancing performance. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 音声障害分析 : 変圧器を用いたアプローチ
Voice Disorder Analysis: a Transformer-based Approach ( http://arxiv.org/abs/2406.14693v1 ) ライセンス: Link先を確認 | Alkis Koudounas, Gabriele Ciravegna, Marco Fantini, Giovanni Succo, Erika Crosetti, Tania Cerquitelli, Elena Baralis, | (参考訳) 音声障害は患者の生活の質に大きな影響を及ぼす病態である。
しかし,これらの疾患の非侵襲的自動診断は,病的音声データ不足と診断に使用される記録型の多様性の両方から,まだ未発見である。
本稿では、生音声信号を直接処理するトランスフォーマーを採用し、合成データ生成とデータ拡張によるデータ不足に対処する新しいソリューションを提案する。
さらに,テキスト読取や持続母音の発声など,多くの記録型を専門家のアンサンブルを用いて同時に検討し,その予測を異なるデータ型に整合させる。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示し、既存のアプローチよりも大幅に改善された。
Voice disorders are pathologies significantly affecting patient quality of life. However, non-invasive automated diagnosis of these pathologies is still under-explored, due to both a shortage of pathological voice data, and diversity of the recording types used for the diagnosis. This paper proposes a novel solution that adopts transformers directly working on raw voice signals and addresses data shortage through synthetic data generation and data augmentation. Further, we consider many recording types at the same time, such as sentence reading and sustained vowel emission, by employing a Mixture of Expert ensemble to align the predictions on different data types. The experimental results, obtained on both public and private datasets, show the effectiveness of our solution in the disorder detection and classification tasks and largely improve over existing approaches. | 翻訳日:2024-06-24 18:08:45 公開日:2024-06-20 |
# 深度$F_1$:意味的一般化性の測定によるクロスドメインテキスト分類の評価の改善
Depth $F_1$: Improving Evaluation of Cross-Domain Text Classification by Measuring Semantic Generalizability ( http://arxiv.org/abs/2406.14695v1 ) ライセンス: Link先を確認 | Parker Seegmiller, Joseph Gatto, Sarah Masud Preum, | (参考訳) クロスドメインテキスト分類モデルの最近の評価は、ソースドメイン内のラベル付きサンプルが与えられた対象ドメインにおいて、ドメイン不変性能を得るためのモデルの能力を測定することを目的としている。
この評価の主要な戦略は、ベンチマークデータセットのソースドメインサンプルとターゲットドメインサンプルの仮定の違いに依存する。
この評価戦略は、ソースドメインとターゲットドメインの類似性を考慮せず、モデルが学習をソースドメインと非常に異なる特定のターゲットサンプルに転送できない場合、マスクする可能性がある。
我々は、新しいクロスドメインテキスト分類性能指標であるDepth $F_1$を紹介した。
F_1$のような既存の分類指標を補完するように設計されたDepth $F_1$は、モデルがソースドメインと異なるターゲットサンプルでどれだけうまく機能するかを測定する。
標準のクロスドメインテキスト分類データセットを用いてこの指標をモチベーションし、最近のクロスドメインテキスト分類モデルをベンチマークし、クロスドメインテキスト分類モデルのセマンティック・ジェネリザビリティーを詳細に評価することを目的としている。
Recent evaluations of cross-domain text classification models aim to measure the ability of a model to obtain domain-invariant performance in a target domain given labeled samples in a source domain. The primary strategy for this evaluation relies on assumed differences between source domain samples and target domain samples in benchmark datasets. This evaluation strategy fails to account for the similarity between source and target domains, and may mask when models fail to transfer learning to specific target samples which are highly dissimilar from the source domain. We introduce Depth $F_1$, a novel cross-domain text classification performance metric. Designed to be complementary to existing classification metrics such as $F_1$, Depth $F_1$ measures how well a model performs on target samples which are dissimilar from the source domain. We motivate this metric using standard cross-domain text classification datasets and benchmark several recent cross-domain text classification models, with the goal of enabling in-depth evaluation of the semantic generalizability of cross-domain text classification models. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 交通振動時の物理的解析可能なAIベース非線形プラトンダイナミクスモデル:クープマンアプローチ
Physically Analyzable AI-Based Nonlinear Platoon Dynamics Modeling During Traffic Oscillation: A Koopman Approach ( http://arxiv.org/abs/2406.14696v1 ) ライセンス: Link先を確認 | Kexin Tian, Haotian Shi, Yang Zhou, Sixu Li, | (参考訳) 車両プラトン内における交通力学に固有の複雑さと非線形性を考えると、物理的解析容易性を同時に達成しつつ、高精度なモデリング手法が不可欠である。
現在、物理モデルに基づくアプローチと人工知能(AI)に基づくアプローチの2つの主要なアプローチがある。
物理モデルには通常十分なモデリング精度と潜在的な機能ミスマッチが欠如しており、純粋なAIベースの手法にはアナライザビリティが欠如していることを認識し、この論文は、未知の非線形プラトン力学をAIの力を利用してモデル化し、物理的アナライザビリティを同時に維持するAIベースのクープマンアプローチを革新的に提案し、特に交通振動の周期に着目した。
具体的には、まずディープラーニングフレームワークを使用して、元の空間を埋め込み空間に持ち上げる埋め込み関数を生成する。
埋め込み空間記述性を考えると、小隊力学はクープマン理論によって確立された線型力学系として表すことができる。
これに基づいて, 線形力学系解析のルーチンを, 埋め込み空間における学習トラフィック線形力学に基づいて行うことができる。
これにより、データ駆動アプローチに固有の精度の高いモデルベース手法の物理的解釈可能性と解析性は相乗化できる。
既存のモデリング手法との比較実験により,提案手法の精度向上が示唆された。
さらに, 位相平面解析を行い, 複雑な動的パターンの複製におけるアプローチの有効性を明らかにする。
さらに, 本手法は, 安定性を解析し, 物理的解析可能性を示す能力を有することが実証された。
Given the complexity and nonlinearity inherent in traffic dynamics within vehicular platoons, there exists a critical need for a modeling methodology with high accuracy while concurrently achieving physical analyzability. Currently, there are two predominant approaches: the physics model-based approach and the Artificial Intelligence (AI)--based approach. Knowing the facts that the physical-based model usually lacks sufficient modeling accuracy and potential function mismatches and the pure-AI-based method lacks analyzability, this paper innovatively proposes an AI-based Koopman approach to model the unknown nonlinear platoon dynamics harnessing the power of AI and simultaneously maintain physical analyzability, with a particular focus on periods of traffic oscillation. Specifically, this research first employs a deep learning framework to generate the embedding function that lifts the original space into the embedding space. Given the embedding space descriptiveness, the platoon dynamics can be expressed as a linear dynamical system founded by the Koopman theory. Based on that, the routine of linear dynamical system analysis can be conducted on the learned traffic linear dynamics in the embedding space. By that, the physical interpretability and analyzability of model-based methods with the heightened precision inherent in data-driven approaches can be synergized. Comparative experiments have been conducted with existing modeling approaches, which suggests our method's superiority in accuracy. Additionally, a phase plane analysis is performed, further evidencing our approach's effectiveness in replicating the complex dynamic patterns. Moreover, the proposed methodology is proven to feature the capability of analyzing the stability, attesting to the physical analyzability. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# グラフ上の最大被覆問題に対するディープRL法のベンチマーク
A Benchmark Study of Deep-RL Methods for Maximum Coverage Problems over Graphs ( http://arxiv.org/abs/2406.14697v1 ) ライセンス: Link先を確認 | Zhicheng Liang, Yu Yang, Xiangyu Ke, Xiaokui Xiao, Yunjun Gao, | (参考訳) 近年,グラフ上の組合せ最適化(CO)問題に対するヒューリスティックスを導出するために,深層強化学習(Deep-RL)を採用する傾向が高まっている。
最大被覆問題(MCP)とそのソーシャルネットワーク上での確率的変異、影響最大化(IM)は、この研究の分野において特に顕著である。
本稿では,MPPとIMの5つの新しいDeep-RL法の有効性と効率について,総合的なベンチマーク研究を行った。
これらの手法はS2V-DQN、Geometric-QN、GCOMB、RL4IM、LeNSEといったトップデータサイエンスの会場で発表された。
その結果,様々なシナリオにおいて,Lazy GreedyアルゴリズムはMPPのDeep-RL法を常に上回っていることがわかった。
IMの場合、IMMやOPIMのような音響アルゴリズムは、ほとんどのシナリオでDeep-RL法よりも優れた性能を示す。
特に,IMM法とOPIM法では,予算の増大とともに影響がほとんど拡大しない場合に,Deep-RL法がIMMとOPIMをわずかに上回り,IM問題における異常現象が観察された。
さらに,本実験では,MPPとIMにDeep-RL法を適用した場合の一般的な問題点について検討した。
最後に,Deep-RL法の改良手法について検討する。
我々のベンチマーク研究は、組合せ最適化問題を解決するための現在の深層強化学習研究における潜在的な課題に光を当てている。
Recent years have witnessed a growing trend toward employing deep reinforcement learning (Deep-RL) to derive heuristics for combinatorial optimization (CO) problems on graphs. Maximum Coverage Problem (MCP) and its probabilistic variant on social networks, Influence Maximization (IM), have been particularly prominent in this line of research. In this paper, we present a comprehensive benchmark study that thoroughly investigates the effectiveness and efficiency of five recent Deep-RL methods for MCP and IM. These methods were published in top data science venues, namely S2V-DQN, Geometric-QN, GCOMB, RL4IM, and LeNSE. Our findings reveal that, across various scenarios, the Lazy Greedy algorithm consistently outperforms all Deep-RL methods for MCP. In the case of IM, theoretically sound algorithms like IMM and OPIM demonstrate superior performance compared to Deep-RL methods in most scenarios. Notably, we observe an abnormal phenomenon in IM problem where Deep-RL methods slightly outperform IMM and OPIM when the influence spread nearly does not increase as the budget increases. Furthermore, our experimental results highlight common issues when applying Deep-RL methods to MCP and IM in practical settings. Finally, we discuss potential avenues for improving Deep-RL methods. Our benchmark study sheds light on potential challenges in current deep reinforcement learning research for solving combinatorial optimization problems. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 優先的多目的ベイズ最適化
Preferential Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2406.14699v1 ) ライセンス: Link先を確認 | Raul Astudillo, Kejun Li, Maegan Tucker, Chu Xin Cheng, Aaron D. Ames, Yisong Yue, | (参考訳) 優先順位ベイズ最適化(英: Preferential Bayesian Optimization、PBO)は、意思決定者による、利用可能な設計選択よりも遅れた好みを最適化するためのフレームワークである。
選好はしばしば複数の矛盾する目的を含むが、PBOの既存の研究は、選好は単一の目的関数によって符号化できると仮定している。
例えば、ロボット補助装置では、技術者はしばしば、長いバッテリー寿命のために機械的エネルギー消費を最小化しながら、ユーザーの快適さを最大化しようと試みる。
同様に、自律運転政策設計においては、意思決定者はポリシーにコミットする前に、複数の安全属性とパフォーマンス属性の間のトレードオフを理解したいと考えている。
このギャップに対処するため、我々は複数の目的を持つPBOのための最初のフレームワークを提案する。
このフレームワーク内では、人気のあるデュエルトンプソンアルゴリズムの多目的一般化であるスカラー化トンプソンサンプリング(DSTS)を提示する。
我々は,4つの合成試験関数と2つの模擬外骨格のパーソナライゼーション,およびポリシー設計タスクに対するDSTSの評価を行い,いくつかのベンチマークを上回る結果を得た。
最後に、DSTSが漸近的に一貫性があることを証明する。
直接的な結果として、この結果は私たちの知る限り、PBO設定におけるデュエルトンプソンサンプリングに対する最初の収束保証を提供する。
Preferential Bayesian optimization (PBO) is a framework for optimizing a decision-maker's latent preferences over available design choices. While preferences often involve multiple conflicting objectives, existing work in PBO assumes that preferences can be encoded by a single objective function. For example, in robotic assistive devices, technicians often attempt to maximize user comfort while simultaneously minimizing mechanical energy consumption for longer battery life. Similarly, in autonomous driving policy design, decision-makers wish to understand the trade-offs between multiple safety and performance attributes before committing to a policy. To address this gap, we propose the first framework for PBO with multiple objectives. Within this framework, we present dueling scalarized Thompson sampling (DSTS), a multi-objective generalization of the popular dueling Thompson algorithm, which may be of interest beyond the PBO setting. We evaluate DSTS across four synthetic test functions and two simulated exoskeleton personalization and driving policy design tasks, showing that it outperforms several benchmarks. Finally, we prove that DSTS is asymptotically consistent. As a direct consequence, this result provides, to our knowledge, the first convergence guarantee for dueling Thompson sampling in the PBO setting. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# RNNT損失を用いたLLM予測改善のためのプレフィックス・チューニング
Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions ( http://arxiv.org/abs/2406.14701v1 ) ライセンス: Link先を確認 | Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Neeraj Gaur, Zhong Meng, | (参考訳) 本稿では,LSMをASRに適用する場合の制約に対処することに焦点を当てる。
最近の研究はプレフィックスLM型モデルを利用しており、ASRのLLMにプレフィックスとして音声を直接適用している。
音声プレフィックスの最適化により、ASR性能が向上し、音声プレフィックスチューニングにRNNTロスを適用することが提案されている。
これは単純なアプローチであり、モデルの複雑さを高めたり、推論パイプラインを変更したりしない。
また,凍結LDMのさらなる改善のために,言語ベースのソフトプロンプトを提案する。
Indic言語10言語における実時間テストセットの実証分析により,提案した音声プレフィックスチューニングは,凍結および微調整の両方による改善をもたらすことが示された。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値よりも12%向上し,微調整LDMが得られた。
凍結型LDMでは,基本ソフトプロンピングプレフィックスLMよりも31倍の相対的な改善が得られた。
In this paper, we focus on addressing the constraints faced when applying LLMs to ASR. Recent works utilize prefixLM-type models, which directly apply speech as a prefix to LLMs for ASR. We have found that optimizing speech prefixes leads to better ASR performance and propose applying RNNT loss to perform speech prefix-tuning. This is a simple approach and does not increase the model complexity or alter the inference pipeline. We also propose language-based soft prompting to further improve with frozen LLMs. Empirical analysis on realtime testset from 10 Indic languages demonstrate that our proposed speech prefix-tuning yields improvements with both frozen and fine-tuned LLMs. Our recognition results on an average of 10 Indics show that the proposed prefix-tuning with RNNT loss results in a 12\% relative improvement in WER over the baseline with a fine-tuned LLM. Our proposed approches with the frozen LLM leads to a 31\% relative improvement over basic soft-prompting prefixLM. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# LLMには固有の個性と一貫性があるか? TRAIT:心理指標を用いたLLMのための個性テストセット
Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics ( http://arxiv.org/abs/2406.14703v1 ) ライセンス: Link先を確認 | Seungbeen Lee, Seungwon Lim, Seungju Han, Giyeong Oh, Hyungjoo Chae, Jiwan Chung, Minju Kim, Beong-woo Kwak, Yeonsoo Lee, Dongha Lee, Jinyoung Yeo, Youngjae Yu, | (参考訳) 記述心理学におけるパーソナリティの概念は、伝統的に観察可能な振る舞いによって定義され、その振る舞いをよりよく理解するために、Large Language Models (LLMs) に拡張されている。
LLMは、人間と同じような、独特で一貫した性格特性を示すのだろうか?
既存の自己評価パーソナリティテストは適用可能であるが、正確なパーソナリティ測定に必要な妥当性と信頼性は欠如している。
そこで本研究では,LCMの性格を妥当性と信頼性で評価する8Kのマルチ選択質問からなる新しいツールTRAITを紹介する。
TRAITは心理的に検証された人間の質問紙Big Five Inventory (BFI) とShort Dark Triad (SD-3) に基づいて構築され、ATOMIC10Xナレッジグラフで強化され、様々な現実シナリオにおいてパーソナリティをテストする。
TRAITは自己評価でLLMの性格を測定する際の信頼性と妥当性を克服し、拒絶率、迅速な感度、オプションオーダー感度の3つの指標で最高スコアを示す。
LLMの個性に関する顕著な洞察が浮かび上がっています。
1)LCMは、トレーニングデータ(アライメントチューニングに使用されるデータ)の影響を強く受け、独特で一貫した個性を示す。
2) 現状のプロンプト技術は, サイコパシーや良心の低さなど, 特定の特徴を引き出す効果に限界があり, 今後の研究の必要性が示唆されている。
The idea of personality in descriptive psychology, traditionally defined through observable behavior, has now been extended to Large Language Models (LLMs) to better understand their behavior. This raises a question: do LLMs exhibit distinct and consistent personality traits, similar to humans? Existing self-assessment personality tests, while applicable, lack the necessary validity and reliability for precise personality measurements. To address this, we introduce TRAIT, a new tool consisting of 8K multi-choice questions designed to assess the personality of LLMs with validity and reliability. TRAIT is built on the psychometrically validated human questionnaire, Big Five Inventory (BFI) and Short Dark Triad (SD-3), enhanced with the ATOMIC10X knowledge graph for testing personality in a variety of real scenarios. TRAIT overcomes the reliability and validity issues when measuring personality of LLM with self-assessment, showing the highest scores across three metrics: refusal rate, prompt sensitivity, and option order sensitivity. It reveals notable insights into personality of LLM: 1) LLMs exhibit distinct and consistent personality, which is highly influenced by their training data (i.e., data used for alignment tuning), and 2) current prompting techniques have limited effectiveness in eliciting certain traits, such as high psychopathy or low conscientiousness, suggesting the need for further research in this direction. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# フェルミオン力学カシミール効果:マグナス膨張
Fermionic dynamical Casimir effect: Magnus expansion ( http://arxiv.org/abs/2406.14708v1 ) ライセンス: Link先を確認 | C. D. Fosco, G. Hansen, | (参考訳) 真空中における対生成について検討し, 1+1$次元の巨大なディラック場からなる系について, 完全に反射する境界の対, そのうちの1つで振動する系について検討した。
真空デカイ過程の一般的な性質を解析した後、S-行列のマグナス膨張における対応する遷移振幅を評価する。
単対生成振幅に加えて、多重対生成振幅、および単対振幅の補正がどのような効果を発揮するかを示す。
また、ボゴリューボフ変換に対する近似的かつ明示的なユニタリ表現をフォック空間内と外の間で得るためにも適用する。
We study pair creation out of the vacuum, for a system consisting of a massive Dirac field in $1+1$ dimensions, contained between a pair of perfectly reflecting boundaries, one of them oscillating. After analyzing some general properties of the vacuum-decay process, we evaluate the corresponding transition amplitude in a Magnus expansion of the S-matrix. We show how this yields, besides the single-pair creation amplitude, multipair ones, as well as corrections to the single pair amplitude. We also apply it to obtain an approximate, yet explicitly unitary expression for the Bogoliubov transformation between the in and out Fock spaces. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 大規模言語モデルからの学習によるFactual Dialogue Summarization
Factual Dialogue Summarization via Learning from Large Language Models ( http://arxiv.org/abs/2406.14709v1 ) ライセンス: Link先を確認 | Rongxin Zhu, Jey Han Lau, Jianzhong Qi, | (参考訳) 事実整合性は対話の要約において重要な品質である。
大規模言語モデル(LLM)に基づく自動テキスト要約モデルは、より小さな事前訓練された言語モデルと比較すると、より現実的に一貫性のある要約を生成するが、プライバシやリソース制約のため、現実のアプリケーションではデプロイ上の課題に直面している。
本稿では,対話要約のためのより小さな事前学習モデルの現実的整合性を改善するために,記号的知識蒸留を用いて検討する。
ゼロショット学習を用いて、LLMから記号的知識を抽出し、事実整合性(正)と矛盾性(負)の両方を生成する。
次に、これらの要約に2つの対照的な学習目標を適用し、より小さな要約モデルを強化する。
BART、PEGASUS、Flan-T5による実験は、我々のアプローチが複雑なデータ拡張戦略に依存する強力なベースラインを超えたことを示している。
各種自動評価指標で確認したように,コヒーレンス,フラレンシ,関連性を保ちながら,より優れた事実整合性を実現する。
また、将来の研究を促進するために、データやコードへのアクセスも提供します。
Factual consistency is an important quality in dialogue summarization. Large language model (LLM)-based automatic text summarization models generate more factually consistent summaries compared to those by smaller pretrained language models, but they face deployment challenges in real-world applications due to privacy or resource constraints. In this paper, we investigate the use of symbolic knowledge distillation to improve the factual consistency of smaller pretrained models for dialogue summarization. We employ zero-shot learning to extract symbolic knowledge from LLMs, generating both factually consistent (positive) and inconsistent (negative) summaries. We then apply two contrastive learning objectives on these summaries to enhance smaller summarization models. Experiments with BART, PEGASUS, and Flan-T5 indicate that our approach surpasses strong baselines that rely on complex data augmentation strategies. Our approach achieves better factual consistency while maintaining coherence, fluency, and relevance, as confirmed by various automatic evaluation metrics. We also provide access to the data and code to facilitate future research. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# マルチエージェント・コラボレーション・アタック:ディベートによる大規模言語モデルコラボレーションにおける敵対的アタックの調査
MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate ( http://arxiv.org/abs/2406.14711v1 ) ライセンス: Link先を確認 | Alfonso Amayuelas, Xianjun Yang, Antonis Antoniades, Wenyue Hua, Liangming Pan, William Wang, | (参考訳) 大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩により、これらのモデルをエージェントとしての使用が促進され、複数のモデル間の相互作用が複雑なタスクの実行を可能にした。
このようなコラボレーションには、特別なモデル(例えばコーディング)の使用、複数の計算による信頼性の向上、分散思考の強化など、いくつかの利点がある。
このように、言語モデルの協調的な利用は、今後数年で大幅に増加することが期待されている。
本研究では,敵対者の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
我々は,システム精度とモデル合意に焦点をあてて,敵の有効性を評価するために,関連する指標を導入する。
本研究は,他者に影響を与えるモデルが持つ説得力の重要性を明らかにするものである。
さらに、より説得力のある議論を生成するための推論時手法を検討し、プロンプトベースの緩和の可能性を防衛戦略として評価する。
Large Language Models (LLMs) have shown exceptional results on current benchmarks when working individually. The advancement in their capabilities, along with a reduction in parameter size and inference times, has facilitated the use of these models as agents, enabling interactions among multiple models to execute complex tasks. Such collaborations offer several advantages, including the use of specialized models (e.g. coding), improved confidence through multiple computations, and enhanced divergent thinking, leading to more diverse outputs. Thus, the collaborative use of language models is expected to grow significantly in the coming years. In this work, we evaluate the behavior of a network of models collaborating through debate under the influence of an adversary. We introduce pertinent metrics to assess the adversary's effectiveness, focusing on system accuracy and model agreement. Our findings highlight the importance of a model's persuasive ability in influencing others. Additionally, we explore inference-time methods to generate more compelling arguments and evaluate the potential of prompt-based mitigation as a defensive strategy. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# Qiskit HumanEval: 量子コード生成モデルの評価ベンチマーク
Qiskit HumanEval: An Evaluation Benchmark For Quantum Code Generative Models ( http://arxiv.org/abs/2406.14712v1 ) ライセンス: Link先を確認 | Sanjay Vishwakarma, Francis Harkins, Siddharth Golecha, Vishal Sharathchandra Bajpe, Nicolas Dupuis, Luca Buratti, David Kremer, Ismael Faro, Ruchir Puri, Juan Cruz-Benito, | (参考訳) 量子プログラムは一般的に、量子ソフトウェア開発キット(SDK)を使って開発される。
量子コンピューティングの急速な進歩は、この開発プロセスを合理化するための新しいツールを必要とし、そのようなツールの1つが生成人工知能(GenAI)である可能性がある。
本研究では,量子SDKであるQiskitを用いて,大規模言語モデル(LLM)の量子コード生成能力のベンチマークを目的とした,手作業によるタスクの集合であるQiskit HumanEvalデータセットを導入・使用する。
このデータセットは100以上の量子コンピューティングタスクで構成され、それぞれにプロンプト、標準解、包括的なテストケース、および、生成されたソリューションの正確性を評価するための難易度尺度が付属している。
我々は,Qiskit HumanEvalデータセットのタスクに対して,一組のLLMの性能を体系的に評価し,実行可能な量子コードを生成するためのモデル能力に焦点を当てる。
本研究は,LLMを用いた量子コード生成の実現可能性を示すだけでなく,この分野の進展の新たなベンチマークを構築し,量子コード生成のためのGenAI駆動ツールのさらなる探索と開発を奨励するものである。
Quantum programs are typically developed using quantum Software Development Kits (SDKs). The rapid advancement of quantum computing necessitates new tools to streamline this development process, and one such tool could be Generative Artificial intelligence (GenAI). In this study, we introduce and use the Qiskit HumanEval dataset, a hand-curated collection of tasks designed to benchmark the ability of Large Language Models (LLMs) to produce quantum code using Qiskit - a quantum SDK. This dataset consists of more than 100 quantum computing tasks, each accompanied by a prompt, a canonical solution, a comprehensive test case, and a difficulty scale to evaluate the correctness of the generated solutions. We systematically assess the performance of a set of LLMs against the Qiskit HumanEval dataset's tasks and focus on the models ability in producing executable quantum code. Our findings not only demonstrate the feasibility of using LLMs for generating quantum code but also establish a new benchmark for ongoing advancements in the field and encourage further exploration and development of GenAI-driven tools for quantum code generation. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# フロンティアAIのリスクしきい値
Risk thresholds for frontier AI ( http://arxiv.org/abs/2406.14713v1 ) ライセンス: Link先を確認 | Leonie Koessler, Jonas Schuett, Markus Anderljung, | (参考訳) 最前線の人工知能(AI)システムは、公共の安全とセキュリティのリスクを増大させる可能性がある。
しかし、どのレベルのリスクが受け入れられるのか?
ますます一般的なアプローチのひとつは、AIシステムが過度にリスクを負うと見なされる、AI能力を記述する機能しきい値を定義することだ。
より直接的なアプローチは、リスクが過大評価されるリスクしきい値を定義することです。
例えば、AIシステムを使用したサイバー犯罪者がXの経済被害を発生させる可能性は、Y以上のポイントで増加してはいけない、と彼らは述べている。
リスクしきい値の主な利点は、それらが能力しきい値よりも原則的であることであるが、主な欠点は、信頼性の高い評価が難しいことである。
そのため、現在、企業は(1)意思決定の原則的基盤を提供するためのリスクしきい値を定義し、(2)これらのリスクしきい値を使用して能力しきい値を設定し、(3)主に能力しきい値に頼って意思決定を行うことを推奨しています。
規制当局は、最終的にリスク閾値を定義する最も合法的なアクターであるため、この領域を探索する必要がある。
AIのリスク見積がより信頼できるものになると、リスクしきい値が意思決定においてますます直接的な役割を果たすはずだ。
Frontier artificial intelligence (AI) systems could pose increasing risks to public safety and security. But what level of risk is acceptable? One increasingly popular approach is to define capability thresholds, which describe AI capabilities beyond which an AI system is deemed to pose too much risk. A more direct approach is to define risk thresholds that simply state how much risk would be too much. For instance, they might state that the likelihood of cybercriminals using an AI system to cause X amount of economic damage must not increase by more than Y percentage points. The main upside of risk thresholds is that they are more principled than capability thresholds, but the main downside is that they are more difficult to evaluate reliably. For this reason, we currently recommend that companies (1) define risk thresholds to provide a principled foundation for their decision-making, (2) use these risk thresholds to help set capability thresholds, and then (3) primarily rely on capability thresholds to make their decisions. Regulators should also explore the area because, ultimately, they are the most legitimate actors to define risk thresholds. If AI risk estimates become more reliable, risk thresholds should arguably play an increasingly direct role in decision-making. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 高非線形系の包括的設計最適化のための物理インフォームドニューラル演算子:航空宇宙複合処理ケーススタディ
An Advanced Physics-Informed Neural Operator for Comprehensive Design Optimization of Highly-Nonlinear Systems: An Aerospace Composites Processing Case Study ( http://arxiv.org/abs/2406.14715v1 ) ライセンス: Link先を確認 | Milad Ramezankhani, Anirudh Deodhar, Rishi Yash Parekh, Dagnachew Birru, | (参考訳) ディープ・オペレーター・ネットワーク (Deep Operator Networks, DeepONets) とその物理インフォームド・バリアントは、偏微分方程式の関数空間間の写像の学習において大きな可能性を示しており、従来のニューラルネットワークの一般化が促進されている。
しかしながら、航空宇宙複合処理のような非常に非線形な現実世界のアプリケーションでは、既存のモデルは基礎となるソリューションを正確に捉えることができず、通常は単一入力関数に制限され、迅速なプロセス設計の開発が制限される。
本稿では,複数の入力関数を持つ複雑なシステムに適した物理インフォームドDeepONetを提案する。
非線形デコーダなどのアーキテクチャ強化とカリキュラム学習やドメイン分解などの効果的なトレーニング戦略を備えた提案モデルは,バニラ物理インフォームドDeepONetを2桁の精度で上回る精度で高次元設計空間を処理する。
広い設計領域にわたるゼロショット予測能力により、コンポジットプロセスの設計と最適化を加速するための強力なツールとなり、強い非線形性によって特徴づけられる他の工学分野にも応用できる。
Deep Operator Networks (DeepONets) and their physics-informed variants have shown significant promise in learning mappings between function spaces of partial differential equations, enhancing the generalization of traditional neural networks. However, for highly nonlinear real-world applications like aerospace composites processing, existing models often fail to capture underlying solutions accurately and are typically limited to single input functions, constraining rapid process design development. This paper introduces an advanced physics-informed DeepONet tailored for such complex systems with multiple input functions. Equipped with architectural enhancements like nonlinear decoders and effective training strategies such as curriculum learning and domain decomposition, the proposed model handles high-dimensional design spaces with significantly improved accuracy, outperforming the vanilla physics-informed DeepONet by two orders of magnitude. Its zero-shot prediction capability across a broad design space makes it a powerful tool for accelerating composites process design and optimization, with potential applications in other engineering fields characterized by strong nonlinearity. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 5564量子ビット量子アニール上で相互作用する量子化気泡による偽真空のスターリング
Stirring the false vacuum via interacting quantized bubbles on a 5564-qubit quantum annealer ( http://arxiv.org/abs/2406.14718v1 ) ライセンス: Link先を確認 | Jaka Vodeb, Jean-Yves Desaules, Andrew Hallam, Andrea Rava, Gregor Humar, Dennis Willsch, Fengping Jin, Madita Willsch, Kristel Michielsen, Zlatko Papić, | (参考訳) 偽真空崩壊は初期の宇宙の進化を司る潜在的なメカニズムであり、非平衡量子物理学と深い関係を持ち、クエンチド・ダイナミクス、キブル・ズレック機構、動的転移性がある。
偽真空崩壊の非摂動特性と実験プローブの不足は、真真空の泡がどのように動き、相互作用するかといった、多くの基本的なオープンな質問で、この効果を研究するのを非常に困難にしている。
ここでは、5564個の超伝導フラックス量子ビットを持つ量子アニールを用いて、量子化された気泡の形成を直接リアルタイムで観察する。
さらに,初期気泡生成とその後の相互作用効果を記述した効果的なモデルを構築した。
実効モデルが散逸した状態では精度が保たれることが示され、我々のアニールラーは、5564量子ビットの駆動多体力学におけるコヒーレントなスケーリング法則に、1000以上の固有量子ビット時間単位でアクセスできることが示される。
この研究は、量子アニールプラットフォームにおける計算に難渋するシステムサイズ、次元、トポロジーにおいて、偽真空の深夜ダイナミクスを探索する段階を定めている。
False vacuum decay is a potential mechanism governing the evolution of the early Universe, with profound connections to non-equilibrium quantum physics, including quenched dynamics, the Kibble-Zurek mechanism, and dynamical metastability. The non-perturbative character of the false vacuum decay and the scarcity of its experimental probes make the effect notoriously difficult to study, with many basic open questions, such as how the bubbles of true vacuum form, move and interact with each other. Here we utilize a quantum annealer with 5564 superconducting flux qubits to directly observe quantized bubble formation in real time -- the hallmark of false vacuum decay dynamics. Moreover, we develop an effective model that describes the initial bubble creation and subsequent interaction effects. We demonstrate that the effective model remains accurate in the presence of dissipation, showing that our annealer can access coherent scaling laws in driven many-body dynamics of 5564 qubits for over $1\mu$s, i.e., more than 1000 intrinsic qubit time units. This work sets the stage for exploring late-time dynamics of the false vacuum at computationally intractable system sizes, dimensionality, and topology in quantum annealer platforms. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 1+1>2:大規模言語モデルは言語間知識集約として生き残ることができるか?
1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? ( http://arxiv.org/abs/2406.14721v1 ) ライセンス: Link先を確認 | Yue Huang, Chenrui Fan, Yuan Li, Siyuan Wu, Tianyi Zhou, Xiangliang Zhang, Lichao Sun, | (参考訳) 大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。
それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。
本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
このアプローチには、言語固有の低リソースの知識検出器、言語選択プロセス、および回答の置換と統合のためのメカニズムが組み込まれている。
我々の実験は、特に言語の性能格差の低減に際し、顕著な性能改善を示した。
Ablation study is confirmed that each component of our method is significantly contribute to these enhance。
この研究は、多言語機能を調和させるLLMの本質的な可能性を強調し、さらなる探索に有用な洞察を提供する。
Large Language Models (LLMs) have garnered significant attention due to their remarkable ability to process information across various languages. Despite their capabilities, they exhibit inconsistencies in handling identical queries in different languages, presenting challenges for further advancement. This paper introduces a method to enhance the multilingual performance of LLMs by aggregating knowledge from diverse languages. This approach incorporates a low-resource knowledge detector specific to a language, a language selection process, and mechanisms for answer replacement and integration. Our experiments demonstrate notable performance improvements, particularly in reducing language performance disparity. An ablation study confirms that each component of our method significantly contributes to these enhancements. This research highlights the inherent potential of LLMs to harmonize multilingual capabilities and offers valuable insights for further exploration. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# GPTは本当にそれを得るのか?人間とAIのアルゴリズム理解を定量化する階層的尺度
Does GPT Really Get It? A Hierarchical Scale to Quantify Human vs AI's Understanding of Algorithms ( http://arxiv.org/abs/2406.14722v1 ) ライセンス: Link先を確認 | Mirabel Reid, Santosh S. Vempala, | (参考訳) 大規模言語モデル(LLM)がより複雑な認知タスクを遂行する(そして時には卓越する)につれて、自然な疑問はAIが本当に理解しているかどうかである。
LLMにおける理解の研究は、その初期段階にあり、まだ哲学、心理学、教育に精通した研究を組み込んでいない。
我々はこれを開始し、特にアルゴリズムの理解に焦点をあて、理解のレベル階層を提案する。
我々は、人的対象(学部・大学院生)と大きな言語モデル(GPTの世代)を設計・実行するために階層を用いており、興味深い類似点と相違点を明らかにしている。
我々の厳格な基準は、そのような認知領域におけるAIの進歩を追跡するのに役立つと期待しています。
As Large Language Models (LLMs) perform (and sometimes excel at) more and more complex cognitive tasks, a natural question is whether AI really understands. The study of understanding in LLMs is in its infancy, and the community has yet to incorporate well-trodden research in philosophy, psychology, and education. We initiate this, specifically focusing on understanding algorithms, and propose a hierarchy of levels of understanding. We use the hierarchy to design and conduct a study with human subjects (undergraduate and graduate students) as well as large language models (generations of GPT), revealing interesting similarities and differences. We expect that our rigorous criteria will be useful to keep track of AI's progress in such cognitive domains. | 翻訳日:2024-06-24 17:49:36 公開日:2024-06-20 |
# 予測符号化を用いたホップフィールドネットワークのオンライン学習
Online Training of Hopfield Networks using Predictive Coding ( http://arxiv.org/abs/2406.14723v1 ) ライセンス: Link先を確認 | Ehsan Ganjidoost, Mallory Snow, Jeff Orchard, | (参考訳) 神経科学と人工知能(AI)は、それぞれが脳の理解に寄与し、生物学的に証明可能なニューラルネットワーク(NN)や学習規則の最近の発展に刺激を与えている。
予測符号化(PC)とその学習規則は、前シナプスニューロンと後シナプスニューロンの活動にのみ依存する局所的な重み付けによって、生物学的に関係のある方法で誤りのバックプロパゲーションを近似することが示されている。
情報の流れが一方向に流れる従来のフィードフォワードNNとは異なり、PCモデルは情報を双方向に渡すことで脳をより正確に模倣する。
PCモデルは、いくつかのニューロンを目標値にクランプし、ネットワークを平衡に実行することで学習する。
平衡時には、ネットワークは自身のエラー勾配を、重み更新に使用される位置で計算する。
従来のバックプロップでは、計算グラフをフィードフォワードにする必要がある。
しかし、バックプロップのPCバージョンは、この要件を持っていない。
驚くべきことに、PC学習をリカレントニューラルネットワーク(RNN)に直接適用する方法を実証する者はいない。
ホップフィールドネットワーク(HN)は、コンテンツ適応可能なメモリを実装したRNNであり、部分的または破損したパターンから取得できる学習パターン(または '`memories'')である。
本稿では,PC学習規則を変更せずにHNを学習できることを示す。
私たちの知る限り、PC学習がRNNのトレーニングに直接適用されたのはこれが初めてです。
その結果,PC学習したHNは古典的HNのように振る舞うことがわかった。
Neuroscience and Artificial Intelligence (AI) have progressed in tandem, each contributing to our understanding of the brain, and inspiring recent developments in biologically-plausible neural networks (NNs) and learning rules. Predictive coding (PC), and its learning rule, have been shown to approximate error backpropagation in a biologically relevant manner, with local weight updates that depend only on the activity of the pre- and post-synaptic neurons. Unlike traditional feedforward NNs where the flow of information goes in one direction, PC models mimic the brain more accurately by passing information bidirectionally: prediction in one direction, and correction/error in the other. PC models learn by clamping some neurons to target values and running the network to equilibrium. At equilibrium, the network calculates its own error gradients right at the location where they are used for weight updates. Traditional backprop requires the computation graph to be feedforward. However, the PC version of backprop does not have this requirement. Amazingly, no one has demonstrated the application of PC learning directly to recurrent neural networks (RNNs). Hopfield networks (HNs) are RNNs that implement a content-addressable memory, learning patterns (or ``memories'') that can be retrieved from partial or corrupted patterns. In this paper, we show that a HN can be trained using the PC learning rules without modification. To our knowledge, this is the first time PC learning has been applied directly to train a RNN, without the need to unroll it in time. Our results indicate that the PC-trained HNs behave like classical HNs. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# オープンソースソフトウェアにおける一般データ保護規制(GDPR)コンプライアンスに関する探索的混合手法の研究
An Exploratory Mixed-Methods Study on General Data Protection Regulation (GDPR) Compliance in Open-Source Software ( http://arxiv.org/abs/2406.14724v1 ) ライセンス: Link先を確認 | Lucas Franke, Huayu Liang, Sahar Farzanehpour, Aaron Brantly, James C. Davis, Chris Brown, | (参考訳) 背景: 世界中の政府はデータプライバシー規制を検討している。
これらの法律、例えば欧州連合(EU)の一般データ保護規則(GDPR)は、ソフトウェア開発者にユーザーのデータとやり取りする際に、プライバシ関連の要件を満たすように要求する。
以前の研究は、そのような法律がソフトウェア開発に与える影響を説明しているが、商用ソフトウェアに限られている。
オープンソースソフトウェアは一般的に規制されたソフトウェアに統合されるため、コンプライアンスのために設計または適応されなければならない。
このような法律がオープンソースソフトウェア開発にどのような影響を及ぼすのか、私たちは知りません。
Aims: データプライバシ法がオープンソースソフトウェア開発にどのように影響するかを理解すること。
我々は欧州連合のGDPR、最も顕著な法律を研究した。
我々は、GDPRコンプライアンス活動がOSS開発者活動(RQ1)にどのように影響するか、OSS開発者がGDPR要件(RQ2)を満たす方法、最も難しいGDPR要件(RQ3)、OSS開発者がGDPRコンプライアンスを評価する方法(RQ4)を検討した。
Method: 私たちはオープンソース開発者(N=56)のGDPR実装に対する認識を調査するため,オンライン調査を配布しました。
さらに、オープンソースGitHubリポジトリに提出されたプルリクエスト(N=31462)の開発メトリクスを分析するために、リポジトリマイニング調査を実施しました。
結果:GDPRポリシはオープンソース開発プロセスを複雑にし,主にユーザのデータ管理,実装コストと時間,コンプライアンス評価に関する課題を導入します。
さらに、オープンソース開発者からのGDPRに対する否定的な認識と、特にコーディングやレビューアクティビティに関連する開発活動の著しい増加を、GDPRコンプライアンスに関連するGitHubプルリクエストで観察した。
結論: 当社の調査結果は,オープンソースソフトウェアにおけるデータプライバシ規制の実装とコンプライアンス活動を支援するために,ポリシ関連のリソースと自動化ツールを動機付けています。
Background: Governments worldwide are considering data privacy regulations. These laws, e.g. the European Union's General Data Protection Regulation (GDPR), require software developers to meet privacy-related requirements when interacting with users' data. Prior research describes the impact of such laws on software development, but only for commercial software. Open-source software is commonly integrated into regulated software, and thus must be engineered or adapted for compliance. We do not know how such laws impact open-source software development. Aims: To understand how data privacy laws affect open-source software development. We studied the European Union's GDPR, the most prominent such law. We investigated how GDPR compliance activities influence OSS developer activity (RQ1), how OSS developers perceive fulfilling GDPR requirements (RQ2), the most challenging GDPR requirements to implement (RQ3), and how OSS developers assess GDPR compliance (RQ4). Method: We distributed an online survey to explore perceptions of GDPR implementations from open-source developers (N=56). We further conducted a repository mining study to analyze development metrics on pull requests (N=31462) submitted to open-source GitHub repositories. Results: GDPR policies complicate open-source development processes and introduce challenges for developers, primarily regarding the management of users' data, implementation costs and time, and assessments of compliance. Moreover, we observed negative perceptions of GDPR from open-source developers and significant increases in development activity, in particular metrics related to coding and reviewing activity, on GitHub pull requests related to GDPR compliance. Conclusions: Our findings motivate policy-related resources and automated tools to support data privacy regulation implementation and compliance efforts in open-source software. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 分類作業における病的正規化規則
Pathological Regularization Regimes in Classification Tasks ( http://arxiv.org/abs/2406.14731v1 ) ライセンス: Link先を確認 | Maximilian Wiesmann, Paul Larsen, | (参考訳) 本稿では、データセットと学習モデルから得られた分類スコアの間の二項分類タスクにおける傾向逆転の可能性を示す。
この傾向逆転は、モデルトレーニングにおける正規化パラメータの特定の選択、すなわち、パラメータが病理正規化規則と呼ばれるものに含まれる場合に発生する。
隆起回帰のためには、病理正則化体制の存在のために、データセットに必要かつ十分な代数的条件を与える。
さらに,データサイエンスの実践者に対して,トレンド逆転に苦しむハイパーパラメータの選択を避けるためのハンズオンツールを提供する。
さらに、ロジスティック回帰のための病理正則化方式に関する数値的な結果を示す。
最後に、シンプソンのパラドックスを示すデータセットに接続し、病理的なデータセットの自然な情報源を提供する。
In this paper we demonstrate the possibility of a trend reversal in binary classification tasks between the dataset and a classification score obtained from a trained model. This trend reversal occurs for certain choices of the regularization parameter for model training, namely, if the parameter is contained in what we call the pathological regularization regime. For ridge regression, we give necessary and sufficient algebraic conditions on the dataset for the existence of a pathological regularization regime. Moreover, our results provide a data science practitioner with a hands-on tool to avoid hyperparameter choices suffering from trend reversal. We furthermore present numerical results on pathological regularization regimes for logistic regression. Finally, we draw connections to datasets exhibiting Simpson's paradox, providing a natural source of pathological datasets. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# TTQA-RS-Reasoning and Summarizationを用いたマルチホップ質問応答のためのブレークダウンプロンプト手法
TTQA-RS- A break-down prompting approach for Multi-hop Table-Text Question Answering with Reasoning and Summarization ( http://arxiv.org/abs/2406.14732v1 ) ライセンス: Link先を確認 | Jayetri Bardhan, Bushi Xiao, Daisy Zhe Wang, | (参考訳) 表やテキストに対する質問応答(QA)は、ここ数年で大いに人気を集めている。
マルチホップテーブルテキストQAは、テーブルとテキストの間に複数のホップを必要とするため、難しいQAタスクになります。
テーブル・テキストのQAタスクを解決しようとする作業はいくつかあるが、ほとんどはモデルのトレーニングとラベル付きデータを必要とする。
本稿では,マルチホップ表-テキスト問合せアンサーと推論と要約のためのブレークダウンプロンプト手法として,TTQA-RSを提案する。
提案モデルでは,テーブルテキストの要約を含む拡張知識を用いて,テーブルテキストQAに対する回答を分解したサブクエストを抽出する。
オープンソース言語モデルを使用することで、HybridQAやOTT-QAの開発セットのような既存のテーブルテキストQAデータセット上で、テーブルテキストQAタスクのすべての既存のプロンプトメソッドのパフォーマンスが向上しました。
我々の結果は、トレーニングベースの最先端モデルに匹敵するものであり、オープンソースのLCMを用いたプロンプトベースのアプローチの可能性を示している。
さらに,GPT-4とLLaMA3-70Bを併用することにより,マルチホップテーブルテキストQA上でのプロンプトベース手法の最先端性能を実現した。
Question answering (QA) over tables and text has gained much popularity over the years. Multi-hop table-text QA requires multiple hops between the table and text, making it a challenging QA task. Although several works have attempted to solve the table-text QA task, most involve training the models and requiring labeled data. In this paper, we have proposed a model - TTQA-RS: A break-down prompting approach for Multi-hop Table-Text Question Answering with Reasoning and Summarization. Our model uses augmented knowledge including table-text summary with decomposed sub-question with answer for a reasoning-based table-text QA. Using open-source language models our model outperformed all existing prompting methods for table-text QA tasks on existing table-text QA datasets like HybridQA and OTT-QA's development set. Our results are comparable with the training-based state-of-the-art models, demonstrating the potential of prompt-based approaches using open-source LLMs. Additionally, by using GPT-4 with LLaMA3-70B, our model achieved state-of-the-art performance for prompting-based methods on multi-hop table-text QA. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# ストーリーチャート作成のためのネットワーク可視化技術
Network visualization techniques for story charting ( http://arxiv.org/abs/2406.14734v1 ) ライセンス: Link先を確認 | Joao T. Aparicio, Andreas Karatsoli, Carlos J. Costa, | (参考訳) テキストを含む様々なデータ型を分析するために、可視化技術が広く使われてきた。
本稿では,ポルトガル語における議論を呼んでいるテキストを,グラフ可視化技術を用いて分析する手法を提案する。
具体的には、テキストをグラフに変換するストーリーチャート技術を用いる。
各ノードは文字または主エンティティを表し、各エッジは文字間の相互作用を表す。
また、ストーリーの構造、キャラクター間の関係、最も重要な出来事、そして本の中で重要な用語がどのように使われているかを理解するための可視化技術をいくつか紹介する。
このアプローチを用いることで、テキストを読むことで容易に識別できないような複雑なパターンや関係を効果的に明らかにすることができる。
最後に,文学研究や他の分野における本手法の応用の可能性について論じる。
Visualization techniques have been widely used to analyze various data types, including text. This paper proposes an approach to analyze a controversial text in Portuguese by applying graph visualization techniques. Specifically, we use a story charting technique that transforms the text into a graph. Each node represents a character or main entities, and each edge represents the interactions between characters. We also present several visualization techniques to gain insights into the story's structure, relationships between the characters, the most important events, and how some key terms are used throughout the book. By using this approach, we can effectively reveal complex patterns and relationships that may not be easily discernible from reading the text. Finally, we discuss the potential applications of our technique in Literary Studies and other fields. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 乳癌検診・診断における放射能ベース人工知能(AI)法の最新動向
An updated overview of radiomics-based artificial intelligence (AI) methods in breast cancer screening and diagnosis ( http://arxiv.org/abs/2406.14735v1 ) ライセンス: Link先を確認 | Reza Elahi, Mahdis Nazari, | (参考訳) BCを診断するための現在のイメージング法は、感度、特異性、そして控えめな正の予測力に関係している。
人工知能(AI)を用いた画像解析の最近の進歩は、乳癌(BC)の診断とサブタイプ分化を改善することを大いに約束している。
この場合、放射線学のような新しい定量的な計算手法が開発され、初期のBCの診断と分類の感度と特異性が改善されている。
画像研究の診断効果を改善するための放射線医学の可能性は、いくつかの研究で示されている。
本稿では,MRI,マンモグラフィ,コントラスト強調分光マンモグラフィー(CESM),超音波画像,デジタル乳房合成(DBT)など,様々な画像モダリティに関する最新の研究に基づいて,BCの診断・分類における放射線学のワークフローと現在の手作り放射線学手法について論じる。
また,BC分類と臨床診断の高度化を支援するため,乳癌における放射線の特異性と感受性の向上に向けた現在の課題と今後の戦略についても検討する。
画像情報によるAIの法人化が進み、BC患者に高いレベルのケアを提供する大きな機会が開かれた。
Current imaging methods for diagnosing BC are associated with limited sensitivity and specificity and modest positive predictive power. The recent progress in image analysis using artificial intelligence (AI) has created great promise to improve breast cancer (BC) diagnosis and subtype differentiation. In this case, novel quantitative computational methods, such as radiomics, have been developed to improve the sensitivity and specificity of early BC diagnosis and classification. The potential of radiomics in improving the diagnostic efficacy of imaging studies has been shown in several studies. In this review article, we discuss the radiomics workflow and current hand-crafted radiomics methods in the diagnosis and classification of BC based on most recent studies on different imaging modalities, e.g. MRI, mammography, contrast-enhanced spectral mammography (CESM), ultrasound imaging, and digital breast tumosynthesis (DBT). We also discuss current challenges and potential strategies to improve the specificity and sensitivity of radiomics in breast cancer to help achieve a higher level of BC classification and diagnosis in the clinical setting. The growing field of AI incorporation with imaging information has opened a great opportunity to provide a higher level of care for BC patients. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# ウルマン変分をSCALPELで判別する:なぜ LLM は偽信念タスクにトリビアル変分で失敗するのか?
Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task? ( http://arxiv.org/abs/2406.14737v1 ) ライセンス: Link先を確認 | Zhiqiang Pi, Annapurna Vadaparty, Benjamin K. Bergen, Cameron R. Jones, | (参考訳) 近年の実証実験の結果は、Large Language Models (LLM) が心の理論 (ToM) を実現できるかどうかという議論を巻き起こしている。
例えば、False Belief task (Kosinski, 2023) のような ToM 評価において LLM が成功すると考える者もいるが、LLM はこれらのタスクの自明な変更に失敗するため(Ullman, 2023)、スプリケートな相関(信念を表すものではない)を利用してこれらのタスクを解決すると主張する者もいる。
本稿では,Scalse Beliefタスクの目標修正を生成する技術であるSCALPELを紹介する。
透明なオブジェクトを見ることは、その内容を認識することを意味するなど、明示的な共通推論を行う修正は、LLMのパフォーマンスを保っている。
これは、修正されたToMタスクにおけるLSMの失敗は、精神状態を表すのに失敗するよりも、より一般的な常識推論の欠如から生じる可能性があることを示唆している。
SCALPELは、他のケースでLLMの成功と失敗を説明するのに役立ちます。
Recent empirical results have sparked a debate about whether or not Large Language Models (LLMs) are capable of Theory of Mind (ToM). While some have found LLMs to be successful on ToM evaluations such as the False Belief task (Kosinski, 2023), others have argued that LLMs solve these tasks by exploiting spurious correlations -- not representing beliefs -- since they fail on trivial alterations to these tasks (Ullman, 2023). In this paper, we introduce SCALPEL: a technique to generate targeted modifications for False Belief tasks to test different specific hypotheses about why LLMs fail. We find that modifications which make explicit common inferences -- such as that looking at a transparent object implies recognizing its contents -- preserve LLMs' performance. This suggests that LLMs' failures on modified ToM tasks could result from a lack of more general commonsense reasoning, rather than a failure to represent mental states. We argue that SCALPEL could be helpful for explaining LLM successes and failures in other cases. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 文脈内学習のための反復的学習
Learning to Retrieve Iteratively for In-Context Learning ( http://arxiv.org/abs/2406.14739v1 ) ライセンス: Link先を確認 | Yunmo Chen, Tongfei Chen, Harsh Jhamtani, Patrick Xia, Richard Shin, Jason Eisner, Benjamin Van Durme, | (参考訳) 本稿では,ポリシー最適化による反復的意思決定を支援する新しいフレームワークである反復的検索を紹介する。
検索されたアイテムの最適ポートフォリオを見つけることは組合せ最適化の問題であり、一般にNPハードと見なされる。
このアプローチは、そのようなソリューションを学習した近似を提供し、与えられた大きな言語モデル(LLM)の族の下で特定のタスク要求を満たす。
LLMからのフィードバックを取り入れた強化学習に基づく学習手順を提案する。
In-context Learning(ICL)の例を合成するための反復的検索器をインスタンス化し、それを合成プログラムを出力として要求する様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度検索をステートフルな反復検索に変換し、CalFlow、TreeDST、MTOPといったセマンティック解析データセット上でのICL例の選択において、従来の方法よりも優れています。
さらに、トレーニングされた反復レトリバーは、トレーニング中に使用されるものを超えて、異なる推論 LLM をまたいだ一般化を行う。
We introduce iterative retrieval, a novel framework that empowers retrievers to make iterative decisions through policy optimization. Finding an optimal portfolio of retrieved items is a combinatorial optimization problem, generally considered NP-hard. This approach provides a learned approximation to such a solution, meeting specific task requirements under a given family of large language models (LLMs). We propose a training procedure based on reinforcement learning, incorporating feedback from LLMs. We instantiate an iterative retriever for composing in-context learning (ICL) exemplars and apply it to various semantic parsing tasks that demand synthesized programs as outputs. By adding only 4M additional parameters for state encoding, we convert an off-the-shelf dense retriever into a stateful iterative retriever, outperforming previous methods in selecting ICL exemplars on semantic parsing datasets such as CalFlow, TreeDST, and MTOP. Additionally, the trained iterative retriever generalizes across different inference LLMs beyond the one used during training. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# ニューラルベイズ推定を用いた認知モデルにおける潜時変動列同定
Latent Variable Sequence Identification for Cognitive Models with Neural Bayes Estimation ( http://arxiv.org/abs/2406.14742v1 ) ライセンス: Link先を確認 | Ti-Fen Pan, Jing-Jing Li, Bill Thompson, Anne Collins, | (参考訳) 時間変化の潜伏変数を計算認知モデルから抽出することは、認知プロセスの神経相関を理解することを目的としたモデルベースニューラルネットワークの重要なステップである。
しかし、既存の手法では、比較的小さな認知モデルで被験者の行動を説明する潜伏変数を推論できるのみである。
例えば、分析的に難解な確率を持つ関連する認知モデルの幅広いクラスは、現在、Posterioriパラメーター推定の最大値に基づいて、標準技術から手の届かないところにある。
本稿では,ニューラルネットワークとシミュレーションデータセットを用いて,実験データと対象潜在変数空間の直接マッピングを学習するために,ニューラルベイズ推定を拡張したアプローチを提案する。
提案手法は, トラクタブルモデルとトラクタブルモデルの両方において, 潜在変数列を推定する際の競合性能を実現する。
さらに、このアプローチは異なる計算モデルにまたがって一般化可能であり、連続空間と離散潜在空間の両方に適用可能である。
次に、実世界のデータセットでその適用性を実証する。
我々の研究は、リカレントニューラルネットワークとシミュレーションベースの推論を組み合わせることで、潜在変数配列を同定することで、モデルベースのニューラルネットワーク分析のためのより広範な認知モデルにアクセスし、より広範な理論のセットをテストすることができることを強調している。
Extracting time-varying latent variables from computational cognitive models is a key step in model-based neural analysis, which aims to understand the neural correlates of cognitive processes. However, existing methods only allow researchers to infer latent variables that explain subjects' behavior in a relatively small class of cognitive models. For example, a broad class of relevant cognitive models with analytically intractable likelihood is currently out of reach from standard techniques, based on Maximum a Posteriori parameter estimation. Here, we present an approach that extends neural Bayes estimation to learn a direct mapping between experimental data and the targeted latent variable space using recurrent neural networks and simulated datasets. We show that our approach achieves competitive performance in inferring latent variable sequences in both tractable and intractable models. Furthermore, the approach is generalizable across different computational models and is adaptable for both continuous and discrete latent spaces. We then demonstrate its applicability in real world datasets. Our work underscores that combining recurrent neural networks and simulation-based inference to identify latent variable sequences can enable researchers to access a wider class of cognitive models for model-based neural analyses, and thus test a broader set of theories. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 複雑なパフォーマンスメトリクスの最適化のための一般オンラインアルゴリズム
A General Online Algorithm for Optimizing Complex Performance Metrics ( http://arxiv.org/abs/2406.14743v1 ) ライセンス: Link先を確認 | Wojciech Kotłowski, Marek Wydmuch, Erik Schultheis, Rohit Babbar, Krzysztof Dembczyński, | (参考訳) 分類器の混乱行列(精度、F測度、G平均など)の一般関数である性能指標の逐次最大化を検討する。
このようなメトリクスは一般的に、個々のインスタンスに対して非分解可能であり、最適化を非常に困難にします。
バッチ設定の異なるフレームワークの下で広く研究されているが、オンライン学習システムにおける分析は非常に限定的であり、例外はわずかである。
本稿では,バイナリ,マルチクラス,マルチラベルの分類問題において,様々な複雑なパフォーマンス指標を用いて,直接的に使用可能な汎用オンラインアルゴリズムを紹介し,分析する。
アルゴリズムの更新と予測のルールは、過去のデータを保存することなく、非常にシンプルで計算的に効率的である。
このアルゴリズムは, 凹凸および滑らかな測定値に対して, $\mathcal{O}(\frac{\ln n}{n})$ regretを達成し, 実験的検討において提案アルゴリズムの有効性を検証した。
We consider sequential maximization of performance metrics that are general functions of a confusion matrix of a classifier (such as precision, F-measure, or G-mean). Such metrics are, in general, non-decomposable over individual instances, making their optimization very challenging. While they have been extensively studied under different frameworks in the batch setting, their analysis in the online learning regime is very limited, with only a few distinguished exceptions. In this paper, we introduce and analyze a general online algorithm that can be used in a straightforward way with a variety of complex performance metrics in binary, multi-class, and multi-label classification problems. The algorithm's update and prediction rules are appealingly simple and computationally efficient without the need to store any past data. We show the algorithm attains $\mathcal{O}(\frac{\ln n}{n})$ regret for concave and smooth metrics and verify the efficiency of the proposed algorithm in empirical studies. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# NCSAの次世代AIユーザと開発者のトレーニング
Training Next Generation AI Users and Developers at NCSA ( http://arxiv.org/abs/2406.14744v1 ) ライセンス: Link先を確認 | Daniel S. Katz, Volodymyr Kindratenko, Olena Kindratenko, Priyam Mazumdar, | (参考訳) 本稿では,イリノイ大学アーバナ・シャンペーン校のNational Center for Supercomputing Applications(NCSA)において,FoDOMMaTという学部生を対象とした研究経験を通じて,人工知能(AI)におけるトレーニング作業について述べる。
また、AIに関心がある理由を説明した上で、このプログラムと前任者の実行から6年間に学んだことについて議論することで締めくくります。
This article focuses on training work carried out in artificial intelligence (AI) at the National Center for Supercomputing Applications (NCSA) at the University of Illinois Urbana-Champaign via a research experience for undergraduates (REU) program named FoDOMMaT. It also describes why we are interested in AI, and concludes by discussing what we've learned from running this program and its predecessor over six years. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 検索用拡張生成フレームワークにおける微調整大言語モデルとの相関抽出
Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks ( http://arxiv.org/abs/2406.14745v1 ) ライセンス: Link先を確認 | Sefika Efeoglu, Adrian Paschke, | (参考訳) 情報抽出(IE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である。
IE内の重要なタスクはリレーショナル抽出(RE)であり、テキスト内のエンティティ間の関係を識別する。
教師なし、教師なし、弱教師付き、ルールベースのアプローチなど、さまざまなREメソッドが存在する。
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
LLM(Large Language Models)が支配する現在の時代には、これらのモデルを微調整することで、特にドメイン適応の問題や文内のエンティティ間の暗黙的な関係の特定に関して、ゼロショットLLMプロンプトベースのREメソッドに関連する制限を克服することができる。
文の依存木から容易に抽出できないこれらの暗黙の関係は、正確な識別のために論理的推論を必要とする。
本研究では,LLMがRAGフレームワーク内のジェネレータとして機能する場合に,文レベルで暗黙の関係を識別するという課題に対処するため,微調整LLMの性能とRAG(Retrieval Augmented-based)REアプローチへの統合について検討する。
TACRED、TACRED-Revisited (TACREV)、Re-TACRED、SemEVALのデータセットに対する実証的な評価は、Llama2-7B、Mistral-7B、T5 (Large)など、微調整のLLMによる大幅なパフォーマンス向上を示している。
提案手法は, 暗黙の関係が一般的であるSemEVALにおいて, このデータセットの先行結果を上回り, 大幅な向上を実現している。
さらに,本手法は,TACRED,TACREV,Re-TACREDの先行研究よりも優れており,様々な評価シナリオにおいて優れた性能を示す。
Information Extraction (IE) is crucial for converting unstructured data into structured formats like Knowledge Graphs (KGs). A key task within IE is Relation Extraction (RE), which identifies relationships between entities in text. Various RE methods exist, including supervised, unsupervised, weakly supervised, and rule-based approaches. Recent studies leveraging pre-trained language models (PLMs) have shown significant success in this area. In the current era dominated by Large Language Models (LLMs), fine-tuning these models can overcome limitations associated with zero-shot LLM prompting-based RE methods, especially regarding domain adaptation challenges and identifying implicit relations between entities in sentences. These implicit relations, which cannot be easily extracted from a sentence's dependency tree, require logical inference for accurate identification. This work explores the performance of fine-tuned LLMs and their integration into the Retrieval Augmented-based (RAG) RE approach to address the challenges of identifying implicit relations at the sentence level, particularly when LLMs act as generators within the RAG framework. Empirical evaluations on the TACRED, TACRED-Revisited (TACREV), Re-TACRED, and SemEVAL datasets show significant performance improvements with fine-tuned LLMs, including Llama2-7B, Mistral-7B, and T5 (Large). Notably, our approach achieves substantial gains on SemEVAL, where implicit relations are common, surpassing previous results on this dataset. Additionally, our method outperforms previous works on TACRED, TACREV, and Re-TACRED, demonstrating exceptional performance across diverse evaluation scenarios. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# オピニオンダイナミクスを用いたグラフ上の関係推論
Relational Reasoning On Graphs Using Opinion Dynamics ( http://arxiv.org/abs/2406.14746v1 ) ライセンス: Link先を確認 | Yulong Yang, Bowen Feng, Keqin Wang, Naomi Leonard, Adji Bousso Dieng, Christine Allen-Blanchette, | (参考訳) 歩行者から倉本振動子まで、エージェント間の相互作用は、様々な力学系が空間と時間でどのように進化するかを左右する。
これらのエージェントが相互にどのように関係しているかを明らかにすることで、これらのシステムの基盤となる、しばしば複雑なダイナミクスの理解を深めることができます。
最近の研究は、エージェント間の関係を、その身体行動の観察に基づいて分類することを学ぶ。
これらのアプローチは、現実のシステムカテゴリがしばしば相互作用する場合、関係カテゴリが独立して、相互排他的にモデル化されるという点で制限されている。
本研究では,エージェントの身体行動とエージェントの行動を定義するカテゴリの抽象レベルを紹介する。
これを実現するために、グラフニューラルネットワークにおいて、エージェントの状態から各カテゴリの親和性へのマッピングを学習する。
エージェントの物理的近接性とそれらの親和性は、互いに排他的なカテゴリを識別し、エージェントの時間的進化を予測し、エージェントの振舞いを制御するメカニズムを提供する非線形意見力学モデルに統合する。
メカニカルシステムの解釈可能なカテゴリを学習するためのモデルの有用性を実証し,既存の手法を一貫して実施する長期軌跡予測ベンチマークにおいて,その有効性を示す。
From pedestrians to Kuramoto oscillators, interactions between agents govern how a multitude of dynamical systems evolve in space and time. Discovering how these agents relate to each other can improve our understanding of the often complex dynamics that underlie these systems. Recent works learn to categorize relationships between agents based on observations of their physical behavior. These approaches are limited in that the relationship categories are modelled as independent and mutually exclusive, when in real world systems categories are often interacting. In this work, we introduce a level of abstraction between the physical behavior of agents and the categories that define their behavior. To do this, we learn a mapping from the agents' states to their affinities for each category in a graph neural network. We integrate the physical proximity of agents and their affinities in a nonlinear opinion dynamics model which provides a mechanism to identify mutually exclusive categories, predict an agent's evolution in time, and control an agent's behavior. We demonstrate the utility of our model for learning interpretable categories for mechanical systems, and demonstrate its efficacy on several long-horizon trajectory prediction benchmarks where we consistently out perform existing methods. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 複数音声言語処理タスクのための適応型統一モデル
An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks ( http://arxiv.org/abs/2406.14747v1 ) ライセンス: Link先を確認 | Varsha Suresh, Salah Aït-Mokhtar, Caroline Brun, Ioan Calapodescu, | (参考訳) 自己教師型学習モデルは、音声処理の分野に革命をもたらした。
しかし、これらのモデルを下流タスクで微調整するプロセスは、特に複数の音声処理タスクを扱う場合、かなりの計算資源を必要とする。
本稿では,複数の音声言語処理タスクを効果的に処理できる統一モデルを開発する上で,アダプタベースの微調整の可能性について検討する。
本研究の課題は,音声認識,音素認識,インテント分類,スロットフィリング,音声感情認識である。
提案手法は SUPERB ベンチマークによる一連の実験により検証され,提案手法は適応型微調整により,1個のエンコーダ・デコーダモデルで5つのタスクの平均18.4%の改善を行い,パラメータ更新の効率を保ちながら,複数の音声処理タスクを実行できることを示す。
Self-supervised learning models have revolutionized the field of speech processing. However, the process of fine-tuning these models on downstream tasks requires substantial computational resources, particularly when dealing with multiple speech-processing tasks. In this paper, we explore the potential of adapter-based fine-tuning in developing a unified model capable of effectively handling multiple spoken language processing tasks. The tasks we investigate are Automatic Speech Recognition, Phoneme Recognition, Intent Classification, Slot Filling, and Spoken Emotion Recognition. We validate our approach through a series of experiments on the SUPERB benchmark, and our results indicate that adapter-based fine-tuning enables a single encoder-decoder model to perform multiple speech processing tasks with an average improvement of 18.4% across the five target tasks while staying efficient in terms of parameter updates. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 光の圧縮状態によるスプーフィング検出の量子化
Quantum enhancement of spoofing detection with squeezed states of light ( http://arxiv.org/abs/2406.14750v1 ) ライセンス: Link先を確認 | Tomas P. Espinoza, Sebastian C. Carrasco, Jose Rogan, Juan Alejandro Valdivia, Vladimir S. Malinovsky, | (参考訳) 量子状態判別理論を用いて、電磁信号中の2つの量子状態がランダムに符号化されるとき、スプーフィング検出の上限を導出する。
最適境界に対する解析式を導出し、一対のコヒーレント状態を用いて飽和させることができることを示す。
量子エンハンスメントは光子数に依存しないことが示されるので、実験では単一光子制限は不要である。
また、信号中の圧縮状態の符号化も検討し、スプーファー能力がコヒーレントな状態生成に限定されている場合、検出確率がユニティに近づくことを示す。
Using quantum state discrimination theory, we derive the upper bound for spoofing detection when randomly encoding two quantum states in an electromagnetic signal. We derive an analytic expression for the optimal bound and demonstrate that it can be saturated using a pair of coherent states. We show that quantum enhancement is independent of the number of photons; therefore, the single-photon restriction is unnecessary for experimental demonstration. We also consider encoding squeezed states in the signal and show that the detection probability approaches unity if the spoofer capability is limited to coherent state generation. | 翻訳日:2024-06-24 17:31:15 公開日:2024-06-20 |
# 強化学習のための一般制御-理論的アプローチ:理論とアルゴリズム
A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms ( http://arxiv.org/abs/2406.14753v1 ) ライセンス: Link先を確認 | Weiqin Chen, Mark S. Squillante, Chai Wah Wu, Santiago Paternain, | (参考訳) 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
我々は,このアプローチの理論的特性を確立し,このアプローチの特定の例に基づいてアルゴリズムを導出する。
私たちの経験的結果は、我々のアプローチの大きな利点を示しています。
We devise a control-theoretic reinforcement learning approach to support direct learning of the optimal policy. We establish theoretical properties of our approach and derive an algorithm based on a specific instance of this approach. Our empirical results demonstrate the significant benefits of our approach. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# SciDMT:科学的な行為を検知する大規模コーパス
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions ( http://arxiv.org/abs/2406.14756v1 ) ライセンス: Link先を確認 | Huitong Pan, Qi Zhang, Cornelia Caragea, Eduard Dragut, Longin Jan Latecki, | (参考訳) 本稿では,SciDMTについて述べる。SciDMTは,科学的参照検出のための拡張および拡張されたコーパスであり,既存の関連リソースよりも大幅に進歩している。
SciDMTには、データセット(D)、メソッド(M)、タスク(T)の注釈付き科学文書が含まれている。
コーパスは2つのコンポーネントから構成される。
1)SciDMTのメインコーパスは,8万件以上の科学論文と8百万件以上の注釈付き言及アノテーションを内文スパンの形式に含め,
2) 評価目的で手動で注釈付けされた100の科学論文からなる評価セット。
我々の知る限りでは、SciDMTは検出に言及する科学的実体のための最大のコーパスである。
コーパスのスケールと多様性は、科学論文の索引付け、情報検索の強化、科学知識のアクセシビリティ向上などのタスクのモデルの開発と精錬に役立っている。
我々は,SciBERTやGPT-3.5といった先進的なディープラーニングアーキテクチャの実験を通じて,コーパスの有用性を実証する。
本研究は, 評価基準を確立し, 科学的言及検出における未解決課題を強調した。
SciDMTは研究コミュニティの堅牢なベンチマークとして機能し、科学的情報抽出の分野をさらに発展させるために革新的なモデルの開発を奨励している。
We present SciDMT, an enhanced and expanded corpus for scientific mention detection, offering a significant advancement over existing related resources. SciDMT contains annotated scientific documents for datasets (D), methods (M), and tasks (T). The corpus consists of two components: 1) the SciDMT main corpus, which includes 48 thousand scientific articles with over 1.8 million weakly annotated mention annotations in the format of in-text span, and 2) an evaluation set, which comprises 100 scientific articles manually annotated for evaluation purposes. To the best of our knowledge, SciDMT is the largest corpus for scientific entity mention detection. The corpus's scale and diversity are instrumental in developing and refining models for tasks such as indexing scientific papers, enhancing information retrieval, and improving the accessibility of scientific knowledge. We demonstrate the corpus's utility through experiments with advanced deep learning architectures like SciBERT and GPT-3.5. Our findings establish performance baselines and highlight unresolved challenges in scientific mention detection. SciDMT serves as a robust benchmark for the research community, encouraging the development of innovative models to further the field of scientific information extraction. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 大規模言語モデルによる物理音符の高調波現象に対する他の計算的アプローチの性能評価
A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes ( http://arxiv.org/abs/2406.14757v1 ) ライセンス: Link先を確認 | Syed I. Munzir, Daniel B. Hier, Chelsea Oommen, Michael D. Carrithers, | (参考訳) 患者徴候と症状を標準化したオントロジー概念に自動マッピングする高スループット表現型は、精密医療支援において電子健康記録(EHR)から価値を得るために不可欠である。
技術進歩にもかかわらず、高スループット表現型化は依然として課題である。
本研究では、生成AIを組み込んだLarge Language Model(LLM)、深層学習を利用した自然言語処理(NLP)、単語ベクトルと機械学習を組み合わせたハイブリッドアプローチの3つの計算手法を比較した。
GPT-4(Large Language Model)を実装した手法は優れた性能を示し,医用ノートの高スループット表現法として,大規模言語モデルが好まれることが示唆された。
High-throughput phenotyping, the automated mapping of patient signs and symptoms to standardized ontology concepts, is essential to gaining value from electronic health records (EHR) in the support of precision medicine. Despite technological advances, high-throughput phenotyping remains a challenge. This study compares three computational approaches to high-throughput phenotyping: a Large Language Model (LLM) incorporating generative AI, a Natural Language Processing (NLP) approach utilizing deep learning for span categorization, and a hybrid approach combining word vectors with machine learning. The approach that implemented GPT-4 (a Large Language Model) demonstrated superior performance, suggesting that Large Language Models are poised to be the preferred method for high-throughput phenotyping of physician notes. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# コンプライアンスカード: 自動AI規則準拠のための計算アーチファクト
Compliance Cards: Computational Artifacts for Automated AI Regulation Compliance ( http://arxiv.org/abs/2406.14758v1 ) ライセンス: Link先を確認 | Bill Marino, Preslav Aleksandrov, Carwyn Rahman, Yulu Pi, Bill Shen, Rui-jie Yew, Nicholas D. Lane, | (参考訳) 人工知能(AI)サプライチェーンが複雑化するにつれ、AIシステムやモデルは、データセットやその他のモデルのような外部ソースの要素を組み込む傾向にある。
そのような場合、AIシステムまたはモデルがEUのAI法に準拠するか否かを判断するには、AIシステムまたはモデルに関するコンプライアンス関連メタデータと、外部から供給される材料の両方を収集する必要がある。
そうすれば、すべてのメタデータを解析して、AIシステムまたはモデル全体のコンプライアンスに関する予測をレンダリングしなければなりません。
これまでのところ、このプロセスは自動化されていない。
したがって、今日のAI開発者の反復ワークフロー、Hugging FaceのようなコミュニティでのAI成分の検索と取得、フェデレーションと継続的学習など、そうするシナリオでリアルタイムのコンプライアンス決定を行うことはできない。
この欠点に対処するために、AI Actコンプライアンス分析のための高度に自動化されたシステムを導入する。
このシステムには2つの重要な要素がある。
1つは、(1)AIシステムまたはモデルat-large、(2)データセットやモデルなどの構成成分の両方に関するコンプライアンス関連メタデータをキャプチャする計算アーティファクトのインターロックセットである。
第二に、AIシステム全体やモデルがAI法に準拠しているかどうかをリアルタイムに予測する自動分析アルゴリズムである。
協力することで、これらの要素はAI Actコンプライアンスアセスメントを強化し、加速する。
As the artificial intelligence (AI) supply chain grows more complex, AI systems and models are increasingly likely to incorporate externally-sourced ingredients such as datasets and other models. In such cases, determining whether or not an AI system or model complies with the EU AI Act will require gathering compliance-related metadata about both the AI system or model at-large as well as those externally-supplied ingredients. There must then be an analysis that looks across all of this metadata to render a prediction about the compliance of the overall AI system or model. Up until now, this process has not been automated. Thus, it has not been possible to make real-time compliance determinations in scenarios where doing so would be advantageous, such as the iterative workflows of today's AI developers, search and acquisition of AI ingredients on communities like Hugging Face, federated and continuous learning, and more. To address this shortcoming, we introduce a highly automated system for AI Act compliance analysis. This system has two key elements. First is an interlocking set of computational artifacts that capture compliance-related metadata about both: (1) the AI system or model at-large; (2) any constituent ingredients such as datasets and models. Second is an automated analysis algorithm that operates across those computational artifacts to render a run-time prediction about whether or not the overall AI system or model complies with the AI Act. Working together, these elements promise to enhance and accelerate AI Act compliance assessments. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 量子エラー除去のためのパウリチェック外挿法
Pauli Check Extrapolation for Quantum Error Mitigation ( http://arxiv.org/abs/2406.14759v1 ) ライセンス: Link先を確認 | Quinn Langfitt, Ji Liu, Benchen Huang, Alvin Gonzales, Kaitlin N. Smith, Nikos Hardavellas, Zain H. Saleem, | (参考訳) Pauli Check Sandwiching (PCS) は、ペイロード回路のエラーを検出するためにパリティチェックのペアを使用するエラー軽減スキームである。
チェックペアの数を増やすことでエラー検出が向上する一方で、回路にノイズを追加し、必要なサンプリングサイズを指数関数的に増加させる。
これらの制約に対処するため,ZNE(Zero-Noise Extrapolation)に似た外挿技術とPCSを統合した新しい誤り除去手法であるPauli Check Extrapolation (PCE)を提案する。
しかし、ZNE で行われているような 'ゼロノイズ' の極限を外挿する代わりに、PCE は '最大チェック' の極限に外挿する。
本研究では,外挿に線形モデルを適用することに集中し,マルコフ誤差モデルに基づくより一般的な指数アンザッツを導出する。
本稿では,特に変分量子固有解法(VQE)によって調製された状態に対して,影推定プロトコルにおける誤差を軽減するためにPCEの有効性を示す。
本手法は, キャリブレーション処理を不要にすることで, 必要なサンプル数を大幅に削減しつつ, 最先端のロバストシャドウ (RS) 推定法よりも高い忠実性を実現することができることを示す。
完全に接続されたトポロジとシミュレーションされたIBMハードウェアバックエンドの両方でこれらの結果を検証する。
Pauli Check Sandwiching (PCS) is an error mitigation scheme that uses pairs of parity checks to detect errors in the payload circuit. While increasing the number of check pairs improves error detection, it also introduces additional noise to the circuit and exponentially increases the required sampling size. To address these limitations, we propose a novel error mitigation scheme, Pauli Check Extrapolation (PCE), which integrates PCS with an extrapolation technique similar to Zero-Noise Extrapolation (ZNE). However, instead of extrapolating to the `zero-noise' limit, as is done in ZNE, PCE extrapolates to the `maximum check' limit--the number of check pairs theoretically required to achieve unit fidelity. In this study, we focus on applying a linear model for extrapolation and also derive a more general exponential ansatz based on the Markovian error model. We demonstrate the effectiveness of PCE by using it to mitigate errors in the shadow estimation protocol, particularly for states prepared by the variational quantum eigensolver (VQE). Our results show that this method can achieve higher fidelities than the state-of-the-art Robust Shadow (RS) estimation scheme, while significantly reducing the number of required samples by eliminating the need for a calibration procedure. We validate these findings on both fully-connected topologies and simulated IBM hardware backends. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 対話構築性評価のためのLLM特徴量に基づくフレームワーク
An LLM Feature-based Framework for Dialogue Constructiveness Assessment ( http://arxiv.org/abs/2406.14760v1 ) ライセンス: Link先を確認 | Lexin Zhou, Youmna Farag, Andreas Vlachos, | (参考訳) 対話構築性評価に関する研究
一 個人に特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げることに影響を及ぼす会話的要因の分析。
(二)そのような場合の対話による建設的な成果を予測すること。
これらの目的は、解釈可能な特徴ベースモデル(しばしば人為的アノテーションを含む)または事前訓練された言語モデルのようなニューラルモデルをトレーニングすることで達成できる。
本稿では,対話構築性の評価において,特徴ベースとニューラルアプローチの長所を両立させるとともに,その短所を緩和しつつ,特徴ベースとニューラルアプローチの長所を結合した新しいLLM特徴ベースフレームワークを提案する。
このフレームワークはまず、LLMと単純なヒューリスティックスの両方によって抽出できる、データセットに依存しない、解釈可能な言語特徴のセットを定義する。
このような機能は、LLM機能ベースのモデルをトレーニングするために使用される。
この枠組みを3つの対話構築性データセットに適用し、LLM特徴ベースモデルが標準特徴ベースモデルやニューラルモデルよりも大幅に優れており、表面的なショートカットに頼るのではなく、より堅牢な予測規則を学習する傾向がある(ニューラルモデルに見られるように)。
さらに、これらのLLM特徴量に基づくモデルを解釈することで、対話が構成的になるかどうかについての貴重な洞察が得られることを実証する。
Research on dialogue constructiveness assessment focuses on (i) analysing conversational factors that influence individuals to take specific actions, win debates, change their perspectives or broaden their open-mindedness and (ii) predicting constructive outcomes following dialogues for such use cases. These objectives can be achieved by training either interpretable feature-based models (which often involve costly human annotations) or neural models such as pre-trained language models (which have empirically shown higher task accuracy but lack interpretability). We propose a novel LLM feature-based framework that combines the strengths of feature-based and neural approaches while mitigating their downsides, in assessing dialogue constructiveness. The framework first defines a set of dataset-independent and interpretable linguistic features, which can be extracted by both prompting an LLM and simple heuristics. Such features are then used to train LLM feature-based models. We apply this framework to three datasets of dialogue constructiveness and find that our LLM feature-based models significantly outperform standard feature-based models and neural models, and tend to learn more robust prediction rules instead of relying on superficial shortcuts (as seen with neural models). Further, we demonstrate that interpreting these LLM feature-based models can yield valuable insights into what makes a dialogue constructive. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 拡散型サイバー物理システムの故障サンプリング
Diffusion-Based Failure Sampling for Cyber-Physical Systems ( http://arxiv.org/abs/2406.14761v1 ) ライセンス: Link先を確認 | Harrison Delecki, Marc R. Schlichting, Mansur Arief, Anthony Corso, Marcell Vazquez-Chanlatte, Mykel J. Kochenderfer, | (参考訳) ロボット工学のような高次元領域における安全クリティカルな自律システムの検証は重要な課題である。
マルコフ連鎖に基づく既存のブラックボックスアプローチは膨大な数のサンプルを必要とするが、重要サンプリングに基づく手法は、しばしば障害の分布を表すのに苦労する単純なパラメトリックな族に依存している。
本稿では,ロボットタスク計画のような複雑な高次元問題に成功している条件付きデノナイジング拡散モデルを用いて,障害の分布をサンプル化する。
我々は拡散モデルを反復的に訓練し、障害に近い状態軌道を生成する。
提案手法は高次元ロボット検証作業における有効性を示し,既存のブラックボックス技術と比較して試料効率とモードカバレッジを改善した。
Validating safety-critical autonomous systems in high-dimensional domains such as robotics presents a significant challenge. Existing black-box approaches based on Markov chain Monte Carlo may require an enormous number of samples, while methods based on importance sampling often rely on simple parametric families that may struggle to represent the distribution over failures. We propose to sample the distribution over failures using a conditional denoising diffusion model, which has shown success in complex high-dimensional problems such as robotic task planning. We iteratively train a diffusion model to produce state trajectories closer to failure. We demonstrate the effectiveness of our approach on high-dimensional robotic validation tasks, improving sample efficiency and mode coverage compared to existing black-box techniques. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 1段階不対画像変換のための正規分布マッチング蒸留法
Regularized Distribution Matching Distillation for One-step Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2406.14762v1 ) ライセンス: Link先を確認 | Denis Rakitin, Ivan Shchekotov, Dmitry Vetrov, | (参考訳) 拡散蒸留法は, 拡散モデルを効率の良い1段階生成器に圧縮し, 品質を保とうとするものである。
その中でも、DMD(Distributed Matching Distillation)は、非条件生成を越えて適用可能な、汎用的なワンステップジェネレータのトレーニングに適したフレームワークを提供する。
本研究は, 正規化分布マッチング蒸留法 (Regularized Distribution Matching Distillation) と呼ばれる, 未ペア画像対画像 (I2I) 問題に適用可能な修正法を提案する。
画像データセット間の2次元例とI2Iを含む複数の翻訳タスクに適用した経験的性能を示す。
Diffusion distillation methods aim to compress the diffusion models into efficient one-step generators while trying to preserve quality. Among them, Distribution Matching Distillation (DMD) offers a suitable framework for training general-form one-step generators, applicable beyond unconditional generation. In this work, we introduce its modification, called Regularized Distribution Matching Distillation, applicable to unpaired image-to-image (I2I) problems. We demonstrate its empirical performance in application to several translation tasks, including 2D examples and I2I between different image datasets, where it performs on par or better than multi-step diffusion baselines. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 知識ベース質問応答の一般化に向けての学習理論モデル
A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering ( http://arxiv.org/abs/2406.14763v1 ) ライセンス: Link先を確認 | Lingxi Zhang, Jing Zhang, Yanling Wang, Cuiping Li, Hong Chen, | (参考訳) FreebaseやWikidataのような大規模知識ベース(KB)には、数百万の構造化知識がある。
Knowledge Base Question Answering (KBQA)は、自然言語の質問を通じて、これらの貴重なKBにアクセスするためのユーザフレンドリな方法を提供する。
KBQAモデルの一般化能力を向上するために、論理式生成に関する適切な証拠を取得するための検索・推論フレームワークが広く研究されている。
これらの多段階的な取り組みは、外部ソースの取得を優先するが、モデルパラメータに新しい知識が組み込まれていることを見落としている。
事実上、高度な言語モデルや検索者でさえ知識境界を持ち、従来のKBQAモデルの一般化能力を制限している。
そこで本研究では,KBLLaMAを開発した。KBLLaMAは,新たなKB知識を言語モデルに注入し,フレキシブルなエンドツーエンドKBQAを実現するためのフレームワークである。
KBLLaMAのコアでは,(1)KBQAに関する新しい知識を整理する方法,(2)組織化された知識の学習を促進する方法について検討する。
KBQAの一般化タスクに関する大規模な実験は、KBLLaMAの最先端性能を示している。
特に一般的なベンチマークであるGrailQAとドメイン固有のベンチマークであるBio-chemicalでは、KBLLaMAはベースラインと比較して最大3.8%と9.8%のパフォーマンス向上を導出している。
Large-scale knowledge bases (KBs) like Freebase and Wikidata house millions of structured knowledge. Knowledge Base Question Answering (KBQA) provides a user-friendly way to access these valuable KBs via asking natural language questions. In order to improve the generalization capabilities of KBQA models, extensive research has embraced a retrieve-then-reason framework to retrieve relevant evidence for logical expression generation. These multi-stage efforts prioritize acquiring external sources but overlook the incorporation of new knowledge into their model parameters. In effect, even advanced language models and retrievers have knowledge boundaries, thereby limiting the generalization capabilities of previous KBQA models. Therefore, this paper develops KBLLaMA, which follows a learn-then-reason framework to inject new KB knowledge into a large language model for flexible end-to-end KBQA. At the core of KBLLaMA, we study (1) how to organize new knowledge about KBQA and (2) how to facilitate the learning of the organized knowledge. Extensive experiments on various KBQA generalization tasks showcase the state-of-the-art performance of KBLLaMA. Especially on the general benchmark GrailQA and domain-specific benchmark Bio-chemical, KBLLaMA respectively derives a performance gain of up to 3.8% and 9.8% compared to the baselines. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# RE-AdaptIR:リバースエンジニアリング適応による情報検索の改善
RE-AdaptIR: Improving Information Retrieval through Reverse Engineered Adaptation ( http://arxiv.org/abs/2406.14764v1 ) ライセンス: Link先を確認 | William Fleshman, Benjamin Van Durme, | (参考訳) テキスト検索のために微調整された大規模言語モデル(LLM)は、いくつかの情報検索(IR)ベンチマークで最先端の結果を示している。
しかし、これらのモデルを改善するための教師付きトレーニングには、多くのラベル付きサンプルが必要である。
本研究では,情報検索(RE-AdaptIR)におけるリバースエンジニアリング適応の有効性について検討する。
我々は RE-AdaptIR を用いてラベルなしデータのみを用いて LLM ベースの IR モデルを改善する。
トレーニングドメインとゼロショットの両方で、モデルがクエリを含まないドメインで、パフォーマンスが改善されたことを実証する。
各種微調整シナリオのパフォーマンス変化を分析し,実践者に即時使用の知見を提供する。
Large language models (LLMs) fine-tuned for text-retrieval have demonstrated state-of-the-art results across several information retrieval (IR) benchmarks. However, supervised training for improving these models requires numerous labeled examples, which are generally unavailable or expensive to acquire. In this work, we explore the effectiveness of extending reverse engineered adaptation to the context of information retrieval (RE-AdaptIR). We use RE-AdaptIR to improve LLM-based IR models using only unlabeled data. We demonstrate improved performance both in training domains as well as zero-shot in domains where the models have seen no queries. We analyze performance changes in various fine-tuning scenarios and offer findings of immediate use to practitioners. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 研究者としてのChatGPT : GPTの図書館員・研究倫理学者・データ生成者・データ予測者としての能力を探る
ChatGPT as Research Scientist: Probing GPT's Capabilities as a Research Librarian, Research Ethicist, Data Generator and Data Predictor ( http://arxiv.org/abs/2406.14765v1 ) ライセンス: Link先を確認 | Steven A. Lehr, Aylin Caliskan, Suneragiri Liyanage, Mahzarin R. Banaji, | (参考訳) 研究者にとってChatGPTはどんなに良いのか?
GPT-3.5 と GPT-4 は,研究司書,研究倫理学者,データ生成者,新奇データ予測者として,心理学を試験分野として利用し,科学的プロセスの4つの中心的な構成要素にまたがる能力を体系的に調査した。
研究1 (Research Librarian) では、人間の研究者とは異なり、GPT-3.5 と GPT-4 は、それぞれ36.0%と5.4%の確率で架空の参照を生成する。
研究2 (Research Ethicist) では、GPT-4 (GPT-3.5ではないが) は、架空の研究プロトコルにおけるpハックのような違反を検知し、88.6%の粗末に提示された問題を修正し、72.6%の微妙に提示された問題を修正した。
研究3(データジェネレータ)では、両モデルが大きな言語コーパスで発見された文化バイアスのパターンを一貫して再現し、ChatGPTが既知の結果をシミュレートできることを示す。
対照的に、Studio 4(Novel Data Predictor)では、どちらのモデルもトレーニングデータに欠けている新しい結果を予測することに成功しなかった。
これらの結果は、GPTは欠陥はあるものの急速に改善したライブラリリアンであり、すでに十分な研究倫理学者であり、既知の特徴を持つ単純なドメインでデータを生成することができるが、将来の実験に役立つ実験データの新しいパターンを予測できないことを示唆している。
How good a research scientist is ChatGPT? We systematically probed the capabilities of GPT-3.5 and GPT-4 across four central components of the scientific process: as a Research Librarian, Research Ethicist, Data Generator, and Novel Data Predictor, using psychological science as a testing field. In Study 1 (Research Librarian), unlike human researchers, GPT-3.5 and GPT-4 hallucinated, authoritatively generating fictional references 36.0% and 5.4% of the time, respectively, although GPT-4 exhibited an evolving capacity to acknowledge its fictions. In Study 2 (Research Ethicist), GPT-4 (though not GPT-3.5) proved capable of detecting violations like p-hacking in fictional research protocols, correcting 88.6% of blatantly presented issues, and 72.6% of subtly presented issues. In Study 3 (Data Generator), both models consistently replicated patterns of cultural bias previously discovered in large language corpora, indicating that ChatGPT can simulate known results, an antecedent to usefulness for both data generation and skills like hypothesis generation. Contrastingly, in Study 4 (Novel Data Predictor), neither model was successful at predicting new results absent in their training data, and neither appeared to leverage substantially new information when predicting more versus less novel outcomes. Together, these results suggest that GPT is a flawed but rapidly improving librarian, a decent research ethicist already, capable of data generation in simple domains with known characteristics but poor at predicting novel patterns of empirical data to aid future experimentation. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 自由空間における安全な量子通信のための大気乱流予測
Predicting atmospheric turbulence for secure quantum communications in free space ( http://arxiv.org/abs/2406.14768v1 ) ライセンス: Link先を確認 | Tareq Jaouni, Lukas Scarfe, Frédéric Bouchard, Mario Krenn, Khabat Heshami, Francesco Di Colandrea, Ebrahim Karimi, | (参考訳) 大気の乱流は、大規模自由空間量子通信ネットワークの主要な障壁である。
収差は光情報キャリアを歪ませ、それによって両者間の安全なリンクを確立する可能性を制限または防止する。
そのため,光チャネル内の乱流強度を予測できることが望ましい。
ここでは、自由空間チャネル内の乱流強度を予測するために、リカレントニューラルネットワーク(TAROCCO)を訓練する。
この訓練は、オタワ市を横断する5.4kmの都市内自由空間リンクのために9ヶ月以上にわたって収集された気象と乱流のデータに基づいている。
異なる乱流状態における光の軌道角運動量状態に基づいて, シミュレーションされた高次元量子鍵分布プロトコルにおいて, ネットワークからの正確な予測がもたらす影響を実証した。
TAROCCOは、実際の実験シナリオにおけるセキュアな通信のために鍵交換を最適にルーティングするために、自由空間チャネルを検証する上で重要である。
Atmospheric turbulence is the main barrier to large-scale free-space quantum communication networks. Aberrations distort optical information carriers, thus limiting or preventing the possibility of establishing a secure link between two parties. For this reason, forecasting the turbulence strength within an optical channel is highly desirable, as it allows for knowing the optimal timing to establish a secure link in advance. Here, we train a Recurrent Neural Network, TAROCCO, to predict the turbulence strength within a free-space channel. The training is based on weather and turbulence data collected over 9 months for a 5.4 km intra-city free-space link across the City of Ottawa. The implications of accurate predictions from our network are demonstrated in a simulated high-dimensional Quantum Key Distribution protocol based on orbital angular momentum states of light across different turbulence regimes. TAROCCO will be crucial in validating a free-space channel to optimally route the key exchange for secure communications in real experimental scenarios. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# AIはいかに重要か? 生成的人工知能の思考品質を評価するためのフレームワーク
How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence ( http://arxiv.org/abs/2406.14769v1 ) ライセンス: Link先を確認 | Luke Zaphir, Jason M. Lodge, Jacinta Lisec, Dom McGrath, Hassan Khosravi, | (参考訳) 大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。
近年の技術発展により、認知能力のシミュレーションの観点から、生成AIの限界と能力を知る必要がある。
学生の批判的思考スキルを評価することは、不記憶な時間に対する評価の特徴であるが、デジタルアセスメントの要求は、エクイティ、学術的完全性、評価オーサシップに固有の課題を生み出している。
教育者は、アセスメント設計の実践を伝えるために、ジェネレーティブAIに対するアセスメントの脆弱性を決定するためのフレームワークが必要である。
本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。
本稿では,質問のマッピング,AI脆弱性テスト,グラディング,評価(MAGE)フレームワークを提案する。
この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。
これにより、タスクに対するアセスメント設計の基礎を形成することができます。
Generative AI such as those with large language models have created opportunities for innovative assessment design practices. Due to recent technological developments, there is a need to know the limits and capabilities of generative AI in terms of simulating cognitive skills. Assessing student critical thinking skills has been a feature of assessment for time immemorial, but the demands of digital assessment create unique challenges for equity, academic integrity and assessment authorship. Educators need a framework for determining their assessments vulnerability to generative AI to inform assessment design practices. This paper presents a framework that explores the capabilities of the LLM ChatGPT4 application, which is the current industry benchmark. This paper presents the Mapping of questions, AI vulnerability testing, Grading, Evaluation (MAGE) framework to methodically critique their assessments within their own disciplinary contexts. This critique will provide specific and targeted indications of their questions vulnerabilities in terms of the critical thinking skills. This can go on to form the basis of assessment design for their tasks. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 異種差分プライバシーを有する多層ネットワークにおける一貫性コミュニティ検出
Consistent community detection in multi-layer networks with heterogeneous differential privacy ( http://arxiv.org/abs/2406.14772v1 ) ライセンス: Link先を確認 | Yaoming Zhen, Shirong Xu, Junhui Wang, | (参考訳) ネットワークデータがますます普及するにつれて、ネットワークデータを公開する際のプライバシー問題にかなりの注意が払われている。
データパブリッシャにとって重要な課題の1つは、機密情報を保護しながら、元のネットワークのトポロジ的構造を保存することである。
本稿では,各ノードのプライバシの嗜好に基づいて,データパブリッシャがエッジ情報を保護できるような,パーソナライズされたエッジフリップ機構を提案する。
多層補正確率ブロックモデルに基づくコミュニティ構造を適切にデバイアスした後に保存しながら、差分プライバシーを実現することができるため、民営化された多層ネットワークにおける一貫したコミュニティ検出が実現可能である。
理論的には、民営化された多層ネットワークにおけるコミュニティ検出の整合性を確立し、エッジの適切なプライバシ保護がノードの割合で得られ、他のノードがプライバシを放棄できることを示す。
さらに, 提案手法の利点は, 各種合成ネットワークおよび実生活多層ネットワーク上での数値的性能に支えられている。
As network data has become increasingly prevalent, a substantial amount of attention has been paid to the privacy issue in publishing network data. One of the critical challenges for data publishers is to preserve the topological structures of the original network while protecting sensitive information. In this paper, we propose a personalized edge flipping mechanism that allows data publishers to protect edge information based on each node's privacy preference. It can achieve differential privacy while preserving the community structure under the multi-layer degree-corrected stochastic block model after appropriately debiasing, and thus consistent community detection in the privatized multi-layer networks is achievable. Theoretically, we establish the consistency of community detection in the privatized multi-layer network and show that better privacy protection of edges can be obtained for a proportion of nodes while allowing other nodes to give up their privacy. Furthermore, the advantage of the proposed personalized edge-flipping mechanism is also supported by its numerical performance on various synthetic networks and a real-life multi-layer network. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# 純合成データを用いた検索拡張世代(RAG)のプライバシ問題
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data ( http://arxiv.org/abs/2406.14773v1 ) ライセンス: Link先を確認 | Shenglai Zeng, Jiankun Zhang, Pengfei He, Jie Ren, Tianqi Zheng, Hanqing Lu, Han Xu, Hui Liu, Yue Xing, Jiliang Tang, | (参考訳) Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
しかし、検索プロセスがプライベートデータを含む場合、RAGシステムは深刻なプライバシーリスクに直面し、機密情報の漏洩につながる可能性がある。
この問題に対処するために,検索データのプライバシ保存代替として合成データを用いることを提案する。
本稿では,新たな2段階合成データ生成パラダイムであるSAGEを提案する。
ステージ1では,属性に基づく抽出・生成手法を用いて,重要なコンテキスト情報を元のデータから保存する。
ステージ2では,エージェントベースの反復精製プロセスにより,合成データのプライバシー特性をさらに向上する。
総合的な実験により、我々の合成データを検索コンテキストとして使用することで、元のデータと同等の性能を達成し、プライバシーリスクを著しく低減することを示した。
本研究は,RAGのための高ユーティリティ・プライバシ保護型合成データ生成の可能性を検討するための第一歩として,RAGシステムの安全適用に向けた新たな機会を各領域に開放する。
Retrieval-augmented generation (RAG) enhances the outputs of language models by integrating relevant information retrieved from external knowledge sources. However, when the retrieval process involves private data, RAG systems may face severe privacy risks, potentially leading to the leakage of sensitive information. To address this issue, we propose using synthetic data as a privacy-preserving alternative for the retrieval data. We propose SAGE, a novel two-stage synthetic data generation paradigm. In the stage-1, we employ an attribute-based extraction and generation approach to preserve key contextual information from the original data. In the stage-2, we further enhance the privacy properties of the synthetic data through an agent-based iterative refinement process. Extensive experiments demonstrate that using our synthetic data as the retrieval context achieves comparable performance to using the original data while substantially reducing privacy risks. Our work takes the first step towards investigating the possibility of generating high-utility and privacy-preserving synthetic data for RAG, opening up new opportunities for the safe application of RAG systems in various domains. | 翻訳日:2024-06-24 15:22:05 公開日:2024-06-20 |
# テキスト・画像モデルにおける数値推論の評価
Evaluating Numerical Reasoning in Text-to-Image Models ( http://arxiv.org/abs/2406.14774v1 ) ライセンス: Link先を確認 | Ivana Kajić, Olivia Wiles, Isabela Albuquerque, Matthias Bauer, Su Wang, Jordi Pont-Tuset, Aida Nematzadeh, | (参考訳) テキスト・ツー・イメージ生成モデルは、しばしば自然言語を用いて記述された概念を忠実に描写する高品質な画像を作成することができる。
本研究では,難易度が異なる数値推論課題におけるテキスト・ツー・イメージ・モデルの範囲を包括的に評価し,最も先進的なモデルでも初歩的な数値スキルしか持たないことを示す。
具体的には、画像中の正確なオブジェクト数を正確に生成する能力は、少数の数に限られており、その数項が現れるコンテキストに大きく依存しており、各連続する数で急速に劣化する。
また、モデルが言語量化子(「数」や「数」など)の理解が乏しいこと、ゼロの概念、部分量や分数表現といったより高度な概念に苦慮していることも示している。
数値推論評価のための新しいベンチマークであるGeckoNumにプロンプト、生成された画像、人間のアノテーションをバンドルする。
Text-to-image generative models are capable of producing high-quality images that often faithfully depict concepts described using natural language. In this work, we comprehensively evaluate a range of text-to-image models on numerical reasoning tasks of varying difficulty, and show that even the most advanced models have only rudimentary numerical skills. Specifically, their ability to correctly generate an exact number of objects in an image is limited to small numbers, it is highly dependent on the context the number term appears in, and it deteriorates quickly with each successive number. We also demonstrate that models have poor understanding of linguistic quantifiers (such as "a few" or "as many as"), the concept of zero, and struggle with more advanced concepts such as partial quantities and fractional representations. We bundle prompts, generated images and human annotations into GeckoNum, a novel benchmark for evaluation of numerical reasoning. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# 非局所重力波伝播の機械学習グローバルシミュレーション
Machine Learning Global Simulation of Nonlocal Gravity Wave Propagation ( http://arxiv.org/abs/2406.14775v1 ) ライセンス: Link先を確認 | Aman Gupta, Aditi Sheshadri, Sujit Roy, Vishal Gaur, Manil Maskey, Rahul Ramachandran, | (参考訳) 温暖化モデルは通常、数百kmのグリッド解像度で運用され、大気中規模過程、例えば雲、降水、重力波(GW)の解決に失敗する。
これらのプロセスとそのソースのモデル表現は、地球循環と惑星エネルギー予算にとって不可欠であるが、これらのプロセスからのサブグリッドスケールの貢献は、パラメータ化を用いたモデルでのみ表される。
これらのパラメータ化は近似と理想化の対象となるため、その能力と精度は制限される。
これらの近似の最も劇的な例は「単一カラム近似」であり、これはこれらの過程の水平な進化を完全に無視し、現在の気候モデルにおいて重要なバイアスをもたらす。
我々は,大気中のGWエミュレーションをエミュレートするために,WINDSETデータセットを用いた機械学習(ML)モデルを用いて,大気中のGWフラックスのグローバルシミュレーションを行った。
グローバルに解決されたGW運動量フラックスをトレーニングした注意U-Netアーキテクチャを用いて,データ駆動型スキームを用いたGWのシミュレーションにおいて,グローバルな非局所性の重要性と有効性を示す。
Global climate models typically operate at a grid resolution of hundreds of kilometers and fail to resolve atmospheric mesoscale processes, e.g., clouds, precipitation, and gravity waves (GWs). Model representation of these processes and their sources is essential to the global circulation and planetary energy budget, but subgrid scale contributions from these processes are often only approximately represented in models using parameterizations. These parameterizations are subject to approximations and idealizations, which limit their capability and accuracy. The most drastic of these approximations is the "single-column approximation" which completely neglects the horizontal evolution of these processes, resulting in key biases in current climate models. With a focus on atmospheric GWs, we present the first-ever global simulation of atmospheric GW fluxes using machine learning (ML) models trained on the WINDSET dataset to emulate global GW emulation in the atmosphere, as an alternative to traditional single-column parameterizations. Using an Attention U-Net-based architecture trained on globally resolved GW momentum fluxes, we illustrate the importance and effectiveness of global nonlocality, when simulating GWs using data-driven schemes. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# カバーする学習: 不可能な決定によるオンライン学習と最適化
Learning to Cover: Online Learning and Optimization with Irreversible Decisions ( http://arxiv.org/abs/2406.14777v1 ) ライセンス: Link先を確認 | Alexandre Jacquillat, Michael Lingzhi Li, | (参考訳) 我々は、カバー範囲の目標に寄与する不可逆的な決定を伴うオンライン学習と最適化の問題を定義する。
各期間に、意思決定者は、オープンする施設を選択し、それぞれの成功に関する情報を受け取り、将来の決定を導くために機械学習モデルを更新する。
目標は、カバーターゲットを反映するチャンス制約の下で、有限地平線を越えたコストを最小限にすることである。
我々は、最適なアルゴリズムと漸近的な状態における厳密な下界を導出し、多数の施設を対象とする$m\to\infty$を特徴付けるが、有限地平線$T\in\mathbb{Z}_+$を導出する。
後悔は$\Theta\left(m^{\frac{1}{2}\cdot\frac{1}{1-2^{-T}}}\right)$で半直線的に成長し、指数的に$\Theta(\sqrt{m})$に収束する。
我々は、この結果の堅牢性を学習環境に確立し、また、顧客カバレッジを目標とした、二部構成の施設-顧客グラフにおける、より複雑な施設配置にまで拡張する。
建設的証明は、最初は学習目的のために限られた探索を特徴とする政策を特定し、後に不確実性が緩和されたときに最適化目的のために高速な搾取を行う。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
We define an online learning and optimization problem with irreversible decisions contributing toward a coverage target. At each period, a decision-maker selects facilities to open, receives information on the success of each one, and updates a machine learning model to guide future decisions. The goal is to minimize costs across a finite horizon under a chance constraint reflecting the coverage target. We derive an optimal algorithm and a tight lower bound in an asymptotic regime characterized by a large target number of facilities $m\to\infty$ but a finite horizon $T\in\mathbb{Z}_+$. We find that the regret grows sub-linearly at a rate $\Theta\left(m^{\frac{1}{2}\cdot\frac{1}{1-2^{-T}}}\right)$, thus converging exponentially fast to $\Theta(\sqrt{m})$. We establish the robustness of this result to the learning environment; we also extend it to a more complicated facility location setting in a bipartite facility-customer graph with a target on customer coverage. Throughout, constructive proofs identify a policy featuring limited exploration initially for learning purposes, and fast exploitation later on for optimization purposes once uncertainty gets mitigated. These findings underscore the benefits of limited online learning and optimization, in that even a few rounds can provide significant benefits as compared to a no-learning baseline. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# ディープラーニング学習による自動計画における目標選択の学習
Learning to Select Goals in Automated Planning with Deep-Q Learning ( http://arxiv.org/abs/2406.14779v1 ) ライセンス: Link先を確認 | Carlos Núñez-Molina, Juan Fernández-Olivares, Raúl Pérez, | (参考訳) 本研究では,Deep Q-Learning を用いたサブゴール選択の学習を行うモジュールを組み込んだ計画と実行アーキテクチャを提案する。
これにより、リアルタイムな制約のあるシナリオに直面した場合、プランナーの負荷を削減できます。
我々は、このアーキテクチャをインテリジェントなシステムアプリケーションのための標準的なテストベッドとして使用したビデオゲーム環境でトレーニングし、その一般化能力を評価するために、同じゲームの異なるレベルでテストした。
我々は、より多くのトレーニングデータが利用可能になるにつれて、我々のアプローチのパフォーマンスを測定し、最先端の古典的プランナーと標準のDeep Q-Learningアルゴリズムを比較した。
その結果,計画品質(計画期間)と時間要件の両方を考慮すると,提案モデルが検討した代替手法よりも優れた性能を示した。
一方、Dep Q-Learningよりもサンプル効率が高く、レベルをまたいだ一般化が可能である。
一方、最先端の自動化プランナーと比較した場合の問題解決時間を短縮し、わずか9%のアクションしか持たないプランの取得を犠牲にしている。
In this work we propose a planning and acting architecture endowed with a module which learns to select subgoals with Deep Q-Learning. This allows us to decrease the load of a planner when faced with scenarios with real-time restrictions. We have trained this architecture on a video game environment used as a standard test-bed for intelligent systems applications, testing it on different levels of the same game to evaluate its generalization abilities. We have measured the performance of our approach as more training data is made available, as well as compared it with both a state-of-the-art, classical planner and the standard Deep Q-Learning algorithm. The results obtained show our model performs better than the alternative methods considered, when both plan quality (plan length) and time requirements are taken into account. On the one hand, it is more sample-efficient than standard Deep Q-Learning, and it is able to generalize better across levels. On the other hand, it reduces problem-solving time when compared with a state-of-the-art automated planner, at the expense of obtaining plans with only 9% more actions. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# ACR: 自動コホート検索のためのベンチマーク
ACR: A Benchmark for Automatic Cohort Retrieval ( http://arxiv.org/abs/2406.14780v1 ) ライセンス: Link先を確認 | Dung Ngoc Thai, Victor Ardulov, Jose Ulises Mena, Simran Tiwari, Gleb Erofeev, Ramy Eskander, Karim Tarabishy, Ravi B Parikh, Wael Salloum, | (参考訳) 患者コホートを同定することは、臨床試験の募集や振り返り研究など、多くの医療課題に欠かせない。
医療機関における現在のコホート検索手法は、構造化されたデータの自動クエリと手作業によるキュレーションに頼っている。
大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。
主な課題は、広範囲にわたる適格基準の管理と、非構造化電子医療記録(EMR)の経時的性質の扱い、そして、このソリューションが現実世界の応用に費用対効果を保っていることを保証することである。
本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
ベンチマークタスク、クエリデータセット、EMRデータセット、評価フレームワークを提供する。
以上の結果から,広範囲な患者データベースを縦断推論できる,効率的で高品質なACRシステムの必要性が浮き彫りになった。
Identifying patient cohorts is fundamental to numerous healthcare tasks, including clinical trial recruitment and retrospective studies. Current cohort retrieval methods in healthcare organizations rely on automated queries of structured data combined with manual curation, which are time-consuming, labor-intensive, and often yield low-quality results. Recent advancements in large language models (LLMs) and information retrieval (IR) offer promising avenues to revolutionize these systems. Major challenges include managing extensive eligibility criteria and handling the longitudinal nature of unstructured Electronic Medical Records (EMRs) while ensuring that the solution remains cost-effective for real-world application. This paper introduces a new task, Automatic Cohort Retrieval (ACR), and evaluates the performance of LLMs and commercial, domain-specific neuro-symbolic approaches. We provide a benchmark task, a query dataset, an EMR dataset, and an evaluation framework. Our findings underscore the necessity for efficient, high-quality ACR systems capable of longitudinal reasoning across extensive patient databases. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# RAGEloによるRAG融合の評価 - 自動エロベースフレームワーク
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework ( http://arxiv.org/abs/2406.14783v1 ) ライセンス: Link先を確認 | Zackary Rackauckas, Arthur Câmara, Jakub Zavrel, | (参考訳) Retrieval-Augmented Generation (RAG) Question-Answering (QA)システムの自動評価における課題は、ドメイン固有知識における幻覚問題や、企業内業務におけるゴールドスタンダードベンチマークの欠如である。
これにより、Infineon Technologiesの製品QAタスクのコンテキストにおいてRAG-Fusion(RAGF)のようなRAG変動を評価するのが困難になる。
これらの問題を解決するために,Large Language Models (LLMs) を用いて,実際のユーザクエリとドメイン内ドキュメントに基づく大規模な合成クエリのデータセットを生成し,LLM-as-a-judgeを用いて検索した文書と回答を評価し,回答の質を評価し,RAGEloの自動エロベースコンペティションを備えた検索語拡張生成(RAG)エージェントのさまざまなバリエーションをランク付けする総合評価フレームワークを提案する。
LLM-as-a-judge rating of a random sample of synthetic query shows a moderate, positive correlation with domain expert score inlevance, accuracy, completeness and precision。
RAGFはEloスコアにおいてRAGよりも優れていたが、専門家のアノテーションに対する意味分析ではRAGFはRAGの完全性では著しく優れていたが、精度では劣ることが示された。
さらに、InfineonのRAGFアシスタントは、MRR@5スコアに基づいて、文書関連性において若干高いパフォーマンスを示した。
RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
最後に、RAGFのアプローチは、専門家のアノテーションに基づくより完全な回答と、RAGEloの評価基準に基づく全体的なより良い回答をもたらす。
Challenges in the automated evaluation of Retrieval-Augmented Generation (RAG) Question-Answering (QA) systems include hallucination problems in domain-specific knowledge and the lack of gold standard benchmarks for company internal tasks. This results in difficulties in evaluating RAG variations, like RAG-Fusion (RAGF), in the context of a product QA task at Infineon Technologies. To solve these problems, we propose a comprehensive evaluation framework, which leverages Large Language Models (LLMs) to generate large datasets of synthetic queries based on real user queries and in-domain documents, uses LLM-as-a-judge to rate retrieved documents and answers, evaluates the quality of answers, and ranks different variants of Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based competition. LLM-as-a-judge rating of a random sample of synthetic queries shows a moderate, positive correlation with domain expert scoring in relevance, accuracy, completeness, and precision. While RAGF outperformed RAG in Elo score, a significance analysis against expert annotations also shows that RAGF significantly outperforms RAG in completeness, but underperforms in precision. In addition, Infineon's RAGF assistant demonstrated slightly higher performance in document relevance based on MRR@5 scores. We find that RAGElo positively aligns with the preferences of human annotators, though due caution is still required. Finally, RAGF's approach leads to more complete answers based on expert annotations and better answers overall based on RAGElo's evaluation criteria. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# 公平で安定したオンラインアロケーションのためのアクティブラーニング
Active Learning for Fair and Stable Online Allocations ( http://arxiv.org/abs/2406.14784v1 ) ライセンス: Link先を確認 | Riddhiman Bhattacharya, Thanh Nguyen, Will Wei Sun, Mohit Tawarmalani, | (参考訳) 本研究では,動的フェアリソース割り当て問題に対するアクティブな学習手法について検討する。
割り当てに関するすべてのエージェントからの完全なフィードバックを仮定する以前の作業とは異なり、オンラインリソース割り当てプロセスの各エポックにおいて、特定のエージェントのサブセットからのフィードバックを検討する。
この制限にもかかわらず,提案アルゴリズムは資源配分問題によく用いられる公平度測定値やマッチング機構の安定性考慮値など,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。
我々のアルゴリズムの重要な洞察は、最上位と下位の信頼境界を用いた最も情報性の高いフィードバックを適応的に識別することにある。
この戦略により、効率的な意思決定は広範囲なフィードバックを必要としず、様々な問題クラスに対して効率的な結果をもたらすことが示される。
We explore an active learning approach for dynamic fair resource allocation problems. Unlike previous work that assumes full feedback from all agents on their allocations, we consider feedback from a select subset of agents at each epoch of the online resource allocation process. Despite this restriction, our proposed algorithms provide regret bounds that are sub-linear in number of time-periods for various measures that include fairness metrics commonly used in resource allocation problems and stability considerations in matching mechanisms. The key insight of our algorithms lies in adaptively identifying the most informative feedback using dueling upper and lower confidence bounds. With this strategy, we show that efficient decision-making does not require extensive feedback and produces efficient outcomes for a variety of problem classes. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# ファクチュアル知識抽出のためのファクチュニングの理解
Understanding Finetuning for Factual Knowledge Extraction ( http://arxiv.org/abs/2406.14785v1 ) ライセンス: Link先を確認 | Gaurav Ghosal, Tatsunori Hashimoto, Aditi Raghunathan, | (参考訳) 本研究では,QA微調整データが下流の事実性に与える影響について検討する。
本研究は,事前学習中に不備な既知事実の微調整は,事前学習中にすべての事実が見られた場合でも,既知事実の微調整よりもはるかに悪い事実性を示すものであることを示す。
この現象を理論的に証明し、あまり知られていない事実をトレーニングすることで、モデルが対象のエンティティ名を無視し、関連する事実知識がモデルにエンコードされている場合でも、汎用可能な応答を出力できることを示す。
3つの質問応答ベンチマーク (PopQA, Entity Questions, MMLU) と2つの言語モデル (Llama-2-7B, Mistral-7B) について
i) 完全に事実的だがあまり知られていないデータのサブセットの微調整は、下流の事実性(5-10%)を悪化させ、
(ii) よりよく知られた例のサブセットの微調整は、データセット全体の精細化と一致し、または性能が良くなる。
最終的に,本研究の結果は,事前学習された知識と微調整データの相互作用に光を当て,知識集約的なタスクを微調整する場合に,その事実が事前学習されたモデルにどのように格納されているかを考慮することが重要であることを示した。
In this work, we study the impact of QA fine-tuning data on downstream factuality. We show that fine-tuning on lesser-known facts that are poorly stored during pretraining yields significantly worse factuality than fine-tuning on well-known facts, even when all facts are seen during pretraining. We prove this phenomenon theoretically, showing that training on lesser-known facts can lead the model to ignore subject entity names and instead output a generic plausible response even when the relevant factual knowledge is encoded in the model. On three question answering benchmarks (PopQA, Entity Questions, and MMLU) and two language models (Llama-2-7B and Mistral-7B), we find that (i) finetuning on a completely factual but lesser-known subset of the data deteriorates downstream factuality (5-10%) and (ii) finetuning on a subset of better-known examples matches or outperforms finetuning on the entire dataset. Ultimately, our results shed light on the interaction between pretrained knowledge and finetuning data and demonstrate the importance of taking into account how facts are stored in the pretrained model when fine-tuning for knowledge-intensive tasks. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# 解釈可能なベイズニューラルネットワークを用いたグラフ構造学習
Graph Structure Learning with Interpretable Bayesian Neural Networks ( http://arxiv.org/abs/2406.14786v1 ) ライセンス: Link先を確認 | Max Wasserman, Gonzalo Mateos, | (参考訳) グラフは、基礎となるデータリレーショナル構造をエンコードするための一般的なツールとして機能する。
しばしばこのグラフは与えられず、結節観察からこのグラフを推測する作業が重要となる。
従来のアプローチでは、凸逆問題を滑らか性促進目的で定式化し、解を得るために反復的な方法に依存する。
グラフラベルが利用可能な教師付き設定では、これらのイテレーションをエンドツーエンドにトレーニングされたディープネットワークにアンロールして切り離すことができる。
このようなネットワークはパラメータ効率が高く、最適化の定式化から帰納的バイアスを継承する。
しかし、一般的にそのような設定は、単に点推定だけでなく、エッジ予測に対する不確実性にも等しく気を配ります。
ここでは、独立に解釈可能なパラメータを持つ新しい反復、すなわち、他のパラメータの設定に依存しない値がエッジ空間のような推定グラフの特性に比例するパラメータを導入する。
これらの反復を解いた後、これらのグラフ特性に関する事前知識は、独立に解釈可能なネットワークパラメータに事前分布を形成し、滑らかな信号観測からグラフ構造学習(GSL)が可能なベイズニューラルネットワーク(BNN)を生成する。
高速な実行とパラメータ効率により、マルコフ・チェイン・モンテカルロ(MCMC)による高忠実な後続近似が可能となり、したがってエッジ予測の不確実な定量化が可能になる。
合成および実データ実験は、S$$&$P$500$のデータから経済セクターのモジュラー構造を明らかにし、MNIST画像からペア桁の類似性を回復するテストケースにおいて、不確実性に関するよく校正された見積もりを提供するこのモデルの能力を裏付けるものである。
全体として、このフレームワークは、データ構造に不確実性が最重要であるような、控えめなスケールのアプリケーションでGSLを可能にする。
Graphs serve as generic tools to encode the underlying relational structure of data. Often this graph is not given, and so the task of inferring it from nodal observations becomes important. Traditional approaches formulate a convex inverse problem with a smoothness promoting objective and rely on iterative methods to obtain a solution. In supervised settings where graph labels are available, one can unroll and truncate these iterations into a deep network that is trained end-to-end. Such a network is parameter efficient and inherits inductive bias from the optimization formulation, an appealing aspect for data constrained settings in, e.g., medicine, finance, and the natural sciences. But typically such settings care equally about uncertainty over edge predictions, not just point estimates. Here we introduce novel iterations with independently interpretable parameters, i.e., parameters whose values - independent of other parameters' settings - proportionally influence characteristics of the estimated graph, such as edge sparsity. After unrolling these iterations, prior knowledge over such graph characteristics shape prior distributions over these independently interpretable network parameters to yield a Bayesian neural network (BNN) capable of graph structure learning (GSL) from smooth signal observations. Fast execution and parameter efficiency allow for high-fidelity posterior approximation via Markov Chain Monte Carlo (MCMC) and thus uncertainty quantification on edge predictions. Synthetic and real data experiments corroborate this model's ability to provide well-calibrated estimates of uncertainty, in test cases that include unveiling economic sector modular structure from S$\&$P$500$ data and recovering pairwise digit similarities from MNIST images. Overall, this framework enables GSL in modest-scale applications where uncertainty on the data structure is paramount. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# Qrisp: ゲートベースの量子コンピュータのコンパイル可能な高レベルプログラミングフレームワーク
Qrisp: A Framework for Compilable High-Level Programming of Gate-Based Quantum Computers ( http://arxiv.org/abs/2406.14792v1 ) ライセンス: Link先を確認 | Raphael Seidel, Sebastian Bock, René Zander, Matic Petrič, Niklas Steinmann, Nikolay Tcholtchev, Manfred Hauswirth, | (参考訳) 量子コンピューティングのハードウェア面では大きな進歩があったが、古典的なプログラミング言語と比較して、ハイレベルな量子プログラミングの抽象化のサポートは未開発のままである。
本稿では,最先端のソフトウェアエンジニアリングにおけるハイレベルプログラミングパラダイムと,今日の量子ハードウェアの物理的現実とのギャップを埋めるために設計されたフレームワークであるQrispを紹介する。
このフレームワークは、量子アルゴリズム開発に対する体系的なアプローチを提供することを目標としている。
古典的パラダイムにインスパイアされたプログラミングの抽象化をいくつか提案するが、量子開発者の特定のニーズに一貫して焦点を当てる。
他の高レベルの言語アプローチとは異なり、Qrispの特長は、プログラムを回路レベルまでコンパイルできることであり、既存の物理バックエンドで実行可能であることである。
導入された抽象化により、Qrispコンパイラはアルゴリズム構造を利用してコンパイル効率を向上させることができる。
最後に、Shorのファクタリングアルゴリズムの実装を含む一連のコード例を示す。
後者の場合、結果として得られる回路は、量子リソースの要求を著しく減らし、体系的な量子アルゴリズム開発が定量的に利益をもたらすという主張を強く支持する。
While significant progress has been made on the hardware side of quantum computing, support for high-level quantum programming abstractions remains underdeveloped compared to classical programming languages. In this article, we introduce Qrisp, a framework designed to bridge several gaps between high-level programming paradigms in state-of-the-art software engineering and the physical reality of today's quantum hardware. The framework aims to provide a systematic approach to quantum algorithm development such that they can be effortlessly implemented, maintained and improved. We propose a number of programming abstractions that are inspired by classical paradigms, yet consistently focus on the particular needs of a quantum developer. Unlike many other high-level language approaches, Qrisp's standout feature is its ability to compile programs to the circuit level, making them executable on most existing physical backends. The introduced abstractions enable the Qrisp compiler to leverage algorithm structure for increased compilation efficiency. Finally, we present a set of code examples, including an implementation of Shor's factoring algorithm. For the latter, the resulting circuit shows significantly reduced quantum resource requirements, strongly supporting the claim that systematic quantum algorithm development can give quantitative benefits. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# ImageFlowNet:不規則にサンプリングされた縦断的医用画像による疾患進行のマルチスケール軌跡の予測
ImageFlowNet: Forecasting Multiscale Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images ( http://arxiv.org/abs/2406.14794v1 ) ライセンス: Link先を確認 | Chen Liu, Ke Xu, Liangbo L. Shen, Guillaume Huguet, Zilong Wang, Alexander Tong, Danilo Bzdok, Jay Stewart, Jay C. Wang, Lucian V. Del Priore, Smita Krishnaswamy, | (参考訳) 画像から病気の進行を予測することは、臨床的意思決定の聖杯である。
しかし, この課題は, 高次元性, 時空間性, サンプリング不規則性により複雑である。
既存の手法では、しばしば手作りの特徴を抽出し、このベクトル空間で時系列解析を行うことで、画像内の豊富な空間情報が失われる。
これらの課題を克服するために、我々は、ニューラルネットワークとSDEを用いて共同埋め込み空間におけるマルチスケール表現を進化させ、画像領域における病気の進行をモデル化する、潜時空間流れ場を学習する新しいフレームワークであるImageFlowNetを紹介した。
特に、ImageFlowNetは、患者のコホートを組み合わせて、患者サンプル間で情報を伝達できるように、マルチスケールの関節表現空間を学習する。
ダイナミクスはその後、進行のもっともらしい軌跡を提供し、SDEは同じ出発点から別の軌跡を提供する。
我々は、ODEの定式化を支援し、高レベルの視覚的特徴、潜在空間の組織、軌道の滑らかさを含む正規化を動機付ける理論的洞察を提供する。
次に、網膜の地理的萎縮、多発性硬化症、グリオ芽腫の進行を示す3つの縦断的医用画像データセットを用いて、画像FlowNetの有効性を実証的に評価した。
The forecasting of disease progression from images is a holy grail for clinical decision making. However, this task is complicated by the inherent high dimensionality, temporal sparsity and sampling irregularity in longitudinal image acquisitions. Existing methods often rely on extracting hand-crafted features and performing time-series analysis in this vector space, leading to a loss of rich spatial information within the images. To overcome these challenges, we introduce ImageFlowNet, a novel framework that learns latent-space flow fields that evolve multiscale representations in joint embedding spaces using neural ODEs and SDEs to model disease progression in the image domain. Notably, ImageFlowNet learns multiscale joint representation spaces by combining cohorts of patients together so that information can be transferred between the patient samples. The dynamics then provide plausible trajectories of progression, with the SDE providing alternative trajectories from the same starting point. We provide theoretical insights that support our formulation of ODEs, and motivate our regularizations involving high-level visual features, latent space organization, and trajectory smoothness. We then demonstrate ImageFlowNet's effectiveness through empirical evaluations on three longitudinal medical image datasets depicting progression in retinal geographic atrophy, multiple sclerosis, and glioblastoma. | 翻訳日:2024-06-24 15:12:21 公開日:2024-06-20 |
# Younger: 人工知能生成ニューラルネットワークアーキテクチャのための最初のデータセット
Younger: The First Dataset for Artificial Intelligence-Generated Neural Network Architecture ( http://arxiv.org/abs/2406.15132v1 ) ライセンス: Link先を確認 | Zhengxin Yang, Wanling Gao, Luzhou Peng, Yunyou Huang, Fei Tang, Jianfeng Zhan, | (参考訳) ニューラルネットワークアーキテクチャの設計と最適化には,手作業による設計から手作業や自動修正に至るまで,広範な専門知識が必要となるのが一般的だ。
この依存関係は、急速なイノベーションに重大な障壁をもたらします。
ニューラルネットワークアーキテクチャをスクラッチから自動生成する複雑性を認識し、この野心的な目標を達成するための先駆的なデータセットであるYoungerを紹介します。
様々なパブリックモデルハブから30以上のタスクにまたがる174K以上の実世界モデルから派生したYoungerは、7,629のユニークなアーキテクチャを備えており、それぞれが詳細な演算子レベルの情報を持つ有向非巡回グラフとして表現されている。
データセットは、スクラッチから完全なアーキテクチャを作成するためのグローバルな設計パラダイムと、詳細なアーキテクチャコンポーネントの洗練のためのローカルという、2つの主要な設計パラダイムを促進する。
これらの能力を確立することで、Youngerは新しいフロンティアであるAIGNNA(Artificial Intelligence-Generated Neural Network Architecture)に貢献する。
我々の実験は、自動アーキテクチャ生成におけるYoungerの可能性と有効性について検討し、二次的な利点として、Youngerがベンチマークデータセットとして機能し、グラフニューラルネットワークの開発を進展させることを実証する。
データセットとコードを公開して、参入障壁を低くし、この困難な領域におけるさらなる研究を奨励します。
Designing and optimizing neural network architectures typically requires extensive expertise, starting with handcrafted designs and then manual or automated refinement. This dependency presents a significant barrier to rapid innovation. Recognizing the complexity of automatically generating neural network architecture from scratch, we introduce Younger, a pioneering dataset to advance this ambitious goal. Derived from over 174K real-world models across more than 30 tasks from various public model hubs, Younger includes 7,629 unique architectures, and each is represented as a directed acyclic graph with detailed operator-level information. The dataset facilitates two primary design paradigms: global, for creating complete architectures from scratch, and local, for detailed architecture component refinement. By establishing these capabilities, Younger contributes to a new frontier, Artificial Intelligence-Generated Neural Network Architecture (AIGNNA). Our experiments explore the potential and effectiveness of Younger for automated architecture generation and, as a secondary benefit, demonstrate that Younger can serve as a benchmark dataset, advancing the development of graph neural networks. We release the dataset and code publicly to lower the entry barriers and encourage further research in this challenging area. | 翻訳日:2024-06-24 13:32:37 公開日:2024-06-20 |
# 自動音楽書き起こしにおける機械学習技術 : システム的調査
Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey ( http://arxiv.org/abs/2406.15249v1 ) ライセンス: Link先を確認 | Fatemeh Jamshidi, Gary Pike, Amit Das, Richard Chapman, | (参考訳) 音楽情報検索 (MIR) の分野では、音声信号を音符や楽譜などの記号表記に変換することを目的として、AMT (Automatic Music Transcription) が中心的な課題として浮上している。
この体系的なレビューは、音楽ハーモニーの複雑なスペクトル構造と重なり合うため、AMTが音楽信号解析において重要な役割を担っていることを強調している。
AMTで使用されている既存の機械学習技術の徹底的な検証を通じて、現在のモデルと方法論の進歩と制約について検討する。
顕著な進歩にもかかわらず、ATTシステムはまだ人間の専門家の精度と一致していない。
本稿では,完全自動・半自動AMTシステムについて批判的に評価し,ユーザ介入の最小化の重要性を強調し,これまで提案されてきた様々な手法について検討する。
従来の手法の限界に対処し,改善の道筋を提案することにより,複雑な音声信号を正確な記号表現に正確かつ効率的に翻訳できる完全自動化ATTシステムに向けた今後の研究を推し進めることが目的である。
この研究は、最新の進歩を合成するだけでなく、ATTの既存の課題を克服するためのロードマップも作成し、現在のシステムと人間レベルの転写精度のギャップを狭めることを目的とした研究者の貴重な洞察を提供する。
In the domain of Music Information Retrieval (MIR), Automatic Music Transcription (AMT) emerges as a central challenge, aiming to convert audio signals into symbolic notations like musical notes or sheet music. This systematic review accentuates the pivotal role of AMT in music signal analysis, emphasizing its importance due to the intricate and overlapping spectral structure of musical harmonies. Through a thorough examination of existing machine learning techniques utilized in AMT, we explore the progress and constraints of current models and methodologies. Despite notable advancements, AMT systems have yet to match the accuracy of human experts, largely due to the complexities of musical harmonies and the need for nuanced interpretation. This review critically evaluates both fully automatic and semi-automatic AMT systems, emphasizing the importance of minimal user intervention and examining various methodologies proposed to date. By addressing the limitations of prior techniques and suggesting avenues for improvement, our objective is to steer future research towards fully automated AMT systems capable of accurately and efficiently translating intricate audio signals into precise symbolic representations. This study not only synthesizes the latest advancements but also lays out a road-map for overcoming existing challenges in AMT, providing valuable insights for researchers aiming to narrow the gap between current systems and human-level transcription accuracy. | 翻訳日:2024-06-24 13:03:22 公開日:2024-06-20 |
# クライアントシミュレーションによるLCMセラピストのクライアント中心評価に向けて
Towards a Client-Centered Assessment of LLM Therapists by Client Simulation ( http://arxiv.org/abs/2406.12266v2 ) ライセンス: Link先を確認 | Jiashuo Wang, Yang Xiao, Yanran Li, Changhe Song, Chunpu Xu, Chenhao Tan, Wenjie Li, | (参考訳) LLMをセラピストとして使用できるという信念が高まりつつあるが、特にクライアントの観点から、LSMの能力や非効率性を探求することは限られている。
本研究は,臨床医学教育における標準的アプローチであるシミュレート・クライアントの関与によるLLMセラピストのクライアント中心評価に焦点を当てた。
しかし、LLMセラピストを大規模に評価するためにアプローチを適用する際には、2つの課題がある。
倫理的には、人間に頻繁にクライアントを模倣させ、潜在的に有害なLCM出力に晒すことは危険であり、安全ではない。
技術的には、同一クライアントと相互作用する異なるLLMセラピストのパフォーマンスを一貫して比較することは困難である。
この目的のために、クライアントをシミュレートするためにLLMを採用し、クライアントシミュレーションによりLLMセラピストを評価するクライアント中心のアプローチであるClientCASTを提案する。
具体的には、シミュレートされたクライアントを用いて、LSMセラピストと相互作用し、その相互作用に関する完全なアンケートを行う。
質問紙調査の結果から, LLMセラピストは, セッションアウトカム, セラピーアライアンス, 自己報告感情の3つの側面から評価した。
ClientCAST の信頼性を検証し,Claude-3, GPT-3.5, LLaMA3-70B, Mixtral 8*7B による LLM セラピストの評価を行う。
コードはhttps://github.com/wangjs9/ClientCASTで公開されている。
Although there is a growing belief that LLMs can be used as therapists, exploring LLMs' capabilities and inefficacy, particularly from the client's perspective, is limited. This work focuses on a client-centered assessment of LLM therapists with the involvement of simulated clients, a standard approach in clinical medical education. However, there are two challenges when applying the approach to assess LLM therapists at scale. Ethically, asking humans to frequently mimic clients and exposing them to potentially harmful LLM outputs can be risky and unsafe. Technically, it can be difficult to consistently compare the performances of different LLM therapists interacting with the same client. To this end, we adopt LLMs to simulate clients and propose ClientCAST, a client-centered approach to assessing LLM therapists by client simulation. Specifically, the simulated client is utilized to interact with LLM therapists and complete questionnaires related to the interaction. Based on the questionnaire results, we assess LLM therapists from three client-centered aspects: session outcome, therapeutic alliance, and self-reported feelings. We conduct experiments to examine the reliability of ClientCAST and use it to evaluate LLMs therapists implemented by Claude-3, GPT-3.5, LLaMA3-70B, and Mixtral 8*7B. Codes are released at https://github.com/wangjs9/ClientCAST. | 翻訳日:2024-06-24 12:24:18 公開日:2024-06-20 |
# 非凸最適化のための適応勾配法の収束性について
On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization ( http://arxiv.org/abs/1808.05671v4 ) ライセンス: Link先を確認 | Dongruo Zhou, Jinghui Chen, Yuan Cao, Ziyan Yang, Quanquan Gu, | (参考訳) 適応勾配法は、ディープラーニングにおけるワークホースである。
しかし、非凸最適化のための適応勾配法の収束保証は十分に研究されていない。
本稿では, AMSGrad, RMSProp, AdaGrad を含む適応勾配法の一般クラスに対して, 微細収束解析を行う。
滑らかな非凸関数に対しては、期待値の適応勾配法が一階定常点に収束することを証明する。
我々の収束率は、次元の観点からの適応的勾配法に対する既存の結果よりも優れている。
さらに, AMSGrad, RMSProp, AdaGrad の収束速度と, これまでに確立されていない AdaGrad の収束率に高い確率境界を証明した。
本分析では,非凸目標の最適化における適応勾配法の背後にあるメカニズムの理解を深めた。
Adaptive gradient methods are workhorses in deep learning. However, the convergence guarantees of adaptive gradient methods for nonconvex optimization have not been thoroughly studied. In this paper, we provide a fine-grained convergence analysis for a general class of adaptive gradient methods including AMSGrad, RMSProp and AdaGrad. For smooth nonconvex functions, we prove that adaptive gradient methods in expectation converge to a first-order stationary point. Our convergence rate is better than existing results for adaptive gradient methods in terms of dimension. In addition, we also prove high probability bounds on the convergence rates of AMSGrad, RMSProp as well as AdaGrad, which have not been established before. Our analyses shed light on better understanding the mechanism behind adaptive gradient methods in optimizing nonconvex objectives. | 翻訳日:2024-06-23 17:53:14 公開日:2024-06-20 |
# NMSに代わる決定点プロセス
Determinantal Point Process as an alternative to NMS ( http://arxiv.org/abs/2008.11451v2 ) ライセンス: Link先を確認 | Samik Some, Mithun Das Gupta, Vinay P. Namboodiri, | (参考訳) 我々は、非最大抑圧(NMS)に代わるDPP(Determinantal point process)を考案し、すべての最先端オブジェクト検出フレームワークにおいて不可欠なステップとなった。
DPPはサブセット選択問題の多様性を促進することが示されている。
我々はNMSをサブセット選択問題とし、DPPライクなフレームワークを直接組み込むことでオブジェクト検出システム全体の性能を向上させることができると仮定する。
我々はNMSと同一の入力を持つ最適化問題を提案するが、新しいサブモジュラリティに基づく多様なサブセット選択関数を導入する。
本報告では, 最新のオブジェクト検出パイプラインに一貫した改良が期待できることを示す。
We present a determinantal point process (DPP) inspired alternative to non-maximum suppression (NMS) which has become an integral step in all state-of-the-art object detection frameworks. DPPs have been shown to encourage diversity in subset selection problems. We pose NMS as a subset selection problem and posit that directly incorporating DPP like framework can improve the overall performance of the object detection system. We propose an optimization problem which takes the same inputs as NMS, but introduces a novel sub-modularity based diverse subset selection functional. Our results strongly indicate that the modifications proposed in this paper can provide consistent improvements to state-of-the-art object detection pipelines. | 翻訳日:2024-06-23 17:53:14 公開日:2024-06-20 |
# 混合状態の速度歪理論
Rate-Distortion Theory for Mixed States ( http://arxiv.org/abs/2208.11698v3 ) ライセンス: Link先を確認 | Zahra Baghali Khanian, Kohdai Kuroiwa, Debbie Leung, | (参考訳) 本論文は,混合量子状態のアンサンブルの独立および同一分布コピーを漸近的に多数有する量子データ圧縮に関するものである。
エンコーダは、サイド情報システムにアクセスする。
メリットの数字は、コピー単位またはローカルエラー基準である。
速度歪理論は圧縮率とコピー毎の誤差の間のトレードオフを研究する。
最適トレードオフは、ある歪みが与えられたときの最良の速度である速度歪み関数によって特徴づけられる。
本稿では混合状態圧縮の速度歪み関数を導出する。
エンタングルメント支援シナリオと無支援シナリオにおけるレート歪み関数はそれぞれ、シングルレターの相互情報量と、精製の正規化エンタングルメントである。
通信と絡み合いの両方の消費を考慮した一般的な設定では、全量子絡み合い領域を示す。
我々の圧縮方式は、側情報システムの構造に依存して、視覚的および可視的な圧縮モデル(およびその中間の他のモデル)の両方をカバーする。
This paper is concerned with quantum data compression of asymptotically many independent and identically distributed copies of ensembles of mixed quantum states. The encoder has access to a side information system. The figure of merit is per-copy or local error criterion. Rate-distortion theory studies the trade-off between the compression rate and the per-copy error. The optimal trade-off can be characterized by the rate-distortion function, which is the best rate given a certain distortion. In this paper, we derive the rate-distortion function of mixed-state compression. The rate-distortion functions in the entanglement-assisted and unassisted scenarios are in terms of a single-letter mutual information quantity and the regularized entanglement of purification, respectively. For the general setting where the consumption of both communication and entanglement are considered, we present the full qubit-entanglement rate region. Our compression scheme covers both blind and visible compression models (and other models in between) depending on the structure of the side information system. | 翻訳日:2024-06-23 14:05:12 公開日:2024-06-20 |
# 時間作用素の実証的妥当性は、ハミルトニアン生成翻訳に正則に共役する
Empirical adequacy of the time operator canonically conjugate to a Hamiltonian generating translations ( http://arxiv.org/abs/2204.01426v4 ) ライセンス: Link先を確認 | Ovidiu Cristinel Stoica, | (参考訳) 正準共役時間作用素を認めるためには、ハミルトニアンは(運動量作用素が空間で変換を生成するような)変換の生成元でなければならないので、そのスペクトルは非有界でなければならない。
しかし、我々の世界を支配するハミルトン人は下から境界づけられていると考えられている。
また、標準模型の体数やパラメータから判断すると、ハミルトニアンはさらに複雑に思える。
本稿では、ハミルトン人が生成する翻訳によって支配される世界の例を示す。
それらは運動量作用素のように偏微分作用素として表すことができるが、他の可観測関数の関数で表すと、任意のレベルの複雑性を示すことができる。
例えば、標準的な理想測定を実現する量子世界、時計や自由質量のフェルミオンを含む任意の量子世界、時間ループのない決定論的時間反転力学系の量子表現、過去の状態に戻ることができない任意の量子世界などである。
このような世界は我々の世界と同じくらい洗練されたものだが、彼らは時間演算子を認めている。
私は、ハミルトニアンが非有界であるにもかかわらず、いかなる量子世界や古典世界よりも無限の負エネルギーに崩壊することはないことを示した。
同じヒルベルト空間次元の2つのそのような量子系は、観測可能量の物理的内容が非常に異なるとしてもユニタリ同値であるため、ヒルベルト宇宙基本論(HSF)と具体的な反例である。
オブザーバブルを考慮に入れれば、HSFの曖昧さとPage-Woottersフォーマリズムに起因するクロック曖昧さの問題も取り除かれる。
これらの結果は、量子力学の定式化における時空対称性の復元と、ページ・ウォッターの公式化のための追加の動機を与える。
To admit a canonically conjugate time operator, the Hamiltonian has to be a generator of translations (like the momentum operator generates translations in space), so its spectrum must be unbounded. But the Hamiltonian governing our world is thought to be bounded from below. Also, judging by the number of fields and parameters of the Standard Model, the Hamiltonian seems much more complicated. In this article I give examples of worlds governed by Hamiltonians generating translations. They can be expressed as a partial derivative operator just like the momentum operator, but when expressed in function of other observables they can exhibit any level of complexity. The examples include any quantum world realizing a standard ideal measurement, any quantum world containing a clock or a free massless fermion, the quantum representation of any deterministic time-reversible dynamical system without time loops, and any quantum world that cannot return to a past state. Such worlds are as sophisticated as our world, but they admit a time operator. I show that, despite having unbounded Hamiltonian, they do not decay to infinite negative energy any more than any quantum or classical world. Since two such quantum systems of the same Hilbert space dimension are unitarily equivalent even if the physical content of their observables is very different, they are concrete counterexamples to Hilbert Space Fundamentalism (HSF). Taking the observables into account removes the ambiguity of HSF and the clock ambiguity problem attributed to the Page-Wootters formalism, also caused by assuming HSF. These results provide additional motivations to restore the spacetime symmetry in the formulation of Quantum Mechanics and for the Page-Wootters formalism. | 翻訳日:2024-06-22 11:37:45 公開日:2024-06-20 |
# 70,000人のウェアラブルデータを用いた人間行動認識のための自己教師型学習
Self-supervised Learning for Human Activity Recognition Using 700,000 Person-days of Wearable Data ( http://arxiv.org/abs/2206.02909v3 ) ライセンス: Link先を確認 | Hang Yuan, Shing Chan, Andrew P. Creagh, Catherine Tong, Aidan Acquah, David A. Clifton, Aiden Doherty, | (参考訳) 人間の活動認識のためのディープラーニングの進歩は、大きなラベル付きデータセットが欠如しているため、比較的制限されている。
本研究では,英国・ビオバンクのアクティビティ・トラッカー・データセット上での自己教師型学習技術を活用した。
結果として得られたアクティビティ認識モデルは、7つのベンチマークデータセットで一貫して強力なベースラインを上回り、F1の相対的な改善は2.5%-100%(中間18.4%)であり、より小さなデータセットで発生した最大の改善である。
これまでの研究とは対照的に、我々の結果は外部データセット、デバイス、環境にまたがって一般化されている。
私たちのオープンソースモデルは、研究者や開発者がカスタマイズ可能で汎用的なアクティビティ分類器を高性能で構築するのに役立ちます。
Advances in deep learning for human activity recognition have been relatively limited due to the lack of large labelled datasets. In this study, we leverage self-supervised learning techniques on the UK-Biobank activity tracker dataset--the largest of its kind to date--containing more than 700,000 person-days of unlabelled wearable sensor data. Our resulting activity recognition model consistently outperformed strong baselines across seven benchmark datasets, with an F1 relative improvement of 2.5%-100% (median 18.4%), the largest improvements occurring in the smaller datasets. In contrast to previous studies, our results generalise across external datasets, devices, and environments. Our open-source model will help researchers and developers to build customisable and generalisable activity classifiers with high performance. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# プロセス完了前の因果順序の目撃重ね合わせ
Witnessing superpositions of causal orders before the process is completed ( http://arxiv.org/abs/2209.09172v3 ) ライセンス: Link先を確認 | Onur Pusuluk, Zafer Gedik, Vlatko Vedral, | (参考訳) この手紙で私たちが提起する質問は以下の通りである。 量子状態の1つの時点における最も一般的な表現は何か?
現在の定式化は、量子演算の順序が整合的に、あるいは非整合的に重なり合う状況に適応できるだろうか?
もしそうなら、ある時点における状態と、その前後の事象の順序の不確実性との関係はどうなるのか?
二状態ベクトル形式と擬似密度作用素の関係を確立するため、単時間擬似状態の概念を導入する。
単時間擬似状態のトモグラフィー構成は理想的あるいは弱い測定によって可能である。
弱測定から得られた固有スペクトルは、プロセスが完了する前に前および後における因果順序のコヒーレントな重ね合わせと非コヒーレントな重ね合わせを区別することができることを示す。
最後に,既存のフォトニック・セットアップにおける実験的実現の可能性について論じる。
The questions we raise in this letter are as follows: What is the most general representation of a quantum state at a single point in time? Can we adapt the current formalisms to situations where the order of quantum operations is coherently or incoherently superposed? If so, what are the relations between the state at a given time and the uncertainty in the order of events before and after it? Establishing the relationship between two-state vector formalism and pseudo-density operators, we introduce the notion of a single-time pseudo-state. The tomographic construction of single-time pseudo-states is possible by ideal or weak measurements. We demonstrate that the eigenspectrum obtained from weak measurements enables us to discriminate between some coherent and incoherent superpositions of causal orders in pre- and post-selected systems before the process is completed. Finally, we discuss some possible experimental realizations in existing photonic setups. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# Wasserstein不確かさ下でのマルコフ決定過程のロバスト$Q$学習アルゴリズム
Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty ( http://arxiv.org/abs/2210.00898v3 ) ライセンス: Link先を確認 | Ariel Neufeld, Julian Sester, | (参考訳) 本稿では,マルコフ決定過程の遷移確率のあいまいさの集合が,(おそらく推定される)参照測度を中心としたワッサーシュタイン球であるような分布的に堅牢なマルコフ決定問題の解法として,新しい$Q$-learningアルゴリズムを提案する。
提案アルゴリズムの収束性を証明し,提案アルゴリズムのトラクタビリティと,確率的最適制御問題の解法における分布ロバスト性,特に推定分布が実際に誤って特定された場合の利点の両方を実データを用いて示す。
We present a novel $Q$-learning algorithm tailored to solve distributionally robust Markov decision problems where the corresponding ambiguity set of transition probabilities for the underlying Markov decision process is a Wasserstein ball around a (possibly estimated) reference measure. We prove convergence of the presented algorithm and provide several examples also using real data to illustrate both the tractability of our algorithm as well as the benefits of considering distributional robustness when solving stochastic optimal control problems, in particular when the estimated distributions turn out to be misspecified in practice. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# 多視点データにおける欠落値の計算
Imputation of missing values in multi-view data ( http://arxiv.org/abs/2210.14484v4 ) ライセンス: Link先を確認 | Wouter van Loon, Marjolein Fokkema, Frank de Vos, Marisa Koini, Reinhold Schmidt, Mark de Rooij, | (参考訳) オブジェクトの集合が複数の異なる特徴集合(ビューと呼ばれる)によって記述されるデータは、マルチビューデータ(multi-view data)と呼ばれる。
マルチビューデータに欠落する値が発生した場合、ビュー内のすべての機能が同時に欠落する可能性がある。
これは、特に高次元と組み合わせることで、計算的に不可能な条件付き計算手法を適用することができる、非常に大量の欠落データをもたらす可能性がある。
しかし、マルチビュー構造は計算処理の複雑さと計算負荷を減らすために利用することができる。
多視点学習のための既存の累積ペナル化ロジスティック回帰(StaPLR)アルゴリズムに基づく新しい計算法を提案する。
マルチビューコンテキストに固有の計算問題に対処するために、次元還元空間で計算を実行する。
シミュレーションデータセットと実データアプリケーションにおいて,新しい計算手法の性能と既存計算アルゴリズムとの比較を行った。
その結果,新しい計算手法は計算コストをはるかに低く抑えることができ,計算不能な環境ではミスフォレストや予測平均マッチングといった先進的な計算アルゴリズムを用いることが可能であることがわかった。
Data for which a set of objects is described by multiple distinct feature sets (called views) is known as multi-view data. When missing values occur in multi-view data, all features in a view are likely to be missing simultaneously. This may lead to very large quantities of missing data which, especially when combined with high-dimensionality, can make the application of conditional imputation methods computationally infeasible. However, the multi-view structure could be leveraged to reduce the complexity and computational load of imputation. We introduce a new imputation method based on the existing stacked penalized logistic regression (StaPLR) algorithm for multi-view learning. It performs imputation in a dimension-reduced space to address computational challenges inherent to the multi-view context. We compare the performance of the new imputation method with several existing imputation algorithms in simulated data sets and a real data application. The results show that the new imputation method leads to competitive results at a much lower computational cost, and makes the use of advanced imputation algorithms such as missForest and predictive mean matching possible in settings where they would otherwise be computationally infeasible. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# EVEREST: 冗長な時空間トークンを除去した効率的なマスクビデオオートエンコーダ
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens ( http://arxiv.org/abs/2211.10636v6 ) ライセンス: Link先を確認 | Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang, | (参考訳) Masked Video Autoencoder (MVA) アプローチは、従来のビデオ表現学習法を著しく上回り、その可能性を実証している。
しかし、ランダムマスキング戦略によって非形式的トークンやフレームを予測する際に、計算量やメモリを無駄にしてしまう。
(例:16ノード以上、128 NVIDIA A100 GPU)。
この問題を解決するために,ビデオ中のパッチ間の不平等な情報密度を利用して,リッチなモーション特徴を含むトークンを発見し,事前学習と微調整の両方で非形式的なトークンを捨てる,驚くほど効率的な映像表現学習手法であるVERESTを提案する。
さらに,情報集約型フレーム選択戦略を提案し,最小冗長度で情報的および因果的フレームにフォーカスできるようにする。
提案手法は,MVAの計算とメモリ要求を大幅に低減し,マルチベンチマークと未計算のEgo4Dデータセットの計算およびメモリ重大ベースラインに匹敵する性能を保ちながら,1台のGPUで事前学習と微調整を可能にする。
ビデオ理解のさらなる研究の障壁を減らすことに、私たちの研究が貢献できることを願っています。
Masked Video Autoencoder (MVA) approaches have demonstrated their potential by significantly outperforming previous video representation learning methods. However, they waste an excessive amount of computations and memory in predicting uninformative tokens/frames due to random masking strategies. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose EVEREST, a surprisingly efficient MVA approach for video representation learning that finds tokens containing rich motion features and discards uninformative ones during both pre-training and fine-tuning. We further present an information-intensive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces the computation and memory requirements of MVA, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy baselines on multiple benchmarks and the uncurated Ego4D dataset. We hope that our work contributes to reducing the barrier to further research on video understanding. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# 量子ジャジンスキー等式の設定における射影仮説
Projection hypothesis in the setting for the quantum Jarzynski equality ( http://arxiv.org/abs/2212.07785v8 ) ライセンス: Link先を確認 | Eiji Konishi, | (参考訳) 射影量子計測は、現代の量子力学において理論的に受け入れられた過程である。
しかし、その射影仮説は実験的に確立された経験則として広く見なされている。
本稿では、投射量子測定における射影仮説のハミルトン過程の実現に関する以前の結果と、マクロ量子力学系の質量中心の軌道可観測物の完全な集合を、相互に可換な古典的可観測物の集合に限定することと、イベント読取に必要な作業(すなわち、射影量子測定における情報的過程)に関する以前の結果を組み合わせる。
次に、これら2つの相互独立な量子計測理論結果を同時に試験するための量子熱力学スキームを提案する。
Projective quantum measurement is a theoretically accepted process in modern quantum mechanics. However, its projection hypothesis is widely regarded as an experimentally established empirical law. In this paper, we combine a previous result regarding the realization of a Hamiltonian process of the projection hypothesis in projective quantum measurement, where the complete set of the orbital observables of the center of mass of a macroscopic quantum mechanical system is restricted to a set of mutually commuting classical observables, and a previous result regarding the work required for an event reading (i.e., the informatical process in projective quantum measurement). Then, a quantum thermodynamic scheme is proposed for experimentally testing these two mutually independent theoretical results of projective quantum measurement simultaneously. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# 対称性保存型2次リンドブラディアンとガウス状態における散逸駆動トポロジー遷移
Symmetry-Preserving Quadratic Lindbladian and Dissipation Driven Topological Transitions in Gaussian States ( http://arxiv.org/abs/2301.04345v2 ) ライセンス: Link先を確認 | Liang Mao, Fan Yang, Hui Zhai, | (参考訳) 開量子系の動的進化は密度行列のリンドブラッド方程式によって制御できる。
本稿では、そのモジュラーハミルトニアンの位相不変量により密度行列位相を特徴づける。
そのようなハミルトニアンの位相的分類はそれらの対称性類に依存するので、我々が取り組んだ主要な問題はリンドブラディアン作用素の要求を決定することである。
フェルミオンガウス状態とモジュラーハミルトニアンはフェルミオン作用素の集合の二次作用素である。
これらの条件が満たされると、モジュラーハミルトニアンの対称性クラスの非自明な位相分類とともに、時が進むにつれて位相遷移が起こる。
モジュラーハミルトニアンが U(1) 対称性を持つ AIII クラスと U(1) 対称性を持たない DIII クラスに属する散逸駆動位相遷移の2つの例を示す。
有限サイズのスケーリングにより、この密度行列トポロジー遷移は有限時間で起こることを示す。
この遷移の物理的シグネチャも提示する。
The dynamical evolution of an open quantum system can be governed by the Lindblad equation of the density matrix. In this paper, we propose to characterize the density matrix topology by the topological invariant of its modular Hamiltonian. Since the topological classification of such Hamiltonians depends on their symmetry classes, a primary issue we address is determining the requirement for the Lindbladian operators, under which the modular Hamiltonian can preserve its symmetry class during the dynamical evolution. We solve this problem for the fermionic Gaussian state and for the modular Hamiltonian being a quadratic operator of a set of fermionic operators. When these conditions are satisfied, along with a nontrivial topological classification of the symmetry class of the modular Hamiltonian, a topological transition can occur as time evolves. We present two examples of dissipation-driven topological transitions where the modular Hamiltonian lies in the AIII class with U(1) symmetry and the DIII class without U(1) symmetry. By a finite size scaling, we show that this density matrix topology transition occurs at a finite time. We also present the physical signature of this transition. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# 海洋モデルにおける適応的位置データ統合のための動的基底関数補間
Dynamic Basis Function Interpolation for Adaptive In Situ Data Integration in Ocean Modeling ( http://arxiv.org/abs/2301.05551v3 ) ライセンス: Link先を確認 | Derek DeSantis, Ayan Biswas, Earl Lawrence, Phillip Wolfram, | (参考訳) 本研究では,地球系モデル (ESMs) とIn situ buoy測定を組み合わせ,海洋温度予測の精度を向上させる手法を提案する。
この技術は、ESMで同定されたダイナミックス \textit{and} モードとブイ測定を用いて、季節性などの特徴を保存しながら精度を向上させる。
我々は,この手法を動的基底関数補間 (Dynamic Basis Function Interpolation) と呼び,グローバルドリフター・プログラムのインシチュ・オーシャンブイ・データセットを用いて,モデル・フォー・ジェネレーション・アクロス・オーシャン・コンポーネント (MPAS-O) による局所的な温度予測の誤差を補正する。
We propose a new method for combining in situ buoy measurements with Earth system models (ESMs) to improve the accuracy of temperature predictions in the ocean. The technique utilizes the dynamics \textit{and} modes identified in ESMs alongside buoy measurements to improve accuracy while preserving features such as seasonality. We use this technique, which we call Dynamic Basis Function Interpolation, to correct errors in localized temperature predictions made by the Model for Prediction Across Scales Ocean component (MPAS-O) with the Global Drifter Program's in situ ocean buoy dataset. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# 都市エアモビリティの既存交通システムへの統合のシミュレーション:調査
Simulating the Integration of Urban Air Mobility into Existing Transportation Systems: A Survey ( http://arxiv.org/abs/2301.12901v4 ) ライセンス: Link先を確認 | Xuan Jiang, Yuhan Tang, Junzhe Cao, Vishwanath Bulusu, Hao, Yang, Xin Peng, Yunhan Zheng, Jinhua Zhao, Raja Sengupta, | (参考訳) 都市エアモビリティ(UAM)は、都市部の交通に革命をもたらす可能性があり、渋滞を緩和し、アクセシビリティを向上させる新しい交通手段を提供する。
しかし、既存の交通システムへのUAMの統合は、交通の流れとキャパシティへの影響を十分に理解する必要がある複雑な作業である。
本稿では,大都市交通におけるUAM研究の現状をシミュレーション手法を用いて調査する。
我々は,既存の交通パターンや渋滞,安全分析やリスク評価,潜在的経済的・環境的利益,UAMと地上交通のための共有インフラとルートの開発など,都市交通システムへのUAM統合の鍵となる課題と機会を特定した。
また、UAMの潜在的なメリットとして、旅行時間の短縮や、未保存地域へのアクセシビリティ向上等について論じる。
本調査は,都市交通におけるUAM研究の現状をシミュレーションで概観し,今後の研究開発の要点を明らかにするものである。
Urban air mobility (UAM) has the potential to revolutionize transportation in metropolitan areas, providing a new mode of transportation that could alleviate congestion and improve accessibility. However, the integration of UAM into existing transportation systems is a complex task that requires a thorough understanding of its impact on traffic flow and capacity. In this paper, we conduct a survey to investigate the current state of research on UAM in metropolitan-scale traffic using simulation techniques. We identify key challenges and opportunities for the integration of UAM into urban transportation systems, including impacts on existing traffic patterns and congestion; safety analysis and risk assessment; potential economic and environmental benefits; and the development of shared infrastructure and routes for UAM and ground-based transportation. We also discuss the potential benefits of UAM, such as reduced travel times and improved accessibility for underserved areas. Our survey provides a comprehensive overview of the current state of research on UAM in metropolitan-scale traffic using simulation and highlights key areas for future research and development. | 翻訳日:2024-06-22 11:31:36 公開日:2024-06-20 |
# エントロピー規則化外勾配法による最適輸送の高速計算
Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods ( http://arxiv.org/abs/2301.13006v2 ) ライセンス: Link先を確認 | Gen Li, Yanxi Chen, Yu Huang, Yuejie Chi, H. Vincent Poor, Yuxin Chen, | (参考訳) 2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムのサブルーチンとして機能する。
本稿では,n$が関心の確率分布の次元を表す場合,$\widetilde{O}(n^2/\varepsilon)$を用いて,最適輸送を$\varepsilon$に加算精度で演算するスケーラブルな一階最適化法を開発する。
本アルゴリズムは,Sinkhorn や Greenkhorn などの古典的アルゴリズムと比較して,数値性能が良好でありながら,すべての一階法における最先端の計算保証を実現する。
アルゴリズム設計の根底には2つの重要な要素がある。
(a) 元の問題を確率分布上の双線型ミニマックス問題に変換すること。
(b) エントロピー正則化と適応学習率と合わせて、段階的なアイデアを活用して収束を加速する。
Efficient computation of the optimal transport distance between two distributions serves as an algorithm subroutine that empowers various applications. This paper develops a scalable first-order optimization-based method that computes optimal transport to within $\varepsilon$ additive accuracy with runtime $\widetilde{O}( n^2/\varepsilon)$, where $n$ denotes the dimension of the probability distributions of interest. Our algorithm achieves the state-of-the-art computational guarantees among all first-order methods, while exhibiting favorable numerical performance compared to classical algorithms like Sinkhorn and Greenkhorn. Underlying our algorithm designs are two key elements: (a) converting the original problem into a bilinear minimax problem over probability distributions; (b) exploiting the extragradient idea -- in conjunction with entropy regularization and adaptive learning rates -- to accelerate convergence. | 翻訳日:2024-06-22 09:10:16 公開日:2024-06-20 |
# TAP: ラベルなしモダリティからのクロスモーダルな知識伝達のための注意パッチ
TAP: The Attention Patch for Cross-Modal Knowledge Transfer from Unlabeled Modality ( http://arxiv.org/abs/2302.02224v3 ) ライセンス: Link先を確認 | Yinsong Wang, Shahin Shahrampour, | (参考訳) そこで本稿では,未ラベルの2次モーダルを用いて,教師あり学習の性能を高めることを目的とした,クロスモーダル学習の枠組みについて述べる。
情報推定の確率論的手法を用いて、二次モダリティに含まれる余分な情報をNadaraya-Watson(NW)カーネルレグレッションによって推定できることを示し、さらに、(線形変換の下で)カーネル化されたクロスアテンションモジュールとして表現することができる。
この表現は、ラベルなしのモダリティからデータレベルの知識を転送できるようにトレーニング可能な、シンプルなニューラルネットワークアドオンであるThe Attention Patch(TAP)の導入の基礎を成している。
我々は、実世界のデータセットを用いて広範な数値シミュレーションを行い、TAPが異なるドメインと異なるニューラルネットワークアーキテクチャ間の一般化において統計的に有意な改善を提供できることを示す。
This paper addresses a cross-modal learning framework, where the objective is to enhance the performance of supervised learning in the primary modality using an unlabeled, unpaired secondary modality. Taking a probabilistic approach for missing information estimation, we show that the extra information contained in the secondary modality can be estimated via Nadaraya-Watson (NW) kernel regression, which can further be expressed as a kernelized cross-attention module (under linear transformation). This expression lays the foundation for introducing The Attention Patch (TAP), a simple neural network add-on that can be trained to allow data-level knowledge transfer from the unlabeled modality. We provide extensive numerical simulations using real-world datasets to show that TAP can provide statistically significant improvement in generalization across different domains and different neural network architectures, making use of seemingly unusable unlabeled cross-modal data. | 翻訳日:2024-06-22 09:10:16 公開日:2024-06-20 |
# ノイズランダム量子回路における誤差緩和閾値
Error Mitigation Thresholds in Noisy Random Quantum Circuits ( http://arxiv.org/abs/2302.04278v3 ) ライセンス: Link先を確認 | Pradeep Niroula, Sarang Gopalakrishnan, Michael J. Gullans, | (参考訳) ノイズの多い短期量子シミュレーションから有用な情報を抽出するには、エラー軽減戦略が必要である。
これらの戦略の幅広いクラスは、ノイズ源の正確な評価に依存している。
ノイズが不完全である場合の確率的誤差キャンセルとテンソルネットワーク誤差軽減のロバスト性について検討する。
我々はImry-Maの議論に適応し、空間次元におけるランダムな空間的局所回路に対するこれらの誤差緩和手法のロバスト性におけるしきい値の存在を予測する。
対照的に、1次元の回路では、緩和は障害の特徴づけにおける不完全性に対して$\mathcal{O}(1)$の時間で失敗する。
その結果,誤差低減は十分な特性を有する雑音の実用的な方法であることがわかった。
我々は、量子計算の優位性、測定誘起相転移のフォールトトレラントプローブ、および短期デバイスにおける量子アルゴリズムのテストについて、さらなる含意について論じる。
Extracting useful information from noisy near-term quantum simulations requires error mitigation strategies. A broad class of these strategies rely on precise characterization of the noise source. \new{We study the robustness of probabilistic error cancellation and tensor network error mitigation when the noise is imperfectly characterized}. We adapt an Imry-Ma argument to predict the existence of a threshold in the robustness of these error mitigation methods for random spatially local circuits in spatial dimensions $D \geq 2$: noise characterization disorder below the threshold rate allows for error mitigation up to times that scale with the number of qubits. For one-dimensional circuits, by contrast, mitigation fails at an $\mathcal{O}(1)$ time for any imperfection in the characterization of disorder. As a result, error mitigation is only a practical method for sufficiently well-characterized noise. We discuss further implications for tests of quantum computational advantage, fault-tolerant probes of measurement-induced phase transitions, and quantum algorithms in near-term devices. | 翻訳日:2024-06-22 09:10:16 公開日:2024-06-20 |
# 望ましい物の集合の背後にある論理とそのフィルタ表現
The logic behind desirable sets of things, and its filter representation ( http://arxiv.org/abs/2302.08176v3 ) ライセンス: Link先を確認 | Gert de Cooman, Arthur Van Camp, Jasper De Bock, | (参考訳) 所望の(一組の)ギャンブルのコヒーレントな集合とコヒーレントな選択関数を一般化する、最近の望ましい(一組の)物事のコヒーレントな集合の理論の背後にある(フィルタの表現)論理を同定し、これらのコヒーレントなモデルに対して、より単純なものの観点から様々な表現結果を確立することができることを示す。
We identify the (filter representation of the) logic behind the recent theory of coherent sets of desirable (sets of) things, which generalise coherent sets of desirable (sets of) gambles as well as coherent choice functions, and show that this identification allows us to establish various representation results for such coherent models in terms of simpler ones. | 翻訳日:2024-06-22 09:10:16 公開日:2024-06-20 |
# Wasserstein知識蒸留によるニューラルトピックモデルの改良
Improving Neural Topic Models with Wasserstein Knowledge Distillation ( http://arxiv.org/abs/2303.15350v2 ) ライセンス: Link先を確認 | Suman Adhya, Debarshi Kumar Sanyal, | (参考訳) トピックモデリングは、ウェブやデジタルライブラリーで文書コレクションを探索する主要な方法である。
トピックモデリングへの最近のアプローチは、事前訓練された文脈付き言語モデルと変分オートエンコーダを用いる。
しかし、大きなニューラルトピックモデルはメモリフットプリントがかなり大きい。
本稿では,トピックの品質を損なうことなく,文脈化されたトピックモデルを圧縮する知識蒸留フレームワークを提案する。
特に, 提案した蒸留の目的は, 教師と学生モデルが生成するソフトラベルの交叉エントロピーを最小化し, 2つのモデルで学習した潜在分布間の2-ワッサーシュタイン距離を最小化することである。
2つの公開データセットの実験により、知識蒸留の訓練を受けた学生は、元の学生モデルよりもトピックコヒーレンスをはるかに高く達成し、教師よりもはるかに少ないパラメータを含む教師を超越していることが示された。
蒸留されたモデルは、トピックコヒーレンスに関する他の競合トピックモデルよりも優れている。
Topic modeling is a dominant method for exploring document collections on the web and in digital libraries. Recent approaches to topic modeling use pretrained contextualized language models and variational autoencoders. However, large neural topic models have a considerable memory footprint. In this paper, we propose a knowledge distillation framework to compress a contextualized topic model without loss in topic quality. In particular, the proposed distillation objective is to minimize the cross-entropy of the soft labels produced by the teacher and the student models, as well as to minimize the squared 2-Wasserstein distance between the latent distributions learned by the two models. Experiments on two publicly available datasets show that the student trained with knowledge distillation achieves topic coherence much higher than that of the original student model, and even surpasses the teacher while containing far fewer parameters than the teacher's. The distilled model also outperforms several other competitive topic models on topic coherence. | 翻訳日:2024-06-22 09:10:16 公開日:2024-06-20 |
# 画像生成モデルの定性的故障とディープフェイク検出への応用
Qualitative Failures of Image Generation Models and Their Application in Detecting Deepfakes ( http://arxiv.org/abs/2304.06470v6 ) ライセンス: Link先を確認 | Ali Borji, | (参考訳) 画像生成モデルと映像生成モデルがフォトリアリスティックな画像を作成する能力は前代未聞の高さに達しており、実像と偽像を区別することは多くの場合困難である。
しかし、この進歩にもかかわらず、生成した画像の品質と現実世界に見られるものとの間にはギャップが残っている。
そこで本稿では,画像生成モデルにおける質的欠点を5つのカテゴリに分類し,学術出版物とソーシャルメディアの双方から膨大な文献をレビューした。
これらの失敗を理解することによって、これらのモデルに改善が必要な領域を特定し、深い偽物を検出する戦略を開発することができる。
今日の社会におけるディープフェイクの流行は深刻な懸念であり、私たちの発見は彼らのネガティブな影響を軽減するのに役立ちます。
The ability of image and video generation models to create photorealistic images has reached unprecedented heights, making it difficult to distinguish between real and fake images in many cases. However, despite this progress, a gap remains between the quality of generated images and those found in the real world. To address this, we have reviewed a vast body of literature from both academic publications and social media to identify qualitative shortcomings in image generation models, which we have classified into five categories. By understanding these failures, we can identify areas where these models need improvement, as well as develop strategies for detecting deep fakes. The prevalence of deep fakes in today's society is a serious concern, and our findings can help mitigate their negative impact. | 翻訳日:2024-06-22 09:10:16 公開日:2024-06-20 |
# 翻訳と融合によるゼロショット言語間情報抽出の改善
Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction ( http://arxiv.org/abs/2305.13582v3 ) ライセンス: Link先を確認 | Yang Chen, Vedaant Shah, Alan Ritter, | (参考訳) 大規模言語モデル(LLM)とインストラクションチューニングを組み合わせることで、情報抽出(IE)タスクが大幅に進歩し、アノテーションガイドラインに従うことで、データセットを見えないものにする強力な一般化能力を示した。
しかし、その低リソース言語への適用性は、微調整のためのラベル付きデータと事前学習のためのラベルなしテキストの両方が欠如しているため、制限されている。
本稿では,低リソース言語データの英語翻訳を微調整し,アノテーション融合によるより正確な予測を可能にするフレームワークであるTransFusionを提案する。
TransFusion をベースとした,IE タスク用言語間命令調整 LLM である GoLLIE-TF を導入し,高次言語と低次言語のパフォーマンスギャップを埋める。
50言語にまたがる12の多言語IEデータセットに対する実験により、GoLLIE-TFはベースモデル上でのゼロショットのクロスリンガル転送が向上することを示した。
さらに,GPT-4 (+5 F1) などのプロプライエタリなモデルに適用した場合や,デコーダのみ (+14 F1) やエンコーダのみ (+13 F1) といった言語モデルを微調整した場合,TransFusion はエンティティ認識という低リソース言語を大幅に改善することを示す。
Large language models (LLMs) combined with instruction tuning have shown significant progress in information extraction (IE) tasks, exhibiting strong generalization capabilities to unseen datasets by following annotation guidelines. However, their applicability to low-resource languages remains limited due to lack of both labeled data for fine-tuning, and unlabeled text for pre-training. In this paper, we propose TransFusion, a framework in which models are fine-tuned to use English translations of low-resource language data, enabling more precise predictions through annotation fusion. Based on TransFusion, we introduce GoLLIE-TF, a cross-lingual instruction-tuned LLM for IE tasks, designed to close the performance gap between high and low-resource languages. Our experiments across twelve multilingual IE datasets spanning 50 languages demonstrate that GoLLIE-TF achieves better zero-shot cross-lingual transfer over the base model. In addition, we show that TransFusion significantly improves low-resource language named entity recognition when applied to proprietary models such as GPT-4 (+5 F1) with a prompting approach, or fine-tuning different language models including decoder-only (+14 F1) and encoder-only (+13 F1) architectures. | 翻訳日:2024-06-22 09:00:25 公開日:2024-06-20 |
# LoRAPrune:低ランクパラメータ効率のファインチューニングを実現するPruning
LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2305.18403v4 ) ライセンス: Link先を確認 | Mingyang Zhang, Hao Chen, Chunhua Shen, Zhen Yang, Linlin Ou, Xinyi Yu, Bohan Zhuang, | (参考訳) LLaMAやT5のような大規模言語モデル(LLM)は、微調整によって様々なタスクで例外的な性能を示している。
低ランク適応(LoRA)は、下流のタスクでこれらのLSMを安価に微調整するために現れてきたが、それでもその展開は膨大なモデルスケールと計算コストによって妨げられている。
訓練後のモデルプルーニングはLLMを圧縮する方法を提供する。
しかし、LLM用に設計された現在のプルーニング方式はLoRAと互換性がない。
これは、LLMにおける非構造的プルーニングの利用、LoRA重みの合併を妨げること、またはプレトレーニングされた重みの勾配に依存してプルーニングを誘導することによるものであり、メモリオーバーヘッドが大幅に増大する可能性がある。
この目的のために我々は,高精度な構造化プルーンドモデルを提供する新しいフレームワークであるLoRAPruneを提案する。
具体的には,まずLoRA誘導プルーニング基準を設計し,LoRAの重みと勾配を用いて,重みの勾配を重要度推定に用いた。
その後、この基準を反復的刈り込みプロセスに統合し、冗長なチャネルやヘッドを効果的に除去する。
LLaMA シリーズモデルにおける既存のアプローチよりも,LoRAPrune の方が優れた性能を示した。
50 %の圧縮速度で、LoRAPruneはLLM-Prunerよりも優れた性能を示し、WikiText2では4.81、PTBでは3.46、メモリ使用量は52.6%削減された。
さらに、LoRAPruneは複数のLLMを横断する半構造的プルーニングと一致し、その適用性を示している。
コードはhttps://github.com/aim-uofa/LoRAPrune.comで公開されている。
Large Language Models (LLMs), such as LLaMA and T5, have shown exceptional performance across various tasks through fine-tuning. Although low-rank adaption (LoRA) has emerged to cheaply fine-tune these LLMs on downstream tasks, their deployment is still hindered by the vast model scale and computational costs. Post-training model pruning offers a way to compress LLMs. However, the current pruning methods designed for LLMs are not compatible with LoRA. This is due to their utilization of unstructured pruning on LLMs, impeding the merging of LoRA weights, or their dependence on the gradients of pre-trained weights to guide pruning, which can impose significant memory overhead. To this end, we propose LoRAPrune, a new framework that delivers an accurate structured pruned model in a highly memory-efficient manner. Specifically, we first design a LoRA-guided pruning criterion, which uses the weights and gradients of LoRA, rather than the gradients of pre-trained weights for importance estimation. We subsequently integrate this criterion into an iterative pruning process, effectively removing redundant channels and heads. Extensive experimental results demonstrate the superior performance of our LoRAPrune over existing approaches on the LLaMA series models. At a 50\% compression rate, LoRAPrune demonstrates superior performance over LLM-Pruner, achieving a reduction in perplexity by 4.81 on WikiText2 and 3.46 on PTB, while also decreasing memory usage by 52.6%. Besides, LoRAPrune also matches semi-structural pruning across multiple LLMs, proving its wide applicability. The code is available at https://github.com/aim-uofa/LoRAPrune. | 翻訳日:2024-06-22 09:00:25 公開日:2024-06-20 |
# [実験と分析]多層受容器の学習におけるサンプリング技術の有効性の評価
[Experiments & Analysis] Evaluating the Feasibility of Sampling-Based Techniques for Training Multilayer Perceptrons ( http://arxiv.org/abs/2306.09293v2 ) ライセンス: Link先を確認 | Sana Ebrahimi, Rishi Advani, Abolfazl Asudeh, | (参考訳) ニューラルネットワークのトレーニングプロセスは時間を要することが知られており、深いアーキテクチャを持つことは問題を悪化させるだけだ。
この過程は行列演算によって構成され、行列乗法がボトルネックとなる。
行列生成物を近似することにより、ディープニューラルネットワークのトレーニング時間を高速化するサンプリングベース手法が提案されている。
これらの技法は2つのカテゴリに分類される。
i) すべての隠れたレイヤのノードのサブセットを、イテレーション毎にアクティブにサンプリングし、
(2) 前の層からノードのサブセットをサンプリングし、サンプルノードのエッジを用いて現在の層のアクティベーションを近似する。
どちらの場合も、行列積は選択されたサンプルのみを用いて計算される。
本稿では,計算資源が限られているCPUマシンにおいて,これらの手法の有効性を評価する。
ニューラルネットワークの文脈における行列乗算の近似の特別な場合として, 2つの研究方向の接続を図った上で, フィードフォワード近似がスケーラビリティの障害となることを示す負の理論解析を行った。
本研究は,本研究に係わる最も強い課題と限界を示す総合的な実験的評価を行う。
ハッシュに基づくノード選択法は,多数の層に拡張性を持たず,理論解析を裏付けるものである。
最後に,今後の研究の方向性を明らかにする。
The training process of neural networks is known to be time-consuming, and having a deep architecture only aggravates the issue. This process consists mostly of matrix operations, among which matrix multiplication is the bottleneck. Several sampling-based techniques have been proposed for speeding up the training time of deep neural networks by approximating the matrix products. These techniques fall under two categories: (i) sampling a subset of nodes in every hidden layer as active at every iteration and (ii) sampling a subset of nodes from the previous layer to approximate the current layer's activations using the edges from the sampled nodes. In both cases, the matrix products are computed using only the selected samples. In this paper, we evaluate the feasibility of these approaches on CPU machines with limited computational resources. Making a connection between the two research directions as special cases of approximating matrix multiplications in the context of neural networks, we provide a negative theoretical analysis that shows feedforward approximation is an obstacle against scalability. We conduct comprehensive experimental evaluations that demonstrate the most pressing challenges and limitations associated with the studied approaches. We observe that the hashing-based node selection method is not scalable to a large number of layers, confirming our theoretical analysis. Finally, we identify directions for future research. | 翻訳日:2024-06-22 09:00:25 公開日:2024-06-20 |
# 多変量機能主成分分析におけるグラム行列の利用について
On the use of the Gram matrix for multivariate functional principal components analysis ( http://arxiv.org/abs/2306.12949v2 ) ライセンス: Link先を確認 | Steven Golovkine, Edward Gunning, Andrew J. Simpkin, Norma Bargary, | (参考訳) 次元減少は機能データ分析(FDA)において重要である。
データの次元を減らすための重要なツールは、機能的主成分分析である。
関数主成分分析の既存のアプローチは、通常共分散作用素の対角化を伴う。
関数データセットのサイズと複雑さの増大により、共分散演算子を推定することがより困難になっている。
したがって、固有成分を推定する効率的な方法論の必要性が高まっている。
観測空間と機能的特徴空間の双対性を用いて、曲線の内積を用いて多変量および多次元関数的データセットの固有値を推定する。
共分散作用素の固有値と内積行列の固有値の関係を確立する。
我々は、これらの方法論をいくつかのFDA設定で適用し、それらのユーザビリティに関する一般的なガイダンスを提供する。
Dimension reduction is crucial in functional data analysis (FDA). The key tool to reduce the dimension of the data is functional principal component analysis. Existing approaches for functional principal component analysis usually involve the diagonalization of the covariance operator. With the increasing size and complexity of functional datasets, estimating the covariance operator has become more challenging. Therefore, there is a growing need for efficient methodologies to estimate the eigencomponents. Using the duality of the space of observations and the space of functional features, we propose to use the inner-product between the curves to estimate the eigenelements of multivariate and multidimensional functional datasets. The relationship between the eigenelements of the covariance operator and those of the inner-product matrix is established. We explore the application of these methodologies in several FDA settings and provide general guidance on their usability. | 翻訳日:2024-06-22 09:00:25 公開日:2024-06-20 |
# mBLIP:多言語ビジョンLLMの効率的なブートストラップ
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs ( http://arxiv.org/abs/2307.06930v3 ) ライセンス: Link先を確認 | Gregor Geigle, Abhay Jain, Radu Timofte, Goran Glavaš, | (参考訳) Modular Vision-Language Model (Vision-LLMs) は、事前訓練された画像エンコーダを(凍結した)大型言語モデル (LLMs) とポストホック条件 LLMs と整列し、画像入力を 'understand' する。
高品質な英語画像テキストデータと強力なモノリンガルな英語LLMが豊富にあるため、研究は英語のみのビジョンLLMに焦点が当てられている。
テキストのみの多言語コーパスを補足した限られた多言語画像データに基づいて訓練された比較的小さなモデルが得られる。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
この目的のために、視覚と言語を混在するタスクから派生した数百万の多言語学習例を用いて、以前は英語のLLMにチューニングされていた画像エンコーダを、95言語に機械翻訳することで得られる。
IGLUEベンチマークとXM3600では、mBLIPは最先端のモデルと競合し、Llava 1.5のような英語のみのビジョン-LLMよりも大幅に優れています。
モデル、コード、およびトレーニングデータを \url{https://github.com/gregor-ge/mBLIP} でリリースします。
Modular vision-language models (Vision-LLMs) align pretrained image encoders with (frozen) large language models (LLMs) and post-hoc condition LLMs to `understand' the image input. With the abundance of readily available high-quality English image-text data as well as strong monolingual English LLMs, the research focus has been on English-only Vision-LLMs. Multilingual vision-language models are still predominantly obtained via expensive end-to-end pretraining, resulting in comparatively smaller models, trained on limited multilingual image data supplemented with text-only multilingual corpora. We present mBLIP, the first Vision-LLM leveraging multilingual LLMs, which we obtain in a computationally efficient manner on consumer-level hardware. To this end, we \textit{re-align} an image encoder previously tuned to an English LLM to a new, multilingual LLM using only a few million multilingual training examples derived from a mix of vision-and-language tasks, which we obtain by machine-translating high-quality English data to 95 languages. On the IGLUE benchmark and XM3600, mBLIP yields results competitive with state-of-the-art models and it greatly outperforms strong English-only Vision-LLMs like Llava 1.5. We release our model, code, and train data at \url{https://github.com/gregor-ge/mBLIP}. | 翻訳日:2024-06-22 08:50:40 公開日:2024-06-20 |
# ピースワイズ保存則を用いた時間依存型ハミルトン量子力学の適応的トロッター化
Adaptive Trotterization for time-dependent Hamiltonian quantum dynamics using piecewise conservation laws ( http://arxiv.org/abs/2307.10327v2 ) ライセンス: Link先を確認 | Hongzheng Zhao, Marin Bukov, Markus Heyl, Roderich Moessner, | (参考訳) デジタル量子シミュレーションは、時間進化を基本的な量子ゲートに区別するためにトロッター化に依存する。
ゲート欠陥が顕著な現在の量子プロセッサでは、より微細な時間ステップの精度の向上と、より大きな回路深さによるエラー率の増大の間には、重大なトレードオフがある。
本稿では,時間依存型ハミルトニアンの時間依存性に対処する適応的トロタライゼーションアルゴリズムを提案する。このアルゴリズムでは,2点(近傍)点間の時間発展における誤差を推定する「保存」量の概念が提案される。
時間に依存しないハミルトニアンの場合の標準保存法則に還元され、適応的トロッター化スキーム (PRX Quantum 4, 030319] が最初に開発された。
時間依存量子スピンチェーンのアルゴリズムを検証し、制御誤差で一定のステップサイズで従来のトロッターアルゴリズムより優れていることを示す。
Digital quantum simulation relies on Trotterization to discretize time evolution into elementary quantum gates. On current quantum processors with notable gate imperfections, there is a critical tradeoff between improved accuracy for finer timesteps, and increased error rate on account of the larger circuit depth. We present an adaptive Trotterization algorithm to cope with time-dependent Hamiltonians, where we propose a concept of piecewise "conserved" quantities to estimate errors in the time evolution between two (nearby) points in time; these allow us to bound the errors accumulated over the full simulation period. They reduce to standard conservation laws in the case of time-independent Hamiltonians, for which we first developed an adaptive Trotterization scheme [PRX Quantum 4, 030319]. We validate the algorithm for a time-dependent quantum spin chain, demonstrating that it can outperform the conventional Trotter algorithm with a fixed step size at a controlled error. | 翻訳日:2024-06-22 08:50:40 公開日:2024-06-20 |
# NNPP:不均一地における最適経路計画の高速化のための学習ベースヒューリスティックモデル
NNPP: A Learning-Based Heuristic Model for Accelerating Optimal Path Planning on Uneven Terrain ( http://arxiv.org/abs/2308.04792v3 ) ライセンス: Link先を確認 | Yiming Ji, Yang Liu, Guanghu Xie, Boyu Ma, Zongwu Xie, Baoshi Cao, | (参考訳) 本稿では,惑星表面やオフロード環境などの不均一な場所で動作している移動ロボットの探索効率を高めるために,インテリジェントな自律経路計画が不可欠である。
NNPPモデルは、多数の事前注釈付き最適経路デモから開始位置とゴール位置のセマンティック情報とマップ表現を学習し、地図上の最適経路に属する可能性を表す画素ごとの確率分布を生成する。
より具体的には、デジタル標高モデルから得られた勾配、粗さ、標高差から各格子セルのトラバースコストを算出する。
その後、ガウス分布を用いて開始位置とゴール位置を符号化し、モデル性能への影響について異なる位置符号化パラメータを解析する。
トレーニング後、NNPPモデルは、新しいマップを計画するtextcolor{revision}{accelerate}パスを作成できる。
Intelligent autonomous path planning is essential for enhancing the exploration efficiency of mobile robots operating in uneven terrains like planetary surfaces and off-road environments.In this paper, we propose the NNPP model for computing the heuristic region, enabling foundation algorithms like Astar to find the optimal path solely within this reduced search space, effectively decreasing the search time. The NNPP model learns semantic information about start and goal locations, as well as map representations, from numerous pre-annotated optimal path demonstrations, and produces a probabilistic distribution over each pixel representing the likelihood of it belonging to an optimal path on the map. More specifically, the paper computes the traversal cost for each grid cell from the slope, roughness and elevation difference obtained from the digital elevation model. Subsequently, the start and goal locations are encoded using a Gaussian distribution and different location encoding parameters are analyzed for their effect on model performance. After training, the NNPP model is able to \textcolor{revision}{accelerate} path planning on novel maps. | 翻訳日:2024-06-22 08:50:40 公開日:2024-06-20 |
# ビジョンランゲージモデルを用いた医用画像セグメンテーションにおける伝達学習の探索
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models ( http://arxiv.org/abs/2308.07706v3 ) ライセンス: Link先を確認 | Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal, | (参考訳) 医用画像セグメンテーションは, 対象構造の大きさと形状を定量化し, 疾患診断, 予後, 手術計画, 理解を補助し, 自然画像から視覚言語モデル (VLM) を構築することで, 言語テキストをセグメンテーションモデルへの追加入力として利用できる視覚言語セグメンテーションモデル (VLSM) に適用することを提案した。
推論中に人手によるテキストによる補助情報の導入は、オープン語彙のセグメンテーションや、アウト・オブ・ディストリビューションデータに対する潜在的に堅牢なセグメンテーションモデルなど、ユニークな機会を開放する。
画像のみのセグメンテーションモデルでは, 自然画像から医用画像への変換学習が検討されているが, セグメンテーション問題における視覚言語との結合表現はいまだ検討されていない。
本研究では,VLSMを2次元医用画像に転送する手法として,多彩なモダリティと洞察に富んだ言語プロンプトと実験を含む1,11ドルのデータセットを慎重にキュレートした最初の体系的研究を紹介する。
以上の結果から,VLSMは,限られた医用画像データセットを微調整した画像のみのセグメンテーションモデルと比較して,競合的な性能を示したが,全てのVLSMが言語プロンプトからの付加情報を利用するわけではなく,画像の特徴が支配的な役割を担っていることが示唆された。
従来のセグメンテーションモデルと比較すると,VLSMは多様なモダリティを持つプールデータセットの処理性能が向上し,ドメインシフトに対する潜在的堅牢性を示すが,この結果から,VLSMが言語プロンプトを通じて利用できる様々な補助情報を活用するためには,新たなアプローチが必要であることが示唆された。
コードとデータセットはhttps://github.com/naamiinepal/medvlsm.comで公開されている。
Medical image segmentation allows quantifying target structure size and shape, aiding in disease diagnosis, prognosis, surgery planning, and comprehension.Building upon recent advancements in foundation Vision-Language Models (VLMs) from natural image-text pairs, several studies have proposed adapting them to Vision-Language Segmentation Models (VLSMs) that allow using language text as an additional input to segmentation models. Introducing auxiliary information via text with human-in-the-loop prompting during inference opens up unique opportunities, such as open vocabulary segmentation and potentially more robust segmentation models against out-of-distribution data. Although transfer learning from natural to medical images has been explored for image-only segmentation models, the joint representation of vision-language in segmentation problems remains underexplored. This study introduces the first systematic study on transferring VLSMs to 2D medical images, using carefully curated $11$ datasets encompassing diverse modalities and insightful language prompts and experiments. Our findings demonstrate that although VLSMs show competitive performance compared to image-only models for segmentation after finetuning in limited medical image datasets, not all VLSMs utilize the additional information from language prompts, with image features playing a dominant role. While VLSMs exhibit enhanced performance in handling pooled datasets with diverse modalities and show potential robustness to domain shifts compared to conventional segmentation models, our results suggest that novel approaches are required to enable VLSMs to leverage the various auxiliary information available through language prompts. The code and datasets are available at https://github.com/naamiinepal/medvlsm. | 翻訳日:2024-06-22 08:50:40 公開日:2024-06-20 |
# 衣服交換者再識別のための微粒化表現と再構成の探索
Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2308.10692v2 ) ライセンス: Link先を確認 | Qizao Wang, Xuelin Qian, Bin Li, Xiangyang Xue, Yanwei Fu, | (参考訳) 衣服変化者再識別(Re-ID)は, 劣悪な差別的特徴と限られた訓練サンプルの2つの限界に悩まされ, 特に困難な課題である。
既存の手法は主に補助情報を活用し、形状や歩行のソフトバイオメトリックスの特徴や衣服のラベルなど、アイデンティティ関連の特徴学習を容易にする。
しかし、この情報は現実世界のアプリケーションでは利用できない。
本稿では,FIRe$^{2}$(FIne-fine Representation and Recomposition)フレームワークを提案する。
具体的には、まず、各人物の画像を個別にクラスタリングするために、きめ細かい特徴抽出(FFM)モジュールを設計する。
いわゆるきめ細かい属性(例えば、衣服や視点)を持つ画像は、まとめるのが推奨される。
属性認識型分類損失を導入して、異なる個人間で共有されていないクラスタラベルに基づくきめ細かい学習を行い、アイデンティティ関連の特徴を学習するためのモデルを促進する。
さらに,細粒度属性をフルに活用するために,画像特徴を潜時空間の異なる属性で再コンパイルすることで,FAR(Fold-fine Attribute Recomposition)モジュールを提案する。
これにより、堅牢な機能学習が大幅に向上する。
FIRe$^{2}$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
コードはhttps://github.com/QizaoWang/FIRE-CCReIDで公開されている。
Cloth-changing person Re-IDentification (Re-ID) is a particularly challenging task, suffering from two limitations of inferior discriminative features and limited training samples. Existing methods mainly leverage auxiliary information to facilitate identity-relevant feature learning, including soft-biometrics features of shapes or gaits, and additional labels of clothing. However, this information may be unavailable in real-world applications. In this paper, we propose a novel FIne-grained Representation and Recomposition (FIRe$^{2}$) framework to tackle both limitations without any auxiliary annotation or data. Specifically, we first design a Fine-grained Feature Mining (FFM) module to separately cluster images of each person. Images with similar so-called fine-grained attributes (e.g., clothes and viewpoints) are encouraged to cluster together. An attribute-aware classification loss is introduced to perform fine-grained learning based on cluster labels, which are not shared among different people, promoting the model to learn identity-relevant features. Furthermore, to take full advantage of fine-grained attributes, we present a Fine-grained Attribute Recomposition (FAR) module by recomposing image features with different attributes in the latent space. It significantly enhances robust feature learning. Extensive experiments demonstrate that FIRe$^{2}$ can achieve state-of-the-art performance on five widely-used cloth-changing person Re-ID benchmarks. The code is available at https://github.com/QizaoWang/FIRe-CCReID. | 翻訳日:2024-06-22 06:47:03 公開日:2024-06-20 |
# 中国の医療機能回復のための小型・高速BERT
A Small and Fast BERT for Chinese Medical Punctuation Restoration ( http://arxiv.org/abs/2308.12568v3 ) ライセンス: Link先を確認 | Tongtao Ling, Yutao Lai, Chen Laio, Lei Chen, Shilei Huang, Yi Liu, | (参考訳) クリニカルディクテーションでは、明示的な句読点のない自動音声認識(ASR)後の発話は、予測された報告の誤解につながる可能性がある。
ASRによる正確かつ理解可能な臨床報告を行うには,自動句読点修復が必要である。
実践的なシナリオを考慮し、我々は「訓練と微調整」のパラダイムに基づく中国医学的句読点回復のための高速で軽量な事前訓練モデルを提案する。
本研究では,教師付きコントラスト学習と新しい事前学習タスク(句読点予測)を取り入れて,句読点回復に適した事前学習モデルを蒸留する。
各種蒸留モデルを用いた実験により, 現状の中国RoBERTaと比較して, モデルサイズが10%であるのに対して, 95%の性能が得られることがわかった。
In clinical dictation, utterances after automatic speech recognition (ASR) without explicit punctuation marks may lead to the misunderstanding of dictated reports. To give a precise and understandable clinical report with ASR, automatic punctuation restoration is required. Considering a practical scenario, we propose a fast and light pre-trained model for Chinese medical punctuation restoration based on 'pretraining and fine-tuning' paradigm. In this work, we distill pre-trained models by incorporating supervised contrastive learning and a novel auxiliary pre-training task (Punctuation Mark Prediction) to make it well-suited for punctuation restoration. Our experiments on various distilled models reveal that our model can achieve 95% performance while 10% model size relative to state-of-the-art Chinese RoBERTa. | 翻訳日:2024-06-22 06:47:03 公開日:2024-06-20 |
# LLMにおけるサブトラー・バイアスの調査--世代モデルにおける年齢、美、制度、国籍のバイアス
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models ( http://arxiv.org/abs/2309.08902v3 ) ライセンス: Link先を確認 | Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim, | (参考訳) LLMはますます強力になり、様々なタスクでユーザを支援するために広く利用されている。
この使用は、雇用、人事評価、刑事判決などの連続的な決定に対するLLMバイアスの導入を危険にさらしている。
性別や民族の線に沿ったNLPシステムのバイアスは、特に特定のステレオタイプ(例えば、アジア人は数学が得意)について広く研究されている。
本稿では,LLMが社会集団と無関係な肯定的・否定的属性の間に生み出す微妙な相関決定を,年齢や美しさといった,あまり研究されていないが連続的な側面に沿った偏見を考察する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
本稿では,特定の社会グループのメンバーとして記述された人物に関する評価文を完成させるために,最も適切な属性を選択するようモデルに依頼する文補完タスクのテンプレート生成データセットを提案する。
また、完了タスクを逆転して属性に基づいてソーシャルグループを選択する。
本研究は,4個の切削用LDMの相関関係を報告する。
このデータセットは、より一般化されたバイアスの進捗を評価するためのベンチマークとして使用することができ、テンプレート技術は、最小限の人間のアノテーションでベンチマークを拡張するために使用することができる。
LLMs are increasingly powerful and widely used to assist users in a variety of tasks. This use risks the introduction of LLM biases to consequential decisions such as job hiring, human performance evaluation, and criminal sentencing. Bias in NLP systems along the lines of gender and ethnicity has been widely studied, especially for specific stereotypes (e.g., Asians are good at math). In this paper, we investigate bias along less-studied but still consequential, dimensions, such as age and beauty, measuring subtler correlated decisions that LLMs make between social groups and unrelated positive and negative attributes. We ask whether LLMs hold wide-reaching biases of positive or negative sentiment for specific social groups similar to the "what is beautiful is good" bias found in people in experimental psychology. We introduce a template-generated dataset of sentence completion tasks that asks the model to select the most appropriate attribute to complete an evaluative statement about a person described as a member of a specific social group. We also reverse the completion task to select the social group based on an attribute. We report the correlations that we find for 4 cutting-edge LLMs. This dataset can be used as a benchmark to evaluate progress in more generalized biases and the templating technique can be used to expand the benchmark with minimal additional human annotation. | 翻訳日:2024-06-22 06:47:03 公開日:2024-06-20 |
# Bose-Einstein condensates with collective dissipation における例外的ネクサス
Exceptional nexus in Bose-Einstein condensates with collective dissipation ( http://arxiv.org/abs/2309.09625v2 ) ライセンス: Link先を確認 | Chenhao Wang, Nan Li, Jin Xie, Cong Ding, Zhonghua Ji, Liantuan Xiao, Suotang Jia, Ying Hu, Yanting Zhao, | (参考訳) 多状態非エルミート系では、高階の例外点と2レベル系に類似しないエキゾチック現象が発生する。
パラダイムは例外ネクサス(EX)であり、例外弧(EA)の尖点特異点としての3階EPであり、ハイブリッド位相的性質を持つ。
原子ボース・アインシュタイン凝縮体を用いて散逸性三状態系を実装し, 対称性の欠如にもかかわらず, 2パラメータ空間内でExを実験的に実現した。
工学的な散逸は、共鳴光に対する集団原子反応による密度依存性を示す。
系の崩壊ダイナミクスの広範囲な解析に基づいて、異なる測地を持つ2つのEAの合体によるEXの形成を実証する。
これらの構造は、強いカップリング限界と量子ゼノ状態における散逸によって生じる異なる役割から生じる。
我々の研究は、超低温原子の多体配置における高次例外物理学の探求の道を開いた。
In multistate non-Hermitian systems, higher-order exceptional points and exotic phenomena with no analogues in two-level systems arise. A paradigm is the exceptional nexus (EX), a third-order EP as the cusp singularity of exceptional arcs (EAs), that has a hybrid topological nature. Using atomic Bose-Einstein condensates to implement a dissipative three-state system, we experimentally realize an EX within a two-parameter space, despite the absence of symmetry. The engineered dissipation exhibits density dependence due to the collective atomic response to resonant light. Based on extensive analysis of the system's decay dynamics, we demonstrate the formation of an EX from the coalescence of two EAs with distinct geometries. These structures arise from the different roles played by dissipation in the strong coupling limit and quantum Zeno regime. Our work paves the way for exploring higher-order exceptional physics in the many-body setting of ultracold atoms. | 翻訳日:2024-06-22 06:37:19 公開日:2024-06-20 |
# CoT-BERT:Chain-of-Thoughtによる教師なし文表現の強化
CoT-BERT: Enhancing Unsupervised Sentence Representation through Chain-of-Thought ( http://arxiv.org/abs/2309.11143v4 ) ライセンス: Link先を確認 | Bowen Zhang, Kehua Chang, Chunping Li, | (参考訳) 教師なし文表現学習は、ラベル付きデータへの依存を回避しつつ、複雑な意味情報に富んだ入力文を固定長ベクトルに変換することを目的としている。
この領域における最近の進歩は、対照的な学習と迅速な工学のブレークスルーによって著しく促進されている。
これらの進歩にもかかわらず、この分野は高原に達し、一部の研究者は文章の埋め込みの質を高めるために外部コンポーネントを組み込むようになった。
このような統合は有益ではあるが、ソリューションを複雑にし、計算資源の要求を膨らませる。
これらの課題に対応するために,本論文では,CoT-BERTを提案する。これは,BERTのような事前学習モデルの潜在可能性を活用するために,チェーン・オブ・サート(Chain-of-Thought)の進歩的思考を活用する革新的な手法である。
さらに,高度なコントラスト学習損失関数を開発し,新しいテンプレート・デノベーション・ストラテジーを提案する。
厳密な実験により、CoT-BERTは、事前訓練されたモデルの本質的な強みにのみ依存することにより、確立されたベースラインの範囲を超えることを示した。
Unsupervised sentence representation learning aims to transform input sentences into fixed-length vectors enriched with intricate semantic information while obviating the reliance on labeled data. Recent strides within this domain have been significantly propelled by breakthroughs in contrastive learning and prompt engineering. Despite these advancements, the field has reached a plateau, leading some researchers to incorporate external components to enhance the quality of sentence embeddings. Such integration, though beneficial, complicates solutions and inflates demands for computational resources. In response to these challenges, this paper presents CoT-BERT, an innovative method that harnesses the progressive thinking of Chain-of-Thought reasoning to tap into the latent potential of pre-trained models like BERT. Additionally, we develop an advanced contrastive learning loss function and propose a novel template denoising strategy. Rigorous experimentation demonstrates that CoT-BERT surpasses a range of well-established baselines by relying exclusively on the intrinsic strengths of pre-trained models. | 翻訳日:2024-06-22 06:37:19 公開日:2024-06-20 |
# 感度が1pT/rHz未満の非シールド型マイクロ磁気センサにおける不明瞭な測定
Unambiguous measurement in an unshielded microscale magnetometer with sensitivity below 1 pT/rHz ( http://arxiv.org/abs/2309.11825v2 ) ライセンス: Link先を確認 | Hamish A. M. Taylor, Christopher C. Bounds, Alex Tritt, L. D. Turner, | (参考訳) コールド原子磁気センサは、長いコヒーレンス時間で密度の高い量子のアンサンブルを利用して、マイクロメータースケールで先進的な感度を実現する。
ラムゼー干渉計として構成されたコールド原子センサーは、限られた精度で原子のショットノイズに接近できるが、外界の曖昧さに悩まされる。
我々は、ヒルベルト変調光磁気計が低温原子センサーでどのように実現され、精密かつ不明瞭な磁場測定が可能かを述べる。
ラーモア位相の連続的再構成により,非シールド環境下でのdc磁場の明瞭な決定と,単発で磁場の交流変動を測定することができる。
ac測定により、線形同期磁気干渉を特徴付け、中和し、再構成時間を延長することができる。
1,6 \times 10^6$$^{87}$Rb の体積$(68 \,\mathrm{\mu m})^3$ を用いて、試験場を1ショットで 86.0121261(4) \; \mathrm{\mu T}$ とし、1000msで380 fTのdc感度を達成する。
Cold atom magnetometers exploit a dense ensemble of quanta with long coherence times to realise leading sensitivity on the micrometer scale. Configured as a Ramsey interferometer, a cold atom sensor can approach atom shot-noise limited precision but suffers from fringe ambiguity, producing gross errors when the field falls outside a narrow predefined range. We describe how Hilbert-demodulated optical magnetometry can be realised on cold atom sensors to provide field measurements both precise and unambiguous. Continuous reconstruction of the Larmor phase allows us to determine the dc magnetic field unambiguously in an unshielded environment, as well as measure ac variation of the field, in a single shot. The ac measurement allows us to characterize, and then neutralise, line-synchronous magnetic interference, extending reconstruction times. Using $1.6 \times 10^6$ $^{87}$Rb atoms in a volume of $(68 \,\mathrm{\mu m})^3$, we measure a test field to be $ 86.0121261(4) \; \mathrm{\mu T}$ in a single shot, achieving dc sensitivity of 380 fT in a duration of 1000 ms. Our results demonstrate that Hilbert-demodulated optical readout yields metrologically-significant sensitivity without the fringe ambiguity inherent to Ramsey interferometry. | 翻訳日:2024-06-22 06:37:19 公開日:2024-06-20 |
# 線形回帰モデルにおける前方勾配降下の収束保証
Convergence guarantees for forward gradient descent in the linear regression model ( http://arxiv.org/abs/2309.15001v2 ) ライセンス: Link先を確認 | Thijs Bos, Johannes Schmidt-Hieber, | (参考訳) 人工ニューラルネットワークと生物学的ニューラルネットワークの関係に対する新たな関心は、勾配のない手法の研究を動機付けている。
ランダムな設計による線形回帰モデルを考えると、この研究において、勾配のランダムな線形結合に基づく生物学的動機付け(重み付き)前方勾配スキームを理論的に解析する。
d がパラメータの数を表し、k がサンプル数を表すなら、この方法の平均二乗誤差は $k\gtrsim d^2\log(d)$ と $d^2\log(d)/k と収束する。
$ を確率勾配降下の次元依存度 d と比較すると、追加の係数 $d\log(d)$ が生じる。
Renewed interest in the relationship between artificial and biological neural networks motivates the study of gradient-free methods. Considering the linear regression model with random design, we theoretically analyze in this work the biologically motivated (weight-perturbed) forward gradient scheme that is based on random linear combination of the gradient. If d denotes the number of parameters and k the number of samples, we prove that the mean squared error of this method converges for $k\gtrsim d^2\log(d)$ with rate $d^2\log(d)/k.$ Compared to the dimension dependence d for stochastic gradient descent, an additional factor $d\log(d)$ occurs. | 翻訳日:2024-06-22 06:37:18 公開日:2024-06-20 |
# FedAIoT - 物の人工知能のためのフェデレーションラーニングベンチマーク
FedAIoT: A Federated Learning Benchmark for Artificial Intelligence of Things ( http://arxiv.org/abs/2310.00109v2 ) ライセンス: Link先を確認 | Samiul Alam, Tuo Zhang, Tiantian Feng, Hui Shen, Zhichao Cao, Dong Zhao, JeongGil Ko, Kiran Somasundaram, Shrikanth S. Narayanan, Salman Avestimehr, Mi Zhang, | (参考訳) AIoT(Artificial Intelligence of Things)の世界には、連邦学習(FL)が大きな関連性を持っている。
しかしながら、既存のFL作業の多くは、本物のIoTデバイスから収集されたデータセットを使用しないので、IoTデータのユニークなモダリティや固有の課題をキャプチャしない。
この重要なギャップを埋めるために、本稿では、AIoTのFLベンチマークであるFedAIoTを紹介します。
FedAIoTには、幅広いIoTデバイスから収集された8つのデータセットが含まれている。
これらのデータセットは、AIoTのユニークなIoTモダリティとターゲット代表アプリケーションをカバーする。
FedAIoTには、データセットのパフォーマンスのベンチマークを簡単にする、AIoT用の統合エンドツーエンドFLフレームワークも含まれている。
ベンチマークの結果は、AIoTにおけるFLの機会と課題を浮き彫りにしたものです。
FL for AIoTの重要な分野における進歩を促進するために、FedAIoTが貴重なリソースになることを願っています。
FedAIoTのリポジトリはhttps://github.com/AIoT-MLSys-Lab/FedAIoTで管理されている。
There is a significant relevance of federated learning (FL) in the realm of Artificial Intelligence of Things (AIoT). However, most existing FL works do not use datasets collected from authentic IoT devices and thus do not capture unique modalities and inherent challenges of IoT data. To fill this critical gap, in this work, we introduce FedAIoT, an FL benchmark for AIoT. FedAIoT includes eight datasets collected from a wide range of IoT devices. These datasets cover unique IoT modalities and target representative applications of AIoT. FedAIoT also includes a unified end-to-end FL framework for AIoT that simplifies benchmarking the performance of the datasets. Our benchmark results shed light on the opportunities and challenges of FL for AIoT. We hope FedAIoT could serve as an invaluable resource to foster advancements in the important field of FL for AIoT. The repository of FedAIoT is maintained at https://github.com/AIoT-MLSys-Lab/FedAIoT. | 翻訳日:2024-06-22 06:37:18 公開日:2024-06-20 |
# すべての言語が重要:大規模言語モデルの多言語安全について
All Languages Matter: On the Multilingual Safety of Large Language Models ( http://arxiv.org/abs/2310.00905v2 ) ライセンス: Link先を確認 | Wenxuan Wang, Zhaopeng Tu, Chang Chen, Youliang Yuan, Jen-tse Huang, Wenxiang Jiao, Michael R. Lyu, | (参考訳) 安全性は、大規模言語モデル(LLM)の開発とデプロイの核心にある。
しかし、以前の安全ベンチマークでは、例えば英語のような事前訓練されたデータにおける多数言語のように、1つの言語の安全性のみを懸念していた。
本研究では,実際にLLMのグローバル展開に対応するため,LLMのマルチ言語安全ベンチマークであるXSafetyを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
我々は XSafety を用いて,API とオープンソースモデルを含む4つの広く使用されている LLM の多言語安全性を実証的に研究している。
実験結果から、全てのLLMは英語のクエリに対して、英語のクエリよりもはるかに安全でない応答を生成することが示され、非英語のクエリに対して安全アライメントを開発する必要性が示唆された。
さらに,安全知識を喚起し,安全アライメントの言語間一般化を改善することにより,ChatGPTの多言語安全性を改善するための簡易かつ効果的なプロンプト手法を提案する。
我々のプロンプト法は、英語以外のクエリに対して、安全でないレスポンスの比率を19.1%から9.7%に大幅に下げることができる。
データはhttps://github.com/Jarviswang94/Multilingual_safety_benchmarkで公開しています。
Safety lies at the core of developing and deploying large language models (LLMs). However, previous safety benchmarks only concern the safety in one language, e.g. the majority language in the pretraining data such as English. In this work, we build the first multilingual safety benchmark for LLMs, XSafety, in response to the global deployment of LLMs in practice. XSafety covers 14 kinds of commonly used safety issues across 10 languages that span several language families. We utilize XSafety to empirically study the multilingual safety for 4 widely-used LLMs, including both close-API and open-source models. Experimental results show that all LLMs produce significantly more unsafe responses for non-English queries than English ones, indicating the necessity of developing safety alignment for non-English languages. In addition, we propose several simple and effective prompting methods to improve the multilingual safety of ChatGPT by evoking safety knowledge and improving cross-lingual generalization of safety alignment. Our prompting method can significantly reduce the ratio of unsafe responses from 19.1% to 9.7% for non-English queries. We release our data at https://github.com/Jarviswang94/Multilingual_safety_benchmark. | 翻訳日:2024-06-22 06:37:18 公開日:2024-06-20 |
# Keep Keep: 学習したタスクの可塑性を最大化するタスク関連部分空間の同定
Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks ( http://arxiv.org/abs/2310.04741v6 ) ライセンス: Link先を確認 | Daniel Anthes, Sushrut Thorat, Peter König, Tim C. Kietzmann, | (参考訳) 継続学習アルゴリズムは、事前情報を保持しながら、新しい知識を獲得しようとする。
これらのアルゴリズムは、しばしば安定性を強調し、新しいタスクを学習する際のネットワーク更新を制限する。
多くの場合、そのような制約はモデルの可塑性、すなわち新しいタスクの要求に適応するモデルの能力にコストがかかる。
しかし、すべては有害か?
本稿では、ニューラルネットワークにおけるアクティベーション空間を2つのサブスペースに分解できる、すなわち、変更が前のタスクに影響を及ぼす読み出し範囲と、変更が前のパフォーマンスを変えないヌル空間の2つに分解できる、という問題にアプローチする。
この新技術を用いた実験から,すべてのアクティベーション変化が忘れてはならないことを示す。
代わりに、タスクの読み出しで見える部分空間の変化だけが安定性を低下させるが、この部分空間以外の変化を制限することは可塑性の喪失にのみ関連付けられる。
様々な一般的なアルゴリズムを分析し、正規化に基づく手法が2つの空間を完全に解き放たず、その結果、必要以上に可塑性を制限していることを示す。
本研究では,2つの部分空間における学習を直接操作し,活性化変化を安定性と可塑性に因果的に関連付ける線形モデルについて検討する。
階層的で非線形なケースに対しては、より深い非線形ネットワークのすべての層で機能的に関連する部分空間を推定し、過去の知見を裏付ける近似を提示する。
この研究は、連続学習における安定性と可塑性の背後にあるメカニズムに関する洞察を導き出す新しい手段を提供し、学習のための最大空間を許容しながら推論を安定化する将来の連続学習アルゴリズムの開発を導く診断ツールとして機能する。
Continual learning algorithms strive to acquire new knowledge while preserving prior information. Often, these algorithms emphasise stability and restrict network updates upon learning new tasks. In many cases, such restrictions come at a cost to the model's plasticity, i.e. the model's ability to adapt to the requirements of a new task. But is all change detrimental? Here, we approach this question by proposing that activation spaces in neural networks can be decomposed into two subspaces: a readout range in which change affects prior tasks and a null space in which change does not alter prior performance. Based on experiments with this novel technique, we show that, indeed, not all activation change is associated with forgetting. Instead, only change in the subspace visible to the readout of a task can lead to decreased stability, while restricting change outside of this subspace is associated only with a loss of plasticity. Analysing various commonly used algorithms, we show that regularisation-based techniques do not fully disentangle the two spaces and, as a result, restrict plasticity more than need be. We expand our results by investigating a linear model in which we can manipulate learning in the two subspaces directly and thus causally link activation changes to stability and plasticity. For hierarchical, nonlinear cases, we present an approximation that enables us to estimate functionally relevant subspaces at every layer of a deep nonlinear network, corroborating our previous insights. Together, this work provides novel means to derive insights into the mechanisms behind stability and plasticity in continual learning and may serve as a diagnostic tool to guide developments of future continual learning algorithms that stabilise inference while allowing maximal space for learning. | 翻訳日:2024-06-22 06:37:18 公開日:2024-06-20 |
# 物理を意識した機械学習は、機械学習とプロセスベースの水文学のための科学パラダイムに革命をもたらす
Physics-aware Machine Learning Revolutionizes Scientific Paradigm for Machine Learning and Process-based Hydrology ( http://arxiv.org/abs/2310.05227v4 ) ライセンス: Link先を確認 | Qingsong Xu, Yilei Shi, Jonathan Bamber, Ye Tuo, Ralf Ludwig, Xiao Xiang Zhu, | (参考訳) 正確な水文学理解と水循環予測は、水資源の管理に関連する科学的・社会的課題、特に人為的気候変動の動的影響に対処するために重要である。
既存のレビューは、この分野における機械学習(ML)の開発に重点を置いているが、異なるパラダイムとして、水文学とMLを明確に区別している。
本稿では、認識される障壁を克服し、両方のフィールドに革命をもたらすための変換アプローチとして、物理認識型MLを紹介する。
具体的には、物理知識や物理に基づくモデリングをMLに統合する既存の手法の構造化されたコミュニティ(PaML)を構築し、物理を意識したML手法の総合的なレビューを行う。
物理データ誘導型ML、物理インフォーム型ML、物理埋め込み型ML、物理認識型ハイブリッド学習の4つの側面について、これらのPaML方法論を体系的に分析する。
PaMLはML支援仮説を促進し、ビッグデータからの洞察を加速し、科学的発見を促進する。
まず,PaMLにおける水文学の体系的検討を行い,降雨・流出水文プロセスや流体力学プロセスについて概観し,様々な目的やPaML手法について,最も有望で挑戦的な方向性を強調した。
最後に、新しいPaMLベースの水文学プラットフォームであるHydroPMLが、水学応用の基礎としてリリースされた。
HydroPMLはMLの説明可能性と因果性を高め、デジタル水循環の実現の基礎となる。
HydroPMLプラットフォームはhttps://hydropml.github.io/.comで公開されている。
Accurate hydrological understanding and water cycle prediction are crucial for addressing scientific and societal challenges associated with the management of water resources, particularly under the dynamic influence of anthropogenic climate change. Existing reviews predominantly concentrate on the development of machine learning (ML) in this field, yet there is a clear distinction between hydrology and ML as separate paradigms. Here, we introduce physics-aware ML as a transformative approach to overcome the perceived barrier and revolutionize both fields. Specifically, we present a comprehensive review of the physics-aware ML methods, building a structured community (PaML) of existing methodologies that integrate prior physical knowledge or physics-based modeling into ML. We systematically analyze these PaML methodologies with respect to four aspects: physical data-guided ML, physics-informed ML, physics-embedded ML, and physics-aware hybrid learning. PaML facilitates ML-aided hypotheses, accelerating insights from big data and fostering scientific discoveries. We first conduct a systematic review of hydrology in PaML, including rainfall-runoff hydrological processes and hydrodynamic processes, and highlight the most promising and challenging directions for different objectives and PaML methods. Finally, a new PaML-based hydrology platform, termed HydroPML, is released as a foundation for hydrological applications. HydroPML enhances the explainability and causality of ML and lays the groundwork for the digital water cycle's realization. The HydroPML platform is publicly available at https://hydropml.github.io/. | 翻訳日:2024-06-22 06:37:18 公開日:2024-06-20 |
# AdaMesh: 適応型音声駆動型顔アニメーションのための個人化顔表情と頭部電位
AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2310.07236v3 ) ライセンス: Link先を確認 | Liyang Chen, Weihong Bao, Shun Lei, Boshi Tang, Zhiyong Wu, Shiyin Kang, Haozhi Huang, Helen Meng, | (参考訳) 音声駆動型3D顔アニメーションは、近年広く研究されている運転音声と同期した顔の動きを生成することを目的としている。
既存の作品は、顔の表情や頭ポーズスタイルなど、世代ごとの話し方を無視している。
いくつかの作品は、微調整モジュールによって個人性を捉えることを意図している。
しかし、トレーニングデータの制限は、鮮明さの欠如につながります。
本研究では,約10秒の参照ビデオからパーソナライズされた発話スタイルを学習し,鮮明な表情と頭部ポーズを生成する,適応型音声駆動型顔アニメーション手法であるAdaMeshを提案する。
具体的には,表情適応器を微調整するためのMoLoRA(mixed-of-low-rank adaptation)を提案する。
パーソナライズされたポーズスタイルに対しては、個別のポーズを事前に構築し、微調整なしでセマンティックなポーズスタイルマトリックスに埋め込まれた適切なスタイルを検索することで、ポーズアダプタを提案する。
広範にわたる実験結果から,本手法は最先端の手法より優れ,参照ビデオにおける発話スタイルを保ち,鮮やかな顔のアニメーションを生成することがわかった。
追加のビデオとコードはhttps://adamesh.github.io.comで入手できる。
Speech-driven 3D facial animation aims at generating facial movements that are synchronized with the driving speech, which has been widely explored recently. Existing works mostly neglect the person-specific talking style in generation, including facial expression and head pose styles. Several works intend to capture the personalities by fine-tuning modules. However, limited training data leads to the lack of vividness. In this work, we propose AdaMesh, a novel adaptive speech-driven facial animation approach, which learns the personalized talking style from a reference video of about 10 seconds and generates vivid facial expressions and head poses. Specifically, we propose mixture-of-low-rank adaptation (MoLoRA) to fine-tune the expression adapter, which efficiently captures the facial expression style. For the personalized pose style, we propose a pose adapter by building a discrete pose prior and retrieving the appropriate style embedding with a semantic-aware pose style matrix without fine-tuning. Extensive experimental results show that our approach outperforms state-of-the-art methods, preserves the talking style in the reference video, and generates vivid facial animation. The supplementary video and code will be available at https://adamesh.github.io. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# 1つの重成分をもつ2成分系の断熱摂動理論
Adiabatic perturbation theory for two-component systems with one heavy component ( http://arxiv.org/abs/2310.09189v2 ) ライセンス: Link先を確認 | Ryan Requist, | (参考訳) 2成分量子系の重成分の運動エネルギーに関する摂動理論が導入された。
逆重質量における2階から2階までの正確な実効ハミルトニアンが導出される。
エルミート質量テンソルと複素数値ベクトルポテンシャルを持つ新しい運動エネルギー作用素を含む。
実効ハミルトニアンにおけるすべてのポテンシャルは共変微分と可解作用素の項で表すことができる。
この理論の最も顕著な応用は電子と核の系である。
理論の精度はモデル二原子分子で数値的に検証され、ビブロニックカップリングモデルで解析的に検証される。
Perturbation theory with respect to the kinetic energy of the heavy component of a two-component quantum system is introduced. An effective Hamiltonian that is accurate to second order in the inverse heavy mass is derived. It contains a new form of kinetic energy operator with a Hermitian mass tensor and a complex-valued vector potential. All of the potentials in the effective Hamiltonian can be expressed in terms of covariant derivatives and a resolvent operator. The most salient application of the theory is to systems of electrons and nuclei. The accuracy of the theory is verified numerically in a model diatomic molecule and analytically in a vibronic coupling model. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# Pseudo-Bayesian Optimization
Pseudo-Bayesian Optimization ( http://arxiv.org/abs/2310.09766v2 ) ライセンス: Link先を確認 | Haoxian Chen, Henry Lam, | (参考訳) ベイズ最適化は高価なブラックボックス関数を最適化するための一般的なアプローチである。
その鍵となる考え方は、サロゲートモデルを用いて目的を近似し、重要なことは、エクスプロレーション-探索のバランスをとるクエリポイントのシーケンシャルな探索を可能にする関連する不確実性を定量化することである。
ガウス過程(GP)は、ベイジアンが導いた不確実な定量化力とモデリングの柔軟性のおかげで、サロゲートモデルの主要な候補となっている。
しかし、その課題は、収束特性がより不透明な可能性のある代替案の配列を刺激した。
そこで本研究では,GP法を越えて適用可能なブラックボックス最適化収束を保証するため,最小限の要件を付与する公理的枠組みについて検討する。
さらに、Pseudo-Bayesian Optimizationと呼ばれるフレームワークの設計自由を利用して、経験的に優れたアルゴリズムを構築する。
特に, 単純な局所回帰と, 不確実性を定量化するために適切な「ランダム化事前」構成を用いることで, 収束を保証するだけでなく, 高次元の合成実験からリアルなハイパーパラメータチューニング, ロボット応用に至るまで, 常に最先端のベンチマークより優れていることを示す。
Bayesian Optimization is a popular approach for optimizing expensive black-box functions. Its key idea is to use a surrogate model to approximate the objective and, importantly, quantify the associated uncertainty that allows a sequential search of query points that balance exploitation-exploration. Gaussian process (GP) has been a primary candidate for the surrogate model, thanks to its Bayesian-principled uncertainty quantification power and modeling flexibility. However, its challenges have also spurred an array of alternatives whose convergence properties could be more opaque. Motivated by these, we study in this paper an axiomatic framework that elicits the minimal requirements to guarantee black-box optimization convergence that could apply beyond GP-based methods. Moreover, we leverage the design freedom in our framework, which we call Pseudo-Bayesian Optimization, to construct empirically superior algorithms. In particular, we show how using simple local regression, and a suitable "randomized prior" construction to quantify uncertainty, not only guarantees convergence but also consistently outperforms state-of-the-art benchmarks in examples ranging from high-dimensional synthetic experiments to realistic hyperparameter tuning and robotic applications. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# センチネルの高分解能化と道路検出-2
High-Resolution Building and Road Detection from Sentinel-2 ( http://arxiv.org/abs/2310.11622v2 ) ライセンス: Link先を確認 | Wojciech Sirko, Emmanuel Asiedu Brempong, Juliana T. C. Marcos, Abigail Annkah, Abel Korme, Mohammed Alewi Hassen, Krishna Sapkota, Tomer Shekel, Abdoulaye Diack, Sella Nevo, Jason Hickey, John Quinn, | (参考訳) 建物や道路をリモートセンシングで自動的にマッピングするには、高解像度の画像が必要である。
本研究では,50cmのビルディングと道路セグメンテーションマスクを生成するために,複数の10m解像度のSentinel-2画像を使用する方法を示す。
これは、Sentinel-2画像にアクセス可能な‘student’モデルをトレーニングして、対応する高解像度画像にアクセス可能な‘Teacher’モデルの予測を再現する。
予測には教師モデルの細部が全て含まれていないが, セグメンテーションの精度は85.3% mIoUに比べて78.3% mIoUとなる。
また,実数に対して R^2 = 0.91 となるSentinel-2 パッチの個々の建物をカウントする方法についても述べる。
この研究は、これまで高解像度の衛星画像でしかできなかった様々なタスクに、無料で利用できるSentinel-2画像を使用する新たな可能性を開く。
Mapping buildings and roads automatically with remote sensing typically requires high-resolution imagery, which is expensive to obtain and often sparsely available. In this work we demonstrate how multiple 10 m resolution Sentinel-2 images can be used to generate 50 cm resolution building and road segmentation masks. This is done by training a `student' model with access to Sentinel-2 images to reproduce the predictions of a `teacher' model which has access to corresponding high-resolution imagery. While the predictions do not have all the fine detail of the teacher model, we find that we are able to retain much of the performance: for building segmentation we achieve 78.3% mIoU, compared to the high-resolution teacher model accuracy of 85.3% mIoU. We also describe a related method for counting individual buildings in a Sentinel-2 patch which achieves R^2 = 0.91 against true counts. This work opens up new possibilities for using freely available Sentinel-2 imagery for a range of tasks that previously could only be done with high-resolution satellite imagery. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# リー代数畳み込みによるほぼ等分散
Almost Equivariance via Lie Algebra Convolutions ( http://arxiv.org/abs/2310.13164v6 ) ライセンス: Link先を確認 | Daniel McNeela, | (参考訳) 近年,集団行動に関するモデルの同値性は,機械学習における研究の重要課題となっている。
既存のニューラルネットワークアーキテクチャの組込み等価性の解析と、明確に「等価」な構造モデルの研究は、彼ら自身の権利において重要な研究領域となっている。
しかし、特定の群同値のアーキテクチャを付与することは、モデルが期待するデータ変換のタイプに強い優先順位を課す。
厳密な同変モデルは対称性を強制するが、実世界のデータは必ずしもそのような厳密な等式に従わない。
そのような場合、厳密な同値の先行は実際には強すぎることを証明し、モデルが過小評価される。
したがって、本研究では、近縁なトピック、ほぼ同値なトピックについて研究する。
我々は、ほぼ同値の定義を提供し、リー群のリー代数に訴えることで、モデルのほとんど同値を符号化する実践的な方法を与える。
具体的には、リー代数の畳み込みを定義し、それらがリー群畳み込みに対していくつかの利点を与えることを示す。
そこから、同値と等尺性の概念とほぼ等尺性およびほぼ等尺性の概念の関連性を示す。
2つの存在定理を証明し、1つは多様体の等距離の有界距離におけるほぼ等距離の存在を示し、もう1つはヒルベルト空間の逆を示す。
これらの定理を拡張して、群作用と函数類に関する一定の制約を条件として、完全同変埋め込み函数の有界距離内のほぼ同変多様体埋め込みの存在を証明する。
最後に、完全同変でほぼ同変な設定でデータセットに対してベンチマークを行うことにより、我々のアプローチの有効性を実証する。
Recently, the equivariance of models with respect to a group action has become an important topic of research in machine learning. Analysis of the built-in equivariance of existing neural network architectures, as well as the study of building models that explicitly "bake in" equivariance, have become significant research areas in their own right. However, imbuing an architecture with a specific group equivariance imposes a strong prior on the types of data transformations that the model expects to see. While strictly-equivariant models enforce symmetries, real-world data does not always conform to such strict equivariances. In such cases, the prior of strict equivariance can actually prove too strong and cause models to underperform. Therefore, in this work we study a closely related topic, that of almost equivariance. We provide a definition of almost equivariance and give a practical method for encoding almost equivariance in models by appealing to the Lie algebra of a Lie group. Specifically, we define Lie algebra convolutions and demonstrate that they offer several benefits over Lie group convolutions, including being well-defined for non-compact Lie groups having non-surjective exponential map. From there, we demonstrate connections between the notions of equivariance and isometry and those of almost equivariance and almost isometry. We prove two existence theorems, one showing the existence of almost isometries within bounded distance of isometries of a manifold, and another showing the converse for Hilbert spaces. We extend these theorems to prove the existence of almost equivariant manifold embeddings within bounded distance of fully equivariant embedding functions, subject to certain constraints on the group action and the function class. Finally, we demonstrate the validity of our approach by benchmarking against datasets in fully equivariant and almost equivariant settings. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# ピック・オール・ラベル・ロスを用いた多ラベル学習における神経崩壊
Neural Collapse in Multi-label Learning with Pick-all-label Loss ( http://arxiv.org/abs/2310.15903v4 ) ライセンス: Link先を確認 | Pengyu Li, Xiao Li, Yutong Wang, Qing Qu, | (参考訳) マルチラベル分類(MLab)タスクのためのディープニューラルネットワークについて,ニューラル崩壊レンズ(NC)を用いて検討した。
先行研究は多クラス分類設定に限られており、最終層の特徴として以下の性質からなるNC現象が顕著に発見されている。
(i)各クラス内の特徴の変数は0に崩壊する。
二 特徴の集合は、等角タイトフレーム(ETF)を形成して、
3)最後の層分類器は、ある程度のスケーリングで機能に崩壊する。
我々は,本研究を多ラベル学習に一般化し,一般化されたNC現象がMLab NCと呼ばれる「ピック・オール・ラベル」の定式化を伴うことを初めて証明する。
ETFの幾何学は単一ラベルを持つ特徴に対して一貫しているが、マルチラベルシナリオでは、単一ラベルのインスタンスに対して、複数のラベルを持つ特徴の手段がスケールした平均値となる「タグワイド平均」特性と呼ばれる独自の組合せ的側面を導入する。
理論的には、これらの特徴について適切な仮定の下で、ピック・オール・ラベル・クロスエントロピー損失の唯一の大域最適化器がマルチラベルNCを満たすことを証明している。
実際に我々は,MLabの学習において,より効率的なトレーニング技術を用いて,より優れたテストパフォーマンスを実現することができることを実証した。
We study deep neural networks for the multi-label classification (MLab) task through the lens of neural collapse (NC). Previous works have been restricted to the multi-class classification setting and discovered a prevalent NC phenomenon comprising of the following properties for the last-layer features: (i) the variability of features within every class collapses to zero, (ii) the set of feature means form an equi-angular tight frame (ETF), and (iii) the last layer classifiers collapse to the feature mean upon some scaling. We generalize the study to multi-label learning, and prove for the first time that a generalized NC phenomenon holds with the "pick-all-label" formulation, which we term as MLab NC. While the ETF geometry remains consistent for features with a single label, multi-label scenarios introduce a unique combinatorial aspect we term the "tag-wise average" property, where the means of features with multiple labels are the scaled averages of means for single-label instances. Theoretically, under proper assumptions on the features, we establish that the only global optimizer of the pick-all-label cross-entropy loss satisfy the multi-label NC. In practice, we demonstrate that our findings can lead to better test performance with more efficient training techniques for MLab learning. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# 脳遺伝子転写の圧縮的発現
Compressed representation of brain genetic transcription ( http://arxiv.org/abs/2310.16113v3 ) ライセンス: Link先を確認 | James K Ruffle, Henry Watkins, Robert J Gray, Harpreet Hyare, Michel Thiebaut de Schotten, Parashkev Nachev, | (参考訳) 脳の構造は複雑すぎて、圧縮された表現を使わずに直感的に調査することができず、その変化をコンパクトでナビゲート可能な空間に投影する。
この課題は、解剖学的および転写学的パターンの結合の複雑さが最大圧縮を要求する遺伝子表現のような高次元データにおいて特に困難である。
標準的な主成分分析(PCA)を用いることで、計算効率は、特に大きな圧縮比において、限られた表現率によってオフセットされる。
ここでは、最も広く支持されている線形および非線形な手法-PCA、カーネルPCA、非負行列分解(NMF)、t-stochastic neighbor embedding(T-SNE)、一様多様体近似および投影(UMAP)、深部自己符号化量子化再構成フィデリティ、解剖学的コヒーレンス、および信号伝達、微細構造、代謝目標に関する予測ユーティリティに基づく圧縮表現を体系的に比較する。
ディープオートエンコーダは、人間の脳における転写パターンの参照標準としての使用をサポートするため、パフォーマンスとターゲットドメインのすべての指標において優れた表現が得られることを示す。
The architecture of the brain is too complex to be intuitively surveyable without the use of compressed representations that project its variation into a compact, navigable space. The task is especially challenging with high-dimensional data, such as gene expression, where the joint complexity of anatomical and transcriptional patterns demands maximum compression. Established practice is to use standard principal component analysis (PCA), whose computational felicity is offset by limited expressivity, especially at great compression ratios. Employing whole-brain, voxel-wise Allen Brain Atlas transcription data, here we systematically compare compressed representations based on the most widely supported linear and non-linear methods-PCA, kernel PCA, non-negative matrix factorization (NMF), t-stochastic neighbour embedding (t-SNE), uniform manifold approximation and projection (UMAP), and deep auto-encoding-quantifying reconstruction fidelity, anatomical coherence, and predictive utility with respect to signalling, microstructural, and metabolic targets. We show that deep auto-encoders yield superior representations across all metrics of performance and target domains, supporting their use as the reference standard for representing transcription patterns in the human brain. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# 生成拡散モデルの統計熱力学:相転移、対称性の破れ、臨界不安定性
The statistical thermodynamics of generative diffusion models: Phase transitions, symmetry breaking and critical instability ( http://arxiv.org/abs/2310.17467v4 ) ライセンス: Link先を確認 | Luca Ambrogioni, | (参考訳) 生成拡散モデルは、機械学習と生成モデリングの多くの領域において、目覚ましい性能を達成した。
これらのモデルの背後にある基本的な考え方は、非平衡物理学、変分推論、確率計算であるが、この記事では、これらのモデルの多くの側面が平衡統計力学のツールを用いて理解可能であることを示す。
この再構成を用いて、生成拡散モデルが対称性の破れ現象に対応する2次相転移を行うことを示す。
これらの相転移は常に平均場普遍性クラスであり、生成力学における自己整合状態の結果であることを示す。
相転移から生じる臨界不安定性は、その生成能力の中心にあり、これは平均場臨界指数によって特徴づけられる。
最後に、生成過程の動的方程式は、系を熱平衡に保ちながら自由エネルギーを最小化する確率的断熱変換と解釈できることを示す。
Generative diffusion models have achieved spectacular performance in many areas of machine learning and generative modeling. While the fundamental ideas behind these models come from non-equilibrium physics, variational inference and stochastic calculus, in this paper we show that many aspects of these models can be understood using the tools of equilibrium statistical mechanics. Using this reformulation, we show that generative diffusion models undergo second-order phase transitions corresponding to symmetry breaking phenomena. We show that these phase-transitions are always in a mean-field universality class, as they are the result of a self-consistency condition in the generative dynamics. We argue that the critical instability that arises from the phase transitions lies at the heart of their generative capabilities, which are characterized by a set of mean-field critical exponents. Finally, we show that the dynamic equation of the generative process can be interpreted as a stochastic adiabatic transformation that minimizes the free energy while keeping the system in thermal equilibrium. | 翻訳日:2024-06-22 06:27:34 公開日:2024-06-20 |
# 圧縮量子回路を用いた断熱量子コンピューティングに向けて
Towards adiabatic quantum computing using compressed quantum circuits ( http://arxiv.org/abs/2311.05544v3 ) ライセンス: Link先を確認 | Conor Mc Keever, Michael Lubasch, | (参考訳) 本稿では,量子回路を最適化するテンソルネットワークアルゴリズムについて述べる。
ダイアバティック遷移を抑制するため、最適化に反断熱駆動を組み込み、変分行列積演算子を用いて断熱ゲージポテンシャルを表現する。
伝統的に、トロッター積公式は断熱時間進化を量子回路に変換するために用いられ、反断熱駆動の追加は時間ステップ当たりの回路深さを増加させる。
代わりに、固定深さのパラメータ化量子回路を古典的に最適化し、多くの時間ステップで反断熱駆動とともに、同時に断熱進化を捉える。
これらの方法は、横方向および縦方向の場の量子イジング鎖の基底状態に応用される。
古典的に最適化された回路は、トロッター積公式を著しく上回ることを示す。
さらに,この手法が組合せ最適化にどのように利用できるかについて議論する。
We describe tensor network algorithms to optimize quantum circuits for adiabatic quantum computing. To suppress diabatic transitions, we include counterdiabatic driving in the optimization and utilize variational matrix product operators to represent adiabatic gauge potentials. Traditionally, Trotter product formulas are used to turn adiabatic time evolution into quantum circuits and the addition of counterdiabatic driving increases the circuit depth per time step. Instead, we classically optimize a parameterized quantum circuit of fixed depth to simultaneously capture adiabatic evolution together with counterdiabatic driving over many time steps. The methods are applied to the ground state preparation of quantum Ising chains with transverse and longitudinal fields. We show that the classically optimized circuits can significantly outperform Trotter product formulas. Additionally, we discuss how the approach can be used for combinatorial optimization. | 翻訳日:2024-06-22 06:17:50 公開日:2024-06-20 |
# 脆弱性管理におけるChatGPTの機能探索
Exploring ChatGPT's Capabilities on Vulnerability Management ( http://arxiv.org/abs/2311.06530v2 ) ライセンス: Link先を確認 | Peiyu Liu, Junming Liu, Lirong Fu, Kangjie Lu, Yifan Xia, Xuhong Zhang, Wenzhi Chen, Haiqin Weng, Shouling Ji, Wenhai Wang, | (参考訳) 最近、ChatGPTはコード分析領域から大きな注目を集めています。
以前の研究は、ChatGPTが抽象構文木生成のような基本的なコード解析タスクを処理する能力を持っていることを示している。
しかし、ChatGPTがセキュリティ関連性の予測やパッチの正当性など、コード構文、プログラムセマンティクス、関連する手動コメントなど、さまざまな側面を全面的に理解する必要があるような、より複雑な現実的な脆弱性管理タスクを完了できるかどうかは不明である。
本稿では,70,346個のサンプルを含む大規模データセットを用いて,完全な脆弱性管理プロセスを含む6つのタスクにおけるChatGPTの機能について検討する。
各タスクに対して、ChatGPTとSOTAのアプローチを比較し、異なるプロンプトの影響を調査し、困難を調査する。
結果は、脆弱性管理を支援するためにChatGPTを活用する有望な可能性を示唆している。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
さらに,ChatGPTが抱える困難が明らかとなり,将来的な方向性に光を当てた。
例えば、プロンプトでランダムなデモ例を直接提供しても、脆弱性管理における優れたパフォーマンスを一貫して保証することはできない。
対照的に、ChatGPTを自己ヒューリスティックな方法で活用 -- 実演例自体から専門知識を抽出し、抽出された専門知識をプロンプトに統合することは、有望な研究方向である。
さらにChatGPTは、プロンプトの情報を誤解し、誤用することがある。
したがって、ChatGPTが無関係なコンテンツよりも有益な情報に集中するよう効果的に導くことは、まだ未解決の問題である。
Recently, ChatGPT has attracted great attention from the code analysis domain. Prior works show that ChatGPT has the capabilities of processing foundational code analysis tasks, such as abstract syntax tree generation, which indicates the potential of using ChatGPT to comprehend code syntax and static behaviors. However, it is unclear whether ChatGPT can complete more complicated real-world vulnerability management tasks, such as the prediction of security relevance and patch correctness, which require an all-encompassing understanding of various aspects, including code syntax, program semantics, and related manual comments. In this paper, we explore ChatGPT's capabilities on 6 tasks involving the complete vulnerability management process with a large-scale dataset containing 70,346 samples. For each task, we compare ChatGPT against SOTA approaches, investigate the impact of different prompts, and explore the difficulties. The results suggest promising potential in leveraging ChatGPT to assist vulnerability management. One notable example is ChatGPT's proficiency in tasks like generating titles for software bug reports. Furthermore, our findings reveal the difficulties encountered by ChatGPT and shed light on promising future directions. For instance, directly providing random demonstration examples in the prompt cannot consistently guarantee good performance in vulnerability management. By contrast, leveraging ChatGPT in a self-heuristic way -- extracting expertise from demonstration examples itself and integrating the extracted expertise in the prompt is a promising research direction. Besides, ChatGPT may misunderstand and misuse the information in the prompt. Consequently, effectively guiding ChatGPT to focus on helpful information rather than the irrelevant content is still an open problem. | 翻訳日:2024-06-22 06:17:50 公開日:2024-06-20 |
# 競合攻撃に対するグラフニューラルネットワークを改良した契約型システム
Contractive Systems Improve Graph Neural Networks Against Adversarial Attacks ( http://arxiv.org/abs/2311.06942v2 ) ライセンス: Link先を確認 | Moshe Eliasof, Davide Murari, Ferdia Sherry, Carola-Bibiane Schönlieb, | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフベースのタスクに対処するための重要なコンポーネントとして、自らを確立している。
彼らの顕著な成功にもかかわらず、GNNは相変わらず敵の攻撃の形で摂動を入力できる。
本稿では, 収縮力学系のレンズを用いて, 対向摂動に対してGNNを補強する革新的な手法を提案する。
本手法は,GNNの強靭性を改善するために,縮退特性を持つ微分方程式に基づくグラフニューラル層を導入する。
提案手法の特筆すべき特徴は,ノード特徴と隣接行列の同時学習進化であり,入力特徴の摂動とグラフの接続性に対するモデルロバストネスの本質的な向上をもたらす。
我々は、数学的に新しいアーキテクチャの基盤を導き、その期待される振る舞いを推論するための理論的洞察を提供する。
提案手法の有効性を実世界のベンチマークを用いて実証し,既存手法と比較した場合の読み出しや性能改善について述べる。
Graph Neural Networks (GNNs) have established themselves as a key component in addressing diverse graph-based tasks. Despite their notable successes, GNNs remain susceptible to input perturbations in the form of adversarial attacks. This paper introduces an innovative approach to fortify GNNs against adversarial perturbations through the lens of contractive dynamical systems. Our method introduces graph neural layers based on differential equations with contractive properties, which, as we show, improve the robustness of GNNs. A distinctive feature of the proposed approach is the simultaneous learned evolution of both the node features and the adjacency matrix, yielding an intrinsic enhancement of model robustness to perturbations in the input features and the connectivity of the graph. We mathematically derive the underpinnings of our novel architecture and provide theoretical insights to reason about its expected behavior. We demonstrate the efficacy of our method through numerous real-world benchmarks, reading on par or improved performance compared to existing methods. | 翻訳日:2024-06-22 06:17:50 公開日:2024-06-20 |
# テンソルネットワークから見たタスクスケジューリング最適化
Task Scheduling Optimization from a Tensor Network Perspective ( http://arxiv.org/abs/2311.10433v2 ) ライセンス: Link先を確認 | Alejandro Mata Ali, Iñigo Perez Delgado, Beatriz García Markaida, Aitor Moreno Fdez. de Leceta, | (参考訳) 本稿では,量子インスパイアされたテンソルネットワーク技術を用いた産業プラントにおけるタスク最適化手法を提案する。
本手法は,機械の集合上のタスクと制約の集合との最適な組み合わせを,すべての可能な組み合わせを評価することなく得られる。
我々は、全ての可能な組み合わせで量子システムをシミュレートし、制約を満たすために想像上の時間進化と一連の投影を実行する。
圧縮法,反復アルゴリズム,遺伝的アルゴリズムを用いて,そのスケーラビリティを向上し,シミュレーションケースで得られた結果を示す。
We present a novel method for task optimization in industrial plants using quantum-inspired tensor network technology. This method allows us to obtain the best possible combination of tasks on a set of machines with a set of constraints without having to evaluate all possible combinations. We simulate a quantum system with all possible combinations, perform an imaginary time evolution and a series of projections to satisfy the constraints. We improve its scalability by means of a compression method, an iterative algorithm, and a genetic algorithm, and show the results obtained on simulated cases. | 翻訳日:2024-06-22 06:17:50 公開日:2024-06-20 |
# 自動車保険価格におけるバイアスの測定と緩和
Measuring and Mitigating Biases in Motor Insurance Pricing ( http://arxiv.org/abs/2311.11900v2 ) ライセンス: Link先を確認 | Mulah Moriah, Franck Vermet, Arthur Charpentier, | (参考訳) 非生命保険部門は高度に競争力があり厳格に規制された枠組みで運営されており、価格戦略の定式化において重要な問題に直面している。
保険会社は、様々な統計手法と利用可能なデータを活用して、市場競争のダイナミクスを調整しつつ、包括的な企業戦略と整合した最適な価格構造を構築することを義務付けられている。
保険が果たす基本的な社会的役割を考えると、プレミアムレートは規制当局による厳格な監視の対象となっている。
これらのレートは透明性、説明可能性、倫理的考慮の原則に従わなければならない。
その結果、価格設定の行為は単なる統計計算を超越し、戦略的および社会的要因の重みを担っている。
これらの多面的懸念は、保険会社が様々な変数を考慮して公平なプレミアムを確立することを促す可能性がある。
例えば、規制は、それぞれの企業戦略に従って、政策株主の性別や相互主義集団のダイナミクスなどの要因を考慮して、公平なプレミアムの提供を委任する。
年齢によるプレミアムフェアネスも義務付けられている。
ある保険領域では、重篤な疾患や障害の存在などの変数が、公正性を評価するための新しい次元として現れている。
保険会社が特定の変数に対してより公平な価格戦略を採用するよう促すモチベーション要因にかかわらず、保険会社は、一貫性とパフォーマンスの基準を維持しつつ、価格設定に固有の倫理的バイアスを定義し、測定し、最終的に軽減する能力を有する必要がある。
本研究は,自動車保険の文脈において,これらの取り組みの総合的なツールセットを提供し,その有効性を評価することを目的とする。
The non-life insurance sector operates within a highly competitive and tightly regulated framework, confronting a pivotal juncture in the formulation of pricing strategies. Insurers are compelled to harness a range of statistical methodologies and available data to construct optimal pricing structures that align with the overarching corporate strategy while accommodating the dynamics of market competition. Given the fundamental societal role played by insurance, premium rates are subject to rigorous scrutiny by regulatory authorities. These rates must conform to principles of transparency, explainability, and ethical considerations. Consequently, the act of pricing transcends mere statistical calculations and carries the weight of strategic and societal factors. These multifaceted concerns may drive insurers to establish equitable premiums, taking into account various variables. For instance, regulations mandate the provision of equitable premiums, considering factors such as policyholder gender or mutualist group dynamics in accordance with respective corporate strategies. Age-based premium fairness is also mandated. In certain insurance domains, variables such as the presence of serious illnesses or disabilities are emerging as new dimensions for evaluating fairness. Regardless of the motivating factor prompting an insurer to adopt fairer pricing strategies for a specific variable, the insurer must possess the capability to define, measure, and ultimately mitigate any ethical biases inherent in its pricing practices while upholding standards of consistency and performance. This study seeks to provide a comprehensive set of tools for these endeavors and assess their effectiveness through practical application in the context of automobile insurance. | 翻訳日:2024-06-22 06:17:50 公開日:2024-06-20 |
# CDEval: 大規模言語モデルの文化的次元を測定するためのベンチマーク
CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models ( http://arxiv.org/abs/2311.16421v3 ) ライセンス: Link先を確認 | Yuhang Wang, Yanxu Zhu, Chao Kong, Shuyu Wei, Xiaoyuan Yi, Xing Xie, Jitao Sang, | (参考訳) LLM(Large Language Models)のスケーリングは、その能力を劇的に向上させてきたため、責任と倫理的使用を保証するためにアライメントの問題に注目が集まっている。
既存のアライメント努力は、HHH原則のような普遍的価値に主に集中しているが、本質的には多元的かつ多様である文化の側面には十分な注意が払われていない。
この研究は、LLMの文化的側面を評価することを目的とした新しいベンチマークであるCDEvalを紹介した。
CDEvalは、GPT-4の自動生成と人間による検証の両方を組み込んだもので、7つの領域にわたる6つの文化的次元をカバーしている。
我々の総合的な実験は、主要なLCMの文化に関する興味深い洞察を提供し、様々な次元と領域の相違点と相違点の両方を強調します。
この知見は, LLM開発における文化的考慮事項の統合の重要性, 特に多様な文化的状況における応用の重要性を浮き彫りにした。
CDEvalを通じて、文化的な側面を含むことでLCMアライメント研究の地平を広げることを目指しており、LCMの将来の発展と評価のためのより包括的な枠組みを提供する。
このベンチマークは、LLMにおける文化的研究の貴重なリソースとなり、より文化的に認識され、センシティブなモデルへの道を開いた。
As the scaling of Large Language Models (LLMs) has dramatically enhanced their capabilities, there has been a growing focus on the alignment problem to ensure their responsible and ethical use. While existing alignment efforts predominantly concentrate on universal values such as the HHH principle, the aspect of culture, which is inherently pluralistic and diverse, has not received adequate attention. This work introduces a new benchmark, CDEval, aimed at evaluating the cultural dimensions of LLMs. CDEval is constructed by incorporating both GPT-4's automated generation and human verification, covering six cultural dimensions across seven domains. Our comprehensive experiments provide intriguing insights into the culture of mainstream LLMs, highlighting both consistencies and variations across different dimensions and domains. The findings underscore the importance of integrating cultural considerations in LLM development, particularly for applications in diverse cultural settings. Through CDEval, we aim to broaden the horizon of LLM alignment research by including cultural dimensions, thus providing a more holistic framework for the future development and evaluation of LLMs. This benchmark serves as a valuable resource for cultural studies in LLMs, paving the way for more culturally aware and sensitive models. | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# 6G用ワイヤレスネットワークデジタルツイン : キーエンバータとしてのジェネレーティブAI
Wireless Network Digital Twin for 6G: Generative AI as A Key Enabler ( http://arxiv.org/abs/2311.17451v3 ) ライセンス: Link先を確認 | Zhenyu Tao, Wei Xu, Yongming Huang, Xiaoyun Wang, Xiaohu You, | (参考訳) デジタル・ツイン(Digital twin)は、デジタル・レプリカを同期させることで物理的実体のエミュレーション、評価、最適化を可能にするもので、複雑な無線ネットワークのための有望な技術として注目されている。
6Gでは、多くの革新的な無線技術とネットワークアーキテクチャが、無線ネットワークデジタルツインを確立する上で新たな課題を提起している。
これらの課題に対処するために、人工知能(AI)、特に繁栄する生成AIは、潜在的な解決策として現れます。
本稿では, 複雑なネットワークアーキテクチャ, ネットワーク規模, 広範囲にわたるカバレッジ, 6G 時代における多様なアプリケーションシナリオを考慮した, 無線ネットワークディジタル双生児の新たな前提条件について論じる。
さらに,トランスフォーマーや拡散モデルなどの生成AIを用いて,物理的デジタルモデリング,同期,スライシング能力など,多視点から6Gディジタル双生児に力を与える方法についても検討する。
その後、メッセージレベルとポリシーレベルの両方で、階層的生成型AI対応無線ネットワークディジタルツインを提案し、その有効性と有効性を検証するために、数値的な結果を伴う典型的なユースケースを提供する。
最後に6G時代の無線ネットワークディジタル双生児のオープンな研究課題について論じる。
Digital twin, which enables emulation, evaluation, and optimization of physical entities through synchronized digital replicas, has gained increasing attention as a promising technology for intricate wireless networks. For 6G, numerous innovative wireless technologies and network architectures have posed new challenges in establishing wireless network digital twins. To tackle these challenges, artificial intelligence (AI), particularly the flourishing generative AI, emerges as a potential solution. In this article, we discuss emerging prerequisites for wireless network digital twins considering the complicated network architecture, tremendous network scale, extensive coverage, and diversified application scenarios in the 6G era. We further explore the applications of generative AI, such as Transformer and diffusion model, to empower the 6G digital twin from multiple perspectives including physical-digital modeling, synchronization, and slicing capability. Subsequently, we propose a hierarchical generative AI-enabled wireless network digital twin at both the message-level and policy-level, and provide a typical use case with numerical results to validate the effectiveness and efficiency. Finally, open research issues for wireless network digital twins in the 6G era are discussed. | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# 過パラメータ化がシャープネス認識最小化に及ぼす影響
Critical Influence of Overparameterization on Sharpness-aware Minimization ( http://arxiv.org/abs/2311.17539v3 ) ライセンス: Link先を確認 | Sungbin Shin, Dongyeop Lee, Maksym Andriushchenko, Namhoon Lee, | (参考訳) 過パラメータ化されたニューラルネットワークのトレーニングは、同じレベルのトレーニング損失にもかかわらず、異なる一般化能力の最小化を達成できる。
一方、ミニマのシャープさと一般化誤差の間に強い相関関係を示す証拠が示され、フラットなミニマをより一般化可能な解として明示的に見つける最適化手法の開発が進められている。
しかし、過パラメータ化に対する現代の関係にもかかわらず、このシャープネス・アウェアの最小化(SAM)戦略は、過パラメータ化の影響を正確には研究されていない。
そこで本研究では, SAMの過パラメータ化過程を解析し, SAMに対する過パラメータ化の影響を示唆する経験的および理論的結果の両方を提示する。
まず、視覚、言語、グラフ、強化学習領域にまたがる広範な数値実験を行い、SAMが過パラメータ化によって常に改善されていることを示す。
次に、この現象は、拡大した解空間間の相互作用と、過パラメータ化による暗黙バイアスの増加によるものとみなす。
さらに、SAMが達成できるオーバーパラメータ化の複数の理論的利点を証明した。
(i)SGDと比較して、より均一なヘッセンモーメントを持つミニマ。
(ii)線形速度でのはるかに高速な収束、及び
3)2層ネットワークにおけるテストエラーの低減。
最後に,ラベルノイズや疎性の設定において,過パラメータ化の効果がより顕著に顕著であること,そして十分な正規化が必要であることを明らかにする。
Training an overparameterized neural network can yield minimizers of different generalization capabilities despite the same level of training loss. Meanwhile, with evidence that suggests a strong correlation between the sharpness of minima and their generalization errors, increasing efforts have been made to develop optimization methods to explicitly find flat minima as more generalizable solutions. Despite its contemporary relevance to overparameterization, however, this sharpness-aware minimization (SAM) strategy has not been studied much yet as to exactly how it is affected by overparameterization. Hence, in this work, we analyze SAM under overparameterization of varying degrees and present both empirical and theoretical results that indicate a critical influence of overparameterization on SAM. At first, we conduct extensive numerical experiments across vision, language, graph, and reinforcement learning domains and show that SAM consistently improves with overparameterization. Next, we attribute this phenomenon to the interplay between the enlarged solution space and increased implicit bias from overparameterization. Further, we prove multiple theoretical benefits of overparameterization for SAM to attain (i) minima with more uniform Hessian moments compared to SGD, (ii) much faster convergence at a linear rate, and (iii) lower test error for two-layer networks. Last but not least, we discover that the effect of overparameterization is more significantly pronounced in practical settings of label noise and sparsity, and yet, sufficient regularization is necessary. | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# TaskWeaver: コードファーストのエージェントフレームワーク
TaskWeaver: A Code-First Agent Framework ( http://arxiv.org/abs/2311.17541v3 ) ライセンス: Link先を確認 | Bo Qiao, Liqun Li, Xu Zhang, Shilin He, Yu Kang, Chaoyun Zhang, Fangkai Yang, Hang Dong, Jue Zhang, Lu Wang, Minghua Ma, Pu Zhao, Si Qin, Xiaoting Qin, Chao Du, Yong Xu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, | (参考訳) 大きな言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示しており、チャットボットや仮想アシスタントのようなアプリケーションで広く使われている。
しかし、既存のLLMフレームワークは、リッチなデータ構造でドメイン固有のデータ分析タスクを扱う際の制限に直面している。
さらに、さまざまなユーザ要件を満たすために、柔軟性に苦慮しています。
これらの問題に対処するため、TaskWeaverはLLMで動く自律エージェントを構築するためのコードファーストフレームワークとして提案されている。
ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。
TaskWeaverは、リッチなデータ構造、柔軟なプラグイン使用、動的プラグイン選択のサポートを提供し、複雑なロジックにLLMコーディング機能を活用する。
また、サンプルを通じてドメイン固有の知識を取り入れ、生成されたコードのセキュアな実行を保証する。
TaskWeaverは、複雑なタスクを処理し、ドメイン固有のシナリオに適応できるインテリジェントな会話エージェントを作成するための、強力で柔軟なフレームワークを提供する。
コードはhttps://github.com/microsoft/TaskWeaver/.comで公開されている。
Large Language Models (LLMs) have shown impressive abilities in natural language understanding and generation, leading to their widespread use in applications such as chatbots and virtual assistants. However, existing LLM frameworks face limitations in handling domain-specific data analytics tasks with rich data structures. Moreover, they struggle with flexibility to meet diverse user requirements. To address these issues, TaskWeaver is proposed as a code-first framework for building LLM-powered autonomous agents. It converts user requests into executable code and treats user-defined plugins as callable functions. TaskWeaver provides support for rich data structures, flexible plugin usage, and dynamic plugin selection, and leverages LLM coding capabilities for complex logic. It also incorporates domain-specific knowledge through examples and ensures the secure execution of generated code. TaskWeaver offers a powerful and flexible framework for creating intelligent conversational agents that can handle complex tasks and adapt to domain-specific scenarios. The code is open sourced at https://github.com/microsoft/TaskWeaver/. | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# FRAPPE: すべてを後処理するためのグループフェアネスフレームワーク
FRAPPE: A Group Fairness Framework for Post-Processing Everything ( http://arxiv.org/abs/2312.02592v4 ) ライセンス: Link先を確認 | Alexandru Tifrea, Preethi Lahoti, Ben Packer, Yoni Halpern, Ahmad Beirami, Flavien Prost, | (参考訳) 有望なフェアネスエラートレードオフを達成しているにもかかわらず、グループフェアネスのインプロセッシング緩和技術は、限られた計算資源や予測モデルのトレーニングパイプラインにアクセスできない多くの実用的なアプリケーションには適用できない。
このような状況下では、後処理は実行可能な代替手段です。
しかし、現在の手法は特定の問題設定や公平性の定義に合わせて調整されているため、インプロセッシングほど広くは適用できない。
本研究では,任意の正規化インプロセッシング手法をポストプロセッシング手法に変換するフレームワークを提案する。
本手法は,従来の後処理文献よりも幅広い問題設定のための後処理技術を得る方法を規定する。
理論的および広範な実験を通して、我々のフレームワークは、インプロセッシングによって達成された優れたフェアネス・エラートレードオフを保ち、以前のポストプロセッシング手法の有効性よりも改善できることを示す。
最後に,予測モデルのトレーニングをフェアネス緩和から切り離すモジュール緩和戦略のいくつかの利点を示す。
Despite achieving promising fairness-error trade-offs, in-processing mitigation techniques for group fairness cannot be employed in numerous practical applications with limited computation resources or no access to the training pipeline of the prediction model. In these situations, post-processing is a viable alternative. However, current methods are tailored to specific problem settings and fairness definitions and hence, are not as broadly applicable as in-processing. In this work, we propose a framework that turns any regularized in-processing method into a post-processing approach. This procedure prescribes a way to obtain post-processing techniques for a much broader range of problem settings than the prior post-processing literature. We show theoretically and through extensive experiments that our framework preserves the good fairness-error trade-offs achieved with in-processing and can improve over the effectiveness of prior post-processing methods. Finally, we demonstrate several advantages of a modular mitigation strategy that disentangles the training of the prediction model from the fairness mitigation, including better performance on tasks with partial group labels. | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# 時空間ビデオ拡散による降水ダウンスケーリング
Precipitation Downscaling with Spatiotemporal Video Diffusion ( http://arxiv.org/abs/2312.06071v3 ) ライセンス: Link先を確認 | Prakhar Srivastava, Ruihan Yang, Gavin Kerrigan, Gideon Dresdner, Jeremy McGibbon, Christopher Bretherton, Stephan Mandt, | (参考訳) 気候科学と気象学において、高解像度の局地降水(雨と降雪)予測はシミュレーションに基づく手法の計算コストによって制限される。
統計的ダウンスケーリング(英: Statistical downscaling)または超解像(英: super- resolution)は、統計的アプローチを用いて低解像度の予測が改善される一般的な回避策である。
従来のコンピュータビジョンのタスクとは異なり、天候や気候のアプリケーションは、高解像度の高解像度パターンの正確な条件分布を把握し、信頼性の高いアンサンブル平均と、大雨などの極端な事象の非偏りの見積もりを保証する必要がある。
この研究は、最近のビデオ拡散モデルを拡張して、決定論的ダウンスケーラを使用し、時間条件付き拡散モデルを用いて、ノイズ特性と高周波パターンをキャプチャする。
本稿では,FV3GFSの大規模大気モデルであるFV3GFSの出力に対するアプローチを検証し,最先端の6つのベースラインと比較する。
我々の分析では, CRPS, MSE, 降水分布, カリフォルニアとヒマラヤを例に, データドリブン降水ダウンスケーリングの新たな標準として確立した。
In climate science and meteorology, high-resolution local precipitation (rain and snowfall) predictions are limited by the computational costs of simulation-based methods. Statistical downscaling, or super-resolution, is a common workaround where a low-resolution prediction is improved using statistical approaches. Unlike traditional computer vision tasks, weather and climate applications require capturing the accurate conditional distribution of high-resolution given low-resolution patterns to assure reliable ensemble averages and unbiased estimates of extreme events, such as heavy rain. This work extends recent video diffusion models to precipitation super-resolution, employing a deterministic downscaler followed by a temporally-conditioned diffusion model to capture noise characteristics and high-frequency patterns. We test our approach on FV3GFS output, an established large-scale global atmosphere model, and compare it against six state-of-the-art baselines. Our analysis, capturing CRPS, MSE, precipitation distributions, and qualitative aspects using California and the Himalayas as examples, establishes our method as a new standard for data-driven precipitation downscaling. | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# 層分散ニューラル表現のスペクトルクラスタリングによる「何」と「何」の視覚経路の解読
Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations ( http://arxiv.org/abs/2312.06716v2 ) ライセンス: Link先を確認 | Xiao Zhang, David Yunis, Michael Maire, | (参考訳) 本稿では、ニューラルネットワークのアクティベーションに含まれる情報をグループ化して分析し、大規模な事前学習された視覚モデルの振る舞いから空間的レイアウトとセマンティックセグメンテーションを抽出する手法を提案する。
従来の作業とは異なり,本手法では,ネットワークの活性化状態の全体的解析を行い,すべての層の特徴を活かし,どの部分が関連する情報を含んでいるのかを推定する必要性を回避している。
古典的なスペクトルクラスタリングによってモチベーションされたこの分析は、異なる層内の特徴を比較することで、親和性行列の集合を含む最適化目標の観点から定式化する。
勾配勾配勾配法を用いてこの最適化問題を解くことにより,画像内関係と画像間関係の両方を含む,単一画像からデータセットレベルの解析にスケールすることができる。
事前学習された生成変換器の分析は、そのようなモデルによって学習された計算戦略に関する洞察を提供する。
注目層にまたがるキー-クエリの類似性と親和性はシーン空間レイアウトを符号化する固有ベクトルを与えるが、値ベクトル類似性によって親和性を定義すると、オブジェクトアイデンティティを符号化する固有ベクトルが得られる。
この結果は、キーベクトルとクエリベクトルが空間的近接(「場所」経路)に応じて注意情報の流れを調整し、値ベクトルが意味圏表現(「何」経路)を洗練させることを示している。
We present an approach for analyzing grouping information contained within a neural network's activations, permitting extraction of spatial layout and semantic segmentation from the behavior of large pre-trained vision models. Unlike prior work, our method conducts a holistic analysis of a network's activation state, leveraging features from all layers and obviating the need to guess which part of the model contains relevant information. Motivated by classic spectral clustering, we formulate this analysis in terms of an optimization objective involving a set of affinity matrices, each formed by comparing features within a different layer. Solving this optimization problem using gradient descent allows our technique to scale from single images to dataset-level analysis, including, in the latter, both intra- and inter-image relationships. Analyzing a pre-trained generative transformer provides insight into the computational strategy learned by such models. Equating affinity with key-query similarity across attention layers yields eigenvectors encoding scene spatial layout, whereas defining affinity by value vector similarity yields eigenvectors encoding object identity. This result suggests that key and query vectors coordinate attentional information flow according to spatial proximity (a `where' pathway), while value vectors refine a semantic category representation (a `what' pathway). | 翻訳日:2024-06-22 06:08:04 公開日:2024-06-20 |
# BiPFT:二元化残留多項式の低ランク推定による二元化事前学習ファンデーショントランス
BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials ( http://arxiv.org/abs/2312.08937v2 ) ライセンス: Link先を確認 | Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng Zhang, Jiajun Zhang, | (参考訳) 事前訓練された基礎モデルは、幅広い下流タスクに実質的な利点をもたらす。
しかし、最大タスクに依存しない知識のための基礎変換器のスケールアップは、特にモバイルのようなリソース制限されたデバイスにおいて、計算上の問題を引き起こしている。
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
従来のタスク固有のバイナリトランスフォーマーとは対照的に、BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させ、BNNを事前トレーニングの時代に促進している。
さらに,事前学習データからデータ駆動バイナライゼーション手法を提案する。
具体的には,まず自己注意操作における二項化誤差を分析し,二項化誤差の多項式を導出する。
完全精度自己アテンションをシミュレートするために、二項化誤差を二項化残差多項式として定義し、これらの多項式をモデル化するための低ランク推定器を導入する。
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
BiPFTはまた、ハイパーパラメータの変更に対するロバスト性の向上、最適化効率の向上、下流蒸留への依存の低減など、様々なNLUタスクを一般化し、BNNの下流パイプラインを簡素化する。
私たちのコードと事前訓練されたモデルはhttps://github.com/Xingrun-Xing/BiPFT.comで公開されています。
Pretrained foundation models offer substantial benefits for a wide range of downstream tasks, which can be one of the most potential techniques to access artificial general intelligence. However, scaling up foundation transformers for maximal task-agnostic knowledge has brought about computational challenges, especially on resource-limited devices such as mobiles. This work proposes the first Binary Pretrained Foundation Transformer (BiPFT) for natural language understanding (NLU) tasks, which remarkably saves 56 times operations and 28 times memory. In contrast to previous task-specific binary transformers, BiPFT exhibits a substantial enhancement in the learning capabilities of binary neural networks (BNNs), promoting BNNs into the era of pre-training. Benefiting from extensive pretraining data, we further propose a data-driven binarization method. Specifically, we first analyze the binarization error in self-attention operations and derive the polynomials of binarization error. To simulate full-precision self-attention, we define binarization error as binarization residual polynomials, and then introduce low-rank estimators to model these polynomials. Extensive experiments validate the effectiveness of BiPFTs, surpassing task-specific baseline by 15.4% average performance on the GLUE benchmark. BiPFT also demonstrates improved robustness to hyperparameter changes, improved optimization efficiency, and reduced reliance on downstream distillation, which consequently generalize on various NLU tasks and simplify the downstream pipeline of BNNs. Our code and pretrained models are publicly available at https://github.com/Xingrun-Xing/BiPFT. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# 量子多体系におけるロバスト状態生成のためのベイズ最適化
Bayesian Optimization for Robust State Preparation in Quantum Many-Body Systems ( http://arxiv.org/abs/2312.09253v2 ) ライセンス: Link先を確認 | Tizian Blatz, Joyce Kwan, Julian Léonard, Annabelle Bohrdt, | (参考訳) 次世代の超低温原子実験は、最適制御問題に対する効率的な解の需要を継続的に高めている。
本稿では,2粒子分数量子ホール状態を実現するために,超低温原子系で最近実装された状態準備プロトコルを改善するためにベイズ最適化を適用した。
手動のランプ設計と比較して、シミュレーションにおいて最適化手法の優れた性能を示す。結果として、実験的に現実的なシステムの障害レベルを考慮しても、同じ忠実度で10倍高速なプロトコルが実現される。
本研究では, 数値シミュレーションと実験的実現の関係や, 最適化時に訓練したサロゲートモデルの最適活用方法について, 頑健性に関する質問を幅広く分析し, 議論する。
シミュレーションにより,最も基礎的な移動学習手法であっても,実施すべき実験の数を大幅に削減することが期待できる。
提案されたプロトコルとワークフローは、実験においてより複雑な多体量子状態の実現に向けた道を開く。
New generations of ultracold-atom experiments are continually raising the demand for efficient solutions to optimal control problems. Here, we apply Bayesian optimization to improve a state-preparation protocol recently implemented in an ultracold-atom system to realize a two-particle fractional quantum Hall state. Compared to manual ramp design, we demonstrate the superior performance of our optimization approach in a numerical simulation - resulting in a protocol that is 10x faster at the same fidelity, even when taking into account experimentally realistic levels of disorder in the system. We extensively analyze and discuss questions of robustness and the relationship between numerical simulation and experimental realization, and how to make the best use of the surrogate model trained during optimization. We find that numerical simulation can be expected to substantially reduce the number of experiments that need to be performed with even the most basic transfer learning techniques. The proposed protocol and workflow will pave the way toward the realization of more complex many-body quantum states in experiments. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# 光照明によるSi/SiGe量子デバイスにおけるしきい値電圧の制御
Control of threshold voltages in Si/SiGe quantum devices via optical illumination ( http://arxiv.org/abs/2312.14011v2 ) ライセンス: Link先を確認 | M. A. Wolfe, Brighton X. Coe, Justin S. Edwards, Tyler J. Kovach, Thomas McJunkin, Benjamin Harpt, D. E. Savage, M. G. Lagally, R. McDermott, Mark Friesen, Shimon Kolkowitz, M. A. Eriksson, | (参考訳) 低温における量子ドット量子ビットデバイスの光照明は、あまり研究されていないが、望ましくない衝撃や電荷注入後の動作状態の回復にしばしば用いられる。
ここでは、近赤外(780nm)レーザーダイオードを用いたドパントフリーSi/SiGe電界効果トランジスタにおいて、系統的な閾値電圧シフトを示す。
印加ゲート電圧下での照明は、ゲートバイアスの広い範囲において、そのゲートバイアスに等しい特定の、安定かつ再現可能なしきい値電圧を設定するのに利用できる。
この範囲以外でも閾値電圧は調整できるが、その結果の閾値電圧は照明中に印加されたゲートバイアスに等しくない。
ゲートバイアスのチューナビリティのメカニズムを提供する,シンプルで直感的なモデルを提案する。
提示されたモデルは、不要な充電イベントの後、量子ドット量子ビットデバイスをリセットするのに低温照明が成功した理由についても説明している。
Optical illumination of quantum-dot qubit devices at cryogenic temperatures, while not well studied, is often used to recover operating conditions after undesired shocking events or charge injection. Here, we demonstrate systematic threshold voltage shifts in a dopant-free, Si/SiGe field effect transistor using a near infrared (780 nm) laser diode. We find that illumination under an applied gate voltage can be used to set a specific, stable, and reproducible threshold voltage that, over a wide range in gate bias, is equal to that gate bias. Outside this range, the threshold voltage can still be tuned, although the resulting threshold voltage is no longer equal to the applied gate bias during illumination. We present a simple and intuitive model that provides a mechanism for the tunability in gate bias. The model presented also explains why cryogenic illumination is successful at resetting quantum dot qubit devices after undesired charging events. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# FAST:ブラックボックス生成モデルにおける弱学習のための類似性認識
FAST: Feature Aware Similarity Thresholding for Weak Unlearning in Black-Box Generative Models ( http://arxiv.org/abs/2312.14895v2 ) ライセンス: Link先を確認 | Subhodip Panda, Prathosh AP, | (参考訳) 深層生成モデルの規制の強調は、プライバシーや規制フレームワークへのコンプライアンスに関する懸念をエスカレートすることで促進され、これらのモデルに対する正確な制御機構の強制的な必要性を浮き彫りにしている。
この緊急性は、生成モデルが好ましくない、攻撃的、潜在的に有害なコンテンツを含むアウトプットを生成する事例によって特に強調されている。
これに対し、機械学習は特定の知識を選択的に忘れるか、事前学習されたモデルから望ましくないデータサブセットの影響を取り除くために現れた。
しかし、現代の機械学習アプローチは、通常、学習中にモデルパラメータやアーキテクチャの詳細へのアクセスを前提としています。
下流タスクでは、これらのモデルはブラックボックスシステムとして機能し、アクセシブルな事前訓練パラメータ、アーキテクチャ、トレーニングデータを持つ。
このようなシナリオでは、望ましくない出力をフィルタリングする可能性も現実的な代替となる。
この研究の主な目的は2つある: まず、フィルタリングと未学習プロセスの関係を解明し、次に、ブラックボックスシステムとして特徴づけられるモデルから生成された望ましくない出力の表示を緩和する方法論を定式化することである。
本研究における理論的分析は,ブラックボックスモデルの文脈において,フィルタリングを弱い未学習の一形態とみなすことができることを示した。
提案手法は,潜在空間における不要な特徴の表現を体系的に符号化することにより,望ましくない出力を効果的に抑制する。
The heightened emphasis on the regulation of deep generative models, propelled by escalating concerns pertaining to privacy and compliance with regulatory frameworks, underscores the imperative need for precise control mechanisms over these models. This urgency is particularly underscored by instances in which generative models generate outputs that encompass objectionable, offensive, or potentially injurious content. In response, machine unlearning has emerged to selectively forget specific knowledge or remove the influence of undesirable data subsets from pre-trained models. However, modern machine unlearning approaches typically assume access to model parameters and architectural details during unlearning, which is not always feasible. In multitude of downstream tasks, these models function as black-box systems, with inaccessible pre-trained parameters, architectures, and training data. In such scenarios, the possibility of filtering undesired outputs becomes a practical alternative. The primary goal of this study is twofold: first, to elucidate the relationship between filtering and unlearning processes, and second, to formulate a methodology aimed at mitigating the display of undesirable outputs generated from models characterized as black-box systems. Theoretical analysis in this study demonstrates that, in the context of black-box models, filtering can be seen as a form of weak unlearning. Our proposed \textbf{\textit{Feature Aware Similarity Thresholding(FAST)}} method effectively suppresses undesired outputs by systematically encoding the representation of unwanted features in the latent space. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# 複雑な論理仮説生成による知識グラフの帰納的推論の促進
Advancing Abductive Reasoning in Knowledge Graphs through Complex Logical Hypothesis Generation ( http://arxiv.org/abs/2312.15643v3 ) ライセンス: Link先を確認 | Jiaxin Bai, Yicheng Wang, Tianshi Zheng, Yue Guo, Xin Liu, Yangqiu Song, | (参考訳) 帰納的推論(英: Abductive reasoning)とは、観察のための説明を提供するための教育的な推測を行う過程である。
多くのアプリケーションは、説明のために知識の使用を必要とするが、知識グラフのような構造化知識とともに帰納的推論の利用は、ほとんど探索されていないままである。
このギャップを埋めるために,本稿では,KGによる帰納的論理的推論への最初のステップとして,複雑な論理的仮説生成の課題を紹介する。
この課題では、観測の集合を説明するために、複雑な論理仮説を生成することを目的としている。
教師付き学習された生成モデルは、参照仮説に構造的に近い論理仮説を生成することができる。
しかし、観測結果が見えないように一般化された場合、この訓練の目的は仮説生成をより良くすることを保証するものではない。
そこで本研究では,知識グラフに基づく強化学習(Reinforcement Learning from Knowledge Graph, RLF-KG)手法を提案する。
実験により、RLF-KGの補助により、生成された仮説はより良い説明を提供し、3つの広く使用されているKGの最先端の結果が得られることが示された。
Abductive reasoning is the process of making educated guesses to provide explanations for observations. Although many applications require the use of knowledge for explanations, the utilization of abductive reasoning in conjunction with structured knowledge, such as a knowledge graph, remains largely unexplored. To fill this gap, this paper introduces the task of complex logical hypothesis generation, as an initial step towards abductive logical reasoning with KG. In this task, we aim to generate a complex logical hypothesis so that it can explain a set of observations. We find that the supervised trained generative model can generate logical hypotheses that are structurally closer to the reference hypothesis. However, when generalized to unseen observations, this training objective does not guarantee better hypothesis generation. To address this, we introduce the Reinforcement Learning from Knowledge Graph (RLF-KG) method, which minimizes differences between observations and conclusions drawn from generated hypotheses according to the KG. Experiments show that, with RLF-KG's assistance, the generated hypotheses provide better explanations, and achieve state-of-the-art results on three widely used KGs. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# WWW:コンピューティング・イン・メモリとは何か、いつ、どこで?
WWW: What, When, Where to Compute-in-Memory ( http://arxiv.org/abs/2312.15896v2 ) ライセンス: Link先を確認 | Tanvi Sharma, Mustafa Ali, Indranil Chakraborty, Kaushik Roy, | (参考訳) Compute-in-Memory(CiM)は機械学習(ML)推論中に行列乗算を行うための高エネルギー効率ソリューションとして登場した。
しかし、メモリにコンピュートを統合すると、重要な疑問が浮き彫りになる。
1) どのようなCiMを使うか: 多数のCiM設計特性が与えられた場合、アーキテクチャの観点からその適合性を決定する必要がある。
2) CiMを使用する場合: ML推論には、さまざまなメモリと計算要件のワークロードが含まれているため、CiMがより有用であるかどうかの特定が難しい。
3) CiMを統合する場所: 各メモリレベルには異なる帯域幅とキャパシティがあり、CiM統合のための異なるデータ再利用機会を作成します。
機械学習ワークロードを高速化するためのオンチップCiM統合に関する疑問に答えるために、分析アーキテクチャ評価手法を用いて、データフローマッピングをカスタマイズする。
このマッピングアルゴリズムは、与えられたCiMプロトタイプとワークロードに対して、最高重量再利用とデータ移動の削減を実現することを目的としている。
実験により,CiM集積メモリはテンソルコア型ベースラインアーキテクチャと比較して最大3.4倍,スループットを最大15.6倍向上し,INT-8の精度は等距離制約下で向上した。
提案した研究は、どのタイプのCiMを使うか、いつ、どこで、効率的な行列乗算のためにキャッシュ階層にそれを最適に統合するかについての洞察を提供すると信じています。
Compute-in-memory (CiM) has emerged as a highly energy efficient solution for performing matrix multiplication during Machine Learning (ML) inference. However, integrating compute in memory poses key questions, such as 1) What type of CiM to use: Given a multitude of CiM design characteristics, determining their suitability from architecture perspective is needed. 2) When to use CiM: ML inference includes workloads with a variety of memory and compute requirements, making it difficult to identify when CiM is more beneficial. 3) Where to integrate CiM: Each memory level has different bandwidth and capacity, creating different data reuse opportunities for CiM integration. To answer such questions regarding on-chip CiM integration for accelerating ML workloads, we use an analytical architecture evaluation methodology where we tailor the dataflow mapping. The mapping algorithm aims to achieve highest weight reuse and reduced data movements for a given CiM prototype and workload. Our experiments show that CiM integrated memory improves energy efficiency by up to 3.4x and throughput by up to 15.6x compared to tensor-core-like baseline architecture, with INT-8 precision under iso-area constraints. We believe the proposed work provides insights into what type of CiM to use, and when and where to optimally integrate it in the cache hierarchy for efficient matrix multiplication. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# 勾配降下法で学習した過パラメータ変換器の収束率について
On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent ( http://arxiv.org/abs/2312.17007v2 ) ライセンス: Link先を確認 | Michael Kohler, Adam Krzyzak, | (参考訳) 人間の会話をシミュレートできるチャットボットChatGPT。
ChatGPTはGPT4の例である。
ですから,そのような人工知能がどれほど強力かという理論的な観点から研究したいのであれば,トランスフォーマーネットワークを考慮し,これらのネットワークでどの問題を理論的に解決できるかを研究する,という方法があるのです。
ここでは、これらのネットワークがどのモデルに近似できるのか、あるいは、具体的なデータセットに対する最良の近似を選択することで学習した知識をいかに一般化できるかだけでなく、具体的なデータセットに基づいたトランスフォーマーネットワークの最適化がいかにうまく機能するかが重要である。
本稿では,これら3つの異なる側面を同時に検討し,観測データに適合する変圧器ネットワークの誤分類確率に関する理論的上限を示す。
本稿では,自然言語を含む分類問題の文脈における推定値の定義に適用可能なトランスフォーマーエンコーダネットワークに焦点をあてる。
One of the most recent and fascinating breakthroughs in artificial intelligence is ChatGPT, a chatbot which can simulate human conversation. ChatGPT is an instance of GPT4, which is a language model based on generative gredictive gransformers. So if one wants to study from a theoretical point of view, how powerful such artificial intelligence can be, one approach is to consider transformer networks and to study which problems one can solve with these networks theoretically. Here it is not only important what kind of models these network can approximate, or how they can generalize their knowledge learned by choosing the best possible approximation to a concrete data set, but also how well optimization of such transformer network based on concrete data set works. In this article we consider all these three different aspects simultaneously and show a theoretical upper bound on the missclassification probability of a transformer network fitted to the observed data. For simplicity we focus in this context on transformer encoder networks which can be applied to define an estimate in the context of a classification problem involving natural language. | 翻訳日:2024-06-22 05:58:16 公開日:2024-06-20 |
# 動的量子制御のロバスト性:差分感度境界
Robustness of Dynamic Quantum Control: Differential Sensitivity Bound ( http://arxiv.org/abs/2401.00301v2 ) ライセンス: Link先を確認 | S. P. O'Neil, C. A. Weidner, E. A. Jonckheere, F. C. Langbein, S. G. Schirmer, | (参考訳) 最適化されたピースワイズ・コンスタントパルスによる動的制御は、量子ゲートを実装するためのオープンループ制御の一般的なパラダイムである。
このような制御の合成には多くの方法が存在するが、モデル不確実性が存在する場合の制御スキームの堅牢性には多くのオープンな疑問がある。
本稿では,パラメトリックな不確実性に対するゲート忠実度誤差の差分感度に基づく新しいロバストネス尺度を導入し,パラメトリックな不確実性に対する差分感度のバウンダリを用いて,様々な量子ゲートタイプ,システムサイズ,制御実装に対する最適制御器の性能保証を確立する。
具体的には、与えられた忠実度誤差を保証するハミルトンの不確かさの集合に対する最大許容摂動を確実に計算する方法を示す。
このロバスト性の尺度は、名目操作条件下で評価された忠実度誤差の差分感度の上限値に逆比例する。
以上の結果から,高信頼度制御体制においては,高信頼度と高信頼度とのトレードオフが生じるのではなく,高信頼度制御体制においては,パラメトリック不確実性の存在下での制御のロバスト性の増加と高い名目ゲート忠実度が正に相関していることが示唆された。
Dynamic control via optimized, piecewise-constant pulses is a common paradigm for open-loop control to implement quantum gates. While numerous methods exist for the synthesis of such controls, there are many open questions regarding the robustness of the resulting control schemes in the presence of model uncertainty; unlike in classical control, there are generally no analytical guarantees on the control performance with respect to inexact modeling of the system. In this paper a new robustness measure based on the differential sensitivity of the gate fidelity error to parametric (structured) uncertainties is introduced, and bounds on the differential sensitivity to parametric uncertainties are used to establish performance guarantees for optimal controllers for a variety of quantum gate types, system sizes, and control implementations. Specifically, it is shown how a maximum allowable perturbation over a set of Hamiltonian uncertainties that guarantees a given fidelity error, can be reliably computed. This measure of robustness is inversely proportional to the upper bound on the differential sensitivity of the fidelity error evaluated under nominal operating conditions. Finally, the results show that the nominal fidelity error and differential sensitivity upper bound are positively correlated across a wide range of problems and control implementations, suggesting that in the high-fidelity control regime, rather than there being a trade-off between fidelity and robustness, higher nominal gate fidelities are positively correlated with increased robustness of the controls in the presence of parametric uncertainties. | 翻訳日:2024-06-22 05:48:32 公開日:2024-06-20 |
# GLIMPSE: MLPを用いた局所イメージング
GLIMPSE: Generalized Local Imaging with MLPs ( http://arxiv.org/abs/2401.00816v2 ) ライセンス: Link先を確認 | AmirEhsan Khorashadizadeh, Valentin Debarnot, Tianlin Liu, Ivan Dokmanić, | (参考訳) 深層学習(Deep learning)は、現在の断層撮影における最先端技術である。
一般的なアプローチは、単純な逆転、例えばバックプロジェクションの結果を畳み込みニューラルネットワーク(CNN)に供給し、再構成を計算することである。
トレーニングデータに類似した「分布内」テストデータに対する強い結果にもかかわらず、スパースビューデータからのバックプロジェクションは特異点を非局在化するため、これらのアプローチは高い受容野を必要とする。
その結果、それらは特定のグローバル構造に過度に適合し、オフ・オブ・ディストリビューション(OOD)サンプルの一般化が不十分になる。
標準的なU-Netは、1024x1024イメージのトレーニングでは、研究グレードのGPU上で、140GBのメモリと2600秒毎のエポックを必要とする。
本稿では,計算トモグラフィの局所処理ニューラルネットワークであるGLIMPSEについて述べる。
U-Netのような成功したCNNと同等あるいはより良いパフォーマンスを、分散テストデータで達成する一方で、GLIMPSEは、OODサンプルにおいて、画像解像度にほぼ依存せず、メモリフットプリントが5GBで1024x1024イメージでトレーニングできるため、大幅にパフォーマンスが向上している。
さらに, GLIMPSEを完全微分可能とし, キャリブレーションから外れた場合には, 正確な投影角の復元などを行うことができた。
Deep learning is the current de facto state of the art in tomographic imaging. A common approach is to feed the result of a simple inversion, for example the backprojection, to a convolutional neural network (CNN) which then computes the reconstruction. Despite strong results on 'in-distribution' test data similar to the training data, backprojection from sparse-view data delocalizes singularities, so these approaches require a large receptive field to perform well. As a consequence, they overfit to certain global structures which leads to poor generalization on out-of-distribution (OOD) samples. Moreover, their memory complexity and training time scale unfavorably with image resolution, making them impractical for application at realistic clinical resolutions, especially in 3D: a standard U-Net requires a substantial 140GB of memory and 2600 seconds per epoch on a research-grade GPU when training on 1024x1024 images. In this paper, we introduce GLIMPSE, a local processing neural network for computed tomography which reconstructs a pixel value by feeding only the measurements associated with the neighborhood of the pixel to a simple MLP. While achieving comparable or better performance with successful CNNs like the U-Net on in-distribution test data, GLIMPSE significantly outperforms them on OOD samples while maintaining a memory footprint almost independent of image resolution; 5GB memory suffices to train on 1024x1024 images. Further, we built GLIMPSE to be fully differentiable, which enables feats such as recovery of accurate projection angles if they are out of calibration. | 翻訳日:2024-06-22 05:48:32 公開日:2024-06-20 |
# MapGPT:視覚・言語ナビゲーションのための適応経路計画付きマップガイドプロンプト
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation ( http://arxiv.org/abs/2401.07314v3 ) ライセンス: Link先を確認 | Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan-Yee K. Wong, | (参考訳) 脳にGPTを装着した身体エージェントは、様々なタスクで異常な意思決定と一般化能力を示してきた。
しかしながら、既存の視覚・言語ナビゲーションのためのゼロショットエージェント(VLN)は、エージェントが全体の環境を理解するための効果的な"グローバルビュー"を構築することなく、GPT-4に局所的な環境内の潜在的な場所を選択させるだけである。
本研究では,グローバルな探索を促進するためのオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。
具体的には、GPTが空間環境を理解するのに役立つように、オンラインマップを構築し、ノード情報やトポロジカルな関係を含むプロンプトに組み込む。
さらに,本設計の利点を生かして,地図に基づく多段階経路計画を行い,複数の候補ノードやサブゴールを段階的に体系的に探索するエージェントを支援するための適応的計画手法を提案する。
GPT-4 と GPT-4V の両方に適用でき、R2R と REVERIE のゼロショット性能を同時に達成し(SR の約10% と 12% の改善)、GPT の新たなグローバルな思考と経路計画能力を示す。
Embodied agents equipped with GPT as their brains have exhibited extraordinary decision-making and generalization abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt GPT-4 to select potential locations within localized environments, without constructing an effective "global-view" for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based agent, dubbed MapGPT, which introduces an online linguistic-formed map to encourage global exploration. Specifically, we build an online map and incorporate it into the prompts that include node information and topological relationships, to help GPT understand the spatial environment. Benefiting from this design, we further propose an adaptive planning mechanism to assist the agent in performing multi-step path planning based on a map, systematically exploring multiple candidate nodes or sub-goals step by step. Extensive experiments demonstrate that our MapGPT is applicable to both GPT-4 and GPT-4V, achieving state-of-the-art zero-shot performance on R2R and REVERIE simultaneously (~10% and ~12% improvements in SR), and showcasing the newly emergent global thinking and path planning abilities of the GPT. | 翻訳日:2024-06-22 05:48:32 公開日:2024-06-20 |
# アプリレビューの公平性に関する懸念:AIベースのモバイルアプリに関する研究
Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps ( http://arxiv.org/abs/2401.08097v3 ) ライセンス: Link先を確認 | Ali Rezaei Nasab, Maedeh Dashti, Mojtaba Shahin, Mansooreh Zahedi, Hourieh Khalajzadeh, Chetan Arora, Peng Liang, | (参考訳) フェアネスは、AIベースのシステムで対処しなければならない社会技術的懸念の1つである。
不正なAIベースのシステム、特に不公平なAIベースのモバイルアプリは、世界の人口のかなりの割合に困難をもたらす可能性がある。
本稿では、AIベースのアプリレビューにおける公平性に関する懸念を分析することを目的とする。
我々はまずまず,1,132フェアネスと1,473ノンフェアネスレビューを含む地上真実のデータセットを手作業で構築した。
基礎構造データセットを活用して、フェアネスレビューとフェアネスレビューを区別する機械学習モデルとディープラーニングモデルを開発し、評価した。
実験の結果, ベストパフォーマンスモデルでは, 94%の精度でフェアネスレビューを検出できることがわかった。
次に、AIベースの108のアプリから収集された約950万のレビューに対して、最高のパフォーマンスモデルを適用し、92万のフェアネスレビューを特定しました。
次に、92KフェアネスレビューにK-meansクラスタリング技術を適用し、それに続いて手動分析により、6種類のフェアネス関心事(例えば、"異なるプラットフォームやデバイスにおける機能やサービスの異なる品質を知覚する"、"ユーザ生成コンテンツを扱う上で透明性とフェアネスの欠如")を識別した。
最後に、フェアネスレビューに対する2,248人のアプリオーナーの回答のマニュアル分析では、アプリオーナーがフェアネスの懸念を正当化するために報告する6つの根本原因(例:「コピーライト問題」)を特定した。
Fairness is one of the socio-technical concerns that must be addressed in AI-based systems. Unfair AI-based systems, particularly unfair AI-based mobile apps, can pose difficulties for a significant proportion of the global population. This paper aims to analyze fairness concerns in AI-based app reviews. We first manually constructed a ground-truth dataset, including 1,132 fairness and 1,473 non-fairness reviews. Leveraging the ground-truth dataset, we developed and evaluated a set of machine learning and deep learning models that distinguish fairness reviews from non-fairness reviews. Our experiments show that our best-performing model can detect fairness reviews with a precision of 94%. We then applied the best-performing model on approximately 9.5M reviews collected from 108 AI-based apps and identified around 92K fairness reviews. Next, applying the K-means clustering technique to the 92K fairness reviews, followed by manual analysis, led to the identification of six distinct types of fairness concerns (e.g., 'receiving different quality of features and services in different platforms and devices' and 'lack of transparency and fairness in dealing with user-generated content'). Finally, the manual analysis of 2,248 app owners' responses to the fairness reviews identified six root causes (e.g., 'copyright issues') that app owners report to justify fairness concerns. | 翻訳日:2024-06-22 05:48:32 公開日:2024-06-20 |
# グラフニューラルネットワークによる金属ガラスのエネルギーバリアの予測と解釈
Predicting and Interpreting Energy Barriers of Metallic Glasses with Graph Neural Networks ( http://arxiv.org/abs/2401.08627v2 ) ライセンス: Link先を確認 | Haoyu Li, Shichang Zhang, Longwen Tang, Mathieu Bauchy, Yizhou Sun, | (参考訳) 金属ガラス(英: Metallic Glasss, MGs)は、プラスチックとして成形されながら鋼より強度が高い広く用いられる材料である。
物質科学において、MGの構造と優位性の関係を理解することは依然として困難であるが、そのエネルギー障壁(EB)を中間的なステップとして研究することは、有望であることを示している。
本研究では,グラフニューラルネットワーク(GNN)を用いてMGをモデル化し,EBを研究する。
本稿では,EB予測のための新しいデータセットと,予測においてE(3)不変である新しいSymmetrized GNN(SymGNN)モデルを提案する。
SymGNNは、グラフ構造の直交変換を集約することで不変性を処理する。
EB予測に適用した場合、SymGNNは分子動力学(MD)の局所サンプリング法や他の機械学習モデルよりも正確である。
正確なMDシミュレーションと比較すると、SymGNNは新しいMGの推測時間を約41日から1秒未満に短縮する。
構造とEBの関係を明らかにするために,説明アルゴリズムを適用した。
私たちが説明を通じて特定する構造は、中距離次数(MRO)仮説と一致し、独自の位相特性を持つ。
本研究は,物質科学研究を活性化するMG EBの効果的な予測と解釈を可能にする。
Metallic Glasses (MGs) are widely used materials that are stronger than steel while being shapeable as plastic. While understanding the structure-property relationship of MGs remains a challenge in materials science, studying their energy barriers (EBs) as an intermediary step shows promise. In this work, we utilize Graph Neural Networks (GNNs) to model MGs and study EBs. We contribute a new dataset for EB prediction and a novel Symmetrized GNN (SymGNN) model that is E(3)-invariant in expectation. SymGNN handles invariance by aggregating over orthogonal transformations of the graph structure. When applied to EB prediction, SymGNN are more accurate than molecular dynamics (MD) local-sampling methods and other machine-learning models. Compared to precise MD simulations, SymGNN reduces the inference time on new MGs from roughly 41 days to less than one second. We apply explanation algorithms to reveal the relationship between structures and EBs. The structures that we identify through explanations match the medium-range order (MRO) hypothesis and possess unique topological properties. Our work enables effective prediction and interpretation of MG EBs, bolstering material science research. | 翻訳日:2024-06-22 05:48:32 公開日:2024-06-20 |
# 現代量子コンピュータにおける動的冷却
Dynamic Cooling on Contemporary Quantum Computers ( http://arxiv.org/abs/2401.09134v2 ) ライセンス: Link先を確認 | Lindsay Bassman Oftelie, Antonella De Pasquale, Michele Campisi, | (参考訳) 我々は,大域的ユニタリ演算を用いて,N-1$以上の同一量子ビットを加熱することにより,ターゲット量子ビットを冷却する動的冷却の問題を考察した。
標準的なバック・オブ・ザ・エンベロープの高温推定では、目標量子ビット温度は少なくとも1/\sqrt{N}$の係数で動的に冷却できる。
ここでは、ターゲット量子ビットを冷却できる最小温度の正確な式を提供し、スケーリングが実際に1/\sqrt{N}$である高い初期温度状態から、はるかに高速なスケーリングが1/N$となる低い初期温度状態へのクロスオーバーが存在することを明らかにする。
この遅い1/\sqrt{N}$スケールは、初期の高温NMR量子コンピュータに関係していたが、20年ほど前に動的冷却が非効率であった理由である。
さらに,低温条件下では,冷却に伴う作業コストが指数関数的に有利であることを示す。
本稿では,量子回路の動的冷却の実装について検討し,ハードウェアノイズの影響について検討する。
実量子プロセッサ上での3量子系における動的冷却の実証に成功した。
回路サイズは$N$で急速に大きくなるため、ノイズの多いデバイス上の大規模システムへの動的冷却のスケーリングは困難である。
そこで本研究では,少数の冷却能力の放棄によって回路の複雑化が大幅に低減され,近未来の量子コンピュータにおける動的冷却の実現が大幅に促進される準最適冷却アルゴリズムを提案する。
We study the problem of dynamic cooling whereby a target qubit is cooled at the expense of heating up $N-1$ further identical qubits, by means of a global unitary operation. A standard back-of-the-envelope high temperature estimate establishes that the target qubit temperature can only be dynamically cooled by at most a factor of $1/\sqrt{N}$. Here, we provide the exact expression for the minimum temperature to which the target qubit can be cooled and reveal that there is a crossover from the high initial temperature regime where the scaling is in fact $1/\sqrt{N}$ to a low initial temperature regime where a much faster scaling of $1/N$ occurs. This slow $1/\sqrt{N}$ scaling, which was relevant for early high-temperature NMR quantum computers, is the reason dynamic cooling was dismissed as ineffectual around 20 years ago; the fact that current low-temperature quantum computers fall in the fast $1/N$ scaling regime, reinstates the appeal of dynamic cooling today. We further show that the associated work cost of cooling is exponentially more advantageous in the low temperature regime. We discuss the implementation of dynamic cooling in terms of quantum circuits and examine the effects of hardware noise. We successfully demonstrate dynamic cooling in a 3-qubit system on a real quantum processor. Since the circuit size grows quickly with $N$, scaling dynamic cooling to larger systems on noisy devices poses a challenge. We therefore propose a suboptimal cooling algorithm, whereby relinquishing a small amount of cooling capability results in a drastically reduced circuit complexity, greatly facilitating the implementation of dynamic cooling on near-future quantum computers. | 翻訳日:2024-06-22 05:48:32 公開日:2024-06-20 |
# 記号計算のための機械学習におけるデータセットとパラダイムの学習:CADを事例として
Lessons on Datasets and Paradigms in Machine Learning for Symbolic Computation: A Case Study on CAD ( http://arxiv.org/abs/2401.13343v2 ) ライセンス: Link先を確認 | Tereso del Río, Matthew England, | (参考訳) 記号計算アルゴリズムとその計算機代数系における実装は、しばしば出力の正しさに影響を与えず、必要なリソースに大きな影響を与える選択を含む:そのような選択は、機械学習モデルを介して各問題に対して個別に行うことで恩恵を受けることができる。
本研究は, 記号計算における機械学習の利用, 特に, 機械学習に先立ってデータセットを分析することの重要性, 活用可能なさまざまな機械学習パラダイムについて述べる。
本稿では, 筒状代数分解における変数順序付けの選択について検討するが, 学習結果が記号計算における他の決定にも適用可能であることを期待する。
変数順序決定に関して不均衡であることがわかったアプリケーションから抽出したサンプルの既存のデータセットを利用する。
多項式系問題に対する拡張手法を導入し、データセットのバランスとさらなる拡張を可能にし、機械学習の結果を平均28\%、38\%改善する。
次に、既存の機械学習手法で問題に使用される$-$分類が回帰パラダイムに再キャストされる可能性を実証する。
これはパフォーマンスに根本的な変化はないが、選択のために方法論が適用可能な範囲を広げている。
Symbolic Computation algorithms and their implementation in computer algebra systems often contain choices which do not affect the correctness of the output but can significantly impact the resources required: such choices can benefit from having them made separately for each problem via a machine learning model. This study reports lessons on such use of machine learning in symbolic computation, in particular on the importance of analysing datasets prior to machine learning and on the different machine learning paradigms that may be utilised. We present results for a particular case study, the selection of variable ordering for cylindrical algebraic decomposition, but expect that the lessons learned are applicable to other decisions in symbolic computation. We utilise an existing dataset of examples derived from applications which was found to be imbalanced with respect to the variable ordering decision. We introduce an augmentation technique for polynomial systems problems that allows us to balance and further augment the dataset, improving the machine learning results by 28\% and 38\% on average, respectively. We then demonstrate how the existing machine learning methodology used for the problem $-$ classification $-$ might be recast into the regression paradigm. While this does not have a radical change on the performance, it does widen the scope in which the methodology can be applied to make choices. | 翻訳日:2024-06-22 05:38:47 公開日:2024-06-20 |
# RE-GAINS & EnChAnT: クエリ応答強化のためのインテリジェントツール操作システム
RE-GAINS & EnChAnT: Intelligent Tool Manipulation Systems For Enhanced Query Responses ( http://arxiv.org/abs/2401.15724v3 ) ライセンス: Link先を確認 | Sahil Girhepuje, Siva Sankar Sajeev, Purvam Jain, Arya Sikder, Adithya Rama Varma, Ryan George, Akshay Govind Srinivasan, Mahendra Kurup, Ashmit Sinha, Sudip Mondal, | (参考訳) 大規模言語モデル(LLM)は現在、ツールの実行と連鎖に苦慮している。
本稿では,RE-GAINSとEnChAnTという2つの新しいフレームワークを提案する。
ツールは、個々の呼び出しから実際の結果を受け取ることなく、期待される出力に基づいてチェーンされる。
オープンソースのソリューションであるEnChAnTは、LLMフォーマットインクルーサ、OpenChat 3.5(LLM)、ToolBenchのAPI Retrieverを利用している。
RE-GAINSはOpenAIモデルと埋め込みを利用し、$\underline{R}$easoning vi$\underline{a}$$$\underline{P}$lanning $(RAP)$ frameworkをベースにした特別なプロンプトを持つ。
どちらのフレームワークも低コスト(クエリ毎に0.01\$)である。
私たちの重要な貢献は、変更可能な外部記述ツールを使用して、ツール呼び出しとチェーンのためのLLMを可能にすることです。
Large Language Models (LLMs) currently struggle with tool invocation and chaining, as they often hallucinate or miss essential steps in a sequence. We propose RE-GAINS and EnChAnT, two novel frameworks that empower LLMs to tackle complex user queries by making API calls to external tools based on tool descriptions and argument lists. Tools are chained based on the expected output, without receiving the actual results from each individual call. EnChAnT, an open-source solution, leverages an LLM format enforcer, OpenChat 3.5 (an LLM), and ToolBench's API Retriever. RE-GAINS utilizes OpenAI models and embeddings with a specialized prompt based on the $\underline{R}$easoning vi$\underline{a}$ $\underline{P}$lanning $(RAP)$ framework. Both frameworks are low cost (0.01\$ per query). Our key contribution is enabling LLMs for tool invocation and chaining using modifiable, externally described tools. | 翻訳日:2024-06-22 05:38:47 公開日:2024-06-20 |
# 関係推論のための拡散モデル
Diffusion model for relational inference ( http://arxiv.org/abs/2401.16755v2 ) ライセンス: Link先を確認 | Shuhan Zheng, Ziqiang Li, Kantaro Fujiwara, Gouhei Tanaka, | (参考訳) 脳活動、金銭的価格運動、物理的集団現象を含む複雑な相互作用系の動的挙動は、システムの構成要素間の基礎的な相互作用と関連している。
このような系における相互作用関係を観測可能力学を用いて解明する問題は、関係推論(Relation Inference)と呼ばれる。
本研究では、確率的時系列計算のための自己教師付き手法に着想を得た関係推論拡散モデル(DiffRI)を提案する。
DiffRIは条件拡散モデルを用いて、コンポーネント間の接続の確率を推測する。
Dynamical behaviors of complex interacting systems, including brain activities, financial price movements, and physical collective phenomena, are associated with underlying interactions between the system's components. The issue of uncovering interaction relations in such systems using observable dynamics is called relational inference. In this study, we propose a Diffusion model for Relational Inference (DiffRI), inspired by a self-supervised method for probabilistic time series imputation. DiffRI learns to infer the probability of the presence of connections between components through conditional diffusion modeling. | 翻訳日:2024-06-22 05:38:47 公開日:2024-06-20 |
# 画像とテキストによるマルチモーダル大言語モデルの安全性
Safety of Multimodal Large Language Models on Images and Texts ( http://arxiv.org/abs/2402.00357v3 ) ライセンス: Link先を確認 | Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao, | (参考訳) MLLM(Multimodal Large Language Models)の印象的なパワーに魅了され、日々の作業の効率を改善するために、その活用がますます進んでいる。
それでも、MLLMの脆弱性が安全でない命令に結びつくことで、これらのモデルが現実世界のシナリオにデプロイされる場合、大きな安全性のリスクが生じる。
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
まず、画像とテキストに関するMLLMの概要と安全性の理解から始め、研究者が調査の詳細な範囲を知るのに役立ちます。
次に,MLLMの安全性を評価するための評価データセットと指標について検討する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
最後に,未解決問題を分析し,今後の研究方針について考察する。
最新の論文はhttps://github.com/isXinLiu/MLLM-Safety-Collectionで継続的に収集されている。
Attracted by the impressive power of Multimodal Large Language Models (MLLMs), the public is increasingly utilizing them to improve the efficiency of daily work. Nonetheless, the vulnerabilities of MLLMs to unsafe instructions bring huge safety risks when these models are deployed in real-world scenarios. In this paper, we systematically survey current efforts on the evaluation, attack, and defense of MLLMs' safety on images and text. We begin with introducing the overview of MLLMs on images and text and understanding of safety, which helps researchers know the detailed scope of our survey. Then, we review the evaluation datasets and metrics for measuring the safety of MLLMs. Next, we comprehensively present attack and defense techniques related to MLLMs' safety. Finally, we analyze several unsolved issues and discuss promising research directions. The latest papers are continually collected at https://github.com/isXinLiu/MLLM-Safety-Collection. | 翻訳日:2024-06-22 05:38:47 公開日:2024-06-20 |
# グラフの1つの畳み込み:効率的なグレイスケール画像分類
A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification ( http://arxiv.org/abs/2402.00564v5 ) ライセンス: Link先を確認 | Jacob Fein-Ashley, Tian Ye, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, | (参考訳) 画像分類器は、タスクに畳み込みニューラルネットワーク(CNN)を頼りにしており、画像分類では、実行する操作の数によってレイテンシが高く、リアルタイムアプリケーションでは問題となる可能性がある。
さらに、多くの画像分類モデルはRGBとグレースケールの両方のデータセットで動作する。
グレースケールの画像のみを扱う分類器は、あまり一般的ではない。
グレースケール画像分類には様々な応用があり、医療画像分類や合成開口レーダ(SAR)自動目標認識(ATR)に限らない。
そこで本稿では,画像のベクトル化ビューを用いた新しいグレースケール画像分類手法を提案する。
我々は,画像をベクトルとして見ることで,MLPの軽量性を生かし,グレースケール画像分類設定への問題設定を減らした。
単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。
さらに,FPGA モデルに最適化したアクセラレータを開発し,性能向上のための最適化を行った。
ベンチマークグレースケール画像データセットを用いた実験結果から,提案モデルの有効性を実証し,各領域固有のグレースケール画像分類データセットの他の最先端画像分類モデルと比較して,レイテンシが大幅に低く(最大16$\times以下),競合的,あるいは先行的な性能を実現した。
Image classifiers often rely on convolutional neural networks (CNN) for their tasks, which, for image classification, experience high latency due to the number of operations they perform, which can be problematic in real-time applications. Additionally, many image classification models work on both RGB and grayscale datasets. Classifiers that operate solely on grayscale images are much less common. Grayscale image classification has diverse applications, including but not limited to medical image classification and synthetic aperture radar (SAR) automatic target recognition (ATR). Thus, we present a novel grayscale image classification approach using a vectorized view of images. We exploit the lightweightness of MLPs by viewing images as vectors and reducing our problem setting to the grayscale image classification setting. We find that using a single graph convolutional layer batch-wise increases accuracy and reduces variance in the performance of our model. Moreover, we develop a customized accelerator on FPGA for the proposed model with several optimizations to improve its performance. Our experimental results on benchmark grayscale image datasets demonstrate the effectiveness of the proposed model, achieving vastly lower latency (up to 16$\times$ less) and competitive or leading performance compared to other state-of-the-art image classification models on various domain-specific grayscale image classification datasets. | 翻訳日:2024-06-22 05:38:47 公開日:2024-06-20 |
# 私のモデルは何を忘れるのか? 言語モデルリファインメントにおける忘れられた例を予見する
What Will My Model Forget? Forecasting Forgotten Examples in Language Model Refinement ( http://arxiv.org/abs/2402.01865v2 ) ライセンス: Link先を確認 | Xisen Jin, Xiang Ren, | (参考訳) ワイルドにデプロイされた言語モデルはエラーを起こします。
しかし、単に修正されたエラーインスタンスでモデルを更新するだけで、破滅的な忘れ物が発生する。更新されたモデルは、インストラクションチューニングや上流トレーニングフェーズで学んだインスタンスのエラーを発生させる。
上流データのランダムな再生は不満足なパフォーマンスをもたらし、しばしば高いばらつきと制御性が伴います。
この目的のために、リプレイプロセスの制御性や解釈性を改善するためのモデル更新のために忘れられるアップストリームの例を予測しようと試みる。
オンライン学習例とそれに対応する上流事前学習例の集合から予測モデルを訓練する。
本稿では,事前学習例のソフトマックス前のロジットスコアの変化がオンライン学習例に似ており,BART上では良好に動作するが,T5モデルでは失敗する,という観察に基づく部分的に解釈可能な予測モデルを提案する。
さらに,実例表現の内積に基づくブラックボックス分類器により,一連の設定よりも優れた予測性能が得られることを示す。
最後に,上流の事前学習例を忘れないように予測した例を再生することで,上流の事前学習例を忘れることを減らすことを示し,実例を忘れることの実用性を実証した。
Language models deployed in the wild make errors. However, simply updating the model with the corrected error instances causes catastrophic forgetting -- the updated model makes errors on instances learned during the instruction tuning or upstream training phase. Randomly replaying upstream data yields unsatisfactory performance and often comes with high variance and poor controllability. To this end, we try to forecast upstream examples that will be forgotten due to a model update for improved controllability of the replay process and interpretability. We train forecasting models given a collection of online learned examples and corresponding forgotten upstream pre-training examples. We propose a partially interpretable forecasting model based on the observation that changes in pre-softmax logit scores of pretraining examples resemble that of online learned examples, which performs decently on BART but fails on T5 models. We further show a black-box classifier based on inner products of example representations achieves better forecasting performance over a series of setups. Finally, we show that we reduce forgetting of upstream pretraining examples by replaying examples that are forecasted to be forgotten, demonstrating the practical utility of forecasting example forgetting. | 翻訳日:2024-06-22 05:38:47 公開日:2024-06-20 |
# 大規模言語モデルを拡張現実に組み込む - 包摂性、エンゲージメント、プライバシの機会と課題
Embedding Large Language Models into Extended Reality: Opportunities and Challenges for Inclusion, Engagement, and Privacy ( http://arxiv.org/abs/2402.03907v2 ) ライセンス: Link先を確認 | Efe Bozkir, Süleyman Özdel, Ka Hei Carrie Lau, Mengdi Wang, Hong Gao, Enkelejda Kasneci, | (参考訳) 人工知能と人間とコンピュータの相互作用の進歩は、拡張現実(XR)の普及につながる可能性が高い。
XRはユーザーに対してインタラクティブでエンゲージメントがあり没入感のある体験を提供するが、非プレイヤーキャラクタはプリスクリプトや従来の方法でしばしば使用される。
本稿では,XR の言語モデル (LLM) をアバターに埋め込んだり,あるいはナラティブとして用いたりすることで,LLM の迅速な工学と微調整による包摂を容易にする。
我々はこの包摂がXR利用の多様性を促進すると論じている。
さらに、LLMの汎用的な会話能力はXRへのエンゲージメントを増大させ、XRがユビキタスになるのに役立つだろう。
最後に, LLM を利用した空間に利用者が提供した情報と生体情報を組み合わせることで, 新たなプライバシー侵害につながるのではないかと推測する。
プライバシー侵害の可能性を探る一方で、ユーザーのプライバシーの懸念や好みを調べることも不可欠だ。
したがって、LLMを動力とするXRはいくつかの機会を持つ有望な領域である。
Advances in artificial intelligence and human-computer interaction will likely lead to extended reality (XR) becoming pervasive. While XR can provide users with interactive, engaging, and immersive experiences, non-player characters are often utilized in pre-scripted and conventional ways. This paper argues for using large language models (LLMs) in XR by embedding them in avatars or as narratives to facilitate inclusion through prompt engineering and fine-tuning the LLMs. We argue that this inclusion will promote diversity for XR use. Furthermore, the versatile conversational capabilities of LLMs will likely increase engagement in XR, helping XR become ubiquitous. Lastly, we speculate that combining the information provided to LLM-powered spaces by users and the biometric data obtained might lead to novel privacy invasions. While exploring potential privacy breaches, examining user privacy concerns and preferences is also essential. Therefore, despite challenges, LLM-powered XR is a promising area with several opportunities. | 翻訳日:2024-06-22 05:29:03 公開日:2024-06-20 |
# Multi-Sender Persuasion: A Computational Perspective
Multi-Sender Persuasion: A Computational Perspective ( http://arxiv.org/abs/2402.04971v4 ) ライセンス: Link先を確認 | Safwan Hossain, Tonghan Wang, Tao Lin, Yiling Chen, David C. Parkes, Haifeng Xu, | (参考訳) 情報的優位な信号を持つ複数のプレイヤーは、特定の行動をとるように、一人の利害関係者を説得する。
この問題は、基礎的なベイズパーステンションフレームワークを一般化し、計算経済学、マルチエージェント学習、多目的機械学習においてユビキタスである。
ここでのコアソリューションの概念は、送信者のシグナル伝達ポリシーのナッシュ均衡である。
理論的には、一般に平衡を見つけることはPPAD-Hardであり、実際、送信者の最良の応答を計算してもNP-Hardである。
こうした本質的な困難を考えると、我々は局所的なナッシュ均衡を見つけることに目を向ける。
我々は,このゲームの非線形かつ不連続なユーティリティを近似するために,新しい微分可能なニューラルネットワークを提案する。
これを段階外アルゴリズムで補うことで、Paretoが全相対平衡と既存のニューラルネットワークが支配する局所平衡を発見する。
概して、我々の理論的かつ実証的な貢献は、幅広い経済問題に対する関心である。
We consider the multi-sender persuasion problem: multiple players with informational advantage signal to convince a single self-interested actor to take certain actions. This problem generalizes the seminal Bayesian Persuasion framework and is ubiquitous in computational economics, multi-agent learning, and multi-objective machine learning. The core solution concept here is the Nash equilibrium of senders' signaling policies. Theoretically, we prove that finding an equilibrium in general is PPAD-Hard; in fact, even computing a sender's best response is NP-Hard. Given these intrinsic difficulties, we turn to finding local Nash equilibria. We propose a novel differentiable neural network to approximate this game's non-linear and discontinuous utilities. Complementing this with the extra-gradient algorithm, we discover local equilibria that Pareto dominates full-revelation equilibria and those found by existing neural networks. Broadly, our theoretical and empirical contributions are of interest to a large class of economic problems. | 翻訳日:2024-06-22 05:29:03 公開日:2024-06-20 |
# 検索型拡張型大規模言語モデルにおけるプロンプト摂動
Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models ( http://arxiv.org/abs/2402.07179v2 ) ライセンス: Link先を確認 | Zhibo Hu, Chen Wang, Yanfeng Shu, Helen, Paik, Liming Zhu, | (参考訳) 大規模言語モデル(LLM)のロバスト性は、その使用が幅広い領域で急速に増大するにつれて、ますます重要になる。
LLMからのテキスト生成の信頼性を向上させる手段として、検索補助生成(RAG)が考えられている。
しかしながら、RAGに基づくLLMからの出力がわずかに異なる入力によってどのように影響を受けるかは、よく研究されていない。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
我々は,GGPP(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を導入することにより,これらの接頭辞がRAGに与える影響を体系的に評価した。
GGPP は RAG ベースの LLM のアウトプットを操り、間違った回答をターゲットとした高い成功率を達成する。
また、無関係なコンテキストを無視するよう要求するプロンプトの命令に対処することもできる。
我々はまた、GGPP誘発プロンプトによるニューロン活性化を訓練した高能率検出器を用いて、GGPP摂動と非摂動のプロンプト間のLLMのニューロン活性化差を利用して、RAGベースのLLMのロバスト性を改善する方法を提案する。
オープンソースLLMの評価は,提案手法の有効性を実証するものである。
The robustness of large language models (LLMs) becomes increasingly important as their use rapidly grows in a wide range of domains. Retrieval-Augmented Generation (RAG) is considered as a means to improve the trustworthiness of text generation from LLMs. However, how the outputs from RAG-based LLMs are affected by slightly different inputs is not well studied. In this work, we find that the insertion of even a short prefix to the prompt leads to the generation of outputs far away from factually correct answers. We systematically evaluate the effect of such prefixes on RAG by introducing a novel optimization technique called Gradient Guided Prompt Perturbation (GGPP). GGPP achieves a high success rate in steering outputs of RAG-based LLMs to targeted wrong answers. It can also cope with instructions in the prompts requesting to ignore irrelevant context. We also exploit LLMs' neuron activation difference between prompts with and without GGPP perturbations to give a method that improves the robustness of RAG-based LLMs through a highly effective detector trained on neuron activation triggered by GGPP generated prompts. Our evaluation on open-sourced LLMs demonstrates the effectiveness of our methods. | 翻訳日:2024-06-22 05:29:03 公開日:2024-06-20 |
# VisLing Instruct: 自律的命令最適化を用いた多モード言語モデルにおけるゼロショット学習の向上
VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization ( http://arxiv.org/abs/2402.07398v3 ) ライセンス: Link先を確認 | Dongsheng Zhu, Xunzhu Tang, Weidong Han, Jinghui Lu, Yukun Zhao, Guoliang Xing, Junfeng Wang, Dawei Yin, | (参考訳) 本稿では,ゼロショット学習におけるマルチモーダル言語モデル(MMLM)の新たなアプローチであるVisLingInstructを提案する。
現在のMMLMは、マルチモーダルタスクにおいて印象的なゼロショット能力を示すが、その性能は命令の品質に大きく依存する。
VisLingInstructは、インコンテクスト学習を通じて命令文を自律的に評価し、最適化し、MMLMにおける視覚知覚と言語表現の相乗効果を改善することで、この問題に対処する。
この指導の進展とともに、MMLMの視覚特徴抽出モジュールを最適化し、さらにテキストコンテンツに対する応答性を高めた。
FlanT5 と Vicuna を基にした MMLM に関する総合的な実験により,VisLingInstruct は視覚的マルチモーダルタスクにおけるゼロショット性能を大幅に改善することを示した。
特に、TextVQAとHatefulMemesデータセットの先行技術よりも13.1%と9%の精度向上を実現している。
私たちのメインコードはhttps://github.com/Zhudongsheng75/VisLingInstruct.orgで公開されています。
This paper presents VisLingInstruct, a novel approach to advancing Multi-Modal Language Models (MMLMs) in zero-shot learning. Current MMLMs show impressive zero-shot abilities in multi-modal tasks, but their performance depends heavily on the quality of instructions. VisLingInstruct tackles this by autonomously evaluating and optimizing instructional texts through In-Context Learning, improving the synergy between visual perception and linguistic expression in MMLMs. Alongside this instructional advancement, we have also optimized the visual feature extraction modules in MMLMs, further augmenting their responsiveness to textual content. Our comprehensive experiments on MMLMs, based on FlanT5 and Vicuna, show that VisLingInstruct significantly improves zero-shot performance in visual multi-modal tasks. Notably, it achieves a 13.1% and 9% increase in accuracy over the prior state-of-the-art on the TextVQA and HatefulMemes datasets. Our main code is available at https://github.com/Zhudongsheng75/VisLingInstruct. | 翻訳日:2024-06-22 05:29:03 公開日:2024-06-20 |
# 単調な相手によるトップ$Kのランキング
Top-$K$ ranking with a monotone adversary ( http://arxiv.org/abs/2402.07445v2 ) ライセンス: Link先を確認 | Yuepeng Yang, Antares Chen, Lorenzo Orecchia, Cong Ma, | (参考訳) 本稿では,単調な逆数による上位$Kのランキング問題に対処する。
比較グラフがランダムに生成され、敵が任意のエッジを追加することができるシナリオを考える。
統計学者の目標は、この半ランダム比較グラフから得られるペア比較に基づいて、上位$K$の推奨項目を正確に識別することである。
本論文の主な貢献は,最大値の最大値の最大値(MLE)を最大値$\log^2(n)$係数で表し,比較対象の項目数を表す重み付き最大値推定器(MLE)を開発することである。
これは分析的イノベーションとアルゴリズム的イノベーションの組み合わせによって実現される。
解析面では、既存の解析よりも明確で厳密な重み付きMLEの洗練された~$\ell_\infty$誤差解析を提供する。
これは、~$\ell_\infty$エラーと重み付き比較グラフのスペクトル特性を関連付ける。
アルゴリズムの革新は、半ランダムグラフを再重み付けし、特定のスペクトル特性を満たすSDPベースのアプローチの開発を伴う。
さらに,行列乗算重み更新(MMWU)フレームワークに基づく一階法を提案する。
この方法は半ランダム比較グラフのサイズに対してほぼ直線時間で結果のSDPを効率よく解く。
In this paper, we address the top-$K$ ranking problem with a monotone adversary. We consider the scenario where a comparison graph is randomly generated and the adversary is allowed to add arbitrary edges. The statistician's goal is then to accurately identify the top-$K$ preferred items based on pairwise comparisons derived from this semi-random comparison graph. The main contribution of this paper is to develop a weighted maximum likelihood estimator (MLE) that achieves near-optimal sample complexity, up to a $\log^2(n)$ factor, where $n$ denotes the number of items under comparison. This is made possible through a combination of analytical and algorithmic innovations. On the analytical front, we provide a refined~$\ell_\infty$ error analysis of the weighted MLE that is more explicit and tighter than existing analyses. It relates the~$\ell_\infty$ error with the spectral properties of the weighted comparison graph. Motivated by this, our algorithmic innovation involves the development of an SDP-based approach to reweight the semi-random graph and meet specified spectral properties. Additionally, we propose a first-order method based on the Matrix Multiplicative Weight Update (MMWU) framework. This method efficiently solves the resulting SDP in nearly-linear time relative to the size of the semi-random comparison graph. | 翻訳日:2024-06-22 05:29:03 公開日:2024-06-20 |
# 大規模マルチモーダルモデルで画像の奥深くのセマンティックスを発見できるのか?
Can Large Multimodal Models Uncover Deep Semantics Behind Images? ( http://arxiv.org/abs/2402.11281v3 ) ライセンス: Link先を確認 | Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui, | (参考訳) 画像の深い意味を理解することは、ソーシャルメディアが支配する時代において不可欠である。
しかし、現在の研究は主に表面的な画像の記述に焦点を当てており、本質的な深い意味論の体系的な研究において顕著な欠如が明らかになっている。
本研究では,視覚深層セマンティクスの大規模マルチモーダルモデル(LMM)能力を評価するための総合的なベンチマークであるDEEPEVALを紹介する。
DEEPEVALには、人間の注釈付きデータセットと、3つのプログレッシブサブタスクが含まれている。
DEEPEVALを用いて,9つのオープンソースLMMとGPT-4V(ision)を評価した。
本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
さらに分析した結果,DeEPEVALにおけるLMMの性能は,探索された深い意味論の特定の側面によって異なることが明らかとなり,LMMの開発に残る根本的な課題が示唆された。
Understanding the deep semantics of images is essential in the era dominated by social media. However, current research works primarily on the superficial description of images, revealing a notable deficiency in the systematic investigation of the inherent deep semantics. In this work, we introduce DEEPEVAL, a comprehensive benchmark to assess Large Multimodal Models' (LMMs) capacities of visual deep semantics. DEEPEVAL includes human-annotated dataset and three progressive subtasks: fine-grained description selection, in-depth title matching, and deep semantics understanding. Utilizing DEEPEVAL, we evaluate 9 open-source LMMs and GPT-4V(ision). Our evaluation demonstrates a substantial gap between the deep semantic comprehension capabilities of existing LMMs and humans. For example, GPT-4V is 30% behind humans in understanding deep semantics, even though it achieves human-comparable performance in image description. Further analysis reveals that LMM performance on DEEPEVAL varies according to the specific facets of deep semantics explored, indicating the fundamental challenges remaining in developing LMMs. | 翻訳日:2024-06-22 05:19:10 公開日:2024-06-20 |
# 長期連続予測のためのトラクターメモリ:カオス的視点
Attractor Memory for Long-Term Time Series Forecasting: A Chaos Perspective ( http://arxiv.org/abs/2402.11463v5 ) ライセンス: Link先を確認 | Jiaxi Hu, Yuehong Hu, Wei Chen, Ming Jin, Shirui Pan, Qingsong Wen, Yuxuan Liang, | (参考訳) 長期間の時系列予測(LTSF)タスクでは、離散時系列は連続力学系に由来すると認識され、それらの動的構造をモデル化しようとするモデルが増えている。
実世界のデータのカオス性を認識し、カオス理論をLTSFに組み込んで、未知の高次元カオス力学系からの観測として実世界の時系列を知覚する。
アトラオスは、非パラメトリック位相空間再構成とマルチスケール動的メモリユニットを用いて、歴史的力学構造を記憶し、周波数を拡大した局所進化戦略によって予測する。
詳細な理論的分析と豊富な経験的証拠は、Attraosが主流のLTSFデータセットやカオスデータセットにおいて、PatchTSTと比較してたったの12分の1のパラメータで、LTSFメソッドよりも優れていることを一貫して示している。
In long-term time series forecasting (LTSF) tasks, an increasing number of models have acknowledged that discrete time series originate from continuous dynamic systems and have attempted to model their dynamical structures. Recognizing the chaotic nature of real-world data, our model, \textbf{\textit{Attraos}}, incorporates chaos theory into LTSF, perceiving real-world time series as observations from unknown high-dimensional chaotic dynamic systems. Under the concept of attractor invariance, Attraos utilizes non-parametric Phase Space Reconstruction embedding and the proposed multi-scale dynamic memory unit to memorize historical dynamics structure and predicts by a frequency-enhanced local evolution strategy. Detailed theoretical analysis and abundant empirical evidence consistently show that Attraos outperforms various LTSF methods on mainstream LTSF datasets and chaotic datasets with only one-twelfth of the parameters compared to PatchTST. | 翻訳日:2024-06-22 05:19:10 公開日:2024-06-20 |
# プロスペクタヘッド:大規模モデルとデータに対する一般的な特徴属性
Prospector Heads: Generalized Feature Attribution for Large Models & Data ( http://arxiv.org/abs/2402.11729v2 ) ライセンス: Link先を確認 | Gautam Machiraju, Alexander Derry, Arjun Desai, Neel Guha, Amir-Hossein Karimi, James Zou, Russ Altman, Christopher Ré, Parag Mallick, | (参考訳) 特徴属性(Feature Attribution)は、分類に関連のある入力データの領域をローカライズする能力であり、科学および生物医学領域におけるMLモデルにとって重要な機能である。
特徴属性の現在の方法は、エンドツーエンドの分類器の予測を「説明」することに依存しており、不正確な特徴ローカライゼーションに悩まされており、計算上の問題により、小さなサンプルサイズや高次元データセットでの使用には不適当である。
本稿では,任意のエンコーダやデータモダリティに適用可能な,説明に基づく属性手法の効率的かつ解釈可能な代替手段であるプロジェクタヘッドを紹介する。
プロスペクタヘッドは、配列(テキスト)、画像(病理)、グラフ(タンパク質構造)の実験を通じて、モダリティを一般化し、平均局在化AUPRCにおいて、最大26.3ポイントのベースライン属性法を上回ります。
また,入力データ中のクラス固有のパターンの解釈と発見を,プロファイラヘッドがいかに改善できるかを示す。
ハイパフォーマンス、柔軟性、一般化性を通じて、複雑なドメインにおけるMLモデルの信頼性と透明性を改善するためのフレームワークを提供する。
Feature attribution, the ability to localize regions of the input data that are relevant for classification, is an important capability for ML models in scientific and biomedical domains. Current methods for feature attribution, which rely on "explaining" the predictions of end-to-end classifiers, suffer from imprecise feature localization and are inadequate for use with small sample sizes and high-dimensional datasets due to computational challenges. We introduce prospector heads, an efficient and interpretable alternative to explanation-based attribution methods that can be applied to any encoder and any data modality. Prospector heads generalize across modalities through experiments on sequences (text), images (pathology), and graphs (protein structures), outperforming baseline attribution methods by up to 26.3 points in mean localization AUPRC. We also demonstrate how prospector heads enable improved interpretation and discovery of class-specific patterns in input data. Through their high performance, flexibility, and generalizability, prospectors provide a framework for improving trust and transparency for ML models in complex domains. | 翻訳日:2024-06-22 05:19:10 公開日:2024-06-20 |
# 種々の領域に対する微分型ニューラル作用素と偏微分方程式のパラメータ
Diffeomorphism Neural Operator for various domains and parameters of partial differential equations ( http://arxiv.org/abs/2402.12475v2 ) ライセンス: Link先を確認 | Zhiwei Zhao, Changqing Liu, Yingguang Li, Zhibin Chen, Xu Liu, | (参考訳) 科学や工学の応用では、様々なパラメータや領域にわたる偏微分方程式(PDE)を解くのは通常、資源集約的な数値法に依存する。
ディープラーニングに基づくニューラル演算子は、データから直接物理法則を学習することで、PDEの解決に代わる有望な代替手段を提供する。
しかし、現在のニューラル演算子は固定領域上のPDEを解くために制限されていた。
様々な領域でPDEを解決するために神経演算子を拡張することは、幾何学的・パラメータ的変化が不可欠である医療画像、エンジニアリング設計、製造アプリケーションにおいて大きな可能性を秘めている。
本稿では, 微分同相ニューラル演算子 (DNO) と呼ばれる物理系で定義された様々な領域とパラメータでPDEを解くための新しいニューラルネットワーク学習フレームワークを提案する。
ニューラル作用素は、同じPDEで表される様々な物理領域から微分写像されるジェネリックドメインで学習する。
このようにして、様々なドメインでの演算子学習の課題は、ジェネリックドメインでの演算子学習に変換される。
異なる領域におけるDNOの一般化性能は、新しい領域と微分同相後のトレーニングデータセットの領域との幾何学的類似性を評価する提案手法により評価できる。
2次元領域と3次元領域の微分同相として, ダーシー流, 管流, 翼流, 力学の実験を行った。
DNOフレームワークは、様々な領域とパラメータにわたる堅牢な学習能力と強力な一般化性能を示した。
In scientific and engineering applications, solving partial differential equations (PDEs) across various parameters and domains normally relies on resource-intensive numerical methods. Neural operators based on deep learning offered a promising alternative to PDEs solving by directly learning physical laws from data. However, the current neural operator methods were limited to solve PDEs on fixed domains. Expanding neural operators to solve PDEs on various domains hold significant promise in medical imaging, engineering design and manufacturing applications, where geometric and parameter changes are essential. This paper presents a novel neural operator learning framework for solving PDEs with various domains and parameters defined for physical systems, named diffeomorphism neural operator (DNO). The main idea is that a neural operator learns in a generic domain which is diffeomorphically mapped from various physics domains expressed by the same PDE. In this way, the challenge of operator learning on various domains is transformed into operator learning on the generic domain. The generalization performance of DNO on different domains can be assessed by a proposed method which evaluates the geometric similarity between a new domain and the domains of training dataset after diffeomorphism. Experiments on Darcy flow, pipe flow, airfoil flow and mechanics were carried out, where harmonic and volume parameterization were used as the diffeomorphism for 2D and 3D domains. The DNO framework demonstrated robust learning capabilities and strong generalization performance across various domains and parameters. | 翻訳日:2024-06-22 05:19:10 公開日:2024-06-20 |
# 哺乳動物における現実的不整合の同定:タスク分類学による基底モデル推論
Identifying Factual Inconsistencies in Summaries: Grounding Model Inference via Task Taxonomy ( http://arxiv.org/abs/2402.12821v2 ) ライセンス: Link先を確認 | Liyan Xu, Zhenlin Su, Mo Yu, Jin Xu, Jinho D. Choi, Jie Zhou, Fei Liu, | (参考訳) 事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
不整合検出を強化する主な方向は、より強力な自然言語推論(NLI)モデルを導出することであるが、我々は、タスク固有の分類学を推論に組み込むことの重要性を浮き彫りにする直交的な側面を提案する。
この目的のために,要約における不整合事実のキーエラータイプを整理し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
5つの異なる領域の10つのデータセットに対する大規模な実験により、ゼロショットLEM推論は、エラータイプ分類によって表される明示的な解空間の恩恵を受け、最新のLLMベースラインと最近のLLMベースラインを超越して、全体的な最先端のパフォーマンスを達成する可能性が示唆された。
さらに、我々の設計した即時完了と教師付きトレーニング戦略を通じて、分類をパラメータに融合するモデルを蒸留し、最先端のゼロショット推論をはるかに大きなLLMで効率的に置き換える。
Factual inconsistencies pose a significant hurdle for the faithful summarization by generative models. While a major direction to enhance inconsistency detection is to derive stronger Natural Language Inference (NLI) models, we propose an orthogonal aspect that underscores the importance of incorporating task-specific taxonomy into the inference. To this end, we consolidate key error types of inconsistent facts in summaries, and incorporate them to facilitate both the zero-shot and supervised paradigms of LLMs. Extensive experiments on ten datasets of five distinct domains suggest that, zero-shot LLM inference could benefit from the explicit solution space depicted by the error type taxonomy, and achieves state-of-the-art performance overall, surpassing specialized non-LLM baselines, as well as recent LLM baselines. We further distill models that fuse the taxonomy into parameters through our designed prompt completions and supervised training strategies, efficiently substituting state-of-the-art zero-shot inference with much larger LLMs. | 翻訳日:2024-06-22 05:19:10 公開日:2024-06-20 |
# 教師なし文書構造抽出におけるコレクション・ウェイド類似の活用
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction ( http://arxiv.org/abs/2402.13906v2 ) ライセンス: Link先を確認 | Gili Lior, Yoav Goldberg, Gabriel Stanovsky, | (参考訳) 法律、医療、財務などの様々な分野の文書コレクションは、人的ユーザと構造認識モデルの両方に役立つ情報をキャプチャする、根底にあるコレクション全体の構造を共有していることが多い。
本稿では,コレクション内の文書の典型的構造を特定することを提案する。これは,任意のヘッダのパラフレーズを抽象化し,各トピックを各ドキュメントの場所に対してグラウンド化しながら,コレクション全体で繰り返しトピックをキャプチャする必要がある。
これらの要件にはいくつかの課題がある: 繰り返し発生するトピックをマークするヘッダは言い換えると頻繁に異なり、特定のセクションヘッダは個々のドキュメントに固有のものであり、典型的な構造を反映せず、トピックの順序は文書によって異なる。
その後,文書間の類似性と文書内類似性を利用した教師なしグラフベースの手法を開発し,その基盤となるコレクション全体構造を抽出する。
英語とヘブライ語の両方における3つの異なる領域に対する評価は,本手法が有意義なコレクション全体構造を抽出することを示し,今後の研究が多文書アプリケーションや構造認識モデルに活用されることを願っている。
Document collections of various domains, e.g., legal, medical, or financial, often share some underlying collection-wide structure, which captures information that can aid both human users and structure-aware models. We propose to identify the typical structure of document within a collection, which requires to capture recurring topics across the collection, while abstracting over arbitrary header paraphrases, and ground each topic to respective document locations. These requirements pose several challenges: headers that mark recurring topics frequently differ in phrasing, certain section headers are unique to individual documents and do not reflect the typical structure, and the order of topics can vary between documents. Subsequently, we develop an unsupervised graph-based method which leverages both inter- and intra-document similarities, to extract the underlying collection-wide structure. Our evaluations on three diverse domains in both English and Hebrew indicate that our method extracts meaningful collection-wide structure, and we hope that future work will leverage our method for multi-document applications and structure-aware models. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# 適応的グラフ畳み込みネットワークを用いた3次元幼児運動のモデル化
Modeling 3D Infant Kinetics Using Adaptive Graph Convolutional Networks ( http://arxiv.org/abs/2402.14400v2 ) ライセンス: Link先を確認 | Daniel Holmberg, Manu Airaksinen, Viviana Marchi, Andrea Guzzetta, Anna Kivi, Leena Haataja, Sampsa Vanhatalo, Teemu Roos, | (参考訳) 幼児の神経発達学的評価のための信頼性の高い方法は、迅速な介入を必要とする可能性のある医学的問題の早期発見に不可欠である。
自発運動、すなわち「運動学」は、今後の神経発達の強力なサロゲート指標を提供する。
しかし、その評価は質的かつ主観的であり、視覚的に特定され、年齢に応じたジェスチャーに焦点を当てている。
そこで本研究では,乳児の神経発達発達の成熟を,個々の運動パターンのデータ駆動による評価に基づいて予測する手法を提案する。
ポーズ推定で処理した幼児の3Dビデオ記録を用いて解剖学的ランドマークの時空間列を抽出し,適応的なグラフ畳み込みネットワークを用いて実際の年齢を予測する。
我々は、手動で設計した機能に基づいて、従来の機械学習ベースラインよりも改善されたデータ駆動アプローチを示す。
Reliable methods for the neurodevelopmental assessment of infants are essential for early detection of medical issues that may need prompt interventions. Spontaneous motor activity, or 'kinetics', is shown to provide a powerful surrogate measure of upcoming neurodevelopment. However, its assessment is by and large qualitative and subjective, focusing on visually identified, age-specific gestures. Here, we follow an alternative approach, predicting infants' neurodevelopmental maturation based on data-driven evaluation of individual motor patterns. We utilize 3D video recordings of infants processed with pose-estimation to extract spatio-temporal series of anatomical landmarks, and apply adaptive graph convolutional networks to predict the actual age. We show that our data-driven approach achieves improvement over traditional machine learning baselines based on manually engineered features. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# DynGMA:データから確率微分方程式を学習するための頑健なアプローチ
DynGMA: a robust approach for learning stochastic differential equations from data ( http://arxiv.org/abs/2402.14475v2 ) ライセンス: Link先を確認 | Aiqing Zhu, Qianxiao Li, | (参考訳) 観測データから未知確率微分方程式(SDE)を学習することは、様々な分野の応用において重要かつ困難な課題である。
現在のアプローチでは、しばしばニューラルネットワークを使用してドリフトと拡散関数を表現し、それらのネットワークをトレーニングするために遷移密度を近似することで可能性に基づく損失を構築する。
しかし、これらの手法はしばしば1段階の確率的数値スキームに依存し、十分な時間分解能を持つデータを必要とする。
本稿では、動的系のランダム摂動理論に着想を得たガウス密度近似と、その拡張である動的ガウス混合近似(DynGMA)について、パラメータ化SDEの遷移密度に対する新しい近似を導入する。
本手法は, ドリフトと拡散関数を学習し, 軌道データから不変分布を計算する際に, ベースライン法と比較して精度が高い。
また、Gillespieの確率的シミュレーションから生成されたデータのように、低時間分解能と可変、さらには制御不能な時間ステップサイズでトラジェクトリデータを処理できる。
次に,提案手法の利点とロバスト性を検証するために,様々なシナリオで実験を行った。
Learning unknown stochastic differential equations (SDEs) from observed data is a significant and challenging task with applications in various fields. Current approaches often use neural networks to represent drift and diffusion functions, and construct likelihood-based loss by approximating the transition density to train these networks. However, these methods often rely on one-step stochastic numerical schemes, necessitating data with sufficiently high time resolution. In this paper, we introduce novel approximations to the transition density of the parameterized SDE: a Gaussian density approximation inspired by the random perturbation theory of dynamical systems, and its extension, the dynamical Gaussian mixture approximation (DynGMA). Benefiting from the robust density approximation, our method exhibits superior accuracy compared to baseline methods in learning the fully unknown drift and diffusion functions and computing the invariant distribution from trajectory data. And it is capable of handling trajectory data with low time resolution and variable, even uncontrollable, time step sizes, such as data generated from Gillespie's stochastic simulations. We then conduct several experiments across various scenarios to verify the advantages and robustness of the proposed method. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# バックドア強化安全アライメントを用いたファインチューニングによるジェイルブレイク攻撃の軽減
Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment ( http://arxiv.org/abs/2402.14968v3 ) ライセンス: Link先を確認 | Jiongxiao Wang, Jiazhao Li, Yiquan Li, Xiangyu Qi, Junjie Hu, Yixuan Li, Patrick McDaniel, Muhao Chen, Bo Li, Chaowei Xiao, | (参考訳) LLM(Large Language Models)の一般的な機能にもかかわらず、これらのモデルは、特定のビジネス要求を満たす際に、カスタマイズされたデータによる微調整や適応を要求する。
しかし、このプロセスは必然的に新しい脅威をもたらし、特にLanguage-Model-as-a-Service(LMaaS)の設定下でのFJAttack(FJAttack)に対して、微調整されたユーザのアップロード例によってモデルの安全性が著しく損なわれている。
潜在的な防衛策が提案されているが、サービスプロバイダは安全性の問題を減らすために、微調整データセットに安全性サンプルを統合できるが、そのようなアプローチには大量のデータを統合する必要があるため、非効率である。
LMaaSの安全事例を限定してFJAttackを効果的に防御するために,バックドアアタックの概念に類推されたバックドア強化安全アライメント手法を提案する。
特に、サービスプロバイダは、"バックドアトリガ"として機能するシークレットプロンプトで、プレフィックス付きの安全例を構築する。
プレフィックス付き安全サンプルを微調整データセットに統合することにより、その後の微調整プロセスは事実上"バックドアアタック"として機能し、シークレットプロンプトと安全世代の間に強い相関関係を確立する。
その結果、安全な応答は、サービスプロバイダがこのシークレットプロンプトを推論中にユーザ入力よりも先にプリペイトすれば保証される。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、元のアライメントモデルと同様の安全性性能を達成することを実証している。
さらに、FJAttackの例と微調整タスクデータの両方からなる微調整データにより、より実践的な環境で本手法の有効性を示す。
Despite the general capabilities of Large Language Models (LLM), these models still request fine-tuning or adaptation with customized data when meeting specific business demands. However, this process inevitably introduces new threats, particularly against the Fine-tuning based Jailbreak Attack (FJAttack) under the setting of Language-Model-as-a-Service (LMaaS), where the model's safety has been significantly compromised by fine-tuning users' uploaded examples contain just a few harmful examples. Though potential defenses have been proposed that the service providers can integrate safety examples into the fine-tuning dataset to reduce safety issues, such approaches require incorporating a substantial amount of data, making it inefficient. To effectively defend against the FJAttack with limited safety examples under LMaaS, we propose the Backdoor Enhanced Safety Alignment method inspired by an analogy with the concept of backdoor attacks. In particular, service providers will construct prefixed safety examples with a secret prompt, acting as a "backdoor trigger". By integrating prefixed safety examples into the fine-tuning dataset, the subsequent fine-tuning process effectively acts as the "backdoor attack", establishing a strong correlation between the secret prompt and safety generations. Consequently, safe responses are ensured once service providers prepend this secret prompt ahead of any user input during inference. Our comprehensive experiments demonstrate that through the Backdoor Enhanced Safety Alignment with adding as few as 11 prefixed safety examples, the maliciously fine-tuned LLMs will achieve similar safety performance as the original aligned models without harming the benign performance. Furthermore, we also present the effectiveness of our method in a more practical setting where the fine-tuning data consists of both FJAttack examples and the fine-tuning task data. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# アクティブショットファインチューニング
Active Few-Shot Fine-Tuning ( http://arxiv.org/abs/2402.15441v3 ) ライセンス: Link先を確認 | Jonas Hübotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause, | (参考訳) 特定のタスクに微調整する適切なデータをどのように選択すればよいか?
我々はこのデータ選択問題をアクティブ微調整と呼び、古典的アクティブラーニングの新しい一般化であるトランスダクティブアクティブラーニングの例であることを示す。
本稿では,情報に基づくトランスダクティブ学習を短縮した ITL を提案する。
我々は、一般的な正則性仮定の下で、そのような決定規則がアクセス可能なデータから得られる最小の不確実性に一様に収束することを初めて示す。
我々は、大規模なニューラルネットワークの数ショットの微調整にIDLを適用し、IDLを用いた微調整が、最先端技術よりもはるかに少ない例でタスクを学習することを示す。
We study the question: How can we select the right data for fine-tuning to a specific task? We call this data selection problem active fine-tuning and show that it is an instance of transductive active learning, a novel generalization of classical active learning. We propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize information gained about the specified task. We are the first to show, under general regularity assumptions, that such decision rules converge uniformly to the smallest possible uncertainty obtainable from the accessible data. We apply ITL to the few-shot fine-tuning of large neural networks and show that fine-tuning with ITL learns the task with significantly fewer examples than the state-of-the-art. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# OAG-Bench: 学術グラフマイニングのための人為的なベンチマーク
OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining ( http://arxiv.org/abs/2402.15810v2 ) ライセンス: Link先を確認 | Fanjin Zhang, Shijie Shi, Yifan Zhu, Bo Chen, Yukuo Cen, Jifan Yu, Yelin Chen, Lulu Wang, Qingfei Zhao, Yuqing Cheng, Tianyi Han, Yuwei An, Dan Zhang, Weng Lam Tam, Kun Cao, Yunhe Pang, Xinyu Guan, Huihui Yuan, Jian Song, Xiaoyan Li, Yuxiao Dong, Jie Tang, | (参考訳) 科学文献の急速な普及に伴い、多目的な学術知識サービスは、より包括的な学術グラフマイニングに依存している。
パブリックな学術グラフ、ベンチマーク、データセットが利用可能であるにもかかわらず、これらのリソースは、多アスペクトできめ細かいアノテーションに不足することが多く、特定のタスクタイプやドメインに制約されている。
本稿では,Open Academic Graph(OAG)に基づく包括的,多面的,きめ細かな人為的なベンチマークであるOAG-Benchを提案する。
OAG-Benchは10のタスク、20のデータセット、70以上のベースライン、120以上の実験結果をカバーする。
我々は,特定のタスクに対する新しいデータアノテーション戦略を提案し,学術的なグラフマイニングを容易にするためのデータ前処理コード,アルゴリズムの実装,標準化された評価プロトコルを提供する。
大規模な実験により、大きな言語モデル(LLM)のような高度なアルゴリズムでさえ、論文のソーストレースや学者のプロファイリングといった特定のタスクにおいて重要な課題に取り組むのに困難に直面することが明らかになった。
また、コミュニティのインプットと共有を促進するためにOpen Academic Graph Challenge (OAG-Challenge)を導入しています。
我々は,OAG-Benchが,学術的なグラフマイニングにおけるアルゴリズムの評価と比較を行うコミュニティの共通基盤として機能し,アルゴリズム開発とこの分野の進歩を促進できると考えている。
OAG-Benchはhttps://www.aminer.cn/data/でアクセスできる。
With the rapid proliferation of scientific literature, versatile academic knowledge services increasingly rely on comprehensive academic graph mining. Despite the availability of public academic graphs, benchmarks, and datasets, these resources often fall short in multi-aspect and fine-grained annotations, are constrained to specific task types and domains, or lack underlying real academic graphs. In this paper, we present OAG-Bench, a comprehensive, multi-aspect, and fine-grained human-curated benchmark based on the Open Academic Graph (OAG). OAG-Bench covers 10 tasks, 20 datasets, 70+ baselines, and 120+ experimental results to date. We propose new data annotation strategies for certain tasks and offer a suite of data pre-processing codes, algorithm implementations, and standardized evaluation protocols to facilitate academic graph mining. Extensive experiments reveal that even advanced algorithms like large language models (LLMs) encounter difficulties in addressing key challenges in certain tasks, such as paper source tracing and scholar profiling. We also introduce the Open Academic Graph Challenge (OAG-Challenge) to encourage community input and sharing. We envisage that OAG-Bench can serve as a common ground for the community to evaluate and compare algorithms in academic graph mining, thereby accelerating algorithm development and advancement in this field. OAG-Bench is accessible at https://www.aminer.cn/data/. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識
DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem ( http://arxiv.org/abs/2402.16159v5 ) ライセンス: Link先を確認 | Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee, | (参考訳) AI革命が成立すると、オープンソースのソフトウェアシステム、医療システム、銀行システム、交通システムなど、さまざまな分野のプロフェッショナルをサポートする自動化システムを構築する傾向がますます顕著になっている。
このようなシステムのサポートツールの自動化において重要な要件は、名前付きエンティティの早期識別であり、特殊機能開発の基礎となっている。
しかし、各ドメイン固有の性質、異なる専門用語や専門言語により、利用可能なデータのエキスパートアノテーションは高価で困難になる。
これらの課題を踏まえて,オープンソースのソフトウェアシステムに特化して,エンティティ認識(NER)技術を提案する。
提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。
このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。
これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。
我々のモデルは最先端のLLMよりもかなり優れています。
また,関係抽出の下流課題におけるNERの有効性を示す。
With the AI revolution in place, the trend for building automated systems to support professionals in different domains such as the open source software systems, healthcare systems, banking systems, transportation systems and many others have become increasingly prominent. A crucial requirement in the automation of support tools for such systems is the early identification of named entities, which serves as a foundation for developing specialized functionalities. However, due to the specific nature of each domain, different technical terminologies and specialized languages, expert annotation of available data becomes expensive and challenging. In light of these challenges, this paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our model significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction. | 翻訳日:2024-06-22 05:09:24 公開日:2024-06-20 |
# 模擬パリティに基づくフェアラーニングアルゴリズムの帰納的バイアスについて
On the Inductive Biases of Demographic Parity-based Fair Learning Algorithms ( http://arxiv.org/abs/2402.18129v2 ) ライセンス: Link先を確認 | Haoyu Lei, Amin Gohari, Farzan Farnia, | (参考訳) センシティブな属性に依存しないラベルを割り当てる公正な教師付き学習アルゴリズムは、機械学習コミュニティで大きな注目を集めている。
統計学的パリティ(DP)の概念は、公正分類器の訓練におけるモデルの公平性を測定するために頻繁に用いられてきたが、文献におけるいくつかの研究は、公正学習アルゴリズムにおけるDPの強制的影響を示唆している。
本研究では, 標準DP法が予測ラベルの条件分布に与える影響を, 感度特性から解析的に検討した。
分析の結果,非均一な属性分布を持つ非バランスなトレーニングデータセットが,トレーニングデータの大部分を保持する機密属性結果に偏りのある分類規則を導出する可能性が示唆された。
DPに基づくフェアラーニングにおいて,そのような帰納バイアスを制御するため,感性属性の限界分布に対するロバスト性を改善するために,感性属性に基づく分布ロバスト最適化法(SA-DRO)を提案する。
最後に,DPに基づく学習手法の標準集中型および分散型学習問題への適用に関する数値的な結果を示す。
実験結果は,DPに基づくフェアラーニングアルゴリズムの帰納バイアスと,提案したSA-DRO法のデバイアス効果に関する理論的結果を支持する。
Fair supervised learning algorithms assigning labels with little dependence on a sensitive attribute have attracted great attention in the machine learning community. While the demographic parity (DP) notion has been frequently used to measure a model's fairness in training fair classifiers, several studies in the literature suggest potential impacts of enforcing DP in fair learning algorithms. In this work, we analytically study the effect of standard DP-based regularization methods on the conditional distribution of the predicted label given the sensitive attribute. Our analysis shows that an imbalanced training dataset with a non-uniform distribution of the sensitive attribute could lead to a classification rule biased toward the sensitive attribute outcome holding the majority of training data. To control such inductive biases in DP-based fair learning, we propose a sensitive attribute-based distributionally robust optimization (SA-DRO) method improving robustness against the marginal distribution of the sensitive attribute. Finally, we present several numerical results on the application of DP-based learning methods to standard centralized and distributed learning problems. The empirical findings support our theoretical results on the inductive biases in DP-based fair learning algorithms and the debiasing effects of the proposed SA-DRO method. | 翻訳日:2024-06-22 04:59:27 公開日:2024-06-20 |
# Decoupled Subgraph Federated Learning
Decoupled Subgraph Federated Learning ( http://arxiv.org/abs/2402.19163v2 ) ライセンス: Link先を確認 | Javad Aliakbari, Johan Östman, Alexandre Graell i Amat, | (参考訳) 複数のクライアントに分散したグラフ構造化データに対するフェデレーション学習の課題に対処する。
具体的には、異なるクライアント間の相互接続が重要な役割を果たす相互接続サブグラフの一般的なシナリオに焦点を当てる。
我々は、このシナリオのための新しいフレームワーク、FedStructを紹介します。
プライバシを維持するために、既存の方法とは異なり、FedStructは機密性の高いノード機能やクライアント間の埋め込みを共有する必要をなくしている。
代わりに、ノード間の依存関係をキャプチャするために、明示的なグローバルグラフ構造情報を活用する。
半教師付きノード分類のための6つのデータセットで実施した実験結果により、FedStructの有効性を検証し、異なるデータ分割方法、ラベルの可用性の異なるレベル、クライアント数など、様々なシナリオにおいて集中的なアプローチに近い性能を示す。
We address the challenge of federated learning on graph-structured data distributed across multiple clients. Specifically, we focus on the prevalent scenario of interconnected subgraphs, where interconnections between different clients play a critical role. We present a novel framework for this scenario, named FedStruct, that harnesses deep structural dependencies. To uphold privacy, unlike existing methods, FedStruct eliminates the necessity of sharing or generating sensitive node features or embeddings among clients. Instead, it leverages explicit global graph structure information to capture inter-node dependencies. We validate the effectiveness of FedStruct through experimental results conducted on six datasets for semi-supervised node classification, showcasing performance close to the centralized approach across various scenarios, including different data partitioning methods, varying levels of label availability, and number of clients. | 翻訳日:2024-06-22 04:59:27 公開日:2024-06-20 |
# 超音波画像におけるアレイ符号化の最適化
Optimization of array encoding for ultrasound imaging ( http://arxiv.org/abs/2403.00289v2 ) ライセンス: Link先を確認 | Jacob Spainhour, Korben Smart, Stephen Becker, Nick Bottenus, | (参考訳) 目的: 合成開口画像の伝送符号化モデルは, 超音波画像再構成における音響透過の影響を理解するための頑健で柔軟な枠組みである。
我々の目的は、機械学習(ML)を用いて、高品質なBモード画像を生成する、時間遅延とアポッド化重みによってパラメータ化されたスキャンシーケンスを構築することである。
アプローチ:PyTorchのカスタムMLモデルとフィールドIIからのRFデータを用いて,画像品質を記述する損失関数を最小限に抑えた符号化シーケンスの空間を探索する。
このアプローチは、遅延およびサマービームフォーミングのための微分の新規な定式化によって計算可能となる。
主な結果: 特定の実験環境(画像領域、ハードウェア制限など)のためにトレーニングされた場合、我々のMLモデルは最適化された符号化シーケンスを生成し、REFoCUSイメージングフレームワークにデプロイすると、解像度、視野、コントラストを含む従来のシーケンスよりも多くの標準品質指標を改善する。
これらの結果は,ワイヤターゲットと組織模倣ファントムの両方で実験的に実証された。
意義: この研究は、一般的に使用される符号化スキームの集合が利用可能な部分集合の狭い部分集合のみを表すことを示す。
さらに、合成透過開口イメージングにおけるMLタスクの価値を、単に後処理のステップとしてではなく、モデル内のビームフォーマーを考えるために示す。
Objective: The transmit encoding model for synthetic aperture imaging is a robust and flexible framework for understanding the effects of acoustic transmission on ultrasound image reconstruction. Our objective is to use machine learning (ML) to construct scanning sequences, parameterized by time delays and apodization weights, that produce high-quality B-mode images. Approach: We use a custom ML model in PyTorch with simulated RF data from Field II to probe the space of possible encoding sequences for those that minimize a loss function that describes image quality. This approach is made computationally feasible by a novel formulation of the derivative for delay-and-sum beamforming. Main Results: When trained for a specified experimental setting (imaging domain, hardware restrictions, etc.), our ML model produces optimized encoding sequences that, when deployed in the REFoCUS imaging framework, improve a number of standard quality metrics over conventional sequences including resolution, field of view, and contrast. We demonstrate these results experimentally on both wire targets and a tissue-mimicking phantom. Significance: This work demonstrates that the set of commonly used encoding schemes represent only a narrow subset of those available. Additionally, it demonstrates the value for ML tasks in synthetic transmit aperture imaging to consider the beamformer within the model, instead of purely as a post-processing step. | 翻訳日:2024-06-22 04:59:27 公開日:2024-06-20 |
# LLMアンサンブル:Eコマース製品属性値抽出のための最適大言語モデルアンサンブル法
LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction ( http://arxiv.org/abs/2403.00863v2 ) ライセンス: Link先を確認 | Chenhao Fang, Xiaohan Li, Zezhong Fan, Jianpeng Xu, Kaushiki Nag, Evren Korpeoglu, Sushant Kumar, Kannan Achan, | (参考訳) 商品属性値抽出は自然言語処理(NLP)と現代電子商取引業界において重要な要素である。
製品属性の正確な値の提供は、高品質なレコメンデーションの確保と顧客満足度の向上に不可欠である。
最近登場したLarge Language Models (LLM)は、ドメイン固有のトレーニングデータを必要としない多くの属性抽出タスクにおいて、最先端のパフォーマンスを実証している。
それでも、データ、アーキテクチャ、ハイパーパラメータの多様性のため、様々な長所と短所が異なるLCMによって示される。
この変種は相互に相補的であり、LLMが他の全てを独占することはない。
LLMの多様な長所と短所を考えると、それらの相補的ポテンシャルを利用するアンサンブル法を開発する必要がある。
本稿では,属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルという新しいアルゴリズムを提案する。
異なるLLMの重みを反復的に学習し、ラベルを重みで集約し、最終的な属性値を予測する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
Walmartの内部データからLlama2-13B,Llama2-70B,PaLM-2,GPT-3.5,GPT-4など,最先端LLMのさまざまな実験を行った。
我々のオフラインメトリクスは、LLMアンサンブルメソッドがWalmartの内部データセット上の最先端の単一のLLMよりも優れていることを示している。
この方法はいくつかの生産モデルでローンチされ、Gross Merchandise Volume (GMV)、Click-Through Rate (CTR)、Conversion Rate (CVR)、Add-to-Cart Rate (ATC)が改善された。
Product attribute value extraction is a pivotal component in Natural Language Processing (NLP) and the contemporary e-commerce industry. The provision of precise product attribute values is fundamental in ensuring high-quality recommendations and enhancing customer satisfaction. The recently emerging Large Language Models (LLMs) have demonstrated state-of-the-art performance in numerous attribute extraction tasks, without the need for domain-specific training data. Nevertheless, varying strengths and weaknesses are exhibited by different LLMs due to the diversity in data, architectures, and hyperparameters. This variation makes them complementary to each other, with no single LLM dominating all others. Considering the diverse strengths and weaknesses of LLMs, it becomes necessary to develop an ensemble method that leverages their complementary potentials. In this paper, we propose a novel algorithm called LLM-ensemble to ensemble different LLMs' outputs for attribute value extraction. We iteratively learn the weights for different LLMs to aggregate the labels with weights to predict the final attribute value. Not only can our proposed method be proven theoretically optimal, but it also ensures efficient computation, fast convergence, and safe deployment. We have also conducted extensive experiments with various state-of-the-art LLMs, including Llama2-13B, Llama2-70B, PaLM-2, GPT-3.5, and GPT-4, on Walmart's internal data. Our offline metrics demonstrate that the LLM-ensemble method outperforms all the state-of-the-art single LLMs on Walmart's internal dataset. This method has been launched in several production models, leading to improved Gross Merchandise Volume (GMV), Click-Through Rate (CTR), Conversion Rate (CVR), and Add-to-Cart Rate (ATC). | 翻訳日:2024-06-22 04:59:27 公開日:2024-06-20 |
# FlowPrecision:線形量子化によるFPGAに基づくリアルタイム流体推定の改善
FlowPrecision: Advancing FPGA-Based Real-Time Fluid Flow Estimation with Linear Quantization ( http://arxiv.org/abs/2403.01922v2 ) ライセンス: Link先を確認 | Tianheng Ling, Julian Hoever, Chao Qian, Gregor Schiele, | (参考訳) 産業および環境モニタリングにおいては、リアルタイムかつ正確な流体流量測定を実現することが重要な課題である。
本研究では,FPGAを用いたソフトセンサの線形量子化を流体流量推定に適用し,従来の固定点量子化の限界を克服してニューラルネットワークモデルの精度を大幅に向上する。
我々の手法は平均平方誤差を最大10.10%削減し、ターゲットハードウェア最適化による推論速度を9.39%改善する。
複数のデータセットにまたがって検証した結果、最適化されたFPGAベースの量子化モデルは、効率的で正確なリアルタイム推論を提供し、広範囲な自律システムにおけるクラウドベースの処理の代替手段となることを示した。
In industrial and environmental monitoring, achieving real-time and precise fluid flow measurement remains a critical challenge. This study applies linear quantization in FPGA-based soft sensors for fluid flow estimation, significantly enhancing Neural Network model precision by overcoming the limitations of traditional fixed-point quantization. Our approach achieves up to a 10.10% reduction in Mean Squared Error and a notable 9.39% improvement in inference speed through targeted hardware optimizations. Validated across multiple data sets, our findings demonstrate that the optimized FPGA-based quantized models can provide efficient, accurate real-time inference, offering a viable alternative to cloud-based processing in pervasive autonomous systems. | 翻訳日:2024-06-22 04:59:27 公開日:2024-06-20 |
# Vlearn: 効率的な状態値関数推定によるオフポリティ学習
Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation ( http://arxiv.org/abs/2403.04453v2 ) ライセンス: Link先を確認 | Fabian Otto, Philipp Becker, Ngo Anh Vien, Gerhard Neumann, | (参考訳) 既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存しており、これは次元の呪いによって高次元の行動空間で問題となることがある。
このような空間における状態-作用-値関数を維持することは困難である。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
Vlearnと呼ばれるこのアプローチは、明示的な状態-作用-値関数の必要性を排除し、既存の手法の限界を効果的に回避する。
そこで本稿では,非政治データから付加価値関数を学習する上で,新たな重要サンプリング損失を導入する。
これは線形手法では一般的であるが、深い値関数ネットワークと組み合わせてはいない。
このディープメソッドへの転送は簡単ではなく、ロバストなポリシー更新、最適化バイアスを避けるためにツインバリュー関数ネットワーク、重み付けの重要性といった新しい設計選択を必要とする。
また,V-トラスなどの重要度サンプリング推定器と比較して,推定値のばらつきについて新しい分析を行った。
このアプローチは、サンプルの複雑さと最終的なパフォーマンスを改善し、様々なベンチマークタスクに対して一貫性と堅牢性を保証する。
Vlearnにおける状態-作用-値関数の排除は、学習プロセスの合理化を促進し、複雑な環境でより効果的な探索と利用を可能にする。
Existing off-policy reinforcement learning algorithms often rely on an explicit state-action-value function representation, which can be problematic in high-dimensional action spaces due to the curse of dimensionality. This reliance results in data inefficiency as maintaining a state-action-value function in such spaces is challenging. We present an efficient approach that utilizes only a state-value function as the critic for off-policy deep reinforcement learning. This approach, which we refer to as Vlearn, effectively circumvents the limitations of existing methods by eliminating the necessity for an explicit state-action-value function. To this end, we introduce a novel importance sampling loss for learning deep value functions from off-policy data. While this is common for linear methods, it has not been combined with deep value function networks. This transfer to deep methods is not straightforward and requires novel design choices such as robust policy updates, twin value function networks to avoid an optimization bias, and importance weight clipping. We also present a novel analysis of the variance of our estimate compared to commonly used importance sampling estimators such as V-trace. Our approach improves sample complexity as well as final performance and ensures consistent and robust performance across various benchmark tasks. Eliminating the state-action-value function in Vlearn facilitates a streamlined learning process, enabling more effective exploration and exploitation in complex environments. | 翻訳日:2024-06-22 04:59:27 公開日:2024-06-20 |
# AI Penのデコード:AI生成テキストの検出技術と課題
Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text ( http://arxiv.org/abs/2403.05750v2 ) ライセンス: Link先を確認 | Sara Abdali, Richard Anarfi, CJ Barberan, Jia He, | (参考訳) 大規模言語モデル(LLM)は、人間に似たテキストを生成する素晴らしい能力を示すことによって、自然言語生成(NLG)の分野に革命をもたらした。
しかし、彼らの普及した利用は、思慮深い検査、倫理的精査、責任ある実践を必要とする課題をもたらす。
本研究では、これらの課題を探求し、AI生成したテキストを究極の解決策として特定することに焦点を当て、これらの課題を緩和するための既存の戦略を探求する。
さらに、理論的観点から検出の可能性を評価し、この領域の現在の限界に対処するための新しい研究の方向性を提案する。
Large Language Models (LLMs) have revolutionized the field of Natural Language Generation (NLG) by demonstrating an impressive ability to generate human-like text. However, their widespread usage introduces challenges that necessitate thoughtful examination, ethical scrutiny, and responsible practices. In this study, we delve into these challenges, explore existing strategies for mitigating them, with a particular emphasis on identifying AI-generated text as the ultimate solution. Additionally, we assess the feasibility of detection from a theoretical perspective and propose novel research directions to address the current limitations in this domain. | 翻訳日:2024-06-22 04:49:43 公開日:2024-06-20 |
# FewFedPIT: プライバシ保護とFew-shoted Instruction Tuning
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning ( http://arxiv.org/abs/2403.06131v2 ) ライセンス: Link先を確認 | Zhuo Zhang, Jingyuan Zhang, Jintao Huang, Lizhen Qu, Hongzhi Zhang, Qifan Wang, Xun Zhou, Zenglin Xu, | (参考訳) 大規模言語モデル(LLM)の性能を最適化するための重要な手法として,インストラクションチューニングが注目されている。
それにもかかわらず、このようなチューニングのための多彩で高品質な指導データを集めることは、特に厳格なプライバシー規定を持つドメインにおいて顕著な障害となる。
フェデレートされたインストラクションチューニング(FedIT)は、複数のデータオーナ間で協調的なトレーニングを統合することで、将来性のあるソリューションとして登場した。
しかし、FedITは、訓練データの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITという新しいフェデレーションアルゴリズムを提案する。
FewFedPITは,(1)LLMのインコンテキスト学習能力を利用して合成データを自動生成し,ローカルデータベースを拡張した合成データ生成,(2)合成データの公開パラメータとローカルデータのプライベートパラメータを個別に更新するパラメータ分離トレーニング,(3)アップロード前の公開パラメータとプライベートパラメータを混合したローカルアグリゲーション共有,そして,データ抽出攻撃を効果的に防止する。
3つのオープンソースデータセットに対する大規模な実験は、FewFedPITinの有効性を示し、プライバシーの保護を強化し、フェデレートされた数ショットのパフォーマンスを改善している。
Instruction tuning has been identified as a crucial technique for optimizing the performance of large language models (LLMs) in generating human-aligned responses. Nonetheless, gathering diversified and superior-quality instruction data for such tuning presents notable obstacles, especially in domains with rigid privacy provisions. Federated instruction tuning (FedIT) has emerged as a promising solution, by consolidating collaborative training across multiple data owners, thereby resulting in a privacy-preserving learning model. However, FedIT encounters limitations such as scarcity of instructional data and risk of exposure to training data extraction attacks. In this paper, we propose a novel federated algorithm, FewFedPIT, designed to simultaneously enhance privacy protection and model performance of federated few-shot learning. FewFedPITcomprises three vital components on the client side: (1) synthetic data generation, which utilizes LLMs' in-context learning capacity to generate synthetic data autonomously, thus expanding the local database; (2) parameter isolation training, which individually updates the public parameters in the synthetic data and the private parameters in the local data, consequently mitigating the noise impact of the synthetic data; (3) local aggregation sharing, which mixes public and private parameters before uploading, effectively preventing data extraction attacks. Extensive experiments on three open-source datasets demonstrate the effectiveness of FewFedPITin, enhancing privacy preservation and improving federated few-shot performance. | 翻訳日:2024-06-22 04:49:43 公開日:2024-06-20 |
# SPA: 計算フレンドリーなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズジェネレーションを目指して
SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation ( http://arxiv.org/abs/2403.07088v5 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Ruilin Nong, Weihao Liu, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LLMは低リソースデバイスにかなりのメモリストレージを必要とする。
さらに重要なのは、これらのデバイスの計算速度も大幅に制限されていることだ。
本稿では、厳密なオンデバイス計算とメモリ制約の制約に対する高速なオンデバイス推論のための軽量アーキテクチャであるSPA(Side Plugin Adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,クラウド上での事前学習LLMとデバイス上での付加的パラメータとの相互作用を確立し,事前学習LLMの知識と特徴的特徴を両立させることができる。
さらに、SPAは、高次計算装置の一般情報を含むパラメータを残しながら、低次計算装置に特徴ベースパラメータを保持するためのフレームワークを提供する。
Large language models(LLMs) have shown its outperforming ability on various tasks and question answering. However, LLMs require substantial memory storage on low-resource devices. More critically, the computational speed on these devices is also severely limited. In this paper, we propose SPA(Side Plugin Adaption), a lightweight architecture for fast on-devices inference on the constraints of strict on-devices computation and memory constraints. Compared with other on-devices seq2seq generation, SPA could make a fast and stable inference on low-resource constraints, allowing it to obtain cost effiency. Our method establish an interaction between a pretrained LLMs on-cloud and additive parameters on-devices, which could provide the knowledge on both pretrained LLMs and featured personal feature. Further more, SPA provides a framework to keep feature-base parameters on low computational devices while leave the parameters containing general information on the high computational devices. | 翻訳日:2024-06-22 04:49:43 公開日:2024-06-20 |
# ディープシークエンシャル知識追跡モデルの精度と解釈性向上のための質問中心型マルチエキスパートコントラスト学習フレームワーク
A Question-centric Multi-experts Contrastive Learning Framework for Improving the Accuracy and Interpretability of Deep Sequential Knowledge Tracing Models ( http://arxiv.org/abs/2403.07322v2 ) ライセンス: Link先を確認 | Hengyuan Zhang, Zitao Liu, Chenming Shang, Dawei Li, Yong Jiang, | (参考訳) 知識追跡(KT)は,過去の学習過程を分析することによって,学生の今後のパフォーマンスを予測する上で重要な役割を担っている。
ディープニューラルネットワーク(DNN)は、KT問題を解決する大きな可能性を示している。
しかし、KTプロセスのモデル化にディープラーニング技術を適用する際には、いくつかの重要な課題がある。
最初の課題は、質問の個々の情報をモデリングに取り入れることである。
これは、同じ知識コンポーネント(KC)を共有する質問にもかかわらず、同質な質問に対する学生の知識獲得が著しく異なるためである。
2つ目の課題は、既存のディープラーニングベースのKTモデルによる予測結果の解釈である。
実世界のアプリケーションでは、モデルパラメータの完全な透明性と解釈可能性を持つことは必要ないかもしれないが、教師が解釈できると考える方法でモデルの予測結果を提示することが不可欠である。
これにより、教師は予測結果の背後にある合理的な根拠を受け入れて、学生のための教育活動や調整された学習戦略の設計に利用することができる。
しかし、深層学習技術の本質的なブラックボックスの性質は、教師がモデルの予測結果を完全に受け入れるハードルとなることが多い。
これらの課題に対処するために、Q-MCKTと呼ばれるKTのための質問中心マルチエキスパートコントラスト学習フレームワークを提案する。
データセットとコードは、https://github.com/rattlesnakey/Q-MCKT.comで公開しています。
Knowledge tracing (KT) plays a crucial role in predicting students' future performance by analyzing their historical learning processes. Deep neural networks (DNNs) have shown great potential in solving the KT problem. However, there still exist some important challenges when applying deep learning techniques to model the KT process. The first challenge lies in taking the individual information of the question into modeling. This is crucial because, despite questions sharing the same knowledge component (KC), students' knowledge acquisition on homogeneous questions can vary significantly. The second challenge lies in interpreting the prediction results from existing deep learning-based KT models. In real-world applications, while it may not be necessary to have complete transparency and interpretability of the model parameters, it is crucial to present the model's prediction results in a manner that teachers find interpretable. This makes teachers accept the rationale behind the prediction results and utilize them to design teaching activities and tailored learning strategies for students. However, the inherent black-box nature of deep learning techniques often poses a hurdle for teachers to fully embrace the model's prediction results. To address these challenges, we propose a Question-centric Multi-experts Contrastive Learning framework for KT called Q-MCKT. We have provided all the datasets and code on our website at https://github.com/rattlesnakey/Q-MCKT. | 翻訳日:2024-06-22 04:49:43 公開日:2024-06-20 |
# SIT: 逐次命令付き大規模言語モデル
SIT: Fine-tuning Large Language Models with Sequential Instructions ( http://arxiv.org/abs/2403.07794v2 ) ライセンス: Link先を確認 | Hanxu Hu, Simon Yu, Pinzhen Chen, Edoardo M. Ponti, | (参考訳) 既存の命令チューニングモデルの成功にもかかわらず、彼らは通常、複数の命令でクエリに応答するのに苦労している。
これにより、複数の中間タスクからなる解が存在する複雑な問題において、それらの性能を損なう。
したがって、微調整データの一部が逐次的に関連するタスクの連鎖を含むべきである、と我々は主張する。
まず、タスク駆動の観点から逐次的命令チューニングを行い、多言語および視覚的質問応答のための解釈可能な中間タスクを手動で作成する。
次に,既存のデータセット(Alpaca,FlanCoTなど)の命令を多様かつ複雑な命令に変換することで,このプロセスを自動化する。
逐次指導チューニングを行ったモデルでは、符号化、数学、オープンエンド生成の結果が改善された。
さらに、SeqEvalという新しいベンチマークを提案し、モデルがシーケンス内のすべての命令を追従する能力を評価し、さらに微調整法の利点を裏付ける。
我々は,複雑なタスクのチューニングに関する新たな研究の道を開くことを願っている。
Despite the success of existing instruction-tuned models, we find that they usually struggle to respond to queries with multiple instructions. This impairs their performance in complex problems whose solution consists of multiple intermediate tasks. Thus, we contend that part of the fine-tuning data mixture should be sequential--containing a chain of interrelated tasks. We first approach sequential instruction tuning from a task-driven perspective, manually creating interpretable intermediate tasks for multilingual and visual question answering: namely "translate then predict" and "caption then answer". Next, we automate this process by turning instructions in existing datasets (e.g., Alpaca and FlanCoT) into diverse and complex sequential instructions, making our method general-purpose. Models that underwent our sequential instruction tuning show improved results in coding, maths, and open-ended generation. Moreover, we put forward a new benchmark named SeqEval to evaluate a model's ability to follow all the instructions in a sequence, which further corroborates the benefits of our fine-tuning method. We hope that our endeavours will open new research avenues on instruction tuning for complex tasks. | 翻訳日:2024-06-22 04:49:43 公開日:2024-06-20 |
# EquiAV: オーディオ・ビジュアル・コントラスト学習のための等価性を活用する
EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning ( http://arxiv.org/abs/2403.09502v2 ) ライセンス: Link先を確認 | Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung, | (参考訳) 近年の自己教師型音声視覚表現学習の進歩は、リッチで包括的な表現を捉える可能性を示している。
しかし、多くの学習手法で検証されたデータ拡張の利点にもかかわらず、音声視覚学習は、入力ペア間の対応を容易に妨害できるため、これらの利点を十分に活用するのに苦労している。
この制限に対処するために,音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
特に、これは最小の計算オーバーヘッドで達成される。
大規模なアブレーション研究と定性的な結果により,本手法の有効性が検証された。
EquiAVは、様々なオーディオ・ビジュアル・ベンチマークで過去の作品を上回っている。
コードはhttps://github.com/JongSuk1/EquiAV.comで入手できる。
Recent advancements in self-supervised audio-visual representation learning have demonstrated its potential to capture rich and comprehensive representations. However, despite the advantages of data augmentation verified in many learning methods, audio-visual learning has struggled to fully harness these benefits, as augmentations can easily disrupt the correspondence between input pairs. To address this limitation, we introduce EquiAV, a novel framework that leverages equivariance for audio-visual contrastive learning. Our approach begins with extending equivariance to audio-visual learning, facilitated by a shared attention-based transformation predictor. It enables the aggregation of features from diverse augmentations into a representative embedding, providing robust supervision. Notably, this is achieved with minimal computational overhead. Extensive ablation studies and qualitative results verify the effectiveness of our method. EquiAV outperforms previous works across various audio-visual benchmarks. The code is available on https://github.com/JongSuk1/EquiAV. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# 翻訳は必要か? 大規模言語モデルを用いた多言語課題の解法に関する研究
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models ( http://arxiv.org/abs/2403.10258v2 ) ライセンス: Link先を確認 | Chaoqun Liu, Wenxuan Zhang, Yiran Zhao, Anh Tuan Luu, Lidong Bing, | (参考訳) 大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
既存の研究は、この現象を利用して、自然言語処理(NLP)タスクを中心に、翻訳を通じて多言語のパフォーマンスを改善する。
本研究は、NLPタスクから実際のユーザクエリ、英語中心のLLMから非英語中心のLLMまで、評価を拡張した。
英語への翻訳は、英語中心のLLMのための多言語NLPタスクのパフォーマンスを向上させるのに役立つが、全てのシナリオに最適ではないかもしれない。
深い言語理解を必要とする文化関連のタスクでは、文化や言語のニュアンスをよりよく捉えるため、ネイティブ言語でのプロンプトがより有望になる傾向があります。
実験により,多言語文脈におけるLLMとタスクの多様な挙動が明らかになった。
そこで我々は、より包括的な多言語評価と多言語LLM開発への取り組みを、英語を中心としたものを超えて提唱する。
Large language models (LLMs) have demonstrated multilingual capabilities; yet, they are mostly English-centric due to the imbalanced training corpora. Existing works leverage this phenomenon to improve their multilingual performances through translation, primarily on natural language processing (NLP) tasks. This work extends the evaluation from NLP tasks to real user queries and from English-centric LLMs to non-English-centric LLMs. While translation into English can help improve the performance of multilingual NLP tasks for English-centric LLMs, it may not be optimal for all scenarios. For culture-related tasks that need deep language understanding, prompting in the native language tends to be more promising as it better captures the nuances of culture and language. Our experiments reveal varied behaviors among different LLMs and tasks in the multilingual context. Therefore, we advocate for more comprehensive multilingual evaluation and more efforts toward developing multilingual LLMs beyond English-centric ones. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# 低コスト心血行動態不安定性検出のためのマルチモーダル変分オートエンコーダ
Multimodal Variational Autoencoder for Low-cost Cardiac Hemodynamics Instability Detection ( http://arxiv.org/abs/2403.13658v2 ) ライセンス: Link先を確認 | Mohammod N. I. Suvon, Prasun C. Tripathi, Wenrui Fan, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew J. Swift, Chen Chen, Haiping Lu, | (参考訳) 心臓血行動態不安定症(CHDI)の非侵襲的検出の最近の進歩は、主に単一のデータモダリティ、例えば心臓磁気共鳴画像(MRI)に機械学習技術を適用することに焦点を当てている。
それらの可能性にもかかわらず、これらのアプローチは、特にラベル付き患者データのサイズが限られている場合、医学領域における一般的な課題である。
さらに、心臓MRIや心エコー図のような高価なモダリティに大きく依存するCHDIを研究するためのマルチモーダル手法を探求する研究はほとんどない。
これらの制約に対応するために、我々は、低コストの胸部X線(CXR)と心電図(ECG)モダリティを統合するための、新しいマルチモーダル変分オートエンコーダ($\text{CardioVAE}_\text{X,G}$)を提案する。
具体的には、$\text{CardioVAE}_\text{X,G}$は、共有機能とモダリティ固有の機能の両方を学ぶために、新しいトリストリーム事前トレーニング戦略を導入し、非モーダルデータセットとマルチモーダルデータセットの両方で微調整を可能にする。
私たちはMIMICデータベースのサブセットから50,982ドルの未ラベルのデータセットで$\text{CardioVAE}_\text{X,G}$を事前トレーニングし、ASPIREレジストリから795ドルのラベル付きデータセットで事前トレーニングされたモデルを微調整します。
既存のメソッドに対する包括的な評価は、$\text{CardioVAE}_\text{X,G}$が有望な性能(AUROC $=0.79$と精度$=0.77$)を提供することを示している。
また,本モデルでは,臨床特徴に直接関連した予測の微妙な解釈を行い,臨床的意思決定を支援することにも長けている。
Recent advancements in non-invasive detection of cardiac hemodynamic instability (CHDI) primarily focus on applying machine learning techniques to a single data modality, e.g. cardiac magnetic resonance imaging (MRI). Despite their potential, these approaches often fall short especially when the size of labeled patient data is limited, a common challenge in the medical domain. Furthermore, only a few studies have explored multimodal methods to study CHDI, which mostly rely on costly modalities such as cardiac MRI and echocardiogram. In response to these limitations, we propose a novel multimodal variational autoencoder ($\text{CardioVAE}_\text{X,G}$) to integrate low-cost chest X-ray (CXR) and electrocardiogram (ECG) modalities with pre-training on a large unlabeled dataset. Specifically, $\text{CardioVAE}_\text{X,G}$ introduces a novel tri-stream pre-training strategy to learn both shared and modality-specific features, thus enabling fine-tuning with both unimodal and multimodal datasets. We pre-train $\text{CardioVAE}_\text{X,G}$ on a large, unlabeled dataset of $50,982$ subjects from a subset of MIMIC database and then fine-tune the pre-trained model on a labeled dataset of $795$ subjects from the ASPIRE registry. Comprehensive evaluations against existing methods show that $\text{CardioVAE}_\text{X,G}$ offers promising performance (AUROC $=0.79$ and Accuracy $=0.77$), representing a significant step forward in non-invasive prediction of CHDI. Our model also excels in producing fine interpretations of predictions directly associated with clinical features, thereby supporting clinical decision-making. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# マルチスケールフロー問題に対する学習型マルチ連続モデル
Learning-based Multi-continuum Model for Multiscale Flow Problems ( http://arxiv.org/abs/2403.14084v2 ) ライセンス: Link先を確認 | Fan Wang, Yating Wang, Wing Tat Leung, Zongben Xu, | (参考訳) マルチスケール問題は通常、シミュレーションを高速化するために粗いグリッド上の元のシステムのマクロな振る舞いを捉えることができるいくつかの効果的なパラメータを持つ方程式による数値的均質化によって近似することができる。
しかし、このアプローチは通常、スケール分離と解の不均一性をそれぞれの粗いブロックにおける解平均によって近似できると仮定する。
複雑なマルチスケール問題に対して、計算された単一の有効性/連続性は不十分かもしれない。
本稿では,同質化方程式の強化と,与えられたデータを用いたマルチスケール問題に対する単一連続体モデルの精度向上を目的とした,学習に基づく新しいマルチ連続体モデルを提案する。
一般化の欠如がなければ、2連続の場合を考える。
第1のフロー方程式は、元の均質化方程式の情報を追加の相互作用項で保持する。
第2連続体を新たに導入し、第2流れ方程式の有効透過性をニューラルネットワークにより決定する。
2つの連続体間の相互作用項は、双極性モデルで使用されるものと一致するが、別のニューラルネットワークによって決定される学習可能な係数と一致する。
ニューラルネットワーク用語を持つ新しいモデルは、信頼されたデータを使用して最適化される。
PDE制約最適化問題に対する直接バックプロパゲーションと随伴法の両方について論じる。
提案した学習型多大陸モデルでは, 粗いグリッドブロック内の複数の相互作用媒質を解き, 物質移動を記述し, 線形および非線形流方程式を含む数値実験によりシミュレーション結果を大幅に改善することが実証された。
Multiscale problems can usually be approximated through numerical homogenization by an equation with some effective parameters that can capture the macroscopic behavior of the original system on the coarse grid to speed up the simulation. However, this approach usually assumes scale separation and that the heterogeneity of the solution can be approximated by the solution average in each coarse block. For complex multiscale problems, the computed single effective properties/continuum might be inadequate. In this paper, we propose a novel learning-based multi-continuum model to enrich the homogenized equation and improve the accuracy of the single continuum model for multiscale problems with some given data. Without loss of generalization, we consider a two-continuum case. The first flow equation keeps the information of the original homogenized equation with an additional interaction term. The second continuum is newly introduced, and the effective permeability in the second flow equation is determined by a neural network. The interaction term between the two continua aligns with that used in the Dual-porosity model but with a learnable coefficient determined by another neural network. The new model with neural network terms is then optimized using trusted data. We discuss both direct back-propagation and the adjoint method for the PDE-constraint optimization problem. Our proposed learning-based multi-continuum model can resolve multiple interacted media within each coarse grid block and describe the mass transfer among them, and it has been demonstrated to significantly improve the simulation results through numerical experiments involving both linear and nonlinear flow equations. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# SyncTweedies: 同期拡散に基づく一般的な生成フレームワーク
SyncTweedies: A General Generative Framework Based on Synchronized Diffusions ( http://arxiv.org/abs/2403.14370v3 ) ライセンス: Link先を確認 | Jaihoon Kim, Juil Koo, Kyeongmin Yeo, Minhyuk Sung, | (参考訳) 複数の拡散過程を同期させることにより、あいまいな画像、パノラマ画像、メッシュテクスチャ、ガウススプレートテクスチャを含む多様な視覚コンテンツを生成するための一般的なフレームワークを導入する。
本稿では,複数の拡散過程を標準空間で同期化するためのすべてのシナリオを網羅的に検討し,その特性をアプリケーション間で解析する。
そのような場合、探索されていないケースとして、Tweedieの公式の出力を平均化しながら、複数のインスタンス空間で denoising を行う。
このケースは、ダウンストリームタスクに最も適用可能な、最高の品質も提供します。
このケースをSyncTweediesと名付けます。
上述したビジュアルコンテンツを生成する実験では、SyncTweediesが他の同期法、最適化法、反復更新法と比較して優れた生成品質を示す。
We introduce a general framework for generating diverse visual content, including ambiguous images, panorama images, mesh textures, and Gaussian splat textures, by synchronizing multiple diffusion processes. We present exhaustive investigation into all possible scenarios for synchronizing multiple diffusion processes through a canonical space and analyze their characteristics across applications. In doing so, we reveal a previously unexplored case: averaging the outputs of Tweedie's formula while conducting denoising in multiple instance spaces. This case also provides the best quality with the widest applicability to downstream tasks. We name this case SyncTweedies. In our experiments generating visual content aforementioned, we demonstrate the superior quality of generation by SyncTweedies compared to other synchronization methods, optimization-based and iterative-update-based methods. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# TrustSQL: ペナルティベースのスコーリングによるテキストとSQLの信頼性のベンチマーク
TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring ( http://arxiv.org/abs/2403.15879v5 ) ライセンス: Link先を確認 | Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi, | (参考訳) Text-to-SQLは、自然言語を使ってデータベースと対話し、情報の検索と合成を簡単にする。
自然言語の質問をSQLクエリに変換する上で,大きな言語モデル(LLM)が著しく成功したにも関わらず,2つの大きな課題があるため,広範なデプロイメントは限定的だ。
第一に、テキストからSQLへのモデルの効果的な利用は、モデルの能力に対するユーザの理解、すなわちモデルが正しく答えられる質問の範囲に依存する。
第二に、控えめなメカニズムがないことは、誤ったSQL生成を気づかないままにし、それによってモデルの出力に対する信頼を損なう可能性がある。
より広範なデプロイメントを実現するためには、モデル設計におけるこれらの課題に対処し、モデル評価を強化し、モデルのアウトプットに対する信頼を構築することが不可欠である。
この目的のために、TrustSQLを紹介した。これは、テキストからSQLまでの信頼性が定義された新しい総合的なベンチマークで、実行不可能な質問に対して正しいSQLクエリを生成し、実行不可能な質問(例えば、スキーマ不互換性やSQL以外の機能のため)を生成することによって、任意のタイプの入力質問を正しく処理する能力として設計されている。
我々は,(1)SQLジェネレータと非現実的質問検出器とSQLエラー検出器を組み合わせたパイプライン方式と,(2)タスク全体に対する単一モデルを用いた統一手法の2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
我々の実験結果によると、厳しい罰則の下で高いスコアを達成するには多大な努力が必要であり、より安全なデプロイメントのためのテキスト-SQLモデルの開発に新たな視点を提供する。
TrustSQLはhttps://github.com/glee4810/TrustSQLで入手できる。
Text-to-SQL enables users to interact with databases using natural language, simplifying the retrieval and synthesis of information. Despite the remarkable success of large language models (LLMs) in translating natural language questions into SQL queries, widespread deployment remains limited due to two primary challenges. First, the effective use of text-to-SQL models depends on users' understanding of the model's capabilities-the scope of questions the model can correctly answer. Second, the absence of abstention mechanisms can lead to incorrect SQL generation going unnoticed, thereby undermining trust in the model's output. To enable wider deployment, it is crucial to address these challenges in model design and enhance model evaluation to build trust in the model's output. To this end, we introduce TrustSQL, a novel comprehensive benchmark designed to evaluate text-to-SQL reliability-defined as a model's ability to correctly handle any type of input question by generating correct SQL queries for feasible questions and abstaining from generating infeasible ones (e.g., due to schema incompatibility or functionalities beyond SQL). We evaluate existing methods using a novel penalty-based scoring metric with two modeling approaches: (1) pipeline-based methods combining SQL generators with infeasible question detectors and SQL error detectors for abstention; and (2) unified methods using a single model for the entire task. Our experimental results reveal that achieving high scores under severe penalties requires significant effort and provide a new perspective on developing text-to-SQL models for safer deployment. TrustSQL is available at https://github.com/glee4810/TrustSQL. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# コーディネートとモーメント空間周期性からの不確かさ原理の一般化の説明
Explanation of the Generalizations of Uncertainty Principle from Coordinate and Momentum Space Periodicity ( http://arxiv.org/abs/2403.16893v2 ) ライセンス: Link先を確認 | Subir Ghosh, | (参考訳) 座標 $x$-momentum $p_x$ Uncertainty Principle, with $\Delta x$ and $\Delta p_x$ dependent terms ($\Delta$ denoting standard deviation), $$\Delta x \Delta p_x\geq i\hbar (1+\alpha\Delta p_x^2 +\beta \Delta x^2)$$$は、量子重力に対する貧しい人のアプローチとして豊富な配当を提供した。
しかし、これらの不確実性原理の拡張は、本質的に純粋に現象論的である。
明示的な構造における固有の曖昧さとは別に、不確実性関係と相反する一般化可換関係の導入にはいくつかの欠点がある。
本稿では、これらの一般化された不確かさ原理が、座標空間や運動量空間の周期的性質を仮定した場合、正準量子力学において、完全に自然な方法で現れることを明らかにする。
我々は、非常に古く(あまり知られていないが)、裁判官と判事とルイスによって、角度 $\phi$ - 角運動量 $L_z$, $$\Delta \phi \Delta L_z \geq i\hbar (1 +\nu \Delta \phi^2)$$ が、角度変数 $\phi$ の連続的な実装から純粋に$\phi$, L_z$標準可換関係を変更することなく、いかにして一貫した不確実性原理が誘導されるかを詳細に説明している。
これはよく知られた拡張不確実性原理と同一である。
}} この形式を直接適用して、$\Delta x \Delta p_x $ Extended Uncertainty Principle を定式化する。
天体物理学の文脈で観測された長さスケールを持つ$\beta$を同定する。
我々は$\alpha$拡張について推測する。
Generalizations of coordinate $x$-momentum $p_x$ Uncertainty Principle, with $\Delta x$ and $\Delta p_x$ dependent terms ($\Delta$ denoting standard deviation), $$\Delta x \Delta p_x\geq i\hbar (1+\alpha\Delta p_x^2 +\beta \Delta x^2)$$ have provided rich dividends as a poor person's approach towards Quantum Gravity, because these can introduce coordinate and momentum scales ($\alpha,\beta$ ) that are appealing conceptually. However, these extensions of Uncertainty Principle are purely phenomenological in nature. Apart from the inherent ambiguity in their explicit structures, the introduction of generalized commutations relations compatible with the the uncertainty relations has some drawbacks. In the present paper we reveal that these generalized Uncertainty Principles can appear in a perfectly natural way, in canonical quantum mechanics, if one assumes a periodic nature in coordinate or momentum space, as the case may be. We bring in to light quite old, (but not so well known), works by Judge and by Judge and Lewis, that explain in detail how a consistent and generalized Uncertainty Principle is induced in the case of angle $\phi$ - angular momentum $L_z$, $$\Delta \phi \Delta L_z \geq i\hbar (1 +\nu \Delta \phi^2)$$ purely from a consistent implementation of {\it{periodic}} nature of the angle variable $\phi $, without changing the $\phi, L_z$ canonical commutation relation. {\it{Structurally this is identical to the well known Extended Uncertainty Principle.}} We directly apply this formalism to formulate the $\Delta x \Delta p_x $ Extended Uncertainty Principle. We identify $\beta$ with an observed length scale relevant in astrophysics context. We speculate about the $\alpha$ extension. | 翻訳日:2024-06-22 04:39:52 公開日:2024-06-20 |
# MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection ( http://arxiv.org/abs/2403.19888v3 ) ライセンス: Link先を確認 | Ali Behrouz, Michele Santacatterina, Ramin Zabih, | (参考訳) ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。
しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。
State Space Models (SSM) およびより具体的には Selective SSMs (S6) は、ハードウェアを意識した効率的な実装であり、長い因果シーケンスモデリングの有望な可能性を示している。
しかし、チャンネル毎に別々のブロックを使用しており、無関係なチャンネルをフィルタリングしたり、チャンネル間の依存関係をキャプチャできなかった。
MLP、アテンション、SSMを使ってチャネル間で情報を混合しようとする自然な試みは、大きなネットワークのためのSSMのトレーニングや、パラメータの2倍近い数のトレーニングにおいて、さらなる不安定性をもたらす。
我々はSSMベースの新しいアーキテクチャであるMambaMixerブロックを提案する。これはトークンとチャネルをまたいだ2つの選択機構を使い、Selective TokenとChannel Mixerと呼ばれる。
パラメータ数を2倍に抑えるため,ハードウェアフレンドリーな実装でS6ブロックの非因果的ヒューリスティックを新たに提案する。
さらに,QSMixerと呼ばれる効率の良いMambaMixerの変種について述べる。
概念実証として、Vision MambaMixer (ViM2) と Vision QSMixer (ViQS) アーキテクチャを設計する。
画像中の空間情報をキャプチャする能力を高めるために,画像パッチを横切るために有用な画像スキャンのセットを動的に使用するSwitch of Scans(SoS)を提案する。
画像分類,セグメンテーション,オブジェクト検出における手法の性能を評価する。
本研究の結果は,トークンとチャネルを選択的に混合することの重要性を浮き彫りにして,十分に確立されたビジョンモデル(SSMベースモデル)を用いた手法の競争的(より優れた)性能を示すものである。
Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. State Space Models (SSMs), and more specifically Selective SSMs (S6), with efficient hardware-aware implementation, have shown promising potential for long causal sequence modeling. They, however, use separate blocks for each channel and fail to filter irrelevant channels and capture inter-channel dependencies. Natural attempt to mix information across channels using MLP, attention, or SSMs results in further instability in the training of SSMs for large networks and/or nearly double the number of parameters. We present the MambaMixer block, a new SSM-based architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels-called Selective Token and Channel Mixer. To mitigate doubling the number of parameters, we present a new non-causal heuristic of the S6 block with a hardware-friendly implementation. We further present an efficient variant of MambaMixer, called QSMixer, that mixes information along both sequence and embedding dimensions. As a proof of concept, we design Vision MambaMixer (ViM2) and Vision QSMixer (ViQS) architectures. To enhance their ability to capture spatial information in images, we present Switch of Scans (SoS) that dynamically uses a set of useful image scans to traverse image patches. We evaluate the performance of our methods in image classification, segmentation, and object detection. Our results underline the importance of selectively mixing across both tokens and channels and show the competitive (resp. superior) performance of our methods with well-established vision models (resp. SSM-based models). | 翻訳日:2024-06-22 04:30:07 公開日:2024-06-20 |
# EBUS-TBNAにおける肺がん病変解析の高度化に向けて -- 半監督ビデオオブジェクト検出法-
Towards Enhanced Analysis of Lung Cancer Lesions in EBUS-TBNA -- A Semi-Supervised Video Object Detection Method ( http://arxiv.org/abs/2404.01929v3 ) ライセンス: Link先を確認 | Jyun-An Lin, Yun-Chien Cheng, Ching-Kai Lin, | (参考訳) 本研究の目的は, 内膜超音波(EBUS)を用いた肺病変のコンピュータ診断システムを構築し, 病変部位の同定を支援することである。
EBUS-transbronchial needle apiration (EBUS-TBNA) 術中, 衛生士は病変の位置をグレースケールの超音波画像に頼っている。
しかし、これらの画像は大きなノイズを伴い、周囲の組織や血管の影響を受けやすいため、識別は困難である。
これまでの研究では、EBUS-TBNAへのオブジェクト検出モデルの適用が欠如しており、EBUS-TBNAデータセットに注釈付きデータがないという明確な解決策はない。
超音波画像の関連研究では、各タスクのターゲット領域の取得に成功しているが、トレーニングと予測は2次元画像に基づいており、時間的特徴を活用して予測を改善する能力が制限されている。
本研究では,3次元映像に基づく物体検出モデルを提案する。
まず、拡散モデルを用いて改善されたクエリのセットを生成し、次に注意機構を通じて時間的相関をキャプチャする。
フィルタリング機構は、前のフレームから関連情報を選択して、現在のフレームに渡す。
その後、教師-学生モデルトレーニング手法を用いて、ラベルなしデータを用いてモデルをさらに最適化する。
様々なデータ拡張と特徴アライメントを組み込むことで、モデルは干渉に対する堅牢性を得る。
テスト結果は、時空間情報をキャプチャし、半教師付き学習手法を用いるこのモデルが、テストデータセット上で平均48.7の精度(AP)を達成し、他のモデルより優れていることを示す。
また、79.2のAR(Average Recall)も達成し、既存のモデルを大きく上回っている。
This study aims to establish a computer-aided diagnostic system for lung lesions using endobronchial ultrasound (EBUS) to assist physicians in identifying lesion areas. During EBUS-transbronchial needle aspiration (EBUS-TBNA) procedures, hysicians rely on grayscale ultrasound images to determine the location of lesions. However, these images often contain significant noise and can be influenced by surrounding tissues or blood vessels, making identification challenging. Previous research has lacked the application of object detection models to EBUS-TBNA, and there has been no well-defined solution for the lack of annotated data in the EBUS-TBNA dataset. In related studies on ultrasound images, although models have been successful in capturing target regions for their respective tasks, their training and predictions have been based on two-dimensional images, limiting their ability to leverage temporal features for improved predictions. This study introduces a three-dimensional video-based object detection model. It first generates a set of improved queries using a diffusion model, then captures temporal correlations through an attention mechanism. A filtering mechanism selects relevant information from previous frames to pass to the current frame. Subsequently, a teacher-student model training approach is employed to further optimize the model using unlabeled data. By incorporating various data augmentation and feature alignment, the model gains robustness against interference. Test results demonstrate that this model, which captures spatiotemporal information and employs semi-supervised learning methods, achieves an Average Precision (AP) of 48.7 on the test dataset, outperforming other models. It also achieves an Average Recall (AR) of 79.2, significantly leading over existing models. | 翻訳日:2024-06-22 04:30:07 公開日:2024-06-20 |
# 一次元液滴搭載環境における分散衝撃波
Dispersive shock waves in a one-dimensional droplet-bearing environment ( http://arxiv.org/abs/2404.02998v3 ) ライセンス: Link先を確認 | Sathyanarayanan Chandramouli, Simeon I. Mistakidis, Garyfallia C. Katsimiga, Panayotis G. Kevrekidis, | (参考訳) 本研究では, ステップ状初期条件の助けを借りて, 量子液滴軸受環境に発生する分散衝撃波の制御可能な生成を実証する。
続く流体力学特異点の分散正則化は、平均場反発と魅力的な量子ゆらぎの競合によって生じる。
この相互作用は、音の実速と想像速度によってそれぞれ指定されるデフォーカス(双曲)と集中(楕円)の流体力学現象の優位性を示す。
具体的には、Gross-Pitaevskiiモデルの拡張対称性は、ここで用いられるリーマン問題の2つの密度と相対速度を含む3パラメータの族に導かれる。
驚くべきことに、分散衝撃波は双曲から楕円のしきい値を越えて持続する一方、レアファクテーション波、走行する分散衝撃波、(反)キンク、および液滴波列などの追加の波動パターンが出現する。
これらの特徴の分類と特徴づけは、ウィットハム変調理論を展開させることによって達成される。
この結果から, 多数の未探索コヒーレントに伝播する波形を, 魅力的な相互作用を持つ混合物中で明らかにし, 現状の実験で検出できる可能性が示唆された。
We demonstrate the controllable generation of distinct types of dispersive shock-waves emerging in a quantum droplet bearing environment with the aid of step-like initial conditions. Dispersive regularization of the ensuing hydrodynamic singularities occurs due to the competition between meanfield repulsion and attractive quantum fluctuations. This interplay delineates the dominance of defocusing (hyperbolic) and focusing (elliptic) hydrodynamic phenomena respectively being designated by real and imaginary speed of sound. Specifically, the symmetries of the extended Gross-Pitaevskii model lead to a three-parameter family, encompassing two densities and a relative velocity, of the underlying Riemann problem utilized herein. Surprisingly, dispersive shock waves persist across the hyperbolic-to-elliptic threshold, while a plethora of additional wave patterns arise, such as rarefaction waves, traveling dispersive shock waves, (anti)kinks and droplet wavetrains. The classification and characterization of these features is achieved by deploying Whitham modulation theory. Our results pave the way for unveiling a multitude of unexplored coherently propagating waveforms in such attractively interacting mixtures and should be detectable by current experiments. | 翻訳日:2024-06-22 04:30:07 公開日:2024-06-20 |
# Eigenpruning: 解釈可能性にインスパイアされたPEFT法
Eigenpruning: an Interpretability-Inspired PEFT Method ( http://arxiv.org/abs/2404.03147v5 ) ライセンス: Link先を確認 | Tomás Vergara-Browne, Álvaro Soto, Akiko Aizawa, | (参考訳) 固有プルーニング(eigenpruning)は、LLMの重み行列から特異値を取り除き、特定のタスクの性能を向上させる手法である。
この方法は、特定のタスクを解決するモデルのサブネットワークを自動的に見つけるために設計された解釈可能性メソッドにインスパイアされている。
実験では, プルーンドモデルでは, 重量行列のプルーニングに最小限の計算しか必要とせず, 元のモデルよりも大きなマージンで性能が向上した。
整数乗算における小さな合成タスクの場合、Phi-2モデルはテストセットの精度を13.75%から97.50%に向上させることができる。
興味深いことに、これらの結果はタスクを効果的に解決できる計算経路の存在を示すものと思われるが、元のモデルでは使われていなかった。
最後に、実装を公開します。
We introduce eigenpruning, a method that removes singular values from weight matrices in an LLM to improve its performance in a particular task. This method is inspired by interpretability methods designed to automatically find subnetworks of a model which solve a specific task. In our tests, the pruned model outperforms the original model by a large margin, while only requiring minimal computation to prune the weight matrices. In the case of a small synthetic task in integer multiplication, the Phi-2 model can improve its accuracy in the test set from 13.75% to 97.50%. Interestingly, these results seem to indicate the existence of a computation path that can solve the task very effectively, but it was not being used by the original model. Finally, we publicly release our implementation. | 翻訳日:2024-06-22 04:30:07 公開日:2024-06-20 |
# マルチパーティイトエッジモードとテンソルネットワーク
Multipartite edge modes and tensor networks ( http://arxiv.org/abs/2404.03651v2 ) ライセンス: Link先を確認 | Chris Akers, Ronak M. Soni, Annie Y. Wei, | (参考訳) ホログラフィックテンソルネットワークはAdS/CFTをモデル化しているが、これまでのところ、それらは重力と非常に異なるシステムのみによって制限されてきた。
残念なことに、微分同相不変性を損なうため、重力を組み込むように直接的に区別することはできない。
ここでは、解決を探求する。
低次元では、重力はトポロジカルゲージ理論として記述することができ、ゲージ不変性を破ることなく離散化することができる。
しかし、新たな問題が生じた。
基本的には、カットに沿ったリンク数とは無関係で、代わりにトポロジカルな、質的に新しいタイプの「エリア演算子」が必要である。
第二に、物質を包含することがより困難になる。
我々は,新しいタイプの領域を含むテンソルネットワークの構築に成功した。
特に、この領域は「エッジモード」自由度における絡み合いとまだ関係があるが、エッジモードはもはや二分割絡み合いの対ではない。
むしろ多人数制である。
その過程で、特定のトポロジカルゲージ理論において、新しい部分代数のエントロピーを計算する。
また、エッジモードの多重部分性は、他のテンソルネットワークが示さない特性である非可換領域演算子を生じさせることを示す。
Holographic tensor networks model AdS/CFT, but so far they have been limited by involving only systems that are very different from gravity. Unfortunately, we cannot straightforwardly discretize gravity to incorporate it, because that would break diffeomorphism invariance. In this note, we explore a resolution. In low dimensions gravity can be written as a topological gauge theory, which can be discretized without breaking gauge-invariance. However, new problems arise. Foremost, we now need a qualitatively new kind of "area operator," which has no relation to the number of links along the cut and is instead topological. Secondly, the inclusion of matter becomes trickier. We successfully construct a tensor network both including matter and with this new type of area. Notably, while this area is still related to the entanglement in "edge mode" degrees of freedom, the edge modes are no longer bipartite entangled pairs. Instead they are highly multipartite. Along the way, we calculate the entropy of novel subalgebras in a particular topological gauge theory. We also show that the multipartite nature of the edge modes gives rise to non-commuting area operators, a property that other tensor networks do not exhibit. | 翻訳日:2024-06-22 04:30:07 公開日:2024-06-20 |
# 神経細胞性オートマタの創発的ダイナミクス
Emergent Dynamics in Neural Cellular Automata ( http://arxiv.org/abs/2404.06406v3 ) ライセンス: Link先を確認 | Yitao Xu, Ehsan Pajouheshgar, Sabine Süsstrunk, | (参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)は、従来のセルオートマタ(CA)の訓練可能なバリエーションである。
NCAによって生成されたパターンの創発的な動きは、動的テクスチャの合成に成功している。
しかし、NAAが動的パターンを表示するのに必要な条件は未解明のままである。
そこで本研究では,NCAアーキテクチャとトレーニングモデルの創発的ダイナミクスとの関係について検討する。
具体的には、MultiLayer Perceptron (MLP) における細胞状態のチャネル数と隠されたニューロン数を変化させ、これら2つの変数の組み合わせと連続したフレーム間の運動強度の関係を描いている。
解析の結果,これらの変数間の相違と比例性は,NCA出力の創発的ダイナミクスと強い相関関係があることが判明した。
そこで我々は動的NAAを作成するための設計原則を提案する。
Neural Cellular Automata (NCA) models are trainable variations of traditional Cellular Automata (CA). Emergent motion in the patterns created by NCA has been successfully applied to synthesize dynamic textures. However, the conditions required for an NCA to display dynamic patterns remain unexplored. Here, we investigate the relationship between the NCA architecture and the emergent dynamics of the trained models. Specifically, we vary the number of channels in the cell state and the number of hidden neurons in the MultiLayer Perceptron (MLP), and draw a relationship between the combination of these two variables and the motion strength between successive frames. Our analysis reveals that the disparity and proportionality between these two variables have a strong correlation with the emergent dynamics in the NCA output. We thus propose a design principle for creating dynamic NCA. | 翻訳日:2024-06-22 04:30:07 公開日:2024-06-20 |
# ALERT: 大規模言語モデルの安全性を評価するための総合ベンチマーク
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming ( http://arxiv.org/abs/2404.08676v2 ) ライセンス: Link先を確認 | Simone Tedeschi, Felix Friedrich, Patrick Schramowski, Kristian Kersting, Roberto Navigli, Huu Nguyen, Bo Li, | (参考訳) LLM(Large Language Models)を構築する場合、安全を念頭に置いてガードレールで保護することが最重要である。
実際、LLMは、個人や社会に害をもたらす可能性のある有害、違法、または非倫理的な行動を促進または正規化するコンテンツを生成するべきではない。
この原則は、通常の使用と敵対的な使用の両方に適用される。
そこで本研究では,新たなリスク分類法に基づく安全性評価のための大規模ベンチマークであるALERTを紹介する。
LLMの安全性をレッドチーム方式で評価するために設計され、新しい分類法を用いて分類された45k以上の命令から構成される。
敵対的なテストシナリオにLLMを適用することで、ALERTは脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目指している。
さらに、きめ細かい分類法により、研究者は、様々なポリシーとの整合性を評価するのに役立つ詳細な評価を行うことができる。
実験では,10のオープンソースおよびクローズドソース LLM を広範囲に評価し,その多くが依然として適切なレベルの安全性を達成するのに苦慮していることを示す。
When building Large Language Models (LLMs), it is paramount to bear safety in mind and protect them with guardrails. Indeed, LLMs should never generate content promoting or normalizing harmful, illegal, or unethical behavior that may contribute to harm to individuals or society. This principle applies to both normal and adversarial use. In response, we introduce ALERT, a large-scale benchmark to assess safety based on a novel fine-grained risk taxonomy. It is designed to evaluate the safety of LLMs through red teaming methodologies and consists of more than 45k instructions categorized using our novel taxonomy. By subjecting LLMs to adversarial testing scenarios, ALERT aims to identify vulnerabilities, inform improvements, and enhance the overall safety of the language models. Furthermore, the fine-grained taxonomy enables researchers to perform an in-depth evaluation that also helps one to assess the alignment with various policies. In our experiments, we extensively evaluate 10 popular open- and closed-source LLMs and demonstrate that many of them still struggle to attain reasonable levels of safety. | 翻訳日:2024-06-22 04:18:42 公開日:2024-06-20 |
# RankCLIP: Ranking-Consistent Language- Image Pretraining
RankCLIP: Ranking-Consistent Language-Image Pretraining ( http://arxiv.org/abs/2404.09387v2 ) ライセンス: Link先を確認 | Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun, | (参考訳) CLIPのような自己教師付きコントラスト学習モデルは、多くの下流タスクで視覚言語モデルのための新しいベンチマークを設定している。
しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な、しばしば多面的な関係を見落としている。
この目的のために,CLIPの厳密な1対1マッチングフレームワークとその変種を超えて拡張された,新しい事前学習手法RANKCLIPを導入する。
従来のペアワイズ損失をリストワイズに拡張し、インモーダルとクロスモーダルの両方のランキング一貫性を活用することで、RANKCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。
総合的な実験を通じて、様々な下流タスクにおけるRANKCLIPの有効性を実証し、特に最先端の手法よりもゼロショットの分類において顕著な成果を挙げ、この強化学習プロセスの重要性を強調した。
Self-supervised contrastive learning models, such as CLIP, have set new benchmarks for vision-language models in many downstream tasks. However, their dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RANKCLIP, a novel pretraining method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By extending the traditional pair-wise loss to list-wise, and leveraging both in-modal and cross-modal ranking consistency, RANKCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the effectiveness of RANKCLIP in various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the importance of this enhanced learning process. | 翻訳日:2024-06-22 04:18:42 公開日:2024-06-20 |
# 白人男性、黒人女性が助ける? LLMで言語機関の社会的バイアスをベンチマーク
White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs ( http://arxiv.org/abs/2404.10508v3 ) ライセンス: Link先を確認 | Yixin Wan, Kai-Wei Chang, | (参考訳) 言語エージェンシーは、テキストにおける社会的偏見を評価する上で重要な側面である。
いくつかの研究が人文言語におけるエージェンシー関連バイアスに近づいた一方で、LLM(Large Language Model)生成コンテンツにおけるそのようなバイアスについて、非常に限定的な研究がなされている。
さらに、過去の研究は、しばしばテキスト内のエージェント語とコミュニティブ語を識別する文字列マッチング技術に依存しており、それは言語エージェンシーを正確に分類するに足らない。
本稿では,言語庁バイアス評価(LABE, Language Agency Bias Evaluation)ベンチマークについて紹介する。
LABEは5,400のテンプレートベースのプロンプト、正確なエージェンシー分類器、およびそれに対応するバイアスメトリクスを利用して、3つのテキスト生成タスク(バイオグラフィー、教授レビュー、参照レター)でLSMの性別、人種、および交叉言語エージェンシーバイアスをテストする。
3,724のエージェント文と共用文からなるLanguage Agency Classification (LAC)データセットを,より良く,より正確な自動エージェント分類器の構築に寄与し,リリースする。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)において,未探索言語エージェンシーの社会的偏見を明らかにした。
1)同一のテキストカテゴリでは,LLM世代は人文テキストよりもジェンダーバイアスのレベルが高く,(2)ほとんどの世代タスクでは,モデルが他のバイアスのレベルよりもはるかに高い交叉バイアスのレベルを示す。
性別と人種の少数派(黒人女性など)の交差点にいる人々は、一貫して低レベルの機関を持つテキストによって記述されている; (3) 調査された3つのLSMのうち、Llama3は言語エージェンシーにおいて最大の全体的なバイアスを示す; (4) プロンプトベースの緩和はLLMにおける言語エージェンシーのバイアスを解決するのに失敗するだけでなく、しばしば生成されたテキストにおけるバイアスが悪化する。
Language agency is an important aspect of evaluating social biases in texts. While several studies approached agency-related bias in human-written language, very limited research has investigated such biases in Large Language Model (LLM)-generated content. In addition, previous research often relies on string-matching techniques to identify agentic and communal words within texts, which fall short of accurately classifying language agency. We introduce the novel Language Agency Bias Evaluation (LABE) benchmark, which comprehensively evaluates biases in LLMs by analyzing agency levels attributed to different demographic groups in model generations. LABE leverages 5,400 template-based prompts, an accurate agency classifier, and corresponding bias metrics to test for gender, racial, and intersectional language agency biases in LLMs on 3 text generation tasks: biographies, professor reviews, and reference letters. To build better and more accurate automated agency classifiers, we also contribute and release the Language Agency Classification (LAC) dataset, consisting of 3,724 agentic and communal sentences. Using LABE, we unveil previously under-explored language agency social biases in 3 recent LLMs: ChatGPT, Llama3, and Mistral. We observe that: (1) For the same text category, LLM generations demonstrate higher levels of gender bias than human-written texts; (2) On most generation tasks, models show remarkably higher levels of intersectional bias than the other bias aspects. Those who are at the intersection of gender and racial minority groups -- such as Black females -- are consistently described by texts with lower levels of agency; (3) Among the 3 LLMs investigated, Llama3 demonstrates greatest overall bias in language agency; (4) Not only does prompt-based mitigation fail to resolve language agency bias in LLMs, but it frequently leads to the exacerbation of biases in generated texts. | 翻訳日:2024-06-22 04:18:42 公開日:2024-06-20 |
# 自動運転コーナ症例における大規模視線モデルの自動評価
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases ( http://arxiv.org/abs/2404.10595v2 ) ライセンス: Link先を確認 | Kai Chen, Yanze Li, Wenhua Zhang, Yanxin Liu, Pengxiang Li, Ruiyuan Gao, Lanqing Hong, Meng Tian, Xinhai Zhao, Zhenguo Li, Dit-Yan Yeung, Huchuan Lu, Xu Jia, | (参考訳) LVLM(Large Vision-Language Models)は、解釈可能な自動運転の推進において広く注目を集めている。
LVLMの既存の評価は、主に自然環境における多面的能力に焦点を当てており、厳しい道路角のケースだけでなく、自動的かつ定量的な自動運転評価が欠如している。
本稿では,自動運転コーナーにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
我々は,強力なLVLMデータ構造を採用し,複雑な運転シーンを解析し,人間のアノテータに対して高品質な事前アノテーションを生成する。
さらに,CODA-LMでは,CODA-LM上でのオープンソース環境を超越した新しい運転用LVLMであるCODA-VLMを構築した。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
我々は,CODA-LMがLVLMによる解釈可能な自動運転を促進する触媒になることを期待している。
Large Vision-Language Models (LVLMs) have received widespread attention in advancing the interpretable self-driving. Existing evaluations of LVLMs primarily focus on the multi-faceted capabilities in natural circumstances, lacking automated and quantifiable assessment for self-driving, let alone the severe road corner cases. In this paper, we propose CODA-LM, the very first benchmark for the automatic evaluation of LVLMs for self-driving corner cases. We adopt a hierarchical data structure to prompt powerful LVLMs to analyze complex driving scenes and generate high-quality pre-annotation for human annotators, and for LVLM evaluation, we show that using the text-only large language models (LLMs) as judges reveals even better alignment with human preferences than the LVLM judges. Moreover, with CODA-LM, we build CODA-VLM, a new driving LVLM surpassing all the open-sourced counterparts on CODA-LM. Our CODA-VLM performs comparably with GPT-4V, even surpassing GPT-4V by +21.42% on the regional perception task. We hope CODA-LM can become the catalyst to promote interpretable self-driving empowered by LVLMs. | 翻訳日:2024-06-22 04:18:42 公開日:2024-06-20 |
# Transformerは$n$-gramの言語モデルを表現できる
Transformers Can Represent $n$-gram Language Models ( http://arxiv.org/abs/2404.14994v3 ) ライセンス: Link先を確認 | Anej Svete, Ryan Cotterell, | (参考訳) 既存の研究は、フォーマルな計算モデルを用いてトランスフォーマーアーキテクチャの表現能力を分析した。
しかし、これまでのところ、アーキテクチャを言語 \emph{acceptance} の観点から分析することに重点を置いている。
これは、文字列上で定義的に \emph{probability distributions である 'emph{lang model} (LMs) の研究において不適切な問題であると主張する。
本稿では,言語モデルの単純かつ歴史的に関連するクラスであるトランスフォーマーLMと$n$-gram LMの関係に着目した。
我々は、ハードまたはスパースアテンション機構を用いたトランスフォーマーLMが、正確には$n$-gramのLMを表現できることを示し、その確率的表現能力に具体的な制約を与える。
これは、トランスフォーマーLMが文字列上の確率分布を表現するために使用できるメカニズムを理解するための第一歩となる。
Existing work has analyzed the representational capacity of the transformer architecture by means of formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language \emph{acceptance}. We contend that this is an ill-suited problem in the study of \emph{language models} (LMs), which are definitionally \emph{probability distributions} over strings. In this paper, we focus on the relationship between transformer LMs and $n$-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any $n$-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings. | 翻訳日:2024-06-22 04:18:42 公開日:2024-06-20 |
# ニューラルネットワークによる飽和星の光度測定
Photometry of Saturated Stars with Neural Networks ( http://arxiv.org/abs/2404.15405v2 ) ライセンス: Link先を確認 | Dominik Winecki, Christopher S. Kochanek, | (参考訳) 超新星のためのオールスカイ自動サーベイ(ASAS-SN)において、多層パーセプトロン(MLP)ニューラルネットワークを用いて飽和星の光度を求める。
MLP は g~4 から 14~mag の恒星に対して、特に、飽和 (g<11.5 mag) 星に対する 0.12 Mag の分散 (15%-85% 1シグマの範囲) と比較して、かなり不偏光度を求めることができる。
さらに重要なことに、変光星の光度曲線は0.037マグの中央分散しか持たない。
MLPの光度曲線は、多くの場合、ASAS-SNパイプラインが提供するものよりも驚くほど良い。
ネットワークはASAS-SNの20台のカメラのうちの1台のみからgバンドのデータに基づいて訓練されたが、最初の実験では任意のカメラと古いASAS-SN Vのバンドデータにも使用できることが示唆された。
主な問題は、MSP自体よりも飽和星のASAS-SNデータ還元パイプラインの修正可能な問題と関連しているようである。
この方法はASAS-SN Sky Patrol v1.0で光曲線オプションとして公開されている。
We use a multilevel perceptron (MLP) neural network to obtain photometry of saturated stars in the All-Sky Automated Survey for Supernovae (ASAS-SN). The MLP can obtain fairly unbiased photometry for stars from g~4 to 14~mag, particularly compared to the dispersion (15%-85% 1sigma range around the median) of 0.12 mag for saturated (g<11.5 mag) stars. More importantly, the light curve of a non-variable saturated star has a median dispersion of only 0.037 mag. The MLP light curves are, in many cases, spectacularly better than those provided by the standard ASAS-SN pipelines. While the network was trained on g band data from only one of ASAS-SN's 20 cameras, initial experiments suggest that it can be used for any camera and the older ASAS-SN V band data as well. The dominant problems seem to be associated with correctable issues in the ASAS-SN data reduction pipeline for saturated stars more than the MLP itself. The method is publicly available as a light curve option on ASAS-SN Sky Patrol v1.0. | 翻訳日:2024-06-22 04:18:42 公開日:2024-06-20 |
# スマートコントラクトの流動性検証
Solvent: liquidity verification of smart contracts ( http://arxiv.org/abs/2404.17864v2 ) ライセンス: Link先を確認 | Massimo Bartoletti, Angelo Ferrando, Enrico Lipparini, Vadim Malvone, | (参考訳) スマートコントラクトは、長期にわたるセキュリティインシデントによって証明されているように、攻撃者にとって魅力的なターゲットだ。
スマートコントラクト検証ツールの現在の制限は、暗号資産の交換に関する流動性特性の表現と検証に効果がないことである。
Solventは,Solidityの既存の検証ツールの範囲を超えた,この種のプロパティの検証を目的としたツールだ。
スマートコントラクトの共通ベンチマークを用いて,Solventの有効性と性能を評価する。
Smart contracts are an attractive target for attackers, as evidenced by a long history of security incidents. A current limitation of smart contract verification tools is that they are not really effective in expressing and verifying liquidity properties regarding the exchange of crypto-assets: for example, is it true that in every reachable state a user can fire a sequence of transactions to withdraw a given amount of crypto-assets? We propose Solvent, a tool aimed at verifying these kinds of properties, which are beyond the reach of existing verification tools for Solidity. We evaluate the effectiveness and performance of Solvent through a common benchmark of smart contracts. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# クロスモーダルマスクマッチングによるオンライン・ターゲットフリーLiDAR-Camera Extrinsic Calibration
Online,Target-Free LiDAR-Camera Extrinsic Calibration via Cross-Modal Mask Matching ( http://arxiv.org/abs/2404.18083v2 ) ライセンス: Link先を確認 | Zhiwei Huang, Yikang Zhang, Qijun Chen, Rui Fan, | (参考訳) LiDAR-camera extrinsic calibration (LCEC) はインテリジェントな車両のデータ融合に不可欠である。
オフライン、ターゲットベースアプローチがこの分野で長年好まれてきた選択肢である。
しかし、現実の環境への適応性は低いことがしばしばある。
これは主に、中程度の衝撃や振動のある環境での長時間の操作により、外在パラメータが著しく変化する可能性があるためである。
対照的に、ターゲットレスのオンラインアプローチは、より適応性が高いが、主にクロスモーダルな特徴マッチングの課題のため、ロバスト性に欠ける。
そこで本稿では,コンピュータビジョンとロボティクス,特に具体的人工知能の分野で重要なトレンドとして浮上している大型ビジョンモデル(LVM)の可能性を解き明かし,様々な難題にまたがる,堅牢で正確なオンラインLCECを実現する。
私たちはMIAS-LCECと呼ばれる新しいフレームワークを導入し、インタラクティブな可視化インタフェースを備えたオープンソースの多目的キャリブレーションツールボックスを提供し、様々な屋内および屋外環境から取得した3つの実世界のデータセットを公開しました。
我々のフレームワークとツールボックスの基盤は、最先端(SoTA)のLVMに基づいて開発されたクロスモーダルマスクマッチング(C3M)アルゴリズムであり、十分かつ信頼性の高いマッチングを生成することができる。
これらの実世界のデータセットに対して行われた大規模な実験は、SoTA法と比較して、特に超広視野の固体LiDARに対して、我々のアプローチの堅牢性と優れた性能を示すものである。
LiDAR-camera extrinsic calibration (LCEC) is crucial for data fusion in intelligent vehicles. Offline, target-based approaches have long been the preferred choice in this field. However, they often demonstrate poor adaptability to real-world environments. This is largely because extrinsic parameters may change significantly due to moderate shocks or during extended operations in environments with vibrations. In contrast, online, target-free approaches provide greater adaptability yet typically lack robustness, primarily due to the challenges in cross-modal feature matching. Therefore, in this article, we unleash the full potential of large vision models (LVMs), which are emerging as a significant trend in the fields of computer vision and robotics, especially for embodied artificial intelligence, to achieve robust and accurate online, target-free LCEC across a variety of challenging scenarios. Our main contributions are threefold: we introduce a novel framework known as MIAS-LCEC, provide an open-source versatile calibration toolbox with an interactive visualization interface, and publish three real-world datasets captured from various indoor and outdoor environments. The cornerstone of our framework and toolbox is the cross-modal mask matching (C3M) algorithm, developed based on a state-of-the-art (SoTA) LVM and capable of generating sufficient and reliable matches. Extensive experiments conducted on these real-world datasets demonstrate the robustness of our approach and its superior performance compared to SoTA methods, particularly for the solid-state LiDARs with super-wide fields of view. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# 非線形誘導型RGB-Dレジストレーションの教師なし学習
NeRF-Guided Unsupervised Learning of RGB-D Registration ( http://arxiv.org/abs/2405.00507v2 ) ライセンス: Link先を確認 | Zhinan Yu, Zheng Qin, Yijie Tang, Yongjun Wang, Renjiao Yi, Chenyang Zhu, Kai Xu, | (参考訳) 本稿では,地味なポーズ監視を伴わない堅牢なRGB-D登録モデルのトレーニングに焦点をあてる。
既存の手法は通常、異なるレンダリングに基づくペアワイズトレーニング戦略を採用しており、これは2つの登録フレーム間の光度と幾何的一貫性を監督するものである。
しかし、このフレーム・ツー・フレーム・フレームワークは、照明の変化、幾何学的閉塞、反射材料などの要因により、多面的な一貫性に悩まされている。
本稿では,教師なしRGB-D登録のための新しいフレーム・ツー・モデル最適化フレームワークNeRF-URを提案する。
フレーム間整合性の代わりに、シーンのグローバルモデルとしてニューラル放射場(NeRF)を活用し、入力とNeRFレンダリングフレーム間の整合性を利用してポーズ最適化を行う。
この設計は、マルチビュー一貫性の低いシナリオにおける堅牢性を大幅に向上させ、登録モデルのためのより良い学習信号を提供する。
さらに、NeRF最適化をブートストラップするために、フォトリアリスティックシミュレータを通して合成データセットSim-RGBDを作成し、登録モデルをウォームアップする。
まず、Sim-RGBDで登録モデルをトレーニングし、その後、実データで教師なし微調整を行うことで、本フレームワークは、特徴抽出能力の蒸留とシミュレーションから現実への登録を可能にする。
提案手法は,2つの屋内RGB-DデータセットであるScanNetと3DMatchにおいて,最先端の手法よりも優れている。
コードとモデルは、紙の再生のためにリリースされます。
This paper focuses on training a robust RGB-D registration model without ground-truth pose supervision. Existing methods usually adopt a pairwise training strategy based on differentiable rendering, which enforces the photometric and the geometric consistency between the two registered frames as supervision. However, this frame-to-frame framework suffers from poor multi-view consistency due to factors such as lighting changes, geometry occlusion and reflective materials. In this paper, we present NeRF-UR, a novel frame-to-model optimization framework for unsupervised RGB-D registration. Instead of frame-to-frame consistency, we leverage the neural radiance field (NeRF) as a global model of the scene and use the consistency between the input and the NeRF-rerendered frames for pose optimization. This design can significantly improve the robustness in scenarios with poor multi-view consistency and provides better learning signal for the registration model. Furthermore, to bootstrap the NeRF optimization, we create a synthetic dataset, Sim-RGBD, through a photo-realistic simulator to warm up the registration model. By first training the registration model on Sim-RGBD and later unsupervisedly fine-tuning on real data, our framework enables distilling the capability of feature extraction and registration from simulation to reality. Our method outperforms the state-of-the-art counterparts on two popular indoor RGB-D datasets, ScanNet and 3DMatch. Code and models will be released for paper reproduction. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# SSUMamba:ハイパースペクトル画像復調のための空間スペクトル選択状態空間モデル
SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2405.01726v6 ) ライセンス: Link先を確認 | Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, | (参考訳) デノナイジングは、画像内メカニズムや環境要因から生じるノイズにより、ハイパースペクトル画像(HSI)にとって重要な前処理ステップである。
長距離空間-スペクトル相関モデリングは、HSIの分解に有用であるが、しばしば高い計算複雑性を伴う。
状態空間モデル(SSM)に基づいて、Mambaはその顕著な長距離依存性モデリング機能と計算効率で知られている。
そこで本研究では,HSI復調のためのメモリ効率の高い空間スペクトルUMamba(SSUMamba)を導入し,空間スペクトル連続走査(SSCS)Mambaをコアコンポーネントとした。
SSCS Mambaは行、列、バンドを6つの異なる順序で交換してシーケンスを生成し、双方向SSMを使用して長距離空間スペクトル依存性を利用する。
各順序で、画像は隣接したスキャン間で再配置され、空間スペクトルの連続性を保証する。
さらに、3D畳み込みは局所空間スペクトルモデリングを強化するためにSSCS Mambaに埋め込まれる。
実験により、SSUMambaは、トランスフォーマーベースの手法に比べて、バッチ当たりのメモリ消費が低い優れたデノナイジング結果が得られることが示された。
ソースコードはhttps://github.com/lronkitty/SSUMamba.comで入手できる。
Denoising is a crucial preprocessing step for hyperspectral images (HSIs) due to noise arising from intraimaging mechanisms and environmental factors. Long-range spatial-spectral correlation modeling is beneficial for HSI denoising but often comes with high computational complexity. Based on the state space model (SSM), Mamba is known for its remarkable long-range dependency modeling capabilities and computational efficiency. Building on this, we introduce a memory-efficient spatial-spectral UMamba (SSUMamba) for HSI denoising, with the spatial-spectral continuous scan (SSCS) Mamba being the core component. SSCS Mamba alternates the row, column, and band in six different orders to generate the sequence and uses the bidirectional SSM to exploit long-range spatial-spectral dependencies. In each order, the images are rearranged between adjacent scans to ensure spatial-spectral continuity. Additionally, 3D convolutions are embedded into the SSCS Mamba to enhance local spatial-spectral modeling. Experiments demonstrate that SSUMamba achieves superior denoising results with lower memory consumption per batch compared to transformer-based methods. The source code is available at https://github.com/lronkitty/SSUMamba. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# 依存性を考慮した半構造空間:GLU型LDMにおける外乱器の役割の減少
Dependency-Aware Semi-Structured Sparsity: Declining Roles of Outliers in Pruning GLU-based LLMs ( http://arxiv.org/abs/2405.01943v2 ) ライセンス: Link先を確認 | Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe, | (参考訳) LLM(Large Language Models)のスケールの急速な成長により、計算とメモリのコストが大幅に増加し、ネットワークプルーニングのようなモデル圧縮技術が効率的なデプロイメントにますます重要になっている。
LLaMA2 や Mistral といった最近の LLM は GLU ベースの MLP アーキテクチャを採用している。
しかし、現在のLLMプルーニング戦略は、主に古いLLMアーキテクチャからの洞察に基づいており、新しいアーキテクチャ特性に適合するためにこれらの戦略を再評価する必要がある。
従来の信念とは対照的に, GLU ベースの MLP の入力射影において, アウターリエが弱い役割を担っていることが分かる。
新たな知見を生かして, GLU を用いた LLM の新たな刈り出し法である Dependency-Aware Semi-structured Sparsity (DaSS) を提案する。
DaSSは、ウェイトプルーニング計量におけるウェイトサイズと対応する中間活性化基準の両方を考慮することにより、非構造的プルーニングの柔軟性と依存性に基づく構造化プルーニングの構造的一貫性のバランスをとる。
The Mistral, Gemma, and LLaMA2 model family に関する実証的な評価は、広く普及しているGLU変種におけるDASSの一貫性のある有効性を示している。
The rapid growth in the scale of Large Language Models (LLMs) has led to significant computational and memory costs, making model compression techniques such as network pruning increasingly crucial for their efficient deployment. Recent LLMs such as LLaMA2 and Mistral have adopted GLU-based MLP architectures. However, current LLM pruning strategies are primarily based on insights from older LLM architectures, necessitating a reevaluation of these strategies to suit the new architectural characteristics. Contrary to traditional beliefs, we find that outliers play a diminished role in the input projections of GLU-based MLPs. Leveraging this new insight, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel pruning method for GLU-based LLMs. DaSS balances the flexibility of unstructured pruning and the structural consistency of dependency-based structured pruning by considering both of weight magnitude and corresponding intermediate activation norms in weight pruning metric. Empirical evaluations on the Mistral, Gemma, and LLaMA2 model families demonstrate the consistent effectiveness of DaSS in the prevailing GLU variants. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# FedConPE: 異種クライアントによる効率的なフェデレーション会話帯域
FedConPE: Efficient Federated Conversational Bandits with Heterogeneous Clients ( http://arxiv.org/abs/2405.02881v2 ) ライセンス: Link先を確認 | Zhuohua Li, Maoli Liu, John C. S. Lui, | (参考訳) 会話レコメンデータシステムは,ユーザの好みを効率的に抽出する強力なソリューションとして登場してきた。
これらのシステムは、ユーザに対して「キーワード」に関連するクエリを対話的に提示し、ユーザのフィードバックを活用して、ユーザの好みをより効率的に見積もる。
それでも、既存のアルゴリズムのほとんどは集中型アプローチを採用している。
本稿では,フェデレーションに基づくフェデレーション型会話包帯アルゴリズムであるFedConPEを紹介し,M$エージェントは,セキュアなデータ管理を確保しつつ,中央サーバの助けを借りて,グローバルなコンテキスト線形包帯問題を協調的に解決する。
すべてのクライアントを効果的にコーディネートし、収集したデータを集約するために、FedConPEは、アダプティブアプローチを使用して、機能空間のすべての次元における不確実性を最小化するキー用語を構築します。
さらに、FedConPEは、既存のフェデレーション線形帯域幅アルゴリズムと比較して、計算効率と通信効率の改善、およびプライバシー保護の強化を提供する。
理論的解析から,FedConPEは累積的後悔の点において最小値に近い最適値であることが示唆された。
また,通信コストと会話頻度の上限を設定した。
包括的評価は、FedConPEが既存の会話の帯域幅アルゴリズムより優れており、会話が少なくなっていることを示している。
Conversational recommender systems have emerged as a potent solution for efficiently eliciting user preferences. These systems interactively present queries associated with "key terms" to users and leverage user feedback to estimate user preferences more efficiently. Nonetheless, most existing algorithms adopt a centralized approach. In this paper, we introduce FedConPE, a phase elimination-based federated conversational bandit algorithm, where $M$ agents collaboratively solve a global contextual linear bandit problem with the help of a central server while ensuring secure data management. To effectively coordinate all the clients and aggregate their collected data, FedConPE uses an adaptive approach to construct key terms that minimize uncertainty across all dimensions in the feature space. Furthermore, compared with existing federated linear bandit algorithms, FedConPE offers improved computational and communication efficiency as well as enhanced privacy protections. Our theoretical analysis shows that FedConPE is minimax near-optimal in terms of cumulative regret. We also establish upper bounds for communication costs and conversation frequency. Comprehensive evaluations demonstrate that FedConPE outperforms existing conversational bandit algorithms while using fewer conversations. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# 競合する知恵の防衛による大規模言語モデルによる説明可能なフェイクニュース検出
Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom ( http://arxiv.org/abs/2405.03371v2 ) ライセンス: Link先を確認 | Bo Wang, Jing Ma, Hongzhan Lin, Zhiwei Yang, Ruichao Yang, Yuan Tian, Yi Chang, | (参考訳) ほとんどの偽ニュース検出方法はニューラルネットワークに基づいて潜在特徴表現を学習するので、正当化せずにニュースを分類するブラックボックスになる。
既存の説明可能なシステムは、遅れと効率の低下に苦しむ調査ジャーナリズムから妥当性の正当性を生じる。
近年の研究では、正当化は群衆の知恵に表される多数意見に等しいと仮定されている。
しかし、一般に意見には、群衆の知恵が無検閲であるため、不正確な情報や偏見のある情報が含まれている。
本稿では,多様で混み合った,あるいは競合する物語の海から偽ニュースを検出するために,新しい防衛ベースの説明可能な偽ニュース検出フレームワークを提案する。
具体的には,まず,集団の知恵を2つの競合相手に分割し,それぞれに有能な証拠を検出するエビデンス抽出モジュールを提案する。
証拠から簡潔な洞察を得るため、我々は大きな言語モデルを用いて2つの可能な妥当性の理由を推測して正当化を生成するプロンプトベースのモジュールを設計する。
最後に,これらの正当性のうちの防御をモデル化し,正当性を決定するためのディフェンスベース推論モジュールを提案する。
2つの実世界のベンチマークで行った大規模な実験により、提案手法は偽ニュースの検出において最先端のベースラインよりも優れ、高品質な正当性を提供することが示された。
Most fake news detection methods learn latent feature representations based on neural networks, which makes them black boxes to classify a piece of news without giving any justification. Existing explainable systems generate veracity justifications from investigative journalism, which suffer from debunking delayed and low efficiency. Recent studies simply assume that the justification is equivalent to the majority opinions expressed in the wisdom of crowds. However, the opinions typically contain some inaccurate or biased information since the wisdom of crowds is uncensored. To detect fake news from a sea of diverse, crowded and even competing narratives, in this paper, we propose a novel defense-based explainable fake news detection framework. Specifically, we first propose an evidence extraction module to split the wisdom of crowds into two competing parties and respectively detect salient evidences. To gain concise insights from evidences, we then design a prompt-based module that utilizes a large language model to generate justifications by inferring reasons towards two possible veracities. Finally, we propose a defense-based inference module to determine veracity via modeling the defense among these justifications. Extensive experiments conducted on two real-world benchmarks demonstrate that our proposed method outperforms state-of-the-art baselines in terms of fake news detection and provides high-quality justifications. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# ブリルアン光学系における合成磁性強化メカニカルスクイージング
Synthetic magnetism enhanced mechanical squeezing in Brillouin optomechanical system ( http://arxiv.org/abs/2405.04508v2 ) ライセンス: Link先を確認 | D. R. Kenigoule Massembele, P. Djorwé, Souvik Agasti, K. S. Nisar, A. K. Sarma, A. H. Abdel-Aty, | (参考訳) 本稿では,バックワード刺激ブリルアン散乱(BSBS)過程をホストするオプトロメカティカルシステムにおける合成磁性に基づく,$\rm{3dB}$制限を超える大量のメカニカルスクイーズを生成する手法を提案する。
我々のベンチマークシステムは、BSBSプロセスを介して2つの光学モードに結合された音響モードと、標準の光学的放射圧を介して同一の光学モードに結合するダッフィング機械振動器から構成される。
合成磁性は、音響モードと機械モードの間の機械的結合の変調に由来する。
合成磁性がない場合には、所定の量の機械的スクイーズがシステム内で生成される。
このスクイーズは主にBSBSプロセスに依存しており、熱雑音に対して脆弱である。
合成磁性を切り替えることにより、生成したスクイージングの度合いは大幅に向上し、$\rm{3dB}$の限界を超えている。
この大きな磁気誘導のスクイージングは、システムにBSBSプロセスがない場合でも持続する。
さらに、この生成されたスクイーズは、合成磁気がオフになったときに誘導されるものと比べ、熱雑音に対して十分に堅牢である。
さらに, 機械的分散スクイーズと有効フォノン数の両方が, メカニカルカップリングの位相変調に依存する一連のピークおよびディップを示す。
この振動特性は、急激な死とスキーズ現象の復活を想起させるものであり、この位相をチューニングすることで、所望の大きさのスキーズを維持できる。
我々の提案は、$\rm{3dB}$制限を超えて、大量のスクイーズを生成する柔軟なスキームへの道を提供する。
このような励起状態は、量子情報処理、量子センシングとメトロジー、量子コンピューティングなどの量子アプリケーションに利用することができる。
We propose a scheme to generate large amount of mechanical squeezing, far beyond the $\rm{3dB}$ limit, which is based on synthetic magnetism in optomechanical system that hosts a Backward Stimulated Brillouin Scattering (BSBS) process. Our benchmark system consists of an acoustic mode coupled to two optical modes through the BSBS process, and a Duffing mechanical oscillator that couples to the same optical modes through the standard optomechanical radiation pressure. The synthetic magnetism comes from the modulation of the mechanical coupling between the acoustic and the mechanical mode. When there is no synthetic magnetism, a given amount of mechanical squeezing is generated in the system. This squeezing is mainly dependent on the BSBS process, and it is fragile against thermal noise. By switching on the synthetic magnetism, the degree of the generated squeezing is greatly enhanced and goes far beyond the limit of the $\rm{3dB}$. This large magnetism induced squeezing persists even when there is no BSBS process in the system. Moreover, this generated squeezing is robust enough against thermal noise in comparison to the one induced when the synthetic magnetism is off. Furthermore, both the mechanical variance squeezing and effective phonon number exhibit series of peaks and dips depending on the phase modulation of the mechanical coupling. This oscillatory feature is reminiscent of a sudden death and revival of squeezing phenomenon, which can be used to maintain a desired magnitude of squeezing by tuning this phase. Our proposal provides a path toward a flexible scheme that generates large amount of squeezing, far beyond the $\rm{3dB}$ limit. Such a generated squeezed states can be used for quantum applications including quantum information processing, quantum sensing and metrology, and quantum computing. | 翻訳日:2024-06-22 04:08:57 公開日:2024-06-20 |
# 多方向ニューラルネットワークを用いた階層的相関再構成に基づく生体誘発関節分布ニューロン
Biology-inspired joint distribution neurons based on Hierarchical Correlation Reconstruction allowing for multidirectional neural networks ( http://arxiv.org/abs/2405.05097v2 ) ライセンス: Link先を確認 | Jarek Duda, | (参考訳) 一般的な人工ニューラルネットワーク(ANN)は、Multi-Layer Perceptron(MLP)やKolmogorov-Arnold Network(KAN)のような任意のパラメトリゼーションタイプを仮定して、一方向の値伝搬のパラメータを最適化する。
対照的に、生物学的ニューロンでは、egは「作用電位の軸索伝播が両方の方向に起こることは珍しくない」 ~\cite{axon} は、多方向的に連続的に動作するように最適化されていることを示唆している。
さらに、単一のニューロンがモデル化できる統計的依存関係は、(予想される)値依存だけでなく、より高いモーメントを含む全関節分布である。
このような非依存的な関節分布ニューロンは、例えば g $\rho(x|y,z)$ または $\rho(y,z|x)$ を $\rho(x,y,z)$ に置換して正規化することで、多方向の伝播(分布や値の)を可能にする。
そのようなニューロンモデルに対する階層的相関再構成(HCR)について論じる: $\rho(x,y,z)=\sum_{ijk} a_{ijk} f_i
(x)f_j
(y)f_k
非線形性, 直接モデル推定, 更新を含む柔軟で安価な処理を可能にし, 標準バックプロパゲーションや, テンソル分解や情報ボトルネックアプローチに至るまでの新たな手法によって訓練された。
ペアワイズ(インプット・アウトプット)の依存関係のみを用いることで、期待値の予測は、トレーニングされたアクティベーション関数を多項式としてKanに似たものになる。
Popular artificial neural networks (ANN) optimize parameters for unidirectional value propagation, assuming some arbitrary parametrization type like Multi-Layer Perceptron (MLP) or Kolmogorov-Arnold Network (KAN). In contrast, for biological neurons e.g. "it is not uncommon for axonal propagation of action potentials to happen in both directions"~\cite{axon} - suggesting they are optimized to continuously operate in multidirectional way. Additionally, statistical dependencies a single neuron could model is not just (expected) value dependence, but entire joint distributions including also higher moments. Such more agnostic joint distribution neuron would allow for multidirectional propagation (of distributions or values) e.g. $\rho(x|y,z)$ or $\rho(y,z|x)$ by substituting to $\rho(x,y,z)$ and normalizing. There will be discussed Hierarchical Correlation Reconstruction (HCR) for such neuron model: assuming $\rho(x,y,z)=\sum_{ijk} a_{ijk} f_i(x) f_j(y) f_k(z)$ type parametrization of joint distribution in polynomial basis $f_i$, which allows for flexible, inexpensive processing including nonlinearities, direct model estimation and update, trained through standard backpropagation or novel ways for such structure up to tensor decomposition or information bottleneck approach. Using only pairwise (input-output) dependencies, its expected value prediction becomes KAN-like with trained activation functions as polynomials, can be extended by adding higher order dependencies through included products - in conscious interpretable way, allowing for multidirectional propagation of both values and probability densities. | 翻訳日:2024-06-22 03:59:12 公開日:2024-06-20 |
# プロンプトチューニングにおけるテキストセマンティックスの改善はVLMの一般化を改善するか?
Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? ( http://arxiv.org/abs/2405.07921v2 ) ライセンス: Link先を確認 | Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian, | (参考訳) 視覚言語モデル(VLM)の微調整を超えて、学習可能なプロンプトチューニングが、有望でリソース効率のよい代替手段として登場した。
その可能性にもかかわらず、効果的な学習は次の課題に直面します。
i) ローショットシナリオでのトレーニングは、オーバーフィッティング、適応可能性の制限、新しいクラスやデータセットのパフォーマンスの低下をもたらす。
(II) プロンプトチューニングの有効性はラベル空間に大きく依存し, 大規模クラス空間では性能が低下し, ブリッジ画像やクラス概念の潜在的なギャップが示唆された。
本研究では,これらの問題に対処する上で,テキストのセマンティクスが有効かどうかを検討する。
特に,Large Language Models (LLMs) から得られたクラス記述を活用するプロンプトチューニング手法を提案する。
これらのクラス記述は、画像とテキストのモダリティをブリッジするために使用される。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットに対して実施した包括的実験により,本手法は確立された手法よりも優れ,大幅な改善が示された。
Going beyond mere fine-tuning of vision-language models (VLMs), learnable prompt tuning has emerged as a promising, resource-efficient alternative. Despite their potential, effectively learning prompts faces the following challenges: (i) training in a low-shot scenario results in overfitting, limiting adaptability, and yielding weaker performance on newer classes or datasets; (ii) prompt-tuning's efficacy heavily relies on the label space, with decreased performance in large class spaces, signaling potential gaps in bridging image and class concepts. In this work, we investigate whether better text semantics can help address these concerns. In particular, we introduce a prompt-tuning method that leverages class descriptions obtained from Large Language Models (LLMs). These class descriptions are used to bridge image and text modalities. Our approach constructs part-level description-guided image and text features, which are subsequently aligned to learn more generalizable prompts. Our comprehensive experiments conducted across 11 benchmark datasets show that our method outperforms established methods, demonstrating substantial improvements. | 翻訳日:2024-06-22 03:59:12 公開日:2024-06-20 |
# 静的摂動理論と動的摂動理論の関連
A link between static and dynamical perturbation theory ( http://arxiv.org/abs/2405.08439v2 ) ライセンス: Link先を確認 | Sebastian Gemsheim, | (参考訳) 時間の物理的変化と自然科学の柱であるダイナミクスは、興味あるシステムがより大きな静的な現象の一部である場合、創発的な現象と見なすことができる。
この「時間への関係的なアプローチ」は、システムの環境が時間的参照を提供するものであり、物理学の基礎的な問題に対する洞察を提供するだけでなく、静的と力学を密接に結び付けることによって、より深い理論的理解の可能性を秘めている。
量子力学における時間に依存しない摂動理論と時間に依存しない摂動理論の間の重要なリンクとしての創発時間の役割は、近年の進歩 (Phys. Lett. 131, 140202 (2023)) に基づいて示される。
我々は、しばしば最も重要な1次コントリビューションを計算し、退化スペクトルの問題について議論する。
本研究は,1つの純エネルギー固有状態に基づく力学現象の計算への将来的な応用を想定する。
Dynamics, the physical change in time and a pillar of natural sciences, can be regarded as an emergent phenomenon when the system of interest is part of a larger, static one. This "relational approach to time", in which the system's environment provides a temporal reference, does not only provide insight into foundational issues of physics, but holds the potential for a deeper theoretical understanding as it intimately links statics and dynamics. Reinforcing the significance of this connection, we demonstrate, based on recent progress [Phys. Rev. Lett. 131, 140202 (2023)], the role of emergent time as a vital link between time-independent and time-dependent perturbation theory in quantum mechanics. We calculate first order contributions, which are often the most significant, and discuss the issue of degenerate spectra. Based on our results, we envision future applications for the calculation of dynamical phenomena based on a single pure energy eigenstate. | 翻訳日:2024-06-22 03:59:12 公開日:2024-06-20 |
# Xmodel-VLM:マルチモーダル視覚言語モデルのためのシンプルなベースライン
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model ( http://arxiv.org/abs/2405.09215v3 ) ライセンス: Link先を確認 | Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang, | (参考訳) 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
当社の作業は,大規模マルチモーダルシステムの普及を阻害するサービスコストを抑えることで,重要な産業問題に直結しています。
厳格なトレーニングを通じて,LLaVAパラダイムをモダルアライメントに用い,ゼロから1Bスケールの言語モデルを開発した。
この結果はXmodel-VLMと呼ばれ、軽量だが強力なマルチモーダル視覚言語モデルである。
多数の古典的マルチモーダルベンチマークの広範なテストにより、Xmodel-VLMはそのサイズが小さく、より高速な実行にもかかわらず、より大きなモデルに匹敵するパフォーマンスを提供することが明らかになった。
私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelVLMで公開されています。
We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM. | 翻訳日:2024-06-22 03:59:12 公開日:2024-06-20 |
# ミラードライザーを用いた安定位相検索
Stable Phase Retrieval with Mirror Descent ( http://arxiv.org/abs/2405.10754v2 ) ライセンス: Link先を確認 | Jean-Jacques Godeme, Jalal Fadili, Claude Amra, Myriam Zerrad, | (参考訳) 本稿では,n次元実ベクトルを付加雑音により劣化したm相の無位相測定から再構成することを目的とする。
ミラー降下(またはブレグマン勾配降下)に基づく[15]で開発されたノイズレスフレームワークを拡張し,ノイズ測定に対処し,その手順が(十分小さい)加法雑音に安定であることを証明する。
決定論的な場合、ミラー降下は位相探索問題の臨界点に収束し、アルゴリズムが十分に初期化され、ノイズが十分小さい場合には、臨界点が真のベクトルに近い大域的な符号変化を示す。
測定値がd Gaussianであり、信号-雑音比が十分大きいとき、我々は、高い確率でミラー降下が真のベクトル(大域的な符号変化まで)の近くの大域的な最小値に収束することを保証する大域収束保証を提供する。
スペクトル法を用いてよい初期推定を行う場合、サンプルの複雑性境界を改善することができる。
本稿では, 位相探索問題の解法として, ミラー降下が計算的かつ統計的に効率的であることを示す数値計算結果を用いて理論的研究を補完する。
In this paper, we aim to reconstruct an n-dimensional real vector from m phaseless measurements corrupted by an additive noise. We extend the noiseless framework developed in [15], based on mirror descent (or Bregman gradient descent), to deal with noisy measurements and prove that the procedure is stable to (small enough) additive noise. In the deterministic case, we show that mirror descent converges to a critical point of the phase retrieval problem, and if the algorithm is well initialized and the noise is small enough, the critical point is near the true vector up to a global sign change. When the measurements are i.i.d Gaussian and the signal-to-noise ratio is large enough, we provide global convergence guarantees that ensure that with high probability, mirror descent converges to a global minimizer near the true vector (up to a global sign change), as soon as the number of measurements m is large enough. The sample complexity bound can be improved if a spectral method is used to provide a good initial guess. We complement our theoretical study with several numerical results showing that mirror descent is both a computationally and statistically efficient scheme to solve the phase retrieval problem. | 翻訳日:2024-06-22 03:59:12 公開日:2024-06-20 |
# ウェアラブル医療機器におけるフェデレーションヒト活動認識における個人データ漏洩
Private Data Leakage in Federated Human Activity Recognition for Wearable Healthcare Devices ( http://arxiv.org/abs/2405.10979v2 ) ライセンス: Link先を確認 | Kongyang Chen, Dongping Zhang, Sijia Guan, Bing Mi, Jiaxing Shen, Guoqing Wang, | (参考訳) ウェアラブルデータは、ユーザの行動に基づいて活動状態を決定することや、カスタマイズされたエクササイズレコメンデーションの提供など、さまざまな健康モニタリング目的を提供する。
しかし、ウェアラブルデバイスの個々のデータ認識と計算能力は限られており、複数のデバイスにわたるモデルの共同トレーニングを必要とすることが多い。
Federated Human Activity Recognition (HAR)は、ユーザのローカルなアクティビティデータをアップロードすることなく、グローバルなモデルトレーニングを可能にする、実行可能な研究の道を示す。
それにもかかわらず、最近の研究では、フェデレートされた学習フレームワーク内で持続する重要なプライバシー上の懸念が明らかにされている。
このギャップに対処するため、複数のウェアラブルデバイスにまたがるフェデレーションされたユーザ行動認識モデルにおけるプライバシー漏洩問題の調査に焦点をあてる。
提案システムは,N$のウェアラブルデバイスユーザとパラメータサーバから構成されるフェデレーション学習アーキテクチャを包含し,モデルパラメータからセンシティブなユーザ情報を抽出する好奇心を示す。
その結果、悪意のあるサーバをベースとしたメンバシップ推論攻撃を考慮し、クライアントデータ間のモデル一般化の相違を生かした。
5つの公開HARデータセットで実施された実験では、悪意のあるサーバベースのメンバシップ推論の精度が92\%であることが示されている。
本研究は,複数のウェアラブルデバイスにまたがるフェデレーショントレーニングに関連する,実質的なプライバシリスクの予備的証拠を提供し,本領域における新たな研究視点を提供する。
Wearable data serves various health monitoring purposes, such as determining activity states based on user behavior and providing tailored exercise recommendations. However, the individual data perception and computational capabilities of wearable devices are limited, often necessitating the joint training of models across multiple devices. Federated Human Activity Recognition (HAR) presents a viable research avenue, allowing for global model training without the need to upload users' local activity data. Nonetheless, recent studies have revealed significant privacy concerns persisting within federated learning frameworks. To address this gap, we focus on investigating privacy leakage issues within federated user behavior recognition modeling across multiple wearable devices. Our proposed system entails a federated learning architecture comprising $N$ wearable device users and a parameter server, which may exhibit curiosity in extracting sensitive user information from model parameters. Consequently, we consider a membership inference attack based on a malicious server, leveraging differences in model generalization across client data. Experimentation conducted on five publicly available HAR datasets demonstrates an accuracy rate of 92\% for malicious server-based membership inference. Our study provides preliminary evidence of substantial privacy risks associated with federated training across multiple wearable devices, offering a novel research perspective within this domain. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# RobMOT:LiDARポイントクラウド上の観測ノイズと状態推定ドリフトによるロバスト3次元多物体追跡
RobMOT: Robust 3D Multi-Object Tracking by Observational Noise and State Estimation Drift Mitigation on LiDAR PointCloud ( http://arxiv.org/abs/2405.11536v2 ) ライセンス: Link先を確認 | Mohamed Nagy, Naoufel Werghi, Bilal Hassan, Jorge Dias, Majid Khonji, | (参考訳) この研究は、カルマンフィルタにおける正則な軌跡の同定と状態推定ドリフトに焦点をあてた、最近の3次元トラッキング・バイ・検出手法の限界に対処する。
現在の手法は、ゴースト軌跡を防止するために検出スコアを用いた偽陽性検出のしきい値に基づくフィルタリングに大きく依存している。
しかし、この手法は、検出スコアが低下する傾向があり、しきい値を超える偽陽性につながる可能性がある、遠く、あるいは部分的に隠蔽された物体には不十分である。
さらに、文献は一般的に、検出をオブジェクトの正確な位置化として扱う。
本研究は,検出時のノイズが局所化情報に影響を及ぼし,閉塞物体の軌跡ドリフトを引き起こし,回復を阻害することを明らかにする。
そこで本研究では,正当性とゴーストのトラックを時間的に区別する新しいオンライントラック検証機構と,入射観測のための多段階観測ゲーティングプロセスを提案する。
この機構は追跡性能を大幅に改善し、HOTAは6.28.%、MOTAは17.87.%上昇した。
我々はまた、軌道ドリフトにおけるノイズ緩和を強化するカルマンフィルタの改良を導入し、閉塞物体のより堅牢な状態推定を可能にした。
私たちのフレームワークであるRobMOTは、さまざまな検出器をまたいだディープラーニングアプローチを含む最先端の手法よりも優れており、HOTAで最大4\%、MOTAで最大6\%のマージンを実現しています。
RobMOTは、オクルージョンの延長や遠方のオブジェクトの追跡といった困難な条件下で、処理遅延を最大で59倍改善する。
This work addresses limitations in recent 3D tracking-by-detection methods, focusing on identifying legitimate trajectories and addressing state estimation drift in Kalman filters. Current methods rely heavily on threshold-based filtering of false positive detections using detection scores to prevent ghost trajectories. However, this approach is inadequate for distant and partially occluded objects, where detection scores tend to drop, potentially leading to false positives exceeding the threshold. Additionally, the literature generally treats detections as precise localizations of objects. Our research reveals that noise in detections impacts localization information, causing trajectory drift for occluded objects and hindering recovery. To this end, we propose a novel online track validity mechanism that temporally distinguishes between legitimate and ghost tracks, along with a multi-stage observational gating process for incoming observations. This mechanism significantly improves tracking performance, with a $6.28\%$ in HOTA and a $17.87\%$ increase in MOTA. We also introduce a refinement to the Kalman filter that enhances noise mitigation in trajectory drift, leading to more robust state estimation for occluded objects. Our framework, RobMOT, outperforms state-of-the-art methods, including deep learning approaches, across various detectors, achieving up to a $4\%$ margin in HOTA and $6\%$ in MOTA. RobMOT excels under challenging conditions, such as prolonged occlusions and tracking distant objects, with up to a 59\% improvement in processing latency. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# ベイズ誤差によるニューラルネットワークのロバスト認証精度
Certified Robust Accuracy of Neural Networks Are Bounded due to Bayes Errors ( http://arxiv.org/abs/2405.11547v2 ) ライセンス: Link先を確認 | Ruihan Zhang, Jun Sun, | (参考訳) 敵対的な例は、ニューラルネットワーク上に構築された多くのクリティカルシステムにセキュリティ上の脅威をもたらす。
認定トレーニングは堅牢性を改善するが、精度も著しく低下する。
この問題に対処するための様々な提案にもかかわらず、かなりの精度の低下が残っている。
さらに重要なことは、正確性を維持しながら堅牢性を達成するための一定の基本的限界があるかどうかである。
本研究ではベイズ誤差に基づく新しい視点を提供する。
ベイズ誤差をロバスト性解析に適用することにより、データ分布の不確実性を考慮した認証されたロバスト精度の限界について検討する。
まず,変化したデータ分布におけるベイズ誤差の変化によるロバスト性追求の精度が必然的に低下することを示す。
その後、個々のクラスとその境界の分布を考慮し、証明された堅牢な精度の上限を確立する。
我々の理論結果は実世界のデータセットで実証的に評価され、CIFAR10の既存の認定トレーニング結果(例えば、CIFAR10)の限られた成功と一致していることが示され、我々の分析結果は67.49\%の上限に達し、一方、既存のアプローチでは、2017年の53.89\%から2023年の62.84\%にしか増加できない。
Adversarial examples pose a security threat to many critical systems built on neural networks. While certified training improves robustness, it also decreases accuracy noticeably. Despite various proposals for addressing this issue, the significant accuracy drop remains. More importantly, it is not clear whether there is a certain fundamental limit on achieving robustness whilst maintaining accuracy. In this work, we offer a novel perspective based on Bayes errors. By adopting Bayes error to robustness analysis, we investigate the limit of certified robust accuracy, taking into account data distribution uncertainties. We first show that the accuracy inevitably decreases in the pursuit of robustness due to changed Bayes error in the altered data distribution. Subsequently, we establish an upper bound for certified robust accuracy, considering the distribution of individual classes and their boundaries. Our theoretical results are empirically evaluated on real-world datasets and are shown to be consistent with the limited success of existing certified training results, e.g., for CIFAR10, our analysis results in an upper bound (of certified robust accuracy) of 67.49\%, meanwhile existing approaches are only able to increase it from 53.89\% in 2017 to 62.84\% in 2023. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# 胸部X線異常検出のための位置ガイド型プロンプト学習
Position-Guided Prompt Learning for Anomaly Detection in Chest X-Rays ( http://arxiv.org/abs/2405.11976v2 ) ライセンス: Link先を確認 | Zhichao Sun, Yuliang Gu, Yepeng Liu, Zerui Zhang, Zhou Zhao, Yongchao Xu, | (参考訳) 胸部X線異常検出は重要な課題である。
ほとんどの手法は、主に正規像の分布をモデル化し、その後に正規分布からのかなりのずれを異常とみなす。
近年,多数の医用画像に基づいて事前トレーニングされたCLIPベースの手法は,ゼロ/フェーショットダウンストリームタスクにおいて顕著な性能を示した。
本稿では,CLIPを用いた胸部X線異常検出法の可能性について検討する。
そこで本研究では,CLIP事前学習データとタスク固有データとの相違を考慮し,位置誘導型プロンプト学習手法を提案する。
具体的には, 胸部X線検査を専門とする専門家が, 個別の肺領域を慎重に検査することによって診断できることに着想を得て, 学習可能な位置誘導テキストと画像のプロンプトを提案し, 課題データを凍結前訓練CLIPモデルに適応させる。
モデルの識別能力を高めるために,胸部X線を用いた新しい構造保存異常合成法を提案する。
3つのデータセットに対する大規模な実験により,提案手法は最先端の手法よりも優れていることが示された。
実装のコードはhttps://github.com/sunzc-sunny/PPAD.comで公開されています。
Anomaly detection in chest X-rays is a critical task. Most methods mainly model the distribution of normal images, and then regard significant deviation from normal distribution as anomaly. Recently, CLIP-based methods, pre-trained on a large number of medical images, have shown impressive performance on zero/few-shot downstream tasks. In this paper, we aim to explore the potential of CLIP-based methods for anomaly detection in chest X-rays. Considering the discrepancy between the CLIP pre-training data and the task-specific data, we propose a position-guided prompt learning method. Specifically, inspired by the fact that experts diagnose chest X-rays by carefully examining distinct lung regions, we propose learnable position-guided text and image prompts to adapt the task data to the frozen pre-trained CLIP-based model. To enhance the model's discriminative capability, we propose a novel structure-preserving anomaly synthesis method within chest x-rays during the training process. Extensive experiments on three datasets demonstrate that our proposed method outperforms some state-of-the-art methods. The code of our implementation is available at https://github.com/sunzc-sunny/PPAD. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# 実世界の課題におけるグローキングの進展対策
Progress Measures for Grokking on Real-world Tasks ( http://arxiv.org/abs/2405.12755v2 ) ライセンス: Link先を確認 | Satvik Golechha, | (参考訳) グロキング(Grokking)は、機械学習モデルがオーバーフィッティングの長い後に一般化する現象であり、主にアルゴリズムのタスクで観察され研究されている。
本稿では,クロスエントロピー損失下での分類にディープニューラルネットワークを用いた実世界のデータセットのグルーキングについて検討する。
我々は、ウェイトノルムの$L_2$ノルムが、ウェイトノルムの期待範囲外においてグラッキングが起こりうることを示すことで、グラッキングの主要な原因である、という一般的な仮説に挑戦する。
グルーキングをよりよく理解するために,活性化空間,絶対重みエントロピー,局所回路の複雑さを近似した3つの新しい進行手段を導入する。
これらの尺度は、一般化と概念的に関連し、重量ノルムと比較して現実世界のデータセットのグラッキングと強い相関を示す。
本研究の結果から, 重量ノルムはグルーキングや進行測定と相関するが, 因果関係はなく, 提案手法はグルーキングのダイナミクスをよりよく理解するものであることが示唆された。
Grokking, a phenomenon where machine learning models generalize long after overfitting, has been primarily observed and studied in algorithmic tasks. This paper explores grokking in real-world datasets using deep neural networks for classification under the cross-entropy loss. We challenge the prevalent hypothesis that the $L_2$ norm of weights is the primary cause of grokking by demonstrating that grokking can occur outside the expected range of weight norms. To better understand grokking, we introduce three new progress measures: activation sparsity, absolute weight entropy, and approximate local circuit complexity. These measures are conceptually related to generalization and demonstrate a stronger correlation with grokking in real-world datasets compared to weight norms. Our findings suggest that while weight norms might usually correlate with grokking and our progress measures, they are not causative, and our proposed measures provide a better understanding of the dynamics of grokking. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# LLMを用いた最適化における方向フィードバックの重要性
The Importance of Directional Feedback for LLM-based Optimizers ( http://arxiv.org/abs/2405.16434v2 ) ライセンス: Link先を確認 | Allen Nie, Ching-An Cheng, Andrey Kolobov, Adith Swaminathan, | (参考訳) 自然言語と数値フィードバックを用いてテキスト空間における最大化問題を解くための対話型オプティマイザとして,大規模言語モデル(LLM)を用いる可能性について検討する。
古典最適化の文献に触発されて、我々は自然言語のフィードバックを指向性および非指向性に分類し、前者は自然言語空間への一階フィードバックの一般化である。
指向性フィードバックが提供される場合, LLM は特に最適化可能であることがわかった。
この知見に基づいて,従来の最適化トレースから指向性フィードバックを合成し,繰り返しよりも信頼性の高い改善を実現するLLMベースのオプティマイザを設計する。
実験により, LLMに基づく最適化手法は, 数学的関数の最大化から詩の書き方への最適化に至るまで, 既存の手法と比較して, 最適化問題の解法において, より安定かつ効率的であることを示す。
We study the potential of using large language models (LLMs) as an interactive optimizer for solving maximization problems in a text space using natural language and numerical feedback. Inspired by the classical optimization literature, we classify the natural language feedback into directional and non-directional, where the former is a generalization of the first-order feedback to the natural language space. We find that LLMs are especially capable of optimization when they are provided with {directional feedback}. Based on this insight, we design a new LLM-based optimizer that synthesizes directional feedback from the historical optimization trace to achieve reliable improvement over iterations. Empirically, we show our LLM-based optimizer is more stable and efficient in solving optimization problems, from maximizing mathematical functions to optimizing prompts for writing poems, compared with existing techniques. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# Scorch: 疎いディープラーニングのためのライブラリ
Scorch: A Library for Sparse Deep Learning ( http://arxiv.org/abs/2405.16883v2 ) ライセンス: Link先を確認 | Bobby Yan, Alexander J. Root, Trevor Gale, David Broman, Fredrik Kjolstad, | (参考訳) ディープラーニングモデルのサイズの急激な成長は、従来の密集計算パラダイムの能力を損なう。
スパース計算の活用は、大規模モデルのトレーニングとデプロイでますます人気になっているが、既存のディープラーニングフレームワークではスパース演算に対する広範なサポートがない。
このギャップを埋めるために、我々はPyTorchエコシステムに効率的なスパーステンソル計算をシームレスに統合するライブラリであるScorchを紹介した。
Scorchはスパーステンソルのためのフレキシブルで直感的なインターフェースを提供し、多様なスパースデータ構造をサポートする。
Scorch氏は、自動ループ順序付け、タイリング、フォーマット推論など、重要な最適化を自動化するコンパイラスタックを紹介した。
Scorchは、その実行を高密度データとスパースデータの両方に適応させるランタイムと組み合わせることで、ユーザビリティを犠牲にすることなく、手書きのPyTorch Sparse(torch.sparse)操作を大幅に高速化する。
さらに重要なのは、手動最適化されたPyTorch実装を欠いた複雑なスパース操作の効率的な計算を可能にすることだ。
この柔軟性は、新しいスパースアーキテクチャの探索に不可欠である。
複数のドメインにわたる多様なディープラーニングモデルにおいて、Scorchの使いやすさとパフォーマンス向上を実証する。
最小限のコードの変更だけで、ScorchはPyTorch Sparse上の1.05-5.78xのスピードアップをエンドツーエンドタスクで達成する。
Scorchのシームレスな統合とパフォーマンスの向上は、PyTorchエコシステムに価値ある追加となる。
Scorchは、深層学習を拡大し、他のスパースライブラリの開発を知らせるツールとして、より広い範囲でのスパーシティの探索を可能にすると信じています。
The rapid growth in the size of deep learning models strains the capabilities of traditional dense computation paradigms. Leveraging sparse computation has become increasingly popular for training and deploying large-scale models, but existing deep learning frameworks lack extensive support for sparse operations. To bridge this gap, we introduce Scorch, a library that seamlessly integrates efficient sparse tensor computation into the PyTorch ecosystem, with an initial focus on inference workloads on CPUs. Scorch provides a flexible and intuitive interface for sparse tensors, supporting diverse sparse data structures. Scorch introduces a compiler stack that automates key optimizations, including automatic loop ordering, tiling, and format inference. Combined with a runtime that adapts its execution to both dense and sparse data, Scorch delivers substantial speedups over hand-written PyTorch Sparse (torch.sparse) operations without sacrificing usability. More importantly, Scorch enables efficient computation of complex sparse operations that lack hand-optimized PyTorch implementations. This flexibility is crucial for exploring novel sparse architectures. We demonstrate Scorch's ease of use and performance gains on diverse deep learning models across multiple domains. With only minimal code changes, Scorch achieves 1.05-5.78x speedups over PyTorch Sparse on end-to-end tasks. Scorch's seamless integration and performance gains make it a valuable addition to the PyTorch ecosystem. We believe Scorch will enable wider exploration of sparsity as a tool for scaling deep learning and inform the development of other sparse libraries. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# 顔のプライバシを保存するテキスト・ツー・イメージ生成のための匿名化プロンプト学習
Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation ( http://arxiv.org/abs/2405.16895v2 ) ライセンス: Link先を確認 | Liang Shi, Jie Zhang, Shiguang Shan, | (参考訳) 安定拡散のようなテキスト間拡散モデルは、テキスト記述から非常にリアルな画像を生成する。
しかし、そのような高品質なコンテンツの生成は懸念を喚起する。
重要な問題は、識別可能な顔画像の正確な描写であり、悪意のあるディープフェイク生成とプライバシー侵害につながる可能性がある。
本稿では,この問題を解決するために匿名化プロンプト学習(APL)を提案する。
具体的には、テキスト・ツー・イメージ拡散モデルに対して学習可能なプロンプトプレフィックスをトレーニングし、特定の個人の画像を生成するように促された場合でも、モデルに匿名化された顔のアイデンティティを生成するように強制する。
広汎な定量および定性的実験は、APLの匿名化性能を実証し、特定の個人を匿名化することで、非同一性固有の画像生成の品質を損なうことなく、匿名化することができる。
さらに、学習したプロンプトプレフィックスのプラグ・アンド・プレイ特性を明らかにし、様々な事前訓練されたテキスト・ツー・イメージ・モデルに対して、ディープフェイクのリスクに対する転送可能なプライバシとセキュリティ保護の効果的な適用を可能にする。
Text-to-image diffusion models, such as Stable Diffusion, generate highly realistic images from text descriptions. However, the generation of certain content at such high quality raises concerns. A prominent issue is the accurate depiction of identifiable facial images, which could lead to malicious deepfake generation and privacy violations. In this paper, we propose Anonymization Prompt Learning (APL) to address this problem. Specifically, we train a learnable prompt prefix for text-to-image diffusion models, which forces the model to generate anonymized facial identities, even when prompted to produce images of specific individuals. Extensive quantitative and qualitative experiments demonstrate the successful anonymization performance of APL, which anonymizes any specific individuals without compromising the quality of non-identity-specific image generation. Furthermore, we reveal the plug-and-play property of the learned prompt prefix, enabling its effective application across different pretrained text-to-image models for transferrable privacy and security protection against the risks of deepfakes. | 翻訳日:2024-06-22 03:49:28 公開日:2024-06-20 |
# 様々な長さ、一定速度:雷の注意を伴う効率的な言語モデリング
Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention ( http://arxiv.org/abs/2405.17381v2 ) ライセンス: Link先を確認 | Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong, | (参考訳) 固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
累積和演算 (cumsum) の問題により, 従来の線形アテンション実装では, カジュアルな設定では理論的優位性は得られない。
しかし、この問題は、異なる注意計算戦略を利用して、異なる注意部分を計算することで効果的に解決できる。
具体的には、アテンション計算をブロック内とブロック間に分割し、従来のアテンション計算をブロック内とブロック間を線形アテンションカーネルのトリックに使用した。
これにより、線形注意計算における累積の必要がなくなる。
さらに、GPUハードウェアを最大限に活用するために、前方と後方の両方の手順を通じてタイリング技術が採用されている。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
モデルのサイズやシーケンス長の異なる標準および自己コンパイルされたデータセットに対して厳密なテストを行う。
TNLは他の言語モデルよりも特に効率的である。
さらに,TNLは従来の変圧器構造を用いて,最先端のLLMと同等に動作することを示す。
ソースコードはgithub.com/OpenNLPLab/TransnormerLLMで公開されている。
We present Lightning Attention, the first linear attention implementation that maintains a constant training speed for various sequence lengths under fixed memory consumption. Due to the issue with cumulative summation operations (cumsum), previous linear attention implementations cannot achieve their theoretical advantage in a casual setting. However, this issue can be effectively solved by utilizing different attention calculation strategies to compute the different parts of attention. Specifically, we split the attention calculation into intra-blocks and inter-blocks and use conventional attention computation for intra-blocks and linear attention kernel tricks for inter-blocks. This eliminates the need for cumsum in the linear attention calculation. Furthermore, a tiling technique is adopted through both forward and backward procedures to take full advantage of the GPU hardware. To enhance accuracy while preserving efficacy, we introduce TransNormerLLM (TNL), a new architecture that is tailored to our lightning attention. We conduct rigorous testing on standard and self-collected datasets with varying model sizes and sequence lengths. TNL is notably more efficient than other language models. In addition, benchmark results indicate that TNL performs on par with state-of-the-art LLMs utilizing conventional transformer structures. The source code is released at github.com/OpenNLPLab/TransnormerLLM. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# 動的グラフ学習のための繰り返し認識近傍サンプリング
Repeat-Aware Neighbor Sampling for Dynamic Graph Learning ( http://arxiv.org/abs/2405.17473v2 ) ライセンス: Link先を確認 | Tao Zou, Yuhao Mao, Junchen Ye, Bowen Du, | (参考訳) 動的グラフ学習は、エッジに時間属性を装備し、2つのノード間の複数のリンクを可能にする。
既存の研究は、主に最新の隣のシーケンスに依存して進化するパターンを得る。
しかし、今後2つのノードが相互に相互作用するかどうかは、過去に起こったのと同じ相互作用と非常に相関している。
最近の隣人は繰り返し行動の現象を見落としているだけであり、相互作用の時間的進化を正確に捉えることができない。
このギャップを埋めるために、近隣のサンプリング戦略と時間情報学習における1次および高次反復行動の進化パターンを考察したRepeatMixerを提案する。
まず、ソースノードの1次繰り返し認識ノードを、歴史的に相互作用した宛先ノードとして定義し、その概念を目的地ノードの高次隣接ノードとして高次に拡張する。
そこで我々は,リピート認識ノードが出現する前に相互作用したソースノードの隣人を,その隣のシーケンスとしてスライドウィンドウ戦略を用いて抽出する。
次に、ソースノードと宛先ノードの1次および2次隣接シーケンスを利用して、MPPベースのエンコーダを介して対話の時間パターンを学習する。
さらに、異なる順序における時間的パターンの変化を考慮すると、相互作用時間列の意義に基づいて、異なる順序から時間的表現を適応的に集約する時間的アグリゲーション機構を導入する。
RepeatMixerがリンク予測タスクにおける最先端モデルよりも優れていることを示す実験結果が得られた。
Dynamic graph learning equips the edges with time attributes and allows multiple links between two nodes, which is a crucial technology for understanding evolving data scenarios like traffic prediction and recommendation systems. Existing works obtain the evolving patterns mainly depending on the most recent neighbor sequences. However, we argue that whether two nodes will have interaction with each other in the future is highly correlated with the same interaction that happened in the past. Only considering the recent neighbors overlooks the phenomenon of repeat behavior and fails to accurately capture the temporal evolution of interactions. To fill this gap, this paper presents RepeatMixer, which considers evolving patterns of first and high-order repeat behavior in the neighbor sampling strategy and temporal information learning. Firstly, we define the first-order repeat-aware nodes of the source node as the destination nodes that have interacted historically and extend this concept to high orders as nodes in the destination node's high-order neighbors. Then, we extract neighbors of the source node that interacted before the appearance of repeat-aware nodes with a slide window strategy as its neighbor sequence. Next, we leverage both the first and high-order neighbor sequences of source and destination nodes to learn temporal patterns of interactions via an MLP-based encoder. Furthermore, considering the varying temporal patterns on different orders, we introduce a time-aware aggregation mechanism that adaptively aggregates the temporal representations from different orders based on the significance of their interaction time sequences. Experimental results demonstrate the superiority of RepeatMixer over state-of-the-art models in link prediction tasks, underscoring the effectiveness of the proposed repeat-aware neighbor sampling strategy. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# Quest:大規模言語モデルの長文スケーリングのためのクエリ中心のデータ合成手法
Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model ( http://arxiv.org/abs/2405.19846v2 ) ライセンス: Link先を確認 | Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu, | (参考訳) 大規模な言語モデルは、最初は限られたコンテキスト長で事前訓練され、拡張されたコンテキストを持つコーパスでのトレーニングを継続することで、より長いテキストを扱うことができる。
しかし、複数のドメインにまたがる長文の不足と不均一な分散のため、有効な長文データを取得することは困難である。
この問題に対処するために,クエストと略されるクエリ中心のデータ合成手法を提案する。
Quest(クエスト)は、類似したクエリによって検索された文書は関連性はあるが、低冗長であり、長文データの合成に適しているという観察に基づく解釈可能な手法である。
この方法はスケーラブルで、大量の長文データを構築することができる。
Questを用いてコンテキスト長128kまでの長文データセットを合成し、複数の長文ベンチマークデータセットにおいて、他のデータ合成方法よりも大幅に優れています。
さらに,法実験のスケーリングによってQuest法が予測可能であることを確認する。
Large language models, initially pre-trained with a limited context length, can better handle longer texts by continuing training on a corpus with extended contexts. However, obtaining effective long-context data is challenging due to the scarcity and uneven distribution of long documents across different domains. To address this issue, we propose a Query-centric data synthesis method, abbreviated as Quest. Quest is an interpretable method based on the observation that documents retrieved by similar queries are relevant but low-redundant, thus well-suited for synthesizing long-context data. The method is also scalable and capable of constructing large amounts of long-context data. Using Quest, we synthesize a long-context dataset up to 128k context length, significantly outperforming other data synthesis methods on multiple long-context benchmark datasets. In addition, we further verify that the Quest method is predictable through scaling law experiments, making it a reliable solution for advancing long-context models. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# FMARS:基礎モデルを用いた災害管理のためのリモートセンシング画像の注釈付け
FMARS: Annotating Remote Sensing Images for Disaster Management using Foundation Models ( http://arxiv.org/abs/2405.20109v2 ) ライセンス: Link先を確認 | Edoardo Arnaudo, Jacopo Lungo Vaschetti, Lorenzo Innocenti, Luca Barco, Davide Lisi, Vanina Fissore, Claudio Rossi, | (参考訳) 超高解像度(VHR)リモートセンシング画像はますますアクセスしやすくなっているが、効果的な機械学習アプリケーションのためのアノテーションが欠けていることが多い。
GroundingDINOやSegment Anything(SAM)といった最近の基盤モデルは、アノテーションを自動的に生成する機会を提供する。
本研究では,FMARS(Foundation Model Annotations in Remote Sensing)について紹介する。
我々は災害管理に重点を置いており、Maxar Open Dataイニシアチブから派生した19の災害イベントに関する事前イベントの画像から得られたラベル付き大規模データセットを提供する。
実世界のシナリオへの転送可能性を高めるために、Unsupervised Domain Adaptation (UDA) 技術を用いて、生成されたラベルのセグメンテーションモデルをトレーニングする。
本研究は, リモートセンシングデータの自動アノテートに基礎モデルを活用することの有効性を実証し, 重要なアプリケーションにロバストな下流モデルを実現することを目的とする。
コードとデータセットは \url{https://github.com/links-ads/igarss-fmars} で公開されている。
Very-High Resolution (VHR) remote sensing imagery is increasingly accessible, but often lacks annotations for effective machine learning applications. Recent foundation models like GroundingDINO and Segment Anything (SAM) provide opportunities to automatically generate annotations. This study introduces FMARS (Foundation Model Annotations in Remote Sensing), a methodology leveraging VHR imagery and foundation models for fast and robust annotation. We focus on disaster management and provide a large-scale dataset with labels obtained from pre-event imagery over 19 disaster events, derived from the Maxar Open Data initiative. We train segmentation models on the generated labels, using Unsupervised Domain Adaptation (UDA) techniques to increase transferability to real-world scenarios. Our results demonstrate the effectiveness of leveraging foundation models to automatically annotate remote sensing data at scale, enabling robust downstream models for critical applications. Code and dataset are available at \url{https://github.com/links-ads/igarss-fmars}. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# ニューラルパラメータ対称性の実証的影響, あるいはその欠落
The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof ( http://arxiv.org/abs/2405.20231v2 ) ライセンス: Link先を確認 | Derek Lim, Moe Putterman, Robin Walters, Haggai Maron, Stefanie Jegelka, | (参考訳) ディープラーニングにおける多くのアルゴリズムと観察された現象は、基礎となるニューラルネットワーク機能を変えないニューラルネットワークパラメータの変換であるパラメータ対称性の影響を受けているように見える。
これには線形モード接続、モデルマージ、ベイジアンニューラルネットワーク推論、メタネットワーク、その他いくつかの最適化や損失ランドスケープの特徴が含まれている。
しかし、パラメータ空間対称性とこれらの現象の関係の理論解析は困難である。
本研究では,パラメータ空間対称性を低減した新しいニューラルネットワークアーキテクチャを導入することにより,ニューラルネットワークのパラメータ対称性の影響を実証的に検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
これらの手法により,パラメータ対称性の除去効果を評価するために,複数のタスクからなる総合的な実験を行った。
例えば、重み空間のアライメントを伴わずにネットワーク間の線形モード接続を観測し、ネットワークがより高速で効果的なベイズニューラルネットワークトレーニングを可能にすることを発見した。
Many algorithms and observed phenomena in deep learning appear to be affected by parameter symmetries -- transformations of neural network parameters that do not change the underlying neural network function. These include linear mode connectivity, model merging, Bayesian neural network inference, metanetworks, and several other characteristics of optimization or loss-landscapes. However, theoretical analysis of the relationship between parameter space symmetries and these phenomena is difficult. In this work, we empirically investigate the impact of neural parameter symmetries by introducing new neural network architectures that have reduced parameter space symmetries. We develop two methods, with some provable guarantees, of modifying standard neural networks to reduce parameter space symmetries. With these new methods, we conduct a comprehensive experimental study consisting of multiple tasks aimed at assessing the effect of removing parameter symmetries. Our experiments reveal several interesting observations on the empirical impact of parameter symmetries; for instance, we observe linear mode connectivity between our networks without alignment of weight spaces, and we find that our networks allow for faster and more effective Bayesian neural network training. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# OR-Bench: 大規模言語モデルに対する過剰な拒否ベンチマーク
OR-Bench: An Over-Refusal Benchmark for Large Language Models ( http://arxiv.org/abs/2405.20947v2 ) ライセンス: Link先を確認 | Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, | (参考訳) 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
有害なコンテンツ生成を緩和することに焦点を当てた重要な研究であるが、安全性の向上は、LLMが無害なプロンプトを拒絶し、役に立たないという過剰な拒絶の副作用を伴うことが多い。
過剰拒絶の問題は実証的に観察されているが、有害に見えるが良心的なプロンプトの製作が困難であるため、体系的な測定は困難である。
本研究では,LLMによって拒否される可能性のある良性プロンプト)の大規模プロンプトを自動生成する新しい手法を提案する。
この手法を活用することで、最初の大規模オーバーリファレンスベンチマークであるOR-Benchを導入する。
OR-Benchは10の共通の拒絶カテゴリーに80,000の有害なプロンプト、1000のハードプロンプトのサブセット、そして600の有害なプロンプトからなり、無差別な反応を防いでいる。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
私たちのデータセットはhttps://huggingface.co/datasets/bench-llm/or-benchで、デモはhttps://huggingface.co/spaces/bench-llm/or-benchで見ることができます。
このベンチマークが、コミュニティがより安全なモデルを開発するのに役立つことを願っています。
Large Language Models (LLMs) require careful safety alignment to prevent malicious outputs. While significant research focuses on mitigating harmful content generation, the enhanced safety often come with the side effect of over-refusal, where LLMs may reject innocuous prompts and become less helpful. Although the issue of over-refusal has been empirically observed, a systematic measurement is challenging due to the difficulty of crafting prompts that appear harmful but are benign. This study proposes a novel method for automatically generating large-scale sets of "seemingly toxic prompts" (benign prompts likely rejected by LLMs). Leveraging this technique, we introduce OR-Bench, the first large-scale over-refusal benchmark. OR-Bench comprises 80,000 seemingly toxic prompts across 10 common rejection categories, a subset of around 1,000 hard prompts that are challenging even for state-of-the-art LLMs, and an additional 600 toxic prompts to prevent indiscriminate responses. We then conduct a comprehensive study to measure the over-refusal of 25 popular LLMs across 8 model families. Our datasets are available at https://huggingface.co/datasets/bench-llm/or-bench and the demo can be found at https://huggingface.co/spaces/bench-llm/or-bench. We hope this benchmark can help the community develop better safety aligned models. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# Fusion-PSRO:Nash Policy Fusion for Policy Space Response Oracles
Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles ( http://arxiv.org/abs/2405.21027v3 ) ライセンス: Link先を確認 | Jiesong Lian, Yucong Huang, Mingzhi Wang, Chengdong Ma, Yixue Hao, Ying Wen, Yaodong Yang, | (参考訳) ゼロサムゲームを解決するための一般的なアプローチは、Nash Equilibrium (NE) を近似するポリシーの集団を維持することである。
これまでの研究では、ポリシー空間応答オラクル(PSRO)アルゴリズムが、そのようなゲームを解くための効果的なマルチエージェント強化学習フレームワークであることが示されている。
しかし、各イテレーションで相手の混合ポリシーに対して、スクラッチからBest Response(BR)を近似するために、新しいポリシーを繰り返し訓練することは、非効率かつコストがかかる。
いくつかのPSROは、過去のBRポリシーから継承することで、新しいポリシーを初期化するが、このアプローチは、特に挑戦する相手に対して、新しいポリシーの探索を制限する。
この問題に対処するために、政策融合を利用してBRの近似を改善するためのポリシーを初期化するFusion-PSROを提案する。
メタNEから高品質なベースポリシーを選択することで、ポリシー融合はベースポリシーをモデル平均化を通じて新しいポリシーに融合させる。
このアプローチにより、初期化されたポリシーが複数の専門家ポリシーを組み込むことができ、過去のBRポリシーを継承したり、スクラッチから初期化したりするよりも、難しい相手を扱うのが簡単になる。
さらに,本手法はポリシー初期化フェーズのみを修正し,PSROのほぼすべての変種を追加のトレーニングオーバーヘッドなく適用できるようにする。
非推移的行列ゲーム、Leduc Pokerおよびより複雑なLiars Diceに関する実験は、Fusion-PSROがほぼ全てのPSRO変種の性能を高め、より低い利用性を実現することを示した。
A popular approach for solving zero-sum games is to maintain populations of policies to approximate the Nash Equilibrium (NE). Previous studies have shown that Policy Space Response Oracle (PSRO) algorithm is an effective multi-agent reinforcement learning framework for solving such games. However, repeatedly training new policies from scratch to approximate Best Response (BR) to opponents' mixed policies at each iteration is both inefficient and costly. While some PSRO variants initialize a new policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents. To address this issue, we propose Fusion-PSRO, which employs policy fusion to initialize policies for better approximation to BR. By selecting high-quality base policies from meta-NE, policy fusion fuses the base policies into a new policy through model averaging. This approach allows the initialized policies to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting from past BR policies or initializing from scratch. Moreover, our method only modifies the policy initialization phase, allowing its application to nearly all PSRO variants without additional training overhead. Our experiments on non-transitive matrix games, Leduc Poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# まだ軌道にいるの? LLM Task Drift と Activations を併用して
Are you still on track!? Catching LLM Task Drift with Activations ( http://arxiv.org/abs/2406.00799v3 ) ライセンス: Link先を確認 | Sahar Abdelnabi, Aideen Fay, Giovanni Cherubin, Ahmed Salem, Mario Fritz, Andrew Paverd, | (参考訳) 大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これらの入力は、単一のLLM相互作用であっても、様々な信頼性と証明性の様々なソースから得ることができる。
これにより、LDMがデータのみのソースからの命令を受け取り、動作させるようなインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
我々は、この入力が命令ドリフトを引き起こしたかどうかを検出するために、外部入力の処理前後のLCMのアクティベーションを比較した。
我々は2つの探索法を開発し, 線形分類器を用いることで, 分布外テストセット上で, ほぼ完全なROC AUCでドリフトを検出することができることを確認した。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
私たちのセットアップでは、LCM(例えば微調整)やテキスト生成を一切必要とせず、デプロイ性とコスト効率を最大化し、信頼性の低いモデル出力に依存しないようにしています。
アクティベーションベースのタスクインスペクション、デコード、解釈可能性に関する今後の研究を促進するため、500K以上のインスタンスのデータセット、4つのSoTA言語モデルからの表現、検査ツールを含む大規模なTaskTrackerツールキットをリリースする。
Large Language Models (LLMs) are routinely used in retrieval-augmented applications to orchestrate tasks and process inputs from users and other sources. These inputs, even in a single LLM interaction, can come from a variety of sources, of varying trustworthiness and provenance. This opens the door to prompt injection attacks, where the LLM receives and acts upon instructions from supposedly data-only sources, thus deviating from the user's original instructions. We define this as task drift, and we propose to catch it by scanning and analyzing the LLM's activations. We compare the LLM's activations before and after processing the external input in order to detect whether this input caused instruction drift. We develop two probing methods and find that simply using a linear classifier can detect drift with near perfect ROC AUC on an out-of-distribution test set. We show that this approach generalizes surprisingly well to unseen task domains, such as prompt injections, jailbreaks, and malicious instructions, without being trained on any of these attacks. Our setup does not require any modification of the LLM (e.g., fine-tuning) or any text generation, thus maximizing deployability and cost efficiency and avoiding reliance on unreliable model output. To foster future research on activation-based task inspection, decoding, and interpretability, we will release our large-scale TaskTracker toolkit, comprising a dataset of over 500K instances, representations from 4 SoTA language models, and inspection tools. | 翻訳日:2024-06-22 03:39:39 公開日:2024-06-20 |
# Asynchronous Byzantine Federated Learning
Asynchronous Byzantine Federated Learning ( http://arxiv.org/abs/2406.01438v2 ) ライセンス: Link先を確認 | Bart Cox, Abele Mălan, Lydia Y. Chen, Jérémie Decouchant, | (参考訳) フェデレートラーニング(FL)は、地理的に分散した一連のクライアントが、サーバを通じてモデルを集合的に訓練することを可能にする。
古典的には、トレーニングプロセスは同期的であるが、遅いクライアントや異種ネットワークで、その速度を維持するために非同期にすることができる。
しかしながら、ビザンティンのフォールトトレラントFLシステムの大部分は同期トレーニングプロセスに依存している。
私たちのソリューションは、補助的なサーバデータセットを必要とせず、以前の作業の欠点であるストラグラーによって遅延しない、最初のビザンチン耐性で非同期なFLアルゴリズムの1つである。
直感的には、ソリューション内のサーバは最新モデルのクライアントから最小限のアップデートを受信して安全に更新するのを待ちます。
我々は、勾配インバージョン、摂動、バックドアアタックによる画像およびテキストデータセットの最先端アルゴリズムと比較した。
提案手法は, 従来の同期FLソリューションよりも高速にモデルを訓練し, 従来の非同期FLソリューションよりもビザンチンクライアントの存在下で, 摂動および勾配反転攻撃に対して最大1.54x, 1.75xの精度を維持した。
Federated learning (FL) enables a set of geographically distributed clients to collectively train a model through a server. Classically, the training process is synchronous, but can be made asynchronous to maintain its speed in presence of slow clients and in heterogeneous networks. The vast majority of Byzantine fault-tolerant FL systems however rely on a synchronous training process. Our solution is one of the first Byzantine-resilient and asynchronous FL algorithms that does not require an auxiliary server dataset and is not delayed by stragglers, which are shortcomings of previous works. Intuitively, the server in our solution waits to receive a minimum number of updates from clients on its latest model to safely update it, and is later able to safely leverage the updates that late clients might send. We compare the performance of our solution with state-of-the-art algorithms on both image and text datasets under gradient inversion, perturbation, and backdoor attacks. Our results indicate that our solution trains a model faster than previous synchronous FL solution, and maintains a higher accuracy, up to 1.54x and up to 1.75x for perturbation and gradient inversion attacks respectively, in the presence of Byzantine clients than previous asynchronous FL solutions. | 翻訳日:2024-06-22 01:36:36 公開日:2024-06-20 |
# 地理的分散クライアントのための非同期マルチサーバフェデレーション学習
Asynchronous Multi-Server Federated Learning for Geo-Distributed Clients ( http://arxiv.org/abs/2406.01439v2 ) ライセンス: Link先を確認 | Yuncong Zuo, Bart Cox, Lydia Y. Chen, Jérémie Decouchant, | (参考訳) フェデレートラーニング(FL)システムは、複数のクライアントが単一のサーバで中間モデルの重みを同期的に交換することで、機械学習モデルを反復的にトレーニングすることができる。
このようなFLシステムのスケーラビリティは、同期通信によるサーバアイドル時間と、ひとつのサーバがボトルネックになるリスクの2つの要因によって制限することができる。
本稿では,完全に非同期な最初のマルチサーバFLシステムであるFLアーキテクチャを提案する。
私たちのソリューションは、サーバとクライアントの両方を継続的にアクティブにします。
従来のマルチサーバメソッドと同様に、クライアントは最も近いサーバとのみ対話し、モデルへの効率的なアップデート統合を保証する。
しかし、異なることに、サーバは定期的に互いに非同期に更新し、クライアントとのやりとりを延期しない。
我々は、MNISTとCIFAR-10の画像分類データセットとWikiText-2言語モデリングデータセットの3つの代表的なベースラインであるFedAvg、FedAsync、HierFAVGを比較した。
我々のソリューションは、以前のベースラインと類似または高い精度レベルに収束し、地理的に分散した設定でそれを行うのに61%の時間を要する。
Federated learning (FL) systems enable multiple clients to train a machine learning model iteratively through synchronously exchanging the intermediate model weights with a single server. The scalability of such FL systems can be limited by two factors: server idle time due to synchronous communication and the risk of a single server becoming the bottleneck. In this paper, we propose a new FL architecture, to our knowledge, the first multi-server FL system that is entirely asynchronous, and therefore addresses these two limitations simultaneously. Our solution keeps both servers and clients continuously active. As in previous multi-server methods, clients interact solely with their nearest server, ensuring efficient update integration into the model. Differently, however, servers also periodically update each other asynchronously, and never postpone interactions with clients. We compare our solution to three representative baselines - FedAvg, FedAsync and HierFAVG - on the MNIST and CIFAR-10 image classification datasets and on the WikiText-2 language modeling dataset. Our solution converges to similar or higher accuracy levels than previous baselines and requires 61% less time to do so in geo-distributed settings. | 翻訳日:2024-06-22 01:36:36 公開日:2024-06-20 |
# Open-YOLO 3D: 高速かつ高精度なOpen-Vocabulary 3Dインスタンスセグメンテーションを目指して
Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2406.02548v2 ) ライセンス: Link先を確認 | Mohamed El Amine Boudjoghra, Angela Dai, Jean Lahoud, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan, | (参考訳) オープンボキャブラリ3Dインスタンスセグメンテーションに関する最近の研究は、予測速度が遅いことと高い計算要求を犠牲にして、強い将来性を示している。
この高い計算コストは、典型的には3Dクリップ機能に大きく依存しているためであり、3DへのマルチビューアグリゲーションにはSAM(Segment Anything)やCLIPといった計算コストの高い2Dファンデーションモデルが必要である。
その結果、高速かつ正確な予測を必要とする多くの現実世界のアプリケーションにおいて、これは適用性を損なうことになる。
そこで本研究では,複数視点RGB画像からの2次元オブジェクト検出のみを効果的に活用し,高速かつ正確な3Dインスタンスセグメンテーション手法であるOpen-YOLO 3Dを提案する。
この課題に対処するために,シーン内のオブジェクトに対して,クラスに依存しない3Dマスクを生成し,テキストプロンプトに関連付ける。
クラスに依存しない3Dポイント・クラウド・インスタンスのプロジェクションが既にインスタンス情報を保持していることが観察された。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
ScanNet200とReplicaの2つのベンチマークでOpen-YOLO 3Dを検証する。
(i) 対象の提案にラベルが必要で、かつ、
(ii)3D提案ネットワークから生成されたクラス非依存の3D提案。
われわれのOpen-YOLO 3Dは、両方のデータセットで最先端のパフォーマンスを達成しつつ、文学における最も優れた既存手法と比較して最大$\sim$16$\times$スピードアップを得る。
ScanNet200 val。
設定すると、Open-YOLO 3Dは平均平均精度(mAP)が24.7\%となり、1シーンあたり22秒で動作します。
コードとモデルはgithub.com/aminebdj/OpenYOLO3Dで入手できる。
Recent works on open-vocabulary 3D instance segmentation show strong promise, but at the cost of slow inference speed and high computation requirements. This high computation cost is typically due to their heavy reliance on 3D clip features, which require computationally expensive 2D foundation models like Segment Anything (SAM) and CLIP for multi-view aggregation into 3D. As a consequence, this hampers their applicability in many real-world applications that require both fast and accurate predictions. To this end, we propose a fast yet accurate open-vocabulary 3D instance segmentation approach, named Open-YOLO 3D, that effectively leverages only 2D object detection from multi-view RGB images for open-vocabulary 3D instance segmentation. We address this task by generating class-agnostic 3D masks for objects in the scene and associating them with text prompts. We observe that the projection of class-agnostic 3D point cloud instances already holds instance information; thus, using SAM might only result in redundancy that unnecessarily increases the inference time. We empirically find that a better performance of matching text prompts to 3D masks can be achieved in a faster fashion with a 2D object detector. We validate our Open-YOLO 3D on two benchmarks, ScanNet200 and Replica, under two scenarios: (i) with ground truth masks, where labels are required for given object proposals, and (ii) with class-agnostic 3D proposals generated from a 3D proposal network. Our Open-YOLO 3D achieves state-of-the-art performance on both datasets while obtaining up to $\sim$16$\times$ speedup compared to the best existing method in literature. On ScanNet200 val. set, our Open-YOLO 3D achieves mean average precision (mAP) of 24.7\% while operating at 22 seconds per scene. Code and model are available at github.com/aminebdj/OpenYOLO3D. | 翻訳日:2024-06-22 01:36:36 公開日:2024-06-20 |
# DREW : エラー制御型透かしの活用によるロバストデータ保護に向けて
DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking ( http://arxiv.org/abs/2406.02836v2 ) ライセンス: Link先を確認 | Mehrdad Saberi, Vinu Sankar Sadasivan, Arman Zarei, Hessam Mahdavifar, Soheil Feizi, | (参考訳) データオーナシップ保護、メディアの法医学、AI生成コンテンツの検出など、データの起源の特定はデータの証明に不可欠である。
標準的なアプローチは、クエリデータと参照データセットのエントリをマッチングする埋め込みベースの検索技術である。
しかし、この方法は良心や悪意のある編集に対して堅牢ではない。
そこで我々は,誤り訂正符号とウォーターマーキング(DREW)を用いたデータ検索手法を提案する。
DREWは、参照データセットをランダムにクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入し、クエリ時にこれらのキーを使用して、所定のサンプルに対して適切なクラスタを特定する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
エラー制御符号(ECC)の統合により、信頼性の高いクラスタ割り当てが保証され、ECCアルゴリズムが正しいクラスタを高い信頼性で検出できない場合に、データセット全体の検索が可能になる。
これにより、DREWはベースラインのパフォーマンスを維持しつつ、データセットの小さなサブセットで検索を行う際に、クエリをその起源と正しく一致させる可能性が高くなるため、パフォーマンス改善の機会を提供する。
使用した透かし技術によって、DREWは複数のデータセットと最先端の埋め込みモデル(例えば、DinoV2、CLIP)にわたる検索精度(いくつかのデータセットや修正タイプで最大40%)を大幅に改善し、セキュアで信頼性の高いソース識別のための有望なソリューションとなる。
コードはhttps://github.com/mehrdadsaberi/DREWで公開されている。
Identifying the origin of data is crucial for data provenance, with applications including data ownership protection, media forensics, and detecting AI-generated content. A standard approach involves embedding-based retrieval techniques that match query data with entries in a reference dataset. However, this method is not robust against benign and malicious edits. To address this, we propose Data Retrieval with Error-corrected codes and Watermarking (DREW). DREW randomly clusters the reference dataset, injects unique error-controlled watermark keys into each cluster, and uses these keys at query time to identify the appropriate cluster for a given sample. After locating the relevant cluster, embedding vector similarity retrieval is performed within the cluster to find the most accurate matches. The integration of error control codes (ECC) ensures reliable cluster assignments, enabling the method to perform retrieval on the entire dataset in case the ECC algorithm cannot detect the correct cluster with high confidence. This makes DREW maintain baseline performance, while also providing opportunities for performance improvements due to the increased likelihood of correctly matching queries to their origin when performing retrieval on a smaller subset of the dataset. Depending on the watermark technique used, DREW can provide substantial improvements in retrieval accuracy (up to 40\% for some datasets and modification types) across multiple datasets and state-of-the-art embedding models (e.g., DinoV2, CLIP), making our method a promising solution for secure and reliable source identification. The code is available at https://github.com/mehrdadsaberi/DREW | 翻訳日:2024-06-22 01:36:36 公開日:2024-06-20 |
# フラジイルモデル透かしに関する調査
A Survey of Fragile Model Watermarking ( http://arxiv.org/abs/2406.04809v3 ) ライセンス: Link先を確認 | Zhenzhe Gao, Yu Cheng, Zhaoxia Yin, | (参考訳) ニューラルネットワークに対する敵の攻撃と従来のマルチメディアの脆弱な透かしの両方から着想を得たモデル脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れ、近年の急速な発展を目撃している。
モデル著作権の特定に広く使われている堅牢な透かしとは異なり、モデルの脆弱な透かしは、バックドア、中毒、圧縮などの予期せぬ変更を受けたかどうかを特定するように設計されている。
これらの変更は、古典的な自動運転シナリオにおける速度制限標識として停止標識を誤識別するなど、モデルユーザーに未知のリスクをもたらす可能性がある。
本稿では, モデル脆性透かしの開始以来の分野における関連研究の概要を概説し, モデル脆性透かしにおける今後の取り組みについて概説する。
Model fragile watermarking, inspired by both the field of adversarial attacks on neural networks and traditional multimedia fragile watermarking, has gradually emerged as a potent tool for detecting tampering, and has witnessed rapid development in recent years. Unlike robust watermarks, which are widely used for identifying model copyrights, fragile watermarks for models are designed to identify whether models have been subjected to unexpected alterations such as backdoors, poisoning, compression, among others. These alterations can pose unknown risks to model users, such as misidentifying stop signs as speed limit signs in classic autonomous driving scenarios. This paper provides an overview of the relevant work in the field of model fragile watermarking since its inception, categorizing them and revealing the developmental trajectory of the field, thus offering a comprehensive survey for future endeavors in model fragile watermarking. | 翻訳日:2024-06-22 01:36:36 公開日:2024-06-20 |
# コンテキスト連続帯域:静的Versus動的レグレット
Contextual Continuum Bandits: Static Versus Dynamic Regret ( http://arxiv.org/abs/2406.05714v2 ) ライセンス: Link先を確認 | Arya Akhavan, Karim Lounici, Massimiliano Pontil, Alexandre B. Tsybakov, | (参考訳) 本研究では,学習者が側情報ベクトルを逐次受信し,コンベックスセットのアクションを選択する場合のコンテキスト連続帯域幅問題について検討し,コンテキストに関連付けられた関数を最小化する。
目標は、受信したコンテキストのすべての基礎となる関数を最小化することであり、標準的な静的な後悔よりも強い、動的な(コンテキスト的な)後悔の概念に繋がる。
目的関数が文脈に関して「より古い」と仮定すると、線形な静的な後悔を達成するアルゴリズムは、線形な動的後悔を達成するために拡張可能であることを示す。
さらに,観測がうるさい場合の凸面と滑らかな関数について検討した。
インテリアポイント法にインスパイアされ,自己協和障壁を用いるアルゴリズムを提案する。
最後に、2つの重要な事実を暗示するミニマックス下界を示す。
第一に、文脈に関して連続でない関数に対して線形な動的後悔を達成するアルゴリズムは存在しない。
第二に、強い凸と滑らかな関数に対して、提案するアルゴリズムは対数係数まで、クエリ数の関数としての動的後悔の最小値である。
We study the contextual continuum bandits problem, where the learner sequentially receives a side information vector and has to choose an action in a convex set, minimizing a function associated to the context. The goal is to minimize all the underlying functions for the received contexts, leading to a dynamic (contextual) notion of regret, which is stronger than the standard static regret. Assuming that the objective functions are H\"older with respect to the contexts, we demonstrate that any algorithm achieving a sub-linear static regret can be extended to achieve a sub-linear dynamic regret. We further study the case of strongly convex and smooth functions when the observations are noisy. Inspired by the interior point method and employing self-concordant barriers, we propose an algorithm achieving a sub-linear dynamic regret. Lastly, we present a minimax lower bound, implying two key facts. First, no algorithm can achieve sub-linear dynamic regret over functions that are not continuous with respect to the context. Second, for strongly convex and smooth functions, the algorithm that we propose achieves, up to a logarithmic factor, the minimax optimal rate of dynamic regret as a function of the number of queries. | 翻訳日:2024-06-22 01:26:51 公開日:2024-06-20 |
# MVGamba:ステートスペースシーケンスモデリングとして3Dコンテンツ生成を統合する
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling ( http://arxiv.org/abs/2406.06367v2 ) ライセンス: Link先を確認 | Xuanyu Yi, Zike Wu, Qiuhong Shen, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Shuicheng Yan, Xinchao Wang, Hanwang Zhang, | (参考訳) 近年の3次元大規模再構成モデル(LRM)は、多視点拡散モデルとスケーラブルな多視点再構成モデルを統合することにより、サブ秒間に高品質な3Dコンテンツを生成することができる。
現在の作業では、視覚的品質とレンダリング効率を改善するために、3Dガウススプラッティングを3D表現として活用している。
しかし,既存のガウス復元モデルは多視点の不整合やぼやけたテクスチャに悩まされることが多い。
これは、強力な計算集約型アーキテクチャ(例えば、トランスフォーマー)を採用することを好むマルチビュー情報伝達の妥協によるものである。
この問題に対処するために,RNN-like State Space Model (SSM)に基づく多視点ガウス再構成器を備えた汎用軽量ガウス再構成モデルであるMVGambaを紹介する。
我々のガウス構造体は,多視点情報を含む因果関係を伝播し,線形複雑度を持つ細部モデリングのためのガウスの長い列を生成する。
市販のマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
MVGambaは、すべての3Dコンテンツ生成シナリオにおいて、およそ0.1\times$のモデルサイズで、最先端のベースラインを上回ります。
Recent 3D large reconstruction models (LRMs) can generate high-quality 3D content in sub-seconds by integrating multi-view diffusion models with scalable multi-view reconstructors. Current works further leverage 3D Gaussian Splatting as 3D representation for improved visual quality and rendering efficiency. However, we observe that existing Gaussian reconstruction models often suffer from multi-view inconsistency and blurred textures. We attribute this to the compromise of multi-view information propagation in favor of adopting powerful yet computationally intensive architectures (e.g., Transformers). To address this issue, we introduce MVGamba, a general and lightweight Gaussian reconstruction model featuring a multi-view Gaussian reconstructor based on the RNN-like State Space Model (SSM). Our Gaussian reconstructor propagates causal context containing multi-view information for cross-view self-refinement while generating a long sequence of Gaussians for fine-detail modeling with linear complexity. With off-the-shelf multi-view diffusion models integrated, MVGamba unifies 3D generation tasks from a single image, sparse images, or text prompts. Extensive experiments demonstrate that MVGamba outperforms state-of-the-art baselines in all 3D content generation scenarios with approximately only $0.1\times$ of the model size. | 翻訳日:2024-06-22 01:26:51 公開日:2024-06-20 |
# LLMの低域量子化学習
Low-Rank Quantization-Aware Training for LLMs ( http://arxiv.org/abs/2406.06385v2 ) ライセンス: Link先を確認 | Yelysei Bondarenko, Riccardo Del Chiaro, Markus Nagel, | (参考訳) 大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
量子化は、より計算とメモリを効率的にするための最も効果的な方法の1つである。
量子化対応トレーニング(QAT)法は、一般的に最高の量子化性能を生み出すが、潜在的に長時間のトレーニング時間と過剰なメモリ使用のコストが伴うため、LLMに適用する場合は実用的ではない。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
LR-QATは、予測性能を犠牲にすることなく、メモリを保存するためにいくつかのコンポーネントを使用します。
(a)量子化グリッドを意識した低ランク補助重量
(b)固定点または二重パッケージ整数を用いたダウンキャスト演算子
(c)チェックポイント。
ほとんどの関連作品と異なり、我々の方法
i) 推論効率が良く,従来のPTQと比較してオーバーヘッドが増加しない。
(ii)は,一般的な拡張事前訓練フレームワークとみなすことができる。
(iii) は、様々な選択の量子化の粒度、アクティベーションの量子化、多くのPTQ技術とシームレスに結合するなど、幅広い量子化設定に適用できる。
LR-QATをLLaMA-2/3およびMistralモデルファミリーに適用し、複数の下流タスクにおける有効性を検証する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
具体的には、24GBのメモリを持つ1つのコンシューマグレードGPU上で7B LLMをトレーニングすることができる。
Large language models (LLMs) are omnipresent, however their practical deployment is challenging due to their ever increasing computational and memory demands. Quantization is one of the most effective ways to make them more compute and memory efficient. Quantization-aware training (QAT) methods, generally produce the best quantized performance, however it comes at the cost of potentially long training time and excessive memory usage, making it impractical when applying for LLMs. Inspired by parameter-efficient fine-tuning (PEFT) and low-rank adaptation (LoRA) literature, we propose LR-QAT -- a lightweight and memory-efficient QAT algorithm for LLMs. LR-QAT employs several components to save memory without sacrificing predictive performance: (a) low-rank auxiliary weights that are aware of the quantization grid; (b) a downcasting operator using fixed-point or double-packed integers and (c) checkpointing. Unlike most related work, our method (i) is inference-efficient, leading to no additional overhead compared to traditional PTQ; (ii) can be seen as a general extended pretraining framework, meaning that the resulting model can still be utilized for any downstream task afterwards; (iii) can be applied across a wide range of quantization settings, such as different choices quantization granularity, activation quantization, and seamlessly combined with many PTQ techniques. We apply LR-QAT to LLaMA-2/3 and Mistral model families and validate its effectiveness on several downstream tasks. Our method outperforms common post-training quantization (PTQ) approaches and reaches the same model performance as full-model QAT at the fraction of its memory usage. Specifically, we can train a 7B LLM on a single consumer grade GPU with 24GB of memory. | 翻訳日:2024-06-22 01:26:51 公開日:2024-06-20 |
# STimage-1K4M:空間転写学のための病理組織像-遺伝子発現データセット
STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics ( http://arxiv.org/abs/2406.06393v2 ) ライセンス: Link先を確認 | Jiawen Chen, Muqing Zhou, Wenrong Wu, Jinwei Zhang, Yun Li, Didong Li, | (参考訳) マルチモーダルアルゴリズムの最近の進歩は、大規模な画像テキストデータセットの利用可能化によって推進され、推進され、計算病理学を含む様々な分野において大きな進歩をもたらした。
しかし、既存の多くの医用画像テキストデータセットでは、このテキストは典型的には、大きな病理画像内のサブタイル領域を十分に記述していないハイレベルな要約を提供する。
例えば、画像は、がん領域と健康領域を含む広範囲の組織領域をカバーするかもしれないが、付随するテキストは、この画像ががんスライドであることのみを指定し、詳細な分析に必要な詳細を欠いている。
本研究では,サブタイル画像にゲノム機能を提供することで,このギャップを埋める新しいデータセットであるSTimage-1K4Mを紹介する。
STimage-1K4Mは、病的画像内の個々の空間スポットのレベルで遺伝子発現情報をキャプチャする空間転写データから導出された1,149個の画像を含む。
具体的には、データセットの各画像は小さなサブイメージタイルに分解され、各タイルは15,000-30,000次元の遺伝子発現とペアリングされる。
4,293,195対のサブタイル画像と遺伝子発現により、STimage-1K4Mは前例のない粒度を提供し、マルチモーダルデータ解析における幅広い先進的な研究の道を開いた。
Recent advances in multi-modal algorithms have driven and been driven by the increasing availability of large image-text datasets, leading to significant strides in various fields, including computational pathology. However, in most existing medical image-text datasets, the text typically provides high-level summaries that may not sufficiently describe sub-tile regions within a large pathology image. For example, an image might cover an extensive tissue area containing cancerous and healthy regions, but the accompanying text might only specify that this image is a cancer slide, lacking the nuanced details needed for in-depth analysis. In this study, we introduce STimage-1K4M, a novel dataset designed to bridge this gap by providing genomic features for sub-tile images. STimage-1K4M contains 1,149 images derived from spatial transcriptomics data, which captures gene expression information at the level of individual spatial spots within a pathology image. Specifically, each image in the dataset is broken down into smaller sub-image tiles, with each tile paired with 15,000-30,000 dimensional gene expressions. With 4,293,195 pairs of sub-tile images and gene expressions, STimage-1K4M offers unprecedented granularity, paving the way for a wide range of advanced research in multi-modal data analysis an innovative applications in computational pathology, and beyond. | 翻訳日:2024-06-22 01:26:51 公開日:2024-06-20 |
# AIエージェントのセキュリティ
Security of AI Agents ( http://arxiv.org/abs/2406.08689v2 ) ライセンス: Link先を確認 | Yifeng He, Ethan Wang, Yuyang Rong, Zifei Cheng, Hao Chen, | (参考訳) AIエージェントの研究と開発は、大規模言語モデルによって促進されている。
AIエージェントはインテリジェントアシスタントとして機能し、ツールへのアクセスと環境内でコマンドを実行する機能によって、ユーザに代わってタスクを完了することができる。一般的なAIエージェントのワークフローを研究し、経験することで、セキュリティに関するいくつかの懸念を提起した。
これらの潜在的な脆弱性は、エージェントを構築するために使用されるフレームワークや、エージェントを改善するための研究によって対処されない。
本稿では,これらの脆弱性をシステムセキュリティの観点から詳細に識別し,その原因と重大な影響を強調する。
さらに,各脆弱性に対応する防御機構を巧妙な設計と実験により導入し,その生存性を評価する。
さらに、この論文は、AIエージェントの現在の開発におけるセキュリティ問題を文脈的に分析し、AIエージェントをより安全で信頼性の高いものにするための方法を規定する。
The study and development of AI agents have been boosted by large language models. AI agents can function as intelligent assistants and complete tasks on behalf of their users with access to tools and the ability to execute commands in their environments, Through studying and experiencing the workflow of typical AI agents, we have raised several concerns regarding their security. These potential vulnerabilities are not addressed by the frameworks used to build the agents, nor by research aimed at improving the agents. In this paper, we identify and describe these vulnerabilities in detail from a system security perspective, emphasizing their causes and severe effects. Furthermore, we introduce defense mechanisms corresponding to each vulnerability with meticulous design and experiments to evaluate their viability. Altogether, this paper contextualizes the security issues in the current development of AI agents and delineates methods to make AI agents safer and more reliable. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# マルチタスク学習におけるマルチリンガル未知話者感情認識の活用
Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning ( http://arxiv.org/abs/2406.08931v2 ) ライセンス: Link先を確認 | Arnav Goel, Medha Hira, Anubha Gupta, | (参考訳) 現代の深層学習技術の進歩は、音声感情認識(SER)の分野で進歩をもたらした。
しかし、この分野で広く使われているほとんどのシステムは、訓練中に見えない話者に一般化することができない。
本研究は,多言語SERの課題,特に目に見えない話者に対処することに焦点を当てる。
本稿では,コアテンションに基づく融合とマルチタスク学習を利用した新しいアーキテクチャであるCAMuLeNetを紹介する。
さらに,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,IEMOCAP, RAVDESS, CREMA-D, EmoDB, CaFEの5つの既存ベンチマークデータセットに対して10倍のピークアウトクロスバリデーションを用いてベンチマークし,ヒンディー語(BhavVani)でSER用の新しいデータセットをリリースする。
CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。
Advent of modern deep learning techniques has given rise to advancements in the field of Speech Emotion Recognition (SER). However, most systems prevalent in the field fail to generalize to speakers not seen during training. This study focuses on handling challenges of multilingual SER, specifically on unseen speakers. We introduce CAMuLeNet, a novel architecture leveraging co-attention based fusion and multitask learning to address this problem. Additionally, we benchmark pretrained encoders of Whisper, HuBERT, Wav2Vec2.0, and WavLM using 10-fold leave-speaker-out cross-validation on five existing multilingual benchmark datasets: IEMOCAP, RAVDESS, CREMA-D, EmoDB and CaFE and, release a novel dataset for SER on the Hindi language (BhavVani). CAMuLeNet shows an average improvement of approximately 8% over all benchmarks on unseen speakers determined by our cross-validation strategy. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# 多モード変分オートエンコーダを用いたベイズ構造モデルの更新
Bayesian Structural Model Updating with Multimodal Variational Autoencoder ( http://arxiv.org/abs/2406.09051v2 ) ライセンス: Link先を確認 | Tatsuya Itoi, Kazuho Amishiki, Sangwon Lee, Taro Yaoyama, | (参考訳) 本研究では,ベイズ構造モデル更新のための新しいフレームワークについて述べる。
提案手法は,マルチモーダル変分オートエンコーダ(VAE)のサロゲート・ユニモーダルエンコーダを利用する。
この方法は、少数の観測値を扱う際の可能性の近似を容易にする。
様々な動的解析モデルに適用可能な高次元相関同時観測に特に適している。
提案手法は, 加速度および動的ひずみ測定を併用した単層建築物の数値モデルを用いてベンチマークを行った。
さらに、自由度3自由度マスモデルに対する非線形モデルパラメータのベイズ的更新を含む例は、実際の応用に十分な精度を維持しながら、元のVAEを使用する場合と比較して計算効率を示す。
A novel framework for Bayesian structural model updating is presented in this study. The proposed method utilizes the surrogate unimodal encoders of a multimodal variational autoencoder (VAE). The method facilitates an approximation of the likelihood when dealing with a small number of observations. It is particularly suitable for high-dimensional correlated simultaneous observations applicable to various dynamic analysis models. The proposed approach was benchmarked using a numerical model of a single-story frame building with acceleration and dynamic strain measurements. Additionally, an example involving a Bayesian update of nonlinear model parameters for a three-degree-of-freedom lumped mass model demonstrates computational efficiency when compared to using the original VAE, while maintaining adequate accuracy for practical applications. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# Action2Sound:エゴセントリックビデオからのアクション音のアンビエント・アウェア・ジェネレーション
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos ( http://arxiv.org/abs/2406.09272v2 ) ライセンス: Link先を確認 | Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman, | (参考訳) 人間のインタラクションのための現実的なオーディオを生成することは、映画や仮想現実ゲームのためのサウンドエフェクトを作成するなど、多くのアプリケーションにとって重要である。
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定するが、多くの音は画面外で発生し、視覚とは全く一致しない。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
本研究では,前庭動作音を周囲の背景音から遠ざけるための新しい音調和機構を考案した。
新たなサイレントビデオが提供されると、我々のモデルは検索拡張生成を用いて、視覚コンテンツを意味的にも時間的にも一致させるオーディオを生成する。
我々は,Ego4D と EPIC-KITCHENS の2つのビデオデータセット上で,我々のモデルを訓練し,評価する。
我々のモデルは,既存の手法より優れており,周囲の音を制御可能な生成が可能であり,コンピュータグラフィックスゲームクリップへの一般化の約束も示している。
全体として、自然の背景音を持つ未処理クリップからトレーニングを受けたにもかかわらず、観察された視覚コンテンツに忠実に焦点を合わせるのは、我々の研究が初めてである。
Generating realistic audio for human interactions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets Ego4D and EPIC-KITCHENS. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our work is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# 自然言語処理の金融リスク検出への応用
Application of Natural Language Processing in Financial Risk Detection ( http://arxiv.org/abs/2406.09765v2 ) ライセンス: Link先を確認 | Liyang Wang, Yu Cheng, Ao Xiang, Jingyu Zhang, Haowei Yang, | (参考訳) 本稿では,金融リスク検出における自然言語処理(NLP)の適用について検討する。
本研究は,NLPに基づく金融リスク検出モデルの構築により,金融文書や通信における潜在的なリスクを特定し,予測することを目的とする。
まず, テキストマイニング法, NLPモデル設計原則, 機械学習アルゴリズムなど, NLPの基本概念とその理論基盤を紹介する。
次に、テキストデータ前処理と特徴抽出のプロセスを記述する。
最後に,モデルの有効性と予測性能を実証実験により検証した。
その結果,NLPに基づく金融リスク検出モデルは,リスクの同定と予測に優れ,金融機関に効果的なリスク管理ツールを提供することが示唆された。
本研究は、金融リスク管理の分野において、金融リスク検出の精度と効率を向上させるため、高度なNLP技術を活用した貴重な参考文献を提供する。
This paper explores the application of Natural Language Processing (NLP) in financial risk detection. By constructing an NLP-based financial risk detection model, this study aims to identify and predict potential risks in financial documents and communications. First, the fundamental concepts of NLP and its theoretical foundation, including text mining methods, NLP model design principles, and machine learning algorithms, are introduced. Second, the process of text data preprocessing and feature extraction is described. Finally, the effectiveness and predictive performance of the model are validated through empirical research. The results show that the NLP-based financial risk detection model performs excellently in risk identification and prediction, providing effective risk management tools for financial institutions. This study offers valuable references for the field of financial risk management, utilizing advanced NLP techniques to improve the accuracy and efficiency of financial risk detection. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# 視覚・言語ナビゲーションのための3次元特徴場による情報伝達
Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation ( http://arxiv.org/abs/2406.09798v2 ) ライセンス: Link先を確認 | Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Shuqiang Jiang, | (参考訳) ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。
この分野では、エージェントは通常、ナビゲーションシミュレーターで訓練され、評価され、sim-to-realトランスファーの効果的なアプローチが欠如している。
単眼カメラのみを搭載したVLNエージェントは非常に限られた性能を示し、パノラマ観察で訓練された主流のVLNモデルでは性能が向上するが、ほとんどの単眼ロボットでは展開が困難である。
本稿では,パノラマ性知覚とパノラマ意味理解を両立させたモノクラーロボットを,高速パノラマVLNモデルを共通モノクラーロボットにスムーズに伝達するシミュレート・トゥ・リアル・トランスファー手法を提案する。
本研究では,エージェント中心のナビゲーション可能な経路ポイントを予測するためにセマンティック・トラバーサブル・マップを提案し,これらナビゲーション可能な経路ポイントの新たなビュー表現を3次元特徴場を通して予測する。
これらの手法はモノクラーロボットの視野を狭くし、現実のナビゲーション性能を大幅に向上させる。
我々のVLNシステムは、シミュレーション環境におけるR2R-CEおよびRxR-CEベンチマークにおける従来のSOTA単分子VLN法よりも優れており、実環境においても検証されており、実環境のVLNに対して実用的で高性能なソリューションを提供する。
Vision-and-language navigation (VLN) enables the agent to navigate to a remote location in 3D environments following the natural language instruction. In this field, the agent is usually trained and evaluated in the navigation simulators, lacking effective approaches for sim-to-real transfer. The VLN agents with only a monocular camera exhibit extremely limited performance, while the mainstream VLN models trained with panoramic observation, perform better but are difficult to deploy on most monocular robots. For this case, we propose a sim-to-real transfer approach to endow the monocular robots with panoramic traversability perception and panoramic semantic understanding, thus smoothly transferring the high-performance panoramic VLN models to the common monocular robots. In this work, the semantic traversable map is proposed to predict agent-centric navigable waypoints, and the novel view representations of these navigable waypoints are predicted through the 3D feature fields. These methods broaden the limited field of view of the monocular robots and significantly improve navigation performance in the real world. Our VLN system outperforms previous SOTA monocular VLN methods in R2R-CE and RxR-CE benchmarks within the simulation environments and is also validated in real-world environments, providing a practical and high-performance solution for real-world VLN. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# 二次割当問題を効率的に解くための解認識変換器の学習
Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem ( http://arxiv.org/abs/2406.09899v2 ) ライセンス: Link先を確認 | Zhentao Tan, Yadong Mu, | (参考訳) 近年,Mixed Integer Linear Programming Problems (MILPs) などの様々な最適化問題が,機械学習の能力を活用して包括的な調査が行われている。
本研究は,組合せ最適化における重大な課題であるQAP(Quardratic Assignment Problem)を効率的に解くための学習ベースのソリューションに焦点を当てる。
単純な問題の多くは完全多項式時間近似解 (FPTAS) を許容するが、QAPは強いNPハードであることが示されている。
QAP の FPTAS を見つけることは難しいが、FPTAS の存在は$P = NP$ を意味する。
QAPに関する現在の研究は、限られたスケールと計算の非効率さに悩まされている。
上記の課題に対処するため,本研究では,QAPを学習から改善するカテゴリにおいて,QAPの活用に関する第1の解決策を提案する。
この研究は施設ノードと場所ノードを別々にエンコードするが、現在のアプローチで広く使われている計算集約型アソシエーショングラフは形成しない。
この設計選択により、より大きな問題サイズへのスケーラビリティが実現される。
さらに、SAWTアーキテクチャは、既存の解行列と注目スコアを統合して、QAPの高次情報を効果的に取得する。
本モデルの有効性は,様々なサイズの自己生成型QAPインスタンスとQAPLIBベンチマークを用いて検証した。
Recently various optimization problems, such as Mixed Integer Linear Programming Problems (MILPs), have undergone comprehensive investigation, leveraging the capabilities of machine learning. This work focuses on learning-based solutions for efficiently solving the Quadratic Assignment Problem (QAPs), which stands as a formidable challenge in combinatorial optimization. While many instances of simpler problems admit fully polynomial-time approximate solution (FPTAS), QAP is shown to be strongly NP-hard. Even finding a FPTAS for QAP is difficult, in the sense that the existence of a FPTAS implies $P = NP$. Current research on QAPs suffer from limited scale and computational inefficiency. To attack the aforementioned issues, we here propose the first solution of its kind for QAP in the learn-to-improve category. This work encodes facility and location nodes separately, instead of forming computationally intensive association graphs prevalent in current approaches. This design choice enables scalability to larger problem sizes. Furthermore, a \textbf{S}olution \textbf{AW}are \textbf{T}ransformer (SAWT) architecture integrates the incumbent solution matrix with the attention score to effectively capture higher-order information of the QAPs. Our model's effectiveness is validated through extensive experiments on self-generated QAP instances of varying sizes and the QAPLIB benchmark. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# 集中型注意:言語モデルに対するドメイン一般化型プロンプト最適化を目指して
Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models ( http://arxiv.org/abs/2406.10584v2 ) ライセンス: Link先を確認 | Chengzhengxu Li, Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Chen Liu, Yu Lan, Chao Shen, | (参考訳) 近年のプロンプト最適化の進歩により、下流タスクにおける事前学習言語モデル(PLM)の性能が向上している。
しかし、ドメイン一般化における最適化されたプロンプトの可能性は、まだ解明されていない。
未知の領域に対する迅速な一般化の性質を探るため、パイロット実験を行い、それを見つける。
一 PLM の深層からより注目されるプロンプトはより一般化可能であること。
(II) PLMの深層におけるより安定した注意分布を持つプロンプトはより一般化可能である。
そこで我々は,現在デコードトークンからプロンプトトークンへの"振り返り"の注意を表す"集中"というドメイン一般化可能なプロンプト最適化に向けて,新たな目標を提案し,プロンプトに対する注意力を高め,注意分布の変動を低減する。
我々は,この新たな目的を,それぞれ一般的なソフトプロンプトとハードプロンプトの最適化手法に適用する。
拡張実験により,提案手法は,ソフトプロンプトの一般化において1.42%,マルチソース領域の一般化設定においてハードプロンプトの一般化において2.16%向上し,ドメイン内性能の満足度を維持しつつ比較プロンプトの最適化手法の改善を図っている。
提案したプロンプト最適化手法の有効性を検証し,ドメイン一般化可能なプロンプトに対する重要な洞察を提供する。
Recent advances in prompt optimization have notably enhanced the performance of pre-trained language models (PLMs) on downstream tasks. However, the potential of optimized prompts on domain generalization has been under-explored. To explore the nature of prompt generalization on unknown domains, we conduct pilot experiments and find that (i) Prompts gaining more attention weight from PLMs' deep layers are more generalizable and (ii) Prompts with more stable attention distributions in PLMs' deep layers are more generalizable. Thus, we offer a fresh objective towards domain-generalizable prompts optimization named "Concentration", which represents the "lookback" attention from the current decoding token to the prompt tokens, to increase the attention strength on prompts and reduce the fluctuation of attention distribution. We adapt this new objective to popular soft prompt and hard prompt optimization methods, respectively. Extensive experiments demonstrate that our idea improves comparison prompt optimization methods by 1.42% for soft prompt generalization and 2.16% for hard prompt generalization in accuracy on the multi-source domain generalization setting, while maintaining satisfying in-domain performance. The promising results validate the effectiveness of our proposed prompt optimization objective and provide key insights into domain-generalizable prompts. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# BlockPruner: 大規模言語モデルのためのきめ細かいプルーニング
BlockPruner: Fine-grained Pruning for Large Language Models ( http://arxiv.org/abs/2406.10594v2 ) ライセンス: Link先を確認 | Longguang Zhong, Fanqi Wan, Ruijun Chen, Xiaojun Quan, Liangzhi Li, | (参考訳) 大規模言語モデル(LLM)のサイズと複雑さの急速な増加に伴い、トレーニングや推論に伴うコストは大幅に増大した。
LLMの特定の層は、かなりの冗長性を持ち、これらの層を刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。
この知見に基づいて様々な層刈り法が開発されているが、一般的には層自体の微細な冗長性を見落としている。
本稿では,LLMのアーキテクチャを深く掘り下げ,マルチヘッドアテンション(MHA)およびマルチ層パーセプトロン(MLP)ブロックにおける冗長性を目標にすることで,よりきめ細かなプルーニングを実現することを実証する。
そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。
既存の層プルーニング法とは異なり、BlockPrunerは各トランスフォーマー層をMHAとMLPブロックに分割する。
次に、これらのブロックの重要性をパープレキシティ尺度を用いて評価し、反復的なプルーニングにヒューリスティックな探索を適用した。
我々はBlockPrunerを様々なサイズとアーキテクチャのLLMに適用し、その性能を幅広い下流タスクで検証した。
実験結果から,BlockPrunerは最先端のベースラインに比べて粒度と有効プルーニングを実現していることがわかった。
With the rapid growth in the size and complexity of large language models (LLMs), the costs associated with their training and inference have escalated significantly. Research indicates that certain layers in LLMs harbor substantial redundancy, and pruning these layers has minimal impact on the overall performance. While various layer pruning methods have been developed based on this insight, they generally overlook the finer-grained redundancies within the layers themselves. In this paper, we delve deeper into the architecture of LLMs and demonstrate that finer-grained pruning can be achieved by targeting redundancies in multi-head attention (MHA) and multi-layer perceptron (MLP) blocks. We propose a novel, training-free structured pruning approach called BlockPruner. Unlike existing layer pruning methods, BlockPruner segments each Transformer layer into MHA and MLP blocks. It then assesses the importance of these blocks using perplexity measures and applies a heuristic search for iterative pruning. We applied BlockPruner to LLMs of various sizes and architectures and validated its performance across a wide range of downstream tasks. Experimental results show that BlockPruner achieves more granular and effective pruning compared to state-of-the-art baselines. | 翻訳日:2024-06-22 01:17:00 公開日:2024-06-20 |
# トレーディング・デビル:確率的投資モデルとベイズ的アプローチによるロバストなバックドア攻撃
Trading Devil: Robust backdoor attack via Stochastic investment models and Bayesian approach ( http://arxiv.org/abs/2406.10719v2 ) ライセンス: Link先を確認 | Orson Mengara, | (参考訳) 音声アクティベーションシステムや音声認識技術の利用の増加に伴い、音声データに対するバックドア攻撃の危険性は大幅に増大している。
本研究では、確率的投資に基づくバックドア攻撃(MarketBack)と呼ばれる特定の種類の攻撃について検討する。
マシンラーニングモデルのセキュリティと整合性は、オーディオアプリケーションやシステムの信頼性を維持するために、バックドア攻撃によって深刻な脅威を受けています。
実験結果から,MarketBackは,トレーニングデータの1%未満を中毒した場合の7つのモデルにおいて,平均攻撃成功率を100%近く達成できることが示された。
With the growing use of voice-activated systems and speech recognition technologies, the danger of backdoor attacks on audio data has grown significantly. This research looks at a specific type of attack, known as a Stochastic investment-based backdoor attack (MarketBack), in which adversaries strategically manipulate the stylistic properties of audio to fool speech recognition systems. The security and integrity of machine learning models are seriously threatened by backdoor attacks, in order to maintain the reliability of audio applications and systems, the identification of such attacks becomes crucial in the context of audio data. Experimental results demonstrated that MarketBack is feasible to achieve an average attack success rate close to 100% in seven victim models when poisoning less than 1% of the training data. | 翻訳日:2024-06-22 01:07:15 公開日:2024-06-20 |
# 政策改善アルゴリズムの収束率と収束率について
On Convergence and Rate of Convergence of Policy Improvement Algorithms ( http://arxiv.org/abs/2406.10959v2 ) ライセンス: Link先を確認 | Jin Ma, Gaozhan Wang, Jianfeng Zhang, | (参考訳) 本稿では、連続時間エントロピー規則化確率制御問題に対して、政策改善アルゴリズム(PIA)の収束のためのスクラッチからの簡単な証明を提供する。
そのような収束は、PIA に関わる反復 PDE に対する洗練された PDE 推定を用いて、Huang-Wang-Zhou (2023) によって確立されている。
提案手法はPDEとその微分の解に対するFeynman-Kac型確率表現式に基づいている。
さらに、大きな割引係数を持つ無限地平線モデルと有限地平線モデルでは、同様の議論を伴う収束の指数率を得る。
最後に、1次元の設定では、収束結果を拡散制御ケースに拡張する。
In this paper we provide a simple proof from scratch for the convergence of Policy Improvement Algorithm (PIA) for a continuous time entropy-regularized stochastic control problem. Such convergence has been established by Huang-Wang-Zhou(2023) by using sophisticated PDE estimates for the iterative PDEs involved in the PIA. Our approach builds on some Feynman-Kac type probabilistic representation formulae for solutions of PDEs and their derivatives. Moreover, in the infinite horizon model with a large discount factor and in the finite horizon model, we obtain the exponential rate of convergence with similar arguments. Finally, in the one dimensional setting, we extend the convergence result to the diffusion control case. | 翻訳日:2024-06-22 01:07:15 公開日:2024-06-20 |
# MemDPT: メモリ効率の良い言語モデルのための微分プライバシー
MemDPT: Differential Privacy for Memory Efficient Language Models ( http://arxiv.org/abs/2406.11087v2 ) ライセンス: Link先を確認 | Yanming Liu, Xinyue Peng, Jiannan Cao, Yuwei Zhang, Chen Ma, Songhang Deng, Mengchen Fu, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du, | (参考訳) 大規模言語モデルは、広範囲のアプリケーションで一貫して顕著な性能を示してきた。
それでも、これらのモデルのデプロイは、ユーザプライバシを潜在的なリスクに対して不注意に公開する可能性がある。
トレーニング中のこれらのモデルのかなりのメモリ需要は、重要なリソース消費の課題である。
これらのモデルの大きさはメモリ資源にかなりの負担を与えるが、これは実際は重大な懸念事項である。
本稿では,大規模言語モデルのメモリコスト削減だけでなく,ユーザデータのプライバシ保護にも重点を置いている,革新的なトレーニングフレームワークであるMemDPTを提案する。
MemDPTは、様々な差分プライバシーメモリ効率の良い微調整スキームに対応するために、エッジネットワークとリバースネットワークの設計を提供する。
当社のアプローチは,2ドルの \sim 3 \times$メモリ最適化を実現するだけでなく,堅牢なプライバシ保護も実現しています。
大規模な実験により、MemDPTは様々なタスクシナリオに対して、効果的な差分プライバシー効率の微調整を効果的に提供できることが示されている。
Large language models have consistently demonstrated remarkable performance across a wide spectrum of applications. Nonetheless, the deployment of these models can inadvertently expose user privacy to potential risks. The substantial memory demands of these models during training represent a significant resource consumption challenge. The sheer size of these models imposes a considerable burden on memory resources, which is a matter of significant concern in practice. In this paper, we present an innovative training framework MemDPT that not only reduces the memory cost of large language models but also places a strong emphasis on safeguarding user data privacy. MemDPT provides edge network and reverse network designs to accommodate various differential privacy memory-efficient fine-tuning schemes. Our approach not only achieves $2 \sim 3 \times$ memory optimization but also provides robust privacy protection, ensuring that user data remains secure and confidential. Extensive experiments have demonstrated that MemDPT can effectively provide differential privacy efficient fine-tuning across various task scenarios. | 翻訳日:2024-06-22 01:07:15 公開日:2024-06-20 |
# 大規模言語モデルは分類学のよい置き換えか?
Are Large Language Models a Good Replacement of Taxonomies? ( http://arxiv.org/abs/2406.11131v2 ) ライセンス: Link先を確認 | Yushi Sun, Hao Xin, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen, | (参考訳) 大きな言語モデル(LLM)は、知識を内部化し、自然言語の質問に答える素晴らしい能力を示している。
従来の知識グラフがLLMに置き換わるべきかどうかについては,従来の知識グラフがLLMに置き換わるべきかどうか,コミュニティは疑念を抱いている。
本稿では,LLMによって知識グラフのスキーマ(分類学)が時代遅れになるかどうかを問う。
直感的には、LLMは一般的な分類学や人間に共通する分類学レベルでうまく機能すべきである。
残念なことに、LLMを一般的なドメインから特定のドメイン、ルートからリーフまでのレベルまで幅広く評価する包括的なベンチマークが欠けているため、確実な結論が得られます。
研究ギャップを狭めるため,分類学上のLLMの性能を評価するため,TaxoGlimpseという新しい分類階層構造探索ベンチマークを構築した。
TaxoGlimpseは10の代表的な分類体系を網羅し、根から葉まで、この分類学におけるさまざまなレベルの実体の詳細な実験を行っている。
現状のLLM18種の総合的な実験から, LLM18種の分類学的知識を十分に把握できないことが確認された。
Large language models (LLMs) demonstrate an impressive ability to internalize knowledge and answer natural language questions. Although previous studies validate that LLMs perform well on general knowledge while presenting poor performance on long-tail nuanced knowledge, the community is still doubtful about whether the traditional knowledge graphs should be replaced by LLMs. In this paper, we ask if the schema of knowledge graph (i.e., taxonomy) is made obsolete by LLMs. Intuitively, LLMs should perform well on common taxonomies and at taxonomy levels that are common to people. Unfortunately, there lacks a comprehensive benchmark that evaluates the LLMs over a wide range of taxonomies from common to specialized domains and at levels from root to leaf so that we can draw a confident conclusion. To narrow the research gap, we constructed a novel taxonomy hierarchical structure discovery benchmark named TaxoGlimpse to evaluate the performance of LLMs over taxonomies. TaxoGlimpse covers ten representative taxonomies from common to specialized domains with in-depth experiments of different levels of entities in this taxonomy from root to leaf. Our comprehensive experiments of eighteen state-of-the-art LLMs under three prompting settings validate that LLMs can still not well capture the knowledge of specialized taxonomies and leaf-level entities. | 翻訳日:2024-06-22 01:07:15 公開日:2024-06-20 |
# 大規模言語モデルにおける失敗管理のためのAIOpsに関する調査
A Survey of AIOps for Failure Management in the Era of Large Language Models ( http://arxiv.org/abs/2406.11213v2 ) ライセンス: Link先を確認 | Lingzhe Zhang, Tong Jia, Mengxi Jia, Yifan Wu, Aiwei Liu, Yong Yang, Zhonghai Wu, Ying Li, | (参考訳) ソフトウェアシステムが複雑化するにつれ、AIOps(Artificial Intelligence for IT Operations)メソッドは、大規模分散ソフトウェアシステムの高可用性と信頼性を確保するために、ソフトウェアシステムの障害管理に広く使用されている。
しかし、これらの手法はクロスプラットフォームの汎用性やタスク間の柔軟性の欠如など、いくつかの課題に直面している。
幸いなことに、近年の大規模言語モデル(LLM)の進歩はこれらの課題に大きく取り組むことができ、この分野を探求するための多くのアプローチがすでに提案されている。
しかしながら、LLMベースのAIOpsと従来のAIOpsメソッドの違いについて、包括的な調査は行われていない。
そこで本研究では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。
これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。
さらに、この調査では、AIOpsサブタスク、異なるAIOpsサブタスクに適した特定のLLMベースのアプローチ、ドメインの課題と今後の方向性などについて調査し、開発と応用をさらに進めることを目指している。
As software systems grow increasingly intricate, Artificial Intelligence for IT Operations (AIOps) methods have been widely used in software system failure management to ensure the high availability and reliability of large-scale distributed software systems. However, these methods still face several challenges, such as lack of cross-platform generality and cross-task flexibility. Fortunately, recent advancements in large language models (LLMs) can significantly address these challenges, and many approaches have already been proposed to explore this field. However, there is currently no comprehensive survey that discusses the differences between LLM-based AIOps and traditional AIOps methods. Therefore, this paper presents a comprehensive survey of AIOps technology for failure management in the LLM era. It includes a detailed definition of AIOps tasks for failure management, the data sources for AIOps, and the LLM-based approaches adopted for AIOps. Additionally, this survey explores the AIOps subtasks, the specific LLM-based approaches suitable for different AIOps subtasks, and the challenges and future directions of the domain, aiming to further its development and application. | 翻訳日:2024-06-22 01:07:15 公開日:2024-06-20 |
# 文化条件とプラセボ : ソシオデモグラフィー・プロンプティングの有効性について
Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting ( http://arxiv.org/abs/2406.11661v2 ) ライセンス: Link先を確認 | Sagnik Mukherjee, Muhammad Farid Adilazuarda, Sunayana Sitaram, Kalika Bali, Alham Fikri Aji, Monojit Choudhury, | (参考訳) ソシオデデデノグラフィーのプロンプトは、LLMにおける文化的バイアスの研究や、特定の文化にモデルを合わせるために一般的に用いられるアプローチである。
本稿では,文化に敏感で非敏感な手がかりとして,文化に敏感なデータセット (EtiCor, CALI) や中立なデータセット (MMLU, ETHICS) を用いて,4つのLCM (Llama 3, Mistral v0.2, GPT-3.5 Turbo, GPT-4) を系統的に探索する。
GPT-4以外の全てのモデルは、両方の種類のプロンプトに対する両方のデータセットに対する応答に有意なばらつきを示し、モデルやアライメント戦略として、文化的に条件付けられたプロンプトの堅牢性に疑問を呈している。
この作品はまた、制御実験の設計を再考し、「プラセボ効果」から応答の文化的条件、すなわちプロンプト内の任意のトークンによるモデル応答のランダムな摂動を区別する。
Socio-demographic prompting is a commonly employed approach to study cultural biases in LLMs as well as for aligning models to certain cultures. In this paper, we systematically probe four LLMs (Llama 3, Mistral v0.2, GPT-3.5 Turbo and GPT-4) with prompts that are conditioned on culturally sensitive and non-sensitive cues, on datasets that are supposed to be culturally sensitive (EtiCor and CALI) or neutral (MMLU and ETHICS). We observe that all models except GPT-4 show significant variations in their responses on both kinds of datasets for both kinds of prompts, casting doubt on the robustness of the culturally-conditioned prompting as a method for eliciting cultural bias in models or as an alignment strategy. The work also calls rethinking the control experiment design to tease apart the cultural conditioning of responses from "placebo effect", i.e., random perturbations of model responses due to arbitrary tokens in the prompt. | 翻訳日:2024-06-22 00:57:29 公開日:2024-06-20 |
# QC-Forest: ランダムフォレストの再トレーニングを高速化する古典的量子アルゴリズム
QC-Forest: a Classical-Quantum Algorithm to Provably Speedup Retraining of Random Forest ( http://arxiv.org/abs/2406.12008v2 ) ライセンス: Link先を確認 | Romina Yalovetzky, Niraj Kumar, Changhao Li, Marco Pistoia, | (参考訳) ランダムフォレスト(Random Forest, RF)は、教師あり学習法として人気があり、使いやすさと柔軟性で評価されている。
オンラインRFモデルは、モデルの精度を維持するために、新しいトレーニングデータを考慮する必要がある。
これは、自動運転システムやクレジットカード支払いなどのデータストリームにおいて、データが定期的に、定期的に、時系列に生成されるアプリケーションにおいて特に重要である。
この設定では、時間とともにデータ分布のドリフトが完全に捕捉されるので、古いデータと新しいデータが蓄積された周期的モデルの再トレーニングを行うのが有益である。
しかし、これは、蓄積されたサンプル数と線形にスケールするため、RFの最先端の古典的アルゴリズムでは実用的ではない。
QC-Forestは,マルチクラス分類と回帰のためのストリーミング設定において,RFモデルを時間効率よく再学習するように設計された古典量子アルゴリズムである。
QC-Forestは、Kumarらによって提案された単一木構築と再訓練のための量子アルゴリズムであるDes-qを活用し、元の提案はバイナリクラスに限定されていたため、マルチクラス分類に拡張し、同じ多対数依存を維持しながら、基礎となる量子サブルーチンを有限エラーに置き換える正確な古典的な方法を導入した。
最後に、QC-Forestは、最大80,000のサンプルを持つ広く使用されているベンチマークデータセットの最先端RF手法と比較して、競合精度を向上し、モデル再トレーニングを大幅に高速化することを示した。
Random Forest (RF) is a popular tree-ensemble method for supervised learning, prized for its ease of use and flexibility. Online RF models require to account for new training data to maintain model accuracy. This is particularly important in applications where data is periodically and sequentially generated over time in data streams, such as auto-driving systems, and credit card payments. In this setting, performing periodic model retraining with the old and new data accumulated is beneficial as it fully captures possible drifts in the data distribution over time. However, this is unpractical with state-of-the-art classical algorithms for RF as they scale linearly with the accumulated number of samples. We propose QC-Forest, a classical-quantum algorithm designed to time-efficiently retrain RF models in the streaming setting for multi-class classification and regression, achieving a runtime poly-logarithmic in the total number of accumulated samples. QC-Forest leverages Des-q, a quantum algorithm for single tree construction and retraining proposed by Kumar et al. by expanding to multi-class classification, as the original proposal was limited to binary classes, and introducing an exact classical method to replace an underlying quantum subroutine incurring a finite error, while maintaining the same poly-logarithmic dependence. Finally, we showcase that QC-Forest achieves competitive accuracy in comparison to state-of-the-art RF methods on widely used benchmark datasets with up to 80,000 samples, while significantly speeding up the model retrain. | 翻訳日:2024-06-22 00:57:29 公開日:2024-06-20 |
# TutteNet:2次元メッシュ変形の構成によるインジェクティブ3次元変形
TutteNet: Injective 3D Deformations by Composition of 2D Mesh Deformations ( http://arxiv.org/abs/2406.12121v2 ) ライセンス: Link先を確認 | Bo Sun, Thibault Groueix, Chen Song, Qixing Huang, Noam Aigerman, | (参考訳) 本研究は、3次元空間の射影変形の新たな表現法を提案する。これは、不正確さ、頑健さの欠如、一般学習および最適化フレームワークとの非互換性といった、既存の射影的手法の限界を克服するものである。
中心となる考え方は、問題を複数の2Dメッシュベースのピースワイズ線形マップの深い構成に還元することである。
すなわち、3次元体積の複雑な3次元インジェクティブ変形を生成するために、異なる平面上にこれらの層を構成する。
提案手法は, 複雑な変形を効率よく, 正確に最適化し, 学習し, 他のインジェクティブアプローチよりも優れていることを示す。
主な用途として、複雑で人工物のないNeRFおよびSDF変形を生成する。
This work proposes a novel representation of injective deformations of 3D space, which overcomes existing limitations of injective methods: inaccuracy, lack of robustness, and incompatibility with general learning and optimization frameworks. The core idea is to reduce the problem to a deep composition of multiple 2D mesh-based piecewise-linear maps. Namely, we build differentiable layers that produce mesh deformations through Tutte's embedding (guaranteed to be injective in 2D), and compose these layers over different planes to create complex 3D injective deformations of the 3D volume. We show our method provides the ability to efficiently and accurately optimize and learn complex deformations, outperforming other injective approaches. As a main application, we produce complex and artifact-free NeRF and SDF deformations. | 翻訳日:2024-06-22 00:57:29 公開日:2024-06-20 |
# 早期エポックの可能性を解き明かす:不確かさを意識したCT金属アーチファクト削減
Unlocking the Potential of Early Epochs: Uncertainty-aware CT Metal Artifact Reduction ( http://arxiv.org/abs/2406.12186v2 ) ライセンス: Link先を確認 | Xinquan Yang, Guanqun Zhou, Wei Sun, Youjian Zhang, Zhongya Wang, Jiahui He, Zhicheng Zhang, | (参考訳) CT(Computerd tomography)では、患者の金属インプラントの存在は、再建された画像に破壊的なアーティファクトをもたらすことが多く、正確な診断を妨げている。
近年,金属人工物削減 (MAR) のために,多数の教師付き深層学習に基づくアプローチが提案されている。
しかし、これらの方法は初期訓練重量の影響を無視する。
本稿では,初期トレーニング重量の復元結果から得られた不確実性画像が,金属加工品を含む高周波領域を効果的に強調できることを発見した。
この観測は、MARネットワークが金属のアーティファクトを除去するのを助けるために利用することができる。
そこで本研究では,MARネットワークを金属加工領域に集中させるための適応重みとして不確実性画像を利用する不確実性制約(UC)損失を提案する。
提案したUC損失はプラグイン・アンド・プレイ方式として設計されており、任意のMARフレームワークと互換性があり、容易に適用可能である。
UC損失の有効性を検証するため,一般公開のDeeplesionとCLINIC-Mealデータセットについて広範な実験を行った。
実験の結果,UCの損失はネットワークトレーニングプロセスをさらに最適化し,金属加工物の除去を大幅に改善することが示された。
In computed tomography (CT), the presence of metallic implants in patients often leads to disruptive artifacts in the reconstructed images, hindering accurate diagnosis. Recently, a large amount of supervised deep learning-based approaches have been proposed for metal artifact reduction (MAR). However, these methods neglect the influence of initial training weights. In this paper, we have discovered that the uncertainty image computed from the restoration result of initial training weights can effectively highlight high-frequency regions, including metal artifacts. This observation can be leveraged to assist the MAR network in removing metal artifacts. Therefore, we propose an uncertainty constraint (UC) loss that utilizes the uncertainty image as an adaptive weight to guide the MAR network to focus on the metal artifact region, leading to improved restoration. The proposed UC loss is designed to be a plug-and-play method, compatible with any MAR framework, and easily adoptable. To validate the effectiveness of the UC loss, we conduct extensive experiments on the public available Deeplesion and CLINIC-metal dataset. Experimental results demonstrate that the UC loss further optimizes the network training process and significantly improves the removal of metal artifacts. | 翻訳日:2024-06-22 00:57:29 公開日:2024-06-20 |
# 検索機能強化のための統一型アクティブ検索
Unified Active Retrieval for Retrieval Augmented Generation ( http://arxiv.org/abs/2406.12534v2 ) ライセンス: Link先を確認 | Qinyuan Cheng, Xiaonan Li, Shimin Li, Qin Zhu, Zhangyue Yin, Yunfan Shao, Linyang Li, Tianxiang Sun, Hang Yan, Xipeng Qiu, | (参考訳) Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
したがって、回収するかどうかを決定することは、通常Active Retrievalと呼ばれるRAGにとって不可欠である。
しかし、既存のアクティブ検索手法は2つの課題に直面している。
1 通常は、様々な種類の命令を扱うのに苦労する単一の基準に依存する。
2. 特殊・高度に差別化された手順に依存しており,RAGシステムをより複雑にし,応答遅延を増大させる。
これらの課題に対処するため、我々はUnified Active Retrieval (UAR)を提案する。
UARは4つの直交基準を含み、それらをプラグアンドプレイ分類タスクにキャストし、無視可能な余分な推論コストで多面的検索タイミング判定を行う。
さらに、標準化された手順で多様なアクティブ検索シナリオを処理するために設計されたUnified Active Retrieval Criteria (UAR-Criteria)を紹介する。
4種類のユーザインストラクションを用いた実験により,UARは検索タイミング判断や下流タスクのパフォーマンスにおいて,既存の作業よりも大幅に優れており,UARの有効性と下流タスクへの有用性を示している。
In Retrieval-Augmented Generation (RAG), retrieval is not always helpful and applying it to every instruction is sub-optimal. Therefore, determining whether to retrieve is crucial for RAG, which is usually referred to as Active Retrieval. However, existing active retrieval methods face two challenges: 1. They usually rely on a single criterion, which struggles with handling various types of instructions. 2. They depend on specialized and highly differentiated procedures, and thus combining them makes the RAG system more complicated and leads to higher response latency. To address these challenges, we propose Unified Active Retrieval (UAR). UAR contains four orthogonal criteria and casts them into plug-and-play classification tasks, which achieves multifaceted retrieval timing judgements with negligible extra inference cost. We further introduce the Unified Active Retrieval Criteria (UAR-Criteria), designed to process diverse active retrieval scenarios through a standardized procedure. Experiments on four representative types of user instructions show that UAR significantly outperforms existing work on the retrieval timing judgement and the performance of downstream tasks, which shows the effectiveness of UAR and its helpfulness to downstream tasks. | 翻訳日:2024-06-22 00:47:45 公開日:2024-06-20 |
# 病理組織学におけるグラフニューラルネットワークの新たな動向と今後の方向性
Graph Neural Networks in Histopathology: Emerging Trends and Future Directions ( http://arxiv.org/abs/2406.12808v2 ) ライセンス: Link先を確認 | Siemen Brussee, Giorgio Buzzanca, Anne M. R. Schrader, Jesper Kers, | (参考訳) 深層学習,特に畳み込みニューラルネットワーク(CNN)の利用が増加し,全スライド画像(WSI)の病理組織学的解析が進んでいる。
しかし、CNNはWSIに固有の複雑な空間依存を捉えるのに不足することが多い。
グラフニューラルネットワーク(GNN)は、ペアの相互作用を直接モデル化し、WSI内のトポロジ組織と細胞構造を効果的に識別する、有望な代替手段を提供する。
WSIsのトポロジ的構造を利用する深層学習技術の必要性を認識し、GNNsの病理組織学への応用は急速に成長してきた。
本総説では,GNNを病理組織学的に調査し,その応用を議論し,今後の発展への道を開く新たなトレンドを探求する。
まず、GNNの基礎と、その病理組織学への応用を解明することから始める。
定量的文献分析を活用することで,階層型GNN,適応型グラフ構造学習,マルチモーダルGNN,高次GNNの4つのトレンドが明らかになった。
これらの傾向の詳細な調査を通じて、病理組織学的解析において、GNNの進化する景観に関する洞察を提供する。
本研究は,本研究の成果を踏まえ,今後の方向性を推し進めるものである。
我々の分析は、研究者や実践者が革新的なアプローチや方法論を導き、グラフニューラルネットワークのレンズによる病理学的分析の進歩を促進するのに役立つ。
Histopathological analysis of Whole Slide Images (WSIs) has seen a surge in the utilization of deep learning methods, particularly Convolutional Neural Networks (CNNs). However, CNNs often fall short in capturing the intricate spatial dependencies inherent in WSIs. Graph Neural Networks (GNNs) present a promising alternative, adept at directly modeling pairwise interactions and effectively discerning the topological tissue and cellular structures within WSIs. Recognizing the pressing need for deep learning techniques that harness the topological structure of WSIs, the application of GNNs in histopathology has experienced rapid growth. In this comprehensive review, we survey GNNs in histopathology, discuss their applications, and explore emerging trends that pave the way for future advancements in the field. We begin by elucidating the fundamentals of GNNs and their potential applications in histopathology. Leveraging quantitative literature analysis, we identify four emerging trends: Hierarchical GNNs, Adaptive Graph Structure Learning, Multimodal GNNs, and Higher-order GNNs. Through an in-depth exploration of these trends, we offer insights into the evolving landscape of GNNs in histopathological analysis. Based on our findings, we propose future directions to propel the field forward. Our analysis serves to guide researchers and practitioners towards innovative approaches and methodologies, fostering advancements in histopathological analysis through the lens of graph neural networks. | 翻訳日:2024-06-22 00:47:45 公開日:2024-06-20 |
# 熱画像からの物体検出における多モーダル大言語モデルの利用:交通応用
The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications ( http://arxiv.org/abs/2406.13898v1 ) ライセンス: Link先を確認 | Huthaifa I. Ashqar, Taqwa I. Alhadidi, Mohammed Elhenawy, Nour O. Khanfar, | (参考訳) 熱画像データとMLLM(Multimodal Large Language Models)の統合は、自律運転システムと多くのインテリジェントトランスポーテーションシステム(ITS)アプリケーションの安全性と機能を改善するエキサイティングな機会となっている。
本研究では, MLLMがRGBやサーマルカメラの複雑な画像を理解し, 物体を直接検出できるかどうかを検討する。
私たちの目標は
1)MLLMが様々な集合から情報から学習する能力を評価する。
2)熱カメラの物体を検知し、要素を識別する。
3)2つの独立したモダリティ画像が同じ場面を示すか否かを判断し、
4) 異なるモダリティを使って全てのオブジェクトを学習する。
その結果,GPT-4とGeminiは熱画像中の物体の検出と分類に有効であった。
同様に、歩行者分類における平均絶対パーセンテージ誤差(MAPE)は、それぞれ70.39%と81.48%であった。
さらに、自転車、自動車、オートバイ検出用のMAPEはそれぞれ78.4%、55.81%、96.15%であった。
ジェミニは、それぞれ66.53%、59.35%、78.18%のMAPEを生産した。
この発見は、MLLMが熱画像を識別し、ITSアプリケーションのための高度な画像自動化技術に応用できることをさらに示している。
The integration of thermal imaging data with Multimodal Large Language Models (MLLMs) constitutes an exciting opportunity for improving the safety and functionality of autonomous driving systems and many Intelligent Transportation Systems (ITS) applications. This study investigates whether MLLMs can understand complex images from RGB and thermal cameras and detect objects directly. Our goals were to 1) assess the ability of the MLLM to learn from information from various sets, 2) detect objects and identify elements in thermal cameras, 3) determine whether two independent modality images show the same scene, and 4) learn all objects using different modalities. The findings showed that both GPT-4 and Gemini were effective in detecting and classifying objects in thermal images. Similarly, the Mean Absolute Percentage Error (MAPE) for pedestrian classification was 70.39% and 81.48%, respectively. Moreover, the MAPE for bike, car, and motorcycle detection were 78.4%, 55.81%, and 96.15%, respectively. Gemini produced MAPE of 66.53%, 59.35% and 78.18% respectively. This finding further demonstrates that MLLM can identify thermal images and can be employed in advanced imaging automation technologies for ITS applications. | 翻訳日:2024-06-21 17:56:21 公開日:2024-06-20 |
# 色数に基づくマルチビットデコヒーレンスとクロストーク抑制
Efficient Chromatic-Number-Based Multi-Qubit Decoherence and Crosstalk Suppression ( http://arxiv.org/abs/2406.13901v1 ) ライセンス: Link先を確認 | Amy F. Brown, Daniel A. Lidar, | (参考訳) 量子コンピュータの性能はデコヒーレンスとクロストークによって妨げられ、エラーを引き起こし、長い計算を行う能力を制限する。
動的デカップリング(Dynamical Decoupling)は、個々のキュービットに慎重に時間的パルスを適用し、不要な相互作用を効果的に抑制することにより、これらの問題を緩和する手法である。
しかし、量子デバイスのサイズが大きくなるにつれて、システム全体にわたって動的デカップリングを実装するのに必要な時間を最小化することがますます重要になる。
本稿では,任意の量子ビット接続を持つ量子デバイスに対して,動的デカップリングパルスを効率的にスケジュールする手法として,Chromatic-Hadamard Dynamical Decoupling (CHaDD)を提案する。
アダマール行列を利用することで、CHaDDは、瞬時パルスを仮定して、一般的な2ビット相互作用のための接続グラフの色数と4次スケールの回路深さを達成する。
超伝導量子ビットデバイスで一般的なZZクロストークの場合、スケーリングは線形に改善される。
これは、クロマティック数が最も多義的に増加する接続グラフを持つデバイスに対して、以前のマルチキュービットデカップリングスキームよりも指数関数的に改善されたことを意味する。
一定の色数を持つグラフの場合、CHaDDのスケーリングはキュービットの数とは独立である。
この結果から,CHaDDは大規模量子ビットアレイ間のデコヒーレンスやクロストークを効率よく抑制し,量子コンピュータの性能とスケーラビリティを向上させる上で有用なツールとなることが示唆された。
The performance of quantum computers is hindered by decoherence and crosstalk, which cause errors and limit the ability to perform long computations. Dynamical decoupling is a technique that alleviates these issues by applying carefully timed pulses to individual qubits, effectively suppressing unwanted interactions. However, as quantum devices grow in size, it becomes increasingly important to minimize the time required to implement dynamical decoupling across the entire system. Here, we present "Chromatic-Hadamard Dynamical Decoupling" (CHaDD), an approach that efficiently schedules dynamical decoupling pulses for quantum devices with arbitrary qubit connectivity. By leveraging Hadamard matrices, CHaDD achieves a circuit depth that scales quadratically with the chromatic number of the connectivity graph for general two-qubit interactions, assuming instantaneous pulses. For the common case of ZZ crosstalk, which is prevalent in superconducting qubit devices, the scaling improves to linear. This represents an exponential improvement over all previous multi-qubit decoupling schemes for devices with connectivity graphs whose chromatic number grows at most polylogarithmically with the number of qubits. For graphs with a constant chromatic number, CHaDD's scaling is independent of the number of qubits. Our results suggest that CHaDD can become a useful tool for enhancing the performance and scalability of quantum computers by efficiently suppressing decoherence and crosstalk across large qubit arrays. | 翻訳日:2024-06-21 17:56:21 公開日:2024-06-20 |
# 教育におけるアクティブラーニングの促進のためのジェネレーティブAI:カスタムテスト質問におけるGPT-3.5とGPT-4の比較研究
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions ( http://arxiv.org/abs/2406.13903v1 ) ライセンス: Link先を確認 | Hamdireza Rouzegar, Masoud Makrehchi, | (参考訳) 本研究では, LLM, 特に GPT-3.5 と GPT-4 が, 能動的学習原理に則って, 9級数学に適した質問をいかに展開できるかを検討する。
反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
この研究の新たな側面は、GPT-4を「教師」として使用して複雑な質問を発生させ、GPT-3.5を「学生」としてこれらの課題に対処することであった。
このセットアップはアクティブな学習を反映し、より深いエンゲージメントを促進する。
以上の結果から, GPT-4の精度, 課題発生能力, GPT-3.5がGPT-4から指示を受けた後, より複雑な問題に対処できることが示唆された。
これらの結果は、LLMがアクティブな学習シナリオを模倣し、拡張する可能性を強調し、カスタマイズされた教育におけるAIにとって有望なパスを提供する。
この研究は、AIがパーソナライズされた学習体験をどのようにサポートするかを理解することに貢献し、様々な教育的文脈におけるさらなる探索の必要性を強調している。
This study investigates how LLMs, specifically GPT-3.5 and GPT-4, can develop tailored questions for Grade 9 math, aligning with active learning principles. By utilizing an iterative method, these models adjust questions based on difficulty and content, responding to feedback from a simulated 'student' model. A novel aspect of the research involved using GPT-4 as a 'teacher' to create complex questions, with GPT-3.5 as the 'student' responding to these challenges. This setup mirrors active learning, promoting deeper engagement. The findings demonstrate GPT-4's superior ability to generate precise, challenging questions and notable improvements in GPT-3.5's ability to handle more complex problems after receiving instruction from GPT-4. These results underscore the potential of LLMs to mimic and enhance active learning scenarios, offering a promising path for AI in customized education. This research contributes to understanding how AI can support personalized learning experiences, highlighting the need for further exploration in various educational contexts | 翻訳日:2024-06-21 17:56:21 公開日:2024-06-20 |
# 主観的判断における生成自由テキスト・ラショナルの説得性:ペアワイズ・アゲージメント・ランクリングを事例として
Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking ( http://arxiv.org/abs/2406.13905v1 ) ライセンス: Link先を確認 | Mohamed Elaraby, Diane Litman, Xiang Lorraine Li, Ahmed Magooda, | (参考訳) 自由文論理の生成は、Large Language Models(LLMs)の創発的な機能のひとつだ。
これらの理論的根拠は、様々なNLPタスクにおけるLLM性能を向上させることが見出されている。
近年、様々な重要な下流タスクに対する洞察を提供するためにこれらの理論的手法を使うことへの関心が高まっている。
本稿では,主観的回答をもつタスクにおいて生成した自由文有理を解析し,そのようなシナリオにおける有理化の重要性を強調した。
議論支援のような現実世界のアプリケーションにとって大きな可能性を秘めている、非常に主観的な課題である、ペアワイズな議論ランキングに焦点を当てる。
主観的選択を支援するため,9つのLCMが生成する有理性の説得性を評価した。
以上の結果から,オープンソースのLLM,特にLlama2-70B-chatは,GPTモデルよりも高い説得力を持った合理化を実現できることが示唆された。
さらに,本実験では,自己補充の促進,あるいは自己補充によるパラメータ制御により,合理的説得性を向上できることが示唆された。
Generating free-text rationales is among the emergent capabilities of Large Language Models (LLMs). These rationales have been found to enhance LLM performance across various NLP tasks. Recently, there has been growing interest in using these rationales to provide insights for various important downstream tasks. In this paper, we analyze generated free-text rationales in tasks with subjective answers, emphasizing the importance of rationalization in such scenarios. We focus on pairwise argument ranking, a highly subjective task with significant potential for real-world applications, such as debate assistance. We evaluate the persuasiveness of rationales generated by nine LLMs to support their subjective choices. Our findings suggest that open-source LLMs, particularly Llama2-70B-chat, are capable of providing highly persuasive rationalizations, surpassing even GPT models. Additionally, our experiments show that rationale persuasiveness can be improved by controlling its parameters through prompting or through self-refinement. | 翻訳日:2024-06-21 17:56:21 公開日:2024-06-20 |
# モデルミス種別と高次元データを用いた半教師付き回帰分析
Semi-supervised Regression Analysis with Model Misspecification and High-dimensional Data ( http://arxiv.org/abs/2406.13906v1 ) ライセンス: Link先を確認 | Ye Tian, Peng Wu, Zhiqiang Tan, | (参考訳) 大量のラベルのないデータのアクセシビリティは、半教師付き学習(SSL)と共変量移行学習(CSTL)への関心が高まっている。
本稿では,SSLおよびCSTL設定の条件付き平均モデルの回帰係数を推定するフレームワークを提案する。
我々は,PSとORモデルの両方に正規化キャリブレーションを用いた回帰逆確率重み付け法(AIPW)を開発し,PSとORモデルに逐次依存する。
我々は,PSモデルが正しく特定された場合,提案した推定器は,ORモデルの誤特定や高次元データであっても,整合性,漸近正規性,有効信頼区間を達成できることを示す。
さらに,詳細な技術選択を抑えることで,従来の手法をAIPWフレームワークに統合できることを実証する。
我々の理論的な知見は、広範囲なシミュレーション研究と実世界のデータ応用を通して検証される。
The accessibility of vast volumes of unlabeled data has sparked growing interest in semi-supervised learning (SSL) and covariate shift transfer learning (CSTL). In this paper, we present an inference framework for estimating regression coefficients in conditional mean models within both SSL and CSTL settings, while allowing for the misspecification of conditional mean models. We develop an augmented inverse probability weighted (AIPW) method, employing regularized calibrated estimators for both propensity score (PS) and outcome regression (OR) nuisance models, with PS and OR models being sequentially dependent. We show that when the PS model is correctly specified, the proposed estimator achieves consistency, asymptotic normality, and valid confidence intervals, even with possible OR model misspecification and high-dimensional data. Moreover, by suppressing detailed technical choices, we demonstrate that previous methods can be unified within our AIPW framework. Our theoretical findings are verified through extensive simulation studies and a real-world data application. | 翻訳日:2024-06-21 17:56:21 公開日:2024-06-20 |
# レーザー脱離, バッファガス冷却C$_{60}$における全コントラスト型ボース・アインシュタイン統計の観測
Observation of full contrast icosahedral Bose-Einstein statistics in laser desorbed, buffer gas cooled C$_{60}$ ( http://arxiv.org/abs/2406.13907v1 ) ライセンス: Link先を確認 | Ya-Chu Chan, Lee R. Liu, Andrew Scheck, David J. Nesbitt, Jun Ye, Dina Rosenberg, | (参考訳) 球面上分子の量子力学的性質は、低角運動量量子数 J において特に顕著である。 バッファーガスの8.4$\mu$mの可解帯域を冷却した$^{12}$C$_{60}$ で赤外分光を用いて、分子の完全なイコサヘドラル対称性と同一のボソニック核による特定の遷移の完全な消失を含む、ヒッヘルト未確認R(J = 0 - 29)回転進行を観察する。
極端に弱いC$_{60}$吸収の観察は、レーザー脱離C$_{60}$蒸気源によって促進される。
この技術は、C$_{60}$や他の大きなガス相分子をはるかに低い温度に冷却する方法を舗装し、スペクトル分解能と感度の継続的な進歩をもたらす。
The quantum mechanical nature of spherical top molecules is particularly evident at low angular momentum quantum number J. Using infrared spectroscopy on the 8.4$\mu$m rovibrational band of buffer gas cooled $^{12}$C$_{60}$, we observe the hitherto unseen R(J = 0 - 29) rotational progression, including the complete disappearance of certain transitions due to the molecule's perfect icosahedral symmetry and identical bosonic nuclei. The observation of extremely weak C$_{60}$ absorption is facilitated by a laser desorption C$_{60}$ vapor source, which transfers 1000-fold less heat to the cryogenic buffer gas cell than a traditional oven source. This technique paves the way to cooling C$_{60}$ and other large gas phase molecules to much lower temperatures, providing continued advances for spectral resolution and sensitivity. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 最適化を超えて - 部分的に観察可能なリワードによる探索
Beyond Optimism: Exploration With Partially Observable Rewards ( http://arxiv.org/abs/2406.13909v1 ) ライセンス: Link先を確認 | Simone Parisi, Alireza Kazemipour, Michael Bowling, | (参考訳) 強化学習(RL)の探索は依然としてオープンな課題である。
RLアルゴリズムはエージェントを訓練するために報酬を観察することに依存しており、情報的な報酬が不足している場合、エージェントはゆっくりと学習するか、全く学習しない可能性がある。
探索と報酬発見を改善するために、人気のあるアルゴリズムは楽観主義に依存している。
しかし、もし報酬が観測不可能な場合、例えば、盗賊による部分的な監視の状況や、監視されたマルコフ決定プロセスの最近のフォーマリズムはどうだろう?
この場合、楽観主義は、不確実性を崩壊させるためのさらなる探索を行わない、最適以下の行動を引き起こす可能性がある。
本稿では,既存の手法の限界を克服し,報酬が常に観測可能であるとは限らない場合でも,最適政策への収束を保証する新しい探索戦略を提案する。
さらに,RLにおける探索のベンチマークを行うための表環境の集合を提案し,その手法が既存手法よりも優れていることを示す。
Exploration in reinforcement learning (RL) remains an open challenge. RL algorithms rely on observing rewards to train the agent, and if informative rewards are sparse the agent learns slowly or may not learn at all. To improve exploration and reward discovery, popular algorithms rely on optimism. But what if sometimes rewards are unobservable, e.g., situations of partial monitoring in bandits and the recent formalism of monitored Markov decision process? In this case, optimism can lead to suboptimal behavior that does not explore further to collapse uncertainty. With this paper, we present a novel exploration strategy that overcomes the limitations of existing methods and guarantees convergence to an optimal policy even when rewards are not always observable. We further propose a collection of tabular environments for benchmarking exploration in RL (with and without unobservable rewards) and show that our method outperforms existing ones. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 表現豊かさからバイアスへ - 生成的画像キャプチャー強化の暗面から
From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment ( http://arxiv.org/abs/2406.13912v1 ) ライセンス: Link先を確認 | Yusuke Hirota, Ryo Hachiuma, Chao-Han Huck Yang, Yuta Nakashima, | (参考訳) 大型言語モデル(LLM)は視覚テキストをキャプションする視覚言語モデルの能力を高めた。
画像キャプションのリッチ化に対するこの生成的アプローチは、テキストキャプションをより記述的にし、視覚的コンテキストとの整合性を改善する。
しかし、多くの研究は、生成キャプションエンリッチメント(GCE)の利点に焦点を当てているが、否定的な副作用はあるのか?
ジェンダーバイアス」と「ハロシン化」の観点から、標準形式キャプションと近年のGCEプロセスを比較し、豊かなキャプションはジェンダーバイアスと幻覚の増大に悩まされていることを示す。
さらに、これらの豊かなキャプションで訓練されたモデルは、平均30.9%の性別バイアスを増幅し、幻覚を59.5%増加させる。
この研究は、キャプションをより説明力のあるものにする傾向に対して注意を払っている。
Large language models (LLMs) have enhanced the capacity of vision-language models to caption visual text. This generative approach to image caption enrichment further makes textual captions more descriptive, improving alignment with the visual context. However, while many studies focus on benefits of generative caption enrichment (GCE), are there any negative side effects? We compare standard-format captions and recent GCE processes from the perspectives of "gender bias" and "hallucination", showing that enriched captions suffer from increased gender bias and hallucination. Furthermore, models trained on these enriched captions amplify gender bias by an average of 30.9% and increase hallucination by 59.5%. This study serves as a caution against the trend of making captions more descriptive. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 複数の地上ノードと衛星との接続に適した再構成可能な絡み合い分布ネットワーク
A reconfigurable entanglement distribution network suitable for connecting multiple ground nodes with a satellite ( http://arxiv.org/abs/2406.13916v1 ) ライセンス: Link先を確認 | Stéphane Vinet, Ramy Tannous, Thomas Jennewein, | (参考訳) 異なる大都市圏の量子ネットワーク間の長い距離を埋める方法は、数千kmの衛星で実現されている。
したがって、地上ノードと衛星との接続を確立するための効率的なアプローチの開発は、重要な次のステップである。
短距離衛星通過中、地上ネットワークは、すべての地上ノードが衛星受信機との絡み合いを確立するマルチポイント・ツー・ポイント・トポロジーとして構成される。
この衛星が利用できない場合、衛星アップリンクは1つの光スイッチで地上ノードに再送信され、ネットワークはペアの地上ネットワークとして構成される。
我々はパルス超絡み合った光子源を数値シミュレーションし、提案した量子鍵分布のネットワーク構成の性能について検討する。
地上ノードが周波数多重化を利用するのに対し、衛星受信機が時間多重化を利用する場合のリソースオーバーヘッドは好ましい。
その結果,両構成で高いキーレートとスケーラブルなキーレートが達成できた。
スケーラビリティ、簡単な再構成性、およびファイバーネットワークとの容易な統合により、このアーキテクチャは多くの地上ノードと衛星の量子通信において有望な候補となり、地球規模での地上ノードの相互接続への道を開いた。
Bridging the long distances between different metropolitan-scale quantum networks is currently best achieved using satellites, which can cover thousands of kilometres. The development of efficient approaches to establish connectivity between ground nodes and a satellite is therefore an essential next step. We propose a network with dual-functionality: during a brief satellite pass, the ground network is configured as a multipoint-to-point topology where all ground nodes establish entanglement with a satellite receiver. During times when this satellite is not available, the satellite up-link is rerouted via a single optical switch to the ground nodes, and the network is configured as a pair-wise ground network. We numerically simulate a pulsed hyper-entangled photon source and study the performance of the proposed network configurations for quantum key distribution. We find favourable resource overheads in the case that the satellite receiver exploits time-multiplexing whereas the ground nodes utilize frequency-multiplexing. Our results show high and scalable key rates can be achieved in both configurations. The scalability, simple reconfigurability, and easy integration with fibre networks make this architecture a promising candidate for quantum communication of many ground nodes and a satellite thus paving the way towards interconnection of ground nodes at a global scale. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# SPL: 大規模言語モードによる学習のためのソクラテス的プレイグラウンド
SPL: A Socratic Playground for Learning Powered by Large Language Mode ( http://arxiv.org/abs/2406.13919v1 ) ライセンス: Link先を確認 | Liang Zhang, Jionghao Lin, Ziyi Kuang, Sheng Xu, Mohammed Yeasin, Xiangen Hu, | (参考訳) 対話型知能学習システム(ITS)は,対話型対話における高度な人間の学習戦略を自動化し,適応的かつパーソナライズされた学習を実現している。
しかし、専門家によるコミュニケーションの微妙なパターンを再現することは、自然言語処理(NLP)の課題である。
NLPの最近の進歩、特にOpenAIのGPT-4のようなLarge Language Models(LLMs)は、広範な事前訓練された知識に基づいて、人間のような、コンテキスト対応の応答を提供することによって、有望なソリューションを提供する。
本研究は,学習者間の批判的思考を促進するために,GPT-4モデルを用いた対話型教材であるSPL(Socratic Playground for Learning)を導入する。
広範なプロンプトエンジニアリングにより、SPLは特定の学習シナリオを生成し、効率的なマルチターン学習対話を容易にする。
SPLシステムは、個人のニーズに合わせてパーソナライズされた適応的な学習体験を強化することを目的としており、特に批判的思考スキルの改善に焦点を当てている。
筆者らは,エッセイ作成タスクによる実験実験の結果,SPLが学習者間の相互作用を改善し,対話に基づくIT機能をさらに強化する可能性を実証した。
SPLによって実証された本研究は,LLMが対話型ITSをいかに拡張し,教育技術のアクセシビリティと有効性を高めるかを示す。
Dialogue-based Intelligent Tutoring Systems (ITSs) have significantly advanced adaptive and personalized learning by automating sophisticated human tutoring strategies within interactive dialogues. However, replicating the nuanced patterns of expert human communication remains a challenge in Natural Language Processing (NLP). Recent advancements in NLP, particularly Large Language Models (LLMs) such as OpenAI's GPT-4, offer promising solutions by providing human-like and context-aware responses based on extensive pre-trained knowledge. Motivated by the effectiveness of LLMs in various educational tasks (e.g., content creation and summarization, problem-solving, and automated feedback provision), our study introduces the Socratic Playground for Learning (SPL), a dialogue-based ITS powered by the GPT-4 model, which employs the Socratic teaching method to foster critical thinking among learners. Through extensive prompt engineering, SPL can generate specific learning scenarios and facilitates efficient multi-turn tutoring dialogues. The SPL system aims to enhance personalized and adaptive learning experiences tailored to individual needs, specifically focusing on improving critical thinking skills. Our pilot experimental results from essay writing tasks demonstrate SPL has the potential to improve tutoring interactions and further enhance dialogue-based ITS functionalities. Our study, exemplified by SPL, demonstrates how LLMs enhance dialogue-based ITSs and expand the accessibility and efficacy of educational technologies. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 説明可能なAIセキュリティ: 敵攻撃に対するグラフニューラルネットワークのロバスト性を探る
Explainable AI Security: Exploring Robustness of Graph Neural Networks to Adversarial Attacks ( http://arxiv.org/abs/2406.13920v1 ) ライセンス: Link先を確認 | Tao Wu, Canyixing Cui, Xingping Xian, Shaojie Qiao, Chao Wang, Lin Yuan, Shui Yu, | (参考訳) グラフニューラルネットワーク(GNN)は大きな成功を収めていますが、近年の研究により、GNNは敵の攻撃に弱いことが示されています。
そのため、堅牢なGNNの設計が注目されている。
しかし、既存の研究は主に実験と誤りによって行われており、これまでのところ、GNNの脆弱性に関する包括的理解の欠如が残っている。
この制限に対処するために、グラフデータパターン、モデル固有の要因、および敵の例の転送可能性を考慮することにより、GNNの対向ロバスト性について体系的に検討する。
広範な実験を通じて、例えば、GNNの対向的堅牢性を改善するための一連の原則化されたガイドラインが得られた。
(i) 高度に正規なグラフではなく、多様な構造パターンを持つグラフデータのトレーニングは、逆トレーニングの概念と整合性のあるモデルロバストネスに不可欠である。
(II)十分なトレーニングデータを持つGNNのモデル容量はモデル堅牢性に正の影響を及ぼし、GNNのニューロンのごく一部が敵の攻撃によって影響を受ける。
三 逆転は対称ではなく、小容量モデルによる逆転の例は、より強い逆転率を持つ。
この作業は、GNNの脆弱性を照らし、堅牢なGNNを設計するための多くの有望な道を開く。
Graph neural networks (GNNs) have achieved tremendous success, but recent studies have shown that GNNs are vulnerable to adversarial attacks, which significantly hinders their use in safety-critical scenarios. Therefore, the design of robust GNNs has attracted increasing attention. However, existing research has mainly been conducted via experimental trial and error, and thus far, there remains a lack of a comprehensive understanding of the vulnerability of GNNs. To address this limitation, we systematically investigate the adversarial robustness of GNNs by considering graph data patterns, model-specific factors, and the transferability of adversarial examples. Through extensive experiments, a set of principled guidelines is obtained for improving the adversarial robustness of GNNs, for example: (i) rather than highly regular graphs, the training graph data with diverse structural patterns is crucial for model robustness, which is consistent with the concept of adversarial training; (ii) the large model capacity of GNNs with sufficient training data has a positive effect on model robustness, and only a small percentage of neurons in GNNs are affected by adversarial attacks; (iii) adversarial transfer is not symmetric and the adversarial examples produced by the small-capacity model have stronger adversarial transferability. This work illuminates the vulnerabilities of GNNs and opens many promising avenues for designing robust GNNs. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# マルチボディーブロッホ振動による量子増強感度
Quantum Enhanced Sensitivity through Many-Body Bloch Oscillations ( http://arxiv.org/abs/2406.13921v1 ) ライセンス: Link先を確認 | Hassan Manshouri, Moslem Zarei, Mehdi Abdi, Sougato Bose, Abolfazl Bayat, | (参考訳) ブロッホ振動を示す量子系における非平衡力学の知覚能力について検討する。
量子フィッシャー情報によって定量化されたプローブの資源効率に焦点をあてることで、2つの異なる位相、すなわち局所化と拡張のスケーリングの挙動が分かる。
この結果は、時間、プローブサイズ、励起数の観点から量子フィッシャー情報に対する定量的アンサッツを提供する。
長年の状況では、量子フィッシャー情報は時間の二次関数であり、ハイゼンベルク極限に触れる。
システムサイズのスケーリングは、拡張フェーズにおけるスーパーハイゼンベルクスケーリングから、ローカライズフェーズにおけるサイズ非依存の挙動に大きく依存する。
さらに、励起数の増加は、常にプローブの精度を高めるが、相互作用系では、励起間の相互作用によって誘導される局所化に起因する非相互作用プローブよりも強調が顕著になる。
We investigate the sensing capacity of non-equilibrium dynamics in quantum systems exhibiting Bloch oscillations. By focusing on resource efficiency of the probe, quantified by quantum Fisher information, we find different scaling behaviors in two different phases, namely localized and extended. Our results provide a quantitative ansatz for quantum Fisher information in terms of time, probe size, and the number of excitations. In the long-time regime, the quantum Fisher information is a quadratic function of time, touching the Heisenberg limit. The system size scaling drastically depends on the phase changing from super-Heisenberg scaling in the extended phase to size-independent behavior in the localized phase. Furthermore, increasing the number of excitations always enhances the precision of the probe, although, in the interacting systems the enhancement becomes less eminent than the non-interacting probes, which is due to induced localization by interaction between excitations. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# PIN: Paired and Interleaved Multimodal Documentsのための知識集約型データセット
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents ( http://arxiv.org/abs/2406.13923v1 ) ライセンス: Link先を確認 | Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen, | (参考訳) 大規模マルチモーダルモデル(LMM)の最近の進歩は、複雑な知識駆動タスクの能力を高めるために、広範囲なマルチモーダルデータセットを活用している。
しかし、知覚的および推論的誤りにおける永続的な課題は、特に複雑な視覚的データを解釈し、マルチモーダルな関係を推論する際の有効性を制限している。
これらの課題に対処するため、我々は、マルチモーダルトレーニングの深さと幅の両方を大幅に改善するために、新しいデータセットフォーマットであるPIN(Paired and Interleaved multimodal document)を導入する。
PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
このイノベーティブなフォーマットは、マークダウンファイルと包括的イメージを組み合わせて、トレーニングデータを高密度な知識構造と汎用的なトレーニング戦略で強化する。
PIN-14Mは中国語と英語の多様な情報源から得られた1400万のサンプルからなるオープンソースのデータセットであり、複雑なウェブや科学的な内容を含むように調整されている。
このデータセットは、データ品質と倫理的整合性を確保するために慎重に構築され、高度なトレーニング戦略を促進し、一般的なマルチモーダルトレーニングの落とし穴に対するモデル堅牢性を改善することを目的としている。
本研究の成果は,LMMの性能改善におけるPINフォーマットの有意な可能性を示唆するものであり,今後の拡張計画とモデル機能への影響を詳細に評価するものである。
Recent advancements in Large Multimodal Models (LMMs) have leveraged extensive multimodal datasets to enhance capabilities in complex knowledge-driven tasks. However, persistent challenges in perceptual and reasoning errors limit their efficacy, particularly in interpreting intricate visual data and deducing multimodal relationships. Addressing these issues, we introduce a novel dataset format, PIN (Paired and INterleaved multimodal documents), designed to significantly improve both the depth and breadth of multimodal training. The PIN format is built on three foundational principles: knowledge intensity, scalability, and support for diverse training modalities. This innovative format combines markdown files and comprehensive images to enrich training data with a dense knowledge structure and versatile training strategies. We present PIN-14M, an open-source dataset comprising 14 million samples derived from a diverse range of Chinese and English sources, tailored to include complex web and scientific content. This dataset is constructed meticulously to ensure data quality and ethical integrity, aiming to facilitate advanced training strategies and improve model robustness against common multimodal training pitfalls. Our initial results, forming the basis of this technical report, suggest significant potential for the PIN format in refining LMM performance, with plans for future expansions and detailed evaluations of its impact on model capabilities. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# GenderAlign: 大規模言語モデルにおけるジェンダーバイアスの緩和のためのアライメントデータセット
GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models ( http://arxiv.org/abs/2406.13925v1 ) ライセンス: Link先を確認 | Tao Zhang, Ziqian Zeng, Yuxiang Xiao, Huiping Zhuang, Cen Chen, James Foulds, Shimei Pan, | (参考訳) 大きな言語モデル(LLM)は、性バイアスを示すコンテンツを生成する傾向があり、重大な倫理的懸念を引き起こす。
アライメント(Alignment)は、所望の行動に合わせて微調整されたLCMのプロセスであり、ジェンダーバイアスを緩和するための効果的なアプローチとして認識されている。
プロプライエタリなLSMは性バイアスを軽減するために大きな進歩を遂げているが、アライメントデータセットは公開されていない。
一般的に使われ、公開されているアライメントデータセットであるHH-RLHFは、まだある程度の性別バイアスを呈している。
性別バイアスに対処するために特別に設計されたアライメントデータセットが公開されていない。
そこで我々は,LLMにおけるジェンダーバイアスの包括的緩和を目的とした,GenderAlignという新しいデータセットを開発した。
このデータセットは8kのシングルターンダイアログで構成され、それぞれに "chosen" と "rejected" の応答がペアリングされている。
拒絶された」反応と比較すると、「ちょうせん」反応は性バイアスのレベルが低く、より高い品質を示す。
さらに、ジェンダーアリンの「拒絶」反応における性別バイアスを4つの主要カテゴリに分類した。
実験の結果,LDMにおける性差の低減にGenderAlignが有効であることが示された。
Large Language Models (LLMs) are prone to generating content that exhibits gender biases, raising significant ethical concerns. Alignment, the process of fine-tuning LLMs to better align with desired behaviors, is recognized as an effective approach to mitigate gender biases. Although proprietary LLMs have made significant strides in mitigating gender bias, their alignment datasets are not publicly available. The commonly used and publicly available alignment dataset, HH-RLHF, still exhibits gender bias to some extent. There is a lack of publicly available alignment datasets specifically designed to address gender bias. Hence, we developed a new dataset named GenderAlign, aiming at mitigating a comprehensive set of gender biases in LLMs. This dataset comprises 8k single-turn dialogues, each paired with a "chosen" and a "rejected" response. Compared to the "rejected" responses, the "chosen" responses demonstrate lower levels of gender bias and higher quality. Furthermore, we categorized the gender biases in the "rejected" responses of GenderAlign into 4 principal categories. The experimental results show the effectiveness of GenderAlign in reducing gender bias in LLMs. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# バナッハ空間間の正則作用素の最適深度学習
Optimal deep learning of holomorphic operators between Banach spaces ( http://arxiv.org/abs/2406.13928v1 ) ライセンス: Link先を確認 | Ben Adcock, Nick Dexter, Sebastian Moraga, | (参考訳) 演算子学習問題は、物理系をモデル化するために部分微分方程式(PDE)が用いられる科学計算の多くの重要な領域で発生する。
そのような場合、作用素はバナッハ空間とヒルベルト空間の間を写像する。
本研究では,バナッハ空間間の学習作用素の問題を,ヒルベルト空間のみを考慮した過去の研究の大半とは対照的に解決する。
我々は正則作用素の学習に焦点をあてる - 多くのアプリケーションにおいて重要な問題のクラスである。
任意の近似エンコーダとデコーダを標準フィードフォワードディープニューラルネットワーク(DNN)アーキテクチャ(具体的には、深さを超える一定の幅を持つもの)と組み合わせ、標準$\ell^2$-loss最小化する。
まずDNNの族を同定し、結果のディープラーニング(DL)手順がそのような演算子に対して最適な一般化バウンダリを実現する。
標準の完全連結アーキテクチャでは、等価な最適性能をもたらすトレーニング問題の最小化要因が無数にあることを示す。
私たちが考えるDNNアーキテクチャは'problem agnostic'であり、幅と深さはトレーニングデータ$m$の量に依存し、ターゲット演算子の正規性仮定に依存しない。
次に、この問題に対してDLが最適であることを示す。
最後に,パラメトリック拡散,Navier-Stokes-Brinkman,Boussinesq PDEsなどの問題に対する実用性能を示す数値的な結果を示す。
Operator learning problems arise in many key areas of scientific computing where Partial Differential Equations (PDEs) are used to model physical systems. In such scenarios, the operators map between Banach or Hilbert spaces. In this work, we tackle the problem of learning operators between Banach spaces, in contrast to the vast majority of past works considering only Hilbert spaces. We focus on learning holomorphic operators - an important class of problems with many applications. We combine arbitrary approximate encoders and decoders with standard feedforward Deep Neural Network (DNN) architectures - specifically, those with constant width exceeding the depth - under standard $\ell^2$-loss minimization. We first identify a family of DNNs such that the resulting Deep Learning (DL) procedure achieves optimal generalization bounds for such operators. For standard fully-connected architectures, we then show that there are uncountably many minimizers of the training problem that yield equivalent optimal performance. The DNN architectures we consider are `problem agnostic', with width and depth only depending on the amount of training data $m$ and not on regularity assumptions of the target operator. Next, we show that DL is optimal for this problem: no recovery procedure can surpass these generalization bounds up to log terms. Finally, we present numerical results demonstrating the practical performance on challenging problems including the parametric diffusion, Navier-Stokes-Brinkman and Boussinesq PDEs. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 大規模言語モデルは懐疑的である:入力競合型幻覚の偽否定的問題
Large Language Models are Skeptics: False Negative Problem of Input-conflicting Hallucination ( http://arxiv.org/abs/2406.13929v1 ) ライセンス: Link先を確認 | Jongyoon Song, Sangwon Yu, Sungroh Yoon, | (参考訳) 本稿では,大言語モデル (LLM) が入力コンテキストの内容と一致しない応答を生成するという,入力競合幻覚を誘発する新たなバイアスのカテゴリを同定する。
この問題は、文脈が与えられた文の正当性を評価する際に、LCMが負の判断を返すことを前提とする現象を、偽陰性問題と呼ぶ。
同じ情報を含むが矛盾する事実方向を持つ文のペアを含む実験において、LLMが偽陰性に対して偏見を示すことが観察された。
具体的には、モデルがFalseに応答すると、より自信が増す。
さらに, 疑似負問題と文脈, 問合せ書き換えの関係を解析し, LLMにおける疑似負問題に効果的に取り組むことを観察する。
In this paper, we identify a new category of bias that induces input-conflicting hallucinations, where large language models (LLMs) generate responses inconsistent with the content of the input context. This issue we have termed the false negative problem refers to the phenomenon where LLMs are predisposed to return negative judgments when assessing the correctness of a statement given the context. In experiments involving pairs of statements that contain the same information but have contradictory factual directions, we observe that LLMs exhibit a bias toward false negatives. Specifically, the model presents greater overconfidence when responding with False. Furthermore, we analyze the relationship between the false negative problem and context and query rewriting and observe that both effectively tackle false negatives in LLMs. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# ソフトQMIX:単調値関数因子化のための最大エントロピーの統合
Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization ( http://arxiv.org/abs/2406.13930v1 ) ライセンス: Link先を確認 | Wentse Chen, Shiyu Huang, Jeff Schneider, | (参考訳) マルチエージェント強化学習(MARL)タスクは、分散実行(CTDE)フレームワークによる集中的なトレーニングを利用することが多い。
QMIXは,大域的値関数から局所値関数を導出する信用代入関数を学習し,決定論的局所ポリシーを定義するCTDE手法である。
しかし、QMIXは調査戦略の貧弱さによって妨げられている。
最大エントロピー強化学習(英語版)(RL)は確率的政策によるより良い探索を促進するが、QMIXの信用割当プロセスは最大エントロピー目標と分散実行要求と矛盾し、最大エントロピーRLには適さない。
本稿では,最大エントロピーRLフレームワークに局所的なQ値学習を付加することで,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
QMIX値関数の単調性のため、これらの更新は局所最適動作とグローバル最適動作が一致することを保証する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
実験により,行列ゲーム,マルチエージェント粒子環境,およびSMAC-v2における最先端性能の検証を行った。
Multi-agent reinforcement learning (MARL) tasks often utilize a centralized training with decentralized execution (CTDE) framework. QMIX is a successful CTDE method that learns a credit assignment function to derive local value functions from a global value function, defining a deterministic local policy. However, QMIX is hindered by its poor exploration strategy. While maximum entropy reinforcement learning (RL) promotes better exploration through stochastic policies, QMIX's process of credit assignment conflicts with the maximum entropy objective and the decentralized execution requirement, making it unsuitable for maximum entropy RL. In this paper, we propose an enhancement to QMIX by incorporating an additional local Q-value learning method within the maximum entropy RL framework. Our approach constrains the local Q-value estimates to maintain the correct ordering of all actions. Due to the monotonicity of the QMIX value function, these updates ensure that locally optimal actions align with globally optimal actions. We theoretically prove the monotonic improvement and convergence of our method to an optimal solution. Experimentally, we validate our algorithm in matrix games, Multi-Agent Particle Environment and demonstrate state-of-the-art performance in SMAC-v2. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# EnTruth: 最小かつロバストな変化を伴うテキスト・画像拡散モデルにおける無許可データセット使用のトレーサビリティ向上
EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations ( http://arxiv.org/abs/2406.13933v1 ) ライセンス: Link先を確認 | Jie Ren, Yingqian Cui, Chen Chen, Vikash Sehwag, Yue Xing, Jiliang Tang, Lingjuan Lyu, | (参考訳) 生成モデル、特にテキストから画像への拡散モデルは、画像の生成能力、拡張アーキテクチャの恩恵、計算能力の向上、大規模データセットの活用に大きく進歩している。
データセットは重要な役割を果たすが、その保護は未解決の問題として残っている。
透かしや会員推定のような現在の保護戦略は、画像の品質に有害な高毒性率か、低い精度と堅牢性に悩まされている。
本研究では,テンプレートの暗記を利用して,無許可のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 記憶の正当性を調査し, 著作権保護に利用し, 呪文を祝福し, 生成モデルにおける不正使用検出の先駆的な視点を提供する。
データ変換率、精度、堅牢性、生成品質の観点から、その効果を実証するための総合的な実験が提供されている。
Generative models, especially text-to-image diffusion models, have significantly advanced in their ability to generate images, benefiting from enhanced architectures, increased computational power, and large-scale datasets. While the datasets play an important role, their protection has remained as an unsolved issue. Current protection strategies, such as watermarks and membership inference, are either in high poison rate which is detrimental to image quality or suffer from low accuracy and robustness. In this work, we introduce a novel approach, EnTruth, which Enhances Traceability of unauthorized dataset usage utilizing template memorization. By strategically incorporating the template memorization, EnTruth can trigger the specific behavior in unauthorized models as the evidence of infringement. Our method is the first to investigate the positive application of memorization and use it for copyright protection, which turns a curse into a blessing and offers a pioneering perspective for unauthorized usage detection in generative models. Comprehensive experiments are provided to demonstrate its effectiveness in terms of data-alteration rate, accuracy, robustness and generation quality. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 医師としての推論:診断推論プロセスアライメントによる医療対話システムの改善
Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment ( http://arxiv.org/abs/2406.13934v1 ) ライセンス: Link先を確認 | Kaishuai Xu, Yi Cheng, Wenjun Hou, Qiaoyu Tan, Wenjie Li, | (参考訳) 医療対話システムは、医療助手として機能する可能性に対して大きな注目を集めている。
臨床医の診断推論過程をエミュレートするためにこれらの医療システムを導入することが長年の研究課題であった。
従来の研究では,高品質な対話データセットを用いた微調整言語モデルによる臨床医の診断過程のシミュレーションが初歩的に実現された。
それでも、彼らは内的思考プロセスを無視し、臨床医の嗜好と一致しながら、臨床医の推論過程の結果に過度にフォーカスする。
本研究の目的は,臨床医の診断推論プロセスと整合した医療対話システムの構築である。
本稿では,帰納的および帰納的診断推論分析に依拠し,思考過程モデリングによる臨床医の嗜好に適合する適切な応答を生成するための新しいフレームワークであるエミュレーションを提案する。
2つのデータセットの実験結果からエミュレーションの有効性が確認された。
重要な点として、当社の枠組みは、医療相談における透明性を高めるために、発生した反応の明確な説明を提供する。
Medical dialogue systems have attracted significant attention for their potential to act as medical assistants. Enabling these medical systems to emulate clinicians' diagnostic reasoning process has been the long-standing research focus. Previous studies rudimentarily realized the simulation of clinicians' diagnostic process by fine-tuning language models on high-quality dialogue datasets. Nonetheless, they overly focus on the outcomes of the clinician's reasoning process while ignoring their internal thought processes and alignment with clinician preferences. Our work aims to build a medical dialogue system that aligns with clinicians' diagnostic reasoning processes. We propose a novel framework, Emulation, designed to generate an appropriate response that relies on abductive and deductive diagnostic reasoning analyses and aligns with clinician preferences through thought process modeling. Experimental results on two datasets confirm the efficacy of Emulation. Crucially, our framework furnishes clear explanations for the generated responses, enhancing its transparency in medical consultations. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# CONMOD: 制御可能なニューラルフレームに基づく変調効果
CONMOD: Controllable Neural Frame-based Modulation Effects ( http://arxiv.org/abs/2406.13935v1 ) ライセンス: Link先を確認 | Gyubin Lee, Hounsu Kim, Junwon Lee, Juhan Nam, | (参考訳) ディープラーニングモデルは、フェーズラやフランガーといったLFO駆動オーディオエフェクトのモデル化に広く利用されている。
既存のニューラルネットワークアーキテクチャは、個々の効果の高品質なエミュレーションを示すが、制御パラメータを介して出力を操作する能力は持っていない。
この問題に対処するために、制御可能なニューラルネットワークベースの変調効果(CONMOD)を導入し、フレームワイドで様々なLFO駆動効果をエミュレートし、LFO周波数とフィードバックパラメータを制御する単一のブラックボックスモデルを提案する。
さらに、モデルは2つの異なる位相効果の連続的な埋め込み空間を学習し、その効果を操り、創造的な出力を達成することができる。
我々のモデルは、制御性と普遍性を両立させ、現代のLFO駆動オーディオ効果の創造性を向上する機会を提示しながら、過去の作業より優れていた。
Deep learning models have seen widespread use in modelling LFO-driven audio effects, such as phaser and flanger. Although existing neural architectures exhibit high-quality emulation of individual effects, they do not possess the capability to manipulate the output via control parameters. To address this issue, we introduce Controllable Neural Frame-based Modulation Effects (CONMOD), a single black-box model which emulates various LFO-driven effects in a frame-wise manner, offering control over LFO frequency and feedback parameters. Additionally, the model is capable of learning the continuous embedding space of two distinct phaser effects, enabling us to steer between effects and achieve creative outputs. Our model outperforms previous work while possessing both controllability and universality, presenting opportunities to enhance creativity in modern LFO-driven audio effects. | 翻訳日:2024-06-21 17:46:37 公開日:2024-06-20 |
# 分散局所勾配法における通信効率の良い適応バッチサイズ戦略
Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods ( http://arxiv.org/abs/2406.13936v1 ) ライセンス: Link先を確認 | Tim Tsz-Kit Lau, Weijian Li, Chenwei Xu, Han Liu, Mladen Kolar, | (参考訳) 現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
作業者数の増加に伴い,データ並列最小バッチ確率勾配法において,通信オーバーヘッドが主なボトルネックとなる。
Local SGDのような局所勾配法は、いくつかのローカルステップの後にのみ同期することで通信を減少させる。
不均一な設定におけるそれらの収束を理解し、効率と一般化のためのバッチサイズの重要性を知っているにもかかわらず、最適なローカルバッチサイズを決定することは困難である。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
等質なデータ条件下での収束保証と画像分類実験によるクレームの支持を行い、トレーニングと一般化における戦略の有効性を実証する。
Modern deep neural networks often require distributed training with many workers due to their large size. As worker numbers increase, communication overheads become the main bottleneck in data-parallel minibatch stochastic gradient methods with per-iteration gradient synchronization. Local gradient methods like Local SGD reduce communication by only syncing after several local steps. Despite understanding their convergence in i.i.d. and heterogeneous settings and knowing the importance of batch sizes for efficiency and generalization, optimal local batch sizes are difficult to determine. We introduce adaptive batch size strategies for local gradient methods that increase batch sizes adaptively to reduce minibatch gradient variance. We provide convergence guarantees under homogeneous data conditions and support our claims with image classification experiments, demonstrating the effectiveness of our strategies in training and generalization. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# Disti-Mator: 絡み合い蒸留に基づく状態推定器
Disti-Mator: an entanglement distillation-based state estimator ( http://arxiv.org/abs/2406.13937v1 ) ライセンス: Link先を確認 | Joshua Carlo A. Casapao, Ananda G. Maity, Naphan Benchasattabuse, Michal Hajdušek, Rodney Van Meter, David Elkouss, | (参考訳) 実効的な量子情報処理において、状態推定における実験的な労力と貴重な量子リソースの消費の両方を最小化することが不可欠である。
ここでは, エンタングルメント蒸留プロトコルのさらなるメリットとして, 状態のキャラクタリゼーションについて検討する。
本研究では, 確率蒸留プロトコルの測定統計から, 未蒸留状態のベル対角線パラメータを効率的に推定できることを示す。
さらに,現実的な実験環境に特化して設計された状態推定器 ‘Disti-Mator' を導入し,数値シミュレーションによりその堅牢性を示す。
以上の結果から,蒸留が不必要な通信ベースタスクである場合に,別の推定プロトコルを回避できることが示唆された。
Minimizing both experimental effort and consumption of valuable quantum resources in state estimation is vital in practical quantum information processing. Here, we explore characterizing states as an additional benefit of the entanglement distillation protocols. We show that the Bell-diagonal parameters of any undistilled state can be efficiently estimated solely from the measurement statistics of probabilistic distillation protocols. We further introduce the state estimator `Disti-Mator' designed specifically for a realistic experimental setting, and exhibit its robustness through numerical simulations. Our results demonstrate that a separate estimation protocol can be circumvented whenever distillation is an indispensable communication-based task. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression Guided Video Segmentation
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation ( http://arxiv.org/abs/2406.13939v1 ) ライセンス: Link先を確認 | Bin Cao, Yisi Zhang, Xuanxu Lin, Xingjian He, Bo Zhao, Jing Liu, | (参考訳) Motion Expression Guided Video Segmentationは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
従来の参照ビデオオブジェクトセグメンテーション(RVOS)とは異なり、このタスクは言語誘導ビデオオブジェクトセグメンテーションのためのビデオコンテンツの動きをより重視し、より時間的、動き指向の視覚言語データをモデル化する能力を必要とする。
本稿では, RVOS法に基づいて, 時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を導入し, 空間改善のためのSAMを用いた。
最後に, CVPR 2024 PVUW Challengeにおいて, 試験段階では49.92 J &F, 試験段階では54.20 J &Fのスコアを達成し, CVPR 2024 PVUW ChallengeでMeViSトラックの2位となった。
Motion Expression guided Video Segmentation is a challenging task that aims at segmenting objects in the video based on natural language expressions with motion descriptions. Unlike the previous referring video object segmentation (RVOS), this task focuses more on the motion in video content for language-guided video object segmentation, requiring an enhanced ability to model longer temporal, motion-oriented vision-language data. In this report, based on the RVOS methods, we successfully introduce mask information obtained from the video instance segmentation model as preliminary information for temporal enhancement and employ SAM for spatial refinement. Finally, our method achieved a score of 49.92 J &F in the validation phase and 54.20 J &F in the test phase, securing the final ranking of 2nd in the MeViS Track at the CVPR 2024 PVUW Challenge. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# AutoCAP:Zero-shot-of-Thoughtのための言語間自動アライメント計画に向けて
AutoCAP: Towards Automatic Cross-lingual Alignment Planning for Zero-shot Chain-of-Thought ( http://arxiv.org/abs/2406.13940v1 ) ライセンス: Link先を確認 | Yongheng Zhang, Qiguang Chen, Min Li, Wanxiang Che, Libo Qin, | (参考訳) 言語間の連鎖は、言語間の推論タスクを効果的に完了させ、注目を集める。
近年,言語間アライメントの能力向上のために,言語間アライメントが主流となっている。
1) 手動言語仕様: 統合する言語を手動で選択することに強く依存しており、その一般化可能性に深刻な影響を与えている。
実際、異なる言語推論パスは、より良い補完と統合を達成するために異なる重みを持つべきである。
このような課題に対処するために,ゼロショットチェーン・オブ・シークレットのための自動言語アライメント計画(AutoCAP)を導入する。
AutoCAPのコアは,(1)LLMを適切な言語に誘導する自動言語選択法,(2)アライメントウェイトスコアを各推論経路に自動的に割り当てる自動重み付け法である。
いくつかのベンチマークでの大規模な実験により、AutoCAPは手作業を必要とする従来の手法を超越して最先端のパフォーマンスを達成していることが明らかになった。
Cross-lingual chain-of-thought can effectively complete reasoning tasks across languages, which gains increasing attention. Recently, dominant approaches in the literature improve cross-lingual alignment capabilities by integrating reasoning knowledge from different languages. Despite achieving excellent performance, current methods still have two main challenges: (1) Manual language specification: They still highly rely on manually selecting the languages to integrate, severely affecting their generalizability; (2) Static weight allocation: Current methods simply integrate all languages equally. In fact, different language reasoning paths should have different weights to achieve better complementation and integration. Motivated by this, we introduce an Automatic Cross-lingual Alignment Planning (AutoCAP) for zero-shot chain-of-thought to address the above challenges. The core of AutoCAP consists of two components: (1) Automatic Language Selection Prompting to guide LLMs to select appropriate languages and (2) Automatic Weight Allocation Prompting to automatically allocate alignment weight scores to each reasoning path. Extensive experiments on several benchmarks reveal that AutoCAP achieves state-of-the-art performance, surpassing previous methods that required manual effort. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# UpDLRM: 実世界のPIMアーキテクチャを用いたパーソナライズドレコメンデーションの高速化
UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture ( http://arxiv.org/abs/2406.13941v1 ) ライセンス: Link先を確認 | Sitian Chen, Haobin Tan, Amelie Chi Zhou, Yusen Li, Pavan Balaji, | (参考訳) DLRM(Deep Learning Recommendation Models)は、大規模レコメンデーションタスクの処理に有効であることから、レコメンデーションシステムで人気を集めている。
DLRMの埋め込み層は、メモリ容量とメモリ帯域幅に強いニーズがあるため、パフォーマンスのボトルネックになっている。
本稿では,実世界のプロセッシングインメモリ(PIM)ハードウェアである UPMEM DPU を用いて,メモリ帯域幅の増大とレコメンデーション遅延の低減を図る UpDLRM を提案する。
DPUメモリの並列性は、埋め込みルックアップにおける多数の不規則メモリアクセスに対して高い集約帯域幅を提供できるため、推論遅延を低減できる可能性がある。
さらに,DPUメモリの帯域幅を十分に活用するために,組込みテーブル分割問題について検討し,作業負荷バランスと効率的なデータキャッシュを実現する。
実世界のデータセットを用いた評価では、UpDLRMは、CPU専用とCPU-GPUハイブリッドのいずれよりもDLRMの推論時間がはるかに低いことが示されている。
Deep Learning Recommendation Models (DLRMs) have gained popularity in recommendation systems due to their effectiveness in handling large-scale recommendation tasks. The embedding layers of DLRMs have become the performance bottleneck due to their intensive needs on memory capacity and memory bandwidth. In this paper, we propose UpDLRM, which utilizes real-world processingin-memory (PIM) hardware, UPMEM DPU, to boost the memory bandwidth and reduce recommendation latency. The parallel nature of the DPU memory can provide high aggregated bandwidth for the large number of irregular memory accesses in embedding lookups, thus offering great potential to reduce the inference latency. To fully utilize the DPU memory bandwidth, we further studied the embedding table partitioning problem to achieve good workload-balance and efficient data caching. Evaluations using real-world datasets show that, UpDLRM achieves much lower inference time for DLRM compared to both CPU-only and CPU-GPU hybrid counterparts. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 予測拡散モデルによるマルチモーダル電子健康記録の合成
Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models ( http://arxiv.org/abs/2406.13942v1 ) ライセンス: Link先を確認 | Yuan Zhong, Xiaochen Wang, Jiaqi Wang, Xiaokun Zhang, Yaqing Wang, Mengdi Huai, Cao Xiao, Fenglong Ma, | (参考訳) 電子健康記録(EHR)データの合成は、データの不足に対処し、データ品質を改善し、医療の公平性をモデル化する戦略として好まれている。
しかし、既存のEHRデータ生成のアプローチは、主に、生成逆数ネットワーク、変分オートエンコーダ、言語モデルのような最先端の生成技術に依存している。
これらの手法は典型的には、入力訪問を複製し、訪問者間の時間的依存関係のモデリングが不十分になり、EHRデータにおいて重要な要素である時間情報の生成を見渡すことになる。
さらに、単純な線形写像関数により、訪問表現の学習能力が制限され、生成品質が向上する。
これらの制約に対処するため,我々はERHPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
生成品質と多様性を向上させるため,新しい時間認識型ビジター埋め込みモジュールと先駆的予測型拡散確率モデル(PDDPM)を導入する。
さらに、P-DDPMを最適化するために予測U-Net(PU-Net)を考案し、2つの公開データセットで実験を行い、忠実さ、プライバシ、ユーティリティの観点からEPHPDを評価する。
実験結果から, 上記の制限に対処し, EHRデータ生成を推し進める上で, 提案した EHRPD の有効性と有効性を示す。
Synthesizing electronic health records (EHR) data has become a preferred strategy to address data scarcity, improve data quality, and model fairness in healthcare. However, existing approaches for EHR data generation predominantly rely on state-of-the-art generative techniques like generative adversarial networks, variational autoencoders, and language models. These methods typically replicate input visits, resulting in inadequate modeling of temporal dependencies between visits and overlooking the generation of time information, a crucial element in EHR data. Moreover, their ability to learn visit representations is limited due to simple linear mapping functions, thus compromising generation quality. To address these limitations, we propose a novel EHR data generation model called EHRPD. It is a diffusion-based model designed to predict the next visit based on the current one while also incorporating time interval estimation. To enhance generation quality and diversity, we introduce a novel time-aware visit embedding module and a pioneering predictive denoising diffusion probabilistic model (PDDPM). Additionally, we devise a predictive U-Net (PU-Net) to optimize P-DDPM.We conduct experiments on two public datasets and evaluate EHRPD from fidelity, privacy, and utility perspectives. The experimental results demonstrate the efficacy and utility of the proposed EHRPD in addressing the aforementioned limitations and advancing EHR data generation. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 転写学習におけるmin-norm補間子の一般化誤差
Generalization error of min-norm interpolators in transfer learning ( http://arxiv.org/abs/2406.13944v1 ) ライセンス: Link先を確認 | Yanke Song, Sohom Bhattacharya, Pragya Sur, | (参考訳) 本稿では,多種多様な分布のデータが利用できるトランスファーラーニングにおいて,プーリングされたmin-$\ell_2$-norm補間の一般化誤差を確立する。
最小ノルム補間器は、現代の機械学習アルゴリズムの暗黙の正規化限界として自然に現れる。
以前の研究は、トレーニング中にテスト分布からのサンプルが利用できない場合に、アウト・オブ・ディストリビューションのリスクを特徴付けていた。
しかし、多くのアプリケーションでは、トレーニング中に限られた量のテストデータが利用可能であるが、この設定でのmin-norm補間の性質は十分に理解されていない。
共変量およびモデルシフトの下でのmin-$\ell_2$-norm補間のバイアスと分散を特徴付けることにより、このギャップに対処する。
プール型補間器は初期核融合と中間体核融合の両方を捕捉する。
モデルシフトの下では、低信号-雑音比(SNR)に対して、データの追加は常に問題となる。
高いSNRでは、シフト・トゥ・シグナル(SSR)比が明確に特徴づけられる閾値以下である限り、転送学習が役立ちます。
これらの比率を一貫して見積もることで、データ駆動型の方法が提供されます。
i) プール型補間器が目標ベース補間器より優れており、
(II) 一般化誤差を最小化する対象標本の最適個数。
共変量シフトの下では、ソースサンプルサイズが次元に対して小さい場合、ドメイン間の不均一性はリスクを改善し、その逆も引き起こされる。
我々はこれらの特徴を達成するために新しい異方性局所法則を確立し、これはランダム行列理論に独立した関心を持つかもしれない。
実験結果の有限サンプルの有効性を示す包括的シミュレーションで理論的特徴を補足する。
This paper establishes the generalization error of pooled min-$\ell_2$-norm interpolation in transfer learning where data from diverse distributions are available. Min-norm interpolators emerge naturally as implicit regularized limits of modern machine learning algorithms. Previous work characterized their out-of-distribution risk when samples from the test distribution are unavailable during training. However, in many applications, a limited amount of test data may be available during training, yet properties of min-norm interpolation in this setting are not well-understood. We address this gap by characterizing the bias and variance of pooled min-$\ell_2$-norm interpolation under covariate and model shifts. The pooled interpolator captures both early fusion and a form of intermediate fusion. Our results have several implications: under model shift, for low signal-to-noise ratio (SNR), adding data always hurts. For higher SNR, transfer learning helps as long as the shift-to-signal (SSR) ratio lies below a threshold that we characterize explicitly. By consistently estimating these ratios, we provide a data-driven method to determine: (i) when the pooled interpolator outperforms the target-based interpolator, and (ii) the optimal number of target samples that minimizes the generalization error. Under covariate shift, if the source sample size is small relative to the dimension, heterogeneity between between domains improves the risk, and vice versa. We establish a novel anisotropic local law to achieve these characterizations, which may be of independent interest in random matrix theory. We supplement our theoretical characterizations with comprehensive simulations that demonstrate the finite-sample efficacy of our results. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# CityBench: 世界モデルとしての大規模言語モデルの能力を評価する
CityBench: Evaluating the Capabilities of Large Language Model as World Model ( http://arxiv.org/abs/2406.13945v1 ) ライセンス: Link先を確認 | Jie Feng, Jun Zhang, Junbo Yan, Xin Zhang, Tianjian Ouyang, Tianhui Liu, Yuwei Du, Siqi Guo, Yong Li, | (参考訳) 強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
LLMの体系的かつ信頼性の高い評価は、特に専門分野の開発と応用において重要なステップである。
都市領域では、LSMのユーザビリティに関する初期の調査がいくつか行われているが、体系的でスケーラブルな評価ベンチマークはいまだに不足している。
都市領域の体系的評価ベンチマークを構築する上での課題は、データの多様性とシナリオ、および都市の複雑で動的な性質である。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
まず、マルチソースデータを統合し、きめ細かい都市動態をシミュレートするためにCitySimを構築します。
CitySimをベースとして,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
CitySimの柔軟性と使いやすさのため、私たちの評価プラットフォームCityBenchは世界中のどの都市にも容易に拡張できます。
世界中の13都市において,オープンソースのLLMや商用LLMを含む13の有名なLLMを評価した。
都市域におけるLCMの今後の発展に向けて,提案するCityBenchとShed Lightのスケーラビリティと有効性を示す大規模な実験を行った。
データセット、ベンチマーク、ソースコードは、https://github.com/tsinghua-fib-lab/CityBenchを通じて、研究コミュニティに公開公開されている。
Large language models (LLMs) with powerful generalization ability has been widely used in many domains. A systematic and reliable evaluation of LLMs is a crucial step in their development and applications, especially for specific professional fields. In the urban domain, there have been some early explorations about the usability of LLMs, but a systematic and scalable evaluation benchmark is still lacking. The challenge in constructing a systematic evaluation benchmark for the urban domain lies in the diversity of data and scenarios, as well as the complex and dynamic nature of cities. In this paper, we propose CityBench, an interactive simulator based evaluation platform, as the first systematic evaluation benchmark for the capability of LLMs for urban domain. First, we build CitySim to integrate the multi-source data and simulate fine-grained urban dynamics. Based on CitySim, we design 7 tasks in 2 categories of perception-understanding and decision-making group to evaluate the capability of LLMs as city-scale world model for urban domain. Due to the flexibility and ease-of-use of CitySim, our evaluation platform CityBench can be easily extended to any city in the world. We evaluate 13 well-known LLMs including open source LLMs and commercial LLMs in 13 cities around the world. Extensive experiments demonstrate the scalability and effectiveness of proposed CityBench and shed lights for the future development of LLMs in urban domain. The dataset, benchmark and source codes are openly accessible to the research community via https://github.com/tsinghua-fib-lab/CityBench | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# AspirinSum: アスペクトベースのユーティリティ保存脱識別フレームワーク
AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework ( http://arxiv.org/abs/2406.13947v1 ) ライセンス: Link先を確認 | Ya-Lun Li, | (参考訳) LLM(Large Language Model)の急速な進歩により、コミュニティ全体がLLMをトレーニングするために利用可能なテキストデータを熱心に消費している。
現在、利用可能なテキストデータの大部分はインターネットから収集されており、トレーニングデータの安価な情報源と考えられている。
しかし、医療や教育などの個人関連領域にLLMの能力を拡張しようとすると、これらの領域におけるパブリックデータセットの欠如により、そのような領域におけるLLMの適応がはるかに遅くなる。
このようなドメインで公開データセットが欠落している理由は、通常、個人機密情報を含んでいるためである。
プライバシー法に従うためには、そのようなドメイン内のデータは、何らかの普及前に識別される必要がある。
画像や表のデータに関して、この問題に対処するための多くの研究がなされてきた。
しかし、テキストデータの効率的かつ汎用的な識別方法について限定的な研究がなされた。
人間のアノテーションや定義済みのカテゴリリストに基づく手法がほとんどである。
通常、特定のドメインに容易に適応できない。
この提案の目的は、特定のドメインに容易に適応できるテキスト識別フレームワークを開発することであり、さらに人間のアノテーションを使わずに既存の専門家の知識を活用することである。
本稿では,従来のコメントデータから専門家の側面を整合させることで,アスペクトベースの実用性保存型非識別要約フレームワークであるAspirinSumを提案する。
特定されていないテキストはデータパブリッシングに使用でき、最終的にはダウンストリームタスク用に識別されていないデータセットを公開します。
Due to the rapid advancement of Large Language Model (LLM), the whole community eagerly consumes any available text data in order to train the LLM. Currently, large portion of the available text data are collected from internet, which has been thought as a cheap source of the training data. However, when people try to extend the LLM's capability to the personal related domain, such as healthcare or education, the lack of public dataset in these domains make the adaption of the LLM in such domains much slower. The reason of lacking public available dataset in such domains is because they usually contain personal sensitive information. In order to comply with privacy law, the data in such domains need to be de-identified before any kind of dissemination. It had been much research tried to address this problem for the image or tabular data. However, there was limited research on the efficient and general de-identification method for text data. Most of the method based on human annotation or predefined category list. It usually can not be easily adapted to specific domains. The goal of this proposal is to develop a text de-identification framework, which can be easily adapted to the specific domain, leverage the existing expert knowledge without further human annotation. We propose an aspect-based utility-preserved de-identification summarization framework, AspirinSum, by learning to align expert's aspect from existing comment data, it can efficiently summarize the personal sensitive document by extracting personal sensitive aspect related sub-sentence and de-identify it by substituting it with similar aspect sub-sentence. We envision that the de-identified text can then be used in data publishing, eventually publishing our de-identified dataset for downstream task use. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# CityGPT:大規模言語モデルの都市空間認知の強化
CityGPT: Empowering Urban Spatial Cognition of Large Language Models ( http://arxiv.org/abs/2406.13948v1 ) ライセンス: Link先を確認 | Jie Feng, Yuwei Du, Tianhui Liu, Siqi Guo, Yuming Lin, Yong Li, | (参考訳) 強力な言語生成と推論能力を持つ大規模言語モデル(LLM)は、数学やコード生成など、多くの領域ですでに成功している。
しかし、物理世界のコーパスが不足し、訓練中に知識が不足しているため、都市空間における多くの現実的なタスクを解決できないのが普通である。
本稿では,都市規模の世界モデルを構築することで,都市空間の理解と関連する都市課題の解決にLLMの能力を高めるための体系的枠組みであるCityGPTを提案する。
まず,都市知識を注入し,空間推論能力を効果的に向上するための多様な指導調律データセットCityInstructionを構築した。
City Instructionとジェネラルインストラクションデータを組み合わせて様々なLLM(例えば、ChatGLM3-6B、Qwen1.5、LLama3シリーズ)を微調整し、汎用能力を犠牲にすることなくそれらの能力を向上させる。
提案手法の有効性をさらに検証するため,様々な都市シナリオや問題に対するLCMの能力を評価するための総合的なベンチマークCityEvalを構築した。
大規模評価の結果,CityEval の総合評価において,CityInstruction で訓練した小型 LLM が商業 LLM と競合する性能を発揮することが示された。
ソースコードは https://github.com/tsinghua-fib-lab/CityGPT を通じて公開公開されている。
Large language models(LLMs) with powerful language generation and reasoning capabilities have already achieved success in many domains, e.g., math and code generation. However, due to the lacking of physical world's corpus and knowledge during training, they usually fail to solve many real-life tasks in the urban space. In this paper, we propose CityGPT, a systematic framework for enhancing the capability of LLMs on understanding urban space and solving the related urban tasks by building a city-scale world model in the model. First, we construct a diverse instruction tuning dataset CityInstruction for injecting urban knowledge and enhancing spatial reasoning capability effectively. By using a mixture of CityInstruction and general instruction data, we fine-tune various LLMs (e.g., ChatGLM3-6B, Qwen1.5 and LLama3 series) to enhance their capability without sacrificing general abilities. To further validate the effectiveness of proposed methods, we construct a comprehensive benchmark CityEval to evaluate the capability of LLMs on diverse urban scenarios and problems. Extensive evaluation results demonstrate that small LLMs trained with CityInstruction can achieve competitive performance with commercial LLMs in the comprehensive evaluation of CityEval. The source codes are openly accessible to the research community via https://github.com/tsinghua-fib-lab/CityGPT. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# ベジエ曲線モデルによる海キュウリのその場位置同定と長さ測定に向けて
Towards the in-situ Trunk Identification and Length Measurement of Sea Cucumbers via Bézier Curve Modelling ( http://arxiv.org/abs/2406.13951v1 ) ライセンス: Link先を確認 | Shuaixin Liu, Kunqian Li, Yilin Ding, Kuangwei Xu, Qianli Jiang, Q. M. Jonathan Wu, Dalei Song, | (参考訳) 本研究では,海産放牧資源のモニタリングや機械的収穫における重要な役割を担う,海産キュウリの個体識別と長さ測定のための新しいビジョンベースフレームワークを提案する。
曲げ度の異なる海産キュウリの幹曲線をモデル化するために、計算の単純さ、安定性、および広範囲の変換可能性からパラメトリックB\'{e}zier曲線を利用する。
次に,パラメトリックB\'{e}zier曲線モデリングと,広く使用されているYou-Only-Look-Once (YOLO) パイプラインを組み合わせ,有効なファンネルアクティベーションとマルチスケールアテンションモジュールを統合し,曲線特徴の認識と学習を促進する。
さらに,トランクの終端損失を付加制約として組み込むことにより,終端偏差が全曲線に与える影響を効果的に緩和する。
最後に、両眼カメラで捉えたトランクカーブに沿って位置する画素の深さ情報を利用して、空間曲線積分により海産キュウリのその場長を正確に推定することを提案する。
曲線に基づく海産キュウリの幹識別のための2つの挑戦的ベンチマークデータセットを構築した。
これらのデータセットは、B\'{e}zier フォーマットアノテーションを伴って、1,000以上の海産キュウリの実際の海洋環境画像で構成されている。
我々はSC-ISTIの評価を行い,本手法は物体検出タスクと幹識別タスクの両方において0.9以上のmAP50を達成する。
広範囲にわたる測定実験により、平均絶対相対誤差は約0.15であることが示された。
We introduce a novel vision-based framework for in-situ trunk identification and length measurement of sea cucumbers, which plays a crucial role in the monitoring of marine ranching resources and mechanized harvesting. To model sea cucumber trunk curves with varying degrees of bending, we utilize the parametric B\'{e}zier curve due to its computational simplicity, stability, and extensive range of transformation possibilities. Then, we propose an end-to-end unified framework that combines parametric B\'{e}zier curve modeling with the widely used You-Only-Look-Once (YOLO) pipeline, abbreviated as TISC-Net, and incorporates effective funnel activation and efficient multi-scale attention modules to enhance curve feature perception and learning. Furthermore, we propose incorporating trunk endpoint loss as an additional constraint to effectively mitigate the impact of endpoint deviations on the overall curve. Finally, by utilizing the depth information of pixels located along the trunk curve captured by a binocular camera, we propose accurately estimating the in-situ length of sea cucumbers through space curve integration. We established two challenging benchmark datasets for curve-based in-situ sea cucumber trunk identification. These datasets consist of over 1,000 real-world marine environment images of sea cucumbers, accompanied by B\'{e}zier format annotations. We conduct evaluation on SC-ISTI, for which our method achieves mAP50 above 0.9 on both object detection and trunk identification tasks. Extensive length measurement experiments demonstrate that the average absolute relative error is around 0.15. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# バックプロパゲーションニューラルネットワークを用いた飛行事故予測に関する研究
Research on Flight Accidents Prediction based Back Propagation Neural Network ( http://arxiv.org/abs/2406.13954v1 ) ライセンス: Link先を確認 | Haoxing Liu, Fangzhou Shen, Haoshen Qin and, Fanru Gao, | (参考訳) 民間航空の急速な発展と人々の生活水準の大幅な改善により、航空機の操縦は一般的で効率的な旅行方法となった。
しかし、機体の飛行特性と胴体構造の高度化により、飛行遅延と飛行事故は時折発生する。
また、事故後の航空機がもたらした生命リスクも交通手段の中で最も高い。
本研究では, バックプロパゲーションニューラルネットワークに基づくモデルを用いて, 飛行事故の予測を行った。
気象条件や航空機の技術的条件,パイロット経験など,さまざまな要因を含む過去の飛行データを収集することにより,事故リスクを識別するためのバックプロパゲーションニューラルネットワークモデルを訓練した。
モデル設計では、隠れた層ノードの数と学習率を調整することにより、ネットワーク性能を最適化するために多層パーセプトロン構造を用いる。
実験により、このモデルでは、高精度で信頼性の高い飛行事故を効果的に予測できることが示されている。
With the rapid development of civil aviation and the significant improvement of people's living standards, taking an air plane has become a common and efficient way of travel. However, due to the flight characteris-tics of the aircraft and the sophistication of the fuselage structure, flight de-lays and flight accidents occur from time to time. In addition, the life risk factor brought by aircraft after an accident is also the highest among all means of transportation. In this work, a model based on back-propagation neural network was used to predict flight accidents. By collecting historical flight data, including a variety of factors such as meteorological conditions, aircraft technical condition, and pilot experience, we trained a backpropaga-tion neural network model to identify potential accident risks. In the model design, a multi-layer perceptron structure is used to optimize the network performance by adjusting the number of hidden layer nodes and the learning rate. Experimental analysis shows that the model can effectively predict flight accidents with high accuracy and reliability. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 量子回路冷凍機によるKerr-cat量子ビットの安定化
Stabilization of Kerr-cat qubits with quantum circuit refrigerator ( http://arxiv.org/abs/2406.13957v1 ) ライセンス: Link先を確認 | Shumpei Masuda, Shunsuke Kamimura, Tsuyoshi Yamamoto, Takaaki Aoki, Akiyoshi Tomonaga, | (参考訳) 周期的に駆動される超伝導非線形共振器は、長い寿命を持つ量子コンピュータへの有望な経路を提供するKerr-cat量子ビットを実装できる。
しかし、システムは純粋なデファス化に弱いため、キュービット部分空間の外側で不要な励起を引き起こす。
したがって, 量子ビット部分空間内にシステムを閉じ込める冷凍技術が必要である。
量子回路冷凍機 (QCR) と呼ばれるトンネル接合部における光子支援電子トンネルによるKerr-cat量子ビットのチップ冷却について理論的に検討した。
トンネル接合部のバイアス電圧を調整することにより、QCRによるシステムの非励起率を4桁以上変更することができる。
トンネルプロセスにおける量子干渉により、不要なQCR誘発ビットフリップが大幅に抑制され、長寿命保存される。
QCRは、Kerr-cat量子ビットを安定化させる調整可能な散逸源として機能することができる。
A periodically-driven superconducting nonlinear resonator can implement a Kerr-cat qubit, which provides a promising route to a quantum computer with a long lifetime. However, the system is vulnerable to pure dephasing, which causes unwanted excitations outside the qubit subspace. Therefore, we require a refrigeration technology which confines the system in the qubit subspace. We theoretically study on-chip refrigeration for Kerr-cat qubits based on photon-assisted electron tunneling at tunneling junctions, called quantum circuit refrigerator (QCR). Rates of QCR-induced deexcitations of the system can be changed by more than four orders of magnitude by tuning a bias voltage across the tunneling junctions. Unwanted QCR-induced bit flips are greatly suppressed due to quantum interference in the tunneling process, and thus the long lifetime is preserved. The QCR can serve as a tunable dissipation source which stabilizes Kerr-cat qubits. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 多周波分解ハンベリーブラウンツイスト効果
Multifrequency-resolved Hanbury Brown-Twiss Effect ( http://arxiv.org/abs/2406.13959v1 ) ライセンス: Link先を確認 | Joseph Ferrantini, Jesse Crawford, Sergei Kulkov, Jakub Jirsa, Aaron Mueninghoff, Lucas Lawrence, Stephen Vintskevich, Tommaso Milanese, Samuel Burri, Ermanno Bernasconi, Claudio Bruschini, Michal Marcisovsky, Peter Svihra, Andrei Nomerotski, Paul Stankus, Edoardo Charbon, Raphael A. Abrahao, | (参考訳) ハンベリー・ブラウン・ツイツ効果(HBT)は強度干渉法において重要な位置を占め、量子光学の発展に重要な貢献をした。
このような効果を観測するには、良好なスペクトル分解能とタイミング分解能の両方が必要である。
多くの場合、HBT効果は、複数の周波数の同時処理の制限、いくつかのアプリケーション停止と制限のために、一度に1つの周波数で観測される。
本稿では,1次元の単光子感度アバランシェダイオードを用いた高速・データ駆動分光計について報告する。
複数周波数に対するHBT効果を同時に観察する。
具体的には、最大5行のNeスペクトルに対してHBTを観測したが、さらに改善が可能である。
我々の研究は、スペクトル結合と多重周波数HBTをより広く利用するための大きなステップである。
私たちが提示する技術は、古典的および量子的アプリケーションの両方に恩恵をもたらす。
The Hanbury Brown-Twiss (HBT) effect holds a pivotal place in intensity interferometry and gave a seminal contribution to the development of quantum optics. To observe such an effect, both good spectral and timing resolutions are necessary. Most often, the HBT effect is observed for a single frequency at a time, due to limitations in dealing with multifrequencies simultaneously, halting and limiting some applications. Here, we report a fast and data-driven spectrometer built with a one-dimensional array of single-photon-sensitive avalanche diodes. We report observing the HBT effect for multifrequencies at the same time. Specifically, we observed the HBT for up to 5 lines of the Ne spectrum, but this can be improved even further. Our work represents a major step to make spectral binning and multifrequencies HBT more widely available. The technology we present can benefit both classical and quantum applications. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 個人化された対話エージェントと動的に適応した人格
Evolving to be Your Soulmate: Personalized Dialogue Agents with Dynamically Adapted Personas ( http://arxiv.org/abs/2406.13960v1 ) ライセンス: Link先を確認 | Yi Cheng, Wenge Liu, Kaishuai Xu, Wenjun Hou, Yi Ouyang, Chak Tou Leong, Xian Wu, Yefeng Zheng, | (参考訳) ペルソナに基づく対話エージェントに関するこれまでの研究は、通常、デプロイ前にエージェントのペルソナをプリセットする。
本稿では、会話中にエージェントが継続的に進化し、そのペルソナを動的に適応させることで、ユーザの期待に合致する新たなパラダイム、SPDA(Self-evolving Personalized Dialogue Agents)について検討する。
このパラダイムは、各ユーザーに対してより良いパーソナライズを可能にするだけでなく、主にペルソナ適応のプロセスにあるユニークな課題も導入する。
2つの大きな問題は、ユーザとのペルソナアライメントの達成方法と、適応プロセスのスムーズな移行を保証する方法だ。
そこで本研究では,階層レベルでペルソナを洗練し,ユーザとの協調性を向上する新しいフレームワークを提案する。
実験により,我々のフレームワークに適合したペルソナの統合は,様々な基盤システムにおけるパーソナライゼーションと全体的な対話性能を一貫して向上させることが示された。
Previous research on persona-based dialogue agents typically preset the agent's persona before deployment, which remains static thereafter. In this paper, we take a step further and explore a new paradigm called Self-evolving Personalized Dialogue Agents (SPDA), where the agent continuously evolves during the conversation to better align with the user's anticipation by dynamically adapting its persona. This paradigm could enable better personalization for each user, but also introduce unique challenges, which mainly lie in the process of persona adaptation. Two key issues include how to achieve persona alignment with the user and how to ensure smooth transition in the adaptation process. To address them, we propose a novel framework that refines the persona at hierarchical levels to progressively align better with the user in a controllable way. Experiments show that integrating the personas adapted by our framework consistently enhances personalization and overall dialogue performance across various base systems. | 翻訳日:2024-06-21 17:36:50 公開日:2024-06-20 |
# 等価オフライン強化学習
Equivariant Offline Reinforcement Learning ( http://arxiv.org/abs/2406.13961v1 ) ライセンス: Link先を確認 | Arsh Tangri, Ondrej Biza, Dian Wang, David Klee, Owen Howell, Robert Platt, | (参考訳) オンライン強化学習(RL:Reinforcement Learning)を通じて,ロボット操作に学習に基づく手法を適用する場合,専門家によるデモンストレーションの収集とオンロボット政策学習の課題により,サンプル効率が重要となる。
Offline RLは、その品質に関わらず、あらゆる行動ポリシーを使用して収集されたオフラインデータセットからポリシー学習を可能にすることで、この問題に対処する。
しかし、オフラインRLの最近の進歩は、主に大規模なデータセットからの学習に焦点を当てている。
多くのロボット操作タスクが回転対称問題として定式化可能であることを考慮し,実演数が少ないオフラインRLに$SO(2)$-equivariant Neural Networkを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
低データ体制におけるオフライン学習アルゴリズムの等価性向上を実証した実証的証拠を提供する。
Sample efficiency is critical when applying learning-based methods to robotic manipulation due to the high cost of collecting expert demonstrations and the challenges of on-robot policy learning through online Reinforcement Learning (RL). Offline RL addresses this issue by enabling policy learning from an offline dataset collected using any behavioral policy, regardless of its quality. However, recent advancements in offline RL have predominantly focused on learning from large datasets. Given that many robotic manipulation tasks can be formulated as rotation-symmetric problems, we investigate the use of $SO(2)$-equivariant neural networks for offline RL with a limited number of demonstrations. Our experimental results show that equivariant versions of Conservative Q-Learning (CQL) and Implicit Q-Learning (IQL) outperform their non-equivariant counterparts. We provide empirical evidence demonstrating how equivariance improves offline learning algorithms in the low-data regime. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# SSAD:パノラマX線を用いた歯科疾患診断のための自己管理補助フレームワーク
SSAD: Self-supervised Auxiliary Detection Framework for Panoramic X-ray based Dental Disease Diagnosis ( http://arxiv.org/abs/2406.13963v1 ) ライセンス: Link先を確認 | Zijian Cai, Xinquan Yang, Xuguang Li, Xiaoling Luo, Xuechen Li, Linlin Shen, He Meng, Yongqiang Deng, | (参考訳) パノラマX線は臨床現場で歯科疾患を診断するための簡便で効果的なツールである。
深層学習モデルは歯科医がパノラマX線を解釈するのを助けるために開発されたが、そのほとんどは、歯科医の専門知識と多くの時間的コストを必要とする注釈付きデータに悩まされている。
自己教師付き学習(SSL)はこの課題に対処するために提案されているが、事前学習と微調整の2段階のプロセスでは、さらに多くのトレーニング時間と計算資源が必要になる。
本稿では,プラグアンドプレイで任意の検出器と互換性のある自己教師付き補助検知(SSAD)フレームワークを提案する。
再建部と検出部から構成される。
両方のブランチは同時にトレーニングされ、微調整なしで同じエンコーダを共有する。
再建枝は、健康歯や疾患歯の歯質の回復を学習し、検出枝は、これらの学習特徴を診断に利用する。
微細な特徴を捕捉するエンコーダの能力を高めるため,SAMの画像エンコーダを組み込んでテクスチャ整合性(TC)損失を構築する。
3つの検出タスクによる公開DENTEXデータセットの大規模な実験により、提案したSSADフレームワークが、主流のオブジェクト検出方法やSSLメソッドと比較して最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/Dylonsword/SSADで公開されている。
Panoramic X-ray is a simple and effective tool for diagnosing dental diseases in clinical practice. When deep learning models are developed to assist dentist in interpreting panoramic X-rays, most of their performance suffers from the limited annotated data, which requires dentist's expertise and a lot of time cost. Although self-supervised learning (SSL) has been proposed to address this challenge, the two-stage process of pretraining and fine-tuning requires even more training time and computational resources. In this paper, we present a self-supervised auxiliary detection (SSAD) framework, which is plug-and-play and compatible with any detectors. It consists of a reconstruction branch and a detection branch. Both branches are trained simultaneously, sharing the same encoder, without the need for finetuning. The reconstruction branch learns to restore the tooth texture of healthy or diseased teeth, while the detection branch utilizes these learned features for diagnosis. To enhance the encoder's ability to capture fine-grained features, we incorporate the image encoder of SAM to construct a texture consistency (TC) loss, which extracts image embedding from the input and output of reconstruction branch, and then enforces both embedding into the same feature space. Extensive experiments on the public DENTEX dataset through three detection tasks demonstrate that the proposed SSAD framework achieves state-of-the-art performance compared to mainstream object detection methods and SSL methods. The code is available at https://github.com/Dylonsword/SSAD | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# 潜伏変数による因果推論 : 最近の進歩と今後の展望
Causal Inference with Latent Variables: Recent Advances and Future Prospectives ( http://arxiv.org/abs/2406.13966v1 ) ライセンス: Link先を確認 | Yaochen Zhu, Yinhan He, Jing Ma, Mengxuan Hu, Sheng Li, Jundong Li, | (参考訳) 因果性は我々の世界の軌道の基礎を成している。
興味のある変数間の本質的な因果関係を推定することを目的とした因果推論(CI)が重要な研究トピックとして浮上している。
それでも重要な変数(例えば、共同設立者、仲介者、外因性変数など)の観察の欠如は、CIメソッドの信頼性を著しく損なう。
この問題は変数を測定するのに固有の困難から生じる可能性がある。
さらに、変数が受動的に記録される観察的研究では、ある共変体は実験者によって不注意に省略される可能性がある。
観測されていない変数の種類や特定のCIタスクに依存すると、これらの潜伏変数が不注意に扱われている場合、例えば、因果効果のバイアス付き推定、因果メカニズムの不完全な理解、個別レベルの因果的考慮の欠如など、様々な結果が発生する。
本調査では、潜伏変数を用いたCIにおける最近の開発状況を総合的にレビューする。
まず、関心のある変数が完全に観察されていると仮定した場合に、従来のCIテクニックについて議論する。
その後、回避法と推論に基づく手法の分類において、潜伏変数を扱うための様々なCI戦略について詳細な議論を行い、因果効果推定、媒介分析、反事実推論、因果発見のタスクについて論じる。
さらに,単位間の干渉が存在する可能性のあるグラフデータに対する議論を一般化する。
最後に、潜伏変数によるCIのさらなる進歩、特に大規模言語モデル(LLM)の時代における新たな機会について、新たな側面を提供する。
Causality lays the foundation for the trajectory of our world. Causal inference (CI), which aims to infer intrinsic causal relations among variables of interest, has emerged as a crucial research topic. Nevertheless, the lack of observation of important variables (e.g., confounders, mediators, exogenous variables, etc.) severely compromises the reliability of CI methods. The issue may arise from the inherent difficulty in measuring the variables. Additionally, in observational studies where variables are passively recorded, certain covariates might be inadvertently omitted by the experimenter. Depending on the type of unobserved variables and the specific CI task, various consequences can be incurred if these latent variables are carelessly handled, such as biased estimation of causal effects, incomplete understanding of causal mechanisms, lack of individual-level causal consideration, etc. In this survey, we provide a comprehensive review of recent developments in CI with latent variables. We start by discussing traditional CI techniques when variables of interest are assumed to be fully observed. Afterward, under the taxonomy of circumvention and inference-based methods, we provide an in-depth discussion of various CI strategies to handle latent variables, covering the tasks of causal effect estimation, mediation analysis, counterfactual reasoning, and causal discovery. Furthermore, we generalize the discussion to graph data where interference among units may exist. Finally, we offer fresh aspects for further advancement of CI with latent variables, especially new opportunities in the era of large language models (LLMs). | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# ハードウェア効率の良いランダム化コンパイル
Hardware-Efficient Randomized Compiling ( http://arxiv.org/abs/2406.13967v1 ) ライセンス: Link先を確認 | Neelay Fruitwala, Akel Hashim, Abhi D. Rajagopala, Yilun Xu, Jordan Hines, Ravi K. Naik, Irfan Siddiqi, Katherine Klymko, Gang Huang, Kasra Nowrouzi, | (参考訳) ランダム化コンパイル(Randomized Comppiling, RRC)は、任意のマルコフ誤差を確率的なパウリチャネルに調整する効率的な方法である。
しかし、ソフトウェアでプロトコルを実装するための標準的な手順には、大きな実験的なオーバーヘッドが伴う。
本研究では,回路実行時のFPGA制御ハードウェアの最低レベルに基づいて,サイクルバイサイクルでRCを実行するハードウェア効率のアルゴリズムを提案する。
重要なことに、このアルゴリズムはRCを使わずに回路を計測する以外に、実行時のオーバーヘッドがゼロのショット毎に異なるランダム化を実行する。
我々はQubiC制御ハードウェアを用いてアルゴリズムを実装し、RCで実装された回路全体の実行時間を大幅に削減し、測定値のばらつきを著しく低減した。
Randomized compiling (RC) is an efficient method for tailoring arbitrary Markovian errors into stochastic Pauli channels. However, the standard procedure for implementing the protocol in software comes with a large experimental overhead -- namely, it scales linearly in the number of desired randomizations, each of which must be generated and measured independently. In this work, we introduce a hardware-efficient algorithm for performing RC on a cycle-by-cycle basis on the lowest level of our FPGA-based control hardware during the execution of a circuit. Importantly, this algorithm performs a different randomization per shot with zero runtime overhead beyond measuring a circuit without RC. We implement our algorithm using the QubiC control hardware, where we demonstrate significant reduction in the overall runtime of circuits implemented with RC, as well as a significantly lower variance in measured observables. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# 交通事故解析と予測の最近の進歩: 機械学習技術の概要
Recent Advances in Traffic Accident Analysis and Prediction: A Comprehensive Review of Machine Learning Techniques ( http://arxiv.org/abs/2406.13968v1 ) ライセンス: Link先を確認 | Noushin Behboudi, Sobhan Moosavi, Rajiv Ramnath, | (参考訳) 交通事故は世界中で深刻な公衆衛生問題を引き起こし、5歳から29歳の個人に最も大きな影響を及ぼし、毎年119万人が死亡している。
本稿では,交通事故解析と予測に機械学習(ML)技術を適用した最近の進歩を包括的にレビューすることで,道路安全における高度な予測手法の必要性に対処する。
事故のリスク、頻度、重大さ、期間、および事故データの一般的な統計分析に焦点をあてて、過去5年間に191件の研究を調査した。
本研究は,事故解析と予測に関する幅広い領域にわたる技術の現状を網羅した,このような総合的なレビューを初めて行ったものである。
このレビューでは、予測精度を改善し、トラフィックデータの複雑さを扱うために、多様なデータソースと高度なML技術を統合することの有効性を強調している。
本研究は、現在の状況のマッピングと文献のギャップの特定により、2030年までに交通事故による死亡・負傷を著しく減らし、世界保健機関(WHO)の目標と整合し、今後の研究を導くことを目的としている。
Traffic accidents pose a severe global public health issue, leading to 1.19 million fatalities annually, with the greatest impact on individuals aged 5 to 29 years old. This paper addresses the critical need for advanced predictive methods in road safety by conducting a comprehensive review of recent advancements in applying machine learning (ML) techniques to traffic accident analysis and prediction. It examines 191 studies from the last five years, focusing on predicting accident risk, frequency, severity, duration, as well as general statistical analysis of accident data. To our knowledge, this study is the first to provide such a comprehensive review, covering the state-of-the-art across a wide range of domains related to accident analysis and prediction. The review highlights the effectiveness of integrating diverse data sources and advanced ML techniques to improve prediction accuracy and handle the complexities of traffic data. By mapping the current landscape and identifying gaps in the literature, this study aims to guide future research towards significantly reducing traffic-related deaths and injuries by 2030, aligning with the World Health Organization (WHO) targets. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# 複雑なフラクタルトレーサビリティ境界は自明な非凸性から生じうる
Complex fractal trainability boundary can arise from trivial non-convexity ( http://arxiv.org/abs/2406.13971v1 ) ライセンス: Link先を確認 | Yizhou Liu, | (参考訳) ニューラルネットワークのトレーニングには、損失関数の性質と最適化戦略が効果的なトレーニングに不可欠である損失関数を最小限にするためにパラメータを最適化することが含まれる。
勾配降下(GD)における学習率などのハイパーパラメータの選択は、収束の成功と速度に大きな影響を及ぼす。
近年の研究では、境界パラメータと発散パラメータの境界はフラクタルであり、信頼性の高いハイパーパラメータ選択が複雑であることが示された。
しかし、このフラクタル境界の性質とそれを避ける方法は不明である。
本研究では, フラクタルトレーサビリティ境界につながる可能性のある損失景観特性を明らかにするため, GDに着目した。
フラクタル境界は単純な非凸摂動、すなわち2次関数へのコサイン型摂動の追加や乗算から生じる。
観測されたフラクタル次元は、パラメータ次元、非凸性の種類、摂動波長、摂動振幅などの影響を受けている。
本分析では, トレーニング性境界のフラクタル次元を制御する因子として, パラメータ変化に対する勾配の感度を測定する「摂動の粗さ」を同定した。
粗さの増加に伴い,非フラクタルからフラクタルのトレーサビリティ境界への明確な遷移が観察され,その致命的な粗さが乱れ損失関数の非凸の原因となった。
したがって, フラクタルトレーサビリティの境界は, 非常に単純な非凸性から生じる可能性がある。
我々は、ニューラルネットワークトレーニング中の複雑な行動の理解を深め、より一貫性があり予測可能なトレーニング戦略をもたらすことを期待する。
Training neural networks involves optimizing parameters to minimize a loss function, where the nature of the loss function and the optimization strategy are crucial for effective training. Hyperparameter choices, such as the learning rate in gradient descent (GD), significantly affect the success and speed of convergence. Recent studies indicate that the boundary between bounded and divergent hyperparameters can be fractal, complicating reliable hyperparameter selection. However, the nature of this fractal boundary and methods to avoid it remain unclear. In this study, we focus on GD to investigate the loss landscape properties that might lead to fractal trainability boundaries. We discovered that fractal boundaries can emerge from simple non-convex perturbations, i.e., adding or multiplying cosine type perturbations to quadratic functions. The observed fractal dimensions are influenced by factors like parameter dimension, type of non-convexity, perturbation wavelength, and perturbation amplitude. Our analysis identifies "roughness of perturbation", which measures the gradient's sensitivity to parameter changes, as the factor controlling fractal dimensions of trainability boundaries. We observed a clear transition from non-fractal to fractal trainability boundaries as roughness increases, with the critical roughness causing the perturbed loss function non-convex. Thus, we conclude that fractal trainability boundaries can arise from very simple non-convexity. We anticipate that our findings will enhance the understanding of complex behaviors during neural network training, leading to more consistent and predictable training strategies. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# CREF: チュータプログラミングのためのLLMベースの会話型ソフトウェア修復フレームワーク
CREF: An LLM-based Conversational Software Repair Framework for Programming Tutors ( http://arxiv.org/abs/2406.13972v1 ) ライセンス: Link先を確認 | Boyang Yang, Haoye Tian, Weiguo Pian, Haoran Yu, Haitao Wang, Jacques Klein, Tegawendé F. Bissyandé, Shunfu Jin, | (参考訳) プログラム修復技術は、ソフトウェア開発およびプログラミング教育シナリオにおけるデバッグにコスト削減の利点を提供する。
コードに関連したタスクにおいて、LLM(Large Language Models)の有効性が証明されたことから、研究者はプログラムの修復の可能性を探った。
しかし、既存の修復ベンチマークがLLMトレーニングデータに影響を与え、データ漏洩を引き起こす可能性があることを認識することが重要である。
LLMの現実的な修復能力を評価するため,(1) 1,239個のC++欠陥コードと,チュータガイダンス,ソリューション記述,テストケースの失敗,修正コードなどの関連情報を含む,拡張性のないTutorCodeと呼ばれるベンチマークを導入する。
本研究では,TutorCode上の12個のLLMの補修性能,補修精度(TOP-5,AVG-5),パッチ精度(RPSR)を評価した。
2) 欠陥修復におけるLCMの性能向上に寄与する余分な情報の種類を総合的に検討する。
これらのタイプの中で、チューター指導はLLM修復能力を高める上で最も効果的な情報であることがわかった。
LLMの会話能力と強化情報の利点をフル活用するために, 対話型半自動修復フレームワークCREFを導入した。
AVG-5はベースラインに比べて17.2%-24.6%改善し、GPT-4を使用すると76.6%の顕著なAVG-5を達成している。
これらの結果は、教師との交流や、誤った反応を含む歴史的会話を通じて、LLMの修復能力を高める可能性を浮き彫りにした。
現実世界の教育環境でのCREFの適用は、チューターの作業量を削減し、生徒の学習体験を改善する上での有効性を示すと同時に、コードレビューのような他のソフトウェアエンジニアリングタスクを円滑にすることの約束を示す。
Program repair techniques offer cost-saving benefits for debugging within software development and programming education scenarios. With the proven effectiveness of Large Language Models (LLMs) in code-related tasks, researchers have explored their potential for program repair. However, it is crucial to recognize that existing repair benchmarks may have influenced LLM training data, potentially causing data leakage. To evaluate LLMs' realistic repair capabilities, (1) we introduce an extensive, non-crawled benchmark, referred to as TutorCode, comprising 1,239 C++ defect codes and associated information such as tutor guidance, solution description, failing test cases, and the corrected code. Our work assesses the repair performance of 12 LLMs on TutorCode, measuring repair correctness (TOP-5 and AVG-5) and patch precision (RPSR). (2) We then provide a comprehensive investigation into which types of extra information can help LLMs improve their performance in repairing defects. Among these types, tutor guidance was found to be the most effective information in enhancing LLM repair capabilities. To fully harness LLMs' conversational capabilities and the benefits of augmented information, (3) we introduce a novel conversational semi-automatic repair framework CREF assisting human tutor. It demonstrates a remarkable AVG-5 improvement of 17.2%-24.6% compared to the baseline, achieving an impressive AVG-5 of 76.6% when utilizing GPT-4. These results highlight the potential for enhancing LLMs' repair capabilities through interactions with tutors and historical conversations involving incorrect responses. The successful application of CREF in a real-world educational setting demonstrates its effectiveness in reducing tutors' workload and improving students' learning experience, while also showcasing its promise for facilitating other software engineering tasks, such as code review. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# MR-BEN:大規模言語モデルのための総合メタ推論ベンチマーク
MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models ( http://arxiv.org/abs/2406.13975v1 ) ライセンス: Link先を確認 | Zhongshen Zeng, Yinhong Liu, Yingjia Wan, Jingyao Li, Pengguang Chen, Jianbo Dai, Yuxuan Yao, Rongwu Xu, Zehan Qi, Wanru Zhao, Linling Shen, Jianqiao Lu, Haochen Tan, Yukang Chen, Hao Zhang, Zhan Shi, Bailin Wang, Zhijiang Guo, Jiaya Jia, | (参考訳) 大規模言語モデル(LLM)は、主にステップバイステップの連鎖推論プロセスに基づいて、問題解決と意思決定の能力の向上を示している。
しかし、LSMの推論能力を評価することはますます困難になっている。
具体的には、既存の結果ベースのベンチマークが飽和し始め、進捗を監視するのに不十分になる。
そこで我々は,メタ推論技術を必要とするプロセスベースのベンチマーク MR-BEN を提案する。
MR-BENは、人間の専門家から5,975の質問を収集し、物理学、化学、論理学、コーディングなど様々な分野をカバーする総合的なベンチマークである。
このベンチマークでメタ推論を評価するための設計メトリクスを通じて、現在のLCM(オープンソースおよびクローズドソースモデル)の興味深い制限と弱点を特定します。
例えば、オープンソースモデルは結果ベースのベンチマークではGPT-4に匹敵するものですが、ベンチマークでははるかに遅れています。
私たちのデータセットとコードはhttps://randolph-zeng.github.io/Mr-Ben.github.io/で公開されています。
Large language models (LLMs) have shown increasing capability in problem-solving and decision-making, largely based on the step-by-step chain-of-thought reasoning processes. However, it has been increasingly challenging to evaluate the reasoning capability of LLMs. Concretely, existing outcome-based benchmarks begin to saturate and become less sufficient to monitor the progress. To this end, we present a process-based benchmark MR-BEN that demands a meta reasoning skill, where LMs are asked to locate and analyse potential errors in automatically generated reasoning steps. MR-BEN is a comprehensive benchmark comprising 5,975 questions collected from human experts, covering various subjects such as physics, chemistry, logic, coding, and more. Through our designed metrics for assessing meta-reasoning on this benchmark, we identify interesting limitations and weaknesses of current LLMs (open-source and closed-source models). For example, open-source models are seemingly comparable to GPT-4 on outcome-based benchmarks, but they lag far behind on our benchmark, revealing the underlying reasoning capability gap between them. Our dataset and codes are available on https://randolph-zeng.github.io/Mr-Ben.github.io/. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# 表現学習を用いた医用画像翻訳における類似性を考慮した同期潜時拡散モデル
Similarity-aware Syncretic Latent Diffusion Model for Medical Image Translation with Representation Learning ( http://arxiv.org/abs/2406.13977v1 ) ライセンス: Link先を確認 | Tingyi Lin, Pengju Lyu, Jie Zhang, Yuqing Wang, Cheng Wang, Jianjun Zhu, | (参考訳) 非造影CT(non-contrast CT)は画像のコントラストと解剖学的視認性を低下させ、診断の不確実性を増大させる可能性がある。
対照的に、造影CT(CECT)は関心領域(ROI)の観察を促進する。
先導的な生成モデル、特に条件拡散モデルは、医用画像のモダリティ変換において顕著な能力を示す。
典型的な条件拡散モデルでは、医療モード変換のためのセグメンテーションラベルのガイダンスで画像を生成するのが一般的である。
厳密な指導と低濃度への限られたアクセスは、条件付き拡散モデルの実践的臨床応用に困難をもたらす可能性がある。
医療画像翻訳のための潜時拡散モデル(S$^2$LDM)に基づく新しいシンプレティック生成モデルを提案する。
S$^2$LDMは、シンプレティックエンコーディングと拡散を通じて、異なるモーダル画像の類似性を高め、潜伏空間における融合情報を促進し、対照的に強調された領域でより詳細な医療画像を生成する。
しかし、周波数領域における同期潜在空間は低い周波数を好む傾向にあり、通常同じ解剖学的構造にある。
したがって、S$^2$LDMは適応的類似性損失と動的類似性を適用して生成を誘導し、トレーニングプロセス全体を通して高周波詳細の不足を補う。
医用画像翻訳におけるアプローチの有効性を定量的に検証した。
私たちのコードは、最近リリースされます。
Non-contrast CT (NCCT) imaging may reduce image contrast and anatomical visibility, potentially increasing diagnostic uncertainty. In contrast, contrast-enhanced CT (CECT) facilitates the observation of regions of interest (ROI). Leading generative models, especially the conditional diffusion model, demonstrate remarkable capabilities in medical image modality transformation. Typical conditional diffusion models commonly generate images with guidance of segmentation labels for medical modal transformation. Limited access to authentic guidance and its low cardinality can pose challenges to the practical clinical application of conditional diffusion models. To achieve an equilibrium of generative quality and clinical practices, we propose a novel Syncretic generative model based on the latent diffusion model for medical image translation (S$^2$LDM), which can realize high-fidelity reconstruction without demand of additional condition during inference. S$^2$LDM enhances the similarity in distinct modal images via syncretic encoding and diffusing, promoting amalgamated information in the latent space and generating medical images with more details in contrast-enhanced regions. However, syncretic latent spaces in the frequency domain tend to favor lower frequencies, commonly locate in identical anatomic structures. Thus, S$^2$LDM applies adaptive similarity loss and dynamic similarity to guide the generation and supplements the shortfall in high-frequency details throughout the training process. Quantitative experiments confirm the effectiveness of our approach in medical image translation. Our code will release lately. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# 電界制御による角根グラフェンナノリボンのトポロジカルソリトン
Topological Solitons in Square-root Graphene Nanoribbons Controlled by Electric Fields ( http://arxiv.org/abs/2406.13978v1 ) ライセンス: Link先を確認 | Haiyue Huang, Mamun Sarker, Percy Zahl, C. Stephen Hellberg, Jeremy Levy, Ioannis Petrides, Alexander Sinitskii, Prineha Narang, | (参考訳) グラフェンナノリボン(英: Graphene nanoribbons, GNR)は、トポロジカル絶縁体の研究に多くの関心を寄せた、ユニークな準1次元(1D)材料である。
GNRによって示されるトポロジカル位相は、主に化学構造によって制御されるが、これらの位相を外部に制御する能力は、量子エレクトロニクスやスピントロニクスにおける潜在的な利用に不可欠である。
本稿では、外部印加電界によって誘導・制御される独自の位相特性を有する単位セルにおいて、ミラー対称性と4つのジグザグセグメントを特徴とするGNRのクラスを提案する。
これらのバンド構造は、有効平方根モデルによって説明されるように、トポロジカルソリトンをサポートする2つの有限ギャップを示す。
実験の実現可能性を示すため,ボトムアップアプローチを用いて,所望のジグザグセグメントを用いて部分ジグザグ型GNR(pzc-GNR)を設計・合成する。
pzc-GNR 上の第一原理計算は、正方根ハミルトニアンからの予測に従って電場方向を切り替えることで、2つの有限ギャップにおけるバンド反転を明らかにする。
正方根GNRにおける系の磁場方向と化学ポテンシャルを制御することにより,異なる位相位相が達成できることを示す。
これにより、ステップ関数電場を付加すると、ドメインウォールでソリトン状態が生成される。
本稿では, 2種類のソリトン状態の性質について考察する。
Graphene nanoribbons (GNRs) are unique quasi-one-dimensional (1D) materials that have garnered a lot of research interest in the field of topological insulators. While the topological phases exhibited by GNRs are primarily governed by their chemical structures, the ability to externally control these phases is crucial for their potential utilization in quantum electronics and spintronics. Here we propose a class of GNRs featured by mirror symmetry and four zigzag segments in a unit cell that has unique topological properties induced and controlled by an externally applied electric field. Their band structures manifest two finite gaps which support topological solitons, as described by an effective square-root model. To demonstrate the experimental feasibility, we design and synthesize a representative partially zigzag chevron-type GNR (pzc-GNR) with the desired zigzag segments using a bottom-up approach. First-principles calculations on pzc-GNR reveal band inversions at the two finite gaps by switching the direction of the electric field, which is in accordance with predictions from the square-root Hamiltonian. We show different topological phases can be achieved by controlling the direction of the field and the chemical potential of the system in square-root GNRs. Consequently, upon adding a step-function electric field, solitons states can be generated at the domain wall. We discuss the properties of two types of soliton states, depending on whether the terminating commensurate unit cell is mirror symmetric. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# 多モード学習のための知識駆動サブスペース融合と勾配座標
Knowledge-driven Subspace Fusion and Gradient Coordination for Multi-modal Learning ( http://arxiv.org/abs/2406.13979v1 ) ライセンス: Link先を確認 | Yupei Zhang, Xiaofei Wang, Fangliangzi Meng, Jin Tang, Chao Li, | (参考訳) マルチモーダル学習は癌診断と予後において重要な役割を担っている。
現在の深層学習に基づくマルチモーダルアプローチは、しばしば、ゲノム学と組織学データの複雑な相関をモデル化する能力によって制限され、腫瘍と微小環境の両方が悪性に寄与する腫瘍生態系の固有の複雑さに対処する。
本研究では, 組織像とゲノムの特徴部分空間を分解し, 異なる腫瘍や微小環境の特徴を反映して, 組織像とゲノムを効率的に統合する, 生物学的解釈的かつ堅牢なマルチモーダル学習フレームワークを提案する。
クロスモーダルな相互作用を強化するため、クロスモーダルな変形型アテンションモジュールと遺伝子誘導型一貫性戦略からなる知識駆動型サブスペース融合スキームを設計する。
さらに,サブスペース知識を動的に最適化するために,新たな勾配調整学習戦略を提案する。
グリオーマ診断,腫瘍グレーディング,生存解析の3つの下流課題において,提案手法の有効性を実証した。
私たちのコードはhttps://github.com/helenypzhang/Subspace-Multimodal-Learning.comで公開されています。
Multi-modal learning plays a crucial role in cancer diagnosis and prognosis. Current deep learning based multi-modal approaches are often limited by their abilities to model the complex correlations between genomics and histology data, addressing the intrinsic complexity of tumour ecosystem where both tumour and microenvironment contribute to malignancy. We propose a biologically interpretative and robust multi-modal learning framework to efficiently integrate histology images and genomics by decomposing the feature subspace of histology images and genomics, reflecting distinct tumour and microenvironment features. To enhance cross-modal interactions, we design a knowledge-driven subspace fusion scheme, consisting of a cross-modal deformable attention module and a gene-guided consistency strategy. Additionally, in pursuit of dynamically optimizing the subspace knowledge, we further propose a novel gradient coordination learning strategy. Extensive experiments demonstrate the effectiveness of the proposed method, outperforming state-of-the-art techniques in three downstream tasks of glioma diagnosis, tumour grading, and survival analysis. Our code is available at https://github.com/helenypzhang/Subspace-Multimodal-Learning. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# ディスクベースGNNトレーニングにおけるメモリコンテントの削減とI/Oコンゴレーション
Reducing Memory Contention and I/O Congestion for Disk-based GNN Training ( http://arxiv.org/abs/2406.13984v1 ) ライセンス: Link先を確認 | Qisheng Jiang, Lei Jia, Chundong Wang, | (参考訳) グラフニューラルネットワーク(GNN)が広く普及している。
高次元特徴を持つ大規模グラフは一般的になり、GNNを訓練することは通常の機械では自明ではない。
巨大なグラフが与えられた場合、トレーニングプロセス中にグラフ全体のデータをメモリに保持することは困難であるため、サンプルベースのGNNトレーニングでさえ効率的に動作できない。
ソリッドステートドライブ(SSD)や他のストレージデバイスを活用してメモリ空間を拡張することが、GNNのトレーニングで研究されている。
したがって、メモリとI/Oはディスクベースのトレーニングに不可欠である。
現状技術(SoTA)ディスクベースのGNNトレーニングシステムは、グラフのトポロジと特徴データ間のメモリ競合や、トレーニング用SSDからデータを読み込む際の激しいI/O混雑といった問題に悩まされている。
そこで我々は,GNNDriveを開発した。
GNNDrive
1) サンプリング・抽出における総括バッファ管理によるメモリフットプリントの最小化,
2)非同期特徴抽出戦略により,I/Oの混雑を回避する。
また、クリティカルパスにおける費用のかかるデータ準備を回避し、ソフトウェアやハードウェアのリソースを最大限に活用する。
実験により、GNNDriveは優れた性能を発揮することが示された。
例えば、Papers100MデータセットとGraphSAGEモデルでトレーニングする場合、GNNDriveはSoTA PyG+、Ginex、MariusGNNよりも16.9x、2.6x、2.7x高速である。
Graph neural networks (GNNs) gain wide popularity. Large graphs with high-dimensional features become common and training GNNs on them is non-trivial on an ordinary machine. Given a gigantic graph, even sample-based GNN training cannot work efficiently, since it is difficult to keep the graph's entire data in memory during the training process. Leveraging a solid-state drive (SSD) or other storage devices to extend the memory space has been studied in training GNNs. Memory and I/Os are hence critical for effectual disk-based training. We find that state-of-the-art (SoTA) disk-based GNN training systems severely suffer from issues like the memory contention between a graph's topological and feature data, and severe I/O congestion upon loading data from SSD for training. We accordingly develop GNNDrive. GNNDrive 1) minimizes the memory footprint with holistic buffer management across sampling and extracting, and 2) avoids I/O congestion through a strategy of asynchronous feature extraction. It also avoids costly data preparation on the critical path and makes the most of software and hardware resources. Experiments show that GNNDrive achieves superior performance. For example, when training with the Papers100M dataset and GraphSAGE model, GNNDrive is faster than SoTA PyG+, Ginex, and MariusGNN by 16.9x, 2.6x, and 2.7x, respectively. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# PATE-GANをリプリケートするための最善策:ベンチマーク、監査、デバッグ
The Elusive Pursuit of Replicating PATE-GAN: Benchmarking, Auditing, Debugging ( http://arxiv.org/abs/2406.13985v1 ) ライセンス: Link先を確認 | Georgi Ganev, Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, | (参考訳) 差分プライベート(DP)生成モデルによって生成された合成データは、現実世界の設定においてますます使われている。
この文脈において、PATE-GANは、GAN(Generative Adversarial Networks)とPATE(Private Aggregation of Teacher Ensembles)のプライベートトレーニングアプローチを組み合わせた一般的なアルゴリズムとして登場した。
本稿では,PATE-GANのオープンソース実装を6つ分析し,原作者の3つ(サブセット)を含むベンチマークを行う。
まず、アーキテクチャの逸脱に光を当て、元の論文で報告された実用性能を再現するものではないことを実証的に示しました。
そして、DP監査を含む詳細なプライバシ評価を行い、すべての実装が意図したよりも多くのプライバシをリークし、17のプライバシ違反やその他の5つのバグを明らかにします。
私たちのコードベースはhttps://github.com/spalabucr/pategan-audit.comから入手可能です。
Synthetic data created by differentially private (DP) generative models is increasingly used in real-world settings. In this context, PATE-GAN has emerged as a popular algorithm, combining Generative Adversarial Networks (GANs) with the private training approach of PATE (Private Aggregation of Teacher Ensembles). In this paper, we analyze and benchmark six open-source PATE-GAN implementations, including three by (a subset of) the original authors. First, we shed light on architecture deviations and empirically demonstrate that none replicate the utility performance reported in the original paper. Then, we present an in-depth privacy evaluation, including DP auditing, showing that all implementations leak more privacy than intended and uncovering 17 privacy violations and 5 other bugs. Our codebase is available from https://github.com/spalabucr/pategan-audit. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# SSA最適化ResNet50-BiGRUモデルに基づく画像異常検出と予測手法
Image anomaly detection and prediction scheme based on SSA optimized ResNet50-BiGRU model ( http://arxiv.org/abs/2406.13987v1 ) ライセンス: Link先を確認 | Qianhui Wan, Zecheng Zhang, Liheng Jiang, Zhaoqi Wang, Yan Zhou, | (参考訳) 画像異常検出は、コンピュータの急速な進歩により近年多くの手法が登場し、人気のある研究方向である。
画像異常検出における人工知能の利用は、広く研究されている。
スポーツ選手の姿勢や動きのイメージを解析することにより、外傷の状態を予測し、必要な調整を提案することができる。
既存のほとんどの方法は、無関係なピクセルデータから情報を抽出するために畳み込みネットワークに依存しており、モデルの精度を制限している。
本稿では,Residual Network(ResNet)とBidirectional Gated Recurrent Unit(BiGRU)を組み合わせたネットワークを提案する。
このネットワークの複雑さに対処するため、Sparrow Searchアルゴリズムが最適化に使われた。
4つのデータセットで行った実験により、我々のモデルは画像異常検出において他のモデルと比較して最小の誤差を持ち、強い適応性を示した。
これにより、画像の異常検出と予測分析のための新しいアプローチが提供され、人間の健康とパフォーマンスの持続的な発展に寄与する。
Image anomaly detection is a popular research direction, with many methods emerging in recent years due to rapid advancements in computing. The use of artificial intelligence for image anomaly detection has been widely studied. By analyzing images of athlete posture and movement, it is possible to predict injury status and suggest necessary adjustments. Most existing methods rely on convolutional networks to extract information from irrelevant pixel data, limiting model accuracy. This paper introduces a network combining Residual Network (ResNet) and Bidirectional Gated Recurrent Unit (BiGRU), which can predict potential injury types and provide early warnings by analyzing changes in muscle and bone poses from video images. To address the high complexity of this network, the Sparrow search algorithm was used for optimization. Experiments conducted on four datasets demonstrated that our model has the smallest error in image anomaly detection compared to other models, showing strong adaptability. This provides a new approach for anomaly detection and predictive analysis in images, contributing to the sustainable development of human health and performance. | 翻訳日:2024-06-21 17:27:03 公開日:2024-06-20 |
# LGmap: オンライン長距離ベクトル化HDマップ構築のためのローカル-グローバルマッピングネットワーク
LGmap: Local-to-Global Mapping Network for Online Long-Range Vectorized HD Map Construction ( http://arxiv.org/abs/2406.13988v1 ) ライセンス: Link先を確認 | Kuang Wu, Sulei Nian, Can Shen, Chuan Yang, Zhanbin Li, | (参考訳) 本報告では,自律グランドチャレンジ2024の1位獲得ソリューションであるマップレスドライビングを紹介する。
本稿では,長距離時間モデルに適応した新しいオンラインマッピングパイプラインLGmapを紹介する。
まず、ハイブリッドビュー変換モジュールである対称ビュー変換(SVT)を提案する。
提案手法は,前方スパース特徴表現の限界を克服し,深度知覚とSD事前情報を活用する。
次に,階層型時間融合(HTF)モジュールを提案する。
局所からグローバルへの時間的情報を使用し、高い安定性を持つ長距離HDマップの構築を促進する。
最後に,新しいペアクロスリサンプリングを提案する。
単純化されたペッド交差表現は、インスタンス注意に基づくデコーダ収束性能を加速する。
本手法はMapless Driving OpenLaneV2テストセットにおいて0.66UniScoreを実現する。
This report introduces the first-place winning solution for the Autonomous Grand Challenge 2024 - Mapless Driving. In this report, we introduce a novel online mapping pipeline LGmap, which adept at long-range temporal model. Firstly, we propose symmetric view transformation(SVT), a hybrid view transformation module. Our approach overcomes the limitations of forward sparse feature representation and utilizing depth perception and SD prior information. Secondly, we propose hierarchical temporal fusion(HTF) module. It employs temporal information from local to global, which empowers the construction of long-range HD map with high stability. Lastly, we propose a novel ped-crossing resampling. The simplified ped crossing representation accelerates the instance attention based decoder convergence performance. Our method achieves 0.66 UniScore in the Mapless Driving OpenLaneV2 test set. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# ラッシュモデルにおけるパラメータ推定のためのランダムペアリングMLE
Random pairing MLE for estimation of item parameters in Rasch model ( http://arxiv.org/abs/2406.13989v1 ) ライセンス: Link先を確認 | Yuepeng Yang, Cong Ma, | (参考訳) アイテム応答理論の古典的モデルであるラッシュモデルは、個人の潜伏特性と評価やアンケートにおける二分反応の関係をモデル化するために、心理学において広く用いられている。
本稿では,Rashモデルにおけるパラメータを忠実に推定する,ランダムペアリング最大値推定器($\mathsf{RP\text{-}MLE}$)とそのブートストラップ可変多重ランダムペアリングMLE($\mathsf{MRP\text{-}MLE}$)を紹介する。
新しい推定器には、既存の推定器に比べていくつかの魅力的な特徴がある。
まず、どちらもスパース観測のために働きます。ビッグデータ時代において、ますます重要なシナリオです。
第二に、両方の推定子は有限標本$\ell_{\infty}$推定誤差の点で証明可能な極小極小である。
最後に、$\mathsf{RP\text{-}MLE}$は、アイテムパラメータに対する不確実な定量化を可能にする正確な分布特性を認めている。
the main idea underlying $\mathsf{RP\text{-}MLE}$ and $\mathsf{MRP\text{-}MLE}$ is randomly paired user-item response to form item-item comparisons。
これは統計的独立を維持しながら問題のサイズを減らすために慎重に設計されている。
また,シミュレーションデータと実データを用いた2つの新しい推定器の有効性の実証的証拠も提供する。
The Rasch model, a classical model in the item response theory, is widely used in psychometrics to model the relationship between individuals' latent traits and their binary responses on assessments or questionnaires. In this paper, we introduce a new likelihood-based estimator -- random pairing maximum likelihood estimator ($\mathsf{RP\text{-}MLE}$) and its bootstrapped variant multiple random pairing MLE ($\mathsf{MRP\text{-}MLE}$) that faithfully estimate the item parameters in the Rasch model. The new estimators have several appealing features compared to existing ones. First, both work for sparse observations, an increasingly important scenario in the big data era. Second, both estimators are provably minimax optimal in terms of finite sample $\ell_{\infty}$ estimation error. Lastly, $\mathsf{RP\text{-}MLE}$ admits precise distributional characterization that allows uncertainty quantification on the item parameters, e.g., construction of confidence intervals of the item parameters. The main idea underlying $\mathsf{RP\text{-}MLE}$ and $\mathsf{MRP\text{-}MLE}$ is to randomly pair user-item responses to form item-item comparisons. This is carefully designed to reduce the problem size while retaining statistical independence. We also provide empirical evidence of the efficacy of the two new estimators using both simulated and real data. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 推論時間除去:大規模言語モデル評価のための漏洩ベンチマークの再利用
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation ( http://arxiv.org/abs/2406.13990v1 ) ライセンス: Link先を確認 | Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu, Ru Peng, Xipeng Qiu, Xuanjing Huang, | (参考訳) 大規模言語モデル(LLM)のトレーニングプロセスは、テストデータ汚染の度合いが異なることが多い。
現在のLLMは様々なベンチマークで性能が向上しているが、実際のアプリケーションでの性能は必ずしもベンチマーク結果と一致しない。
ベンチマークの漏洩は、LLMの真の性能の正確な評価を防ぐことができる。
しかし、新しいベンチマークの構築はコストが高く、労働集約的であり、依然としてリークのリスクを負っている。
そこで本稿では,LLM評価のために,これらのリークベンチマークを再利用できるのか,という疑問を提起する。
そこで我々は,この問題に対処するために,漏洩したサンプルを検出・書き直しすることによる推論時間汚染 (ITD) を提案する。
ITDは、リークベンチマークを記憶することによるパフォーマンスインフレーションを軽減することができる。
概念実証実験により, GSM8Kで22.9%, MMLUで19.0%の精度でITDは膨張精度を低下させることが示された。
MMLUでは、推論時間による除染はPhi3とMistralの結果をそれぞれ6.7%、Mistralは3.6%減少させる。
私たちは、ITDがより大きな言語モデルに対してより誠実な評価結果を提供できることを願っています。
The training process of large language models (LLMs) often involves varying degrees of test data contamination. Although current LLMs are achieving increasingly better performance on various benchmarks, their performance in practical applications does not always match their benchmark results. Leakage of benchmarks can prevent the accurate assessment of LLMs' true performance. However, constructing new benchmarks is costly, labor-intensive and still carries the risk of leakage. Therefore, in this paper, we ask the question, Can we reuse these leaked benchmarks for LLM evaluation? We propose Inference-Time Decontamination (ITD) to address this issue by detecting and rewriting leaked samples without altering their difficulties. ITD can mitigate performance inflation caused by memorizing leaked benchmarks. Our proof-of-concept experiments demonstrate that ITD reduces inflated accuracy by 22.9% on GSM8K and 19.0% on MMLU. On MMLU, using Inference-time Decontamination can lead to a decrease in the results of Phi3 and Mistral by 6.7% and 3.6% respectively. We hope that ITD can provide more truthful evaluation results for large language models. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 非マルコフ逆数に対するベイズ逆強化学習
Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards ( http://arxiv.org/abs/2406.13991v1 ) ライセンス: Link先を確認 | Noah Topper, Alvaro Velasquez, George Atia, | (参考訳) 逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
IRLにはいくつかのアプローチがあるが、そのほとんどはマルコフの報酬を学ぶために設計されている。
しかし、報酬関数は、報酬機械(RM)のような現在の状態以上のものに依存して、非マルコフ的かもしれない。
RMを推定する研究は近年行われているが、IRLにはない報酬信号へのアクセスを前提としている。
本稿では,専門家の行動からRMを直接推定するためのベイズIRL(BIRL)フレームワークを提案する。
我々は、新しい報酬空間を定義し、専門家のデモンストレーションを履歴を含むように適応させ、報酬を後から計算する方法を示し、この後部を最大化するためにシミュレーションアニーリングに新しい修正を提案する。
提案手法は,推定報酬に応じて最適化する場合に有効であることを示すとともに,非マルコフ報酬のみを学習する既存手法と良好に比較する。
Inverse reinforcement learning (IRL) is the problem of inferring a reward function from expert behavior. There are several approaches to IRL, but most are designed to learn a Markovian reward. However, a reward function might be non-Markovian, depending on more than just the current state, such as a reward machine (RM). Although there has been recent work on inferring RMs, it assumes access to the reward signal, absent in IRL. We propose a Bayesian IRL (BIRL) framework for inferring RMs directly from expert behavior, requiring significant changes to the standard framework. We define a new reward space, adapt the expert demonstration to include history, show how to compute the reward posterior, and propose a novel modification to simulated annealing to maximize this posterior. We demonstrate that our method performs well when optimizing according to its inferred reward and compares favorably to an existing method that learns exclusively binary non-Markovian rewards. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# LLMにおける国籍指定者による国家認知の変化を探る
Exploring Changes in Nation Perception with Nationality-Assigned Personas in LLMs ( http://arxiv.org/abs/2406.13993v1 ) ライセンス: Link先を確認 | Mahammed Kamruzzaman, Gene Louis Kim, | (参考訳) ペルソナ割り当ては、特定のタスクやコンテキストに対するLLMの使用をカスタマイズするための一般的な戦略となっている。
本研究では, LLMが特定の国籍のペルソナに割り当てられたとき, 異なる国の知覚がどう変化するかを検討する。
我々は、193の異なる国籍人格(例えば、アメリカ人)を4つの LLM に割り当て、国家に対する LLM の認識がどのように変化するかを検討する。
LLMと人格の組み合わせはすべて西欧諸国を好む傾向にあるが、国家と人格はLLMの行動をより重視し、国家と人格の地域をより有利に見るように促す。
東ヨーロッパ、ラテンアメリカ、アフリカ諸国は、異なる国籍の人格によってより否定的に見なされている。
我々の研究は、異なる国家的ペルソナを採用する際に、LCM内でバイアスやステレオタイプがどのように実現されるかについての洞察を提供する。
我々の発見は、「AI権利章典の青写真」に則って、LLMが公正さを保ち、世界規模で過度に一般化しないことを保証するためのメカニズム開発の必要性を浮き彫りにしている。
Persona assignment has become a common strategy for customizing LLM use to particular tasks and contexts. In this study, we explore how perceptions of different nations change when LLMs are assigned specific nationality personas. We assign 193 different nationality personas (e.g., an American person) to four LLMs and examine how the LLM perceptions of countries change. We find that all LLM-persona combinations tend to favor Western European nations, though nation-personas push LLM behaviors to focus more on and view more favorably the nation-persona's own region. Eastern European, Latin American, and African nations are viewed more negatively by different nationality personas. Our study provides insight into how biases and stereotypes are realized within LLMs when adopting different national personas. In line with the "Blueprint for an AI Bill of Rights", our findings underscore the critical need for developing mechanisms to ensure LLMs uphold fairness and not over-generalize at a global scale. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 貯留層計算を用いた時系列からの緩やかな時間変化系のパラメータダイナミクスの教師なし抽出による未観測分岐の予測
Prediction of Unobserved Bifurcation by Unsupervised Extraction of Slowly Time-Varying System Parameter Dynamics from Time Series Using Reservoir Computing ( http://arxiv.org/abs/2406.13995v1 ) ライセンス: Link先を確認 | Keita Tokuda, Yuichi Katori, | (参考訳) 非線形過程や非定常過程は様々な自然現象や物理現象でよく見られ、系力学は分岐現象によって定性的に変化する。
従来の機械学習手法は、観測された時系列データからそのようなシステムを学習し、予測する能力を進歩させてきた。
しかし、真のパラメータ値の知識のない時間的パラメータ変動を伴うシステムの挙動を予測することは、依然として大きな課題である。
本研究では,時系列データから徐々に変化するシステムパラメータの教師なし抽出により,貯水池計算の枠組みを利用してこの問題に対処する。
本稿では,長時間の内的力学を持つ低速貯水池と,短時間の時間的力学を持つ高速貯水池からなるモデルアーキテクチャを提案する。
遅い貯留層は系のパラメータの時間的変動を抽出し、高速力学における未知の分岐を予測するのに使用される。
カオス力学系から生成されたデータを用いて実験を行い、トレーニングデータに存在しない分岐を予測する能力を示す。
我々のアプローチは、神経科学、物質科学、気象予報などの分野への応用の可能性を示している。
Nonlinear and non-stationary processes are prevalent in various natural and physical phenomena, where system dynamics can change qualitatively due to bifurcation phenomena. Traditional machine learning methods have advanced our ability to learn and predict such systems from observed time series data. However, predicting the behavior of systems with temporal parameter variations without knowledge of true parameter values remains a significant challenge. This study leverages the reservoir computing framework to address this problem by unsupervised extraction of slowly varying system parameters from time series data. We propose a model architecture consisting of a slow reservoir with long timescale internal dynamics and a fast reservoir with short timescale dynamics. The slow reservoir extracts the temporal variation of system parameters, which are then used to predict unknown bifurcations in the fast dynamics. Through experiments using data generated from chaotic dynamical systems, we demonstrate the ability to predict bifurcations not present in the training data. Our approach shows potential for applications in fields such as neuroscience, material science, and weather prediction, where slow dynamics influencing qualitative changes are often unobservable. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 「Global is Good, Local is Bad?」 : LLMにおけるブランドバイアスの理解
"Global is Good, Local is Bad?": Understanding Brand Bias in LLMs ( http://arxiv.org/abs/2406.13997v1 ) ライセンス: Link先を確認 | Mahammed Kamruzzaman, Hieu Minh Nguyen, Gene Louis Kim, | (参考訳) 近年の多くの研究では、LSMの社会的偏見について研究されているが、ブランド偏見はほとんど注目されていない。
本研究は, LLMの異なるブランドに対する偏見を考察し, 製品レコメンデーションや市場分析などのユースケースにおいて, LLMが広く利用されていることを考えると, 重要な懸念点である。
バイアスドモデルは社会的不平等を永続させ、確立したグローバルブランドを不公平に好んで、地元のブランドを疎外する可能性がある。
4つのブランドカテゴリにわたるキュレートされたデータセットを用いて、この分野におけるLCMの挙動を探索する。
世界のブランドを肯定的な属性で結び付け、高所得国の個人に豪華な贈り物を推薦するという観点からも、この分野には一貫した偏見のパターンがある。
また, LLM は, 特定の状況下での LLM 出力において, 地域ブランドの嗜好を高めるようなカントリー・オブ・オリジンの影響を受けていることも確認した。
Many recent studies have investigated social biases in LLMs but brand bias has received little attention. This research examines the biases exhibited by LLMs towards different brands, a significant concern given the widespread use of LLMs in affected use cases such as product recommendation and market analysis. Biased models may perpetuate societal inequalities, unfairly favoring established global brands while marginalizing local ones. Using a curated dataset across four brand categories, we probe the behavior of LLMs in this space. We find a consistent pattern of bias in this space -- both in terms of disproportionately associating global brands with positive attributes and disproportionately recommending luxury gifts for individuals in high-income countries. We also find LLMs are subject to country-of-origin effects which may boost local brand preference in LLM outputs in specific contexts. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 2次元イオン結晶における密閉ゲートの個別配置
Individually Addressed Entangling Gates in a Two-Dimensional Ion Crystal ( http://arxiv.org/abs/2406.13999v1 ) ライセンス: Link先を確認 | Y. -H. Hou, Y. -J. Yi, Y. -K. Wu, Y. -Y. Chen, L. Zhang, Y. Wang, Y. -L. Xu, C. Zhang, Q. -X. Mei, H. -X. Yang, J. -Y. Ma, S. -A. Guo, J. Ye, B. -X. Qi, Z. -C. Zhou, P. -Y. Hou, L. -M. Duan, | (参考訳) 2次元(2次元)イオン結晶は、イオントラップ量子情報処理のための量子ビット数をスケールアップする有望な方法となっている。
しかし、このシステムで普遍量子コンピューティングを実現するためには、2D結晶中のイオンの必然的微小移動と2Dアドレッシングの技術的困難のため、高忠実な2ビットエンタングリングゲートを個別に扱うことが依然として困難である。
ここでは、4つのイオンからなる2次元結晶中の任意のイオン対の間に2量子のエンタングリングゲートを示す。
我々は対称配置された横アコスト光偏向器(AOD)を用いてラマン遷移を駆動し、0.1%以下で対処可能なクロストーク誤差を実現する。
我々は、2つのターゲットイオンに交互に対応してゲート列を設計・実証し、複数のアドレッシングビームからのクロストークを伴わずに任意の単一イオンアドレッシング技術と互換性を持たせる。
さらに、イオンのマイクロモーション振幅に対するゲート性能について検討し、その効果がゲート忠実度を劣化させることなくレーザー強度の再校正によって補正可能であることを示す。
我々の研究は、2Dイオン結晶上に数百から数千の量子ビットを持つイオントラップ量子コンピューティングの道を開いた。
Two-dimensional (2D) ion crystals have become a promising way to scale up qubit numbers for ion trap quantum information processing. However, to realize universal quantum computing in this system, individually addressed high-fidelity two-qubit entangling gates still remain challenging due to the inevitable micromotion of ions in a 2D crystal as well as the technical difficulty in 2D addressing. Here we demonstrate two-qubit entangling gates between any ion pairs in a 2D crystal of four ions. We use symmetrically placed crossed acousto-optic deflectors (AODs) to drive Raman transitions and achieve an addressing crosstalk error below 0.1%. We design and demonstrate a gate sequence by alternatingly addressing two target ions, making it compatible with any single-ion addressing techniques without crosstalk from multiple addressing beams. We further examine the gate performance versus the micromotion amplitude of the ions and show that its effect can be compensated by a recalibration of the laser intensity without degrading the gate fidelity. Our work paves the way for ion trap quantum computing with hundreds to thousands of qubits on a 2D ion crystal. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# パラメータ推定問題に対する深部最適実験設計
Deep Optimal Experimental Design for Parameter Estimation Problems ( http://arxiv.org/abs/2406.14003v1 ) ライセンス: Link先を確認 | Md Shahriar Rahim Siddiqui, Arman Rahmim, Eldad Haber, | (参考訳) 最適実験設計は応用科学と工学の分野でよく研究されている分野である。
このような設計を推定する手法は、パラメータ推定の枠組みの中で一般的に用いられる。
しかし,近年,従来の推定手法を代替するディープラーニング技術の導入に伴い,パラメータ推定手法が急速に変化している。
これは、これらの新しい技術に関連する最適な実験設計の適応を必要とする。
本稿では,ディープラーニングを用いた新しい実験設計手法について検討する。
ネットワークを「いいね!」自由推定器としてトレーニングすることで、設計プロセスを大幅に単純化し、非線形システムに対する最適実験設計に固有の計算コストの高い二段階最適化問題を回避することができることを示す。
さらに,パラメータ推定問題に対する回収プロセスの品質も向上する。
概念実証として、我々の方法論を通常の微分方程式の2つの異なる系に適用する。
Optimal experimental design is a well studied field in applied science and engineering. Techniques for estimating such a design are commonly used within the framework of parameter estimation. Nonetheless, in recent years parameter estimation techniques are changing rapidly with the introduction of deep learning techniques to replace traditional estimation methods. This in turn requires the adaptation of optimal experimental design that is associated with these new techniques. In this paper we investigate a new experimental design methodology that uses deep learning. We show that the training of a network as a Likelihood Free Estimator can be used to significantly simplify the design process and circumvent the need for the computationally expensive bi-level optimization problem that is inherent in optimal experimental design for non-linear systems. Furthermore, deep design improves the quality of the recovery process for parameter estimation problems. As proof of concept we apply our methodology to two different systems of Ordinary Differential Equations. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 待つな:Eコマースでユーザーフィードバックなしで再帰モデルを学習する
Do Not Wait: Learning Re-Ranking Model Without User Feedback At Serving Time in E-Commerce ( http://arxiv.org/abs/2406.14004v1 ) ライセンス: Link先を確認 | Yuan Wang, Zhiyu Li, Changshuo Zhang, Sirui Chen, Xiao Zhang, Jun Xu, Quan Lin, | (参考訳) レコメンダシステムは電子商取引で広く使われており、ドメインにおいて再ランクのモデルがますます重要な役割を担い、そのインフルエンスを活用して最終レコメンデーションリストを決定する。
オンライン学習手法は、Eコマースにおける基盤となるデータ配布のシフトを捉えるために、最新のサンプルでデプロイされたモデルを更新し続ける。
しかし、それらは実際のユーザフィードバックの可用性に依存しており、アイテム購入のような数時間や数日遅れる可能性があるため、モデルの強化が遅れる。
本稿では,LAST(Learning At Serving Time)の略語であるLAST(Learning At Serving Time)という,モデリングの階層化のためのオンライン学習手法の新たな拡張を提案する。
代理モデルを用いて、モデル改善を操縦するために必要な指導信号を提供することにより、ユーザフィードバックの要求を回避する。
オンラインリクエストを受信すると、LASTはリクエストのレコメンデーション結果を生成する前に、モデル修正をオンザフライで見つけて適用する。
変更はリクエスト固有であり、トランジェントである。
変更は、要求の特定のコンテキストをキャプチャするために、現在の要求にのみ調整されることを意味する。
要求後、修正は破棄され、これはエラーの伝播を防止し、代理モデルの予測が不正確である可能性があるため、オンライン学習手順を安定化させる。
最も重要なことは、フィードバックベースのオンライン学習手法を補完するものとして、LASTを既存のオンライン学習システムにシームレスに統合して、より適応的で応答性の高いレコメンデーションエクスペリエンスを作成することができることです。
総合的な実験は、オフラインとオンラインの両方で、LASTが最先端の再評価モデルを上回っていることを確認している。
Recommender systems have been widely used in e-commerce, and re-ranking models are playing an increasingly significant role in the domain, which leverages the inter-item influence and determines the final recommendation lists. Online learning methods keep updating a deployed model with the latest available samples to capture the shifting of the underlying data distribution in e-commerce. However, they depend on the availability of real user feedback, which may be delayed by hours or even days, such as item purchases, leading to a lag in model enhancement. In this paper, we propose a novel extension of online learning methods for re-ranking modeling, which we term LAST, an acronym for Learning At Serving Time. It circumvents the requirement of user feedback by using a surrogate model to provide the instructional signal needed to steer model improvement. Upon receiving an online request, LAST finds and applies a model modification on the fly before generating a recommendation result for the request. The modification is request-specific and transient. It means the modification is tailored to and only to the current request to capture the specific context of the request. After a request, the modification is discarded, which helps to prevent error propagation and stabilizes the online learning procedure since the predictions of the surrogate model may be inaccurate. Most importantly, as a complement to feedback-based online learning methods, LAST can be seamlessly integrated into existing online learning systems to create a more adaptive and responsive recommendation experience. Comprehensive experiments, both offline and online, affirm that LAST outperforms state-of-the-art re-ranking models. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 微調整言語モデルのための情報案内規則化
Information Guided Regularization for Fine-tuning Language Models ( http://arxiv.org/abs/2406.14005v1 ) ライセンス: Link先を確認 | Mandar Sharma, Nikhil Muralidhar, Shengzhe Xu, Raquib Bin Yosuf, Naren Ramakrishnan, | (参考訳) プレトレーニング・ファインチューニングのパラダイムは、現代言語モデリングにおけるトランスファーラーニングのデファクト戦略である。
LMにおけるタスク適応は、タスク間で共有されるパラメータの関数であるという理解から、よりスムーズな伝達学習のためには、正規化に対するより外科的なアプローチが存在する必要があると論じる。
この目的に向けて、情報理論レンズを用いて、これらの課題に敏感なパラメータによる事前学習損失景観の影響について検討する。
次に,本研究から得られた知見を活用して,モデル正規化の改善と下流一般化のための新しいアプローチを考案する。
このアプローチは、ガイド付きドロップアウトと呼ばれ、タスクとアーキテクチャの両方に依存せず、微調整プロセスに計算オーバーヘッドを追加しない。
実証的な評価を通じて、標準化ベースラインと比較して、データ疎結合のシナリオにおいても、正規化に対する我々のアプローチは一貫してパフォーマンスが向上することを示した。
The pretraining-fine-tuning paradigm has been the de facto strategy for transfer learning in modern language modeling. With the understanding that task adaptation in LMs is often a function of parameters shared across tasks, we argue that a more surgical approach to regularization needs to exist for smoother transfer learning. Towards this end, we investigate how the pretraining loss landscape is affected by these task-sensitive parameters through an information-theoretic lens. We then leverage the findings from our investigations to devise a novel approach to dropout for improved model regularization and better downstream generalization. This approach, named guided dropout, is both task & architecture agnostic and adds no computational overhead to the fine-tuning process. Through empirical evaluations, we showcase that our approach to regularization yields consistently better performance, even in scenarios of data paucity, compared to standardized baselines. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 深層学習に基づく信頼区間と同時信頼帯域
Confidence Intervals and Simultaneous Confidence Bands Based on Deep Learning ( http://arxiv.org/abs/2406.14009v1 ) ライセンス: Link先を確認 | Asaf Ben Arie, Malka Gorfine, | (参考訳) 深層学習モデルは様々な分野における予測精度を大幅に向上させ、多くの分野において認識されている。
しかし、未解決の深層学習の側面は、予測の不確実性の評価である。
信頼性のある不確実性推定器の製作は、実際的に重要な意味を持つ。
例えば、高い不確実性に関連する予測を、さらなる評価のために送信することができる。
近年の深層学習予測の不確かさの定量化研究は、ベイジアン後続の信頼区間や、頻繁な信頼区間の推定などによって、無効あるいは過度に保守的な区間が得られることが証明されている。
さらに、現在、右チャージされた結果を含む生存(時間からイベント)データにディープニューラルネットワークを適応できる不確実性を定量化する方法はない。
本研究は, 適応最適化アルゴリズムに固有の雑音からデータの不確実性を正しく解き、結果のポイントワイド信頼区間や同時信頼帯域が正確であることを保証する有効な非パラメトリックブートストラップ法を提供する(すなわち, 過度に保守的でない)。
提案したアドホック法は、トレーニングプロセスに干渉することなく、ディープニューラルネットワークに容易に統合できる。
提案手法の有効性は、深層ニューラルネットワークから得られた生存曲線と、正しい検閲を伴う生存データとの同時信頼バンドを構築することによって説明される。
Deep learning models have significantly improved prediction accuracy in various fields, gaining recognition across numerous disciplines. Yet, an aspect of deep learning that remains insufficiently addressed is the assessment of prediction uncertainty. Producing reliable uncertainty estimators could be crucial in practical terms. For instance, predictions associated with a high degree of uncertainty could be sent for further evaluation. Recent works in uncertainty quantification of deep learning predictions, including Bayesian posterior credible intervals and a frequentist confidence-interval estimation, have proven to yield either invalid or overly conservative intervals. Furthermore, there is currently no method for quantifying uncertainty that can accommodate deep neural networks for survival (time-to-event) data that involves right-censored outcomes. In this work, we provide a valid non-parametric bootstrap method that correctly disentangles data uncertainty from the noise inherent in the adopted optimization algorithm, ensuring that the resulting point-wise confidence intervals or the simultaneous confidence bands are accurate (i.e., valid and not overly conservative). The proposed ad-hoc method can be easily integrated into any deep neural network without interfering with the training process. The utility of the proposed approach is illustrated by constructing simultaneous confidence bands for survival curves derived from deep neural networks for survival data with right censoring. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# AIレンズを通して見る: LLM生成フェイクニュースに向けた人間の懐疑主義の強化
Seeing Through AI's Lens: Enhancing Human Skepticism Towards LLM-Generated Fake News ( http://arxiv.org/abs/2406.14012v1 ) ライセンス: Link先を確認 | Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee, | (参考訳) LLMは貴重な機能を提供しているが、悪意のあるユーザーが偽情報を拡散し偽ニュースを生成するために利用することができる。
LLMの流行は、様々なテキスト領域で有効な検出手法を構築するのに困難をもたらす。
さらに、オンラインソーシャルプラットフォーム上でAIが生み出すニュースの予防措置が欠如していることが問題となっている。
そのため、人間によるニュース記事とLLMによるニュース記事とを区別する能力の向上が急務である。
人書きニュースやLLM生成ニュースに手がかりを提供することで、偽のLLM生成ニュースに対して個人が懐疑的になるのを助けることができる。
本稿は,人間とLLMで作成する物品を個人が識別する簡単なマーカーを解明することを目的としている。
これを実現するために、まず、人間によって書かれた39kのニュース記事からなるデータセットを収集し、4つの異なるLCMで生成した。
次に、情報理論とエントロピー原理に基づいて、エントロピーシフトオーサリングシグナチャ(ESAS)と呼ばれるメトリクスを考案する。
提案されたESASは、記事の著者の識別に関する関連性に基づいて、POSタグのような用語やエンティティをニュース記事にランク付けする。
提案手法の有効性は,高いESASスコアを持つ単語集合を用いて,TF-IDFとロジスティック回帰分類器を組み合わせた基本手法によって達成された精度を示すことで実証する。
そこで本稿では,LSMの偽ニュースに対する懐疑性を高めるために,ESASの上位の用語を導入し,精査する。
LLMs offer valuable capabilities, yet they can be utilized by malicious users to disseminate deceptive information and generate fake news. The growing prevalence of LLMs poses difficulties in crafting detection approaches that remain effective across various text domains. Additionally, the absence of precautionary measures for AI-generated news on online social platforms is concerning. Therefore, there is an urgent need to improve people's ability to differentiate between news articles written by humans and those produced by LLMs. By providing cues in human-written and LLM-generated news, we can help individuals increase their skepticism towards fake LLM-generated news. This paper aims to elucidate simple markers that help individuals distinguish between articles penned by humans and those created by LLMs. To achieve this, we initially collected a dataset comprising 39k news articles authored by humans or generated by four distinct LLMs with varying degrees of fake. We then devise a metric named Entropy-Shift Authorship Signature (ESAS) based on the information theory and entropy principles. The proposed ESAS ranks terms or entities, like POS tagging, within news articles based on their relevance in discerning article authorship. We demonstrate the effectiveness of our metric by showing the high accuracy attained by a basic method, i.e., TF-IDF combined with logistic regression classifier, using a small set of terms with the highest ESAS score. Consequently, we introduce and scrutinize these top ESAS-ranked terms to aid individuals in strengthening their skepticism towards LLM-generated fake news. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 巡回非MDS行列についての一考察
A note on cyclic non-MDS matrices ( http://arxiv.org/abs/2406.14013v1 ) ライセンス: Link先を確認 | Tapas Chatterjee, Ayantika Laha, | (参考訳) 1998年、$ Daemen {\it{ et al }} は、リョンダエルブロック暗号の拡散層に循環最大距離分離行列を導入した。
このブロック暗号は、現在ではAESブロック暗号として広く評価されている。
2016年、リウとシムは循環行列の置換を変更して環状行列を導入し、環状行列の中で顕著なサブクラスである直交左循環行列に対するMDS特性を確立した。
循環行列は文献でよく研究されているが、循環行列の性質はそうではない。
1961年、フリードマンは循環行列のサブクラスとなる$g$循環行列を導入した。
本稿では、まず、循環行列と循環行列の間の置換同値性を確立する。
循環行列の性質は$g$-循環行列に類似する。
さらに、位数 2^d \times 2^d$ の$g$-循環行列の行列式を決定し、標数 2^d の有限体上の直交行列と MDS が同時に成り立たないことを証明する。
さらに、この結果は任意の巡回行列に対して成り立つことを証明している。
In $1998,$ Daemen {\it{ et al.}} introduced a circulant Maximum Distance Separable (MDS) matrix in the diffusion layer of the Rijndael block cipher, drawing significant attention to circulant MDS matrices. This block cipher is now universally acclaimed as the AES block cipher. In $2016,$ Liu and Sim introduced cyclic matrices by modifying the permutation of circulant matrices and established the existence of MDS property for orthogonal left-circulant matrices, a notable subclass within cyclic matrices. While circulant matrices have been well-studied in the literature, the properties of cyclic matrices are not. Back in $1961$, Friedman introduced $g$-circulant matrices which form a subclass of cyclic matrices. In this article, we first establish a permutation equivalence between a cyclic matrix and a circulant matrix. We explore properties of cyclic matrices similar to $g$-circulant matrices. Additionally, we determine the determinant of $g$-circulant matrices of order $2^d \times 2^d$ and prove that they cannot be simultaneously orthogonal and MDS over a finite field of characteristic $2$. Furthermore, we prove that this result holds for any cyclic matrix. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# 脳波感情認識のための相互クロスアテンション機構に基づく特徴融合
Feature Fusion Based on Mutual-Cross-Attention Mechanism for EEG Emotion Recognition ( http://arxiv.org/abs/2406.14014v1 ) ライセンス: Link先を確認 | Yimin Zhao, Jin Gu, | (参考訳) 客観的かつ正確な感情診断基準は心理学者にとって不可欠であり、特に病理学的理由からコミュニケーションが難しい患者を扱う際に重要である。
それでも、感情識別に使用される脳波(EEG)データに基づく現在のシステムには、過剰なモデルの複雑さ、中間精度、限定的な解釈可能性など、いくつかの問題がある。
そこで本研究では,Mutual-Cross-Attention (MCA) という新しい機能融合機構を提案する。
特別にカスタマイズされた3D畳み込みニューラルネットワーク(3D-CNN)と組み合わせることで、この純粋に数学的メカニズムは、EEGデータにおける時間領域と周波数領域の特徴の相補的関係を確実に発見する。
さらに、新しいChannel-PSD-DE 3D機能も高性能に寄与する。
提案手法は最終的にDEAデータセット上で99.49%(原子価)と99.30%(原子価)の精度を達成する。
An objective and accurate emotion diagnostic reference is vital to psychologists, especially when dealing with patients who are difficult to communicate with for pathological reasons. Nevertheless, current systems based on Electroencephalography (EEG) data utilized for sentiment discrimination have some problems, including excessive model complexity, mediocre accuracy, and limited interpretability. Consequently, we propose a novel and effective feature fusion mechanism named Mutual-Cross-Attention (MCA). Combining with a specially customized 3D Convolutional Neural Network (3D-CNN), this purely mathematical mechanism adeptly discovers the complementary relationship between time-domain and frequency-domain features in EEG data. Furthermore, the new designed Channel-PSD-DE 3D feature also contributes to the high performance. The proposed method eventually achieves 99.49% (valence) and 99.30% (arousal) accuracy on DEAP dataset. | 翻訳日:2024-06-21 17:17:16 公開日:2024-06-20 |
# CohortNet: 解釈可能なヘルスケア分析にCohort Discoveryを活用
CohortNet: Empowering Cohort Discovery for Interpretable Healthcare Analytics ( http://arxiv.org/abs/2406.14015v1 ) ライセンス: Link先を確認 | Qingpeng Cai, Kaiping Zheng, H. V. Jagadish, Beng Chin Ooi, James Yip, | (参考訳) コホート研究は、医療分析の分野で重要である。
しかし、既存の手法は通常、手動、労働集約、専門家主導のパターン定義、あるいは医学的関連性に欠ける単純化されたクラスタリング技術に依存している。
解釈可能なパターンによるコホート研究の自動化は、医療分析を促進する大きな可能性を秘めている。
本稿では,コホート自己発見モデルであるCohortNetを提案する。
CohortNetは最初、個々の特徴トレンドと各時間ステップにおける機能相互作用の両方を考慮して、個々の特徴を個別に処理することで、きめ細かい患者表現を学習する。
その後、それぞれの特徴を異なる状態に分類し、ヒューリスティックなコホート探索戦略を用いて、具体的なパターンを持つ実質的なコホートを効果的に発見する。
特定されたコホートごとに、関連する患者の検索を通じて、信頼できる証拠を伴う包括的コホート表現を学習する。
最終的に、新しい患者がいると、CohortNetは重要なコホートを活用でき、患者の状態をより包括的に理解することができる。
3つの実世界のデータセットに対する大規模な実験は、最先端のアプローチを一貫して上回り、トップダウンの方法でさまざまな視点から解釈可能な洞察を提供することを示した。
Cohort studies are of significant importance in the field of healthcare analysis. However, existing methods typically involve manual, labor-intensive, and expert-driven pattern definitions or rely on simplistic clustering techniques that lack medical relevance. Automating cohort studies with interpretable patterns has great potential to facilitate healthcare analysis but remains an unmet need in prior research efforts. In this paper, we propose a cohort auto-discovery model, CohortNet, for interpretable healthcare analysis, focusing on the effective identification, representation, and exploitation of cohorts characterized by medically meaningful patterns. CohortNet initially learns fine-grained patient representations by separately processing each feature, considering both individual feature trends and feature interactions at each time step. Subsequently, it classifies each feature into distinct states and employs a heuristic cohort exploration strategy to effectively discover substantial cohorts with concrete patterns. For each identified cohort, it learns comprehensive cohort representations with credible evidence through associated patient retrieval. Ultimately, given a new patient, CohortNet can leverage relevant cohorts with distinguished importance, which can provide a more holistic understanding of the patient's conditions. Extensive experiments on three real-world datasets demonstrate that it consistently outperforms state-of-the-art approaches and offers interpretable insights from diverse perspectives in a top-down fashion. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# Ransomware Nose OutのためのeBPFとAIの活用
Leveraging eBPF and AI for Ransomware Nose Out ( http://arxiv.org/abs/2406.14020v1 ) ライセンス: Link先を確認 | Arjun Sekar, Sameer G. Kulkarni, Joy Kuri, | (参考訳) 本研究では,ランサムウェアのリアルタイム検出と抑止のための2段階のアプローチを提案する。
そこで我々は,eBPF(Extended Berkeley Packet Filter)と人工知能の能力を活用して,能動的および反応性の両手法を開発した。
第1フェーズではシグネチャベースの検出を利用して、独自のeBPFプログラムを使用して、新しいプロセスの実行をトレースし、既知のランサムウェアデータセットに対してハッシュベースの解析を行う。
第2に,NLP(Natural Language Processing)を用いたランサムウェア活動の顕著な指標であるランサムノートの作成と,独自のeBPFプログラムを用いたプロセスアクティビティの監視に焦点を当てた行動ベースの手法を採用する。
EBPFの低レベルのトレース機能を活用し、NLPベースの機械学習アルゴリズムを統合することで、ゼロデイアタックの開始から数秒でランサムウェアインシデントを識別する精度が99.76%向上する。
In this work, we propose a two-phased approach for real-time detection and deterrence of ransomware. To achieve this, we leverage the capabilities of eBPF (Extended Berkeley Packet Filter) and artificial intelligence to develop both proactive and reactive methods. In the first phase, we utilize signature based detection, where we employ custom eBPF programs to trace the execution of new processes and perform hash-based analysis against a known ransomware dataset. In the second, we employ a behavior-based technique that focuses on monitoring the process activities using a custom eBPF program and the creation of ransom notes, a prominent indicator of ransomware activity through the use of Natural Language Processing (NLP). By leveraging low-level tracing capabilities of eBPF and integrating NLP based machine learning algorithms, our solution achieves an impressive 99.76% accuracy in identifying ransomware incidents within a few seconds on the onset of zero-day attacks. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# HighT: グラフ言語アライメントのための階層的なグラフトークン化
HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment ( http://arxiv.org/abs/2406.14021v1 ) ライセンス: Link先を確認 | Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian, | (参考訳) 近年,大規模言語モデル(LLM)の成功を,ソーシャルネットワークや分子などのグラフモダリティに拡張することへの関心が高まっている。
LLMは1Dテキストデータで主に訓練されているため、既存のほとんどのアプローチでは、グラフを一連のノードトークンとして表現し、これらのトークンをLLMに供給してグラフ言語アライメントするグラフニューラルネットワークを採用している。
いくつかの成功にもかかわらず、既存のアプローチはグラフデータに固有の階層構造を見落としている。
特に、分子グラフでは、高次構造情報は分子の機能群の豊富な意味を含み、分子の重要な生化学的機能をコードしている。
グラフトークン化における階層的情報の無視は、グラフ言語アライメントと、生成した出力における深刻な幻覚に繋がることを示す単純なベンチマークを確立する。
この問題に対処するために,階層型GrapHトークン化(HIGHT)と呼ばれる新しい戦略を提案する。
HighTは階層的なグラフトークン化器を用いて、LLMのグラフ認識を改善するために、ノード、モチーフ、およびグラフレベルの情報トークンを抽出し、エンコードする。
HighTはまた、階層的なグラフ情報に富んだグラフ言語教師付き微調整データセットを導入し、グラフ言語アライメントをさらに強化する。
7つの分子中心のベンチマークによる広範囲な実験により、幻覚の40%削減におけるHighTの有効性が確認され、また、様々な分子言語下流タスクにおいて顕著な改善がなされた。
Recently there has been a surge of interest in extending the success of large language models (LLMs) to graph modality, such as social networks and molecules. As LLMs are predominantly trained with 1D text data, most existing approaches adopt a graph neural network to represent a graph as a series of node tokens and feed these tokens to LLMs for graph-language alignment. Despite achieving some successes, existing approaches have overlooked the hierarchical structures that are inherent in graph data. Especially, in molecular graphs, the high-order structural information contains rich semantics of molecular functional groups, which encode crucial biochemical functionalities of the molecules. We establish a simple benchmark showing that neglecting the hierarchical information in graph tokenization will lead to subpar graph-language alignment and severe hallucination in generated outputs. To address this problem, we propose a novel strategy called HIerarchical GrapH Tokenization (HIGHT). HIGHT employs a hierarchical graph tokenizer that extracts and encodes the hierarchy of node, motif, and graph levels of informative tokens to improve the graph perception of LLMs. HIGHT also adopts an augmented graph-language supervised fine-tuning dataset, enriched with the hierarchical graph information, to further enhance the graph-language alignment. Extensive experiments on 7 molecule-centric benchmarks confirm the effectiveness of HIGHT in reducing hallucination by 40%, as well as significant improvements in various molecule-language downstream tasks. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# インテクスト学習の事前学習ダイナミクスの検討--タスク認識とタスク学習-
Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning ( http://arxiv.org/abs/2406.14022v1 ) ライセンス: Link先を確認 | Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Ji-Rong Wen, | (参考訳) インコンテキスト学習(ICL)の出現は、実演からタスクを認識するタスク認識(TR)と、実演から学ぶタスク学習(TL)の2つの主要な能力に起因している可能性がある。
しかし,両者の関係がICLの出現にどのように影響するかは明らかでない。
本稿では,ICLの出現の事前学習のダイナミクスを調べることで,第一歩を踏み出す。
慎重に設計されたメトリクスによって、これらの2つの能力は、実際、事前トレーニング中に競争力があることが分かります。
さらに、競合とICL性能との間には強い負の相関関係が観察された。
一般的な事前学習因子(モデルサイズ、データセットサイズ、データカリキュラム)のさらなる分析は、競合を管理するための可能な方法を示している。
これらの知見に基づき、推論時にICLにこれらの2つの能力をよりよく統合するための、シンプルで効果的な方法を提案する。
適応的なアンサンブル学習により、ICLの性能は大幅に向上し、2つの小さなモデルが2倍以上のパラメータを持つ大きなモデルよりも優れる。
コードはhttps://github.com/RUCAIBox/Competitive-ICLで入手できる。
The emergence of in-context learning (ICL) is potentially attributed to two major abilities: task recognition (TR) for recognizing the task from demonstrations and utilizing pre-trained priors, and task learning (TL) for learning from demonstrations. However, relationships between the two abilities and how such relationships affect the emergence of ICL is unclear. In this paper, we take the first step by examining the pre-training dynamics of the emergence of ICL. With carefully designed metrics, we find that these two abilities are, in fact, competitive during pre-training. Moreover, we observe a strong negative correlation between the competition and ICL performance. Further analysis of common pre-training factors (i.e., model size, dataset size, and data curriculum) demonstrates possible ways to manage the competition. Based on these insights, we propose a simple yet effective method to better integrate these two abilities for ICL at inference time. Through adaptive ensemble learning, the performance of ICL can be significantly boosted, enabling two small models to outperform a larger one with more than twice the parameters. The code is available at https://github.com/RUCAIBox/Competitive-ICL. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# 心理学的視点からの攻撃による大規模言語モデルにおけるインシシトバイアスの評価
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective ( http://arxiv.org/abs/2406.14023v1 ) ライセンス: Link先を確認 | Yuchen Wen, Keping Bi, Wei Chen, Jiafeng Guo, Xueqi Cheng, | (参考訳) 大規模言語モデル(LLM)が情報探索の重要な手段となるにつれ、LLMが生み出す非倫理的コンテンツに対する懸念が高まっている。
本稿では,特定のグループに対するLLMの暗黙的偏見の厳密な評価を行う。
我々の攻撃手法は認知心理学と社会心理学の心理学的原理に着想を得たものである。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
各プロンプト攻撃はバイリンガルバージョンを持つ。
LLMの広汎な評価は、そのことを示している。
1) すべての3つの攻撃方法が効果的に機能し,特に偽装攻撃が有効である。
2) GLM-3 は GPT-3.5 や GPT-4 と比較して,攻撃の防御において最善である。
3)LLMは,1種類のバイアスで教えられる場合,他のバイアスタイプのコンテンツを出力できる。
本手法は, LLMの暗黙バイアスを評価するための厳密で効果的な方法を提供し, LLMの潜在的な倫理的リスクの評価に有効である。
As Large Language Models (LLMs) become an important way of information seeking, there have been increasing concerns about the unethical content LLMs may generate. In this paper, we conduct a rigorous evaluation of LLMs' implicit bias towards certain groups by attacking them with carefully crafted instructions to elicit biased responses. Our attack methodology is inspired by psychometric principles in cognitive and social psychology. We propose three attack approaches, i.e., Disguise, Deception, and Teaching, based on which we built evaluation datasets for four common bias types. Each prompt attack has bilingual versions. Extensive evaluation of representative LLMs shows that 1) all three attack methods work effectively, especially the Deception attacks; 2) GLM-3 performs the best in defending our attacks, compared to GPT-3.5 and GPT-4; 3) LLMs could output content of other bias types when being taught with one type of bias. Our methodology provides a rigorous and effective way of evaluating LLMs' implicit bias and will benefit the assessments of LLMs' potential ethical risks. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# 良いか悪いか:自然言語フィードバックによるより良い数学的検証を目指して
The Reason behind Good or Bad: Towards a Better Mathematical Verifier with Natural Language Feedback ( http://arxiv.org/abs/2406.14024v1 ) ライセンス: Link先を確認 | Bofei Gao, Zefan Cai, Runxin Xu, Peiyi Wang, Ce Zheng, Runji Lin, Keming Lu, Junyang Lin, Chang Zhou, Tianyu Liu, Baobao Chang, | (参考訳) 数学的頂点は、解の正しさを検証することによって数学的推論タスクで成功する。
しかし、既存の検証器はバイナリ分類ラベルで訓練されているため、モデルが解を正確に評価するのに十分な情報がない。
上記の2進ラベルの不十分さを軽減するため、段階的な自然言語フィードバックを有理ラベル(現在のステップの正しさと説明文)として導入する。
本稿では,自動生成したトレーニングデータと,効果的なトレーニングと効率的な推論のための2段階トレーニングパラダイムを構築することで,自然言語フィードバックの強化された検証手法である「textbf{Math-Minos}」を提案する。
実験の結果,GSM8Kでは 1.6 % (86.6 % $\rightarrow$88.2 %) ,MATHでは 0.8 % (37.8 % $\rightarrow$38.6 %) の精度で検証器の性能を大幅に向上させることができることがわかった。
もうすぐ、再生のためのコード、データ、モデルをリリースします。
Mathematical verfier achieves success in mathematical reasoning tasks by validating the correctness of solutions. However, existing verifiers are trained with binary classification labels, which are not informative enough for the model to accurately assess the solutions. To mitigate the aforementioned insufficiency of binary labels, we introduce step-wise natural language feedbacks as rationale labels (i.e., the correctness of the current step and the explanations). In this paper, we propose \textbf{Math-Minos}, a natural language feedback enhanced verifier by constructing automatically-generated training data and a two-stage training paradigm for effective training and efficient inference. Our experiments reveal that a small set (30k) of natural language feedbacks can significantly boost the performance of the verifier by the accuracy of 1.6\% (86.6\% $\rightarrow$ 88.2\%) on GSM8K and 0.8\% (37.8\% $\rightarrow$ 38.6\%) on MATH. We will release the code, data and model for reproduction soon. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# 言語モデルファインチューニングにおけるデミスティフィケーション・フォーミング : 実例関係の統計的分析による検討
Demystifying Forgetting in Language Model Fine-Tuning with Statistical Analysis of Example Associations ( http://arxiv.org/abs/2406.14026v1 ) ライセンス: Link先を確認 | Xisen Jin, Xiang Ren, | (参考訳) 言語モデル(LM)は、デプロイされたLMシステムの微調整および破壊的安定性において、以前に学習された例を忘れることに悩まされていることが知られている。
忘れを軽減しようとする努力にもかかわらず、上流の事例が新しく学習された課題にどのように関連しているかを調査する者は少ない。
このような関連性に関する洞察は, 効率的に, 目的を絞った忘れの緩和を可能にする。
本稿では,モデルが$M$新しいタスクを学習し,それらの関連を$M \times N$Matrixで視覚化しながら,$N$上流の例で発生する忘れを経験的に分析する。
我々は,上流の事例と新たに学習したタスクの単純な乗法的寄与によって,忘れる程度を近似できることを実証的に実証した。
また、統計や視覚化によって、サンプルの特定のサブセットが忘れられるような、より複雑なパターンも明らかにします。
実験結果から,実験結果から行列補完を伴う新しいタスクを学習し,トレーニング可能なLMに依存した先行手法よりも優れた精度で,上流の事例で発生することを予測した。
プロジェクトウェブサイト: https://inklab.usc.edu/lm-forgetting-prediction/
Language models (LMs) are known to suffer from forgetting of previously learned examples when fine-tuned, breaking stability of deployed LM systems. Despite efforts on mitigating forgetting, few have investigated whether, and how forgotten upstream examples are associated with newly learned tasks. Insights on such associations enable efficient and targeted mitigation of forgetting. In this paper, we empirically analyze forgetting that occurs in $N$ upstream examples while the model learns $M$ new tasks and visualize their associations with a $M \times N$ matrix. We empirically demonstrate that the degree of forgetting can often be approximated by simple multiplicative contributions of the upstream examples and newly learned tasks. We also reveal more complicated patterns where specific subsets of examples are forgotten with statistics and visualization. Following our analysis, we predict forgetting that happens on upstream examples when learning a new task with matrix completion over the empirical associations, outperforming prior approaches that rely on trainable LMs. Project website: https://inklab.usc.edu/lm-forgetting-prediction/ | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# MLベースのシステム ODD に準拠したデータセットを設計するにはどうすればよいか?
How to design a dataset compliant with an ML-based system ODD? ( http://arxiv.org/abs/2406.14027v1 ) ライセンス: Link先を確認 | Cyril Cappi, Noémie Cohen, Mélanie Ducoffe, Christophe Gabreau, Laurent Gardes, Adrien Gauffriau, Jean-Brice Ginestet, Franck Mamalet, Vincent Mussot, Claire Pagetti, David Vigouroux, | (参考訳) 本稿では、ビジョンに基づくランディングタスクに着目し、機械学習(ML)システムの運用設計ドメイン(ODD)に準拠したデータセットの設計と検証を行う。
新たな認証基準に基づき,ODDをシステムレベルと画像レベルで確立するプロセスについて述べる。
本プロセスでは,高レベルの制約を動作可能な画像レベルに変換することで,検証可能なデータ品質要件(DQR)の定義を可能にする。
このアプローチを説明するために、合成画像と実写映像を組み合わせたLanding Approach Runway Detection (LARD)データセットを使用し、DQRを検証するために必要なステップに焦点を当てる。
本稿では,MLベースのシステム認証の厳密なニーズに適合するデータセットを安全クリティカルなアプリケーションで設計する上での課題について論じる。
This paper focuses on a Vision-based Landing task and presents the design and the validation of a dataset that would comply with the Operational Design Domain (ODD) of a Machine-Learning (ML) system. Relying on emerging certification standards, we describe the process for establishing ODDs at both the system and image levels. In the process, we present the translation of high-level system constraints into actionable image-level properties, allowing for the definition of verifiable Data Quality Requirements (DQRs). To illustrate this approach, we use the Landing Approach Runway Detection (LARD) dataset which combines synthetic imagery and real footage, and we focus on the steps required to verify the DQRs. The replicable framework presented in this paper addresses the challenges of designing a dataset compliant with the stringent needs of ML-based systems certification in safety-critical applications. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# 確率的回帰木の集合
Ensembles of Probabilistic Regression Trees ( http://arxiv.org/abs/2406.14033v1 ) ライセンス: Link先を確認 | Alexandre Seiller, Éric Gaussier, Emilie Devijver, Marianne Clausel, Sami Alkhoury, | (参考訳) ランダム林、勾配木、ベイジアン付加回帰木などの木に基づくアンサンブル法は、多くのアプリケーションや研究で回帰問題に成功している。
本稿では,確率分布について各領域にピーク観測を割り当てることで,目的関数のスムーズな近似を提供する確率回帰木のアンサンブルバージョンについて検討する。
確率回帰木のアンサンブルバージョンは一貫性があり, バイアス分散トレードオフを実験的に検討し, 性能予測の最先端条件と比較した。
Tree-based ensemble methods such as random forests, gradient-boosted trees, and Bayesianadditive regression trees have been successfully used for regression problems in many applicationsand research studies. In this paper, we study ensemble versions of probabilisticregression trees that provide smooth approximations of the objective function by assigningeach observation to each region with respect to a probability distribution. We prove thatthe ensemble versions of probabilistic regression trees considered are consistent, and experimentallystudy their bias-variance trade-off and compare them with the state-of-the-art interms of performance prediction. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# ダートフィールドにおける2つのキリン:大規模マルチモーダルモデルにおける状況モデリングのためのゲームプレイの利用
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models ( http://arxiv.org/abs/2406.14035v1 ) ライセンス: Link先を確認 | Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen, | (参考訳) テキストのみのモデルでは状況は改善されているが、マルチモーダル(テキストと画像)モデルが評価方法よりも高速に開発されていることは、再びそのように思われる。
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイム,すなわち,目標指向ゲーム(自分)プレイによる評価,参照ベースおよび嗜好ベースの評価を補完する手法を提案する。
具体的には、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそれらの表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
さらに分析した結果,最大モデルの例外的な深いキャプション機能によって性能が向上することが判明した。
両方のモデルにはまだ成長の余地があり、ベンチマークの継続的な妥当性が保証される。
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# 変圧器の無限長プリフィックスに向けて
Toward Infinite-Long Prefix in Transformer ( http://arxiv.org/abs/2406.14036v1 ) ライセンス: Link先を確認 | Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Chiwun Yang, | (参考訳) プレフィックスラーニング(Prefix Learning)と呼ばれるプロンプティングおよび文脈に基づく微調整手法が提案され,全パラメータの微調整に適合する様々な下流タスクにおける言語モデルの性能向上が提案されている。
これらの方法の動作に関する理論的な理解は依然として限られている。
本稿では,プレフィックス学習の学習能力をプレフィックス長の観点から研究することで,この制限を緩和することを目的とする。
特に,ニューラルタンジェントカーネル(NTK)技術を用いて,無限長の事前修正学習過程を近似する。
一層アテンションネットワークにおいて、無限長プレフィックスの学習問題として定式化して解決する。
本研究は,無限長事前修正学習における過パラメータ化特性と任意の損失収束保証を確認した。
実装の最後には、任意のプレフィックス長を持つ注意計算に「等価」なNTK-Attention法を提案する。
その時間複雑性は主に入力長のサブクアドラティック(プレフィックスなしで)に依存し、我々の手法は表現に$d^2 + d$の余分なパラメータしか必要とせず、$d$は特徴次元である。
さらに、NTK-Attentionとフルパラメータの微調整、LoRA、P-Tuning V2を視覚や自然言語のデータセットで比較する実験を行った。
その結果,本手法は多くのシナリオにおいて優れた性能を示すため,提案手法は有望なパラメータ効率・微細チューニング手法である可能性が示唆された。
我々のコードは \url{https://github.com/ChristianYang37/chiwun/tree/main/src/NTK-Attention} にある。
Prompting and contextual-based fine-tuning methods, which we call Prefix Learning, have been proposed to enhance the performance of language models on various downstream tasks that can match full parameter fine-tuning. There remains a limited theoretical understanding of how these methods work. In this paper, we aim to relieve this limitation by studying the learning ability of Prefix Learning from the perspective of prefix length. In particular, we approximate the infinite-long Prefix Learning optimization process by the Neural Tangent Kernel (NTK) technique. We formulate and solve it as a learning problem of the infinite-long prefix in a one-layer attention network. Our results confirm the over-parameterization property and arbitrary small loss convergence guarantee of the infinite-long Prefix Learning in attention. To the implementation end, we propose our NTK-Attention method, which is "equivalent" to attention computation with arbitrary prefix length efficiently. Its time complexity mainly depends on the sub-quadratic of input length (without prefix), and our method only requires $d^2 + d$ extra parameters for representation, where $d$ is the feature dimension. In addition, we conducted experiments that compare our NTK-Attention with full parameters fine-tuning, LoRA, and P-Tuning V2 methods across vision or natural language datasets. The results indicate our approach may be a promising parameter-efficient-fine-tuning method since it has demonstrated superior performance in numerous scenarios. Our code can be found at \url{https://github.com/ChristianYang37/chiwun/tree/main/src/NTK-Attention}. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# 自己適応型フォワードネットワークを用いた資源効率の高い医用画像解析
Resource-efficient Medical Image Analysis with Self-adapting Forward-Forward Networks ( http://arxiv.org/abs/2406.14038v1 ) ライセンス: Link先を確認 | Johanna P. Müller, Bernhard Kainz, | (参考訳) 本稿では,医療画像解析,省電力化,資源制限のための高速自己適応型フォワードネットワーク(SaFF-Net)について紹介する。
最近提案されたフォワード・フォワード・アルゴリズム(FFA)に基づいて、先進的な画像解析に適したパラメータ効率のアルゴリズムである畳み込みフォワード・フォワード・アルゴリズム(CFFA)を導入し、元のFFAの速度と一般化の制約を克服する。
FFAのハイパーパラメータ感度に対処するため、ウォームアップと並列トレーニングの間に、自己適応型のフレームワークSaFF-Netファインチューニングパラメータも導入しています。
提案手法により、より効果的なモデルトレーニングが可能となり、FFAにおいて任意に選択されたグッドネス関数に対して、これまで必要とされていた要求を排除できる。
我々は、標準的なバックプロパゲーション(BP)ニューラルネットワークと比較して、いくつかのベンチマークデータセットに対するアプローチを評価し、特にワンショットシナリオや大きなバッチサイズにおいて、パラメータや関数評価の少ないFFAベースのネットワークが標準モデルと競合できることを示す。
コードはカンファレンスの時点で利用可能になる。
We introduce a fast Self-adapting Forward-Forward Network (SaFF-Net) for medical imaging analysis, mitigating power consumption and resource limitations, which currently primarily stem from the prevalent reliance on back-propagation for model training and fine-tuning. Building upon the recently proposed Forward-Forward Algorithm (FFA), we introduce the Convolutional Forward-Forward Algorithm (CFFA), a parameter-efficient reformulation that is suitable for advanced image analysis and overcomes the speed and generalisation constraints of the original FFA. To address hyper-parameter sensitivity of FFAs we are also introducing a self-adapting framework SaFF-Net fine-tuning parameters during warmup and training in parallel. Our approach enables more effective model training and eliminates the previously essential requirement for an arbitrarily chosen Goodness function in FFA. We evaluate our approach on several benchmarking datasets in comparison with standard Back-Propagation (BP) neural networks showing that FFA-based networks with notably fewer parameters and function evaluations can compete with standard models, especially, in one-shot scenarios and large batch sizes. The code will be available at the time of the conference. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# リアルタイム金融ニュースの分析・分類におけるGPT-4と競合する7BモデルCryptoGPT
CryptoGPT: a 7B model rivaling GPT-4 in the task of analyzing and classifying real-time financial news ( http://arxiv.org/abs/2406.14039v1 ) ライセンス: Link先を確認 | Ying Zhang, Matthieu Petit Guillaume, Aurélien Krauth, Manel Labidi, | (参考訳) CryptoGPT: 特定のタスクにおいて GPT-4 と競合する 7B モデル -- The Impact of Automatic Annotation and Strategic Fine-Tuning via QLoRA この記事では,CryptoGPT による産業環境における限られた資源で,適切な品質の LLM を精錬する手法を提案する。
LLMは、リアルタイムに暗号通貨市場向けの金融ニュース分析のために設計されたLLMである。
このプロジェクトは産業的に開始された。
このモデルでは、財務情報の分類だけでなく、包括的な分析も可能である。
半自動アノテーションを用いて,Mistral-7B や LLama-7B のような同じ大きさのLLMを改良し,GPT-3.5 や GPT-4 といった様々な LLM と比較した。
私たちのゴールは、いくつかのニーズのバランスを見つけることです。
1.データの保護(外部サーバへの転送を避けて)
2.アノテーションのコストと時間を制限すること
3.モデルのサイズ(デプロイメントコストを管理するため)、および
4. より良い分析品質を維持すること。
CryptoGPT: a 7B model competing with GPT-4 in a specific task -- The Impact of Automatic Annotation and Strategic Fine-Tuning via QLoRAIn this article, we present a method aimed at refining a dedicated LLM of reasonable quality with limited resources in an industrial setting via CryptoGPT. It is an LLM designed for financial news analysis for the cryptocurrency market in real-time. This project was launched in an industrial context. This model allows not only for the classification of financial information but also for providing comprehensive analysis. We refined different LLMs of the same size such as Mistral-7B and LLama-7B using semi-automatic annotation and compared them with various LLMs such as GPT-3.5 and GPT-4. Our goal is to find a balance among several needs: 1. Protecting data (by avoiding their transfer to external servers), 2. Limiting annotation cost and time, 3. Controlling the model's size (to manage deployment costs), and 4. Maintaining better analysis quality. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# サンプリングのための実用的拡散経路
A Practical Diffusion Path for Sampling ( http://arxiv.org/abs/2406.14040v1 ) ライセンス: Link先を確認 | Omar Chehab, Anna Korba, | (参考訳) 拡散モデル (diffusion model) は、ターゲット確率分布からのサンプルが利用可能である場合の生成モデルにおける最先端の手法であり、スコアマッチングを用いてランゲヴィン過程を導くスコアベクトルを推定する。
しかし、ターゲットからのサンプルが入手できない設定では、例えば、このターゲットの密度が正規化定数まで知られている場合、スコア推定タスクは困難である。
従来のアプローチはモンテカルロ推定器に依存しており、計算的に計算量が多いか、サンプル非効率である。
本研究では, 閉形式で利用可能なスコアベクトルを生成する, いわゆる拡張経路に依存する, 計算的に魅力的な代替案を提案する。
この経路は、畳み込みを用いて、ディラックとターゲット分布の間を補間する。
本稿では,適応的なステップサイズを用いて,拡張経路で導かれるランゲヴィン力学の簡単な実装を提案する。
そこで,本研究では,様々なタスクに対するサンプリング手法の結果を概説し,従来の代替手法よりも優れた性能を示す。
Diffusion models are state-of-the-art methods in generative modeling when samples from a target probability distribution are available, and can be efficiently sampled, using score matching to estimate score vectors guiding a Langevin process. However, in the setting where samples from the target are not available, e.g. when this target's density is known up to a normalization constant, the score estimation task is challenging. Previous approaches rely on Monte Carlo estimators that are either computationally heavy to implement or sample-inefficient. In this work, we propose a computationally attractive alternative, relying on the so-called dilation path, that yields score vectors that are available in closed-form. This path interpolates between a Dirac and the target distribution using a convolution. We propose a simple implementation of Langevin dynamics guided by the dilation path, using adaptive step-sizes. We illustrate the results of our sampling method on a range of tasks, and shows it performs better than classical alternatives. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# LLMを用いた分類誘導ゼロショット勧告
Taxonomy-Guided Zero-Shot Recommendations with LLMs ( http://arxiv.org/abs/2406.14043v1 ) ライセンス: Link先を確認 | Yueqing Liang, Liangwei Yang, Chen Wang, Xiongxiao Xu, Philip S. Yu, Kai Shu, | (参考訳) 大規模言語モデル(LLM)が出現し、様々なタスクを実行できるようになり、レコメンデータシステム(RecSys)での応用が約束されている。
しかし、LLMをRecSysにデプロイする際には、制限されたプロンプト長、構造化されていないアイテム情報、制約のないレコメンデーションの生成など、重大な課題に直面しており、それによってサブ最適性能がもたらされる。
これらの問題に対処するために,分類辞書を用いた新しい手法を提案する。
項目の分類と整理を行うための体系的な枠組みを提供し、項目情報の明確さと構造を改善する。
分類辞書をLSMプロンプトに組み込むことで,効率的なトークン利用と制御された特徴生成を実現し,より正確で文脈的に関係のあるレコメンデーションを実現する。
分類誘導勧告 (TaxRec) アプローチでは, ドメイン固有の微調整を必要とせず, ゼロショットレコメンデーションを可能にする一段階の分類分類分類とLCMに基づくレコメンデーションという2段階のプロセスが特徴である。
実験の結果,TaxRecは従来のゼロショットアプローチと比較してリコメンデーション品質を著しく向上させ,LLMを用いた個人レコメンデーションとしての有効性を示した。
コードはhttps://github.com/yueqingliang1/TaxRec.comで入手できる。
With the emergence of large language models (LLMs) and their ability to perform a variety of tasks, their application in recommender systems (RecSys) has shown promise. However, we are facing significant challenges when deploying LLMs into RecSys, such as limited prompt length, unstructured item information, and un-constrained generation of recommendations, leading to sub-optimal performance. To address these issues, we propose a novel method using a taxonomy dictionary. This method provides a systematic framework for categorizing and organizing items, improving the clarity and structure of item information. By incorporating the taxonomy dictionary into LLM prompts, we achieve efficient token utilization and controlled feature generation, leading to more accurate and contextually relevant recommendations. Our Taxonomy-guided Recommendation (TaxRec) approach features a two-step process: one-time taxonomy categorization and LLM-based recommendation, enabling zero-shot recommendations without the need for domain-specific fine-tuning. Experimental results demonstrate TaxRec significantly enhances recommendation quality compared to traditional zero-shot approaches, showcasing its efficacy as personal recommender with LLMs. Code is available at https://github.com/yueqingliang1/TaxRec. | 翻訳日:2024-06-21 15:10:05 公開日:2024-06-20 |
# X線スペクトルの解釈におけるエンコーダ・デコーダニューラルネットワーク
Encoder-Decoder Neural Networks in Interpretation of X-ray Spectra ( http://arxiv.org/abs/2406.14044v1 ) ライセンス: Link先を確認 | Jalmari Passilahti, Anton Vladyka, Johannes Niskanen, | (参考訳) エンコーダデコーダニューラルネットワーク(EDNN)は、フィードフォワードネットワークの出力に最も関連性の高い情報をボトルネック層におけるアクティベーション値に収束させる。
本研究では,エミュレータを用いた成分分析 (ECA) を用いて従来研究されてきたスペクトルの重要構造特性の同定を目的とした,シミュレーションX線分光データのエミュレーションと解釈におけるこのアーキテクチャの利用について検討する。
EDNNは対象変数の分散度でECAを上回り、物理用語で潜伏変数を解釈する際の複雑さも発見できる。
これら2つのアプローチの利点の妥協として,ECAの線形射影を用いたネットワークを開発し,その解釈のために潜伏変数からのベクトル展開の有益な特性を維持する。
これらの結果は、その凝縮後の情報回復の必要性と、正当化された解釈のための出力スペクトルに対する決定的構造次数を同定することの要点である。
Encoder-decoder neural networks (EDNN) condense information most relevant to the output of the feedforward network to activation values at a bottleneck layer. We study the use of this architecture in emulation and interpretation of simulated X-ray spectroscopic data with the aim to identify key structural characteristics for the spectra, previously studied using emulator-based component analysis (ECA). We find an EDNN to outperform ECA in covered target variable variance, but also discover complications in interpreting the latent variables in physical terms. As a compromise of the benefits of these two approaches, we develop a network where the linear projection of ECA is used, thus maintaining the beneficial characteristics of vector expansion from the latent variables for their interpretation. These results underline the necessity of information recovery after its condensation and identification of decisive structural degrees for the output spectra for a justified interpretation. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 大規模時系列モデルの訓練における異なる設計選択の理解
Understanding Different Design Choices in Training Large Time Series Models ( http://arxiv.org/abs/2406.14045v1 ) ライセンス: Link先を確認 | Yu-Neng Chuang, Songchen Li, Jiayi Yuan, Guanchu Wang, Kwei-Herng Lai, Leisheng Yu, Sirui Ding, Chia-Yuan Chang, Qiaoyu Tan, Daochen Zha, Xia Hu, | (参考訳) 大言語モデル(LLM)にインスパイアされた時系列予測(TSF)は、TSFのユニバーサルトランスフォーマーベースモデルをトレーニングすることを目的とした、時系列分析における長年の課題である。
しかし、ヘテロジニアス時系列データに対するLTSMのトレーニングは、さまざまな周波数、次元、データセット間のパターンなど、ユニークな課題を生んでいる。
最近の取り組みでは、LTSMトレーニングと一般化能力の向上、事前処理技術、モデル構成、データセット構成にまたがる様々な設計選択を研究し、評価している。
本研究では、これらの設計選択を包括的に分析し、LTSMのトレーニングにおけるベストプラクティスを特定することを目的とする。
さらに,時系列データに合わせた新しい統計的プロンプト戦略である「emph{time series prompt}」を提案する。
さらに,分析結果から,最も優れた設計選択をバンドルした「texttt{LTSM-bundle}」を紹介した。
実験結果から, ベンチマークデータセット上での最先端のLSTMや従来のTLF手法と比較して, ゼロショットと少数ショットのパフォーマンスが優れていることが示された。
Inspired by Large Language Models (LLMs), Time Series Forecasting (TSF), a long-standing task in time series analysis, is undergoing a transition towards Large Time Series Models (LTSMs), aiming to train universal transformer-based models for TSF. However, training LTSMs on heterogeneous time series data poses unique challenges, including diverse frequencies, dimensions, and patterns across datasets. Recent endeavors have studied and evaluated various design choices aimed at enhancing LTSM training and generalization capabilities, spanning pre-processing techniques, model configurations, and dataset configurations. In this work, we comprehensively analyze these design choices and aim to identify the best practices for training LTSM. Moreover, we propose \emph{time series prompt}, a novel statistical prompting strategy tailored to time series data. Furthermore, based on the observations in our analysis, we introduce \texttt{LTSM-bundle}, which bundles the best design choices we have identified. Empirical results demonstrate that \texttt{LTSM-bundle} achieves superior zero-shot and few-shot performances compared to state-of-the-art LSTMs and traditional TSF methods on benchmark datasets. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 制約付きメタ非依存強化学習
Constrained Meta Agnostic Reinforcement Learning ( http://arxiv.org/abs/2406.14047v1 ) ライセンス: Link先を確認 | Karam Daaboul, Florian Kuhm, Tim Joseph, J. Marius Zoellner, | (参考訳) メタ強化学習(Meta-RL)は,多様なタスクに迅速に適応するためのメタ知識獲得を目的としている。
しかし,これらの政策を実環境に適用することは,環境制約に順応した迅速な適応性のバランスをとる上で大きな課題となる。
我々の新しいアプローチであるConstraint Model Agnostic Meta Learning (C-MAML)は、メタ学習と制約付き最適化を融合して、この問題に対処します。
C-MAMLは、トレーニングフェーズ中にタスク固有の制約を直接メタアルゴリズムフレームワークに組み込むことで、迅速かつ効率的なタスク適応を可能にする。
この融合は、新しいタスクを学ぶためのより安全な初期パラメータをもたらす。
C-MAMLは, 動的環境下での実用性と堅牢性を強調し, 複雑度が変化する車輪付きロボットの動作シミュレーションにおいて, 有効性を示す。
Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. However, applying these policies in real-world environments presents a significant challenge in balancing rapid adaptability with adherence to environmental constraints. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to address this challenge. C-MAML enables rapid and efficient task adaptation by incorporating task-specific constraints directly into its meta-algorithm framework during the training phase. This fusion results in safer initial parameters for learning new tasks. We demonstrate the effectiveness of C-MAML in simulated locomotion with wheeled robot tasks of varying complexity, highlighting its practicality and robustness in dynamic environments. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 固定システムにおけるプロンプトインジェクションアタック
Prompt Injection Attacks in Defended Systems ( http://arxiv.org/abs/2406.14048v1 ) ライセンス: Link先を確認 | Daniil Khomsky, Narek Maloyan, Bulat Nutfullin, | (参考訳) 大規模言語モデルは、現代の自然言語処理技術において重要な役割を担っている。
しかし、その広範囲な使用は、ブラックボックス攻撃の可能性のような潜在的なセキュリティリスクも引き起こす。
これらの攻撃は、隠された悪意のある機能をモデルに埋め込むことができ、デプロイ中に悪影響を及ぼす。
本稿では,3段階の防御機構を持つ大規模言語モデルに対するブラックボックス攻撃手法について検討する。
これらの攻撃の課題と重要性を分析し、言語処理システムのセキュリティに対する潜在的な影響を強調します。
既存の攻撃法と防御法について検討し, 各種シナリオにおける有効性と適用性について検討した。
ブラックボックス攻撃の検出アルゴリズム、言語モデルにおける有害な脆弱性の特定、機密情報の検索に特に注意が払われている。
本研究では,大規模言語モデルに対するブラックボックス攻撃に対する脆弱性検出手法と防御戦略の開発について述べる。
Large language models play a crucial role in modern natural language processing technologies. However, their extensive use also introduces potential security risks, such as the possibility of black-box attacks. These attacks can embed hidden malicious features into the model, leading to adverse consequences during its deployment. This paper investigates methods for black-box attacks on large language models with a three-tiered defense mechanism. It analyzes the challenges and significance of these attacks, highlighting their potential implications for language processing system security. Existing attack and defense methods are examined, evaluating their effectiveness and applicability across various scenarios. Special attention is given to the detection algorithm for black-box attacks, identifying hazardous vulnerabilities in language models and retrieving sensitive information. This research presents a methodology for vulnerability detection and the development of defensive strategies against black-box attacks on large language models. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 医用画像におけるショートカット学習の緩和のための迷路指向ビジョンGNN
Gaze-directed Vision GNN for Mitigating Shortcut Learning in Medical Image ( http://arxiv.org/abs/2406.14050v1 ) ライセンス: Link先を確認 | Shaoxuan Wu, Xiao Zhang, Bin Wang, Zhuo Jin, Hansheng Li, Jun Feng, | (参考訳) ディープニューラルネットワークは、医用画像解析において顕著な性能を示した。
しかし、ショートカット学習による素早い相関に対する感受性は、ネットワークの解釈可能性や信頼性に関する懸念を引き起こす。
さらに、医学的文脈において、病気の指標が微妙で疎外である場合、ショートカット学習が悪化する。
本稿では,放射線科医の視覚パターンを専門知識として活用し,ネットワークを疾患関連領域へ誘導し,ショートカット学習を緩和する,新しい視線指向ビジョンGNN(GD-ViG)を提案する。
GD-ViGは、視線マップジェネレータ(GMG)と視線指向分類器(GDC)から構成される。
GNNのグローバルなモデリング能力とCNNの局所性を組み合わせることで、GMGは放射線学者の視覚パターンに基づいた視線マップを生成する。
特に、推測中の実際の視線データの必要性を排除し、ネットワークの実用性を高める。
専門知識として視線を利用すると、GDCは特徴距離と視線距離の両方を組み込むことでグラフ構造の構築を指示し、ネットワークは疾患関連フォアグラウンドに集中することができる。
これにより、ショートカット学習を回避し、ネットワークの解釈可能性を改善する。
2つの公開医療画像データセットの実験では、GD-ViGは最先端の手法よりも優れており、ショートカット学習を効果的に軽減している。
私たちのコードはhttps://github.com/SX-SS/GD-ViG.comで公開されています。
Deep neural networks have demonstrated remarkable performance in medical image analysis. However, its susceptibility to spurious correlations due to shortcut learning raises concerns about network interpretability and reliability. Furthermore, shortcut learning is exacerbated in medical contexts where disease indicators are often subtle and sparse. In this paper, we propose a novel gaze-directed Vision GNN (called GD-ViG) to leverage the visual patterns of radiologists from gaze as expert knowledge, directing the network toward disease-relevant regions, and thereby mitigating shortcut learning. GD-ViG consists of a gaze map generator (GMG) and a gaze-directed classifier (GDC). Combining the global modelling ability of GNNs with the locality of CNNs, GMG generates the gaze map based on radiologists' visual patterns. Notably, it eliminates the need for real gaze data during inference, enhancing the network's practical applicability. Utilizing gaze as the expert knowledge, the GDC directs the construction of graph structures by incorporating both feature distances and gaze distances, enabling the network to focus on disease-relevant foregrounds. Thereby avoiding shortcut learning and improving the network's interpretability. The experiments on two public medical image datasets demonstrate that GD-ViG outperforms the state-of-the-art methods, and effectively mitigates shortcut learning. Our code is available at https://github.com/SX-SS/GD-ViG. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 光球の変更に要するパラメータはいくつあるか? : モデル特性の関数としての会話ゲーム自己プレイの性能評価
How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics ( http://arxiv.org/abs/2406.14051v1 ) ライセンス: Link先を確認 | Nidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen, | (参考訳) 優れたLarge Language Model(LLM)とは何か?
関連するベンチマークでうまく機能していること -- ある程度の妥当性で、実際のアプリケーションでも問題となる機能の存在を測定することが望まれます。
しかし、なぜモデルがうまく機能するのか?
モデルに能力を与えるものは何か?
最近導入されたタイプのベンチマークは、対話型ゲームの自己プレイを通じて、目標指向のエージェント的コンテキストにおける能力に挑戦することを目的としており、パラメータの数やトレーニングの種類といったモデル特性の関数として、パフォーマンスがどのように発達するかを分析する。
パラメータの数と性能の間には明確な関係があるが,データ品質や手法の微調整など,パラメータの訓練によって考慮すべき,特定のサイズのブラケット内にはまだ幅広いパフォーマンスポイントが分散していることがわかった。
より実践的な角度から見ると、未公表のサンプリングパラメータによって可能となるアクセスメソッド間の性能に関するある程度の予測不可能性や、推論中の少なくとも適度な量化に対するパフォーマンスの安定性が、非常に歓迎される。
What makes a good Large Language Model (LLM)? That it performs well on the relevant benchmarks -- which hopefully measure, with some validity, the presence of capabilities that are also challenged in real application. But what makes the model perform well? What gives a model its abilities? We take a recently introduced type of benchmark that is meant to challenge capabilities in a goal-directed, agentive context through self-play of conversational games, and analyse how performance develops as a function of model characteristics like number of parameters, or type of training. We find that while there is a clear relationship between number of parameters and performance, there is still a wide spread of performance points within a given size bracket, which is to be accounted for by training parameters such as fine-tuning data quality and method. From a more practical angle, we also find a certain degree of unpredictability about performance across access methods, possible due to unexposed sampling parameters, and a, very welcome, performance stability against at least moderate weight quantisation during inference. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# Perspective+Unet: Bi-Path Fusion によるセグメンテーションの強化と高次受容野に対する効率的な非局所的注意
Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields ( http://arxiv.org/abs/2406.14052v1 ) ライセンス: Link先を確認 | Jintong Hu, Siyan Chen, Zhiyi Pan, Sen Zeng, Wenming Yang, | (参考訳) 医療画像の精密なセグメント化は、診断の精度を高め、効果的な治療計画を策定し、患者の結果を改善するための重要な役割を担っている、重要な臨床情報を抽出するための基本となる。
畳み込みニューラルネットワーク(CNN)と非局所的注意法は、医用画像のセグメンテーションにおいて顕著な成功を収めてきたが、局所的な特徴に依存しているため、長距離空間依存を捉えるのに苦労するか、この問題にグローバルな注意機構で対処しようとすると、重要な計算と機能統合の課題に直面している。
医用画像のセグメンテーションにおける既存の限界を克服するために,新しいアーキテクチャであるspective+Unetを提案する。
このフレームワークは3つの大きなイノベーションによって特徴づけられる。
(i)従来の畳み込みと拡張された畳み込みの結果を組み合わせたエンコーダ段階での二重経路戦略を導入する。
これにより、局所受容野を維持できるだけでなく、画像のグローバルな構造をよりよく理解し、詳細な感度を維持することができる。
(II)このフレームワークは、カーネル関数近似を利用して、線形計算と空間的複雑さを伴う効率的な長距離依存性キャプチャを実現する、ENLTBと呼ばれる効率的な非局所トランスフォーマーブロックを組み込んでいる。
三 空間的クロススケールインテグレータ戦略は、グローバルな依存関係と局所的な文脈的手がかりをモデルステージにマージし、様々なレベルの特徴を巧みに洗練し、グローバルな情報とローカルな情報を調和させるものである。
ACDCとSynapseのデータセットによる実験結果から,提案したパースペクティブ+Unetの有効性が示された。
コードは補足資料で入手できる。
Precise segmentation of medical images is fundamental for extracting critical clinical information, which plays a pivotal role in enhancing the accuracy of diagnoses, formulating effective treatment plans, and improving patient outcomes. Although Convolutional Neural Networks (CNNs) and non-local attention methods have achieved notable success in medical image segmentation, they either struggle to capture long-range spatial dependencies due to their reliance on local features, or face significant computational and feature integration challenges when attempting to address this issue with global attention mechanisms. To overcome existing limitations in medical image segmentation, we propose a novel architecture, Perspective+ Unet. This framework is characterized by three major innovations: (i) It introduces a dual-pathway strategy at the encoder stage that combines the outcomes of traditional and dilated convolutions. This not only maintains the local receptive field but also significantly expands it, enabling better comprehension of the global structure of images while retaining detail sensitivity. (ii) The framework incorporates an efficient non-local transformer block, named ENLTB, which utilizes kernel function approximation for effective long-range dependency capture with linear computational and spatial complexity. (iii) A Spatial Cross-Scale Integrator strategy is employed to merge global dependencies and local contextual cues across model stages, meticulously refining features from various levels to harmonize global and local information. Experimental results on the ACDC and Synapse datasets demonstrate the effectiveness of our proposed Perspective+ Unet. The code is available in the supplementary material. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# コントラストデータ共有による都市型マルチタスクオフライン強化学習
Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing ( http://arxiv.org/abs/2406.14054v1 ) ライセンス: Link先を確認 | Xinbo Zhao, Yingxue Zhang, Xin Zhang, Yu Yang, Yiqun Xie, Yanhua Li, Jun Luo, | (参考訳) 都市環境における多様な人的意思決定プロセスの強化は、配車サービス、公共交通機関の管理、自動運転など、様々な応用において重要な課題である。
オフライン強化学習(英: Offline reinforcement learning, RL)は、事前収集した人為的空間時間的都市データから人間の都市戦略(または政策)を学習し、最適化するための有望なアプローチである。
しかし、標準オフラインRLは、(1)データの不足とデータの均一性、(2)分散シフトの2つの大きな課題に直面している。
本稿では,Multi-Task Offline Reinforcement Learning with Contrastive Data Sharingアプローチを紹介する。
MODAは、タスク間のContrastive Data Sharingを通じて、マルチタスクの都市環境でのデータ不足と不均一性の課題に対処する。
この手法は、正と負のデータペアを対比することにより、人間の行動の潜在表現を抽出する。
次に、ターゲットタスクに類似した表現を示すデータを共有し、各タスクに対するデータ拡張を容易にする。
さらに、MODAは、新しいモデルベースのマルチタスクオフラインRLアルゴリズムを開発した。
このアルゴリズムは、動的モデルとGAN(Generative Adversarial Network)を統合することにより、ロバストなマルコフ決定プロセス(MDP)を構築する。
堅牢なMDPが確立されると、オンラインのRLや計画アルゴリズムを適用することができる。
実世界のマルチタスク都市環境で行った大規模な実験により,MODAの有効性が検証された。
その結果、MODAは最先端のベースラインに比べて大幅に改善され、都市意思決定プロセスの進展におけるその能力を示すことが示された。
コードもリサーチコミュニティに公開しました。
Enhancing diverse human decision-making processes in an urban environment is a critical issue across various applications, including ride-sharing vehicle dispatching, public transportation management, and autonomous driving. Offline reinforcement learning (RL) is a promising approach to learn and optimize human urban strategies (or policies) from pre-collected human-generated spatial-temporal urban data. However, standard offline RL faces two significant challenges: (1) data scarcity and data heterogeneity, and (2) distributional shift. In this paper, we introduce MODA -- a Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing approach. MODA addresses the challenges of data scarcity and heterogeneity in a multi-task urban setting through Contrastive Data Sharing among tasks. This technique involves extracting latent representations of human behaviors by contrasting positive and negative data pairs. It then shares data presenting similar representations with the target task, facilitating data augmentation for each task. Moreover, MODA develops a novel model-based multi-task offline RL algorithm. This algorithm constructs a robust Markov Decision Process (MDP) by integrating a dynamics model with a Generative Adversarial Network (GAN). Once the robust MDP is established, any online RL or planning algorithm can be applied. Extensive experiments conducted in a real-world multi-task urban setting validate the effectiveness of MODA. The results demonstrate that MODA exhibits significant improvements compared to state-of-the-art baselines, showcasing its capability in advancing urban decision-making processes. We also made our code available to the research community. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# VGA: Vision GUI Assistant -- Image-Centric Fine-Tuningによる幻覚の最小化
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning ( http://arxiv.org/abs/2406.14056v1 ) ライセンス: Link先を確認 | Ziyang Meng, Yu Dai, Zezheng Gong, Shaoxiong Guo, Minglong Tang, Tongquan Wei, | (参考訳) LVLM(Large Vision-Language Models)の最近の進歩は、フォーマットチャートやリッチコンテンツ画像などの画像理解タスクの性能を大幅に向上させた。
しかし、グラフィカルユーザインタフェース(GUI)は、構造化フォーマットと詳細なテキスト情報のために、より大きな課題を生んでいる。
既存のLVLMは、しばしば内部知識に依存し、画像の内容を無視し、GUI理解における幻覚や誤った応答をもたらす。
本モデルは,GUIの視覚的データの解釈を強化し,幻覚を減らすことを目的としている。
まず,視覚質問回答(VQA)データセットを63.8kの高品質なサンプルを用いて構築し,画像内の視覚的内容にモデル応答が強く依存することを保証する。
次に、画像コンテンツから情報を取り出す能力と人間の意図との整合性を高めるために、ファウンデーションとアドバンスト・コングリジョン(FAC)と呼ばれる2段階の微調整手法を設計する。
実験により,本手法は画像から情報を取り出す能力を向上し,GUI理解タスクにおける最新の結果が得られることが示された。
データセットと微調整スクリプトが近くリリースされる予定です。
Recent advances in Large Vision-Language Models (LVLMs) have significantly improve performance in image comprehension tasks, such as formatted charts and rich-content images. Yet, Graphical User Interface (GUI) pose a greater challenge due to their structured format and detailed textual information. Existing LVLMs often overly depend on internal knowledge and neglect image content, resulting in hallucinations and incorrect responses in GUI comprehension.To address these issues, we introduce VGA, a fine-tuned model designed for comprehensive GUI understanding. Our model aims to enhance the interpretation of visual data of GUI and reduce hallucinations. We first construct a Vision Question Answering (VQA) dataset of 63.8k high-quality examples with our propose Referent Method, which ensures the model's responses are highly depend on visual content within the image. We then design a two-stage fine-tuning method called Foundation and Advanced Comprehension (FAC) to enhance both the model's ability to extract information from image content and alignment with human intent. Experiments show that our approach enhances the model's ability to extract information from images and achieves state-of-the-art results in GUI understanding tasks. Our dataset and fine-tuning script will be released soon. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 時変変変量不等式の追従解
Tracking solutions of time-varying variational inequalities ( http://arxiv.org/abs/2406.14059v1 ) ライセンス: Link先を確認 | Hédi Hadiji, Sarah Sachs, Cristóbal Guzmán, | (参考訳) 時変変変分不等式の解を追跡することは、ゲーム理論、最適化、機械学習の応用において重要な問題である。
既存の作業では、時間変化ゲームや時間変化最適化の問題が考慮されている。
強凸最適化問題や強単調ゲームの場合、これらの結果は、時間変化問題の変化が抑制されるという仮定のもと、つまり、部分線型解経路の問題を追跡保証する。
本研究では,(1) 変分不等式と,(1) 変分不等式と,(2) 変分不等式と,(1) 変分不等式と,(2) 変分不等式は,必ずしも下線解路長を持たない。
第2の貢献は、周期的時間変化VIの離散力学系の収束挙動と軌道に関する広範な研究である。
これらのシステムは、確実にカオス的な振る舞いを示すか、ソリューションに収束できることを示す。
最後に,実験による理論結果について解説する。
Tracking the solution of time-varying variational inequalities is an important problem with applications in game theory, optimization, and machine learning. Existing work considers time-varying games or time-varying optimization problems. For strongly convex optimization problems or strongly monotone games, these results provide tracking guarantees under the assumption that the variation of the time-varying problem is restrained, that is, problems with a sublinear solution path. In this work we extend existing results in two ways: In our first result, we provide tracking bounds for (1) variational inequalities with a sublinear solution path but not necessarily monotone functions, and (2) for periodic time-varying variational inequalities that do not necessarily have a sublinear solution path-length. Our second main contribution is an extensive study of the convergence behavior and trajectory of discrete dynamical systems of periodic time-varying VI. We show that these systems can exhibit provably chaotic behavior or can converge to the solution. Finally, we illustrate our theoretical results with experiments. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# グッドプットを用いた大規模言語モデル実行のための投機的デコーディングの最適化
Optimizing Speculative Decoding for Serving Large Language Models Using Goodput ( http://arxiv.org/abs/2406.14066v1 ) ライセンス: Link先を確認 | Xiaoxuan Liu, Cade Daniel, Langxiang Hu, Woosuk Kwon, Zhuohan Li, Xiangxi Mo, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang, | (参考訳) 大規模言語モデル(LLM)の推論遅延の低減は重要であり、投機的復号化(SD)は最も効果的な手法の1つである。
LLMが全てのトークンを直接生成させる代わりに、投機的復号法は潜在的な出力を予測するために有効なプロキシを使用し、生成品質を損なうことなくLSMによって検証される。
しかし、実際のオンライン LLM サービスシステムに SD をデプロイすることは、常に改善をもたらすとは限らない -- より高い要求率や低い投機精度の下では、パラドックス的にレイテンシを向上する。さらに、異なるシステム負荷下でのすべてのワークロードに対して、最高の投機期間の作業はない。観察に基づいて、SmartSpec を開発した。SmartSpec は、各要求に対して最適な投機期間を動的に決定する(つまり、多くのトークンに対する投機がない)。従って、関連する投機実行コストは、システム全体の現在の監視負荷と投機精度を特徴付ける新しい指標である goodput に基づく。
SmartSpecは、ターゲットモデル、ドラフトモデル、要求レート、データセットの異なるサイズの非投機的デコードベースラインと比較して、平均要求遅延を最大3.2倍まで減少させる。
さらにSmartSpecは、従来のモデルベースのアプローチや、プロンプトルックアップやツリースタイルのデコーディングといったモデルフリーメソッドなど、投機的デコーディングの異なるスタイルにも適用することができる。
Reducing the inference latency of large language models (LLMs) is crucial, and speculative decoding (SD) stands out as one of the most effective techniques. Rather than letting the LLM generate all tokens directly, speculative decoding employs effective proxies to predict potential outputs, which are then verified by the LLM without compromising the generation quality. Yet, deploying SD in real online LLM serving systems (with continuous batching) does not always yield improvement -- under higher request rates or low speculation accuracy, it paradoxically increases latency. Furthermore, there is no best speculation length work for all workloads under different system loads. Based on the observations, we develop a dynamic framework SmartSpec. SmartSpec dynamically determines the best speculation length for each request (from 0, i.e., no speculation, to many tokens) -- hence the associated speculative execution costs -- based on a new metric called goodput, which characterizes the current observed load of the entire system and the speculation accuracy. We show that SmartSpec consistently reduces average request latency by up to 3.2x compared to non-speculative decoding baselines across different sizes of target models, draft models, request rates, and datasets. Moreover, SmartSpec can be applied to different styles of speculative decoding, including traditional, model-based approaches as well as model-free methods like prompt lookup and tree-style decoding. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 機械学習とメタボロミクスデータを用いたドライアイ病患者の健康管理の分類
Classifying Dry Eye Disease Patients from Healthy Controls Using Machine Learning and Metabolomics Data ( http://arxiv.org/abs/2406.14068v1 ) ライセンス: Link先を確認 | Sajad Amouei Sheshkal, Morten Gundersen, Michael Alexander Riegler, Øygunn Aass Utheim, Kjell Gunnar Gundersen, Hugo Lewi Hammer, | (参考訳) ドライアイ病は眼表面の一般的な疾患であり、患者はアイケアを求める。
現在、ドライアイ病の診断に臨床症状や症状が用いられている。
生体系を解析する手法であるメタボロミクスは、患者の異なる代謝産物の同定や、初期のドライアイ病を示す代謝プロファイルの検出に有用である。
本研究では, ドライアイ病の白内障患者を特定するために, 機械学習とメタボロミクス情報を用いて検討した。
メタボロミクスデータに適した機械学習モデルが存在しないため、最も適切なモデルを選択することは、予測の品質とその後のメタボロミクス分析に大きな影響を与える可能性がある。
この課題に対処するため,白内障患者の3つのメタボロミクスデータセットを用いた9つの機械学習モデルの比較分析を行った。
モデルをネストしたk-foldクロスバリデーションを用いて評価・最適化した。
これらのモデルの性能を評価するため、データセットの課題に適した評価指標のセットを選択した。
総合的なロジスティック回帰モデルは,曲線スコア0.8378,バランス精度0.735,マシュー相関係数0.5147,F1スコア0.8513,特異度0.5667で最高値を達成した。
さらに、ロジスティック回帰の後、XGBoostとRandom Forestのモデルも優れた性能を示した。
Dry eye disease is a common disorder of the ocular surface, leading patients to seek eye care. Clinical signs and symptoms are currently used to diagnose dry eye disease. Metabolomics, a method for analyzing biological systems, has been found helpful in identifying distinct metabolites in patients and in detecting metabolic profiles that may indicate dry eye disease at early stages. In this study, we explored using machine learning and metabolomics information to identify which cataract patients suffered from dry eye disease. As there is no one-size-fits-all machine learning model for metabolomics data, choosing the most suitable model can significantly affect the quality of predictions and subsequent metabolomics analyses. To address this challenge, we conducted a comparative analysis of nine machine learning models on three metabolomics data sets from cataract patients with and without dry eye disease. The models were evaluated and optimized using nested k-fold cross-validation. To assess the performance of these models, we selected a set of suitable evaluation metrics tailored to the data set's challenges. The logistic regression model overall performed the best, achieving the highest area under the curve score of 0.8378, balanced accuracy of 0.735, Matthew's correlation coefficient of 0.5147, an F1-score of 0.8513, and a specificity of 0.5667. Additionally, following the logistic regression, the XGBoost and Random Forest models also demonstrated good performance. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 経直腸超音波による前立腺癌診断における多モード融合と原型的特徴再構成
Towards Multi-modality Fusion and Prototype-based Feature Refinement for Clinically Significant Prostate Cancer Classification in Transrectal Ultrasound ( http://arxiv.org/abs/2406.14069v1 ) ライセンス: Link先を確認 | Hong Wu, Juan Fu, Hongsheng Ye, Yuming Zhong, Xuebin Zou, Jianhua Zhou, Yi Wang, | (参考訳) 前立腺がんは非常に多いがんであり、世界で2番目に多い死因である。
近年,多モード経直腸超音波(TRUS)の利用は,前立腺生検を導く上で重要な技術として注目されている。
本研究では,多モードTRUSを用いた臨床上重要な前立腺癌(csPCa)分類のための新しい学習フレームワークを提案する。
提案フレームワークは2つの異なる3D ResNet-50を用いて,Bモードとせん断波エラストグラフィ(SWE)から特徴を抽出する。
さらに、Bモード特徴を効果的に洗練し、両方のモダリティから抽出した特徴を集約するために、アテンションモジュールが組み込まれている。
さらに,分類エンコーダのキャパシティを高めるために,ショットセグメンテーションタスクがほとんどない。
csPCaマスクの入手が限られているため、csPCaの代表プロトタイプを抽出するためにプロトタイプ修正モジュールが使用される。
このフレームワークの性能は512のTRUSビデオと生検で得られた前立腺癌からなる大規模データセットで評価される。
その結果、csPCaを正確に同定し、曲線(AUC)の0.86の領域を達成できる強い能力を示した。
さらに、このフレームワークは、csPCaのローカライズに有用な視覚クラスアクティベーションマッピング(CAM)を生成する。
これらのCAM画像は、TRUSに誘導された標的バイオプシーの間、貴重なガイダンスを提供し、生検手順の有効性を高め、https://github.com/2313595986/SmileCode.comで利用可能である。
Prostate cancer is a highly prevalent cancer and ranks as the second leading cause of cancer-related deaths in men globally. Recently, the utilization of multi-modality transrectal ultrasound (TRUS) has gained significant traction as a valuable technique for guiding prostate biopsies. In this study, we propose a novel learning framework for clinically significant prostate cancer (csPCa) classification using multi-modality TRUS. The proposed framework employs two separate 3D ResNet-50 to extract distinctive features from B-mode and shear wave elastography (SWE). Additionally, an attention module is incorporated to effectively refine B-mode features and aggregate the extracted features from both modalities. Furthermore, we utilize few shot segmentation task to enhance the capacity of classification encoder. Due to the limited availability of csPCa masks, a prototype correction module is employed to extract representative prototypes of csPCa. The performance of the framework is assessed on a large-scale dataset consisting of 512 TRUS videos with biopsy-proved prostate cancer. The results demonstrate the strong capability in accurately identifying csPCa, achieving an area under the curve (AUC) of 0.86. Moreover, the framework generates visual class activation mapping (CAM), which can serve as valuable assistance for localizing csPCa. These CAM images may offer valuable guidance during TRUS-guided targeted biopsies, enhancing the efficacy of the biopsy procedure.The code is available at https://github.com/2313595986/SmileCode. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# 確率線形帯域における近似推論を用いたベイズ帯域アルゴリズム
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits ( http://arxiv.org/abs/2406.14071v1 ) ライセンス: Link先を確認 | Ziyi Huang, Henry Lam, Haofeng Zhang, | (参考訳) ベイズ推定を近似したベイズ帯域幅アルゴリズムは、現実世界の応用に広く用いられている。
それにもかかわらず、それらの理論的正当化は文学、特に文脈的盗賊問題においてあまり研究されていない。
このギャップを埋めるために、近似推論の存在下で確率線形バンドレットを解析し、2つのベイズ帯域アルゴリズム、線形トンプソンサンプリング(LinTS)と線形ベイズ確率境界(LinBUCB)の拡張について後悔の解析を行うための一般的な理論的枠組みを提案する。
また,LinTSとLinBUCBの両者が,近似推論を適用した場合,元の後悔の上限を保ちながら,より大きい定数項を犠牲にすることができることを示した。
これらの結果は、二つの異なる$\alpha$-divergencesによって測定された推論誤差が有界であるという仮定の下で、一般的なベイズ予想のアプローチに成り立つ。
さらに、LinBUCB は、良い分布の定義を導入することにより、LinTS の後悔率を $\tilde{O}(d^{3/2}\sqrt{T})$ から $\tilde{O}(d\sqrt{T})$ に改善し、ミニマックス最適率と一致することを示す。
我々の知る限り、この研究は、有界近似推論誤差を持つ確率線型帯域の設定における最初の後悔の限界を提供する。
Bayesian bandit algorithms with approximate Bayesian inference have been widely used in real-world applications. Nevertheless, their theoretical justification is less investigated in the literature, especially for contextual bandit problems. To fill this gap, we propose a general theoretical framework to analyze stochastic linear bandits in the presence of approximate inference and conduct regret analysis on two Bayesian bandit algorithms, Linear Thompson sampling (LinTS) and the extension of Bayesian Upper Confidence Bound, namely Linear Bayesian Upper Confidence Bound (LinBUCB). We demonstrate that both LinTS and LinBUCB can preserve their original rates of regret upper bound but with a sacrifice of larger constant terms when applied with approximate inference. These results hold for general Bayesian inference approaches, under the assumption that the inference error measured by two different $\alpha$-divergences is bounded. Additionally, by introducing a new definition of well-behaved distributions, we show that LinBUCB improves the regret rate of LinTS from $\tilde{O}(d^{3/2}\sqrt{T})$ to $\tilde{O}(d\sqrt{T})$, matching the minimax optimal rate. To our knowledge, this work provides the first regret bounds in the setting of stochastic linear bandits with bounded approximate inference errors. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# t-SNEレンズによる層状対向性ロバストネスの探索
Exploring Layerwise Adversarial Robustness Through the Lens of t-SNE ( http://arxiv.org/abs/2406.14073v1 ) ライセンス: Link先を確認 | Inês Valentim, Nuno Antunes, Nuno Lourenço, | (参考訳) ANN(Artificial Neural Networks)を騙して間違ったアウトプットを生成し、これらのモデルの脆弱性を強調する。
これらの弱点を探索することは防衛開発に不可欠であり,画像分類ANNの対角的ロバスト性を評価する手法を提案する。
t-distributed Stochastic Neighbor Embedding (t-SNE) 技術は視覚検査に使用され、クリーンで摂動的な埋め込みと比較するメトリクスは、レイヤ内の弱い箇所をピンポイントするのに役立つ。
CIFAR-10上の2つのANNをニューロエボリューションを用いて解析した結果、特徴抽出層において、クリーン表現と摂動表現の違いが早期に出現し、その後の分類に影響を及ぼすことが判明した。
本手法は, t-SNEマップの視覚的解析によって支援された。
Adversarial examples, designed to trick Artificial Neural Networks (ANNs) into producing wrong outputs, highlight vulnerabilities in these models. Exploring these weaknesses is crucial for developing defenses, and so, we propose a method to assess the adversarial robustness of image-classifying ANNs. The t-distributed Stochastic Neighbor Embedding (t-SNE) technique is used for visual inspection, and a metric, which compares the clean and perturbed embeddings, helps pinpoint weak spots in the layers. Analyzing two ANNs on CIFAR-10, one designed by humans and another via NeuroEvolution, we found that differences between clean and perturbed representations emerge early on, in the feature extraction layers, affecting subsequent classification. The findings with our metric are supported by the visual analysis of the t-SNE maps. | 翻訳日:2024-06-21 15:00:17 公開日:2024-06-20 |
# EXCEEDS:科学領域におけるドットとグラフを結びつける複雑なイベントの抽出
EXCEEDS: Extracting Complex Events as Connecting the Dots to Graphs in Scientific Domain ( http://arxiv.org/abs/2406.14075v1 ) ライセンス: Link先を確認 | Yi-Fan Lu, Xian-Ling Mao, Bo Wang, Xiao Liu, Heyan Huang, | (参考訳) 特定のドメインを理解するためにイベントを活用することが重要です。
ニュース、金融、生物学などの多くの分野において、イベント抽出に関する多くの研究がある。
しかし、科学領域には、包括的なデータセットやそれに対応する方法を含むイベント抽出研究がまだ欠けている。
他の領域と比較して、科学的領域はより密度の高いナゲットとより複雑な事象の2つの特徴を示す。
この2つの特徴を考慮し、まず、科学領域に適したスキーマを備えた大規模マルチイベント文書レベルデータセットであるSciEventsを構築する。
2,508件の文書と24,381件のイベントがある。
そこで我々は,グリッドマトリックスに高密度なナゲットを格納し,複雑なイベント抽出をドット構成および接続タスクに単純化することにより,新しいエンドツーエンドの科学的イベント抽出フレームワークEXCEEDSを提案する。
実験により,SciEvents上でのEXCEEDSの最先端性能が実証された。
さらに、GitHubでSciEventsとEXCEEDSをリリースしています。
It is crucial to utilize events to understand a specific domain. There are lots of research on event extraction in many domains such as news, finance and biology domain. However, scientific domain still lacks event extraction research, including comprehensive datasets and corresponding methods. Compared to other domains, scientific domain presents two characteristics: denser nuggets and more complex events. To solve the above problem, considering these two characteristics, we first construct SciEvents, a large-scale multi-event document-level dataset with a schema tailored for scientific domain. It has 2,508 documents and 24,381 events under refined annotation and quality control. Then, we propose EXCEEDS, a novel end-to-end scientific event extraction framework by storing dense nuggets in a grid matrix and simplifying complex event extraction into a dot construction and connection task. Experimental results demonstrate state-of-the-art performances of EXCEEDS on SciEvents. Additionally, we release SciEvents and EXCEEDS on GitHub. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 3量子交絡状態における真の非局所性を検出するシングルベル不等式
Single Bell inequality to detect genuine nonlocality in three-qubit genuinely entangled states ( http://arxiv.org/abs/2406.14078v1 ) ライセンス: Link先を確認 | Ignacy Stachura, Owidiusz Makuta, Remigiusz Augusiak, | (参考訳) 真に絡み合っているすべての純多部状態が真に非局所であるかどうかについても、未解決の疑問が残る。
近年,[F]では, 量子状態における真の多部非局所性(GMNL)の検出が可能なベル不等式が新たに提案されている。
J. Curchod, M. L. Almeida, A. Acin, New J. Phys
21 023016 (2019)。
ここでは, GMNLの検出におけるベルの不等式をより厳格にするために, 簡単な方法でこの構造を改善する方法を示す。
注目すべきは、改良されたベルの不等式の一つが、3ビットの真に絡み合った状態のGMNLを検出するのに十分強力であることを示すことである。
また、これらの不等式の一部を一般化して、GMNLだけでなく、多粒子状態の非局所性深度も検出し、より多くの結果が得られた場合に一般化する方法を提案する。
It remains an open question whether every pure multipartite state that is genuinely entangled is also genuinely nonlocal. Recently, a new general construction of Bell inequalities allowing the detection of genuine multipartite nonlocality (GMNL) in quantum states was proposed in [F. J. Curchod, M. L. Almeida, and A. Acin, New J. Phys. 21, 023016 (2019) with the aim of addressing the above problem. Here we show how, in a simple manner, one can improve this construction to deliver tighter Bell inequalities for detection of GMNL. Remarkably, we then prove one of the improved Bell inequalities to be powerful enough to detect GMNL in every three-qubit genuinely entangled state. We also generalize some of these inequalities to detect not only GMNL but also nonlocality depth in multipartite states and we present a possible way of generalizing them to the case of more outcomes. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# CMTNet: Convolutionalがハイパースペクトル画像分類のためのTransformer Networkを発表
CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification ( http://arxiv.org/abs/2406.14080v1 ) ライセンス: Link先を確認 | Faxu Guo, Quan Feng, Sen Yang, Wanxia Yang, | (参考訳) ハイパースペクトルリモートセンシング(HIS)は、地球表面からのスペクトル情報の詳細な取得を可能にし、その優れたスペクトル診断能力のために表面作物の正確な分類と識別を容易にする。
しかし、現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てており、複雑な作物の種類を分類し、不均衡なサンプル分布に対処する際に、最適以下の性能をもたらす。
対照的に、Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出することに長けている。
両アプローチの長所を活用するために,コンボリューショナル・ミート・トランスフォーマーネットワーク(CMTNet)を導入している。
この革新的なモデルには、浅層特徴キャプチャのためのスペクトル空間的特徴抽出モジュール、局所的特徴抽出のためのCNNとトランスフォーマーの分岐を組み合わせたデュアルブランチ構造、多出力損失計算による分類精度の向上と、局所的・国際的・共同的特徴の横断的制約を含む。
3つのデータセット(WHU-Hi-HongKou,WHU-Hi-HanChuan,WHU-Hi-HongHu)で実施された大規模な実験により、CTDBNetは分類性能において他の最先端ネットワークよりも著しく優れており、ハイパースペクトル作物分類の有効性が検証された。
Hyperspectral remote sensing (HIS) enables the detailed capture of spectral information from the Earth's surface, facilitating precise classification and identification of surface crops due to its superior spectral diagnostic capabilities. However, current convolutional neural networks (CNNs) focus on local features in hyperspectral data, leading to suboptimal performance when classifying intricate crop types and addressing imbalanced sample distributions. In contrast, the Transformer framework excels at extracting global features from hyperspectral imagery. To leverage the strengths of both approaches, this research introduces the Convolutional Meet Transformer Network (CMTNet). This innovative model includes a spectral-spatial feature extraction module for shallow feature capture, a dual-branch structure combining CNN and Transformer branches for local and global feature extraction, and a multi-output constraint module that enhances classification accuracy through multi-output loss calculations and cross constraints across local, international, and joint features. Extensive experiments conducted on three datasets (WHU-Hi-LongKou, WHU-Hi-HanChuan, and WHU-Hi-HongHu) demonstrate that CTDBNet significantly outperforms other state-of-the-art networks in classification performance, validating its effectiveness in hyperspectral crop classification. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# FLoCoRA:低ランク適応型フェデレーション学習圧縮
FLoCoRA: Federated learning compression with low-rank adaptation ( http://arxiv.org/abs/2406.14082v1 ) ライセンス: Link先を確認 | Lucas Grativol Ribeiro, Mathieu Leonardon, Guillaume Muller, Virginie Fresse, Matthieu Arzel, | (参考訳) Low-Rank Adaptation (LoRA)法は、数十億のパラメータを含むモデルの効率的なパラメータ微調整で人気を集めている。
そこで本研究では,Federated Learning (FL) における小さなビジョンモデルをスクラッチから学習するための LoRA 手法の応用を実演する。
まず,FLoCoRAと呼ばれるFLにLoRAを組み込むアグリゲーションに依存しない手法を提案し,ResNet-8を用いたCIFAR-10分類タスクにおいて,通信コストを4.8倍に削減できることを示す。
次に、同じ手法をアフィン量子化方式で拡張し、通信コストを18.6倍にし、標準手法と比較し、ResNet-18モデルで検証した精度損失の1%以下であることを示す。
我々の定式化は、従来のモデル圧縮作業と比較しても、メッセージサイズ削減のための強力なベースラインであり、低ランク適応によるトレーニングメモリ要求も低減している。
Low-Rank Adaptation (LoRA) methods have gained popularity in efficient parameter fine-tuning of models containing hundreds of billions of parameters. In this work, instead, we demonstrate the application of LoRA methods to train small-vision models in Federated Learning (FL) from scratch. We first propose an aggregation-agnostic method to integrate LoRA within FL, named FLoCoRA, showing that the method is capable of reducing communication costs by 4.8 times, while having less than 1% accuracy degradation, for a CIFAR-10 classification task with a ResNet-8. Next, we show that the same method can be extended with an affine quantization scheme, dividing the communication cost by 18.6 times, while comparing it with the standard method, with still less than 1% of accuracy loss, tested with on a ResNet-18 model. Our formulation represents a strong baseline for message size reduction, even when compared to conventional model compression works, while also reducing the training memory requirements due to the low-rank adaptation. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# Queen:スーパーコンピュータのための高速でスケーラブルで包括的な量子回路シミュレーション
Queen: A quick, scalable, and comprehensive quantum circuit simulation for supercomputing ( http://arxiv.org/abs/2406.14084v1 ) ライセンス: Link先を確認 | Chuan-Chi Wang, Yu-Cheng Lin, Yan-Jie Wang, Chia-Heng Tu, Shih-Hao Hung, | (参考訳) 状態ベクトルに基づくシミュレーションは、ノイズのない結果の量子アルゴリズムの開発と検証に便利なアプローチを提供する。
しかし、キャッシュ対応の実装や回路最適化の欠如により、過去のシミュレータの性能は厳しく制限され、量子コンピューティングの停滞に繋がった。
本稿では、ゲート最適化とシミュレーションモジュールを組み合わせた革新的な量子回路シミュレーションツールキットを提案し、これらの性能問題に対処する。
性能,スケーラビリティ,包括的評価のために,DGX-A100ワークステーション上で一連の回路ベンチマークと強力なスケーリングテストを実施し,QuEST, IBM-Aer, NVIDIA-cuQuantumなどの最先端シミュレータと比較して平均9倍の高速化を実現した。
さらに、臨界性能測定値のFLOPSは最大8倍に増加し、算術強度は96倍に向上した。
提案手法は,より高速な量子回路シミュレーションを実現するため,新しい量子アルゴリズムの開発を容易にする。
The state vector-based simulation offers a convenient approach to developing and validating quantum algorithms with noise-free results. However, limited by the absence of cache-aware implementations and unpolished circuit optimizations, the past simulators were severely constrained in performance, leading to stagnation in quantum computing. In this paper, we present an innovative quantum circuit simulation toolkit comprising gate optimization and simulation modules to address these performance challenges. For the performance, scalability, and comprehensive evaluation, we conduct a series of particular circuit benchmarks and strong scaling tests on a DGX-A100 workstation and achieve averaging 9 times speedup compared to state-of-the-art simulators, including QuEST, IBM-Aer, and NVIDIA-cuQuantum. Moreover, the critical performance metric FLOPS increases by up to a factor of 8-fold, and arithmetic intensity experiences a remarkable 96x enhancement. We believe the proposed toolkit paves the way for faster quantum circuit simulations, thereby facilitating the development of novel quantum algorithms. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 生き残るためのモデル: 競争リスクを考慮したスコアリングルールと確率最適化
Teaching Models To Survive: Proper Scoring Rule and Stochastic Optimization with Competing Risks ( http://arxiv.org/abs/2406.14085v1 ) ライセンス: Link先を確認 | Julie Alberge, Vincent Maladière, Olivier Grisel, Judith Abécassis, Gaël Varoquaux, | (参考訳) データが右検閲されている場合、すなわち観測期間が限られているため、いくつかの結果が欠落している場合、生存分析は「イベントの時間」を計算することができる。
複数の結果のクラスは分類のバリエーションをもたらし、最も可能性の高い事象を予測し、競合リスク(英語版)として知られるが、研究は少ない。
このような設定の結果の確率を推定する損失を構築するために、評価は観察から独立して行われるため、データのサブ部分に最適化できる厳格な検閲調整可分スコアリングルールを導入する。
これは、勾配上昇木を訓練するために使用する競合するリスクに対する確率的最適化を可能にする。
11の最先端モデルと比較して、このモデルであるMulti Incidenceは、生存率と競合するリスクの確率を推定するのに最適である。
任意のタイミングで予測でき、既存の選択肢よりもはるかに高速です。
When data are right-censored, i.e. some outcomes are missing due to a limited period of observation, survival analysis can compute the "time to event". Multiple classes of outcomes lead to a classification variant: predicting the most likely event, known as competing risks, which has been less studied. To build a loss that estimates outcome probabilities for such settings, we introduce a strictly proper censoring-adjusted separable scoring rule that can be optimized on a subpart of the data because the evaluation is made independently of observations. It enables stochastic optimization for competing risks which we use to train gradient boosting trees. Compared to 11 state-of-the-art models, this model, MultiIncidence, performs best in estimating the probability of outcomes in survival and competing risks. It can predict at any time horizon and is much faster than existing alternatives. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# Seg-LSTM:リモートセンシング画像のセマンティックセグメンテーションのためのxLSTMの性能
Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images ( http://arxiv.org/abs/2406.14086v1 ) ライセンス: Link先を確認 | Qinfeng Zhu, Yuanzhi Cai, Lei Fan, | (参考訳) 線形複雑性を持つ自己回帰ネットワークの最近の進歩は、大きな言語モデルにおいて例外的な性能を示すなど、大きな研究の進展を招いている。
代表的なモデルは拡張長短期記憶(Extensioned Long Short-Term Memory, xLSTM)であり、これはゲーティング機構とメモリ構造を組み込んだもので、長いシーケンス言語タスクにおいてトランスフォーマーアーキテクチャと互換性がある。
xLSTMのような自動回帰ネットワークは、イメージシリアライゼーションを利用して、分類やセグメンテーションといった視覚的なタスクに応用を拡張できる。
既存の研究では、画像分類におけるVision-LSTMの顕著な結果を示しているが、画像意味的セグメンテーションのパフォーマンスは検証されていない。
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
この評価は、Seg-LSTMと呼ばれる専用に設計されたエンコーダデコーダアーキテクチャと、最先端セグメンテーションネットワークとの比較に基づいている。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
Vision-LSTMの今後の研究指針が推奨されている。
ソースコードはhttps://github.com/zhuqinfeng 1999/Seg-LSTMから入手できる。
Recent advancements in autoregressive networks with linear complexity have driven significant research progress, demonstrating exceptional performance in large language models. A representative model is the Extended Long Short-Term Memory (xLSTM), which incorporates gating mechanisms and memory structures, performing comparably to Transformer architectures in long-sequence language tasks. Autoregressive networks such as xLSTM can utilize image serialization to extend their application to visual tasks such as classification and segmentation. Although existing studies have demonstrated Vision-LSTM's impressive results in image classification, its performance in image semantic segmentation remains unverified. Our study represents the first attempt to evaluate the effectiveness of Vision-LSTM in the semantic segmentation of remotely sensed images. This evaluation is based on a specifically designed encoder-decoder architecture named Seg-LSTM, and comparisons with state-of-the-art segmentation networks. Our study found that Vision-LSTM's performance in semantic segmentation was limited and generally inferior to Vision-Transformers-based and Vision-Mamba-based models in most comparative tests. Future research directions for enhancing Vision-LSTM are recommended. The source code is available from https://github.com/zhuqinfeng1999/Seg-LSTM. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 絡み合いと擬似ラベルによる半教師付き不均一領域適応
Semi Supervised Heterogeneous Domain Adaptation via Disentanglement and Pseudo-Labelling ( http://arxiv.org/abs/2406.14087v1 ) ライセンス: Link先を確認 | Cassio F. Dantas, Raffaele Gaetano, Dino Ienco, | (参考訳) 半教師付きドメイン適応手法は、少ないラベル付きターゲットドメインを一般化することを目的として、ソースラベル付きドメインからの情報を活用する。
この設定は、ドメイン間の潜在的分散シフトによって既に課題を提起しているが、ソースデータとターゲットデータがモダリティ表現で異なる場合(例えば、異なる特性を持つセンサーによって取得される場合)にさらに複雑なシナリオが発生する。
例えばリモートセンシングでは、画像は様々な取得モード(例えば光学またはレーダー)、異なるスペクトル特性(例えばRGBまたはマルチスペクトル)、空間分解能によって収集される。
このような設定はSSHDA(Semi-Supervised Heterogeneous Domain Adaptation)と表記され、ドメイン間のモダリティの不均一性によるより深刻な分布シフトを示す。
SHeDDは、下流タスクに関連するドメイン不変表現をドメイン固有情報から効果的に切り離し、モダリティ間の移動を妨げるように設計されている。
さらに、SHeDDは拡張ベースの整合性正規化機構を採用し、未ラベルのサンプルに対する信頼性の高い擬似ラベルの利点を生かして、ターゲットドメインでの一般化能力をさらに強化する。
取得モードとスペクトル/空間分解能で不均一なデータを含む2つのリモートセンシングベンチマークの実証評価は、ベースラインと最先端の競合するアプローチの両方と比較してSHeDDの品質を実証する。
私たちのコードはこちらで公開されています。
Semi-supervised domain adaptation methods leverage information from a source labelled domain with the goal of generalizing over a scarcely labelled target domain. While this setting already poses challenges due to potential distribution shifts between domains, an even more complex scenario arises when source and target data differs in modality representation (e.g. they are acquired by sensors with different characteristics). For instance, in remote sensing, images may be collected via various acquisition modes (e.g. optical or radar), different spectral characteristics (e.g. RGB or multi-spectral) and spatial resolutions. Such a setting is denoted as Semi-Supervised Heterogeneous Domain Adaptation (SSHDA) and it exhibits an even more severe distribution shift due to modality heterogeneity across domains.To cope with the challenging SSHDA setting, here we introduce SHeDD (Semi-supervised Heterogeneous Domain Adaptation via Disentanglement) an end-to-end neural framework tailored to learning a target domain classifier by leveraging both labelled and unlabelled data from heterogeneous data sources. SHeDD is designed to effectively disentangle domain-invariant representations, relevant for the downstream task, from domain-specific information, that can hinder the cross-modality transfer. Additionally, SHeDD adopts an augmentation-based consistency regularization mechanism that takes advantages of reliable pseudo-labels on the unlabelled target samples to further boost its generalization ability on the target domain. Empirical evaluations on two remote sensing benchmarks, encompassing heterogeneous data in terms of acquisition modes and spectral/spatial resolutions, demonstrate the quality of SHeDD compared to both baseline and state-of-the-art competing approaches. Our code is publicly available here: https://github.com/tanodino/SSHDA/ | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# ReaLHF:パラメータ再配置による大規模言語モデルのRLHF学習の最適化
ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation ( http://arxiv.org/abs/2406.14088v1 ) ライセンス: Link先を確認 | Zhiyu Mei, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang, Yi Wu, | (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
RLHFは多種多様な計算ワークロードと複数のLLM間の複雑な依存関係を含むため、教師付きトレーニングからの並列化技術を直接適用することで、サブ最適性能が得られる。
この制限を克服するために、パラメータReaLlocationという新しいアプローチを提案し、クラスタ内のLLMパラメータを動的に再分割し、トレーニング中に並列化戦略を適用する。
このアイデアに基づいて、RLHFトレーニングの効率的な実行計画を自動的に検出し、実行することができる先駆的なシステムであるReaLHFを紹介する。
ReaLHFは拡張データフローグラフとしてRLHFの実行計画を定式化する。
この定式化に基づいて、ReaLHFは、効率的な実行計画を見つけるために、軽量なコスト推定器を備えた調整された探索アルゴリズムを用いる。
その後、ランタイムエンジンは、計算を効果的に並列化し、パラメータを再配布することで、選択したプランをデプロイする。
LLaMA-2モデルのReaLHFを最大4ドルで70億ドルのパラメータと128のGPUで評価する。
実験の結果、ReaLHFの実質的なスピードアップはベースラインに比べて2.0-10.6\times$であった。
さらに、ReaLHFが生成した実行計画は、Megatron-LMに基づくヒューリスティックアプローチよりも平均2,6\%$のパフォーマンス改善を示している。
ReaLHFのソースコードはhttps://github.com/openpsi-project/ReaLHFで公開されている。
Reinforcement Learning from Human Feedback (RLHF) stands as a pivotal technique in empowering large language model (LLM) applications. Since RLHF involves diverse computational workloads and intricate dependencies among multiple LLMs, directly adopting parallelization techniques from supervised training can result in sub-optimal performance. To overcome this limitation, we propose a novel approach named parameter ReaLlocation, which dynamically redistributes LLM parameters in the cluster and adapts parallelization strategies during training. Building upon this idea, we introduce ReaLHF, a pioneering system capable of automatically discovering and running efficient execution plans for RLHF training given the desired algorithmic and hardware configurations. ReaLHF formulates the execution plan for RLHF as an augmented dataflow graph. Based on this formulation, ReaLHF employs a tailored search algorithm with a lightweight cost estimator to discover an efficient execution plan. Subsequently, the runtime engine deploys the selected plan by effectively parallelizing computations and redistributing parameters. We evaluate ReaLHF on the LLaMA-2 models with up to $4\times70$ billion parameters and 128 GPUs. The experiment results showcase ReaLHF's substantial speedups of $2.0-10.6\times$ compared to baselines. Furthermore, the execution plans generated by ReaLHF exhibit an average of $26\%$ performance improvement over heuristic approaches based on Megatron-LM. The source code of ReaLHF is publicly available at https://github.com/openpsi-project/ReaLHF . | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 異種性を考慮したディープベイズネットワークによるパーソナライズされた音楽レコメンデーション
Personalized Music Recommendation with a Heterogeneity-aware Deep Bayesian Network ( http://arxiv.org/abs/2406.14090v1 ) ライセンス: Link先を確認 | Erkang Jing, Yezheng Liu, Yidong Chai, Shuo Yu, Longshun Liu, Yuanchun Jiang, Yang Wang, | (参考訳) 音楽レコメンデーターシステムは、音楽ストリーミングプラットフォームにおいて不可欠であり、ユーザーが楽しむであろう音楽を提供する。
近年の研究では、ユーザの感情がユーザーの音楽の気分に影響を及ぼすことが示されている。
しかし、既存の感情認識音楽推薦システム(EMRS)は、ユーザの実際の感情状態が同一の感情語で表されると明示的にまたは暗黙的に仮定する。
また、同じ感情状態下では、ユーザの音楽の気分の嗜好が均質であると仮定する。
本稿では,EMRSが考慮すべき4つの異種性について提案する。ユーザ間の感情の不均一性,ユーザ間の感情の不均一性,ユーザ間の音楽の気分嗜好の不均一性,ユーザ間の音楽の気分嗜好不均一性である。
さらに、これらの仮定をモデル化するヘテロジニティ対応ディープベイズネットワーク(HDBN)を提案する。
HDBNは、ユーザの選択過程を模倣して、4つのコンポーネント(パーソナライズされたユーザ感情分布モデリング、後続ユーザ感情分布モデリング、ユーザグループ化、ベイジアンニューラルネットワークに基づく音楽の気分嗜好予測)で選択する。
提案手法を検証するため,EmoMusicLJという大規模データセットを構築した。
広汎な実験により,提案手法は広く用いられているHRとNDCGレコメンデーション指標のベースラインアプローチを著しく上回っていることが示された。
アブレーション実験とケーススタディにより,HDBNの有効性がさらに検証された。
ソースコードはhttps://github.com/jingrk/HDBNで公開されている。
Music recommender systems are crucial in music streaming platforms, providing users with music they would enjoy. Recent studies have shown that user emotions can affect users' music mood preferences. However, existing emotion-aware music recommender systems (EMRSs) explicitly or implicitly assume that users' actual emotional states expressed by an identical emotion word are homogeneous. They also assume that users' music mood preferences are homogeneous under an identical emotional state. In this article, we propose four types of heterogeneity that an EMRS should consider: emotion heterogeneity across users, emotion heterogeneity within a user, music mood preference heterogeneity across users, and music mood preference heterogeneity within a user. We further propose a Heterogeneity-aware Deep Bayesian Network (HDBN) to model these assumptions. The HDBN mimics a user's decision process to choose music with four components: personalized prior user emotion distribution modeling, posterior user emotion distribution modeling, user grouping, and Bayesian neural network-based music mood preference prediction. We constructed a large-scale dataset called EmoMusicLJ to validate our method. Extensive experiments demonstrate that our method significantly outperforms baseline approaches on widely used HR and NDCG recommendation metrics. Ablation experiments and case studies further validate the effectiveness of our HDBN. The source code is available at https://github.com/jingrk/HDBN. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 言語モデルにおけるシーケンスアンラーニングのための最適パラメータの近似によるプライバシ保護
Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models ( http://arxiv.org/abs/2406.14091v1 ) ライセンス: Link先を確認 | Dohyun Lee, Daniel Rim, Minseok Choi, Jaegul Choo, | (参考訳) 言語モデル(LM)は、様々なタスクにおいて例外的な能力を示すが、重大なプライバシーリスクを示す攻撃の抽出に弱い可能性がある。
LMのプライバシー上の懸念を軽減するため、機械学習は重要な研究領域として登場し、LMを誘導してトレーニングデータのいくつかを選択的に忘れるようにしている。
モデルを完全に再トレーニングすることで、未学習とプライバシ保証の成功が保証されるが、時間がかかりリソースが集中的になるため、LMにとって現実的ではない。
以前の作業では、ターゲットトークンシーケンスを効率的に解放していたが、その後のイテレーションでは、LMの性能が著しく低下した。
本研究では,パラメータへの最適勾配更新を適用することで,予め訓練されたLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法であるPOP(Privacy Protection via Optimal Parameters)を提案する。
完全再トレーニングの勾配導出にインスパイアされ、トレーニングデータの他の部分からの知識を維持しながら、目標シーケンスの解放に成功した最適なトレーニング目標を近似した。
実験の結果,POPは9つの分類と4つのダイアログベンチマークにまたがって学習後の顕著な保持性能を示し,その差が大きいことがわかった。
さらに,トークン可能性に基づいてプライバシリスクを定量化し,質的・定量的な分析によってその妥当性を検証するRemnant Memorization Accuracyを導入する。
Although language models (LMs) demonstrate exceptional capabilities on various tasks, they are potentially vulnerable to extraction attacks, which represent a significant privacy risk. To mitigate the privacy concerns of LMs, machine unlearning has emerged as an important research area, which is utilized to induce the LM to selectively forget about some of its training data. While completely retraining the model will guarantee successful unlearning and privacy assurance, it is impractical for LMs, as it would be time-consuming and resource-intensive. Prior works efficiently unlearn the target token sequences, but upon subsequent iterations, the LM displays significant degradation in performance. In this work, we propose Privacy Protection via Optimal Parameters (POP), a novel unlearning method that effectively forgets the target token sequences from the pretrained LM by applying optimal gradient updates to the parameters. Inspired by the gradient derivation of complete retraining, we approximate the optimal training objective that successfully unlearns the target sequence while retaining the knowledge from the rest of the training data. Experimental results demonstrate that POP exhibits remarkable retention performance post-unlearning across 9 classification and 4 dialogue benchmarks, outperforming the state-of-the-art by a large margin. Furthermore, we introduce Remnant Memorization Accuracy that quantifies privacy risks based on token likelihood and validate its effectiveness through both qualitative and quantitative analyses. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# シームレス言語の拡張: 自己監督型モデルにおける多言語習得の強化
Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models ( http://arxiv.org/abs/2406.14092v1 ) ライセンス: Link先を確認 | Jing Xu, Minglin Wu, Xixin Wu, Helen Meng, | (参考訳) 自己監視(SSL)モデルは、さまざまな下流タスクで優れたパフォーマンスを示している。
しかし、それらは典型的には限られた言語のために開発され、現実世界で新しい言語に遭遇することがある。
新しい言語ごとにSSLモデルを開発するのはコストがかかる。
したがって、既存のSSLモデルを元の能力を損なうことなく、いかに効率的に新しい言語に適応させるかを理解することが不可欠である。
既存のSSLモデルにLoRAを統合して新しい言語を拡張する適応手法を提案する。
また、既存の言語における能力を維持するために、データの組み合わせと再クラスタ化を含む保存戦略も開発している。
本研究はmHuBERTに適用し, 音声合成における効果について検討する。
MOS値が1.6, WERの相対値が61.72%, mHuBERTを新しい言語(マンダリン)に適用できることを示す実験を行った。
また、我々の保存戦略は、新しい言語と新しい言語の両方のパフォーマンスが引き続き維持されていることを保証します。
Self-supervised (SSL) models have shown great performance in various downstream tasks. However, they are typically developed for limited languages, and may encounter new languages in real-world. Developing a SSL model for each new language is costly. Thus, it is vital to figure out how to efficiently adapt existed SSL models to a new language without impairing its original abilities. We propose adaptation methods which integrate LoRA to existed SSL models to extend new language. We also develop preservation strategies which include data combination and re-clustering to retain abilities on existed languages. Applied to mHuBERT, we investigate their effectiveness on speech re-synthesis task. Experiments show that our adaptation methods enable mHuBERT to be applied to a new language (Mandarin) with MOS value increased about 1.6 and the relative value of WER reduced up to 61.72%. Also, our preservation strategies ensure that the performance on both existed and new languages remains intact. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 大規模二段階最適化のためのメモリ効率の良いグラディエントアンローリング
Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization ( http://arxiv.org/abs/2406.14095v1 ) ライセンス: Link先を確認 | Qianli Shen, Yezhen Wang, Zhouhao Yang, Xiang Li, Haonan Wang, Yang Zhang, Jonathan Scarlett, Zhanxing Zhu, Kenji Kawaguchi, | (参考訳) 双方向最適化(BO)は階層型機械学習問題に対処するための基本的な数学的枠組みとなっている。
ディープラーニングモデルのサイズが拡大するにつれて、スケーラブルな双方向最適化ソリューションの需要はますます重要になっている。
従来の勾配に基づく二段階最適化アルゴリズムは、その特性上、大規模アプリケーションの要求を満たすには不適である。
本稿では、$\textbf{F}$orward $\textbf{G}$radient $\textbf{U}$nrolling with $\textbf{F}$orward $\textbf{F}$radient, 略して$(\textbf{FG})^2\textbf{U}$を導入し、バイレベル最適化のためのメタ勾配の偏りのない確率近似を実現する。
$(\text{FG})^2\text{U}$は、古典的な二段階最適化手法に関連するメモリと近似問題を回避し、既存の大規模二段階最適化手法よりもはるかに正確な勾配推定を提供する。
さらに、$(\text{FG})^2\text{U}$は本質的に並列コンピューティングをサポートするように設計されており、大規模分散コンピューティングシステムを効果的に活用して計算効率を大幅に向上させることができる。
実際には、$(\text{FG})^2\text{U}$とその他の方法は、よりコスト効率の良い2相パラダイムを達成するために、トレーニングプロセスの異なる段階に戦略的に配置することができる。
さらに、$(\text{FG})^2\text{U}$は人気のあるディープラーニングフレームワークで簡単に実装でき、より難易度の高い二段階最適化シナリオに対処するために便利に適応できる。
広範な経験的評価によって補完される$(\text{FG})^2\text{U}$に対して、総合的な収束解析と包括的な実践的議論を行い、多様な大規模二段階最適化タスクにおいて、その優れた性能を示す。
Bi-level optimization (BO) has become a fundamental mathematical framework for addressing hierarchical machine learning problems. As deep learning models continue to grow in size, the demand for scalable bi-level optimization solutions has become increasingly critical. Traditional gradient-based bi-level optimization algorithms, due to their inherent characteristics, are ill-suited to meet the demands of large-scale applications. In this paper, we introduce $\textbf{F}$orward $\textbf{G}$radient $\textbf{U}$nrolling with $\textbf{F}$orward $\textbf{F}$radient, abbreviated as $(\textbf{FG})^2\textbf{U}$, which achieves an unbiased stochastic approximation of the meta gradient for bi-level optimization. $(\text{FG})^2\text{U}$ circumvents the memory and approximation issues associated with classical bi-level optimization approaches, and delivers significantly more accurate gradient estimates than existing large-scale bi-level optimization approaches. Additionally, $(\text{FG})^2\text{U}$ is inherently designed to support parallel computing, enabling it to effectively leverage large-scale distributed computing systems to achieve significant computational efficiency. In practice, $(\text{FG})^2\text{U}$ and other methods can be strategically placed at different stages of the training process to achieve a more cost-effective two-phase paradigm. Further, $(\text{FG})^2\text{U}$ is easy to implement within popular deep learning frameworks, and can be conveniently adapted to address more challenging zeroth-order bi-level optimization scenarios. We provide a thorough convergence analysis and a comprehensive practical discussion for $(\text{FG})^2\text{U}$, complemented by extensive empirical evaluations, showcasing its superior performance in diverse large-scale bi-level optimization tasks. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# ジョブショップスケジューリング問題のためのグラフニューラルネットワーク:サーベイ
Graph Neural Networks for Job Shop Scheduling Problems: A Survey ( http://arxiv.org/abs/2406.14096v1 ) ライセンス: Link先を確認 | Igor G. Smit, Jianan Zhou, Robbert Reijnen, Yaoxin Wu, Jian Chen, Cong Zhang, Zaharah Bukhsh, Wim Nuijten, Yingqian Zhang, | (参考訳) ジョブショップスケジューリング問題(JSSP)は、組合せ最適化問題の重要かつ困難なクラスである。
近年、JSSPの解決にグラフニューラルネットワーク(GNN)の適用が急速に増加したが、関連する文献の体系的な調査は行われていない。
本稿では,多種多様なJSSPに対する一般的なGNN手法と密接なフローショップスケジューリング問題(FSP),特に深層強化学習(DRL)を活用することを目的としている。
まず、JSSPのグラフ表現の提示と、最もよく使われているGNNアーキテクチャの導入から始める。
次に,グラフ表現,GNNアーキテクチャ,GNNタスク,トレーニングアルゴリズムなどの重要な技術要素を取り上げ,各問題タイプに対する現在のGNNベースの手法を概観する。
最後に,JSSPの解決におけるGNNのメリットと限界を要約し,分析し,今後の研究機会を提供する。
本調査は,JSSPなどのスケジューリング問題に対処する上で,より強力なGNNベースのアプローチに対する革新的アプローチの動機付けとインスピレーションを期待する。
Job shop scheduling problems (JSSPs) represent a critical and challenging class of combinatorial optimization problems. Recent years have witnessed a rapid increase in the application of graph neural networks (GNNs) to solve JSSPs, albeit lacking a systematic survey of the relevant literature. This paper aims to thoroughly review prevailing GNN methods for different types of JSSPs and the closely related flow-shop scheduling problems (FSPs), especially those leveraging deep reinforcement learning (DRL). We begin by presenting the graph representations of various JSSPs, followed by an introduction to the most commonly used GNN architectures. We then review current GNN-based methods for each problem type, highlighting key technical elements such as graph representations, GNN architectures, GNN tasks, and training algorithms. Finally, we summarize and analyze the advantages and limitations of GNNs in solving JSSPs and provide potential future research opportunities. We hope this survey can motivate and inspire innovative approaches for more powerful GNN-based approaches in tackling JSSPs and other scheduling problems. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# 人間とロボットの協調によるLLMロボット操作の強化
Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration ( http://arxiv.org/abs/2406.14097v1 ) ライセンス: Link先を確認 | Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa, | (参考訳) 大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
しかし,LLMをベースとしたロボットは,言語モデルやロボット,環境との連携が不十分なため,単純かつ反復的な動作に限られる。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しい手法を提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
このシステムは、YOLOベースの知覚アルゴリズムも採用しており、特定の環境内で実行可能な動きを計画するのに役立つLCMに視覚的手がかりを提供する。
さらに, 遠隔操作と動的移動プリミティブ(DMP)を組み合わせることで, LLMをベースとしたロボットが人間の指導から学べるようにすることで, HRC法を提案する。
トヨタ・ヒューマン・サポート・ロボットを用いた実世界実験が実施されている。
その結果、複雑な軌道計画や環境に対する推論を必要とするタスクは、人間の実演を取り入れることで効率よく達成できることが示唆された。
Large Language Models (LLMs) are gaining popularity in the field of robotics. However, LLM-based robots are limited to simple, repetitive motions due to the poor integration between language models, robots, and the environment. This paper proposes a novel approach to enhance the performance of LLM-based autonomous manipulation through Human-Robot Collaboration (HRC). The approach involves using a prompted GPT-4 language model to decompose high-level language commands into sequences of motions that can be executed by the robot. The system also employs a YOLO-based perception algorithm, providing visual cues to the LLM, which aids in planning feasible motions within the specific environment. Additionally, an HRC method is proposed by combining teleoperation and Dynamic Movement Primitives (DMP), allowing the LLM-based robot to learn from human guidance. Real-world experiments have been conducted using the Toyota Human Support Robot for manipulation tasks. The outcomes indicate that tasks requiring complex trajectory planning and reasoning over environments can be efficiently accomplished through the incorporation of human demonstrations. | 翻訳日:2024-06-21 14:50:31 公開日:2024-06-20 |
# マルチモーダル条件誘導拡散モデルによる制御可能な心エコービデオ合成に向けたHeartBeat
HeartBeat: Towards Controllable Echocardiography Video Synthesis with Multimodal Conditions-Guided Diffusion Models ( http://arxiv.org/abs/2406.14098v1 ) ライセンス: Link先を確認 | Xinrui Zhou, Yuhao Huang, Wufeng Xue, Haoran Dou, Jun Cheng, Han Zhou, Dong Ni, | (参考訳) 心エコー法(ECHO)ビデオは心臓検査に広く用いられている。
臨床では、この手順は長年の訓練と、精度と効率を高めるためのディープラーニングベースのシステムの助けを必要とするオペレーターの経験に大きく依存している。
しかし、初級訓練や深層モデル開発に十分なカスタマイズデータ(例:異常事例)を取得することは臨床的に非現実的であるため、困難である。
したがって、制御可能なECHOビデオ合成が極めて望ましい。
本稿では,HeartBeatという新しい拡散型フレームワークを提案する。
私たちのハイライトは3倍です。
第一に、HeartBeatは、制御可能な生成を導くために、同時にマルチモーダル条件を知覚できる統一されたフレームワークとして機能する。
第2に,マルチモーダル条件を局所的・大域的に分類し,個別に細粒度と粗粒度を構成可能かつ柔軟に制御する2つの挿入戦略を提案する。
このように、ユーザはマルチモーダル制御信号を組み合わせることで、心的イメージに適合するECHOビデオを合成することができる。
第3に、モデルトレーニングを簡素化する2段階のトレーニングスキームを用いて、視覚概念と時間力学学習を分離することを提案する。
もう一つ興味深いのは、HeartBeatがマスクで誘導された心臓MRI合成を数枚の写真で簡単に一般化できることだ。
2つの公開データセットに対する大規模な実験は、提案されたHeartBeatの有効性を示している。
Echocardiography (ECHO) video is widely used for cardiac examination. In clinical, this procedure heavily relies on operator experience, which needs years of training and maybe the assistance of deep learning-based systems for enhanced accuracy and efficiency. However, it is challenging since acquiring sufficient customized data (e.g., abnormal cases) for novice training and deep model development is clinically unrealistic. Hence, controllable ECHO video synthesis is highly desirable. In this paper, we propose a novel diffusion-based framework named HeartBeat towards controllable and high-fidelity ECHO video synthesis. Our highlight is three-fold. First, HeartBeat serves as a unified framework that enables perceiving multimodal conditions simultaneously to guide controllable generation. Second, we factorize the multimodal conditions into local and global ones, with two insertion strategies separately provided fine- and coarse-grained controls in a composable and flexible manner. In this way, users can synthesize ECHO videos that conform to their mental imagery by combining multimodal control signals. Third, we propose to decouple the visual concepts and temporal dynamics learning using a two-stage training scheme for simplifying the model training. One more interesting thing is that HeartBeat can easily generalize to mask-guided cardiac MRI synthesis in a few shots, showcasing its scalability to broader applications. Extensive experiments on two public datasets show the efficacy of the proposed HeartBeat. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# Let Guidelines Guide You: A Prescriptive Guideline-Centered Data Annotation Methodology
Let Guidelines Guide You: A Prescriptive Guideline-Centered Data Annotation Methodology ( http://arxiv.org/abs/2406.14099v1 ) ライセンス: Link先を確認 | Federico Ruggeri, Eleonora Misino, Arianna Muti, Katerina Korre, Paolo Torroni, Alberto Barrón-Cedeño, | (参考訳) 本稿では,各データサンプルに関連付けられたガイドラインの報告に焦点をあてた新しいデータアノテーション手法であるガイドライン中心アノテーションプロセスを紹介する。
標準的な規範的アノテーションプロセスの主な3つの制約を特定し,アノテーションプロセスにおける情報の損失を減らし,ガイドラインの遵守を確実にすることで,ガイドライン中心の方法論がそれらを克服する方法について述べる。
さらに,複数のタスクにまたがるアノテートデータを,単一のアノテートプロセスのコストで再利用する方法について論じる。
We introduce the Guideline-Centered annotation process, a novel data annotation methodology focused on reporting the annotation guidelines associated with each data sample. We identify three main limitations of the standard prescriptive annotation process and describe how the Guideline-Centered methodology overcomes them by reducing the loss of information in the annotation process and ensuring adherence to guidelines. Additionally, we discuss how the Guideline-Centered enables the reuse of annotated data across multiple tasks at the cost of a single human-annotation process. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# SeCTIS: CTI共有を保護するフレームワーク
SeCTIS: A Framework to Secure CTI Sharing ( http://arxiv.org/abs/2406.14102v1 ) ライセンス: Link先を確認 | Dincy R. Arikkat, Mert Cihangiroglu, Mauro Conti, Rafidha Rehiman K. A., Serena Nicolazzo, Antonino Nocera, Vinod P, | (参考訳) 現代の組織におけるIT依存型オペレーションの台頭は、サイバー攻撃に対する脆弱性を高めている。
多くの組織が、プロセスを自動化するスマートで相互接続されたデバイスをシステムに組み込んでいるため、攻撃面はさらに大きくなり、攻撃の複雑さと頻度が重大な脅威となる。
その結果、組織はインフラに固有の脅威を緩和するための革新的なアプローチを模索せざるを得なくなった。
これに対し、サイバー脅威インテリジェンス(CTI: Cyber Threat Intelligence)を共有するための効果的なソリューションを作成するために、かなりの研究努力がなされている。
現在の情報共有手法では、プライバシ保護が欠如しており、プロプライエタリデータとシークレットデータの漏洩に脆弱な組織を残している。
この問題に対処するために、私たちは、Swarm LearningとBlockchain技術を統合する、SeCTIS(Secure Cyber Threat Intelligence Sharing)と呼ばれる新しいフレームワークを設計しました。
さらに、本手法は、Zero Knowledge Proofsを通じて、検証者を利用するすべての参加者の信頼性と、データおよびモデル品質を評価する方法を提供する。
大規模な実験的キャンペーンでは、我々のフレームワークの正しさと性能を実証し、詳細な攻撃モデルでは、データとモデル品質の文脈における攻撃に対する堅牢性について論じている。
The rise of IT-dependent operations in modern organizations has heightened their vulnerability to cyberattacks. As a growing number of organizations include smart, interconnected devices in their systems to automate their processes, the attack surface becomes much bigger, and the complexity and frequency of attacks pose a significant threat. Consequently, organizations have been compelled to seek innovative approaches to mitigate the menaces inherent in their infrastructure. In response, considerable research efforts have been directed towards creating effective solutions for sharing Cyber Threat Intelligence (CTI). Current information-sharing methods lack privacy safeguards, leaving organizations vulnerable to leaks of both proprietary and confidential data. To tackle this problem, we designed a novel framework called SeCTIS (Secure Cyber Threat Intelligence Sharing), integrating Swarm Learning and Blockchain technologies to enable businesses to collaborate, preserving the privacy of their CTI data. Moreover, our approach provides a way to assess the data and model quality, and the trustworthiness of all the participants leveraging some validators through Zero Knowledge Proofs. An extensive experimental campaign demonstrates our framework's correctness and performance, and the detailed attack model discusses its robustness against attacks in the context of data and model quality. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# 物体ナビゲーションのための障害物マップを用いた2段階の深度学習
Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation ( http://arxiv.org/abs/2406.14103v1 ) ライセンス: Link先を確認 | Yanwei Zheng, Shaopu Feng, Bowen Huang, Changrui Li, Xiao Zhang, Dongxiao Yu, | (参考訳) エージェントが視覚的な観察のみを通して特定のオブジェクトにナビゲートする必要があるタスクは、ビジュアルオブジェクトナビゲーション(VON)と呼ばれる。
VONの主なボトルネックは、戦略探索と事前知識の活用である。
伝統的な戦略探索は、探索と航行の段階の違いを無視し、同じ報酬を2段階に分けて、航行性能と訓練効率を低下させる。
本研究は,探索段階の広い範囲を探索し,航行段階の最適経路を探索し,航法の成功率を向上させることを可能にした。
従来の知識の活用は、環境の奥行きや障害物情報を無視した、学習とオブジェクト関連の利用に重点を置いていた。
本稿では,RGBとトレーニングシーンの深度情報を用いて特徴抽出器の事前訓練を行い,ナビゲーション効率を向上する。
障害物情報は、ナビゲーション中にエージェントによって記憶され、衝突やデッドロックの確率が低下する。
深さ、障害物、その他の事前知識を連結し、ポリシーネットワークに入力し、2段階の報酬のトレーニングの下でナビゲーションアクションを出力する。
提案手法をAI2-ThorとRobothorで評価し,成功率と航法効率において最先端(SOTA)法を著しく上回っていることを示した。
The task that requires an agent to navigate to a given object through only visual observation is called visual object navigation (VON). The main bottlenecks of VON are strategies exploration and prior knowledge exploitation. Traditional strategies exploration ignores the differences of searching and navigating stages, using the same reward in two stages, which reduces navigation performance and training efficiency. Our study enables the agent to explore larger area in searching stage and seek the optimal path in navigating stage, improving the success rate of navigation. Traditional prior knowledge exploitation focused on learning and utilizing object association, which ignored the depth and obstacle information in the environment. This paper uses the RGB and depth information of the training scene to pretrain the feature extractor, which improves navigation efficiency. The obstacle information is memorized by the agent during the navigation, reducing the probability of collision and deadlock. Depth, obstacle and other prior knowledge are concatenated and input into the policy network, and navigation actions are output under the training of two-stage rewards. We evaluated our method on AI2-Thor and RoboTHOR and demonstrated that it significantly outperforms state-of-the-art (SOTA) methods on success rate and navigation efficiency. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# EasyECR:イベント参照解決モデルの実装と評価を容易にするライブラリ
EasyECR: A Library for Easy Implementation and Evaluation of Event Coreference Resolution Models ( http://arxiv.org/abs/2406.14106v1 ) ライセンス: Link先を確認 | Yuncong Li, Tianhua Xu, Sheng-hua Zhong, Haiqin Yang, | (参考訳) イベント参照解決(ECR)は、同じ現実世界のイベントを参照するイベント参照をクラスタ化するタスクである。
大きな進歩にもかかわらず、ECR研究は2つの大きな課題に直面している: データセットの評価が狭いことによるドメイン間の一般化可能性の制限と、多様なECRパイプライン内のモデルを比較することの難しさである。
これらの問題に対処するため,データ構造を標準化し,実装や公正な評価を行うための抽象的なERCパイプラインを設計した,最初のオープンソースライブラリであるEasyECRを開発した。
具体的には、EasyECRは7つの代表パイプラインと10の人気のあるベンチマークデータセットを統合し、さまざまなデータセットのモデル評価を可能にし、堅牢なECRパイプラインの開発を促進する。
EasyECR を用いて広範囲な評価を行うことで、代表的 ECR パイプラインは複数のデータセットをまたがって一般化できないため、複数のデータセット上で ECR パイプラインを評価する必要があること、そして \lowercase\expandafter{\romannumeral2}) すべての ECR パイプラインのモデルがパイプライン性能に大きな影響を与えること、したがって、ECR パイプラインの1つのモデルを比較する場合、他のモデルが一貫性を保つことが不可欠である。
さらに、ESRの結果の再現は簡単ではなく、開発ライブラリはこの相違を減らすのに役立ちます。
実験結果は将来の研究に貴重なベースラインを提供する。
Event Coreference Resolution (ECR) is the task of clustering event mentions that refer to the same real-world event. Despite significant advancements, ECR research faces two main challenges: limited generalizability across domains due to narrow dataset evaluations, and difficulties in comparing models within diverse ECR pipelines. To address these issues, we develop EasyECR, the first open-source library designed to standardize data structures and abstract ECR pipelines for easy implementation and fair evaluation. More specifically, EasyECR integrates seven representative pipelines and ten popular benchmark datasets, enabling model evaluations on various datasets and promoting the development of robust ECR pipelines. By conducting extensive evaluation via our EasyECR, we find that, \lowercase\expandafter{\romannumeral1}) the representative ECR pipelines cannot generalize across multiple datasets, hence evaluating ECR pipelines on multiple datasets is necessary, \lowercase\expandafter{\romannumeral2}) all models in ECR pipelines have a great effect on pipeline performance, therefore, when one model in ECR pipelines are compared, it is essential to ensure that the other models remain consistent. Additionally, reproducing ECR results is not trivial, and the developed library can help reduce this discrepancy. The experimental results provide valuable baselines for future research. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# 騒音からの計測誘起相転移の保護
Protect Measurement-Induced Phase Transition from Noise ( http://arxiv.org/abs/2406.14109v1 ) ライセンス: Link先を確認 | Dongheng Qian, Jing Wang, | (参考訳) 測定誘起相転移(MIPT)は、絡み合いエントロピーを特徴とする新しい非平衡相転移である。
ランダムなユニタリゲートによって誘導されるスクランブルダイナミクスは、低レートの測定から情報を保護することができる。
しかし、デフォーカスのような一般的なデコヒーレンスノイズは体積法相に有害であり、現在のノイズの多い中規模量子デバイスでMIPTを観測する上で大きな課題となっている。
本稿では,MIPTを環境騒音から効果的に保護できることを実証する。
条件エンタングルメントエントロピーは、2つの競合する外乱場としてノイズと量子エンハンスド演算が作用する統計力学モデルと関連付けられている。
そして, 平均機器環境交換対称性により, 条件エンタングルメントエントロピーがエンタングルメントの有効なプローブであることを確かめる。
さらに,(2+1)-d量子回路の劣化雑音下での数値的証明を行い,MIPTが実際に量子化演算によって観測可能であることを示す。
この結果は、ノイズと戦う際の量子エンハンスメントの力の具体的な例として機能するだけでなく、実際に実装するのが簡単なプロトコルであるため、実験的な関連性も持つ。
Measurement-induced phase transition (MIPT) is a novel non-equilibrium phase transition characterized by entanglement entropy. The scrambling dynamics induced by random unitary gates can protect information from low-rate measurements. However, common decoherence noises, such as dephasing, are detrimental to the volume law phase, posing a significant challenge for observing MIPT in current noisy intermediate-scale quantum devices. Here, we demonstrate that incorporating quantum-enhanced operations can effectively protect MIPT from environmental noise. The conditional entanglement entropy is associated with a statistical mechanics model wherein noise and quantum-enhanced operations act as two competing external random fields. Then we show that an average apparatus-environment exchange symmetry ensures the conditional entanglement entropy is a valid probe of entanglement. Furthermore, we provide numerical evidence on a (2+1)-d quantum circuit under dephasing noise, demonstrating that MIPT can indeed be observed with the aid of quantum-enhanced operations. This result not only serves as a concrete example of the power of quantum enhancement in combating noise but also holds experimental relevance, as the protocol is straightforward to implement in practice. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# グラフ上の正規化カットのためのExpander Hierarchies
Expander Hierarchies for Normalized Cuts on Graphs ( http://arxiv.org/abs/2406.14111v1 ) ライセンス: Link先を確認 | Kathrin Hanauer, Monika Henzinger, Robin Münk, Harald Räcke, Maximilian Vötsch, | (参考訳) グラフのエクスパンダー分解は多くの古典的なグラフ問題に対する理解を著しく前進させ、多くの基本的な理論的結果をもたらした。
しかし、彼らの実践における採用は、彼らの固有の複雑さと、彼らの漸近期における大きな隠れた要因のために妨げられている。
本稿では,拡張器の分解とその階層を計算するための最初の実用的なアルゴリズムを紹介し,正規化されたグラフクラスタリング目的の新たな解法において,それをコアコンポーネントとして組み込むことにより,その有効性と有用性を実証する。
各種大規模グラフに対する広範な実験により,我々の拡張アルゴリズムは,実行時の競争力を維持しながら,引用,電子メール,ソーシャルネットワーク,Webグラフなど,さまざまなグラフクラスに対して,ソリューション品質に対する正規化解法よりも大きなマージンで,正規化解法よりも優れていることが示された。
Expander decompositions of graphs have significantly advanced the understanding of many classical graph problems and led to numerous fundamental theoretical results. However, their adoption in practice has been hindered due to their inherent intricacies and large hidden factors in their asymptotic running times. Here, we introduce the first practically efficient algorithm for computing expander decompositions and their hierarchies and demonstrate its effectiveness and utility by incorporating it as the core component in a novel solver for the normalized cut graph clustering objective. Our extensive experiments on a variety of large graphs show that our expander-based algorithm outperforms state-of-the-art solvers for normalized cut with respect to solution quality by a large margin on a variety of graph classes such as citation, e-mail, and social networks or web graphs while remaining competitive in running time. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# 量子ニューラルネットワークにおける皮膚効果
Skin effect in quantum neural networks ( http://arxiv.org/abs/2406.14112v1 ) ライセンス: Link先を確認 | Antonio Sannia, Gian Luca Giorgi, Stefano Longhi, Roberta Zambrini, | (参考訳) 散逸系の分野では、非エルミート皮膚効果は、その予期せぬ意味から大きな関心を集めている。
システムは、その性質が境界条件に大きく影響された場合、皮膚効果を示すと言われている。
急成長する関心にもかかわらず、この現象が新興量子技術に与える影響は未解明のままである。
本研究は,量子ニューラルネットワークがこのような挙動を示し,その基本的な関心を超える皮膚効果を計算処理にも活用できることを実証することによって,このギャップに対処するものである。
具体的には、量子貯水池コンピュータとして使用される複雑なネットワークの性能は、そのアーキテクチャ内の散逸線の境界条件によってのみ決定されることを示す。
1つの(エッジ)リンクの閉鎖は、機械学習に皮膚効果を利用する可能性を証明した時系列処理のパフォーマンスを劇的に変化させる。
In the field of dissipative systems, the non-Hermitian skin effect has generated significant interest due to its unexpected implications. A system is said to exhibit a skin effect if its properties are largely affected by the boundary conditions. Despite the burgeoning interest, the potential impact of this phenomenon on emerging quantum technologies remains unexplored. In this work, we address this gap by demonstrating that quantum neural networks can exhibit this behavior and that skin effects, beyond their fundamental interest, can also be exploited in computational tasks. Specifically, we show that the performance of a given complex network used as a quantum reservoir computer is dictated solely by the boundary conditions of a dissipative line within its architecture. The closure of one (edge) link is found to drastically change the performance in time series processing proving the possibility to exploit skin effects for machine learning. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# 微分可能な量子位相推定アルゴリズム
A differentiable quantum phase estimation algorithm ( http://arxiv.org/abs/2406.14113v1 ) ライセンス: Link先を確認 | Davide Castaldo, Soran Jahangiri, Agostino Migliore, Juan Miguel Arrazola, Stefano Corni, | (参考訳) 電子物性のシミュレーションは、現代の電子構造理論において重要な問題であり、エネルギーデリバティブを計算するためのプロトコルを開発するために過去数十年にわたって多大な努力を払ってきた。
本研究では,量子位相推定アルゴリズムを完全微分可能なフレームワークに統合する戦略を開発することにより,この問題に対処する。
これは任意の初期状態に取り組むことができる滑らかな推定器を考案することで達成される。
この推定器の統計量とアルゴリズムコストを特徴付ける解析式を提供する。
さらに、任意の状態が考慮されたときに推定精度が保持され、それが標準多数決ルールの1を超えているという数値的な証拠を提供する。
我々はこの手法を化学量の推定に用いて、最大19量子ビットのシミュレーションによる基底状態と三重項励起状態の幾何最適化によるアプローチを実証した。
この研究は、干渉法と量子微分可能プログラミングを組み合わせた新しい量子アルゴリズムの道を開いた。
The simulation of electronic properties is a pivotal issue in modern electronic structure theory, driving significant efforts over the past decades to develop protocols for computing energy derivatives. In this work, we address this problem by developing a strategy to integrate the quantum phase estimation algorithm within a fully differentiable framework. This is accomplished by devising a smooth estimator able to tackle arbitrary initial states. We provide analytical expressions to characterize the statistics and algorithmic cost of this estimator. Furthermore, we provide numerical evidence that the estimation accuracy is retained when an arbitrary state is considered and that it exceeds the one of standard majority rule. We explicitly use this procedure to estimate chemically relevant quantities, demonstrating our approach through ground-state and triplet excited state geometry optimization with simulations involving up to 19 qubits. This work paves the way for new quantum algorithms that combine interference methods and quantum differentiable programming. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# Dye4AI: 生成AIサービスにおけるデータバウンダリの保証
Dye4AI: Assuring Data Boundary on Generative AI Services ( http://arxiv.org/abs/2406.14114v1 ) ライセンス: Link先を確認 | Shu Wang, Kun Sun, Yan Zhai, | (参考訳) 生成人工知能(AI)は、さまざまなアプリケーションに汎用性があるが、サードパーティのAIベンダによるセキュリティとプライバシに関する懸念は、センシティブなシナリオへの導入を妨げている。
したがって、AIの信頼性を検証し、データバウンダリのセキュリティを確保することは、ユーザにとって不可欠である。
本稿では,AIモデル進化におけるデータフローの診断のために,人工的なトリガーデータを人-AI対話に注入し,AI応答を特定のプロンプトに向けて観察する染料試験システムDie4AIを提案する。
染料試験はトリガー生成,トリガー挿入,トリガー検索の3段階を含む。
まず、ユニークさとステルス性の両方を維持するために、擬似ランダム番号を不可知形式に変換する新しいトリガーを設計する。
第2に、カスタム設計の3段階会話戦略により、各トリガー項目を対話に挿入し、モデルが現在のセッションで新しいトリガー知識を記憶することを確認した。
最後に、AIベンダがモデル微調整にユーザデータを活用する場合にのみ、新たなセッションにトリガーが現れるため、新たなセッションで特定のプロンプトでトリガーを定期的にリカバリしようとします。
6つのLCMの大規模実験により,種々のアーキテクチャやパラメータサイズを持つモデルであっても,染料試験方式はデータ境界の確保に有効であることが示された。
また、大きくてプレミアなモデルの方がDie4AIに適している傾向があり、例えばトリガーはOpenLLaMa-13Bで1トリガーアイテムあたり2回しか挿入できない。
さらに、染料試験における迅速な選択を分析し、生成型AIサービスの将来のテストシステムに対する洞察を提供する。
Generative artificial intelligence (AI) is versatile for various applications, but security and privacy concerns with third-party AI vendors hinder its broader adoption in sensitive scenarios. Hence, it is essential for users to validate the AI trustworthiness and ensure the security of data boundaries. In this paper, we present a dye testing system named Dye4AI, which injects crafted trigger data into human-AI dialogue and observes AI responses towards specific prompts to diagnose data flow in AI model evolution. Our dye testing procedure contains 3 stages: trigger generation, trigger insertion, and trigger retrieval. First, to retain both uniqueness and stealthiness, we design a new trigger that transforms a pseudo-random number to a intelligible format. Second, with a custom-designed three-step conversation strategy, we insert each trigger item into dialogue and confirm the model memorizes the new trigger knowledge in the current session. Finally, we routinely try to recover triggers with specific prompts in new sessions, as triggers can present in new sessions only if AI vendors leverage user data for model fine-tuning. Extensive experiments on six LLMs demonstrate our dye testing scheme is effective in ensuring the data boundary, even for models with various architectures and parameter sizes. Also, larger and premier models tend to be more suitable for Dye4AI, e.g., trigger can be retrieved in OpenLLaMa-13B even with only 2 insertions per trigger item. Moreover, we analyze the prompt selection in dye testing, providing insights for future testing systems on generative AI services. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# ドロスの本質と破棄--微調整大言語モデルにおけるデータ選択の再考
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models ( http://arxiv.org/abs/2406.14115v1 ) ライセンス: Link先を確認 | Ziche Liu, Rui Ke, Feng Jiang, Haizhou Li, | (参考訳) 細調整大型言語モデル(LLM)のデータ選択は、与えられた候補データセットから高品質なサブセットを選択して、Pending Fine-Tune Model(PFM)をSEM(Selective-Enhanced Model)にトレーニングすることを目的としている。
モデルのパフォーマンスを改善し、トレーニングプロセスを加速できます。
関連するデータ選択に関する調査はいくつかあるが, 各種実験条件による既存手法との総合的な比較は乏しい。
この問題に対処するために、まずデータ選択のための3段階のスキームを提案し、このスキームに従って既存の作品を包括的にレビューする。
そこで我々は,様々なモデルと多様な実験環境を比べることの難しさを克服するために,比に基づく効率指標とランキングに基づく実現可能性指標との統一比較手法を設計した。
詳細な比較分析の結果,データ特化ラベルやモデル特化ラベルを対象とする手法の方が効率が高いことがわかったが,選択アルゴリズムの設計において,付加的なノイズ情報の導入は避けるべきである。
最後に,データ選択の傾向を概説し,今後の研究を導くための短期的・長期的課題を強調した。
Data selection for fine-tuning Large Language Models (LLMs) aims to select a high-quality subset from a given candidate dataset to train a Pending Fine-tune Model (PFM) into a Selective-Enhanced Model (SEM). It can improve the model performance and accelerate the training process. Although a few surveys have investigated related works of data selection, there is a lack of comprehensive comparison between existing methods due to their various experimental settings. To address this issue, we first propose a three-stage scheme for data selection and comprehensively review existing works according to this scheme. Then, we design a unified comparing method with ratio-based efficiency indicators and ranking-based feasibility indicators to overcome the difficulty of comparing various models with diverse experimental settings. After an in-depth comparative analysis, we find that the more targeted method with data-specific and model-specific quality labels has higher efficiency, but the introduction of additional noise information should be avoided when designing selection algorithms. Finally, we summarize the trends in data selection and highlight the short-term and long-term challenges to guide future research. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# ゼロショットLLMランサーのプロンプト変動の検討
An Investigation of Prompt Variations for Zero-shot LLM-based Rankers ( http://arxiv.org/abs/2406.14117v1 ) ライセンス: Link先を確認 | Shuoqi Sun, Shengyao Zhuang, Shuai Wang, Guido Zuccon, | (参考訳) ゼロショット大言語モデル (LLMs) に基づくランク付け手法の有効性について, 特定のコンポーネントや単語の影響を系統的に把握する。
LLMに基づくいくつかのゼロショットランキング法が最近提案されている。
多くの点において、(1) が実装したランキングアルゴリズム、(2) ポイントワイズ対リストワイズ、(2) GPT3.5 vs. FLAN-T5 のバックボーン LLM 、(3) プロンプトで使用されるコンポーネントと単語、例えばロール定義(ロールプレイング)の使用の有無、およびこれを表現するために使用される実際の単語などが異なる。
現在、性能の違いが根底にあるランキングアルゴリズムによるものなのか、あるいはプロンプトで使われる単語の選択がより良くなるなど、急激な要因によるものなのかは定かではない。
この混乱は将来の研究を損なう恐れがある。
大規模な実験と分析により,ゼロショットLLMランキングの方法の違いにランキングアルゴリズムが寄与することが判明した。
しかし、LLMのバックボーンもそうである -- しかし、さらに重要なのは、コンポーネントとワードのプロンプトの選択がランキングに影響を与えることです。
実際、我々の実験では、後者の要素が実際のランク付けアルゴリズムよりもランク付けの有効性に影響を与えており、即時変動を考慮した場合、ランク付け方法の違いがより曖昧になることが判明した。
We provide a systematic understanding of the impact of specific components and wordings used in prompts on the effectiveness of rankers based on zero-shot Large Language Models (LLMs). Several zero-shot ranking methods based on LLMs have recently been proposed. Among many aspects, methods differ across (1) the ranking algorithm they implement, e.g., pointwise vs. listwise, (2) the backbone LLMs used, e.g., GPT3.5 vs. FLAN-T5, (3) the components and wording used in prompts, e.g., the use or not of role-definition (role-playing) and the actual words used to express this. It is currently unclear whether performance differences are due to the underlying ranking algorithm, or because of spurious factors such as better choice of words used in prompts. This confusion risks to undermine future research. Through our large-scale experimentation and analysis, we find that ranking algorithms do contribute to differences between methods for zero-shot LLM ranking. However, so do the LLM backbones -- but even more importantly, the choice of prompt components and wordings affect the ranking. In fact, in our experiments, we find that, at times, these latter elements have more impact on the ranker's effectiveness than the actual ranking algorithms, and that differences among ranking methods become more blurred when prompt variations are considered. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# 学習ビデオ圧縮の予測と基準品質適応
Prediction and Reference Quality Adaptation for Learned Video Compression ( http://arxiv.org/abs/2406.14118v1 ) ライセンス: Link先を確認 | Xihua Sheng, Li Li, Dong Liu, Houqiang Li, | (参考訳) 時間予測はビデオ圧縮において最も重要な技術の一つである。
様々な予測符号化モードは、従来のビデオコーデックで設計されている。
従来のビデオコーデックは、予測品質と基準品質に応じて最適な符号化モードを決定する。
近年,学習ビデオコーデックは大きな進歩を遂げている。
しかし、予測や基準品質適応は無視され、時間的予測の誤利用や再構成エラーの伝播につながる。
そこで本稿では,空間的およびチャネル的に予測される品質差を明確化するために,信頼性に基づく予測品質適応(PQA)モジュールを提案する。
このモジュールでは、低品質の予測が抑制され、高品質の予測が強化される。
コーデックは、どの空間的位置またはチャネル的位置を使用するかを適応的に決定することができる。
さらに、参照品質適応(RQA)モジュールと関連する反復訓練戦略を提案し、様々な参照品質のための動的空間変動フィルタを提供する。
フィルタを用いることで、基準品質に応じて、コーデックが目標再構成品質を達成することがより容易になり、再構成エラーの伝播が軽減される。
実験結果から,本コーデックは,RGBおよびYUV420色空間において,H.266/VVCの参照ソフトウェアや,従来の最先端の学習ビデオコーデックよりも高い圧縮性能が得られることがわかった。
Temporal prediction is one of the most important technologies for video compression. Various prediction coding modes are designed in traditional video codecs. Traditional video codecs will adaptively to decide the optimal coding mode according to the prediction quality and reference quality. Recently, learned video codecs have made great progress. However, they ignore the prediction and reference quality adaptation, which leads to incorrect utilization of temporal prediction and reconstruction error propagation. Therefore, in this paper, we first propose a confidence-based prediction quality adaptation (PQA) module to provide explicit discrimination for the spatial and channel-wise prediction quality difference. With this module, the prediction with low quality will be suppressed and that with high quality will be enhanced. The codec can adaptively decide which spatial or channel location of predictions to use. Then, we further propose a reference quality adaptation (RQA) module and an associated repeat-long training strategy to provide dynamic spatially variant filters for diverse reference qualities. With the filters, it is easier for our codec to achieve the target reconstruction quality according to reference qualities, thus reducing the propagation of reconstruction errors. Experimental results show that our codec obtains higher compression performance than the reference software of H.266/VVC and the previous state-of-the-art learned video codecs in both RGB and YUV420 colorspaces. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# ゲートシフト拡散機構を用いた新しいCNN変換器を用いた高スペクトル画像分類
Boosting Hyperspectral Image Classification with Gate-Shift-Fuse Mechanisms in a Novel CNN-Transformer Approach ( http://arxiv.org/abs/2406.14120v1 ) ライセンス: Link先を確認 | Mohamed Fadhlallah Guerri, Cosimo Distante, Paolo Spagnolo, Fares Bougourzi, Abdelmalik Taleb-Ahmed, | (参考訳) ハイパースペクトル画像(HSI)を分類する過程で、各画素はランドカバー型に分類される。
HSI分類のためのCNNベースの技術は、その適応的特徴表現能力によって、明らかに分野を進歩させてきた。
しかし、これらのCNNベースの手法では、深い機能の獲得は依然として困難である。
対照的に、トランスモデルは高いレベルのセマンティックな特徴を抽出し、補完的な強度を提供する。
本論文の主な貢献は、2つの畳み込みブロック(GSF)ブロックとトランスフォーマーブロックを含むHSI分類モデルの導入である。
このモデルは、局所特徴抽出と長距離コンテキストモデリングにおける変換器におけるCNNの強みを利用する。
GSFブロックは、局所的および大域的空間スペクトルの特徴の抽出を強化するように設計されている。
HSI立方体からの情報の抽出を促進するために,効果的な注意機構モジュールも提案されている。
提案手法は,4つの有名なデータセット(インドパインズ,パヴィア大学,WHU-WHU-Hi-LongKou,WHU-Hi-HanChuan)を用いて評価し,提案手法が他のモデルと比較して優れた結果が得られることを示した。
During the process of classifying Hyperspectral Image (HSI), every pixel sample is categorized under a land-cover type. CNN-based techniques for HSI classification have notably advanced the field by their adept feature representation capabilities. However, acquiring deep features remains a challenge for these CNN-based methods. In contrast, transformer models are adept at extracting high-level semantic features, offering a complementary strength. This paper's main contribution is the introduction of an HSI classification model that includes two convolutional blocks, a Gate-Shift-Fuse (GSF) block and a transformer block. This model leverages the strengths of CNNs in local feature extraction and transformers in long-range context modelling. The GSF block is designed to strengthen the extraction of local and global spatial-spectral features. An effective attention mechanism module is also proposed to enhance the extraction of information from HSI cubes. The proposed method is evaluated on four well-known datasets (the Indian Pines, Pavia University, WHU-WHU-Hi-LongKou and WHU-Hi-HanChuan), demonstrating that the proposed framework achieves superior results compared to other models. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# EduQate: RMABによる適応カリキュラムの教育環境における生成
EduQate: Generating Adaptive Curricula through RMABs in Education Settings ( http://arxiv.org/abs/2406.14122v1 ) ライセンス: Link先を確認 | Sidney Tio, Dexun Li, Pradeep Varakantham, | (参考訳) 学生の個人学習の進歩に資する、パーソナライズされた適応的な教育ツールの開発には、大きな関心が寄せられている。
このようなツールを開発する上で重要な側面は、多岐にわたるが関連するさまざまなコンテンツに対して、効率的な方法で熟達を実現する方法を探ることである。
強化学習(Reinforcement Learning)とマルチアームバンド(Multi-armed Bandits)は教育環境において有望であるが、既存の作品では学習内容の独立性を前提としており、それらの内容間の相互依存を無視することが多い。
そこで我々は,相互依存型アーム間の関係を表現するネットワークを活用し,教育ネットワークレスマルチアームバンド(EdNetRMABs)を紹介した。
次に,相互依存を意識したQ-ラーニング手法であるEduQateを提案する。
我々は,EduQateの最適性保証を確立し,その有効性を示す。
There has been significant interest in the development of personalized and adaptive educational tools that cater to a student's individual learning progress. A crucial aspect in developing such tools is in exploring how mastery can be achieved across a diverse yet related range of content in an efficient manner. While Reinforcement Learning and Multi-armed Bandits have shown promise in educational settings, existing works often assume the independence of learning content, neglecting the prevalent interdependencies between such content. In response, we introduce Education Network Restless Multi-armed Bandits (EdNetRMABs), utilizing a network to represent the relationships between interdependent arms. Subsequently, we propose EduQate, a method employing interdependency-aware Q-learning to make informed decisions on arm selection at each time step. We establish the optimality guarantee of EduQate and demonstrate its efficacy compared to baseline policies, using students modeled from both synthetic and real-world data. | 翻訳日:2024-06-21 14:40:46 公開日:2024-06-20 |
# AI倫理のナラティブをマッピングする - 2015年から2022年にかけてのTwitterの談話から
Mapping AI Ethics Narratives: Evidence from Twitter Discourse Between 2015 and 2022 ( http://arxiv.org/abs/2406.14123v1 ) ライセンス: Link先を確認 | Mengyi Wei, Puzhen Zhang, Chuan Chen, Dongsheng Chen, Chenyu Zuo, Liqiu Meng, | (参考訳) 公的な参加は、AI技術によって提起された倫理問題に関する洞察に富む理解にとって不可欠である。
この論文では、TwitterがAI倫理に関する論説を探求するオンライン公開の場として選ばれ、AI技術の発展における広範かつ公平な公的な関与を促進する。
研究フレームワークは、Twitter上のAI倫理に関する言説を一貫性のある読みやすい物語に変換する方法を示すために提案されている。
2つの部分から構成される。
1) ニューラルネットワークを大きな言語モデルと組み合わせて,小さいが重要な音声を無視することなく,話題の話題を含む話題階層を構築することで,意味のある情報のきめ細かい探索を可能にする。
2) ソーシャルメディア情報の断片化と理解の難しさを,ナラティブ・ビジュアライゼーションによる一貫性と読みやすさに転換することで,Twitterデータにおける情報理解の新たな視点を提供する。
本稿では,AI技術の公衆の監視を強化し,公正かつ持続可能な開発を促進する政策立案者を支援することを目的とする。
Public participation is indispensable for an insightful understanding of the ethics issues raised by AI technologies. Twitter is selected in this paper to serve as an online public sphere for exploring discourse on AI ethics, facilitating broad and equitable public engagement in the development of AI technology. A research framework is proposed to demonstrate how to transform AI ethics-related discourse on Twitter into coherent and readable narratives. It consists of two parts: 1) combining neural networks with large language models to construct a topic hierarchy that contains popular topics of public concern without ignoring small but important voices, thus allowing a fine-grained exploration of meaningful information. 2) transforming fragmented and difficult-to-understand social media information into coherent and easy-to-read stories through narrative visualization, providing a new perspective for understanding the information in Twitter data. This paper aims to advocate for policy makers to enhance public oversight of AI technologies so as to promote their fair and sustainable development. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# データ圧縮の視点からのLLM訓練におけるデータプルーニングにおけるサンプル重要度の測定
Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective ( http://arxiv.org/abs/2406.14124v1 ) ライセンス: Link先を確認 | Minsang Kim, Seungjun Baek, | (参考訳) 大規模言語モデル(LLM)の計算効率訓練は重要な研究課題となっている。
本研究では,データプルーニングを,データプルーニングに関するデータ圧縮ビューを用いて,LLMのデータ効率のトレーニング手法として検討する。
我々は、サンプルの情報量、あるいはその記述長の達成可能な圧縮が、サンプルの重要性を表していると主張している。
鍵となるアイデアは、情報の少ないサンプルは冗長な情報を含んでいる可能性が高いため、最初に刈り取るべきである、ということだ。
トレーニングされたモデルのログ類似度関数を代理として利用し,サンプルの情報量を測定する。
実験では、情報ベースのプルーニングがモデルの一般化能力を高め、言語モデリングや下流タスクを改善するという驚くべき洞察を、データセット全体でトレーニングされたモデルと比較して示している。
Compute-efficient training of large language models (LLMs) has become an important research problem. In this work, we consider data pruning as a method of data-efficient training of LLMs, where we take a data compression view on data pruning. We argue that the amount of information of a sample, or the achievable compression on its description length, represents its sample importance. The key idea is that, less informative samples are likely to contain redundant information, and thus should be pruned first. We leverage log-likelihood function of trained models as a surrogate to measure information content of samples. Experiments reveal a surprising insight that information-based pruning can enhance the generalization capability of the model, improves upon language modeling and downstream tasks as compared to the model trained on the entire dataset. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# 励起ダイナミクスの変分カルタン量子ダイナミクスシミュレーション
Variational-Cartan Quantum Dynamics Simulations of Excitation Dynamics ( http://arxiv.org/abs/2406.14127v1 ) ライセンス: Link先を確認 | Linyun Wan, Jie Liu, Zhenyu Li, Jinlong Yang, | (参考訳) 量子力学シミュレーション(QDS)は、量子コンピューティングの最も期待されている応用の1つである。
ハミルトニアンシミュレーションアルゴリズムを実装するための量子回路深度は、長時間のダイナミクスシミュレーションが短期量子プロセッサでは不規則になるように、時間に依存するのが一般的である。
カルタン分解(CD)に基づくハミルトニアンシミュレーションアルゴリズムは、時間非依存のケースに限られる固定深度回路を持つQDSに対して魅力的なスキームを提供する。
本研究は, 時間依存システムと変分ハミルトンシミュレーションを組み合わせることで, 時間依存システムを研究するためのCDベースのハミルトンシミュレーションアルゴリズムを一般化する。
ハミルトニアンの時間依存性と時間に依存しない部分は、それぞれ変分法とCDベースのハミルトニアンシミュレーションアルゴリズムで処理される。
そのため、このハイブリッドハミルトニアンシミュレーションアルゴリズムでは、高い精度を維持しながら、固定深度量子回路のみが必要となる。
このアルゴリズムを用いてスピン系と分子系の応答を$\delta$-kick電場に適用し、これらの励起過程の正確なスペクトルを求める。
Quantum dynamics simulations (QDSs) are one of the most highly anticipated applications of quantum computing. Quantum circuit depth for implementing Hamiltonian simulation algorithms is commonly time dependent so that long time dynamics simulations become impratical on near-term quantum processors. The Hamiltonian simulation algorithm based on Cartan decomposition (CD) provides an appealing scheme for QDSs with fixed-depth circuits while limited to time-independent case. In this work, we generalize this CD-based Hamiltonian simulation algorithm for studying time-dependent systems by combining it with variational Hamiltonian simulation. The time-dependent and time-independent parts of the Hamiltonian are treated with the variational approach and the CD-based Hamiltonian simulation algorithms, respectively. As such, only fixed-depth quantum circuits are required in this hybrid Hamiltonian simulation algorithm while still maintaining high accuracy. We apply this new algorithm to study the response of spin and molecular systems to $\delta$-kick electric fields and obtain accurate spectra for these excitation processes. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# イベント指向のロングビデオ理解に向けて
Towards Event-oriented Long Video Understanding ( http://arxiv.org/abs/2406.14129v1 ) ライセンス: Link先を確認 | Yifan Du, Kun Zhou, Yuqi Huo, Yifan Li, Wayne Xin Zhao, Haoyu Lu, Zijia Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen, | (参考訳) MLLM(Multimodal Large Language Models)の急速な開発に伴い、ビデオ理解能力を評価するために多数のベンチマークが提案されている。
しかしながら、ビデオにリッチなイベントが欠如しているため、これらのデータセットは、ビデオ全体を見る必要なしに、回答を数フレームから推論できるというショートカットバイアスに悩まされる可能性がある。
この問題に対処するために、既存のデータセットとヒューマンアノテーションに基づいて構築されたイベント指向の長ビデオ理解ベンチマークであるEvent-Benchを紹介します。
Event-Benchには、ビデオイベント理解能力を総合的に評価する6つのイベント関連タスクと2,190のテストインスタンスが含まれている。
さらに,統合されたイベント集約型ビデオ命令を用いて,ビデオMLLMのコスト効率を高める手法であるVIM(Video Instruction Merging)を提案する。
大規模な実験により、最高のパフォーマンスモデルであるGPT-4oは53.33の全体的な精度を達成し、最高のオープンソースモデルを41.42%上回る結果となった。
効果的な命令合成法と適応モデルアーキテクチャを利用して、VIMはEvent-Bench上の最先端のオープンソースモデルとGPT-4Vの両方を超越する。
すべてのコード、データ、モデルはhttps://github.com/RUCAIBox/Event-Bench.comで公開されている。
With the rapid development of video Multimodal Large Language Models (MLLMs), numerous benchmarks have been proposed to assess their video understanding capability. However, due to the lack of rich events in the videos, these datasets may suffer from the short-cut bias that the answers can be deduced from a few frames, without the need to watch the entire video. To address this issue, we introduce Event-Bench, an event-oriented long video understanding benchmark built on existing datasets and human annotations. Event-Bench includes six event-related tasks and 2,190 test instances to comprehensively evaluate video event understanding ability. Additionally, we propose Video Instruction Merging~(VIM), a cost-effective method that enhances video MLLMs using merged, event-intensive video instructions, addressing the scarcity of human-annotated, event-intensive data. Extensive experiments show that the best-performing model, GPT-4o, achieves an overall accuracy of 53.33, significantly outperforming the best open-source model by 41.42%. Leveraging an effective instruction synthesis method and an adaptive model architecture, VIM surpasses both state-of-the-art open-source models and GPT-4V on the Event-Bench. All code, data, and models are publicly available at https://github.com/RUCAIBox/Event-Bench. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# ExVideo:パラメータ効率の良いポストチューニングによるビデオ拡散モデルの拡張
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning ( http://arxiv.org/abs/2406.14130v1 ) ライセンス: Link先を確認 | Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian, | (参考訳) 近年,映像合成技術の進歩が注目されている。
AnimateDiffやStable Video Diffusionのようなビデオ合成モデルは、動的ビジュアルコンテンツの作成において拡散モデルの適用性を実証している。
SORAの出現は、ビデオ生成技術の可能性をさらに浮き彫りにした。
それでも、ビデオ長の拡張は、計算資源の制限によって制限されている。
ほとんどの既存のビデオ合成モデルは短いビデオクリップしか生成できない。
本稿では,ExVideoと呼ばれるビデオ合成モデルのためのポストチューニング手法を提案する。
このアプローチは、現在のビデオ合成モデルの能力を高めるために設計されており、トレーニング費の低減を図りながら、時間的長期にわたってコンテンツを制作することができる。
特に,3次元畳み込み,時間的注意,位置埋め込みなど,共通時間モデルアーキテクチャ間の拡張戦略を設計する。
提案手法の有効性を評価するため,安定ビデオ拡散モデルを用いた拡張訓練を行った。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5\timesを生成可能なモデル容量を拡大しています。
重要なことに、ビデオ長の大幅な増加は、モデル固有の一般化能力を損なうものではない。
ソースコードと拡張されたモデルを公開します。
Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model's capacity to generate up to $5\times$ its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn't compromise the model's innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# 児童性虐待材料(CSAM)の文脈における性的に明示的な内容の検出--エンド・ツー・エンド分類器と地域ネットワーク
Detecting sexually explicit content in the context of the child sexual abuse materials (CSAM): end-to-end classifiers and region-based networks ( http://arxiv.org/abs/2406.14131v1 ) ライセンス: Link先を確認 | Weronika Gutfeter, Joanna Gajewska, Andrzej Pacut, | (参考訳) 子どもの性的虐待物質(CSAM)は、世界中の子供の安全と幸福を脅かす。
法執行機関や技術系企業にとって,そのような素材の流通・流通防止は重要な課題である。
コンテンツモデレーションは手動で行うことが多いため、自動検出システムの開発は、人間レビュアーが潜在的に有害な画像に晒されることを減らし、反作用のプロセスを加速させるのに役立つ。
本研究は、CSAM自動検出システムにおいて重要な役割を担う性的な内容の分類方法を提案する。
エンド・ツー・エンドの分類器、人検出を伴う分類器、プライベート・ボディ・パーツ・ディテクターなどである。
提案手法はすべて,不正コンテンツを報告するオンラインツールから得られた画像に基づいて検証される。
法的制約のため、データへのアクセスは制限され、すべてのアルゴリズムは分離されたサーバ上でリモートで実行される。
エンドツーエンド分類器は、追加の中立サンプルと成人ポルノグラフィーでトレーニングセットを増強した後、90.17%の精度で最も有望な結果を得る。
検出に基づく手法は高い精度を達成することができず、それ自身で最終分類器として機能することができないが、システムへの組み込みは有益である。
人体指向のアプローチは、解釈が容易な結果を生成し、データに直接アクセスすることなくトレーニングされたモデルを分析する際には、より解釈可能な結果を得ることが不可欠である。
Child sexual abuse materials (CSAM) pose a significant threat to the safety and well-being of children worldwide. Detecting and preventing the distribution of such materials is a critical task for law enforcement agencies and technology companies. As content moderation is often manual, developing an automated detection system can help reduce human reviewers' exposure to potentially harmful images and accelerate the process of counteracting. This study presents methods for classifying sexually explicit content, which plays a crucial role in the automated CSAM detection system. Several approaches are explored to solve the task: an end-to-end classifier, a classifier with person detection and a private body parts detector. All proposed methods are tested on the images obtained from the online tool for reporting illicit content. Due to legal constraints, access to the data is limited, and all algorithms are executed remotely on the isolated server. The end-to-end classifier yields the most promising results, with an accuracy of 90.17%, after augmenting the training set with the additional neutral samples and adult pornography. While detection-based methods may not achieve higher accuracy rates and cannot serve as a final classifier on their own, their inclusion in the system can be beneficial. Human body-oriented approaches generate results that are easier to interpret, and obtaining more interpretable results is essential when analyzing models that are trained without direct access to data. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# 異種マーケティングにおける時空間適応認識によるモノトニックモデリングの強化
Enhancing Monotonic Modeling with Spatio-Temporal Adaptive Awareness in Diverse Marketing ( http://arxiv.org/abs/2406.14132v1 ) ライセンス: Link先を確認 | Bin Li, Jiayan Pei, Feiyang Xiao, Yifan Zhao, Zhixing Zhang, Diwei Liu, HengXu He, Jia Jia, | (参考訳) モバイルインターネット時代において、オンライン食品注文サービス(OFOS)は、それが人々にもたらす利便性のために、包括的金融の不可欠な構成要素として出現する。
OFOSプラットフォームは、様々なマーケティングキャンペーンを通じてユーザーや商人に動的なアロケーションインセンティブを提供し、プラットフォームの予算効率を維持しながら支払いを促進する。
大きな進歩にもかかわらず、マーケティング分野は2つの大きな課題に直面し続けている。
一 利用者のインセンティブに対する単調反応(感度)の予測の精度を要求され、かつ、より効率のよい限られた予算を割り当てる方法
(二)異なる時期・場所にわたる多様なマーケティングキャンペーンにおいて、時空間適応性と堅牢性を確保すること。
これらの問題に対処するために,マーケティング価格の時空間認識のための制約付きモノトニック適応ネットワーク(CoMAN)手法を提案する。
具体的には、2つの基本時空間知覚モジュールを通して属性特徴内の時空間的嗜好を捉える。
様々な時間や場所のインセンティブに対するユーザ感度差の捕捉をさらに促進するために,時空間の凸度と凹度を学習するためのモジュールを設計し,感度関数を表現する。
CoMANは、価格設定中により効率的なインセンティブ投資の配分を達成でき、予算効率を維持しつつ、変換率と注文を増加させることができる。
多様なマーケティングキャンペーンにおける大規模なオフラインおよびオンライン実験の結果は、モノトニック・オブ・ザ・アーティファクト・メソッドを上回りながら、提案手法の有効性を実証している。
In the mobile internet era, the Online Food Ordering Service (OFOS) emerges as an integral component of inclusive finance owing to the convenience it brings to people. OFOS platforms offer dynamic allocation incentives to users and merchants through diverse marketing campaigns to encourage payments while maintaining the platforms' budget efficiency. Despite significant progress, the marketing domain continues to face two primary challenges: (i) how to allocate a limited budget with greater efficiency, demanding precision in predicting users' monotonic response (i.e. sensitivity) to incentives, and (ii) ensuring spatio-temporal adaptability and robustness in diverse marketing campaigns across different times and locations. To address these issues, we propose a Constrained Monotonic Adaptive Network (CoMAN) method for spatio-temporal perception within marketing pricing. Specifically, we capture spatio-temporal preferences within attribute features through two foundational spatio-temporal perception modules. To further enhance catching the user sensitivity differentials to incentives across varied times and locations, we design modules for learning spatio-temporal convexity and concavity as well as for expressing sensitivity functions. CoMAN can achieve a more efficient allocation of incentive investments during pricing, thus increasing the conversion rate and orders while maintaining budget efficiency. Extensive offline and online experimental results within our diverse marketing campaigns demonstrate the effectiveness of the proposed approach while outperforming the monotonic state-of-the-art method. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# マウス頭蓋窓作成のための自律型ロボットドリルシステム
Autonomous Robotic Drilling System for Mice Cranial Window Creation ( http://arxiv.org/abs/2406.14135v1 ) ライセンス: Link先を確認 | Enduo Zhao, Murilo M. Marinho, Kanako Harada, | (参考訳) 生命科学における実験操作のためのロボット支援は、科学者のスキルに関わらず、良好な結果をもたらすことが期待されている。
生命科学における実験的な標本は個々の変数に従属するので、自律的なロボット制御を成功させるために複雑なアルゴリズムを必要とする。
症例として,我々はマウスの頭蓋窓の創出について検討している。
この手術では、約300mの厚みを持つ頭蓋骨の8mmの円状のパッチを除去する必要があるが、マウスの頭蓋骨の形状と厚さは、マウス、性別、年齢によって大きく異なる。
本研究では,画像と力情報に基づく完了レベル認識と実行時のフィードバックを含む軌道計画ブロックで構成される,オフライン計画のない自律型ロボット掘削法を提案する。
フォース情報により、完成レベルの解像度が10倍になる。
提案手法を2つの方法で評価する。
第一に、卵殻掘削作業において、成功率は95%、平均掘削時間は20回中7.1分であった。
第二に、死後マウスでは70%の成功率、平均掘削時間は20回中9.3分である。
Robotic assistance for experimental manipulation in the life sciences is expected to enable favorable outcomes, regardless of the skill of the scientist. Experimental specimens in the life sciences are subject to individual variability hence require intricate algorithms for successful autonomous robotic control. As a use case, we are studying the creation of cranial windows in mice. This operation requires the removal of an 8-mm-circular patch of the skull, which is approximately 300 um thick, but the shape and thickness of the mouse skull significantly varies depending on the strain of mouse, sex, and age. In this work, we propose an autonomous robotic drilling method with no offline planning, consisting of a trajectory planning block with execution-time feedback with completion level recognition based on image and force information. The force information allows for completion-level resolution to increase 10 fold. We evaluate the proposed method in two ways. First, in an eggshell drilling task and achieved a success rate of 95% and average drilling time of 7.1 min out of 20 trials. Second, in postmortem mice and with a success rate of 70% and average drilling time of 9.3 min out of 20 trials. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# MACAROON: ビジョンランゲージモデルのトレーニングをパートナーに
MACAROON: Training Vision-Language Models To Be Your Engaged Partners ( http://arxiv.org/abs/2406.14137v1 ) ライセンス: Link先を確認 | Shujin Wu, Yi R. Fung, Sha Li, Yixin Wan, Kai-Wei Chang, Heng Ji, | (参考訳) 大規模視覚言語モデル(LVLM)は、指示に従うのに熟練し、多様な質問に応答するが、質問があいまいである場合や解決不可能である場合でも、常に詳細な応答を生成し、幻覚や偏見の問題を引き起こす。
したがって、LVLMが人間と積極的に関わるためには、より優れた応答のために、明確化や追加情報を求めることが不可欠である。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
まず,LVLMの積極的エンゲージメント能力を測定するために,無効性,曖昧性,パーソナライズ可能な3階層階層階層を構築した。
この階層を生かして、GPT-4oとヒトのアノテータによるPIE(ProactIve Engagement Evaluation)を作成する。
評価の結果,既存のLVLMの性能は低く,AAR(Aggregate Align Rate)は0.28であることがわかった。
そこで本研究では,LVLMに対して,タスク記述と人為的基準に基づいて,ラベルのない質問に対するコントラスト応答対を自律的に生成するように指示する,自己iMaginAtion for ContrAstive pReference Optimizationを紹介する。
そして、条件付き強化学習のために自己イメージデータをフォーマットする。
実験の結果,MACAROON は LVLM の能率(0.84 AAR)を効果的に向上し,一般タスクでは同等の性能を維持した。
Large vision-language models (LVLMs), while proficient in following instructions and responding to diverse questions, invariably generate detailed responses even when questions are ambiguous or unanswerable, leading to hallucinations and bias issues. Thus, it is essential for LVLMs to proactively engage with humans to ask for clarifications or additional information for better responses. In this study, we aim to shift LVLMs from passive answer providers to proactive engaged partners. We begin by establishing a three-tiered hierarchy for questions of invalid, ambiguous, and personalizable nature to measure the proactive engagement capabilities of LVLMs. Utilizing this hierarchy, we create PIE, (ProactIve Engagement Evaluation) through GPT-4o and human annotators, consisting of 853 questions across six distinct, fine-grained question types that are verified by human annotators and accompanied with well-defined metrics. Our evaluations on \benchmark indicate poor performance of existing LVLMs, with the best-performing open-weights model only achieving an Aggregate Align Rate (AAR) of 0.28. In response, we introduce MACAROON, self-iMaginAtion for ContrAstive pReference OptimizatiON, which instructs LVLMs to autonomously generate contrastive response pairs for unlabeled questions given the task description and human-crafted criteria. Then, the self-imagined data is formatted for conditional reinforcement learning. Experimental results show MACAROON effectively improves LVLMs' capabilities to be proactively engaged (0.84 AAR) while maintaining comparable performance on general tasks. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# 負荷分散と自動スケーリングのための弱結合MDPポリシのオンライン学習
Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling ( http://arxiv.org/abs/2406.14141v1 ) ライセンス: Link先を確認 | S. R. Eshwar, Lucas Lopes Felipe, Alexandre Reiffers-Masson, Daniel Sadoc Menasché, Gugan Thoppe, | (参考訳) ロードバランシングと自動スケーリングは、ワークロードの変更に応じて動的リソース割り当てとサービスレート調整に対処する、スケーラブルで現代的なシステムの中核にあります。
本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。
まず,この問題を線形プログラム (LP) で解ける弱結合マルコフ決定過程 (MDP) として提示することから始める。
しかし、そのようなLPの制御変数の数が組合せ的に増加するにつれて、よりゆるやかなLP定式化を導入し、LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて、オンラインパラメータ学習とポリシー最適化の問題に取り組むよう拡張する。
Load balancing and auto scaling are at the core of scalable, contemporary systems, addressing dynamic resource allocation and service rate adjustments in response to workload changes. This paper introduces a novel model and algorithms for tuning load balancers coupled with auto scalers, considering bursty traffic arriving at finite queues. We begin by presenting the problem as a weakly coupled Markov Decision Processes (MDP), solvable via a linear program (LP). However, as the number of control variables of such LP grows combinatorially, we introduce a more tractable relaxed LP formulation, and extend it to tackle the problem of online parameter learning and policy optimization using a two-timescale algorithm based on the LP Lagrangian. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# グラフを用いた3次元タンパク質構造の幾何学的自己監督前処理
Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs ( http://arxiv.org/abs/2406.14142v1 ) ライセンス: Link先を確認 | Michail Chatzianastasis, George Dasoulas, Michalis Vazirgiannis, | (参考訳) タンパク質表現学習は、タンパク質機能予測のような重要な生物学的問題に対処できる情報的タンパク質埋め込みを学習することを目的としている。
配列ベースのトランスフォーマーモデルでは、タンパク質配列データの膨大な量を自己管理的に活用することで、有望な結果を示しているが、これらの手法を3Dタンパク質構造に適用する際はまだギャップがある。
本研究では,タンパク質の3Dおよび階層構造を利用した簡単なマスキング法を超える事前学習手法を提案する。
本稿では,タンパク質サブグラフの局所的幾何セントロイドとタンパク質のグローバルな幾何セントロイドとの距離を予測し,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための新しい自己教師手法を提案する。
この方法の動機は2つある。
まず、タンパク質の異なる領域間の相対的な空間配置と幾何学的関係が、その機能に不可欠である。
さらに、タンパク質は階層的に組織化され、二次構造要素のような小さなサブ構造がより大きなドメインに組み立てられる。
サブグラフとグローバルなタンパク質構造との関係を考慮することで、このモデルはこれらの階層的な組織レベルについて推論することを学ぶことができる。
提案手法は, タンパク質分類タスクにおける3次元GNNの性能向上に寄与することが実験的に示唆された。
Protein representation learning aims to learn informative protein embeddings capable of addressing crucial biological questions, such as protein function prediction. Although sequence-based transformer models have shown promising results by leveraging the vast amount of protein sequence data in a self-supervised way, there is still a gap in applying these methods to 3D protein structures. In this work, we propose a pre-training scheme going beyond trivial masking methods leveraging 3D and hierarchical structures of proteins. We propose a novel self-supervised method to pretrain 3D graph neural networks on 3D protein structures, by predicting the distances between local geometric centroids of protein subgraphs and the global geometric centroid of the protein. The motivation for this method is twofold. First, the relative spatial arrangements and geometric relationships among different regions of a protein are crucial for its function. Moreover, proteins are often organized in a hierarchical manner, where smaller substructures, such as secondary structure elements, assemble into larger domains. By considering subgraphs and their relationships to the global protein structure, the model can learn to reason about these hierarchical levels of organization. We experimentally show that our proposed pertaining strategy leads to significant improvements in the performance of 3D GNNs in various protein classification tasks. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# 大規模言語モデルにおける安全性ニューロンの発見
Finding Safety Neurons in Large Language Models ( http://arxiv.org/abs/2406.14144v1 ) ライセンス: Link先を確認 | Jianhui Chen, Xiaozhi Wang, Zijun Yao, Yushi Bai, Lei Hou, Juanzi Li, | (参考訳) 大規模言語モデル(LLM)は様々な能力に優れるが、安全アライメント後にも有害なコンテンツや誤情報を生成するなどの安全リスクも生じる。
本稿では,機械的解釈可能性の観点から,安全アライメントの内的メカニズムを考察し,安全行動に責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。
そこで本研究では,これらのニューロンの同定と動的活性化パッチングを対比した生成時活性化法を提案し,その因果効果を評価する。
1) 安全性ニューロンは疎結合で有効である。
すべてのニューロンの約5ドル%の介入で、90ドル%の安全性能を回復できます。
2)安全性ニューロンは転写可能機構をコードする。
異なるレッドチームデータセットに対して一貫した有効性を示す。
安全ニューロンの発見は「調整税」も解釈している。
安全性と有用性のために同定された重要なニューロンは著しく重なり合うが、共有ニューロンの活性化パターンが異なることが観察された。
さらに、生成前の安全でない出力を検出するための安全ニューロンの応用を実証する。
本研究は,LLMアライメントの理解に関するさらなる研究を促進する可能性がある。
ソースコードは、将来の研究を促進するために公開されている。
Large language models (LLMs) excel in various capabilities but also pose safety risks such as generating harmful content and misinformation, even after safety alignment. In this paper, we explore the inner mechanisms of safety alignment from the perspective of mechanistic interpretability, focusing on identifying and analyzing safety neurons within LLMs that are responsible for safety behaviors. We propose generation-time activation contrasting to locate these neurons and dynamic activation patching to evaluate their causal effects. Experiments on multiple recent LLMs show that: (1) Safety neurons are sparse and effective. We can restore $90$% safety performance with intervention only on about $5$% of all the neurons. (2) Safety neurons encode transferrable mechanisms. They exhibit consistent effectiveness on different red-teaming datasets. The finding of safety neurons also interprets "alignment tax". We observe that the identified key neurons for safety and helpfulness significantly overlap, but they require different activation patterns of the shared neurons. Furthermore, we demonstrate an application of safety neurons in detecting unsafe outputs before generation. Our findings may promote further research on understanding LLM alignment. The source codes will be publicly released to facilitate future research. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# CheMFi: 分子の量子化学特性の多値データセット
CheMFi: A Multifidelity Dataset of Quantum Chemical Properties of Diverse Molecules ( http://arxiv.org/abs/2406.14149v1 ) ライセンス: Link先を確認 | Vivin Vinod, Peter Zaspel, | (参考訳) 機械学習(ML)と従来の量子化学(QC)の計算手法の進歩は、原子化エネルギーから励起エネルギーまで、QC特性の高精度なMLモデルをもたらす。
MD17、MD22、WS22などの様々なデータセットは、あるレベルで計算されたQC法または忠実度からなり、そのようなMLモデルをベンチマークするために生成される。
用語の忠実さは、選択されたQC法の実際の実値に対する精度を指す。
忠実度が高いほど、計算された特性はより正確になるが、計算コストは高い。
複数の数値QC法によるデータに基づいてMLモデルを訓練するMFML法の研究は、そのようなモデルが単一の忠実度法よりも有効であることを示した。
この方向にはエネルギーバンドギャップから励起エネルギーまで様々な用途で多くの研究が進められている。
コミュニティにおけるこの研究分野における効果的な研究のための大きなハードルは、ベンチマークのための多要素データセットの欠如である。
本稿では,WS22分子構造から得られた包括的多忠実度データセットについて述べる。
我々は、TD-DFT形式で計算された5つのフィデリティからなる量子化学マルチフィデリティ(CheMFi)データセットを提供する。
STO-3G, 3-21G, 6-31G, def2-SVP, def2-TZVPである。
CheMFiは、垂直励起エネルギー、振動子強度、分子双極子モーメント、基底状態エネルギーを含む様々なQC特性をコミュニティに提供する。
データセットに加えて、マルチフィデリティベンチマークには最先端のMFMLと最適化されたMFMLが設定されている。
Progress in both Machine Learning (ML) and conventional Quantum Chemistry (QC) computational methods have resulted in high accuracy ML models for QC properties ranging from atomization energies to excitation energies. Various datasets such as MD17, MD22, and WS22, which consist of properties calculated at some level of QC method, or fidelity, have been generated to benchmark such ML models. The term fidelity refers to the accuracy of the chosen QC method to the actual real value of the property. The higher the fidelity, the more accurate the calculated property, albeit at a higher computational cost. Research in multifidelity ML (MFML) methods, where ML models are trained on data from more than one numerical QC method, has shown the effectiveness of such models over single fidelity methods. Much research is progressing in this direction for diverse applications ranging from energy band gaps to excitation energies. A major hurdle for effective research in this field of research in the community is the lack of a diverse multifidelity dataset for benchmarking. Here, we present a comprehensive multifidelity dataset drawn from the WS22 molecular conformations. We provide the quantum Chemistry MultiFidelity (CheMFi) dataset consisting of five fidelities calculated with the TD-DFT formalism. The fidelities differ in their basis set choice and are namely: STO-3G, 3-21G, 6-31G, def2-SVP, and def2-TZVP. CheMFi offers to the community a variety of QC properties including vertical excitation energies, oscillator strengths, molecular dipole moments, and ground state energies. In addition to the dataset, multifidelity benchmarks are set with state-of-the-art MFML and optimized-MFML | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# バイオファウンデーションモデル間のマルチモーダルトランスファー学習
Multi-modal Transfer Learning between Biological Foundation Models ( http://arxiv.org/abs/2406.14150v1 ) ライセンス: Link先を確認 | Juan Jose Garau-Luis, Patrick Bordes, Liam Gonzalez, Masa Roller, Bernardo P. de Almeida, Lorenz Hexemer, Christopher Blum, Stefan Laurent, Jan Grzegorzewski, Maren Lang, Thomas Pierrot, Guillaume Richard, | (参考訳) 生物学的配列はDNA、RNA、タンパク質の形で生命の構成要素の基本的な指示をコードする。
これらの配列をモデル化することは、疾患のメカニズムを理解するための鍵であり、計算生物学において活発な研究領域である。
近年、大規模言語モデルは特定の生物学的タスクを解く上で大きな可能性を示してきたが、現在のアプローチは単一の配列のモダリティ(DNA、RNA、タンパク質)に限られている。
ゲノミクスにおける主要な問題は、本質的には複数のモダリティを含んでいるが、それらのケースに対して汎用的なシーケンスモデルをどのように適用するかは定かではない。
本研究では,DNA,RNA,タンパク質を結合するマルチモーダルモデルを提案する。
複数のRNA転写アイソフォームが同じ遺伝子(すなわち、同じDNA配列)に由来するかを予測し、様々なヒト組織で異なる転写発現レベルにマップすることで、その能力をほぼ未解決の課題に適用することで、その能力を実証する。
我々は、IsoFormerと呼ばれるモデルを用いて、差分転写表現を正確に予測し、既存手法よりも優れ、多重モーダル性の利用を活用できることを示す。
また,本フレームワークは,エンコーダの事前学習やモダリティ間の効率的な伝達知識も実現している。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
Biological sequences encode fundamental instructions for the building blocks of life, in the form of DNA, RNA, and proteins. Modeling these sequences is key to understand disease mechanisms and is an active research area in computational biology. Recently, Large Language Models have shown great promise in solving certain biological tasks but current approaches are limited to a single sequence modality (DNA, RNA, or protein). Key problems in genomics intrinsically involve multiple modalities, but it remains unclear how to adapt general-purpose sequence models to those cases. In this work we propose a multi-modal model that connects DNA, RNA, and proteins by leveraging information from different pre-trained modality-specific encoders. We demonstrate its capabilities by applying it to the largely unsolved problem of predicting how multiple RNA transcript isoforms originate from the same gene (i.e. same DNA sequence) and map to different transcription expression levels across various human tissues. We show that our model, dubbed IsoFormer, is able to accurately predict differential transcript expression, outperforming existing methods and leveraging the use of multiple modalities. Our framework also achieves efficient transfer knowledge from the encoders pre-training as well as in between modalities. We open-source our model, paving the way for new multi-modal gene expression approaches. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# ランダム古典的境界問題と量子情報理論への応用について
On random classical marginal problems with applications to quantum information theory ( http://arxiv.org/abs/2406.14153v1 ) ライセンス: Link先を確認 | Ankit Kumar Jha, Ion Nechita, | (参考訳) 本稿では,古典的境界問題のランダムな事例について検討する。
この問題をグラフにエンコードし、頂点が固定二項確率分布を割り当て、エッジが入射頂点分布を辺としてランダム二変数分布を割り当てる。
グラフ上の合同分布が存在する確率を推定し、二変量エッジ分布を辺とする。
我々の研究は量子力学におけるファインの定理によって動機付けられている。
局所的なポリトープと非シグナリングポリトープの間の体積の分布を示すCHSHおよびBell-Wignerシナリオに対応するグラフを詳細に研究する。
In this paper, we study random instances of the classical marginal problem. We encode the problem in a graph, where the vertices have assigned fixed binary probability distributions, and edges have assigned random bivariate distributions having the incident vertex distributions as marginals. We provide estimates on the probability that a joint distribution on the graph exists, having the bivariate edge distributions as marginals. Our study is motivated by Fine's theorem in quantum mechanics. We study in great detail the graphs corresponding to CHSH and Bell-Wigner scenarios providing rations of volumes between the local and non-signaling polytopes. | 翻訳日:2024-06-21 14:31:01 公開日:2024-06-20 |
# 監視者を見る - クラウドベースのコンテンツモデレーションサービスの比較公正監査
Watching the Watchers: A Comparative Fairness Audit of Cloud-based Content Moderation Services ( http://arxiv.org/abs/2406.14154v1 ) ライセンス: Link先を確認 | David Hartmann, Amin Oueslati, Dimitri Staufer, | (参考訳) オンラインプラットフォームは、有害なヘイトスピーチを含むコンテンツの増加を抑えるという課題に直面している。
明確な法的定義の欠如と、コンテンツモデレーションの意思決定におけるアルゴリズムの役割に関する透明性の欠如により、外部の説明責任が不可欠である。
このギャップを埋めるために、サードパーティの監査を通じて、クラウドベースの主要なコンテンツモデレーションサービス4つを体系的に評価し、マイノリティに対する偏見や、これらのサービスへの過度な依存によって生じる可能性のある脆弱なグループといった問題を強調した。
ブラックボックス監査手法と4つのベンチマークデータセットを用いて、暗黙的かつ暗黙的なヘイトスピーチ検出と、摂動感度分析による反ファクトフェアネスの測定を行い、特定のターゲットIDグループとデータセットのパフォーマンスの相違を示す。
我々の分析では、すべてのサービスが暗黙のヘイトスピーチを検出するのに苦労していることがわかりました。
さらに,本研究の結果から,グループ固有の偏見を取り除く必要性が示唆された。
女性のような一部のグループに対する偏見はほとんど修正されたものの、LGBTQ+やPoCのような他のグループに対する偏見は残されている。
Online platforms face the challenge of moderating an ever-increasing volume of content, including harmful hate speech. In the absence of clear legal definitions and a lack of transparency regarding the role of algorithms in shaping decisions on content moderation, there is a critical need for external accountability. Our study contributes to filling this gap by systematically evaluating four leading cloud-based content moderation services through a third-party audit, highlighting issues such as biases against minorities and vulnerable groups that may arise through over-reliance on these services. Using a black-box audit approach and four benchmark data sets, we measure performance in explicit and implicit hate speech detection as well as counterfactual fairness through perturbation sensitivity analysis and present disparities in performance for certain target identity groups and data sets. Our analysis reveals that all services had difficulties detecting implicit hate speech, which relies on more subtle and codified messages. Moreover, our results point to the need to remove group-specific bias. It seems that biases towards some groups, such as Women, have been mostly rectified, while biases towards other groups, such as LGBTQ+ and PoC remain. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 異なる政治的視点を持つ大規模言語モデルの調整
Aligning Large Language Models with Diverse Political Viewpoints ( http://arxiv.org/abs/2406.14155v1 ) ライセンス: Link先を確認 | Dominik Stammbach, Philine Widmer, Eunjung Cho, Caglar Gulcehre, Elliott Ash, | (参考訳) ChatGPTのような大規模な言語モデルは、しばしば重大な政治的偏見を示す。
ユーザーが政治情報について質問すると、彼らは規範的な姿勢をとり、そのようなバイアスを強化するかもしれない。
これを解決するため、スイスの国会に立候補する候補者が書いた10000件のコメントから、LLMを様々な政治的視点で調整する。
このような整列モデルは、ChatGPTのような商業モデルと比較して、スイスの政党からより正確な政治的視点を生み出すことができる。
また,このようなモデルを用いて,複数の視点からバランスの取れた概要を生成する手法を提案する。
Large language models such as ChatGPT often exhibit striking political biases. If users query them about political information, they might take a normative stance and reinforce such biases. To overcome this, we align LLMs with diverse political viewpoints from 100,000 comments written by candidates running for national parliament in Switzerland. Such aligned models are able to generate more accurate political viewpoints from Swiss parties compared to commercial models such as ChatGPT. We also propose a procedure to generate balanced overviews from multiple viewpoints using such models. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# リスク回避によるマルコフゲームにおけるトラクタブル平衡計算
Tractable Equilibrium Computation in Markov Games through Risk Aversion ( http://arxiv.org/abs/2406.14156v1 ) ライセンス: Link先を確認 | Eric Mazumdar, Kishan Panaganti, Laixi Shi, | (参考訳) 原理化されたマルチエージェント強化学習の発展への重要な障害は、ナッシュ平衡のような望まれる解の概念が計算しやすくなるという事実である。
この障害を克服するために、行動経済学からインスピレーションを得て、リスク回避や有界合理性といった人間の意思決定の重要な特徴を持つエージェントを入力することで、リスク逆量子応答平衡(RQE)のクラスが、すべての$n$プレーヤ行列と有限ホリゾンマルコフゲームで計算可能であることを示す。
特に,ゲームに適度に調整されたバージョンにおいて,ノンレグレット学習の終点として現れることを示す。
重要なことに、計算的に抽出可能なRQEのクラスは、基礎となるゲーム構造とは独立であり、エージェントのリスク回避と有界有理性(bounded rationality)の度合いにのみ依存する。
このクラスのソリューション概念の豊かさを検証するために、実験経済学で以前に研究されていた2人プレイマトリクスゲームにおいて、人々の遊びのパターンを捉えていることを示す。
さらに、有限水平マルコフゲームにおいて、これらの平衡を計算する際のサンプルの複雑さを、生成モデルにアクセスできる場合に初めて解析し、単純なマルチエージェント強化学習ベンチマークで結果を検証する。
A significant roadblock to the development of principled multi-agent reinforcement learning is the fact that desired solution concepts like Nash equilibria may be intractable to compute. To overcome this obstacle, we take inspiration from behavioral economics and show that -- by imbuing agents with important features of human decision-making like risk aversion and bounded rationality -- a class of risk-averse quantal response equilibria (RQE) become tractable to compute in all $n$-player matrix and finite-horizon Markov games. In particular, we show that they emerge as the endpoint of no-regret learning in suitably adjusted versions of the games. Crucially, the class of computationally tractable RQE is independent of the underlying game structure and only depends on agents' degree of risk-aversion and bounded rationality. To validate the richness of this class of solution concepts we show that it captures peoples' patterns of play in a number of 2-player matrix games previously studied in experimental economics. Furthermore, we give a first analysis of the sample complexity of computing these equilibria in finite-horizon Markov games when one has access to a generative model and validate our findings on a simple multi-agent reinforcement learning benchmark. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# CAMS予測を用いた多変量後可視性予測の強化
Enhancing multivariate post-processed visibility predictions utilizing CAMS forecasts ( http://arxiv.org/abs/2406.14159v1 ) ライセンス: Link先を確認 | Mária Lakatos, Sándor Baran, | (参考訳) 現代の気象予報では、航空、海洋航法、大気質評価において非常に重要なパラメータであり、公衆衛生に直接的な影響を及ぼす、可視性のアンサンブル予測がますます取り入れられている。
しかし、この気象変動は気象センターが発行する他の量の予測精度に劣っている。
したがって,予測の信頼性と精度を高めるため,統計的後処理が推奨される。
歴史的観測と予測の助けを借りて変数の予測分布を推定することにより、真の観測とアンサンブル予測の間の統計的整合性を達成することができる。
世界気象機関 (World Meteorological Organization) の勧告に従い、可視性観測は一般的に離散的な値で報告されるため、気象量の予測分布は離散的なパラメトリック法則の形を取る。
近年の研究では、分類アルゴリズムの適用によって、このような離散的な予測のスキルが向上することが実証されているが、多くの場合、空間的および時間的依存関係が限界間で失われる可能性がある。
中央ヨーロッパ30カ所の欧州中レージ気象予報センターの可視的アンサンブル予測に基づいて,コペルニクス大気モニタリングサービス(CAMS)が追加共変量と同一の気象量の予測を行うことにより,後処理手法のスキルが向上し,それが縁間の空間依存性の良好な統合に寄与するかどうかを検討する。
本研究は,後処理後の予測が生・気候予報よりもかなり優れていることを確認し,CAMS予測の利用により,単変量および多変量設定の双方において,さらに顕著な改善が期待できることを示す。
In our contemporary era, meteorological weather forecasts increasingly incorporate ensemble predictions of visibility - a parameter of great importance in aviation, maritime navigation, and air quality assessment, with direct implications for public health. However, this weather variable falls short of the predictive accuracy achieved for other quantities issued by meteorological centers. Therefore, statistical post-processing is recommended to enhance the reliability and accuracy of predictions. By estimating the predictive distributions of the variables with the aid of historical observations and forecasts, one can achieve statistical consistency between true observations and ensemble predictions. Visibility observations, following the recommendation of the World Meteorological Organization, are typically reported in discrete values; hence, the predictive distribution of the weather quantity takes the form of a discrete parametric law. Recent studies demonstrated that the application of classification algorithms can successfully improve the skill of such discrete forecasts; however, a frequently emerging issue is that certain spatial and/or temporal dependencies could be lost between marginals. Based on visibility ensemble forecasts of the European Centre for Medium-Range Weather Forecasts for 30 locations in Central Europe, we investigate whether the inclusion of Copernicus Atmosphere Monitoring Service (CAMS) predictions of the same weather quantity as an additional covariate could enhance the skill of the post-processing methods and whether it contributes to the successful integration of spatial dependence between marginals. Our study confirms that post-processed forecasts are substantially superior to raw and climatological predictions, and the utilization of CAMS forecasts provides a further significant enhancement both in the univariate and multivariate setup. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# エキスパートによる適応メッシュ生成の反復的サイズフィールド予測
Iterative Sizing Field Prediction for Adaptive Mesh Generation From Expert Demonstrations ( http://arxiv.org/abs/2406.14161v1 ) ライセンス: Link先を確認 | Niklas Freymuth, Philipp Dahlinger, Tobias Würth, Philipp Becker, Aleksandar Taranovic, Onno Grönheim, Luise Kärger, Gerhard Neumann, | (参考訳) 多くの工学系は複雑な物理系の正確なシミュレーションを必要とする。
しかし、解析解は単純な問題に対してのみ利用可能であり、有限要素法(FEM)のような数値近似を必要とする。
FEMスケールのコストと精度は、基礎となる計算メッシュの解像度と一致している。
計算速度と精度メッシュと適応分解能のバランスをとるために、幾何の重要な部分により多くのリソースを割り当てる。
現在、実践者は手作りのメッシュを使うことが多い。
我々のアプローチであるアダプティブ・メッシュ・バイ・エキスパート・レコンストラクション(AMBER)は、メッシュ生成を模倣学習問題と見なしている。
AMBERは、グラフニューラルネットワークとオンラインデータ取得スキームを組み合わせて、特定の中間メッシュ上のエキスパートメッシュの投影されたサイズフィールドを予測することで、より正確な後続メッシュを生成する。
この反復的プロセスは、推論中に任意の新しいジオメトリに対して、専門家メッシュの解像度を効率的かつ正確に模倣することを保証する。
我々は、人間の専門家が提供したヒューリスティックな2Dメッシュと3Dメッシュ上でAMBERを実験的に検証し、提供されたデモと密に一致し、シングルステップのCNNベースラインを上回った。
Many engineering systems require accurate simulations of complex physical systems. Yet, analytical solutions are only available for simple problems, necessitating numerical approximations such as the Finite Element Method (FEM). The cost and accuracy of the FEM scale with the resolution of the underlying computational mesh. To balance computational speed and accuracy meshes with adaptive resolution are used, allocating more resources to critical parts of the geometry. Currently, practitioners often resort to hand-crafted meshes, which require extensive expert knowledge and are thus costly to obtain. Our approach, Adaptive Meshing By Expert Reconstruction (AMBER), views mesh generation as an imitation learning problem. AMBER combines a graph neural network with an online data acquisition scheme to predict the projected sizing field of an expert mesh on a given intermediate mesh, creating a more accurate subsequent mesh. This iterative process ensures efficient and accurate imitation of expert mesh resolutions on arbitrary new geometries during inference. We experimentally validate AMBER on heuristic 2D meshes and 3D meshes provided by a human expert, closely matching the provided demonstrations and outperforming a single-step CNN baseline. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# DIRAS: 検索用拡張ジェネレーションにおける効率的なLCM支援文書関連アノテーション
DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation ( http://arxiv.org/abs/2406.14162v1 ) ライセンス: Link先を確認 | Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold, | (参考訳) Retrieval Augmented Generation (RAG) はドメイン固有のドキュメントのクエリに対する応答を基盤として広く使われている。
しかし、RAGの実装は重要な情報を残しているのか、あるいは無関係な情報を過剰に含んでいるのか?
これらの懸念を和らげるためには、クエリやドメインによって関連性の定義が異なるため、情報検索(IR)のパフォーマンスを評価するために、ドメイン固有のベンチマークをアノテートする必要がある。
さらに、このようなベンチマークは、アノテーション選択バイアスを避けるために、コスト効率のよいアノテートをすべきである。
本稿では,DIRAS(Domain-specific Information Retrieval Annotation with Scalability)を提案する。
拡張評価により, DIRAS の微調整モデルにより, 注釈付き (クエリ, ドキュメント) ペアのアノテートおよびランキングにおいて GPT-4 レベルの性能が得られ, 実世界の RAG 開発に有用であることが示唆された。
Retrieval Augmented Generation (RAG) is widely employed to ground responses to queries on domain-specific documents. But do RAG implementations leave out important information or excessively include irrelevant information? To allay these concerns, it is necessary to annotate domain-specific benchmarks to evaluate information retrieval (IR) performance, as relevance definitions vary across queries and domains. Furthermore, such benchmarks should be cost-efficiently annotated to avoid annotation selection bias. In this paper, we propose DIRAS (Domain-specific Information Retrieval Annotation with Scalability), a manual-annotation-free schema that fine-tunes open-sourced LLMs to annotate relevance labels with calibrated relevance probabilities. Extensive evaluation shows that DIRAS fine-tuned models achieve GPT-4-level performance on annotating and ranking unseen (query, document) pairs, and is helpful for real-world RAG development. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 診断キャプションのためのデータ駆動型ガイドデコーディング機構
A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning ( http://arxiv.org/abs/2406.14164v1 ) ライセンス: Link先を確認 | Panagiotis Kaliosis, John Pavlopoulos, Foivos Charalampakos, Georgios Moschovis, Ion Androutsopoulos, | (参考訳) 診断用キャプション(DC)は、患者の1つ以上の医療画像(例えば、X線、MRI)から診断用テキストを自動的に生成する。
作成したテキストは、患者の状態を初期推定し、スピードアップし、診断プロセスの保護を支援することによって、臨床医を支援することができる。
しかし、診断テキストの精度は、画像に表される重要な医学的条件がどれだけうまく表現されているかに大きく依存する。
本稿では、診断テキスト生成プロセスのビームサーチにおいて、画像のキー条件をキャプチャする既存のタグの形で、医療情報を組み込んだ新しいデータ駆動型ガイドデコーディング手法を提案する。
提案手法は,CNNエンコーダとRNNデコーダを用いた汎用画像-テキストシステムから,事前訓練された大規模言語モデルまで,4つのDCシステムを用いて2つの医療データセット上で評価する。
後者は、少数およびゼロショットの学習シナリオでも使用することができる。
ほとんどの場合、提案手法は全ての評価基準に対して性能を向上させる。
本稿では,提案手法のオープンソース実装について,https://github.com/nlpaueb/dmmcsで紹介する。
Diagnostic Captioning (DC) automatically generates a diagnostic text from one or more medical images (e.g., X-rays, MRIs) of a patient. Treated as a draft, the generated text may assist clinicians, by providing an initial estimation of the patient's condition, speeding up and helping safeguard the diagnostic process. The accuracy of a diagnostic text, however, strongly depends on how well the key medical conditions depicted in the images are expressed. We propose a new data-driven guided decoding method that incorporates medical information, in the form of existing tags capturing key conditions of the image(s), into the beam search of the diagnostic text generation process. We evaluate the proposed method on two medical datasets using four DC systems that range from generic image-to-text systems with CNN encoders and RNN decoders to pre-trained Large Language Models. The latter can also be used in few- and zero-shot learning scenarios. In most cases, the proposed mechanism improves performance with respect to all evaluation measures. We provide an open-source implementation of the proposed method at https://github.com/nlpaueb/dmmcs. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 衛星間通信における離散変調連続可変量子鍵分布
Discrete-Modulated Continuous-Variable Quantum Key Distribution in Satellite-to-Ground Communication ( http://arxiv.org/abs/2406.14166v1 ) ライセンス: Link先を確認 | Shi-Gen Li, Chen-Long Li, Wen-Bo Liu, Hua-Lei Yin, Zeng-Bing Chen, | (参考訳) 衛星と地上の量子通信はグローバル量子ネットワークの基盤となり、量子情報の未来が到来したことを物語っている。
連続可変量子鍵分布は、その単純さ、安定性、実装の容易さにより、特に空間背景光ノイズの堅牢性のために、空間基底量子通信の強い候補である。
近年,実装要件の低さ,セキュリティキーレートの許容,既存のインフラストラクチャとの互換性の明確化などにより,離散変調型連続可変プロトコルへの注目が高まっている。
ここでは,衛星間通信における分散変調型連続可変量子鍵分布プロトコルの各種条件における鍵レートを数値シミュレーションにより導出し,その実現可能性を明らかにする。
Satellite-to-ground quantum communication constitutes the cornerstone of the global quantum network, heralding the advent of the future of quantum information. Continuous-variable quantum key distribution is a strong candidate for space-ground quantum communication due to its simplicity, stability, and ease of implementation, especially for the robustness of space background light noise. Recently, the discrete-modulated continuous-variable protocol has garnered increased attention, owing to its lower implementation requirements, acceptable security key rate, and pronounced compatibility with extant infrastructures. Here, we derive key rates for discrete-modulated continuous-variable quantum key distribution protocols in free-space channel environments across various conditions through numerical simulation, revealing the viability of its application in satellite-to-ground communication. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 語彙意味変化検出のための定義生成
Definition generation for lexical semantic change detection ( http://arxiv.org/abs/2406.14167v1 ) ライセンス: Link先を確認 | Mariia Fedorova, Andrey Kutuzov, Yves Scherrer, | (参考訳) ダイアクロニック語彙変化検出(LSCD)タスクにおける意味表現として,大規模言語モデルによって生成された文脈的単語定義を用いる。
簡単に言えば、生成された定義を「センス」として使用し、比較中の2つの期間における分布を比較することにより、対象単語の変化スコアを検索する。
5つのデータセットと3つの言語を用いて、生成した定義は、時間とともに意味の変化の度合いによって単語の集合をランク付けするのに十分な信号を伝えるのに十分であることを示す。
本手法は,従来の非教師付きセンスベースLSCD法と同等か優れる。
同時に、解釈可能性を保持し、個別の定義=感覚の観点から、特定のシフトの背後にある理由を検査することができる。
これは、説明可能なセマンティックチェンジモデリングの方向性の別のステップである。
We use contextualized word definitions generated by large language models as semantic representations in the task of diachronic lexical semantic change detection (LSCD). In short, generated definitions are used as `senses', and the change score of a target word is retrieved by comparing their distributions in two time periods under comparison. On the material of five datasets and three languages, we show that generated definitions are indeed specific and general enough to convey a signal sufficient to rank sets of words by the degree of their semantic change over time. Our approach is on par with or outperforms prior non-supervised sense-based LSCD methods. At the same time, it preserves interpretability and allows to inspect the reasons behind a specific shift in terms of discrete definitions-as-senses. This is another step in the direction of explainable semantic change modeling. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 大規模言語モデルと強化学習を用いたトップkレコメンデーションの新規性最適化
Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning ( http://arxiv.org/abs/2406.14169v1 ) ライセンス: Link先を確認 | Amit Sharma, Hua Li, Xue Li, Jian Jiao, | (参考訳) 入力クエリが与えられた場合、ユーザフィードバックデータ(例えば、クリックデータ)を使用してレコメンデーションモデルをトレーニングし、ランク付けされた項目のリストを出力する。
実世界のシステムでは、精度の他に、新しいモデルに対する重要な考慮は、既存のデプロイモデルのようなトップkレコメンデーションの新規性である。
しかしながら、トップk項目の新規性は、モデルの予測に対する微分不可能なソート操作を含むため、モデルの最適化が困難な目標である。
さらに、新しいアイテムは、定義上、ユーザーからのフィードバックデータを持っていない。
大規模言語モデルのセマンティック機能を考えると,これらの問題に対して,大規模言語モデルが新たな項目に対するフィードバックを提供する強化学習(RL)の定式化を用いて対処する。
しかし、数百万の候補項目が与えられた場合、標準RLアルゴリズムのサンプルの複雑さは違法に高い。
サンプルの複雑さを低減するため、アイテム単位の報酬に対するトップkリスト報酬を削減し、アクション空間を二分決定に還元する<query, item>タプルからなる状態空間を再構成する。
大規模検索エンジンにおけるクエリーアドレコメンデーションタスクの新規性向上のための提案アルゴリズムの評価を行った。
近年の<query, ad>ペアの教師付き微調整と比較して,提案アルゴリズムはリコールの損失を最小限に抑えながら,顕著な新規性向上をもたらす。
ORCASクエリ・ウェブページマッチングデータセットとAmazonレビューに基づく製品推薦データセットで同様の結果を得た。
Given an input query, a recommendation model is trained using user feedback data (e.g., click data) to output a ranked list of items. In real-world systems, besides accuracy, an important consideration for a new model is novelty of its top-k recommendations w.r.t. an existing deployed model. However, novelty of top-k items is a difficult goal to optimize a model for, since it involves a non-differentiable sorting operation on the model's predictions. Moreover, novel items, by definition, do not have any user feedback data. Given the semantic capabilities of large language models, we address these problems using a reinforcement learning (RL) formulation where large language models provide feedback for the novel items. However, given millions of candidate items, the sample complexity of a standard RL algorithm can be prohibitively high. To reduce sample complexity, we reduce the top-k list reward to a set of item-wise rewards and reformulate the state space to consist of <query, item> tuples such that the action space is reduced to a binary decision; and show that this reformulation results in a significantly lower complexity when the number of items is large. We evaluate the proposed algorithm on improving novelty for a query-ad recommendation task on a large-scale search engine. Compared to supervised finetuning on recent <query, ad> pairs, the proposed RL-based algorithm leads to significant novelty gains with minimal loss in recall. We obtain similar results on the ORCAS query-webpage matching dataset and a product recommendation dataset based on Amazon reviews. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 自然軌道化変分量子固有解法によるコンパクトフェルミオン量子状態生成
Compact fermionic quantum state preparation with a natural-orbitalizing variational quantum eigensolving scheme ( http://arxiv.org/abs/2406.14170v1 ) ライセンス: Link先を確認 | Pauline Besserve, Michel Ferrero, Thomas Ayral, | (参考訳) 強い相互作用を持つフェルミオンの集まりは、凝縮物質でも量子化学の文脈でも、量子コンピューティングプラットフォームが利点をもたらす最も有望な候補システムの範囲である。
短期量子状態の準備は、典型的には変分量子固有解法(VQE)アルゴリズムによって実現される。
VQEの実装を成功させる上での大きな課題の1つは、深い変動回路で示されるノイズに対する感度である。
一方、十分な深さが目標状態への良好な近似に達することを許さなければならない。
そこで本研究では,基本フェルミオンモード(スピン軌道)の状態をインフォームしたVQEをトッピングする改良VQE方式を提案する。
これらの更新は、現在の収束した変動状態の自然な軌道基底に移行することから構成される。
本研究では,実験的なノイズレベルの存在下で,ハバードモデルを用いて実験を行った。
固定回路構造では、ショットノイズから過度のオーバーヘッドを発生させることなく、目標状態に近い状態に到達するための回路の能力を高めることが示される。
さらに、ハエの回路を構成する適応型VQEスキームと組み合わせることで、軌道が更新されるにつれて回路の深さに対する要求が減少することを示す。
Assemblies of strongly interacting fermions, whether in a condensed-matter or a quantum chemistry context, range amongst the most promising candidate systems for which quantum computing platforms could provide an advantage. Near-term quantum state preparation is typically realized by means of the variational quantum eigensolver (VQE) algorithm. One of the main challenges to a successful implementation of VQE lies in the sensitivity to noise exhibited by deep variational circuits. On the other hand, sufficient depth must be allowed to be able to reach a good approximation to the target state. In this work, we present a refined VQE scheme that consists in topping VQE with state-informed updates of the elementary fermionic modes (spin-orbitals). These updates consist in moving to the natural-orbital basis of the current, converged variational state, a basis we argue eases the task of state preparation. We test the method on the Hubbard model in the presence of experimentally relevant noise levels. For a fixed circuit structure, the method is shown to enhance the capabilities of the circuit to reach a state close to the target state without incurring too much overhead from shot noise. Moreover, coupled with an adaptive VQE scheme that constructs the circuit on the fly, we evidence reduced requirements on the depth of the circuit as the orbitals get updated. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# 圧縮によるLCMのランク付け
Ranking LLMs by compression ( http://arxiv.org/abs/2406.14171v1 ) ライセンス: Link先を確認 | Peijia Guo, Ziguang Li, Haibo Hu, Chao Huang, Ming Li, Rui Zhang, | (参考訳) 本稿では,情報圧縮として理解の過程を概念化し,ロスレスデータ圧縮に基づく大規模言語モデル(LLM)のランク付け手法を提案する。
本稿では,算術符号における圧縮長と累積負の対数確率との等価性を示す。
同時に、実際の圧縮を伴わずに評価基準圧縮比を得ることができるため、オーバーヘッドを大幅に削減できる。
本稿では,5つの大きな言語モデルを圧縮の先行として使用し,文の完全化や質問応答,コア参照解決など,自然言語処理タスクの性能比較を行う。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
We conceptualize the process of understanding as information compression, and propose a method for ranking large language models (LLMs) based on lossless data compression. We demonstrate the equivalence of compression length under arithmetic coding with cumulative negative log probabilities when using a large language model as a prior, that is, the pre-training phase of the model is essentially the process of learning the optimal coding length. At the same time, the evaluation metric compression ratio can be obtained without actual compression, which greatly saves overhead. In this paper, we use five large language models as priors for compression, then compare their performance on challenging natural language processing tasks, including sentence completion, question answering, and coreference resolution. Experimental results show that compression ratio and model performance are positively correlated, so it can be used as a general metric to evaluate large language models. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# オーディオ・ビジュアル・ディープフェイク検出のための一級学習を用いたマルチストリーム融合手法
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2406.14176v1 ) ライセンス: Link先を確認 | Kyungbok Lee, You Zhang, Zhiyao Duan, | (参考訳) 本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。
実用的なユースケースでは、新しい世代アルゴリズムが絶えず出現し、検出方法の開発中にこれらのアルゴリズムは遭遇しない。
これにより、メソッドの一般化能力が要求される。
さらに,検出手法の信頼性を確保するため,ビデオからの手がかりが偽であることを示すかをモデルで解釈することが有用である。
そこで我々は,表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
本研究では、既存のFakeAVCelebデータセットを拡張して再分割することで、新しいベンチマークを作成することで、オーディオ・ビジュアル・ディープフェイク検出の一般化問題について検討する。
このベンチマークには、フェイクビデオの4つのカテゴリが含まれている(Real Audio-Fake Visual、Fake Audio-Fake Visual、Fake Audio-Real Visual、およびunsynchronized video)。
実験結果から,本手法は,ベースラインモデルと比較して,4つのテストセットで平均7.31%の未確認攻撃の検出を改善した。
さらに、本提案フレームワークは、モデルがどのモダリティを偽物と認識するかを示す、解釈可能性を提供する。
This paper addresses the challenge of developing a robust audio-visual deepfake detection model. In practical use cases, new generation algorithms are continually emerging, and these algorithms are not encountered during the development of detection methods. This calls for the generalization ability of the method. Additionally, to ensure the credibility of detection methods, it is beneficial for the model to interpret which cues from the video indicate it is fake. Motivated by these considerations, we then propose a multi-stream fusion approach with one-class learning as a representation-level regularization technique. We study the generalization problem of audio-visual deepfake detection by creating a new benchmark by extending and re-splitting the existing FakeAVCeleb dataset. The benchmark contains four categories of fake video(Real Audio-Fake Visual, Fake Audio-Fake Visual, Fake Audio-Real Visual, and unsynchronized video). The experimental results show that our approach improves the model's detection of unseen attacks by an average of 7.31% across four test sets, compared to the baseline model. Additionally, our proposed framework offers interpretability, indicating which modality the model identifies as fake. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# SimulSeamless: FBK - IWSLT 2024 同時音声翻訳
SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation ( http://arxiv.org/abs/2406.14177v1 ) ライセンス: Link先を確認 | Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli, | (参考訳) 本稿では,IWSLT 2024におけるFBKの同時翻訳評価キャンペーンへの参加について述べる。
そこで本研究では,AlignAttとSeamlessM4Tを中間構成で組み合わせたSimulSeamlessを提案する。
SeamlessM4T モデルは "off-the-shelf" として使用され、その同時推論は AlignAtt を採用して実現されている。
我々は,昨年提出したものと比較して,すべての共有タスク言語(英語→{ドイツ語,日本語,中国語,チェコ語,チェコ語)に参加し,受け入れられ,さらに良好な結果を得た。
SimulSeamlessは143以上のソース言語と200以上のターゲット言語をカバーするもので、https://github.com/hlt-mt/FBK-fairseq/でリリースされた。
This paper describes the FBK's participation in the Simultaneous Translation Evaluation Campaign at IWSLT 2024. For this year's submission in the speech-to-text translation (ST) sub-track, we propose SimulSeamless, which is realized by combining AlignAtt and SeamlessM4T in its medium configuration. The SeamlessM4T model is used "off-the-shelf" and its simultaneous inference is enabled through the adoption of AlignAtt, a SimulST policy based on cross-attention that can be applied without any retraining or adaptation of the underlying model for the simultaneous task. We participated in all the Shared Task languages (English->{German, Japanese, Chinese}, and Czech->English), achieving acceptable or even better results compared to last year's submissions. SimulSeamless, covering more than 143 source languages and 200 target languages, is released at: https://github.com/hlt-mt/FBK-fairseq/. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# EvSegSNN:イベントデータのためのニューロモルフィックセマンティックセマンティックセグメンテーション
EvSegSNN: Neuromorphic Semantic Segmentation for Event Data ( http://arxiv.org/abs/2406.14178v1 ) ライセンス: Link先を確認 | Dalia Hareb, Jean Martinet, | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、特に自動運転車やUAVのシーン理解とナビゲーションのために重要なコンピュータビジョンタスクである。
この課題に対処するために、ディープニューラルネットワークアーキテクチャのさまざまなバリエーションが設計されている。
しかし、計算コストとメモリ消費の増大により、これらのモデルは資源制約されたシステムにデプロイされることを意図していない。
この制限に対処するために、スパイキングニューラルネットワーク(SNN、古典的ニューラルネットワークの低消費電力代替品)と、出力データがこれらのニューラルネットワーク入力を直接供給できるイベントカメラを組み合わせることによって、エンド・ツー・エンドの生物学的にインスパイアされたセマンティックセマンティックセマンティックセマンティクスアプローチを導入する。
EvSegSNNはParametric Leaky Integrate と Fire ニューロンをベースとした,生物学的に検証可能なエンコーダ・デコーダU字型アーキテクチャである。
DDD17で実施された実験は、EvSegSNNがMIoUの観点から最も近い最先端モデルより優れており、パラメータの数を16ドル削減し、バッチ正規化ステージを分散していることを示した。
Semantic segmentation is an important computer vision task, particularly for scene understanding and navigation of autonomous vehicles and UAVs. Several variations of deep neural network architectures have been designed to tackle this task. However, due to their huge computational costs and their high memory consumption, these models are not meant to be deployed on resource-constrained systems. To address this limitation, we introduce an end-to-end biologically inspired semantic segmentation approach by combining Spiking Neural Networks (SNNs, a low-power alternative to classical neural networks) with event cameras whose output data can directly feed these neural network inputs. We have designed EvSegSNN, a biologically plausible encoder-decoder U-shaped architecture relying on Parametric Leaky Integrate and Fire neurons in an objective to trade-off resource usage against performance. The experiments conducted on DDD17 demonstrate that EvSegSNN outperforms the closest state-of-the-art model in terms of MIoU while reducing the number of parameters by a factor of $1.6$ and sparing a batch normalization stage. | 翻訳日:2024-06-21 14:21:16 公開日:2024-06-20 |
# RTFormer: Re-parameter TSBN Spiking Transformer
RTFormer: Re-parameter TSBN Spiking Transformer ( http://arxiv.org/abs/2406.14180v1 ) ライセンス: Link先を確認 | Hongzhi Wang, Xiubo Liang, Mengjian Li, Tao Zhang, | (参考訳) バイオインスパイアされた動作機構とエネルギー効率で有名なスパイキングニューラルネットワーク(SNN)は、人間の脳の神経活動を反映している。
しかし、SNNはエネルギー効率と高度なタスクの計算要求のバランスをとることの課題に直面している。
本稿では,TSBN(Re-parameterized Temporal Sliding Batch Normalization)をSpking Transformerフレームワークに組み込んだ新しいアーキテクチャRTFormerを紹介する。
この革新は、堅牢な計算性能を確保しながら、推論中のエネルギー使用量を最適化する。
RTFormerの要点は、再パラメータ化された畳み込みとTSBNの統合にあり、計算能力とエネルギー保存の均衡を達成している。
The Spiking Neural Networks (SNNs), renowned for their bio-inspired operational mechanism and energy efficiency, mirror the human brain's neural activity. Yet, SNNs face challenges in balancing energy efficiency with the computational demands of advanced tasks. Our research introduces the RTFormer, a novel architecture that embeds Re-parameterized Temporal Sliding Batch Normalization (TSBN) within the Spiking Transformer framework. This innovation optimizes energy usage during inference while ensuring robust computational performance. The crux of RTFormer lies in its integration of reparameterized convolutions and TSBN, achieving an equilibrium between computational prowess and energy conservation. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 関数型マップ
Latent. Functional Map ( http://arxiv.org/abs/2406.14183v1 ) ライセンス: Link先を確認 | Marco Fumero, Marco Pegoraro, Valentino Maiorca, Francesco Locatello, Emanuele Rodolà, | (参考訳) ニューラルネットワークは低次元多様体上のデータ表現を学習するが、これらの表現空間間の関係をモデル化することは、現在進行中の課題である。
スペクトル幾何学の原理をニューラルモデリングに統合することにより、この問題は機能領域においてよりうまく対処でき、複雑さを軽減し、下流タスクの解釈可能性や性能を向上させることができることを示す。
この目的のために,表現学習コミュニティに多目的フレームワークを導入する。
(i)異なる空間を解釈可能な方法で比較し、その固有の類似性を測定すること。
(二)非監督的、弱監督的双方において、両者の対応を見いだし、
(iii)異なる空間間の表現を効果的に伝達する。
我々は, 縫合作業から検索作業に至るまで, 様々なアプリケーションにおけるフレームワークの検証を行い, 潜在機能地図が表現アライメントのためのスウィスアームナイフとして機能することを実証した。
Neural models learn data representations that lie on low-dimensional manifolds, yet modeling the relation between these representational spaces is an ongoing challenge. By integrating spectral geometry principles into neural modeling, we show that this problem can be better addressed in the functional domain, mitigating complexity, while enhancing interpretability and performances on downstream tasks. To this end, we introduce a multi-purpose framework to the representation learning community, which allows to: (i) compare different spaces in an interpretable way and measure their intrinsic similarity; (ii) find correspondences between them, both in unsupervised and weakly supervised settings, and (iii) to effectively transfer representations between distinct spaces. We validate our framework on various applications, ranging from stitching to retrieval tasks, demonstrating that latent functional maps can serve as a swiss-army knife for representation alignment. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 不均一エッジデバイス上でのモデル圧縮による耐故障性分散推論
Failure-Resilient Distributed Inference with Model Compression over Heterogeneous Edge Devices ( http://arxiv.org/abs/2406.14185v1 ) ライセンス: Link先を確認 | Li Wang, Liang Li, Lianming Xu, Xian Peng, Aiguo Fei, | (参考訳) 分散推論パラダイムは、計算ワークロードを複数のデバイスに分散させることを可能にし、極めてリソース制約のあるIoT(Internet of Things)シナリオ上でのディープラーニングベースのインテリジェントサービスの実装を容易にする。
しかし、計算/通信能力に異質なIoTデバイスのクラスタに依存し、クラッシュやタイムアウトの失敗を招きやすい複雑な推論タスクを実行するには、大きな課題が伴います。
本稿では、ヘテロジニアスエッジデバイス上でのディープニューラルネットワークベースの推論タスクの局所分散実行のための堅牢な協調推論機構であるRoCoInを提案する。
分散配置のための知識蒸留を用いて、大規模なモデルから学習される、独立的でコンパクトな学生モデルのセットを作成する。
特に、デバイスを戦略的にグループ化して、推論プロセスが任意のローカル障害に対して回復力を持つように、同じ学生モデルを冗長にデプロイ、実行させ、一方、多様な能力を有するデバイスの存在下で、分散推論システムの応答遅延を最小限に抑えるために、共同知識分割と学生モデル割り当てスキームを設計する。
分散推論におけるRoCoInの優れた性能を,複数のベースラインと比較して相関させる大規模なシミュレーションを行い,その効果を時間的推論と耐故障性で実証した。
The distributed inference paradigm enables the computation workload to be distributed across multiple devices, facilitating the implementations of deep learning based intelligent services on extremely resource-constrained Internet of Things (IoT) scenarios. Yet it raises great challenges to perform complicated inference tasks relying on a cluster of IoT devices that are heterogeneous in their computing/communication capacity and prone to crash or timeout failures. In this paper, we present RoCoIn, a robust cooperative inference mechanism for locally distributed execution of deep neural network-based inference tasks over heterogeneous edge devices. It creates a set of independent and compact student models that are learned from a large model using knowledge distillation for distributed deployment. In particular, the devices are strategically grouped to redundantly deploy and execute the same student model such that the inference process is resilient to any local failures, while a joint knowledge partition and student model assignment scheme are designed to minimize the response latency of the distributed inference system in the presence of devices with diverse capacities. Extensive simulations are conducted to corroborate the superior performance of our RoCoIn for distributed inference compared to several baselines, and the results demonstrate its efficacy in timely inference and failure resiliency. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# Cridiff: 前立腺分節生成前処理によるCriss-cross Injection Diffusion Framework
CriDiff: Criss-cross Injection Diffusion Framework via Generative Pre-train for Prostate Segmentation ( http://arxiv.org/abs/2406.14186v1 ) ライセンス: Link先を確認 | Tingwei Liu, Miao Zhang, Leiye Liu, Jialong Zhong, Shuyao Wang, Yongri Piao, Huchuan Lu, | (参考訳) 近年,拡散確率モデル(DPM)に基づく手法は,医用画像セグメンテーションの分野で大きな成功を収めている。
しかし、これらの手法のほとんどは、拡散モデルがエッジ特徴や非エッジ特徴を効果的に学習し、拡散バックボーンに効率的に注入することを可能にしない。
さらに、画像特徴と拡散モデル特徴とのドメインギャップは、前立腺のセグメンテーションに大きな課題をもたらす。
本稿では,Crisscross Injection Strategy (CIS) とGenerative Pre-train (GP) を用いた2段階機能注入フレームワークであるCriDiffを提案する。
CISは、高次特徴と低次特徴の相補性を効率的に活用することにより、マルチレベル特徴の使用を最大化する。
画像エッジ領域と非エッジ領域を識別的にモデル化する境界エンハンスコンディショナー(BEC)とコアエンハンスコンディショナー(CEC)の2つの並列コンディショナーを提案する。
さらに、GPアプローチは、追加パラメータを追加することなく、画像特徴と拡散モデルとの矛盾を緩和する。
4つのベンチマークデータセットの大規模な実験により,提案手法の有効性と4つの評価指標の最先端性能が示された。
Recently, the Diffusion Probabilistic Model (DPM)-based methods have achieved substantial success in the field of medical image segmentation. However, most of these methods fail to enable the diffusion model to learn edge features and non-edge features effectively and to inject them efficiently into the diffusion backbone. Additionally, the domain gap between the images features and the diffusion model features poses a great challenge to prostate segmentation. In this paper, we proposed CriDiff, a two-stage feature injecting framework with a Crisscross Injection Strategy (CIS) and a Generative Pre-train (GP) approach for prostate segmentation. The CIS maximizes the use of multi-level features by efficiently harnessing the complementarity of high and low-level features. To effectively learn multi-level of edge features and non-edge features, we proposed two parallel conditioners in the CIS: the Boundary Enhance Conditioner (BEC) and the Core Enhance Conditioner (CEC), which discriminatively model the image edge regions and non-edge regions, respectively. Moreover, the GP approach eases the inconsistency between the images features and the diffusion model without adding additional parameters. Extensive experiments on four benchmark datasets demonstrate the effectiveness of the proposed method and achieve state-of-the-art performance on four evaluation metrics. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 木構造における文の生成
In Tree Structure Should Sentence Be Generated ( http://arxiv.org/abs/2406.14189v1 ) ライセンス: Link先を確認 | Yaguang Li, Xin Chen, | (参考訳) 逐次自己回帰に依存した生成モデルは言語生成の最前線にあり、特に広く称賛されたトランスフォーマーの導入後である。
優れたパフォーマンスにもかかわらず、今日直面する問題は常にいくつかあります。
例えば、幻覚や論理ループに閉じ込められたりといった問題が発生することがある。
既存のシステムの性能を高めるために,木を横断する順序で目的の文を生成する自然言語のシーケンスを生成する新しい手法を提案する。
本論文は,提案手法の理論的基礎と妥当性の図解と,その基礎と図形生成における拡散モデルとの比較を含む。
最後に、バイナリツリーを近似するためにSenTreeと呼ばれるモジュールが導入される。
https://github.com/arklyg/sentree.comで既に公開されている。
さらに, この手法に基づく協調学習フレームワークを提案し, 生成的敵ネットワークの内在を取り入れた。
Generative models reliant on sequential autoregression have been at the forefront of language generation for an extensive period, particularly following the introduction of widely acclaimed transformers. Despite its excellent performance, there are always some issues that we face today. For example, problems such as hallucinations and getting trapped in a logic loop may occur. To enhance the performance of existing systems, this paper introduces a new method for generating sequences in natural language, which involves generating the targeted sentence in a tree-traversing order. The paper includes an illustration of the theoretical basis and validity of the approach, as well as a comparison of its fundamentals with the diffusion model in graphic generation. Finally, a module called SenTree is introduced for generating an approximating binary tree. It is already available at https://github.com/arklyg/sentree. Additionally, a joint training framework based on this approach is proposed, incorporating the intrinsics of generative adversarial networks. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 時間的知識グラフ質問に対する回答
Temporal Knowledge Graph Question Answering: A Survey ( http://arxiv.org/abs/2406.14191v1 ) ライセンス: Link先を確認 | Miao Su, ZiXuan Li, Zhuo Chen, Long Bai, Xiaolong Jin, Jiafeng Guo, | (参考訳) 知識ベース質問回答(KBQA)は,知識ベースに基づいて質問に回答するための長年にわたる分野である。
近年,時間的知識グラフ質問回答(TKGQA)への関心が高まっている。
しかし、この分野は時間的問題の定義においてあいまいさを伴い、既存のTKGQAの手法の体系的な分類を欠いている。
そこで本研究では,時間的質問の分類とTKGQAの方法論的分類という2つの観点から,徹底的な調査を行った。
具体的には、まず、先行研究に携わる時間的疑問の詳細な分類法を確立する。
その後、セマンティックパーシングベースとTKG埋め込みベースという2つのカテゴリのTKGQAテクニックの総合的なレビューを行う。
本報告では,TKGQA分野の進展をめざした研究の方向性について概説する。
この研究は、TKGQAの包括的な参照として機能し、さらなる研究を促進することを目的としている。
Knowledge Base Question Answering (KBQA) has been a long-standing field to answer questions based on knowledge bases. Recently, the evolving dynamics of knowledge have attracted a growing interest in Temporal Knowledge Graph Question Answering (TKGQA), an emerging task to answer temporal questions. However, this field grapples with ambiguities in defining temporal questions and lacks a systematic categorization of existing methods for TKGQA. In response, this paper provides a thorough survey from two perspectives: the taxonomy of temporal questions and the methodological categorization for TKGQA. Specifically, we first establish a detailed taxonomy of temporal questions engaged in prior studies. Subsequently, we provide a comprehensive review of TKGQA techniques of two categories: semantic parsing-based and TKG embedding-based. Building on this review, the paper outlines potential research directions aimed at advancing the field of TKGQA. This work aims to serve as a comprehensive reference for TKGQA and to stimulate further research. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# Timo: 言語モデルのための時間的推論の改善を目指して
Timo: Towards Better Temporal Reasoning for Language Models ( http://arxiv.org/abs/2406.14192v1 ) ライセンス: Link先を確認 | Zhaochen Su, Jun Zhang, Tong Zhu, Xiaoye Qu, Juntao Li, Min Zhang, Yu Cheng, | (参考訳) 時間に関する推論は、大言語モデル(LLM)が世界を理解するために不可欠である。
これまでの仕事は特定のタスク、主に時間に敏感な質問応答の解決に重点を置いていた。
これらの手法は有効であることが証明されているが、時間的推論タスクの幅広い範囲に一般化することはできない。
そこで我々は,様々な時間的推論タスクを扱う普遍的なフレームワークを構築することができるか,という重要な問いを提案する。
そこで我々は38の時間的推論タスクを体系的に研究した。
19のタスクが数学に直接関連しているという観測に基づいて、まず利用可能な数学的データセットを活用し、時間的推論の基盤を確立する。
しかし、詳細な研究は、数学の強化にのみ焦点を合わせることは、純粋な時間的推論タスクに対処するに足らないことを示唆している。
この制限を緩和するために、一般的なタスク能力を犠牲にすることなく、モデルの時間的推論能力を高めるための、単純で効果的な自己批判時間最適化手法を提案する。
最後に,時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。
ティモは平均精度スコアでLLMを10.0と7.6で上回り、SOTA(State-of-the-art)のパフォーマンスを同等のサイズで達成している。
大規模な実験により、多種多様な時間的タスクにおけるフレームワークの有効性と一般化がさらに検証される。
コードはhttps://github.com/zhaochen0110/Timoで公開されている。
Reasoning about time is essential for Large Language Models (LLMs) to understand the world. Previous works focus on solving specific tasks, primarily on time-sensitive question answering. While these methods have proven effective, they cannot generalize to a wider spectrum of temporal reasoning tasks. Therefore, we propose a crucial question: Can we build a universal framework to handle a variety of temporal reasoning tasks? To that end, we systematically study 38 temporal reasoning tasks. Based on the observation that 19 tasks are directly related to mathematics, we first leverage the available mathematical dataset to set a solid foundation for temporal reasoning. However, the in-depth study indicates that focusing solely on mathematical enhancement falls short of addressing pure temporal reasoning tasks. To mitigate this limitation, we propose a simple but effective self-critic temporal optimization method to enhance the model's temporal reasoning capabilities without sacrificing general task abilities. Finally, we develop Timo, a model designed to excel in temporal reasoning at the 7B and 13B scales. Notably, Timo outperforms the counterpart LLMs by 10.0 and 7.6 in average accuracy scores and achieves the new state-of-the-art (SOTA) performance of comparable size. Extensive experiments further validate our framework's effectiveness and its generalization across diverse temporal tasks. The code is available at https://github.com/zhaochen0110/Timo. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# VLBiasBench:大規模視覚言語モデルにおけるバイアス評価のための総合ベンチマーク
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model ( http://arxiv.org/abs/2406.14194v1 ) ライセンス: Link先を確認 | Jie Zhang, Sibo Wang, Xiangkui Cao, Zheng Yuan, Shiguang Shan, Xilin Chen, Wen Gao, | (参考訳) LVLM(Large Vision-Language Models)の出現は、汎用人工知能の実現に向けて大きな一歩を踏み出した。
しかしながら、これらの進歩は、しばしばバイアスを反映する出力によって誘惑され、まだ広く研究されていない懸念である。
既存のベンチマークは、データスケールの制限、単一質問フォーマット、バイアスの幅の狭いため、バイアスを評価するのに十分な包括的ではない。
この問題に対処するために,LVLMのバイアスを総合的に評価するためのベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchでは、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
大規模なデータセットを作成するために、安定拡散XLモデルを用いて46,848の高品質な画像を生成し、128,342のサンプルを生成する。
これらの質問は、バイアスの源泉を十分に考慮し、複数の視点からLVLMのバイアスを包括的に評価し、オープンおよびクローズエンドのタイプに分類される。
その後、15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
私たちのベンチマークはhttps://github.com/Xiangkui-Cao/VLBiasBench.comで公開されています。
The emergence of Large Vision-Language Models (LVLMs) marks significant strides towards achieving general artificial intelligence. However, these advancements are tempered by the outputs that often reflect biases, a concern not yet extensively investigated. Existing benchmarks are not sufficiently comprehensive in evaluating biases due to their limited data scale, single questioning format and narrow sources of bias. To address this problem, we introduce VLBiasBench, a benchmark aimed at evaluating biases in LVLMs comprehensively. In VLBiasBench, we construct a dataset encompassing nine distinct categories of social biases, including age, disability status, gender, nationality, physical appearance, race, religion, profession, social economic status and two intersectional bias categories (race x gender, and race x social economic status). To create a large-scale dataset, we use Stable Diffusion XL model to generate 46,848 high-quality images, which are combined with different questions to form 128,342 samples. These questions are categorized into open and close ended types, fully considering the sources of bias and comprehensively evaluating the biases of LVLM from multiple perspectives. We subsequently conduct extensive evaluations on 15 open-source models as well as one advanced closed-source model, providing some new insights into the biases revealing from these models. Our benchmark is available at https://github.com/Xiangkui-Cao/VLBiasBench. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 連鎖推論を用いたニューラルネットワークモデルの表現能力について
On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning ( http://arxiv.org/abs/2406.14197v1 ) ライセンス: Link先を確認 | Franz Nowak, Anej Svete, Alexandra Butoi, Ryan Cotterell, | (参考訳) 現代言語モデル(LM)の性能は、チェーン・オブ・シンクレット(CoT)推論、すなわち、モデルの最終解へと導く中間結果を生成するプロセスによって改善されている。
この改善の可能な説明は、RNNやスクラッチ空間を持つ変換器がチューリング完全であることが知られているので、CoT推論がLMの計算能力を拡張することである。
しかし、LMとチューリングマシンを比較すると、カテゴリーエラーが発生し、チューリングマシンが言語のメンバーシップを決定するのに対して、LMは文字列上の分布を定義する。
このギャップを埋めるため、確率的環境でCoT推論を定式化する。
CoT推論による再帰および変圧器LMの表現能力に関するいくつかの結果を示し、弦上の分布の同族を確率的チューリングマシンとして表現可能であることを示す。
The performance of modern language models (LMs) has been improved by chain-of-thought (CoT) reasoning, i.e., the process of generating intermediate results that guide the model towards a final answer. A possible explanation for this improvement is that CoT reasoning extends an LM's computational power, as RNNs and transformers with additional scratch space are known to be Turing complete. Comparing LMs to Turing machines, however, introduces a category error - Turing machines decide language membership, whereas LMs define distributions over strings. To bridge this gap, we formalize CoT reasoning in a probabilistic setting. We present several results on the representational capacity of recurrent and transformer LMs with CoT reasoning, showing that they can represent the same family of distributions over strings as probabilistic Turing machines. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# セマンティックセグメンテーションネットワークの信頼
Trusting Semantic Segmentation Networks ( http://arxiv.org/abs/2406.14201v1 ) ライセンス: Link先を確認 | Samik Some, Vinay P. Namboodiri, | (参考訳) セマンティックセグメンテーションは、自動運転車や医療画像セグメンテーションなどの成長に伴い、コンピュータビジョンにおいて重要なタスクとなっている。
現在のモデルは優れた結果をもたらすが、まだ完璧には程遠いものであり、セグメンテーションの精度と速度に関して、性能改善に多大な努力を払っている一方で、これらのシステムの故障事例を分析する作業はほとんど行われていない。
本研究では,異なるモデル間でセグメンテーションがどのように失敗するかを解析し,テスト時に合理的に予測できるかどうかを考察する。
そのために、既存の不確実性ベースのメトリクスを調べ、それがいかにして誤分類と相関しているかを調べ、予測モデルの出力にどのような信頼度が与えられるかを定義します。
3つのデータセットにわたる3つの異なるモデルに関するいくつかの実験を通して、エントロピーのような単純な測度を用いて、高いリコール率で誤分類を捉えることができることを示す。
Semantic segmentation has become an important task in computer vision with the growth of self-driving cars, medical image segmentation, etc. Although current models provide excellent results, they are still far from perfect and while there has been significant work in trying to improve the performance, both with respect to accuracy and speed of segmentation, there has been little work which analyses the failure cases of such systems. In this work, we aim to provide an analysis of how segmentation fails across different models and consider the question of whether these can be predicted reasonably at test time. To do so, we explore existing uncertainty-based metrics and see how well they correlate with misclassifications, allowing us to define the degree of trust we put in the output of our prediction models. Through several experiments on three different models across three datasets, we show that simple measures such as entropy can be used to capture misclassification with high recall rates. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# Live Video Captioning
Live Video Captioning ( http://arxiv.org/abs/2406.14206v1 ) ライセンス: Link先を確認 | Eduardo Blanco-Fernández, Carlos Gutiérrez-Álvarez, Nadia Nasri, Saturnino Maldonado-Bascón, Roberto J. López-Sastre, | (参考訳) デンスビデオキャプションは、ビデオシーケンス内のイベントの検出と記述を含むタスクである。
従来のアプローチでは、キャプションモデルで分析ビデオ全体を利用できるオフラインソリューションに重点を置いていますが、本研究では、Live Video Captioning(LVC)へのパラダイムシフトを紹介します。
LVCでは、高密度ビデオキャプションモデルでは、ビデオストリームのキャプションをオンラインで生成し、ビデオの部分的な観察、時間的予測の必要性、そしてもちろん、理想的なリアルタイム応答の確保といった重要な制約に直面している。
本研究は,LVCの新たな課題を正式に紹介し,従来の指標よりも優れていることを示すオンラインシナリオに適した新しい評価指標を提案する。
また、変形可能な変圧器と時間フィルタリングを統合したLVCモデルを提案し、LVCの新たな課題に対処する。
ActivityNet Captionsデータセットの実験的評価は、我々のアプローチの有効性を検証し、最先端のオフライン手法と比較してLVCの性能を強調した。
LVCのさらなる研究を促進するため,本モデルと新たなメトリクスを組み込んだ評価キットを公開している。
Dense video captioning is the task that involves the detection and description of events within video sequences. While traditional approaches focus on offline solutions where the entire video of analysis is available for the captioning model, in this work we introduce a paradigm shift towards Live Video Captioning (LVC). In LVC, dense video captioning models must generate captions for video streams in an online manner, facing important constraints such as having to work with partial observations of the video, the need for temporal anticipation and, of course, ensuring ideally a real-time response. In this work we formally introduce the novel problem of LVC and propose new evaluation metrics tailored for the online scenario, demonstrating their superiority over traditional metrics. We also propose an LVC model integrating deformable transformers and temporal filtering to address the LVC new challenges. Experimental evaluations on the ActivityNet Captions dataset validate the effectiveness of our approach, highlighting its performance in LVC compared to state-of-the-art offline methods. Results of our model as well as an evaluation kit with the novel metrics integrated are made publicly available to encourage further research on LVC. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# LayerMatch: 擬似ラベルはすべての層に相応しいか?
LayerMatch: Do Pseudo-labels Benefit All Layers? ( http://arxiv.org/abs/2406.14207v1 ) ライセンス: Link先を確認 | Chaoqi Liang, Guanglei Yang, Lifeng Qiao, Zitong Huang, Hongliang Yan, Yunchao Wei, Wangmeng Zuo, | (参考訳) ディープニューラルネットワークは、大規模ラベル付きデータの提供によって、さまざまなタスクにわたって顕著なパフォーマンスを実現している。
しかし、ラベル付きデータの収集には時間と労力がかかります。
半教師付き学習(SSL)、特に自己学習のために擬似ラベルを反復的に割り当てる擬似ラベルアルゴリズムは、ラベル付きデータの依存性を軽減するための有望なソリューションを提供する。
従来の研究は、すべてのモデル層に均一な擬似ラベル戦略を適用しており、擬似ラベルが全体にわたって一様の影響を及ぼしていると仮定していた。
これとは対照的に、我々の理論的分析と実証実験は、特徴抽出層と線形分類層が擬似ラベルに応答して異なる学習行動を持つことを示した。
これらの知見に基づき,Grad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。
Grad-ReLUは、線形分類層における擬似ラベルの勾配劣化効果を除去することにより、ノイズのある擬似ラベルの影響を緩和する。
Avg-Clusteringは、一貫した出力を統合することで、特徴抽出層の安定したクラスタリング中心への収束を加速する。
この2つの戦略を統合したLayerMatchは,特徴抽出層のクラスタリング能力を向上しつつ,線形分類層におけるノイズの多い擬似ラベルの深刻な干渉を回避することができる。
大規模な実験を通じて,本手法は標準半教師付き学習ベンチマークにおける例外的性能を一貫して証明し,ベースライン法よりも10.38%向上し,最先端法に比べて2.44%向上した。
Deep neural networks have achieved remarkable performance across various tasks when supplied with large-scale labeled data. However, the collection of labeled data can be time-consuming and labor-intensive. Semi-supervised learning (SSL), particularly through pseudo-labeling algorithms that iteratively assign pseudo-labels for self-training, offers a promising solution to mitigate the dependency of labeled data. Previous research generally applies a uniform pseudo-labeling strategy across all model layers, assuming that pseudo-labels exert uniform influence throughout. Contrasting this, our theoretical analysis and empirical experiment demonstrate feature extraction layer and linear classification layer have distinct learning behaviors in response to pseudo-labels. Based on these insights, we develop two layer-specific pseudo-label strategies, termed Grad-ReLU and Avg-Clustering. Grad-ReLU mitigates the impact of noisy pseudo-labels by removing the gradient detrimental effects of pseudo-labels in the linear classification layer. Avg-Clustering accelerates the convergence of feature extraction layer towards stable clustering centers by integrating consistent outputs. Our approach, LayerMatch, which integrates these two strategies, can avoid the severe interference of noisy pseudo-labels in the linear classification layer while accelerating the clustering capability of the feature extraction layer. Through extensive experimentation, our approach consistently demonstrates exceptional performance on standard semi-supervised learning benchmarks, achieving a significant improvement of 10.38% over baseline method and a 2.44% increase compared to state-of-the-art methods. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# SeCoKD: 少ないショットによるインコンテキスト学習のための大規模言語モデルのアラインメント
SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots ( http://arxiv.org/abs/2406.14208v1 ) ライセンス: Link先を確認 | Weixing Wang, Haojin Yang, Christoph Meinel, | (参考訳) 以前の研究では、デモによって与えられたタスクにおいて大きな言語モデル(LLM)のパフォーマンスが大幅に向上することが示されている。
しかし、いわゆるICL(In-Context Learning)能力は、提示するコンテキストに非常に敏感であり、数十のデモが必要な場合が多い。
本研究では,競争性能を維持しつつ,ショット数を削減できるかどうかを検討する。
本稿では,学生モデルに高頻度な変動を付与する自己知識蒸留(KD)トレーニングフレームワークであるSeCoKDについて述べる。
我々は3つのLSMと6つのベンチマークでSeCoKDを実験し、主に推論タスクに焦点を当てた。
その結果,提案手法はベースモデルとSupervised Fine-tuning(SFT)よりも優れており,特に0ショットと1ショット設定では30%,10%向上していることがわかった。
さらに、SeCoKDは、新しいタスクで評価する際の否定的なアーティファクトが少なく、Supervised Fine-tuningよりも堅牢である。
Previous studies have shown that demonstrations can significantly help Large Language Models (LLMs ) perform better on the given tasks. However, this so-called In-Context Learning ( ICL ) ability is very sensitive to the presenting context, and often dozens of demonstrations are needed. In this work, we investigate if we can reduce the shot number while still maintaining a competitive performance. We present SeCoKD, a self-Knowledge Distillation ( KD ) training framework that aligns the student model with a heavily prompted variation, thereby increasing the utilization of a single demonstration. We experiment with the SeCoKD across three LLMs and six benchmarks focusing mainly on reasoning tasks. Results show that our method outperforms the base model and Supervised Fine-tuning ( SFT ), especially in zero-shot and one-shot settings by 30% and 10%, respectively. Moreover, SeCoKD brings little negative artifacts when evaluated on new tasks, which is more robust than Supervised Fine-tuning. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 大規模合成神経画像データセットを用いた3次元畳み込みニューラルネットワークを用いたアルツハイマー病分類のための自己監督的前提課題
Self-Supervised Pretext Tasks for Alzheimer's Disease Classification using 3D Convolutional Neural Networks on Large-Scale Synthetic Neuroimaging Dataset ( http://arxiv.org/abs/2406.14210v1 ) ライセンス: Link先を確認 | Chen Zheng, | (参考訳) 構造核磁気共鳴イメージング(MRI)研究は、アルツハイマー病(AD)が脳全体に局所的および広範囲にわたる神経変性を誘導することを示した。
しかし、脳変性変化を強調させるセグメンテーションの欠如は、CNNベースの分類器を教師付きで訓練する上で、ユニークな課題となる。
本研究では、下流ADとCN分類のための特徴抽出器を訓練するための教師なし手法をいくつか評価した。
3D T1-weighted MRI data of Cognitive normal (CN) subjects from the synthetic neuroimaging LDM100K dataset, lightweight 3D CNN-based model are training for brain age prediction, brain image rotation classification, brain image reconstruction and a multi-head task combined all three task into one。
LDM100K合成データセットで訓練した特徴抽出器は、実世界のデータを用いたモデルと同等の性能を達成した。
これにより、大規模合成データをプリテキストタスクトレーニングに活用することが可能になる。
すべてのトレーニングとテストの分割は、データ漏洩の問題を防ぐために、被験者レベルで実行される。
単純な前処理のステップに加えて、ランダムな収穫データ拡張技術はすべての実験で一貫した改善を示している。
Structural magnetic resonance imaging (MRI) studies have shown that Alzheimer's Disease (AD) induces both localised and widespread neural degenerative changes throughout the brain. However, the absence of segmentation that highlights brain degenerative changes presents unique challenges for training CNN-based classifiers in a supervised fashion. In this work, we evaluated several unsupervised methods to train a feature extractor for downstream AD vs. CN classification. Using the 3D T1-weighted MRI data of cognitive normal (CN) subjects from the synthetic neuroimaging LDM100K dataset, lightweight 3D CNN-based models are trained for brain age prediction, brain image rotation classification, brain image reconstruction and a multi-head task combining all three tasks into one. Feature extractors trained on the LDM100K synthetic dataset achieved similar performance compared to the same model using real-world data. This supports the feasibility of utilising large-scale synthetic data for pretext task training. All the training and testing splits are performed on the subject-level to prevent data leakage issues. Alongside the simple preprocessing steps, the random cropping data augmentation technique shows consistent improvement across all experiments. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# 変圧器の動作記憶における記号表現の複雑度とタスクの複雑度との関係
Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task ( http://arxiv.org/abs/2406.14213v1 ) ライセンス: Link先を確認 | Alsu Sagirova, Mikhail Burtsev, | (参考訳) Transformerは自然言語処理タスク、特に機械翻訳に広く使われているが、処理されたテキストのキーコンセプトを格納するための明示的なメモリが欠如している。
本稿では,Transformerモデルデコーダに付加されたシンボリックワーキングメモリの内容について検討する。
このような作業メモリは、機械翻訳タスクにおけるモデル予測の品質を高め、モデルが正しい翻訳を行う上で重要な情報のニューラルシンボリック表現として機能する。
メモリ内容の研究により、翻訳されたテキストキーワードが作業メモリに格納され、処理されたテキストに対するメモリ内容の関連性を示すことが明らかとなった。
また、メモリに格納されたトークンと音声の部分の多様性は、機械翻訳タスクのためのコーパスの複雑さと相関する。
Even though Transformers are extensively used for Natural Language Processing tasks, especially for machine translation, they lack an explicit memory to store key concepts of processed texts. This paper explores the properties of the content of symbolic working memory added to the Transformer model decoder. Such working memory enhances the quality of model predictions in machine translation task and works as a neural-symbolic representation of information that is important for the model to make correct translations. The study of memory content revealed that translated text keywords are stored in the working memory, pointing to the relevance of memory content to the processed text. Also, the diversity of tokens and parts of speech stored in memory correlates with the complexity of the corpora for machine translation task. | 翻訳日:2024-06-21 14:11:31 公開日:2024-06-20 |
# REVEAL-IT:InTerpretabilityのための進化エージェントpoLicyの可視性を用いた強化学習
REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability ( http://arxiv.org/abs/2406.14214v1 ) ライセンス: Link先を確認 | Shuang Ao, Simon Khan, Haris Aziz, Flora D. Salim, | (参考訳) エージェントの学習過程、特にその成功や訓練後の失敗に寄与する要因を理解することは、エージェントの意思決定プロセスの背後にある根拠を理解するために重要である。
従来の手法では、構造因果モデル(SCM)を作成したり、価値関数の分布を視覚的に表現することで学習過程を明らかにする。
しかしながら、これらのアプローチは2次元環境や複雑でない遷移力学でのみ機能するので制約がある。
複雑な環境やタスクでエージェントの学習プロセスを理解することはより難しい。
本稿では,複雑な環境下でエージェントの学習過程を説明するための新しいフレームワークであるREVEAL-ITを提案する。
まず,様々な学習課題に対する政策構造とエージェントの学習過程を可視化する。
これらの知見を可視化することにより、特定のトレーニングタスクやステージがテストにおけるエージェントのパフォーマンスにどの程度影響するかを理解することができる。
そして、GNNベースの説明者がポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。
実験により、このフレームワークから導かれた説明は、効果的に最適化の助けとなることが示された。
Understanding the agent's learning process, particularly the factors that contribute to its success or failure post-training, is crucial for comprehending the rationale behind the agent's decision-making process. Prior methods clarify the learning process by creating a structural causal model (SCM) or visually representing the distribution of value functions. Nevertheless, these approaches have constraints as they exclusively function in 2D-environments or with uncomplicated transition dynamics. Understanding the agent's learning process in complicated environments or tasks is more challenging. In this paper, we propose REVEAL-IT, a novel framework for explaining the learning process of an agent in complex environments. Initially, we visualize the policy structure and the agent's learning process for various training tasks. By visualizing these findings, we can understand how much a particular training task or stage affects the agent's performance in test. Then, a GNN-based explainer learns to highlight the most important section of the policy, providing a more clear and robust explanation of the agent's learning process. The experiments demonstrate that explanations derived from this framework can effectively help in the optimization of the | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# Repeater-based Quantum Communication Protocol:ミニマルエンタングルメントによるテレポーテーション忠実度の最大化
Repeater-Based Quantum Communication Protocol: Maximizing Teleportation Fidelity with Minimal Entanglement ( http://arxiv.org/abs/2406.14216v1 ) ライセンス: Link先を確認 | Arkaprabha Ghosal, Jatin Ghai, Tanmay Saha, Sibasish Ghosh, Mir Alimuddin, | (参考訳) 未知の量子状態を遠隔地へ送信することは、分散量子情報プロトコルにとって不可欠である。
セミナル量子テレポーテーションスキームは、送信機と受信機の間の事前の最大絡み合いを必要としながら、この偉業を達成する。
ノイズの多い絡み合った状態のシナリオでは、最適なテレポーテーションフィデリティは、送信側と受信側の端におけるローカル操作の適切な選択を要求する、状態を送信する効果を特徴付ける。
この複雑さは長距離通信においてさらに増大し、量子情報の効率的な伝送を容易にするために複数のセグメントを持つノードの配列を組み込んだリピータベースのアプローチが検討される。
単一のセグメントがノイズの影響を受けても、通信回線の忠実度は劣化する。
このような場合、一般的な知恵は、ノイズのないセグメントにまたがる最大交絡状態を含む標準交絡交換プロトコルを使用し、対応するノードで最大交絡基底測定を適用して最適な忠実性を達成する。
本文では,任意の中間セグメントにおけるある種のノイズ状態に対するより効率的なプロトコルを提案し,より少ないエンタングルメントを消費しながら,標準プロトコルと同じ忠実性を実現する。
提案手法は, エンド・ツー・エンド状態のノイズが高められた場合でも, テレポーテーションの完全性の向上を保証し, リピータベースの分散量子プロトコルにおける量子資源の効率的な利用を約束する。
Transmitting unknown quantum states to distant locations is crucial for distributed quantum information protocols. The seminal quantum teleportation scheme achieves this feat while requiring prior maximal entanglement between the sender and receiver. In scenarios with noisy entangled states, optimal teleportation fidelity characterizes the efficacy of transmitting the state, demanding the proper selection of local operations at the sender's and receiver's ends. The complexity escalates further in long-range communication setups, prompting the consideration of a repeater-based approach, which incorporates arrays of nodes with multiple segments to facilitate the efficient transmission of quantum information. The fidelity of the communication line gets degraded even if a single segment is affected by noise. In such cases, the general wisdom employs the standard entanglement swapping protocol involving maximally entangled states across the noiseless segments and applying maximally entangled basis measurement at the corresponding nodes to achieve optimal fidelity. In this Letter, we propose a more efficient protocol for a certain class of noisy states in any intermediary segment, achieving the same fidelity as the standard protocol while consuming less amount of entanglement. Our approach ensures enhanced teleportation fidelity even when the end-to-end state gets noisier, and thus promises efficient utility of quantum resources in repeater-based distributed quantum protocols. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# フェデレーション学習におけるRLに基づくアグリゲーションによる高度毒殺攻撃の防御
Defending Against Sophisticated Poisoning Attacks with RL-based Aggregation in Federated Learning ( http://arxiv.org/abs/2406.14217v1 ) ライセンス: Link先を確認 | Yujing Wang, Hainan Zhang, Sijia Wen, Wangjie Qiu, Binghui Guo, | (参考訳) フェデレート学習は、特にサーバー用に細心の注意を払って作られた、毒殺攻撃をモデル化する上で非常に感受性が高い。
従来の防衛法は主に手作業による筋電図攻撃に対するアセスメントの更新や堅牢なアグリゲーションに重点を置いている。
先進的な攻撃に直面した場合、防御の安定性は顕著に不十分である。
そのため、このような先進的な毒殺攻撃に対する適応的な防御を開発することが不可欠である。
CVタスクとNLPタスクの連携学習において、良性クライアントは悪意のあるクライアントよりもデータ分散安定性が著しく高いことが判明した。
したがって、悪意のあるクライアントは、データの分散の安定性を観察することで認識することができる。
本稿では,RLに基づくアダプティブアグリゲーション法であるAdaAggRLを提案する。
具体的には、まず分散学習を利用してクライアントのデータ配信をシミュレートする。
次に, 最大平均誤差(MMD)を用いて, 現在の局所モデルデータ分布, その履歴データ分布, グローバルモデルデータ分布のペアの類似度を算出する。
最後に、ポリシ学習を用いて、上記の類似性に基づいてアグリゲーション重みを適応的に決定する。
4つの実世界のデータセットの実験により、提案された防衛モデルは高度な攻撃に対して広く採用されている防衛モデルよりも大幅に優れていることが示された。
Federated learning is highly susceptible to model poisoning attacks, especially those meticulously crafted for servers. Traditional defense methods mainly focus on updating assessments or robust aggregation against manually crafted myopic attacks. When facing advanced attacks, their defense stability is notably insufficient. Therefore, it is imperative to develop adaptive defenses against such advanced poisoning attacks. We find that benign clients exhibit significantly higher data distribution stability than malicious clients in federated learning in both CV and NLP tasks. Therefore, the malicious clients can be recognized by observing the stability of their data distribution. In this paper, we propose AdaAggRL, an RL-based Adaptive Aggregation method, to defend against sophisticated poisoning attacks. Specifically, we first utilize distribution learning to simulate the clients' data distributions. Then, we use the maximum mean discrepancy (MMD) to calculate the pairwise similarity of the current local model data distribution, its historical data distribution, and global model data distribution. Finally, we use policy learning to adaptively determine the aggregation weights based on the above similarities. Experiments on four real-world datasets demonstrate that the proposed defense model significantly outperforms widely adopted defense models for sophisticated attacks. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# 人為的な説明を伴わないオリンピアス代数的不平等の証明
Proving Olympiad Algebraic Inequalities without Human Demonstrations ( http://arxiv.org/abs/2406.14219v1 ) ライセンス: Link先を確認 | Chenrui Wei, Mengzhou Sun, Wei Wang, | (参考訳) オリンピアードレベルの数学問題を解くことは、マシンインテリジェンスと自動推論の大幅な進歩を示している。
しかし、現在の機械学習手法は、大規模で高品質なデータセットが欠如しているため、ユークリッド平面幾何学を超えたオリンピアードレベルの問題を解決するのに苦労している。
この問題は有限条件内の無限の推論空間を含む代数系においてさらに大きい。
これらの問題に対処するため、我々は複雑な不等式定理を自律的に生成し、人間の実演を必要とせず、オリンピアードレベルの不等式問題を効果的に解決できる代数的不等式証明システムであるAIPSを提案する。
混合推論方式で証明探索を行う際、生成したデータセットの値カリキュラム学習戦略を実装し、証明性能を向上し、強力な数学的直観を示す。
国際数理オリンピックレベルの不等式問題20の試験セットにおいて、AIPSは10の解決に成功し、最先端の手法より優れていた。
さらに、AIPSは人間の介入なしに膨大な数の非自明な定理を自動生成し、その一部はプロの競技者によって評価され、国際数学オリンピックの水準に達していると見なされている。
特に、大都市2024の数学オリンピアードにおける競合問題として1つの定理が選ばれた。
Solving Olympiad-level mathematical problems represents a significant advancement in machine intelligence and automated reasoning. Current machine learning methods, however, struggle to solve Olympiad-level problems beyond Euclidean plane geometry due to a lack of large-scale, high-quality datasets. The challenge is even greater in algebraic systems, which involve infinite reasoning spaces within finite conditions. To address these issues, we propose AIPS, an Algebraic Inequality Proving System capable of autonomously generating complex inequality theorems and effectively solving Olympiad-level inequality problems without requiring human demonstrations. During proof search in a mixed reasoning manner, a value curriculum learning strategy on generated datasets is implemented to improve proving performance, demonstrating strong mathematical intuitions. On a test set of 20 International Mathematical Olympiad-level inequality problems, AIPS successfully solved 10, outperforming state-of-the-art methods. Furthermore, AIPS automatically generated a vast array of non-trivial theorems without human intervention, some of which have been evaluated by professional contestants and deemed to reach the level of the International Mathematical Olympiad. Notably, one theorem was selected as a competition problem in a major city 2024 Mathematical Olympiad. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# マルチスペクトル・ハイパースペクトル・高空間空中画像を用いた土地被覆マッピングのための深層学習セマンティックセマンティックセマンティックセマンティックセグメンテーションの評価
Evaluation of Deep Learning Semantic Segmentation for Land Cover Mapping on Multispectral, Hyperspectral and High Spatial Aerial Imagery ( http://arxiv.org/abs/2406.14220v1 ) ライセンス: Link先を確認 | Ilham Adi Panuntun, Ying-Nong Chen, Ilham Jamaluddin, Thi Linh Chi Tran, | (参考訳) 気候変動の台頭で、土地被覆マッピングは環境モニタリングにおいて緊急に必要となってきた。
リモートセンシングデータの改良により,土地被覆分類の精度が向上している。
近年,衛星画像を用いた土地被覆分類が研究され,普及している。
これらの制限を克服するために、いくつかのディープラーニング技術が利用されてきた。
しかし、ほとんどの研究では、ランドカバーマッピングのアルゴリズムを評価するために、1つのイメージタイプのみを実装している。
そこで本研究では,マルチスペクトル,ハイパースペクトル,高空間空間画像の深層学習セマンティックセマンティックセグメンテーションをランドカバーマッピングのために行った。
本研究では,Unet,Linknet,FPN,PSPnetなどのセマンティックセグメンテーション手法を用いて植生,水,その他(土壌,不活性表面など)を分類した。
LinkNetモデルは、すべてのデータセットにおいて、IoU(Intersection Over Union)において0.92で高い精度を得た。
IoUとF1スコアはそれぞれ0.993,0.997であった。
その結果,土地被覆分類におけるLinkNetとマルチスペクトル画像の有効性と適用性を強調した。
本研究は,長期的応用に向けたオープンソースによる土地被覆セグメンテーションへのアプローチの確立に寄与する。
In the rise of climate change, land cover mapping has become such an urgent need in environmental monitoring. The accuracy of land cover classification has gotten increasingly based on the improvement of remote sensing data. Land cover classification using satellite imageries has been explored and become more prevalent in recent years, but the methodologies remain some drawbacks of subjective and time-consuming. Some deep learning techniques have been utilized to overcome these limitations. However, most studies implemented just one image type to evaluate algorithms for land cover mapping. Therefore, our study conducted deep learning semantic segmentation in multispectral, hyperspectral, and high spatial aerial image datasets for landcover mapping. This research implemented a semantic segmentation method such as Unet, Linknet, FPN, and PSPnet for categorizing vegetation, water, and others (i.e., soil and impervious surface). The LinkNet model obtained high accuracy in IoU (Intersection Over Union) at 0.92 in all datasets, which is comparable with other mentioned techniques. In evaluation with different image types, the multispectral images showed higher performance with the IoU, and F1-score are 0.993 and 0.997, respectively. Our outcome highlighted the efficiency and broad applicability of LinkNet and multispectral image on land cover classification. This research contributes to establishing an approach on landcover segmentation via open source for long-term future application. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# タキオンの共変量子場理論」へのコメント
Comment on "Covariant quantum field theory of tachyons" ( http://arxiv.org/abs/2406.14225v1 ) ライセンス: Link先を確認 | Krzysztof Jodłowski, | (参考訳) 最近、Paczos et al (2308.00450) は自由で相互作用するタキオン場のための共変量子場理論を提案した。
提案したFeynmanプロパゲータはローレンツ不変ではなく, 適切な漸近状態 (in/out) タキオン状態は存在せず, タキオンとサブアルミナの相互作用を記述するS行列は不定義である。
タキオンはボソンとして振る舞うため、相互作用するタキオンは自己相互作用しうる(例えば、通常の物質との相互作用はそのような用語を生成する)。
その結果、物理的真空はポテンシャルの原点ではなく、タキオンポテンシャルの適切な最小値に対応しているかもしれないし、そのような状態は存在しない。
解析の結果,量子タキオン場は負の質量2乗を持つ物理オンシェル粒子を記述していないことが示唆された。
Recently, Paczos et al. (2308.00450) proposed a covariant quantum field theory for free and interacting tachyon fields. We show that the proposed Feynman propagator is not Lorentz invariant, proper asymptotic (in/out) tachyon states do not exist, and the proposed S-matrix describing interactions of tachyons and subluminal matter is ill-defined. Since tachyons behave as bosons, interacting tachyons may also self-interact, e.g., any interaction with ordinary matter generates such terms. As a result, the physical vacuum, instead of being at the origin of the potential, may correspond to the proper minimum of the tachyon potential, or such state does not exist at all. Our analysis indicates that quantum tachyon field does not describe a physical on-shell particle with negative mass squared. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# 単一視野深度における不確かさと自己スーパービジョン
Uncertainty and Self-Supervision in Single-View Depth ( http://arxiv.org/abs/2406.14226v1 ) ライセンス: Link先を確認 | Javier Rodriguez-Puigvert, | (参考訳) シングルビュー深度推定は、1ピクセルあたりの3次元情報を単一の2次元画像から導き出す能力を指す。
1つの視点から3次元幾何学を説明する複数の深さ解が存在するため、単視点深度推定は不適切な問題である。
ディープニューラルネットワークは単一の視点から深度を捉えるのに有効であることが示されているが、現在の方法論の大半は本質的に決定論的である。
予測の不確実性の説明は、自律運転や医療ロボティクスといった分野に適用した場合、悲惨な結果を避けることができる。
我々はベイジアンディープニューラルネットワークにおける教師付き単一視点深度の不確かさを定量化することでこの問題に対処した。
医学では、特に内視鏡画像の場合、このような注釈付きデータが入手できないシナリオがある。
データ不足を軽減するため,合成から実際のドメインへの遷移を改善する手法を提案する。
本研究では,教師の不確実性を考慮し,教師の自己指導的指導を施した不確実性認識型教員学生アーキテクチャを提案する。
RGB画像と内視鏡の幾何的・測光的校正しか必要としない完全自己監督的アプローチを提唱する。
内視鏡画像では、カメラと光源は、ターゲット表面からわずかに離れた位置に配置されている。
この設定は、画像の明るい領域がカメラに近づき、暗い領域はさらに遠くにあることを示している。
この観測に基づいて、任意のアルベドと表面配向に対して、画素の明るさが距離の正方形に逆比例するという事実を利用する。
本稿では、深いニューラルネットワークのための強力な単一ビュー自己監督信号として照明を用いることを提案する。
Single-view depth estimation refers to the ability to derive three-dimensional information per pixel from a single two-dimensional image. Single-view depth estimation is an ill-posed problem because there are multiple depth solutions that explain 3D geometry from a single view. While deep neural networks have been shown to be effective at capturing depth from a single view, the majority of current methodologies are deterministic in nature. Accounting for uncertainty in the predictions can avoid disastrous consequences when applied to fields such as autonomous driving or medical robotics. We have addressed this problem by quantifying the uncertainty of supervised single-view depth for Bayesian deep neural networks. There are scenarios, especially in medicine in the case of endoscopic images, where such annotated data is not available. To alleviate the lack of data, we present a method that improves the transition from synthetic to real domain methods. We introduce an uncertainty-aware teacher-student architecture that is trained in a self-supervised manner, taking into account the teacher uncertainty. Given the vast amount of unannotated data and the challenges associated with capturing annotated depth in medical minimally invasive procedures, we advocate a fully self-supervised approach that only requires RGB images and the geometric and photometric calibration of the endoscope. In endoscopic imaging, the camera and light sources are co-located at a small distance from the target surfaces. This setup indicates that brighter areas of the image are nearer to the camera, while darker areas are further away. Building on this observation, we exploit the fact that for any given albedo and surface orientation, pixel brightness is inversely proportional to the square of the distance. We propose the use of illumination as a strong single-view self-supervisory signal for deep neural networks. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# EvoAgent:進化的アルゴリズムによる自動マルチエージェント生成を目指して
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms ( http://arxiv.org/abs/2406.14228v1 ) ライセンス: Link先を確認 | Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, Deqing Yang, | (参考訳) 強力な大規模言語モデル(LLM)の台頭は、複雑なタスク、特にマルチエージェントシステムを解決するためのLLMベースの自律エージェントの構築において、新たなトレンドを引き起こしている。
目覚ましい進歩にもかかわらず、既存の作業が人間設計のフレームワークに大きく依存していることに気づき、エージェントシステムの機能的スコープとスケーラビリティを著しく制限している。
タスク解決能力を改善するために、特殊エージェントをマルチエージェントシステムに自動的に拡張する方法は、依然として大きな課題である。
本稿では、進化的アルゴリズムを用いて、エキスパートエージェントをマルチエージェントシステムに自動的に拡張する一般的な方法であるEvoAgentを紹介し、タスク解決におけるLCMベースのエージェントの有効性を改善する。
具体的には、既存のエージェントフレームワークを初期個人とみなし、さまざまなエージェント設定を持つ複数のエージェントを生成するために一連の進化演算子(例えば、突然変異、交叉、選択など)を適用する。
EvoAgent は LLM ベースのエージェントフレームワークに一般化することができ、既存のエージェントフレームワークを人間の余分な設計なしにマルチエージェントシステムに自動的に拡張することができる。
様々なタスクにわたる実験結果から,EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を著しく向上できることがわかった。
The rise of powerful large language models (LLMs) has spurred a new trend in building LLM-based autonomous agents for solving complex tasks, especially multi-agent systems. Despite the remarkable progress, we notice that existing works are heavily dependent on human-designed frameworks, which greatly limits the functional scope and scalability of agent systems. How to automatically extend the specialized agent to multi-agent systems to improve task-solving capability still remains a significant challenge. In this paper, we introduce EvoAgent, a generic method to automatically extend expert agents to multi-agent systems via the evolutionary algorithm, thereby improving the effectiveness of LLM-based agents in solving tasks. Specifically, we consider the existing agent frameworks as the initial individual and then apply a series of evolutionary operators (e.g., mutation, crossover, selection, etc.) to generate multiple agents with diverse agent settings. EvoAgent can be generalized to any LLM-based agent framework, and can automatically extend the existing agent framework to multi-agent systems without any extra human designs. Experimental results across various tasks have shown that EvoAgent can automatically generate multiple expert agents and significantly enhance the task-solving capabilities of LLM-based agents. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# バーを高くする - ジェネレーティブ進化テストによる大規模言語モデルの価値の調査
Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing ( http://arxiv.org/abs/2406.14230v1 ) ライセンス: Link先を確認 | Han Jiang, Xiaoyuan Yi, Zhihua Wei, Shu Wang, Xing Xie, | (参考訳) 警告: 非倫理的な情報を示すモデル出力を含む。
大きな言語モデル(LLM)は大きなブレークスルーを達成したが、生成された非倫理的コンテンツは潜在的なリスクをもたらしている。
LLMの価値アライメントを測定することは、その規制と責任あるデプロイメントにとって不可欠である。
LLMの社会的偏見、毒性、倫理を評価するために、多くのデータセットが構築されているが、モデルが急速に進化するにつれて、既存のデータが漏れたり、不必要な状態に陥り、絶え間なく発展するLLMを過大評価する、という評価のクロノエフェクトに悩まされている。
この問題に対処するために,LLMの根底にある道徳的基線を動的に探索する新しい生成的進化テスト手法であるGAAを提案する。
制限のある静的データセットに依存する従来の適応テスト手法とは違い、GAAは反復的に更新されたアイテムジェネレータを組み込んで、各LSMの道徳的境界を推測し、真のアライメント範囲を正確に反映して困難に調整されたテスト項目を生成する。
このプロセスは理論的にアイテムとモデル応答の結合分布を学習し、アイテムの難易度と値の適合性を潜伏変数とし、ジェネレータはLSMと共進化し、クロノエフェクトに対処する。
我々は,多様な能力を持つ多種多様なLLMを評価し,GAAが難解なテスト項目を作成し,LCMの値をより正確に評価し,未確認のOODおよびi.d.項目の性能と整合性を向上し,将来の評価パラダイムの基盤となることを実証した。
Warning: this paper contains model outputs exhibiting unethical information. Large Language Models (LLMs) have achieved significant breakthroughs, but their generated unethical content poses potential risks. Measuring value alignment of LLMs becomes crucial for their regulation and responsible deployment. Numerous datasets have been constructed to assess social bias, toxicity, and ethics in LLMs, but they suffer from evaluation chronoeffect, that is, as models rapidly evolve, existing data becomes leaked or undemanding, overestimating ever-developing LLMs. To tackle this problem, we propose GETA, a novel generative evolving testing approach that dynamically probes the underlying moral baselines of LLMs. Distinct from previous adaptive testing methods that rely on static datasets with limited difficulty, GETA incorporates an iteratively-updated item generator which infers each LLM's moral boundaries and generates difficulty-tailored testing items, accurately reflecting the true alignment extent. This process theoretically learns a joint distribution of item and model response, with item difficulty and value conformity as latent variables, where the generator co-evolves with the LLM, addressing chronoeffect. We evaluate various popular LLMs with diverse capabilities and demonstrate that GETA can create difficulty-matching testing items and more accurately assess LLMs' values, better consistent with their performance on unseen OOD and i.i.d. items, laying the groundwork for future evaluation paradigms. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# aeon: 時系列から学ぶPythonツールキット
aeon: a Python toolkit for learning from time series ( http://arxiv.org/abs/2406.14231v1 ) ライセンス: Link先を確認 | Matthew Middlehurst, Ali Ismail-Fawaz, Antoine Guillaume, Christopher Holder, David Guijo Rubio, Guzal Bulatova, Leonidas Tsaprounis, Lukasz Mentel, Martin Walter, Patrick Schäfer, Anthony Bagnall, | (参考訳) aeonは、時系列を含むすべての機械学習タスクのための統一Python 3ライブラリである。
このパッケージには、時系列予測、分類、外部回帰、クラスタリングのためのモジュール、および時系列データ用に設計された様々なユーティリティ、変換、距離測定のためのモジュールが含まれている。
aeonには、異常検出、類似性検索、セグメンテーションなどのタスクのための多くの実験モジュールもある。
可能な限りScikit-learn APIに従い、新しいユーザを支援し、モデル選択やパイプラインといった便利なツールとaeon推定器を簡単に統合できるようにする。
これは、最新の研究の進歩の効率的な実装を含む、時系列アルゴリズムの幅広いライブラリを提供する。
任意の依存関係のシステムを使用することで、aeonはさまざまなパッケージを単一のインターフェースに統合し、コアフレームワークを最小限の依存関係で保持する。
このパッケージは3Clause BSDライセンスで配布されており、https://github.com/aeon-toolkit/aeonで入手できる。
このバージョンは2023年11月02日にJMLR誌にアオンのv0.5.0として提出された。
このプレプリントの時点では、aeon は v0.9.0 をリリースしており、大幅に変更されている。
aeon is a unified Python 3 library for all machine learning tasks involving time series. The package contains modules for time series forecasting, classification, extrinsic regression and clustering, as well as a variety of utilities, transformations and distance measures designed for time series data. aeon also has a number of experimental modules for tasks such as anomaly detection, similarity search and segmentation. aeon follows the scikit-learn API as much as possible to help new users and enable easy integration of aeon estimators with useful tools such as model selection and pipelines. It provides a broad library of time series algorithms, including efficient implementations of the very latest advances in research. Using a system of optional dependencies, aeon integrates a wide variety of packages into a single interface while keeping the core framework with minimal dependencies. The package is distributed under the 3-Clause BSD license and is available at https://github.com/ aeon-toolkit/aeon. This version was submitted to the JMLR journal on 02 Nov 2023 for v0.5.0 of aeon. At the time of this preprint aeon has released v0.9.0, and has had substantial changes. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# データ駆動型SHMモデルのロバスト性向上:円損失を伴う対向訓練
Enhancing robustness of data-driven SHM models: adversarial training with circle loss ( http://arxiv.org/abs/2406.14232v1 ) ライセンス: Link先を確認 | Xiangli Yang, Xijie Deng, Hanwei Zhang, Yang Zou, Jianxi Yang, | (参考訳) 構造的健康モニタリング(SHM)は、航空宇宙、民間、機械的インフラの安全と信頼性を守るために重要である。
機械学習ベースのデータ駆動アプローチは、センサーと計算能力の進歩によりSHMで人気を博している。
しかし、SHMで使用される機械学習モデルは、敵の例に弱い -- 入力の小さな変更でさえ、異なるモデル出力につながる可能性がある。
本稿では,SHMにおける敵防衛について論じることにより,この問題に対処することを目的とする。
本稿では,防御のための対角的訓練手法を提案する。これは円損失を利用して,トレーニング中の特徴間の距離を最適化し,事例を意思決定境界から遠ざける。
この単純かつ効果的な制約を通じて,本手法は既存の防御機構を超越したモデルロバスト性を大幅に向上することを示す。
Structural health monitoring (SHM) is critical to safeguarding the safety and reliability of aerospace, civil, and mechanical infrastructure. Machine learning-based data-driven approaches have gained popularity in SHM due to advancements in sensors and computational power. However, machine learning models used in SHM are vulnerable to adversarial examples -- even small changes in input can lead to different model outputs. This paper aims to address this problem by discussing adversarial defenses in SHM. In this paper, we propose an adversarial training method for defense, which uses circle loss to optimize the distance between features in training to keep examples away from the decision boundary. Through this simple yet effective constraint, our method demonstrates substantial improvements in model robustness, surpassing existing defense mechanisms. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# ロボットマニピュレーションのための視覚前訓練における人間-ロボット領域の相違
Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation ( http://arxiv.org/abs/2406.14235v1 ) ライセンス: Link先を確認 | Jiaming Zhou, Teli Ma, Kun-Yu Lin, Ronghe Qiu, Zifan Wang, Junwei Liang, | (参考訳) 実世界のロボット操作において,様々な環境にまたがる汎用的な視覚的ダイナミック表現の学習が不可欠である。
ロボットのデモデータの規模と多様性が限られているため、最近の研究は人間のデータを用いた大規模事前学習に転換している。
しかしながら、人間とロボットの形態的差異は、人間とロボットのドメインの相違を著しく引き起こし、これらの人間のデータ事前学習モデルの下流操作タスクへの一般化に挑戦する。
そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,その相違を補う新しい適応パラダイムを提案する。
このパラダイムに従えば,人間とロボットのビデオのセマンティクスを整合させるために,ロボットとロボットのコントラストアライメントの損失を利用して,事前学習されたモデルをパラメータ効率よくロボット領域に適応させる。
実験は、単一タスク、言語条件のマルチタスク設定をカバーし、2つの異なる事前訓練されたモデルを評価する3つの異なるベンチマークで25のタスクを大幅に改善することを示した。
大規模RLBenchベンチマークでは,複数タスクにわたる事前学習R3Mモデルよりも平均8.9\%の精度向上を実現している。
受け入れ次第、コードとモデルをリリースします。
Learning generalizable visual dynamic representation across different embodied environments is crucial for real-world robotic manipulation. As the scale and diversity of robot demonstration data are limited, recent works have turned to large-scale pre-training using human data. However, the morphological differences between humans and robots introduce a significant human-robot domain discrepancy, challenging the generalization of these human-data pre-trained models to downstream manipulation tasks. To address this, we propose a novel adaptation paradigm that utilizes readily available paired human-robot video data to bridge the discrepancy. Following this paradigm, our method exploits a human-robot contrastive alignment loss to align the semantics of human and robot videos, adapting pre-trained models to the robotic domain in a parameter-efficient manner. The experiments demonstrate significant improvements on 25 tasks across three different benchmarks, where the single-task, language-conditioned multi-task settings are covered, and two different pre-trained models are evaluated. On the large RLBench benchmark, our adaptation method achieves an average improvement of $8.9\%$ in success rate over the pre-trained R3M model across multiple tasks. We will release the code and models upon acceptance. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# NAC-QFL: クラスタ化量子フェデレーションラーニング
NAC-QFL: Noise Aware Clustered Quantum Federated Learning ( http://arxiv.org/abs/2406.14236v1 ) ライセンス: Link先を確認 | Himanshu Sahu, Hari Prabhat Gupta, | (参考訳) 量子コンピューティングの最近の進歩は、量子通信の展開の成功と共に、モバイルネットワークの革新を約束している。
量子機械学習(QML)は機会を提供するが、量子デバイスにおけるノイズやスケーラビリティといった課題と競合する。
さらに、量子通信の高コストは、実世界のシナリオにおけるQMLの実践的応用を制約する。
本稿では、ノイズ緩和、量子デバイス容量の制限、分散QMLにおける高い量子通信コストに対処するノイズ対応クラスタリング量子フェデレーション学習システムを提案する。
ノイズモデリングとクラスタリングを使用して、最小限のノイズを持つデバイスを選択し、QMLタスクを効率的に配布する。
回路分割により、低ノイズデバイスに小さなモデルをデプロイし、類似デバイスを集約し、分散QML性能を高め、通信コストを削減する。
回路切断の活用により、QML技術はより小さな回路サイズと忠実度に有効である。
提案システムの性能評価のための実験的な評価を行う。
さらに,提案した精度に対するノイズの影響を示すため,QML用のノイズデータセットを導入する。
Recent advancements in quantum computing, alongside successful deployments of quantum communication, hold promises for revolutionizing mobile networks. While Quantum Machine Learning (QML) presents opportunities, it contends with challenges like noise in quantum devices and scalability. Furthermore, the high cost of quantum communication constrains the practical application of QML in real-world scenarios. This paper introduces a noise-aware clustered quantum federated learning system that addresses noise mitigation, limited quantum device capacity, and high quantum communication costs in distributed QML. It employs noise modelling and clustering to select devices with minimal noise and distribute QML tasks efficiently. Using circuit partitioning to deploy smaller models on low-noise devices and aggregating similar devices, the system enhances distributed QML performance and reduces communication costs. Leveraging circuit cutting, QML techniques are more effective for smaller circuit sizes and fidelity. We conduct experimental evaluations to assess the performance of the proposed system. Additionally, we introduce a noisy dataset for QML to demonstrate the impact of noise on proposed accuracy. | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# オブジェクト検出のための新しいスケーラブルで効率的なCNNアーキテクチャLeYOLO
LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection ( http://arxiv.org/abs/2406.14239v1 ) ライセンス: Link先を確認 | Lilian Hollard, Lucas Mohimont, Nathalie Gaveau, Luiz-Angelo Steffenel, | (参考訳) ディープニューラルネットワークの計算効率は、特に新しいモデルでは、効率的な計算(FLOP)よりも速度が優先されるため、オブジェクト検出に不可欠である。
この進化は、組み込みおよびモバイル指向のAIオブジェクト検出アプリケーションにやや遅れを取っている。
本稿では、FLOPに基づく効率的な物体検出計算のためのニューラルネットワークアーキテクチャの設計選択に焦点をあて、YOLOモデルの有効性を高めるためにいくつかの最適化を提案する。
まず、逆ボトルネックとインフォメーション・ボトルネックの原理からの理論的洞察にインスパイアされた効率的なバックボーンスケーリングを導入する。
第2に、計算資源を削減しつつ、高速なマルチスケール機能共有を容易にするために設計されたFPAN(Fast Pyramidal Architecture Network)を提案する。
最後に、分類および回帰タスクのための高速かつ軽量な計算を実現するために、デカップリングネットワークネットワーク(DNiN)検出ヘッドを提案する。
これらの最適化と、より効率的なバックボーンの活用により、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
我々の貢献は、様々な資源制約において既存のモデルより一貫して優れており、前例のない精度とフロップ比を実現している。
特に、LeYOLO-Small は COCOval 上で 4.5 FLOP(G) の38.2% の競合的な mAP スコアを達成し、最新の YOLOv9-Tiny モデルと比較して計算負荷を 42% 削減した。
我々の新しいモデルファミリーは、これまで達成されていなかったFLOP-to-accuracy比を達成し、超低速ニューラルネットワーク構成 ((<1 GFLOP) から、25.2, 31.3, 35.2, 38.2, 39.3, 41 mAP for 0.66, 1.47, 2.53, 4.51, 5.8, 8.4 FLOP(G) の効率的なオブジェクト検出セットアップ (> 4 GFLOPs) までのスケーラビリティを提供する。
Computational efficiency in deep neural networks is critical for object detection, especially as newer models prioritize speed over efficient computation (FLOP). This evolution has somewhat left behind embedded and mobile-oriented AI object detection applications. In this paper, we focus on design choices of neural network architectures for efficient object detection computation based on FLOP and propose several optimizations to enhance the efficiency of YOLO-based models. Firstly, we introduce an efficient backbone scaling inspired by inverted bottlenecks and theoretical insights from the Information Bottleneck principle. Secondly, we present the Fast Pyramidal Architecture Network (FPAN), designed to facilitate fast multiscale feature sharing while reducing computational resources. Lastly, we propose a Decoupled Network-in-Network (DNiN) detection head engineered to deliver rapid yet lightweight computations for classification and regression tasks. Building upon these optimizations and leveraging more efficient backbones, this paper contributes to a new scaling paradigm for object detection and YOLO-centric models called LeYOLO. Our contribution consistently outperforms existing models in various resource constraints, achieving unprecedented accuracy and flop ratio. Notably, LeYOLO-Small achieves a competitive mAP score of 38.2% on the COCOval with just 4.5 FLOP(G), representing a 42% reduction in computational load compared to the latest state-of-the-art YOLOv9-Tiny model while achieving similar accuracy. Our novel model family achieves a FLOP-to-accuracy ratio previously unattained, offering scalability that spans from ultra-low neural network configurations (< 1 GFLOP) to efficient yet demanding object detection setups (> 4 GFLOPs) with 25.2, 31.3, 35.2, 38.2, 39.3 and 41 mAP for 0.66, 1.47, 2.53, 4.51, 5.8 and 8.4 FLOP(G). | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# CityNav:地理情報付き言語目標航法データセット
CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information ( http://arxiv.org/abs/2406.14240v1 ) ライセンス: Link先を確認 | Jungdae Lee, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue, | (参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。
地上レベルの航法において、これらの対話的な様相を理解するためにかなりの進歩があったが、航空航法はほとんど探索されていない。
これは主に、現実世界の都市規模の航空航法研究に適した資源が不足しているためである。
このギャップを埋めるために、現実世界の都市の3Dポイントクラウド表現を用いた言語とゴールの航空ナビゲーションのための新しいデータセットであるCityNavを紹介します。
CityNavには、人間の実証軌道と組み合わせた32,637の自然言語記述が含まれており、この研究のために開発された新しいWebベースの3Dシミュレータを通して参加者から収集されている。
それぞれの説明はナビゲーションの目標を定義し、現実世界の都市内のランドマークの名前と場所を活用する。
また,記述に参照されるランドマークを表す内部2次元空間マップを組み込んだナビゲーションエージェントのベースラインモデルも提供する。
我々はCityNavデータセット上で,最新の航法ベースラインと提案したモデルについてベンチマークを行った。
このデータセットを使用した結果、以下の重要な結果が明らかになった。
一 最短経路軌跡訓練者より優れた人間の実演軌道訓練者モデルであって、人力ナビゲーション戦略の重要性を浮き彫りにしたもの。
2次元空間マップの統合は,都市規模でのナビゲーション効率を著しく向上させる。
私たちのデータセットとコードはhttps://water-cookie.github.io/city-nav-proj/で公開されています。
Vision-and-language navigation (VLN) aims to guide autonomous agents through real-world environments by integrating visual and linguistic cues. While substantial progress has been made in understanding these interactive modalities in ground-level navigation, aerial navigation remains largely underexplored. This is primarily due to the scarcity of resources suitable for real-world, city-scale aerial navigation studies. To bridge this gap, we introduce CityNav, a new dataset for language-goal aerial navigation using a 3D point cloud representation from real-world cities. CityNav includes 32,637 natural language descriptions paired with human demonstration trajectories, collected from participants via a new web-based 3D simulator developed for this research. Each description specifies a navigation goal, leveraging the names and locations of landmarks within real-world cities. We also provide baseline models of navigation agents that incorporate an internal 2D spatial map representing landmarks referenced in the descriptions. We benchmark the latest aerial navigation baselines and our proposed model on the CityNav dataset. The results using this dataset reveal the following key findings: (i) Our aerial agent models trained on human demonstration trajectories outperform those trained on shortest path trajectories, highlighting the importance of human-driven navigation strategies; (ii) The integration of a 2D spatial map significantly enhances navigation efficiency at city scale. Our dataset and code are available at https://water-cookie.github.io/city-nav-proj/ | 翻訳日:2024-06-21 14:01:46 公開日:2024-06-20 |
# AuditMAI: 継続的AI監査のためのインフラストラクチャを目指す
AuditMAI: Towards An Infrastructure for Continuous AI Auditing ( http://arxiv.org/abs/2406.14243v1 ) ライセンス: Link先を確認 | Laura Waltersdorfer, Fajar J. Ekaputra, Tomasz Miksa, Marta Sabou, | (参考訳) 人工知能(AI) オーディタビリティは、責任あるAIシステム設計を達成するための中核的な要件である。
しかし、現在のアプリケーションでは、まだ顕著な設計機能ではない。
既存のAI監査ツールは、一般的に統合機能がなく、独立したアプローチのままである。
この結果、手動、高精力、主にワンオフのAI監査が行われ、代替手法が必要になります。
金融などの他のドメインにインスパイアされた継続的AI監査は、AIシステムの定期的な評価を行うための有望な方向である。
しかし、継続的AI監査の方法は現時点ではまだ成熟していないため、問題は残る。
このギャップに対処するために、継続的AI監査に向けたインフラの青写真として意図されたAI監査可能性手法(AuditMAI)を提案する。
そこで我々はまず,文献に基づくAI監査可能性の定義を明らかにした。
第2に,継続的AI監査ツールサポートの2つの産業ユースケースから要件を抽出した。
最後に、AuditMAIを開発し、その要素を継続的AI監査インフラの青写真として論じました。
Artificial Intelligence (AI) Auditability is a core requirement for achieving responsible AI system design. However, it is not yet a prominent design feature in current applications. Existing AI auditing tools typically lack integration features and remain as isolated approaches. This results in manual, high-effort, and mostly one-off AI audits, necessitating alternative methods. Inspired by other domains such as finance, continuous AI auditing is a promising direction to conduct regular assessments of AI systems. The issue remains, however, since the methods for continuous AI auditing are not mature yet at the moment. To address this gap, we propose the Auditability Method for AI (AuditMAI), which is intended as a blueprint for an infrastructure towards continuous AI auditing. For this purpose, we first clarified the definition of AI auditability based on literature. Secondly, we derived requirements from two industrial use cases for continuous AI auditing tool support. Finally, we developed AuditMAI and discussed its elements as a blueprint for a continuous AI auditability infrastructure. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 誤り訂正符号を用いたグラフの対向摂動対策について
On countering adversarial perturbations in graphs using error correcting codes ( http://arxiv.org/abs/2406.14245v1 ) ライセンス: Link先を確認 | Saif Eddin Jabari, | (参考訳) サイバー攻撃によって生じたような敵の摂動を受けるグラフの問題は、エッジを隠蔽的に付加したり、取り除いたりすることを考える。
逆の摂動は、送信者と受信者の間のグラフの伝送中に発生する。
潜在的な摂動に対処するため,送信側が指定したバイナリノイズと受信側の多数決による繰り返し符号化方式を探索し,グラフの構造を修正した。
我々のアプローチは、攻撃の特徴を事前に知ることなく機能する。
再構成されたグラフの品質に関する確率的制約を満たすのに必要な繰り返し数に対する境界の解析的導出を提供する。
本手法は,非ランダムなエッジ除去の対象となるグラフ,すなわち固有ベクトル中心度の高い頂点に接続されたグラフを,攻撃者によるエッジのランダムな付加と除去に加えて正確に復号することができることを示す。
We consider the problem of a graph subjected to adversarial perturbations, such as those arising from cyber-attacks, where edges are covertly added or removed. The adversarial perturbations occur during the transmission of the graph between a sender and a receiver. To counteract potential perturbations, we explore a repetition coding scheme with sender-assigned binary noise and majority voting on the receiver's end to rectify the graph's structure. Our approach operates without prior knowledge of the attack's characteristics. We provide an analytical derivation of a bound on the number of repetitions needed to satisfy probabilistic constraints on the quality of the reconstructed graph. We show that the method can accurately decode graphs that were subjected to non-random edge removal, namely, those connected to vertices with the highest eigenvector centrality, in addition to random addition and removal of edges by the attacker. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 非負の普遍微分方程式とシステム生物学への応用
Non-Negative Universal Differential Equations With Applications in Systems Biology ( http://arxiv.org/abs/2406.14246v1 ) ライセンス: Link先を確認 | Maren Philipps, Antonia Körner, Jakob Vanhoefer, Dilan Pathirana, Jan Hasenauer, | (参考訳) 普遍微分方程式(UDEs)は、力学モデルと人工ニューラルネットワークのそれぞれの利点を利用して、それらを1つの動的モデルに組み合わせる。
しかし、これらのハイブリッドモデルは、生化学的量に対する負の値のような非現実的な解に悩まされることがある。
非負の値を保証する制約付き UDE 変種である非負の UDE (nUDEs) を提案する。
さらに、UDEの一般化と解釈性を改善するための正規化手法についても検討する。
Universal differential equations (UDEs) leverage the respective advantages of mechanistic models and artificial neural networks and combine them into one dynamic model. However, these hybrid models can suffer from unrealistic solutions, such as negative values for biochemical quantities. We present non-negative UDE (nUDEs), a constrained UDE variant that guarantees non-negative values. Furthermore, we explore regularisation techniques to improve generalisation and interpretability of UDEs. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# E-ANT: 効率的なGUIナビゲートのための大規模データセット
E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion ( http://arxiv.org/abs/2406.14250v1 ) ライセンス: Link先を確認 | Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu, | (参考訳) モバイルデバイス上のオンラインGUIナビゲーションは、多くの現実世界のアプリケーションに貢献しているため、近年多くの注目を集めている。
大規模言語モデル (LLM) の急速な発展に伴い,マルチモーダル・大規模言語モデル (MLLM) はこの課題に対して大きな可能性を秘めている。
しかし、既存のMLLMでは、人間の入力に応じて正確なナビゲーション決定を行う能力を向上させるために、高品質なデータが必要である。
そこで本研究では,5,000以上の小さなAPPから4万近い実人のトレースを含む,実際の人間の振る舞いと高品質なアノテーション付きスクリーンショットを含む,中国初のGUIナビゲーションデータセットとして,新鮮で高価値なデータセット「textbf{E-ANT}」を開発した。
さらに,E-ANT上での各種強力なMLLMの評価を行い,それらの実験結果を十分な精度で示す。
提案したデータセットはGUIナビゲーションとLLM/MLLM意思決定機能の評価と開発に有用であると考えている。
Online GUI navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of large language models (LLM), multimodal large language models (MLLM) have tremendous potential on this task. However, existing MLLMs need high quality data to improve its abilities of making the correct navigation decisions according to the human user inputs. In this paper, we developed a novel and highly valuable dataset, named \textbf{E-ANT}, as the first Chinese GUI navigation dataset that contains real human behaviour and high quality screenshots with annotations, containing nearly 40,000 real human traces over 5000+ different tinyAPPs. Furthermore, we evaluate various powerful MLLMs on E-ANT and show their experiments results with sufficient ablations. We believe that our proposed dataset will be beneficial for both the evaluation and development of GUI navigation and LLM/MLLM decision-making capabilities. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# QUBOおよびHOBOの定式化を超えて、量子ボソンサンプリング器におけるトラベリングセールスマン問題の解法
Beyond QUBO and HOBO formulations, solving the Travelling Salesman Problem on a quantum boson sampler ( http://arxiv.org/abs/2406.14252v1 ) ライセンス: Link先を確認 | Daniel Goldsmith, Joe Day-Evans, | (参考訳) トラベリングセールスマン問題(TSP)は重要な組合せ最適化問題であり、通常、二次的非制約二項最適化(QUBO)の定式化や高次二項最適化(HOBO)の定式化を用いて量子コンピュータ上で解かれる。
これらの定式化では、有効経路にマップされない出力に対する目的関数にペナルティ項が付加される。
量子デバイスからの全ての出力が有効な経路にマッピングされるため、設計上、ペナルティ項は存在しない。
量子ボソンサンプリング器のシミュレーションを行い、このペナルティのない定式化により、ペナルティを持つ定式化よりも大きなネットワークを解けることを示した。
シミュレーションは、初期の実験用プロトタイプ ORCA PT-1 ボソンサンプリング装置上で、罰則を付した非QUBOの定式化を実行することで、ハードウェアに変換された。
ボソンサンプルを用いて研究を行ったが、この新しい定式化は他の量子デバイスと関係があると信じている。
この研究は、組合せ最適化問題に対する優れた埋め込みが、同じ量子コンピューティングリソースでより大きな問題を解決することを示している。
ボソンサンプリング量子デバイスの柔軟性は、出力文字列が常に有効な解にマッピングされるような定式化を可能にするため、組合せ最適化問題を解決するための強力な資産である。
The Travelling Salesman Problem (TSP) is an important combinatorial optimisation problem, and is usually solved on a quantum computer using a Quadratic Unconstrained Binary Optimisation (QUBO) formulation or a Higher Order Binary Optimisation(HOBO) formulation. In these formulations, penalty terms are added to the objective function for outputs that don't map to valid routes. We present a novel formulation which needs fewer binary variables, and where, by design, there are no penalty terms because all outputs from the quantum device are mapped to valid routes. Simulations of a quantum boson sampler were carried out which demonstrate that larger networks can be solved with this penalty-free formulation than with formulations with penalties. Simulations were successfully translated to hardware by running a non-QUBO formulation with penalties on an early experimental prototype ORCA PT-1 boson sampler. Although we worked with a boson sampler, we believe that this novel formulation is relevant to other quantum devices. This work shows that a good embedding for combinatorial optimisation problems can solve larger problems with the same quantum computing resource. The flexibility of boson sampling quantum devices is a powerful asset in solving combinatorial optimisation problem, because it enables formulations where the output string is always mapped to a valid solution, avoiding the need for penalties. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# DuMapNet: 都市規模レーンレベルマップ生成のためのエンド・ツー・エンドベクトル化システム
DuMapNet: An End-to-End Vectorization System for City-Scale Lane-Level Map Generation ( http://arxiv.org/abs/2406.14255v1 ) ライセンス: Link先を確認 | Deguo Xia, Weiming Zhang, Xiyan Liu, Wei Zhang, Chenting Gong, Jizhou Huang, Mengmeng Yang, Diange Yang, | (参考訳) 都市規模の車線マップの生成は、ぼやけや不在車線マークなどの複雑な都市環境のために大きな課題に直面している。
さらに、標準的なレーンレベルマップでは、車線方向、スタイル、境界、トポロジーを含む車線群を包括的に整理する必要があるが、以前の研究では徹底的に検討されていない。
これらの障害は、労働集約的な人的アノテーションと高いメンテナンスコストをもたらす。
本稿では,これらの制約を克服し,標準化されたベクトル化マップ要素とそのトポロジをエンドツーエンドパラダイムで出力するDuMapNetという産業レベルのソリューションを提案する。
そこで本研究では,変圧器ネットワークを巧みに調整することで,車線群のベクトル化結果を出力するグループワイド車線予測システムを提案する。
一方,道路摩耗や閉塞といった難易度の高いシナリオの一般化を図り,グローバルな整合性を向上させるため,空間近傍の予測結果を文脈情報として活用する文脈的プロンプトエンコーダ(CPE)モジュールを提案する。
大規模な実世界のデータセットで実施された大規模な実験は、DuMapNetの優位性と有効性を示している。
さらに、DuMap-Netは2023年6月からBaidu Mapsで運用されており、360以上の都市でレーンレベルのマップ生成タスクをサポートし、95%のコスト削減を実現している。
このことは、DuMapNetが都市規模レーンレベルの地図生成のための実用的で費用対効果の高い産業ソリューションであることを示している。
Generating city-scale lane-level maps faces significant challenges due to the intricate urban environments, such as blurred or absent lane markings. Additionally, a standard lane-level map requires a comprehensive organization of lane groupings, encompassing lane direction, style, boundary, and topology, yet has not been thoroughly examined in prior research. These obstacles result in labor-intensive human annotation and high maintenance costs. This paper overcomes these limitations and presents an industrial-grade solution named DuMapNet that outputs standardized, vectorized map elements and their topology in an end-to-end paradigm. To this end, we propose a group-wise lane prediction (GLP) system that outputs vectorized results of lane groups by meticulously tailoring a transformer-based network. Meanwhile, to enhance generalization in challenging scenarios, such as road wear and occlusions, as well as to improve global consistency, a contextual prompts encoder (CPE) module is proposed, which leverages the predicted results of spatial neighborhoods as contextual information. Extensive experiments conducted on large-scale real-world datasets demonstrate the superiority and effectiveness of DuMapNet. Additionally, DuMap-Net has already been deployed in production at Baidu Maps since June 2023, supporting lane-level map generation tasks for over 360 cities while bringing a 95% reduction in costs. This demonstrates that DuMapNet serves as a practical and cost-effective industrial solution for city-scale lane-level map generation. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# MEAT:ロバスト性向上と一般化のためのメディアアンサンブル対人訓練
MEAT: Median-Ensemble Adversarial Training for Improving Robustness and Generalization ( http://arxiv.org/abs/2406.14259v1 ) ライセンス: Link先を確認 | Zhaozhe Hu, Jia-Li Yin, Bin Chen, Luojun Lin, Bo-Hao Chen, Ximeng Liu, | (参考訳) 自己アンサンブル対逆訓練法は、モデルウェイト平均化(WA)など、異なる訓練エポックにおけるモデルのアンサンブルにより、モデルロバスト性を改善する。
しかし, 従来の研究では, 対人訓練(AT)における自己アンサンブル防御法は, 依然として頑健なオーバーフィッティングに悩まされており, 一般化性能に深刻な影響を及ぼすことが示されている。
経験的に、トレーニングの後期段階では、ATは重量平均値の個人が過度に適合し、異常な重量値を生み出す程度に過度に適合するようになり、その結果、自己アンサンブルモデルが重量異常の除去に失敗したため、頑健な過度なオーバーフィッティングを継続する。
この問題を解決するため,本研究では, 既往のモデル重みの中央値を求めることで, 自己アンサンブル防衛に存在する強靭な過適合現象を解決するための, 操作が容易かつ効果的なメディア・アンサンブル・アドバイザリ・トレーニング(MEAT)手法を提案する。
実験の結果,MEATは強力なAutoAttackに対して最高のロバスト性を達成し,ロバストなオーバーフィッティングを効果的に軽減できることがわかった。
さらに,ほとんどの防衛手法はMEATと組み合わせることで,ロバストな一般化とロバスト性を向上させることができることを示す。
Self-ensemble adversarial training methods improve model robustness by ensembling models at different training epochs, such as model weight averaging (WA). However, previous research has shown that self-ensemble defense methods in adversarial training (AT) still suffer from robust overfitting, which severely affects the generalization performance. Empirically, in the late phases of training, the AT becomes more overfitting to the extent that the individuals for weight averaging also suffer from overfitting and produce anomalous weight values, which causes the self-ensemble model to continue to undergo robust overfitting due to the failure in removing the weight anomalies. To solve this problem, we aim to tackle the influence of outliers in the weight space in this work and propose an easy-to-operate and effective Median-Ensemble Adversarial Training (MEAT) method to solve the robust overfitting phenomenon existing in self-ensemble defense from the source by searching for the median of the historical model weights. Experimental results show that MEAT achieves the best robustness against the powerful AutoAttack and can effectively allievate the robust overfitting. We further demonstrate that most defense methods can improve robust generalization and robustness by combining with MEAT. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 教師なしビデオパーソン再同定のためのトラッカーレットの可能性の解き放つ
Unleashing the Potential of Tracklets for Unsupervised Video Person Re-Identification ( http://arxiv.org/abs/2406.14261v1 ) ライセンス: Link先を確認 | Nanxing Meng, Qizao Wang, Bin Li, Xiangyang Xue, | (参考訳) 豊かな時間空間情報により、映像に基づく人物再同定手法は幅広い可能性を示している。
トラックレットは用意された追跡モデルで容易に得ることができるが、注釈付きIDは高価で実用的ではない。
そのため、いくつかのビデオベース手法では、機能学習を容易にするために、いくつかのアイデンティティアノテーションやカメララベルのみを使用することを提案する。
また、各トラックレットのフレーム特性を平均化し、予期せぬ変動とトラックレット内の固有のアイデンティティ一貫性を見落としている。
本稿では,教師なしビデオ人物の再識別を促進するため,アノテーションや補助情報に頼ることなく,自己改善型クラスタリング(SSR-C)フレームワークを提案する。
具体的には、ノイズフィルタトラックレット分割(NFTP)モジュールを提案し、ノイズフィルタトラックレットを「サブトラックレット」に順次分割する。
そして、トラストレットパーティションからの自己指示信号を用いてサブトラックレットをクラスタ化し、さらにマージし、プログレッシブ戦略により拡張し、信頼性の高い擬似ラベルを生成し、クラス内のクロストラックレットアグリゲーションを容易にする。
さらに,モデル学習を効率的に促進するクラス平滑化分類(CSC)の損失を提案する。
MARSとDukeMTMC-VideoReIDデータセットの大規模な実験により、教師なしの人物再識別のためのSSR-Cが最先端の教師付き手法に匹敵する結果が得られた。
With rich temporal-spatial information, video-based person re-identification methods have shown broad prospects. Although tracklets can be easily obtained with ready-made tracking models, annotating identities is still expensive and impractical. Therefore, some video-based methods propose using only a few identity annotations or camera labels to facilitate feature learning. They also simply average the frame features of each tracklet, overlooking unexpected variations and inherent identity consistency within tracklets. In this paper, we propose the Self-Supervised Refined Clustering (SSR-C) framework without relying on any annotation or auxiliary information to promote unsupervised video person re-identification. Specifically, we first propose the Noise-Filtered Tracklet Partition (NFTP) module to reduce the feature bias of tracklets caused by noisy tracking results, and sequentially partition the noise-filtered tracklets into "sub-tracklets". Then, we cluster and further merge sub-tracklets using the self-supervised signal from tracklet partition, which is enhanced through a progressive strategy to generate reliable pseudo labels, facilitating intra-class cross-tracklet aggregation. Moreover, we propose the Class Smoothing Classification (CSC) loss to efficiently promote model learning. Extensive experiments on the MARS and DukeMTMC-VideoReID datasets demonstrate that our proposed SSR-C for unsupervised video person re-identification achieves state-of-the-art results and is comparable to advanced supervised methods. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 高分解能電子顕微鏡のためのゼロショット撮像
Zero-Shot Image Denoising for High-Resolution Electron Microscopy ( http://arxiv.org/abs/2406.14264v1 ) ライセンス: Link先を確認 | Xuanyu Tian, Zhuoya Dong, Xiyue Lin, Yue Gao, Hongjiang Wei, Yanhang Ma, Jingyi Yu, Yuyao Zhang, | (参考訳) 高分解能電子顕微鏡(HREM)イメージング技術は、広い範囲の物質を直接リアルタイムに可視化するための強力なツールである。
しかし、超低信号-雑音比(SNR)とデータ可用性の不足により、雑音化の課題に直面している。
本研究では,HREMのためのゼロショット自己教師型学習(ZS-SSL)フレームワークであるNoss2SRを提案する。
フレームワーク内ではRandom Sub-Samplerモジュールを組み込んだ超解像度(SR)ベースの自己教師型トレーニング戦略を提案する。
Random Sub-samplerは、1つのノイズ画像から近似無限雑音対を生成するように設計されており、ゼロショット復調における効果的なデータ拡張として機能する。
ノイズ2SRは、SR戦略を介して異なる解像度のペアのノイズ画像でネットワークを訓練する。
SRベースのトレーニングにより、ネットワークは監視のためにより多くのピクセルを採用することができ、ランダムなサブサンプリングはネットワークにロバスト性を高める連続的な信号の学習を強制するのに役立つ。
一方,最小平均二乗誤差 (MMSE) を復号化結果に適用することにより,ランダムサンプリングによる不確実性を緩和する。
トレーニング戦略と提案した設計の独特な統合により、ノイズ2SRは単一ノイズHREM画像を用いて優れたノイズ除去性能を達成できる。
実物と実物の両方のHREM復調作業におけるノイズ2SRの性能を評価する。
最先端のZS-SSLメソッドより優れており、教師付きメソッドで同等の性能を発揮する。
ノイズ2SRの成功は、物質イメージング領域における画像のSNRを改善する可能性を示唆している。
High-resolution electron microscopy (HREM) imaging technique is a powerful tool for directly visualizing a broad range of materials in real-space. However, it faces challenges in denoising due to ultra-low signal-to-noise ratio (SNR) and scarce data availability. In this work, we propose Noise2SR, a zero-shot self-supervised learning (ZS-SSL) denoising framework for HREM. Within our framework, we propose a super-resolution (SR) based self-supervised training strategy, incorporating the Random Sub-sampler module. The Random Sub-sampler is designed to generate approximate infinite noisy pairs from a single noisy image, serving as an effective data augmentation in zero-shot denoising. Noise2SR trains the network with paired noisy images of different resolutions, which is conducted via SR strategy. The SR-based training facilitates the network adopting more pixels for supervision, and the random sub-sampling helps compel the network to learn continuous signals enhancing the robustness. Meanwhile, we mitigate the uncertainty caused by random-sampling by adopting minimum mean squared error (MMSE) estimation for the denoised results. With the distinctive integration of training strategy and proposed designs, Noise2SR can achieve superior denoising performance using a single noisy HREM image. We evaluate the performance of Noise2SR in both simulated and real HREM denoising tasks. It outperforms state-of-the-art ZS-SSL methods and achieves comparable denoising performance with supervised methods. The success of Noise2SR suggests its potential for improving the SNR of images in material imaging domains. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# VeriFlow:ニューラルネットワーク検証のための分散のモデル化
VeriFlow: Modeling Distributions for Neural Network Verification ( http://arxiv.org/abs/2406.14265v1 ) ライセンス: Link先を確認 | Faried Abu Zaid, Daniel Neider, Mustafa Yalçıner, | (参考訳) フォーマル検証は、ニューラルネットワークの安全性と信頼性を保証するための有望な方法として登場した。
安全性を否定的に検証することは、トレーニングやテストセットに関係なく、入力空間全体のニューラルネットワークの安全性を保証する。
しかし、これはまた、ニューラルネットワークの安全性が現実世界で発生せず、意味が全くない入力に対してもチェックされ、しばしば急激なエラーを引き起こすことを意味する。
この欠点に対処するために,検証手法が関心のあるデータ分布に限定できるように,フローベース密度モデルとしてVeriFlowアーキテクチャを提案する。
アーキテクチャは2つの主要な特性のため、この目的に特に適している、と私たちは主張する。
まず、我々のモデルで定義される変換と対数密度関数が断片的アフィンであることを示す。
したがって、このモデルは線形算術を用いたSMTに基づく検証器の使用を可能にする。
第2に、データ分布の上位密度レベルセット(UDL)は、潜在空間における$L^p$-ボールの形を取る。
結果として、与えられた確率で指定されたUDLの表現は、潜在空間において効果的に計算可能である。
これにより、(a)検証対象の入力がどのように典型的であるかに関して、細粒度で確率論的に解釈可能なSMTおよび抽象解釈アプローチが可能になる。
Formal verification has emerged as a promising method to ensure the safety and reliability of neural networks. Naively verifying a safety property amounts to ensuring the safety of a neural network for the whole input space irrespective of any training or test set. However, this also implies that the safety of the neural network is checked even for inputs that do not occur in the real-world and have no meaning at all, often resulting in spurious errors. To tackle this shortcoming, we propose the VeriFlow architecture as a flow based density model tailored to allow any verification approach to restrict its search to the some data distribution of interest. We argue that our architecture is particularly well suited for this purpose because of two major properties. First, we show that the transformation and log-density function that are defined by our model are piece-wise affine. Therefore, the model allows the usage of verifiers based on SMT with linear arithmetic. Second, upper density level sets (UDL) of the data distribution take the shape of an $L^p$-ball in the latent space. As a consequence, representations of UDLs specified by a given probability are effectively computable in latent space. This allows for SMT and abstract interpretation approaches with fine-grained, probabilistically interpretable, control regarding on how (a)typical the inputs subject to verification are. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# Intelligent Interface: ディクチュアル・アクティビティ・サマリーによる講義促進
Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries ( http://arxiv.org/abs/2406.14266v1 ) ライセンス: Link先を確認 | Anna Wróblewska, Marcel Witas, Kinga Frańczak, Arkadiusz Kniaź, Siew Ann Cheong, Tan Seng Chee, Janusz Hołyst, Marcin Paprzycki, | (参考訳) 近年,機械学習の複数の応用が紹介されている。
画像解析手法が広範に理解されたビデオストリームに適用された場合に生じる様々な可能性を含む。
この文脈では、講義の自動化、要約、迅速なフィードバックを提供することで、教育者の指導プロセスを強化するための新しいツールが開発されている。
実装されたプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。
具体的には、ユーザー(教師)は、機械学習モデルを使用して事前処理され分析される講義ビデオをアップロードすることができる。
次に、インタラクティブなチャートやテーブルを通じて、認識された実践的機能の要約を見ることができる。
さらに、記憶されたMLベースの予測結果は、その教科内容に基づいた講義間の比較を支援する。
講義の書き起こしを訓練したアプリケーションにおいて、自動音声認識ソリューションを採用することにより、書き起こし品質を向上したテキストベースモデルを適用した。
さらに、このシステムは、新しい/追加機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
Recently, multiple applications of machine learning have been introduced. They include various possibilities arising when image analysis methods are applied to, broadly understood, video streams. In this context, a novel tool, developed for academic educators to enhance the teaching process by automating, summarizing, and offering prompt feedback on conducting lectures, has been developed. The implemented prototype utilizes machine learning-based techniques to recognise selected didactic and behavioural teachers' features within lecture video recordings. Specifically, users (teachers) can upload their lecture videos, which are preprocessed and analysed using machine learning models. Next, users can view summaries of recognized didactic features through interactive charts and tables. Additionally, stored ML-based prediction results support comparisons between lectures based on their didactic content. In the developed application text-based models trained on lecture transcriptions, with enhancements to the transcription quality, by adopting an automatic speech recognition solution are applied. Furthermore, the system offers flexibility for (future) integration of new/additional machine-learning models and software modules for image and video analysis. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 多言語NLPにおける評価実践について:機械翻訳は人間翻訳の代替となるか?
On the Evaluation Practices in Multilingual NLP: Can Machine Translation Offer an Alternative to Human Translations? ( http://arxiv.org/abs/2406.14267v1 ) ライセンス: Link先を確認 | Rochelle Choenni, Sara Rajaee, Christof Monz, Ekaterina Shutova, | (参考訳) 多言語言語モデル(MLM)は100以上の言語で訓練されているが、ほとんどの言語で利用可能なテストデータが不足しているため、通常は少数の言語でのみ評価される。
これはMLMの低リソース言語や見当たらない言語の可能性を評価する際に特に問題となる。
本稿では,多言語NLPにおける既存の評価フレームワークの分析を行い,その限界について議論し,より堅牢で信頼性の高い評価手法を提案する。
さらに,機械翻訳が多言語にわたるMLMを大規模に評価するために,機械翻訳がいかに人間の翻訳に頼りやすい代替手段を提供するかを実証的に研究する。
我々は、SOTA翻訳モデルを用いて、4つのタスクから198言語へのテストデータを変換し、3つのMLMを評価する。
我々は、高リソーステスト言語の中から選択したサブセットが、一般的に、より広範囲の高リソース言語を十分に表しているが、低リソース言語におけるMLMの能力を過大評価する傾向にあることを示した。
最後に,より単純なベースラインは,大規模多言語事前学習の恩恵を受けずに比較的高い性能が得られることを示す。
While multilingual language models (MLMs) have been trained on 100+ languages, they are typically only evaluated across a handful of them due to a lack of available test data in most languages. This is particularly problematic when assessing MLM's potential for low-resource and unseen languages. In this paper, we present an analysis of existing evaluation frameworks in multilingual NLP, discuss their limitations, and propose several directions for more robust and reliable evaluation practices. Furthermore, we empirically study to what extent machine translation offers a {reliable alternative to human translation} for large-scale evaluation of MLMs across a wide set of languages. We use a SOTA translation model to translate test data from 4 tasks to 198 languages and use them to evaluate three MLMs. We show that while the selected subsets of high-resource test languages are generally sufficiently representative of a wider range of high-resource languages, we tend to overestimate MLMs' ability on low-resource languages. Finally, we show that simpler baselines can achieve relatively strong performance without having benefited from large-scale multilingual pretraining. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 高精度行列推定におけるホースシューを用いたスパースベイズ模型の濃度
Concentration of a sparse Bayesian model with Horseshoe prior in estimating high-dimensional precision matrix ( http://arxiv.org/abs/2406.14269v1 ) ライセンス: Link先を確認 | The Tien Mai, | (参考訳) 精度行列は、ソーシャルネットワーク、神経科学、経済学などの多くの分野において重要であり、ガウス図形モデル(GGM)のエッジ構造を表す。
精度行列の寸法がサンプルサイズ$n$を超え、行列が疎い高次元設定では、グラフィカルなLasso、グラフィカルなSCAD、CLIMEなどの手法がGGMの推定に人気である。
頻繁な手法はよく研究されているが、(非構造的な)スパース精度行列に対するベイズ的アプローチはあまり研究されていない。
グローバル・ローカル・ホースシューに先立って適用した \citet{li2019graphical} によるグラフィカル・ホースシュー推定は, より優れた経験的性能を示すが, 縮小事前を用いたスパース精度行列推定に関する理論的研究は限られている。
本論文は, 高次元環境下で, 完全に特定されたホースシューを用いた後部温室効果ガスの濃縮結果を提供することにより, これらのギャップを解消するものである。
さらに, モデルミス種別に関する新たな理論的結果も提供し, 後肢に一般的なオラクルの不等式を提供する。
Precision matrices are crucial in many fields such as social networks, neuroscience, and economics, representing the edge structure of Gaussian graphical models (GGMs), where a zero in an off-diagonal position of the precision matrix indicates conditional independence between nodes. In high-dimensional settings where the dimension of the precision matrix $p$ exceeds the sample size $n$ and the matrix is sparse, methods like graphical Lasso, graphical SCAD, and CLIME are popular for estimating GGMs. While frequentist methods are well-studied, Bayesian approaches for (unstructured) sparse precision matrices are less explored. The graphical horseshoe estimate by \citet{li2019graphical}, applying the global-local horseshoe prior, shows superior empirical performance, but theoretical work for sparse precision matrix estimations using shrinkage priors is limited. This paper addresses these gaps by providing concentration results for the tempered posterior with the fully specified horseshoe prior in high-dimensional settings. Moreover, we also provide novel theoretical results for model misspecification, offering a general oracle inequality for the posterior. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# MultiTalk: 多言語ビデオデータセットを用いた言語間における3Dトーキングヘッドジェネレーションの強化
MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset ( http://arxiv.org/abs/2406.14272v1 ) ライセンス: Link先を確認 | Kim Sung-Bin, Lee Chae-Yeon, Gihun Son, Oh Hyun-Bin, Janghoon Ju, Suekyeong Nam, Tae-Hyun Oh, | (参考訳) 近年の音声駆動型3次元音声ヘッド生成の研究は, 音声調音において有意な成果を上げている。
しかし、他の言語の入力音声に適用した場合、正確なリップシンクを生成することは、おそらく言語間での顔の動きの幅広い範囲をカバーするデータセットが欠如しているため、劣化する。
本研究では,多様な言語の音声から3D音声の頭部を生成する新しいタスクを提案する。
我々は,20言語で420時間以上の会話ビデオからなる,多言語2Dビデオデータセットを新たに収集した。
提案したデータセットでは,言語固有のスタイルの埋め込みを組み込んだ多言語拡張モデルが提案され,各言語に関連する独特の口の動きを捉えることができる。
さらに,多言語設定におけるリップシンクの精度を評価する指標を提案する。
提案したデータセットを用いて3次元音声ヘッドモデルのトレーニングを行うことで,多言語性能が著しく向上することが実証された。
コードとデータセットはhttps://multi-talk.github.io/.com/で公開されている。
Recent studies in speech-driven 3D talking head generation have achieved convincing results in verbal articulations. However, generating accurate lip-syncs degrades when applied to input speech in other languages, possibly due to the lack of datasets covering a broad spectrum of facial movements across languages. In this work, we introduce a novel task to generate 3D talking heads from speeches of diverse languages. We collect a new multilingual 2D video dataset comprising over 420 hours of talking videos in 20 languages. With our proposed dataset, we present a multilingually enhanced model that incorporates language-specific style embeddings, enabling it to capture the unique mouth movements associated with each language. Additionally, we present a metric for assessing lip-sync accuracy in multilingual settings. We demonstrate that training a 3D talking head model with our proposed dataset significantly enhances its multilingual performance. Codes and datasets are available at https://multi-talk.github.io/. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 失業感と意味の認知に及ぼすAIの影響 : 事例研究
The Impact of AI on Perceived Job Decency and Meaningfulness: A Case Study ( http://arxiv.org/abs/2406.14273v1 ) ライセンス: Link先を確認 | Kuntal Ghosh, Shadan Sadeghian, | (参考訳) 職場における人工知能(AI)の拡散は、人間の働き方を変え、仕事の満足度は本質的に仕事の生活に結びついている。
既存の人間とAIのコラボレーションに関する研究は、経験的側面よりもパフォーマンスを優先する傾向があります。
対照的に、職場におけるAIが仕事の怠慢と有意義性に与える影響について考察する。
情報技術(IT)分野におけるインタビューを通じて、現在の作業環境だけでなく、AIの導入による職場環境の進化についても検討した。
予備的な調査の結果、回答者は高度なAIを導入しても人間が支配的な役割を担い続ける職場を可視化する傾向にあることが明らかになった。
この将来的なシナリオでは、AIは人間の労働力を置き換えるのではなく、補完的な役割を果たしていると見なされている。
さらに、回答者はAIの導入が全体の仕事満足度を維持するか、あるいは向上する可能性があると信じている。
The proliferation of Artificial Intelligence (AI) in workplaces stands to change the way humans work, with job satisfaction intrinsically linked to work life. Existing research on human-AI collaboration tends to prioritize performance over the experiential aspects of work. In contrast, this paper explores the impact of AI on job decency and meaningfulness in workplaces. Through interviews in the Information Technology (IT) domain, we not only examined the current work environment, but also explored the perceived evolution of the workplace ecosystem with the introduction of an AI. Findings from the preliminary exploratory study reveal that respondents tend to visualize a workplace where humans continue to play a dominant role, even with the introduction of advanced AIs. In this prospective scenario, AI is seen as serving as a complement rather than replacing the human workforce. Furthermore, respondents believe that the introduction of AI will maintain or potentially increase overall job satisfaction. | 翻訳日:2024-06-21 13:52:01 公開日:2024-06-20 |
# 知識の発見を学習する - 弱めに監督された部分的ドメイン適応アプローチ
Learning to Discover Knowledge: A Weakly-Supervised Partial Domain Adaptation Approach ( http://arxiv.org/abs/2406.14274v1 ) ライセンス: Link先を確認 | Mengcheng Lan, Min Meng, Jun Yu, Jigang Wu, | (参考訳) ドメイン適応は、リッチアノテーションでソースドメインからの知識を活用することで、魅力的なパフォーマンスを示している。
しかし、特定の目標タスクに対して、関連するおよび高品質なソースドメインを収集することは困難である。
実世界のシナリオでは、ノイズラベルで破損した大規模データセットの収集が容易であり、一般化された環境での自動認識に対する大きな需要、すなわちラベルにノイズが入った大きなソースドメインから小さな未ラベルのターゲットドメインに分類器を転送する弱い教師付き部分的ドメイン適応(WS-PDA)を刺激する。
したがって、WS-PDAの主な問題は次のとおりである。
1)ノイズのあるラベル付きソースドメインとラベルなしターゲットドメインから十分な知識の発見方法
2)ドメイン間の知識をうまく適応させる方法。
本稿では,これらの課題に対処するために,自己ペースト転送分類器学習(SP-TCL)と呼ばれるシンプルなドメイン適応手法を提案する。
提案手法は,対象領域に対して好ましい分類器を求める自己評価学習方式に基づいて構築される。
具体的には、SP-TCLは、慎重に設計された思慮的損失関数を通じて忠実な知識を発見し、学習した知識を目標領域に同時に適応させる。
複数のベンチマークデータセットに対する広範囲な評価は、SP-TCLがいくつかの一般化されたドメイン適応タスクにおける最先端のアプローチを著しく上回っていることを示している。
Domain adaptation has shown appealing performance by leveraging knowledge from a source domain with rich annotations. However, for a specific target task, it is cumbersome to collect related and high-quality source domains. In real-world scenarios, large-scale datasets corrupted with noisy labels are easy to collect, stimulating a great demand for automatic recognition in a generalized setting, i.e., weakly-supervised partial domain adaptation (WS-PDA), which transfers a classifier from a large source domain with noises in labels to a small unlabeled target domain. As such, the key issues of WS-PDA are: 1) how to sufficiently discover the knowledge from the noisy labeled source domain and the unlabeled target domain, and 2) how to successfully adapt the knowledge across domains. In this paper, we propose a simple yet effective domain adaptation approach, termed as self-paced transfer classifier learning (SP-TCL), to address the above issues, which could be regarded as a well-performing baseline for several generalized domain adaptation tasks. The proposed model is established upon the self-paced learning scheme, seeking a preferable classifier for the target domain. Specifically, SP-TCL learns to discover faithful knowledge via a carefully designed prudent loss function and simultaneously adapts the learned knowledge to the target domain by iteratively excluding source examples from training under the self-paced fashion. Extensive evaluations on several benchmark datasets demonstrate that SP-TCL significantly outperforms state-of-the-art approaches on several generalized domain adaptation tasks. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# ステップバックプロファイリング:パーソナライズされた科学書記のためのユーザ履歴の蒸留
Step-Back Profiling: Distilling User History for Personalized Scientific Writing ( http://arxiv.org/abs/2406.14275v1 ) ライセンス: Link先を確認 | Xiangru Tang, Xingyao Zhang, Yanjun Shao, Jie Wu, Yilun Zhao, Arman Cohan, Ming Gong, Dongmei Zhang, Mark Gerstein, | (参考訳) 大きな言語モデル(LLM)は、様々な自然言語処理タスクに優れていますが、特に科学的な記述のような現実のシナリオにおいて、個人のためにパーソナライズされたコンテンツを生成するのに苦労しています。
この課題に対処するために、ユーザ履歴を簡潔なプロファイルに抽出し、ユーザの本質的な特徴や好みを含むLCMをパーソナライズするステップバックプロファイリングを導入する。
実験では、マルチユーザパーソナライゼーションを研究するために、パーソナライズド・サイエント・ライティング(PSW)データセットを構築した。
PSWは、様々な学術的背景を持つ専門的な著者グループに与えられた科学論文を書くためにモデルを必要とする。
その結果,共同作成のためのStep-Back Profilingによるユーザ特性のキャプチャの有効性を実証した。
さらに,7つのパーソナライズLDMタスクを含む一般パーソナライズベンチマーク(LaMP)において,ベースラインを最大3.6ポイント向上させる。
広範囲にわたるアブレーション研究は、我々の方法における様々なコンポーネントの貢献を検証し、タスク定義に対する洞察を提供する。
データセットとコードは、 \url{https://github.com/gersteinlab/step-back-profiling}で利用可能です。
Large language models (LLMs) excel at a variety of natural language processing tasks, yet they struggle to generate personalized content for individuals, particularly in real-world scenarios like scientific writing. Addressing this challenge, we introduce Step-Back Profiling to personalize LLMs by distilling user history into concise profiles, including essential traits and preferences of users. Regarding our experiments, we construct a Personalized Scientific Writing (PSW) dataset to study multiuser personalization. PSW requires the models to write scientific papers given specialized author groups with diverse academic backgrounds. As for the results, we demonstrate the effectiveness of capturing user characteristics via Step-Back Profiling for collaborative writing. Moreover, our approach outperforms the baselines by up to 3.6 points on the general personalization benchmark (LaMP), including 7 personalization LLM tasks. Our extensive ablation studies validate the contributions of different components in our method and provide insights into our task definition. Our dataset and code are available at \url{https://github.com/gersteinlab/step-back-profiling}. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# LLMを用いた検索用検索用クエリとパスの拡充による質問応答
Augmenting Query and Passage for Retrieval-Augmented Generation using LLMs for Open-Domain Question Answering ( http://arxiv.org/abs/2406.14277v1 ) ライセンス: Link先を確認 | Minsang Kim, Cheoneum Park, Seungjun Baek, | (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)のパラメトリック知識を補う手段として、オープンドメイン質問応答(ODQA)タスクに多くの注目を集めている。
従来のアプローチでは、無関係なコンテキストを取り除くために検索されたパスの処理に重点を置いていたが、質問があいまいな場合や複雑である場合、検索されたパスの品質に大きく依存していた。
本稿では,オープンドメインQAのためのLLMによる質問と通過の増大という,シンプルで効率的な手法を提案する。
提案手法はまず,元の質問を複数段階のサブクエストに分解する。
質問を詳細なサブクエストとプランニングで強化することにより、検索対象についてより具体的なクエリを作成できるようになり、検索性能が向上する。
また,抽出された通路に注意を散らす情報や意見の分割を含む場合の補償として,LLMによる自己生成通路を付加し,回答抽出を指導する。
実験結果から,提案手法は従来のRAG法よりも高い性能向上を実現していることがわかった。
Retrieval-augmented generation (RAG) has received much attention for Open-domain question-answering (ODQA) tasks as a means to compensate for the parametric knowledge of large language models (LLMs). While previous approaches focused on processing retrieved passages to remove irrelevant context, they still rely heavily on the quality of retrieved passages which can degrade if the question is ambiguous or complex. In this paper, we propose a simple yet efficient method called question and passage augmentation via LLMs for open-domain QA. Our method first decomposes the original questions into multiple-step sub-questions. By augmenting the original question with detailed sub-questions and planning, we are able to make the query more specific on what needs to be retrieved, improving the retrieval performance. In addition, to compensate for the case where the retrieved passages contain distracting information or divided opinions, we augment the retrieved passages with self-generated passages by LLMs to guide the answer extraction. Experimental results show that the proposed scheme outperforms the previous state-of-the-art and achieves significant performance gain over existing RAG methods. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# FairX: フェアネス、ユーティリティ、説明可能性を用いたモデル解析のための総合的なベンチマークツール
FairX: A comprehensive benchmarking tool for model analysis using fairness, utility, and explainability ( http://arxiv.org/abs/2406.14281v1 ) ライセンス: Link先を確認 | Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz, | (参考訳) FairXはオープンソースのPythonベースのベンチマークツールで、フェアネス、ユーティリティ、eXplainability(XAI)という傘の下で、モデルを包括的に分析するように設計されています。
FairXは、ベンチマークのバイアス除去モデルをトレーニングし、さまざまな公正度メトリクス、データユーティリティメトリクスを使用して公正性を評価し、統一されたフレームワーク内でモデル予測の説明を生成する。
既存のベンチマークツールには、公正な生成モデルから生成された合成データを評価する方法はなく、公正な生成モデルのトレーニングもサポートしていない。
FairXでは、フェアモデルライブラリ(前処理、内処理、後処理)のコレクションに公正な生成モデルを加え、合成フェアデータの品質を評価するための評価指標を加えます。
このバージョンのFairXは、表と画像の両方のデータセットをサポートする。
また、ユーザーは独自のカスタムデータセットを提供することもできる。
FairXベンチマークパッケージはhttps://github.com/fahim-sikder/FairXで公開されている。
We present FairX, an open-source Python-based benchmarking tool designed for the comprehensive analysis of models under the umbrella of fairness, utility, and eXplainability (XAI). FairX enables users to train benchmarking bias-removal models and evaluate their fairness using a wide array of fairness metrics, data utility metrics, and generate explanations for model predictions, all within a unified framework. Existing benchmarking tools do not have the way to evaluate synthetic data generated from fair generative models, also they do not have the support for training fair generative models either. In FairX, we add fair generative models in the collection of our fair-model library (pre-processing, in-processing, post-processing) and evaluation metrics for evaluating the quality of synthetic fair data. This version of FairX supports both tabular and image datasets. It also allows users to provide their own custom datasets. The open-source FairX benchmarking package is publicly available at https://github.com/fahim-sikder/FairX. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# 知識グラフを用いた検索型大規模言語モデル構築のための学習
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs ( http://arxiv.org/abs/2406.14282v1 ) ライセンス: Link先を確認 | Junjie Wang, Mingyang Chen, Binbin Hu, Dan Yang, Ziqi Liu, Yue Shen, Peng Wei, Zhiqiang Zhang, Jinjie Gu, Jun Zhou, Jeff Z. Pan, Wen Zhang, Huajun Chen, | (参考訳) 複雑な質問応答(QA)シナリオにおける大規模言語モデル(LLM)の性能向上は、常に研究の焦点となっている。
近年,ステップワイズ計画と外部検索を組み合わせたLCMの性能向上が試みられている。
GPT-3.5のような先進的なモデルでは有効であるが、より小さなLCMは複雑な問題を分解し、教師付き微調整を必要とする。
これまでの研究は、教師のLSMから手作業による注釈と知識の蒸留に依存してきた。
本稿では,知識グラフ(KG)に基づく計画データを用いて,LLMの計画能力を高めるための新しいフレームワークを提案する。
このデータによって微調整されたLLMは計画能力を向上し、検索を含む複雑なQAタスクの処理能力が改善された。
新たに提案したベンチマークを含む複数のデータセットの評価では,フレームワークの有効性とKG由来の計画データの有用性が注目されている。
Improving the performance of large language models (LLMs) in complex question-answering (QA) scenarios has always been a research focal point. Recent studies have attempted to enhance LLMs' performance by combining step-wise planning with external retrieval. While effective for advanced models like GPT-3.5, smaller LLMs face challenges in decomposing complex questions, necessitating supervised fine-tuning. Previous work has relied on manual annotation and knowledge distillation from teacher LLMs, which are time-consuming and not accurate enough. In this paper, we introduce a novel framework for enhancing LLMs' planning capabilities by using planning data derived from knowledge graphs (KGs). LLMs fine-tuned with this data have improved planning capabilities, better equipping them to handle complex QA tasks that involve retrieval. Evaluations on multiple datasets, including our newly proposed benchmark, highlight the effectiveness of our framework and the benefits of KG-derived planning data. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# Q*: 検討計画によるLLMのマルチステップ推論の改善
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning ( http://arxiv.org/abs/2406.14283v1 ) ライセンス: Link先を確認 | Chaojie Wang, Yanchen Deng, Zhiyi Lv, Shuicheng Yan, An Bo, | (参考訳) 大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
しかし、自己回帰生成プロセスにより、多段階推論を行う場合、LSMは誤り、幻覚、矛盾する文を生成するのが難しくなる。
本稿では,LLMの復号化プロセスと熟考計画を行うための汎用的,汎用的,アジャイルなフレームワークであるQ*を導入することで,病理学を緩和することを目的とする。
プラグ・アンド・プレイのQ値モデルをヒューリスティック関数として学習することにより、我々のQ*は、各タスクに対して微調整のLLMを使わずに、LLMを最も有望な次のステップに導くことができる。
GSM8K, MATH, MBPPの広範囲な実験により, 本手法の優位性が確認された。
Large Language Models (LLMs) have demonstrated impressive capability in many nature language tasks. However, the auto-regressive generation process makes LLMs prone to produce errors, hallucinations and inconsistent statements when performing multi-step reasoning. In this paper, we aim to alleviate the pathology by introducing Q*, a general, versatile and agile framework for guiding LLMs decoding process with deliberative planning. By learning a plug-and-play Q-value model as heuristic function, our Q* can effectively guide LLMs to select the most promising next step without fine-tuning LLMs for each task, which avoids the significant computational overhead and potential risk of performance degeneration on other tasks. Extensive experiments on GSM8K, MATH and MBPP confirm the superiority of our method. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# VAIYAKARANA : バングラにおける文法自動補正ベンチマーク
VAIYAKARANA : A Benchmark for Automatic Grammar Correction in Bangla ( http://arxiv.org/abs/2406.14284v1 ) ライセンス: Link先を確認 | Pramit Bhattacharyya, Arnab Bhattacharya, | (参考訳) バングラ語(ベンガル語)は世界で5番目に話される言語であるが、バングラ語における自動文法修正の問題はまだ初期段階にある。
これは主に、文法的に正しくない文の大きなコーパスが必要であり、対応する正しい文が必要とされるためである。
文法的に誤りのある文のコーパスをキュレートする最先端技術は、単語のランダムスワップ、挿入、削除を含む。
しかし、これらのステップはバングラ語で文法的に間違った文を生成するとは限らない。
本研究では,バングラ語における文法的誤り文を生成するための実践的手法を提案する。
まず、バングラの異なる種類のエラーを5つの広いクラスと12のより細かいクラスに分類する。
次に、これらを用いて正しい文から文法的に間違った文を体系的に生成する。
このアプローチは、多数の間違った文を生成することができ、それによって、ニューラルネットワークの大規模なコーパスを欠いているという課題を軽減することができる。
我々は、92,830の文法的誤り文と18,426の正しい文からなるデータセット、Vayyakaranaを提供する。
また、バングラ語話者によるエッセイから、619の人文を収集した。
これにより、より頻繁なエラーを理解するのに役立ちました。
我々は,ニューラルネットワークとLLMに対してコーパスを評価し,バングラの母語話者である人間の評価者に対してベンチマークを行った。
解析の結果,文が文法的に正しいかどうかを判断するために,母語話者は最先端のモデルよりもはるかに正確であることがわかった。
誤文を生成する手法は、他のほとんどのインドの言語にも適用できる。
Bangla (Bengali) is the fifth most spoken language globally and, yet, the problem of automatic grammar correction in Bangla is still in its nascent stage. This is mostly due to the need for a large corpus of grammatically incorrect sentences, with their corresponding correct counterparts. The present state-of-the-art techniques to curate a corpus for grammatically wrong sentences involve random swapping, insertion and deletion of words. However,these steps may not always generate grammatically wrong sentences in Bangla. In this work, we propose a pragmatic approach to generate grammatically wrong sentences in Bangla. We first categorize the different kinds of errors in Bangla into 5 broad classes and 12 finer classes. We then use these to generate grammatically wrong sentences systematically from a correct sentence. This approach can generate a large number of wrong sentences and can, thus, mitigate the challenge of lacking a large corpus for neural networks. We provide a dataset, Vaiyakarana, consisting of 92,830 grammatically incorrect sentences as well as 18,426 correct sentences. We also collected 619 human-generated sentences from essays written by Bangla native speakers. This helped us to understand errors that are more frequent. We evaluated our corpus against neural models and LLMs and also benchmark it against human evaluators who are native speakers of Bangla. Our analysis shows that native speakers are far more accurate than state-of-the-art models to detect whether the sentence is grammatically correct. Our methodology of generating erroneous sentences can be applied for most other Indian languages as well. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# パラメタライズド量子回路におけるバレン高原の緩和法の検討
A Survey of Methods for Mitigating Barren Plateaus for Parameterized Quantum Circuits ( http://arxiv.org/abs/2406.14285v1 ) ライセンス: Link先を確認 | Michelle Gelman, | (参考訳) バレンプラトー(Barren Plateaus)は、損失関数のランドスケープにおいて平坦なプラトーを導くハイブリッド量子古典アルゴリズムにおいて、勾配に基づくパラメータ化量子回路の表現力を利用するのが困難である。
古典的ニューラルネットワークモデルと同様に、パラメータ化された量子回路は、非凸ランドスケープを持つ大きなパラメータ空間のために、同じ消滅した勾配問題に悩まされる。
本総説では,バレン高原の異なる世代,バレン高原周辺の共通テーマの数学的定式化,勾配への潜入について概説する。
中心的な目的は、消失する勾配の古典的および量子的解釈と、コスト関数、絡み合い、バレン高原を緩和するための初期化戦略を含む技術への潜入という概念的視点を提供することである。
ヴァレン高原への対処は、量子シミュレーション、最適化、化学、および量子機械学習のための、古典的に難解な多くのアプリケーションの実現可能性への道を開く。
Barren Plateaus are a formidable challenge for hybrid quantum-classical algorithms that lead to flat plateaus in the loss function landscape making it difficult to take advantage of the expressive power of parameterized quantum circuits with gradient-based methods. Like in classical neural network models, parameterized quantum circuits suffer the same vanishing gradient issue due to large parameter spaces with non-convex landscapes. In this review, we present an overview of the different genesis for barren plateaus, mathematical formalisms of common themes around barren plateaus, and dives into gradients. The central objective is to provide a conceptual perspective between classical and quantum interpretations of vanishing gradients as well as dive into techniques involving cost functions, entanglement, and initialization strategies to mitigate barren plateaus. Addressing barren plateaus paves the way towards feasibility of many classically intractable applications for quantum simulation, optimization, chemistry, and quantum machine learning. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# 非小細胞肺癌の分節 : DRU-NetとMulti-Lens歪みの導入
Segmentation of Non-Small Cell Lung Carcinomas: Introducing DRU-Net and Multi-Lens Distortion ( http://arxiv.org/abs/2406.14287v1 ) ライセンス: Link先を確認 | Soroush Oskouei, Marit Valla, André Pedersen, Erik Smistad, Vibeke Grotnes Dale, Maren Høibø, Sissel Gyrid Freim Wahl, Mats Dehli Haugum, Thomas Langø, Maria Paula Ramnefjell, Lars Andreas Akslen, Gabriel Kiss, Hanne Sorger, | (参考訳) 今日の病理研究所の作業負荷の増加を考えると、人工知能モデルのような自動化されたツールが、病理学者の作業の助けとなり、作業負荷が軽減される。
そこで本研究では,ヒト非小細胞肺癌の非小細胞癌の非小細胞癌の非小細胞癌の非小細胞化を規定するセグメンテーションモデル(DRU-Net)と,分類結果を改善するための拡張法を提案する。
提案モデルでは,パッチワイド分類器としてTruncated Pre-trained DenseNet201とResNet101V2を,改良モデルとして軽量なU-Netを併用した。
我々は提案したモデルを作成するために2つのデータセット(ノルウェーの肺がんバイオバンクとHaukeland大学肺がんコホート)を使用した。
DRU-Netモデルは平均0.91Dice類似度係数を達成する。
提案した空間拡張法(マルチレンズ歪み)により,ネットワーク性能は3%向上した。
その結果,特に関心領域を含む画像パッチを選択すると,他のサンプリング手法と比較して,パッチワイド分類器の精度が向上することがわかった。
定性的解析の結果,DRU-Netモデルが腫瘍の検出に成功していることが明らかとなった。
テストセットでは, 炎症性, 反応性変化のある腫瘍において, 末梢に偽陽性, 偽陰性領域が認められた例も見られた。
Considering the increased workload in pathology laboratories today, automated tools such as artificial intelligence models can help pathologists with their tasks and ease the workload. In this paper, we are proposing a segmentation model (DRU-Net) that can provide a delineation of human non-small cell lung carcinomas and an augmentation method that can improve classification results. The proposed model is a fused combination of truncated pre-trained DenseNet201 and ResNet101V2 as a patch-wise classifier followed by a lightweight U-Net as a refinement model. We have used two datasets (Norwegian Lung Cancer Biobank and Haukeland University Hospital lung cancer cohort) to create our proposed model. The DRU-Net model achieves an average of 0.91 Dice similarity coefficient. The proposed spatial augmentation method (multi-lens distortion) improved the network performance by 3%. Our findings show that choosing image patches that specifically include regions of interest leads to better results for the patch-wise classifier compared to other sampling methods. The qualitative analysis showed that the DRU-Net model is generally successful in detecting the tumor. On the test set, some of the cases showed areas of false positive and false negative segmentation in the periphery, particularly in tumors with inflammatory and reactive changes. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# グラフクラスタリングにおけるモジュール性最大化の再検討:対照的な学習の視点から
Revisiting Modularity Maximization for Graph Clustering: A Contrastive Learning Perspective ( http://arxiv.org/abs/2406.14288v1 ) ライセンス: Link先を確認 | Yunfei Liu, Jintang Li, Yuehe Chen, Ruofan Wu, Ericbk Wang, Jing Zhou, Sheng Tian, Shuheng Shen, Xing Fu, Changhua Meng, Weiqiang Wang, Liang Chen, | (参考訳) グラフクラスタリングは、グラフマイニングの基本的な課題であり、グラフ内のノードをいくつかの非結合クラスタに分類することを目的としている。
近年,グラフクラスタリングの研究の主流としてグラフコントラスト学習(GCL)が登場し,新たな最先端技術が進歩している。
しかし、GCLベースの手法はグラフの拡張やコントラスト的なスキームに大きく依存しており、セマンティックドリフトや拡張性の問題といった問題を引き起こす可能性がある。
もうひとつの有望な研究は、クラスタリングタスクの指針として、コミュニティ検出の一般的かつ効果的な手段であるモジュラリティ最大化の採用である。
最近の進歩にもかかわらず、モジュラリティの最大化の基盤となるメカニズムはまだよく理解されていない。
本研究では,グラフクラスタリングにおけるモジュラリティ最大化の隠れた成功を掘り下げる。
本分析により,モジュール性最大化とグラフ対照的学習の強い関係が明らかとなり,正の例と負の例がモジュール性によって自然に定義される。
本研究は,コミュニティに意識したグラフクラスタリングフレームワークであるMAGIを提案する。これは,グラフ内のコミュニティの基盤となる情報を効果的に発見し,セマンティックドリフトの問題を回避しつつ,モジュラリティの最大化をコントラスト的なプレテキストタスクとして活用する。
複数のグラフデータセットに対する大規模な実験は、最先端のグラフクラスタリング手法と比較してスケーラビリティとクラスタリング性能の観点からMAGIの有効性を検証する。
特に、MAGIは、強いベースラインを上回りながら、1億のノードで十分に大きなグラフを簡単にスケールする。
Graph clustering, a fundamental and challenging task in graph mining, aims to classify nodes in a graph into several disjoint clusters. In recent years, graph contrastive learning (GCL) has emerged as a dominant line of research in graph clustering and advances the new state-of-the-art. However, GCL-based methods heavily rely on graph augmentations and contrastive schemes, which may potentially introduce challenges such as semantic drift and scalability issues. Another promising line of research involves the adoption of modularity maximization, a popular and effective measure for community detection, as the guiding principle for clustering tasks. Despite the recent progress, the underlying mechanism of modularity maximization is still not well understood. In this work, we dig into the hidden success of modularity maximization for graph clustering. Our analysis reveals the strong connections between modularity maximization and graph contrastive learning, where positive and negative examples are naturally defined by modularity. In light of our results, we propose a community-aware graph clustering framework, coined MAGI, which leverages modularity maximization as a contrastive pretext task to effectively uncover the underlying information of communities in graphs, while avoiding the problem of semantic drift. Extensive experiments on multiple graph datasets verify the effectiveness of MAGI in terms of scalability and clustering performance compared to state-of-the-art graph clustering methods. Notably, MAGI easily scales a sufficiently large graph with 100M nodes while outperforming strong baselines. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# 選挙統合におけるディープフェイクの影響の検討
Examining the Implications of Deepfakes for Election Integrity ( http://arxiv.org/abs/2406.14290v1 ) ライセンス: Link先を確認 | Hriday Ranka, Mokshit Surana, Neel Kothari, Veer Pariawala, Pratyay Banerjee, Aditya Surve, Sainath Reddy Sankepally, Raghav Jain, Jhagrut Lalwani, Swapneel Mehta, | (参考訳) AI生成コンテンツ、特に「ディープフェイク」技術を使って、大規模に偽情報操作をローンチするのは、より安価になってきている。
政治キャンペーンにおけるディープフェイクの事例は、特定の物語の信頼性を高めるために生成されたコンテンツ(結果の強化)と、ターゲットの候補や原因(敵の成果)に対する大衆の認識を操作するために使用される。
本稿では、政治におけるディープフェイクの脅威について論じ、異なるタイプのディープフェイク生成手法に基づくモデル仕様を強調し、既存の検出手法の有効性の評価に寄与する。
我々は、この技術が、その使用を規制する既存の政策に照らしてどのように適用されるかを理解するために、議員や市民社会のアクターに要約として提示する。
我々は,既存の検知機構の限界を強調し,ディープフェイクの課題に対処するために政策や規制が必要な分野について議論する。
It is becoming cheaper to launch disinformation operations at scale using AI-generated content, in particular 'deepfake' technology. We have observed instances of deepfakes in political campaigns, where generated content is employed to both bolster the credibility of certain narratives (reinforcing outcomes) and manipulate public perception to the detriment of targeted candidates or causes (adversarial outcomes). We discuss the threats from deepfakes in politics, highlight model specifications underlying different types of deepfake generation methods, and contribute an accessible evaluation of the efficacy of existing detection methods. We provide this as a summary for lawmakers and civil society actors to understand how the technology may be applied in light of existing policies regulating its use. We highlight the limitations of existing detection mechanisms and discuss the areas where policies and regulations are required to address the challenges of deepfakes. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# 近接干渉粒子ランゲヴィンアルゴリズム
Proximal Interacting Particle Langevin Algorithms ( http://arxiv.org/abs/2406.14292v1 ) ライセンス: Link先を確認 | Paula Cordero Encinar, Francesca R. Crucinio, O. Deniz Akyildiz, | (参考訳) 共振確率密度が微分不可能な潜在変数モデルにおける推論と学習のためのアルゴリズムをPIPLA(Proximal Interacting Particle Langevin Algorithms)と呼ぶ。
近位マルコフ連鎖モンテカルロ (MCMC) 法と最近導入された相互作用粒子ランゲヴィンアルゴリズム (IPLA) を応用し、微分不可能な統計モデルにおいてパラメータを推定する問題に合わせて、新しい近位IPLAファミリー内のいくつかの変種を提案する。
我々は,複数のアルゴリズムが生成するパラメータ推定値の非漸近的境界を強い対数凹設定で証明し,提案手法の有効性を示すために,様々なモデルに関する総合的な数値実験を行った。
特に,提案したアルゴリズム群の有用性を,我々の仮定を検証できるおもちゃの階層的な例に示すとともに,疎ベイズ的ロジスティック回帰,疎ベイズ的ニューラルネットワーク,スパース行列補完の問題についても示す。
我々の理論と実験は、PIPLAファミリーが非微分可能モデルの潜在変数モデルにおけるパラメータ推定問題のデファクト選択であることを示している。
We introduce a class of algorithms, termed Proximal Interacting Particle Langevin Algorithms (PIPLA), for inference and learning in latent variable models whose joint probability density is non-differentiable. Leveraging proximal Markov chain Monte Carlo (MCMC) techniques and the recently introduced interacting particle Langevin algorithm (IPLA), we propose several variants within the novel proximal IPLA family, tailored to the problem of estimating parameters in a non-differentiable statistical model. We prove nonasymptotic bounds for the parameter estimates produced by multiple algorithms in the strongly log-concave setting and provide comprehensive numerical experiments on various models to demonstrate the effectiveness of the proposed methods. In particular, we demonstrate the utility of the proposed family of algorithms on a toy hierarchical example where our assumptions can be checked, as well as on the problems of sparse Bayesian logistic regression, sparse Bayesian neural network, and sparse matrix completion. Our theory and experiments together show that PIPLA family can be the de facto choice for parameter estimation problems in latent variable models for non-differentiable models. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# DASB -- 音声と音声のベンチマークを離散化する
DASB -- Discrete Audio and Speech Benchmark ( http://arxiv.org/abs/2406.14294v1 ) ライセンス: Link先を確認 | Pooneh Mousavi, Luca Della Libera, Jarod Duret, Artem Ploujnikov, Cem Subakan, Mirco Ravanelli, | (参考訳) 離散的な音声トークンは、音声処理と言語処理を接続する可能性について、近年大きな注目を集めており、現代のマルチモーダルな大言語モデルの作成を可能にしている。
理想的な音声トークンは、パラ言語情報、話者識別、その他の詳細と共に音声および意味的コンテンツを効果的に保存する必要がある。
近年,様々な種類の音声トークンが提案されているが,既存の研究における不整合性評価設定のため,様々なタスクに対する最適なトークン化器の同定は困難である。
このギャップに対処するため、音声認識、話者識別と検証、感情認識、キーワードスポッティング、意図分類、音声強調、分離、テキスト音声合成など、幅広い識別タスクにわたる離散音声トークンのベンチマークを行うための総合的なリーダーボードである、離散音声・音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現のパフォーマンスギャップは依然として深刻であり、この分野におけるさらなる研究の必要性を強調している。
Discrete audio tokens have recently gained considerable attention for their potential to connect audio and language processing, enabling the creation of modern multimodal large language models. Ideal audio tokens must effectively preserve phonetic and semantic content along with paralinguistic information, speaker identity, and other details. While several types of audio tokens have been recently proposed, identifying the optimal tokenizer for various tasks is challenging due to the inconsistent evaluation settings in existing studies. To address this gap, we release the Discrete Audio and Speech Benchmark (DASB), a comprehensive leaderboard for benchmarking discrete audio tokens across a wide range of discriminative tasks, including speech recognition, speaker identification and verification, emotion recognition, keyword spotting, and intent classification, as well as generative tasks such as speech enhancement, separation, and text-to-speech. Our results show that, on average, semantic tokens outperform compression tokens across most discriminative and generative tasks. However, the performance gap between semantic tokens and standard continuous representations remains substantial, highlighting the need for further research in this field. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# 科学ミッションのための宇宙におけるAI:ニューラルネットワークモデルのアップロードを最小限にするための戦略
AI in Space for Scientific Missions: Strategies for Minimizing Neural-Network Model Upload ( http://arxiv.org/abs/2406.14297v1 ) ライセンス: Link先を確認 | Jonah Ekelund, Ricardo Vinuesa, Yuri Khotyaintsev, Pierre Henri, Gian Luca Delzanno, Stefano Markidis, | (参考訳) 人工知能(AI)は、地上制御や事前定義された手順に頼るのではなく、いくつかの宇宙船決定をオンボードAIに委譲することで、宇宙探査に革命をもたらす可能性がある。
推論エンジンを実行する宇宙船には、AI/ML処理ユニットが搭載される可能性が高い。
ニューラルネットワークには、地上でのトレーニングによって得られたパラメータであるテレコマンドをアップロードすることで、オンボードで更新できるパラメータがプリインストールされている。
しかし、衛星アップリンクは帯域幅が限られており、通信コストも高い。
さらに、最適なニューラルネットワークで運用するミッションは、貴重な科学的データを見逃すことになる。
これにより、ダウンロードされる科学データの価値を高めながら、より小さなネットワークでアップリンクコストを削減できる。
本研究では,アップロード時間を削減するために,精度の低下と最小限のニューラルネットワークの利用を評価検討する。
AIのユースケースの例として、NASAのMMSミッションに注目します。
我々は、地球磁気圏におけるAIの搭載方法を示し、より高い値データを選択的にダウンリンクするためにデータを分類したり、興味のある領域を認識してバーストモードをトリガーし、ハイレートでデータを収集する。
簡単なフィルタリング手法とアルゴリズムを用いて、関心領域の開始と終了が分類ストリーム上でどのように検出されるかを示す。
分類のために、我々は94%の精度でトレーニングされた確立された畳み込みニューラルネットワーク(CNN)を使用します。
また、ネットワークを1つの線形層に減らし、確立したCNNと同じ精度でトレーニングする方法を示す。
これにより、モデル全体のサイズを最大98.9%削減できる。
さらに,ネットワークパラメータの表現に低精度のフォーマットを用いることで,各ネットワークを最大75%削減し,0.6ポイント未満の精度で精度を向上できることを示す。
Artificial Intelligence (AI) has the potential to revolutionize space exploration by delegating several spacecraft decisions to an onboard AI instead of relying on ground control and predefined procedures. It is likely that there will be an AI/ML Processing Unit onboard the spacecraft running an inference engine. The neural-network will have pre-installed parameters that can be updated onboard by uploading, by telecommands, parameters obtained by training on the ground. However, satellite uplinks have limited bandwidth and transmissions can be costly. Furthermore, a mission operating with a suboptimal neural network will miss out on valuable scientific data. Smaller networks can thereby decrease the uplink cost, while increasing the value of the scientific data that is downloaded. In this work, we evaluate and discuss the use of reduced-precision and bare-minimum neural networks to reduce the time for upload. As an example of an AI use case, we focus on the NASA's Magnetosperic MultiScale (MMS) mission. We show how an AI onboard could be used in the Earth's magnetosphere to classify data to selectively downlink higher value data or to recognize a region-of-interest to trigger a burst-mode, collecting data at a high-rate. Using a simple filtering scheme and algorithm, we show how the start and end of a region-of-interest can be detected in on a stream of classifications. To provide the classifications, we use an established Convolutional Neural Network (CNN) trained to an accuracy >94%. We also show how the network can be reduced to a single linear layer and trained to the same accuracy as the established CNN. Thereby, reducing the overall size of the model by up to 98.9%. We further show how each network can be reduced by up to 75% of its original size, by using lower-precision formats to represent the network parameters, with a change in accuracy of less than 0.6 percentage points. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# シンプレクティックスティーフェル多様体:抽出可能な計量、二階幾何学およびニュートンの方法
Symplectic Stiefel manifold: tractable metrics, second-order geometry and Newton's methods ( http://arxiv.org/abs/2406.14299v1 ) ライセンス: Link先を確認 | Bin Gao, Nguyen Thanh Son, Tatjana Stykel, | (参考訳) シンプレクティシティ制約の下での最適化は、量子物理学や科学計算における様々な問題を解決するためのアプローチである。
この最適化問題をシンプレクティックなシュティーフェル多様体上の制約のない問題に変換できるという結果に基づいて、トラクタブル計量と呼ばれるリーマン計量の新しい族を用いてリーマン最適化のための幾何学的材料を構築し、リーマンニュートンスキームを開発する。
新たに得られた材料は,既存の結果を一般化するだけでなく,各問題に適した指標を選択する自由を与えてくれる。
我々の知る限りでは、これはシンプレクティック・スティーフェル多様体上の明示的な二階幾何学とニュートンの方法を開発する最初の試みである。
リーマン・ニュートン法では、まず a~コスト関数のリーマン・ヘシアンを計算するための新しい作用素値公式を考え、さらに、プレコンディショニング効果を与えるユークリッド計量を加重化することができる。
次にニュートン方程式をニュートン法の中心的なステップとして解き、それをa~saddle点問題に変換してベクトル化し、あるいは任意の行列自由反復法をニュートン方程式あるいはそのサドル点定式化に適用することで反復的に解く。
最後に,大域収束と2次・超線形局所収束を両立させるハイブリッドリーマンニュートン最適化アルゴリズムを提案する。
提案手法を検証するために, 種々の数値実験を行った。
Optimization under the symplecticity constraint is an approach for solving various problems in quantum physics and scientific computing. Building on the results that this optimization problem can be transformed into an unconstrained problem on the symplectic Stiefel manifold, we construct geometric ingredients for Riemannian optimization with a new family of Riemannian metrics called tractable metrics and develop Riemannian Newton schemes. The newly obtained ingredients do not only generalize several existing results but also provide us with freedom to choose a suitable metric for each problem. To the best of our knowledge, this is the first try to develop the explicit second-order geometry and Newton's methods on the symplectic Stiefel manifold. For the Riemannian Newton method, we first consider novel operator-valued formulas for computing the Riemannian Hessian of a~cost function, which further allows the manifold to be endowed with a weighted Euclidean metric that can provide a preconditioning effect. We then solve the resulting Newton equation, as the central step of Newton's methods, directly via transforming it into a~saddle point problem followed by vectorization, or iteratively via applying any matrix-free iterative method either to the operator Newton equation or its saddle point formulation. Finally, we propose a hybrid Riemannian Newton optimization algorithm that enjoys both global convergence and quadratic/superlinear local convergence at the final stage. Various numerical experiments are presented to validate the proposed methods. | 翻訳日:2024-06-21 13:42:16 公開日:2024-06-20 |
# 無線ネットワーク制御システムにおけるテール制御の資源最適化
Resource Optimization for Tail-Based Control in Wireless Networked Control Systems ( http://arxiv.org/abs/2406.14301v1 ) ライセンス: Link先を確認 | Rasika Vijithasena, Rafaela Scaciota, Mehdi Bennis, Sumudu Samarakoon, | (参考訳) 制御安定性の達成は、無線ネットワーク制御システム(WNCS)において、限られた通信と計算資源の下で重要な設計課題の1つである。
本稿では,従来のLQR(Linear Quadratic Regulator)のコスト関数を拡張し,共有無線ネットワーク上で複数の動的制御システムに拡張する,テールベース制御として定義された代替制御の概念の利用について検討する。
我々は,複数の制御システムの制御をネットワーク全体の最適化問題とし,センサスケジューリング,プラント状態予測,制御ポリシの観点から分離した。
そこで本研究では,Lyapunovによるセンシングの最適化に基づくスケジューリングアルゴリズムと,状態予測と不確実性推定のためのガウス過程回帰(GPR)に基づくメカニズムと,強化学習(Reinforcement Learning, RL)に基づく制御ポリシを併用して,テールベース制御の安定性を確保する手法を提案する。
個別の時間不変マウンテンカー制御系を用いて提案手法の評価を行い, 最先端のスケジューリング, 予測, 制御手法を用いた4つの変種と比較した。
実験結果から,提案手法は通信・制御資源利用のコストを22%削減できることがわかった。
Achieving control stability is one of the key design challenges of scalable Wireless Networked Control Systems (WNCS) under limited communication and computing resources. This paper explores the use of an alternative control concept defined as tail-based control, which extends the classical Linear Quadratic Regulator (LQR) cost function for multiple dynamic control systems over a shared wireless network. We cast the control of multiple control systems as a network-wide optimization problem and decouple it in terms of sensor scheduling, plant state prediction, and control policies. Toward this, we propose a solution consisting of a scheduling algorithm based on Lyapunov optimization for sensing, a mechanism based on Gaussian Process Regression (GPR) for state prediction and uncertainty estimation, and a control policy based on Reinforcement Learning (RL) to ensure tail-based control stability. A set of discrete time-invariant mountain car control systems is used to evaluate the proposed solution and is compared against four variants that use state-of-the-art scheduling, prediction, and control methods. The experimental results indicate that the proposed method yields 22% reduction in overall cost in terms of communication and control resource utilization compared to state-of-the-art methods. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 因果構造と表現学習のための識別可能な交換可能なメカニズム
Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning ( http://arxiv.org/abs/2406.14302v1 ) ライセンス: Link先を確認 | Patrik Reizinger, Siyuan Guo, Ferenc Huszár, Bernhard Schölkopf, Wieland Brendel, | (参考訳) 潜在表現や因果構造を同定することは、優れた一般化と下流タスク性能にとって重要である。
しかし、どちらの分野も比較的独立に開発されている。
我々は、表現と因果構造学習の双方において、同じデータ生成プロセス(DGP)、すなわち交換可能であるが、非独立かつ同一に分散している)データに依存しているいくつかの手法を観察する。
IEM(Identible Exchangeable Mechanisms)と呼ばれる,交換可能性のレンズ下での表現と構造学習のための統合フレームワークを提供する。
IEMは、交換可能な非I.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。
また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。
この研究が、因果表現学習のさらなる研究の道を開くことを願っている。
Identifying latent representations or causal structures is important for good generalization and downstream task performance. However, both fields have been developed rather independently. We observe that several methods in both representation and causal structure learning rely on the same data-generating process (DGP), namely, exchangeable but not i.i.d. (independent and identically distributed) data. We provide a unified framework, termed Identifiable Exchangeable Mechanisms (IEM), for representation and structure learning under the lens of exchangeability. IEM provides new insights that let us relax the necessary conditions for causal structure identification in exchangeable non--i.i.d. data. We also demonstrate the existence of a duality condition in identifiable representation learning, leading to new identifiability results. We hope this work will pave the way for further research in causal representation learning. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# QuST-LLM:包括的空間転写解析のための大規模言語モデルの統合
QuST-LLM: Integrating Large Language Models for Comprehensive Spatial Transcriptomics Analysis ( http://arxiv.org/abs/2406.14307v1 ) ライセンス: Link先を確認 | Chao Hui Huang, | (参考訳) 本稿では,大規模言語モデル(LLM)を用いて空間転写学(ST)データを解析・解釈するQuST-LLMを提案する。
データ読み込み、領域選択、遺伝子発現解析、機能アノテーションを含む包括的なワークフローを提供することにより、STデータの複雑で高次元的な性質を効果的に単純化する。
QuST-LLMは、複雑なSTデータを遺伝子オントロジーアノテーションに基づいて理解しやすく詳細な生物学的物語に変換するためにLLMを用いており、STデータの解釈性を大幅に向上させる。
これにより、ユーザは自然言語を使って自身のSTデータと対話できる。
したがって、QuST-LLMは、組織の空間的および機能的複雑さを解明する強力な機能を提供し、新しい洞察と生物医学研究の進歩を育む。
In this paper, we introduce QuST-LLM, an innovative extension of QuPath that utilizes the capabilities of large language models (LLMs) to analyze and interpret spatial transcriptomics (ST) data. This tool effectively simplifies the intricate and high-dimensional nature of ST data by offering a comprehensive workflow that includes data loading, region selection, gene expression analysis, and functional annotation. QuST-LLM employs LLMs to transform complex ST data into understandable and detailed biological narratives based on gene ontology annotations, thereby significantly improving the interpretability of ST data. Consequently, users can interact with their own ST data using natural language. Hence, QuST-LLM provides researchers with a potent functionality to unravel the spatial and functional complexities of tissues, fostering novel insights and advancements in biomedical research. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# FIESTA : 医用画像分割における領域一般化性向上のための不確かさ誘導によるフーリエベースセマンティック拡張
FIESTA: Fourier-Based Semantic Augmentation with Uncertainty Guidance for Enhanced Domain Generalizability in Medical Image Segmentation ( http://arxiv.org/abs/2406.14308v1 ) ライセンス: Link先を確認 | Kwanseok Oh, Eunjin Jeon, Da-Woon Heo, Yooseung Shin, Heung-Il Suk, | (参考訳) 医用画像セグメンテーション(MIS)における単一ソース領域一般化(SDG)は、1つのソースドメインのみのデータを使用してモデルを一般化し、目に見えないターゲットドメインからデータをセグメントすることを目的としている。
データ拡張によるSDGの大幅な進歩にもかかわらず、既存の手法ではMISで広く見られる詳細と不確実な領域を十分に考慮できず、誤分類につながることが多い。
本稿では、不確実性誘導を用いたFIESTAと呼ばれるフーリエに基づく意味拡張手法を提案し、周波数領域の振幅および位相成分を操作することにより、SDGコンテキストにおけるMISの基本目標を高める。
提案したフーリエ拡張変換器は、有意な角点に基づく意味振幅変調に対処し、関連する変動を誘発し、位相スペクトルを利用して構造的コヒーレンスを確保する。
さらに、FIESTAは、拡張プロセスの微調整に疫学的な不確実性を使用し、多様な拡張データに適応し、あいまいさの高い領域に集中するモデルの能力を改善している。
3つのクロスドメインシナリオにわたる大規模な実験により、FIESTAはセグメンテーション性能における最近の最先端のSDGアプローチを超越し、医用画像モダリティにおけるモデルの適用性の向上に大きく貢献していることが示された。
Single-source domain generalization (SDG) in medical image segmentation (MIS) aims to generalize a model using data from only one source domain to segment data from an unseen target domain. Despite substantial advances in SDG with data augmentation, existing methods often fail to fully consider the details and uncertain areas prevalent in MIS, leading to mis-segmentation. This paper proposes a Fourier-based semantic augmentation method called FIESTA using uncertainty guidance to enhance the fundamental goals of MIS in an SDG context by manipulating the amplitude and phase components in the frequency domain. The proposed Fourier augmentative transformer addresses semantic amplitude modulation based on meaningful angular points to induce pertinent variations and harnesses the phase spectrum to ensure structural coherence. Moreover, FIESTA employs epistemic uncertainty to fine-tune the augmentation process, improving the ability of the model to adapt to diverse augmented data and concentrate on areas with higher ambiguity. Extensive experiments across three cross-domain scenarios demonstrate that FIESTA surpasses recent state-of-the-art SDG approaches in segmentation performance and significantly contributes to boosting the applicability of the model in medical imaging modalities. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 空間埋め込み統計を用いた創発的プロパティマッピング:EMUSES
Emerging-properties Mapping Using Spatial Embedding Statistics: EMUSES ( http://arxiv.org/abs/2406.14309v1 ) ライセンス: Link先を確認 | Chris Foulon, Marcela Ovando-Tellez, Lia Talozzi, Maurizio Corbetta, Anna Matsulevits, Michel Thiebaut de Schotten, | (参考訳) 複雑な現象を理解するには、多要素相互作用から生じる創発的特性を明らかにするために、高次元データを解析する必要があることが多い。
本稿では,空間埋め込み統計を用いたEMUSES(Emerging-properties Mapping using Spatial Embedding Statistics)を提案する。
EMUSESはこれらの潜伏空間を統計的に解析することで創発特性の探索と予測を容易にする。
The National Institute of Standards and Technology (NIST, E. Alpaydin, 1998), the Chicago Face Database (Ma et al , 2015), and brain disconnection data post-stroke (Talozzi et al , 2023) の3つの異なるデータセットを用いて, EMUSESによる創発性の検出と解釈の有効性を実証した。
提案手法は精度の高い結果を予測するだけでなく,データ中の基礎となる相互作用の可視化や統計的洞察も提供する。
予測精度と解釈可能性のギャップを埋めることで、EMUSESは複雑な現象の多因子的起源を理解する強力なツールを提供する。
Understanding complex phenomena often requires analyzing high-dimensional data to uncover emergent properties that arise from multifactorial interactions. Here, we present EMUSES (Emerging-properties Mapping Using Spatial Embedding Statistics), an innovative approach employing Uniform Manifold Approximation and Projection (UMAP) to create high-dimensional embeddings that reveal latent structures within data. EMUSES facilitates the exploration and prediction of emergent properties by statistically analyzing these latent spaces. Using three distinct datasets--a handwritten digits dataset from the National Institute of Standards and Technology (NIST, E. Alpaydin, 1998), the Chicago Face Database (Ma et al., 2015), and brain disconnection data post-stroke (Talozzi et al., 2023)--we demonstrate EMUSES' effectiveness in detecting and interpreting emergent properties. Our method not only predicts outcomes with high accuracy but also provides clear visualizations and statistical insights into the underlying interactions within the data. By bridging the gap between predictive accuracy and interpretability, EMUSES offers researchers a powerful tool to understand the multifactorial origins of complex phenomena. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# クロスレベル要求トレーサビリティ: 単語のバグ・オブ・ワードと単語の埋め込みを統合する新しいアプローチ
Cross-level Requirement Traceability: A Novel Approach Integrating Bag-of-Words and Word Embedding for Enhanced Similarity Functionality ( http://arxiv.org/abs/2406.14310v1 ) ライセンス: Link先を確認 | Baher Mohammad, Riad Sonbol, Ghaida Rebdawi, | (参考訳) 要求トレーサビリティは、要求間の依存関係を特定するプロセスである。
手動で行う場合、特にさまざまなレベルの抽象化要件を扱う場合、これは大きな課題となる。
本研究では,高レベルのビジネス要件とより技術的なシステム要件をリンクするタスクを自動化する新しい手法を提案する。
提案手法は,Bag of Words(BOW)モデルとTF-IDF(Term Frequency-Inverse Document Frequency)スコアリング関数を組み合わせて,各要件を表現することから始まる。
そこで,従来のコサイン類似度関数の制限を補正するために,単語埋め込み表現の最近の進歩を利用したコサイン類似度の向上を提案する。
提案手法の有効性を評価するため,COEST,WARC(NFR),WARC(FRS)の3つのよく知られたデータセットを用いて実験を行った。
その結果,本手法は既存手法に比べて効率を著しく向上させることがわかった。
F2スコアで測定したところ、データセットの1つで約18.4%の増加により、より良い結果が得られた。
Requirement traceability is the process of identifying the inter-dependencies between requirements. It poses a significant challenge when conducted manually, especially when dealing with requirements at various levels of abstraction. In this work, we propose a novel approach to automate the task of linking high-level business requirements with more technical system requirements. The proposed approach begins by representing each requirement using a Bag of-Words (BOW) model combined with the Term Frequency-Inverse Document Frequency (TF-IDF) scoring function. Then, we suggested an enhanced cosine similarity that uses recent advances in word embedding representation to correct traditional cosine similarity function limitations. To evaluate the effectiveness of our approach, we conducted experiments on three well-known datasets: COEST, WARC(NFR), and WARC(FRS). The results demonstrate that our approach significantly improves efficiency compared to existing methods. We achieved better results with an increase of approximately 18.4% in one of the datasets, as measured by the F2 score. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 言語モデルのためのトークンサーへの臨床知識の注入
Infusing clinical knowledge into tokenisers for language models ( http://arxiv.org/abs/2406.14312v1 ) ライセンス: Link先を確認 | Abul Hasan, Jinge Wu, Quang Ngoc Nguyen, Salomé Andres, Imane Guellil, Huayu Zhang, Arlene Casey, Beatrice Alex, Bruce Guthrie, Honghan Wu, | (参考訳) 本研究はクリニカルテキスト処理のための新しい知識強化トークン化機構であるK-Tokeniserを紹介する。
技術的には、K-Tokeniserは初期化段階で、統一医療言語システムのようなドメインオントロジーやタスク関連コーパスのトレーニングデータから、ドメイン概念のセマンティックタイプ(薬物や病気など)に基づいてトークンのグローバルな表現を発生させる。
トレーニングや推論の段階では、文レベルのローカライズされたコンテキストを使用して、セマンティックベースのトークン化を実現するために最適なグローバルトークン表現を選択する。
新しいトークンを用いた事前学習を避けるため,新しいトークンの表現を生成するために埋め込み初期化手法を提案する。
3つのトランスフォーマーベース言語モデルを用いて,K-Tokeniserの臨床的概念と関係抽出,自動臨床コーディング,臨床表現型識別,臨床研究論文分類を含む幅広い臨床テキスト分析タスクにおいて,K-Tokeniserを評価するための4つの実世界のデータセットを用いて総合的な実験を行った。
全体として、私たちのモデルは、すべてのタスクにおいて、そのモデルよりも一貫した改善を示します。
特に,Micro $F_1$スコアを13%増加させる自動臨床コーディングタスクにおいて,大幅な改善が見られた。
さらに、K-Tokeniserは、言語モデルのより迅速な収束を促進する上で、大きな能力を示している。
具体的には、K-Tokeniserを使用する言語モデルは、概念抽出タスクにおけるすべてのトレーニングデータを使用してベースライントークンサの最高のパフォーマンスを達成するために、トレーニングデータの50 %しか必要とせず、自動コーディングタスクでは20 %未満である。
これらの改善がすべて事前トレーニングのプロセスを必要としないため、アプローチが一般化可能である点に注意が必要だ。
This study introduces a novel knowledge enhanced tokenisation mechanism, K-Tokeniser, for clinical text processing. Technically, at initialisation stage, K-Tokeniser populates global representations of tokens based on semantic types of domain concepts (such as drugs or diseases) from either a domain ontology like Unified Medical Language System or the training data of the task related corpus. At training or inference stage, sentence level localised context will be utilised for choosing the optimal global token representation to realise the semantic-based tokenisation. To avoid pretraining using the new tokeniser, an embedding initialisation approach is proposed to generate representations for new tokens. Using three transformer-based language models, a comprehensive set of experiments are conducted on four real-world datasets for evaluating K-Tokeniser in a wide range of clinical text analytics tasks including clinical concept and relation extraction, automated clinical coding, clinical phenotype identification, and clinical research article classification. Overall, our models demonstrate consistent improvements over their counterparts in all tasks. In particular, substantial improvements are observed in the automated clinical coding task with 13\% increase on Micro $F_1$ score. Furthermore, K-Tokeniser also shows significant capacities in facilitating quicker converge of language models. Specifically, using K-Tokeniser, the language models would only require 50\% of the training data to achieve the best performance of the baseline tokeniser using all training data in the concept extraction task and less than 20\% of the data for the automated coding task. It is worth mentioning that all these improvements require no pre-training process, making the approach generalisable. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 難解な質問に対する知識ベース質問に対するロバスト・ファウショット・トランスファー学習
Robust Few-shot Transfer Learning for Knowledge Base Question Answering with Unanswerable Questions ( http://arxiv.org/abs/2406.14313v1 ) ライセンス: Link先を確認 | Riya Sawhney, Indrajit Bhattacharya, Mausam, | (参考訳) 実世界のKBQAアプリケーションは、(1)頑健な -- 例えば、回答不可能な質問と未解決な質問を区別できるモデルが必要であり、(2)低リソースなアプリケーションは、大規模なトレーニングデータを必要としない。
そこで本稿では,KBQA に対して疑問を呈する新規な課題を提案する。
FUn-FuSICは、解答不能なKBQAに対して、最先端(SoTA)の少ショット転送モデルを拡張して、解答不能な処理を行う。
多様な構文、意味、実行ガイド付きチェックを用いてフィードバックを提供することで、LLMに質問に対する論理形式を生成することを反復的に促し、LLMの信頼性を評価するために自己整合性を適用して回答可能性を決定する。
新たに構築されたデータセットに対する実験により、FUn-FuSICはKBQAに対するSoTAモデルの適度な適応と、回答可能のみの少ショット転送KBQAに対するSoTAモデルより優れていることが示された。
Real-world KBQA applications require models that are (1) robust -- e.g., can differentiate between answerable and unanswerable questions, and (2) low-resource -- do not require large training data. Towards this goal, we propose the novel task of few-shot transfer for KBQA with unanswerable questions. We present FUn-FuSIC that extends the state-of-the-art (SoTA) few-shot transfer model for answerable-only KBQA to handle unanswerability. It iteratively prompts an LLM to generate logical forms for the question by providing feedback using a diverse suite of syntactic, semantic and execution guided checks, and adapts self-consistency to assess confidence of the LLM to decide answerability. Experiments over newly constructed datasets show that FUn-FuSIC outperforms suitable adaptations of the SoTA model for KBQA with unanswerability, and the SoTA model for answerable-only few-shot-transfer KBQA. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# UIトラジェクトリからユーザ目標を識別する
Identifying User Goals from UI Trajectories ( http://arxiv.org/abs/2406.14314v1 ) ライセンス: Link先を確認 | Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu, Ido Dagan, | (参考訳) グラフィカルユーザインタフェース(GUI)と対話する自律エージェントは、ユーザエクスペリエンスを向上させる大きな可能性を秘めている。
これらの体験をさらに改善するためには、エージェントをパーソナライズし、積極的に行う必要がある。
アクションやGUIとのインタラクションを通じてユーザの意図を効果的に理解することで、エージェントはこれらの目標を達成するのに適しているでしょう。
本稿では,GUIのインタラクションに基づいてユーザの意図したタスクを推測することを目的として,観測されたUIトラジェクトリから目標を識別するタスクを提案する。
特定のUI環境における2つのタスク記述がパラフレーズであるかどうかを評価するための新しい評価基準を提案する。
UI自動化タスクとの逆関係を活用することで、Android-In-The-WildデータセットとMind2Webデータセットを実験に利用しました。
測定値とこれらのデータセットを用いて,人間と最先端モデル,特に GPT-4 と Gemini-1.5 Pro を比較した実験を行った。
以上の結果から,GeminiはGPTよりも優れた性能を示したが,人間に比べてまだ性能が劣っていることが示唆された。
Autonomous agents that interact with graphical user interfaces (GUIs) hold significant potential for enhancing user experiences. To further improve these experiences, agents need to be personalized and proactive. By effectively comprehending user intentions through their actions and interactions with GUIs, agents will be better positioned to achieve these goals. This paper introduces the task of goal identification from observed UI trajectories, aiming to infer the user's intended task based on their GUI interactions. We propose a novel evaluation metric to assess whether two task descriptions are paraphrases within a specific UI environment. By Leveraging the inverse relation with the UI automation task, we utilized the Android-In-The-Wild and Mind2Web datasets for our experiments. Using our metric and these datasets, we conducted several experiments comparing the performance of humans and state-of-the-art models, specifically GPT-4 and Gemini-1.5 Pro. Our results show that Gemini performs better than GPT but still underperforms compared to humans, indicating significant room for improvement. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# ファイア・ティーフ」も「キーパー」-ユーザービリティとプライバシーのバランスをとる
The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts ( http://arxiv.org/abs/2406.14318v1 ) ライセンス: Link先を確認 | Zhili Shen, Zihang Xi, Ying He, Wei Tong, Jingyu Hua, Sheng Zhong, | (参考訳) オンラインチャットボットの急速な普及は、人工知能の大幅な進歩を示している。
しかし、この利便性は、プロンプトが大きな言語モデル(LLM)に露出する機密情報を不注意に含めるため、かなりのプライバシー上の懸念をもたらす。
高計算コスト、タスクの使いやすさの低下、システムの過度な変更によって制限され、従来のローカルデプロイメント、埋め込み摂動、および同型暗号化はオンラインのプロンプトベースのLLMアプリケーションには適用できない。
これらの問題に対処するために、タスクのユーザビリティと人間の可読性を維持しながら、匿名化されたプロンプトを生成可能な、エンドツーエンドのプロンプトプライバシ保護フレームワークであるProSan(Prompt Privacy Sanitizer)を紹介した。
オンラインLLMサービスパイプラインにシームレスに統合することもできる。
高いユーザビリティと動的匿名性を達成するために、ProSanは、単語の重要性とプロンプトのプライバシー漏洩リスクに基づいて、その保護目標と強度を柔軟に調整する。
さらに、ProSanは多様な計算リソース条件に適応でき、計算能力に制限のあるモバイルデバイスでもプライバシ保護を保証できる。
実験の結果, ProSanは質問応答, テキスト要約, コード生成など, タスク性能を最小限に抑えながら, 様々なタスクにまたがるプライベート情報を効果的に除去することを示した。
The rapid adoption of online chatbots represents a significant advancement in artificial intelligence. However, this convenience brings considerable privacy concerns, as prompts can inadvertently contain sensitive information exposed to large language models (LLMs). Limited by high computational costs, reduced task usability, and excessive system modifications, previous works based on local deployment, embedding perturbation, and homomorphic encryption are inapplicable to online prompt-based LLM applications. To address these issues, this paper introduces Prompt Privacy Sanitizer (i.e., ProSan), an end-to-end prompt privacy protection framework that can produce anonymized prompts with contextual privacy removed while maintaining task usability and human readability. It can also be seamlessly integrated into the online LLM service pipeline. To achieve high usability and dynamic anonymity, ProSan flexibly adjusts its protection targets and strength based on the importance of the words and the privacy leakage risk of the prompts. Additionally, ProSan is capable of adapting to diverse computational resource conditions, ensuring privacy protection even for mobile devices with limited computing power. Our experiments demonstrate that ProSan effectively removes private information across various tasks, including question answering, text summarization, and code generation, with minimal reduction in task performance. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# LiveMind: 同時推論による低レイテンシ大言語モデル
LiveMind: Low-latency Large Language Models with Simultaneous Inference ( http://arxiv.org/abs/2406.14319v1 ) ライセンス: Link先を確認 | Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li, | (参考訳) 本稿では,LLMが不完全なプロンプトで推論を行うことを可能にする,大規模言語モデル(LLM)推論のための新しい低遅延推論フレームワークを提案する。
計算処理をインプットフェーズに再配置することで、レイテンシを大幅に削減し、LCMのユーザにとってインタラクティブなエクスペリエンスを大幅に向上させる。
このフレームワークは、モデルに対するストリーミングプロンプトの可視性を管理し、不完全なプロンプトから推論したり、追加のプロンプトを待つことができる。
提案手法は,完全プロンプトを利用する従来の推論手法と比較して,MMLU-Proデータセットの応答遅延を平均59%低減し,精度は同等である。
さらに、我々のフレームワークは異なるモデル間で協調的な推論と出力を促進する。
推定にLLM, 出力に小言語モデル(SLM)を用い, SLMベースラインと比較して, MMLU-Proデータセットの精度が5.5%向上し, 応答遅延の平均68%低減を実現した。
20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
In this paper, we introduce a novel low-latency inference framework for large language models (LLMs) inference which enables LLMs to perform inferences with incomplete prompts. By reallocating computational processes to prompt input phase, we achieve a substantial reduction in latency, thereby significantly enhancing the interactive experience for users of LLMs. The framework adeptly manages the visibility of the streaming prompt to the model, allowing it to infer from incomplete prompts or await additional prompts. Compared with traditional inference methods that utilize complete prompts, our approach demonstrates an average reduction of 59% in response latency on the MMLU-Pro dataset, while maintaining comparable accuracy. Additionally, our framework facilitates collaborative inference and output across different models. By employing an LLM for inference and a small language model (SLM) for output, we achieve an average 68% reduction in response latency, alongside a 5.5% improvement in accuracy on the MMLU-Pro dataset compared with the SLM baseline. For long prompts exceeding 20 sentences, the response latency can be reduced by up to 93%. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 混合状態位相秩序におけるアニオン凝縮
Anyon condensation in mixed-state topological order ( http://arxiv.org/abs/2406.14320v1 ) ライセンス: Link先を確認 | Ken Kikuchi, Kah-Sen Kam, Fu-Hsiang Huang, | (参考訳) 混合状態トポロジカル秩序における凝縮について論じる。
位相は、最近、モジュラー前の融合カテゴリによって分類されたと推測された。
純粋状態位相順序におけるエノン凝縮と同様に、ブートストラップ解析(英語版)は、縮合可能なエノンが連結な 'etale algebras によって与えられることを示す。
本稿では,非可逆性エノンや逐次凝縮を含む一般的なエノン凝縮を行う方法を説明する。
興味深いことに、いくつかの凝縮は純粋な状態位相順序をもたらす。
これがいつ起こるかを明確にする。
また同値類の位相不変量も計算する。
We discuss anyon condensation in mixed-state topological order. The phases were recently conjectured to be classified by pre-modular fusion categories. Just like anyon condensation in pure-state topological order, a bootstrap analysis shows condensable anyons are given by connected \'etale algebras. We explain how to perform generic anyon condensation including non-invertible anyons and successive condensations. Interestingly, some condensations lead to pure-state topological orders. We clarify when this happens. We also compute topological invariants of equivalence classes. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 言語モデルファインチューニングのためのユーザレベル差分プライバシー
Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning ( http://arxiv.org/abs/2406.14322v1 ) ライセンス: Link先を確認 | Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Daogao Liu, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang, | (参考訳) 大規模言語モデル(LLM)は、さまざまなドメインにまたがる複雑なタスクに対処するための強力なツールとして登場したが、暗記の可能性によって機密データに微調整された場合、プライバシー上の懸念も生じている。
差分プライバシ(DP)は、モデルが特定のプライバシユニットとほぼ区別できないことを保証することで、有望なソリューションを提供する一方で、LLMの現在の評価は、主に各例(テキストレコード)をプライバシユニットとして扱う。
これにより、ユーザ毎のコントリビューションが変化すると、不均一なユーザのプライバシが保証される。
そこで本研究では,ユーザ間のプライバシー保護の統一に必要なアプリケーションによって動機付けられたユーザレベルのDPについて検討する。
自然言語生成タスクにおけるLLM微調整のためのユーザレベルDPの体系的評価について述べる。
ユーザレベルのDP保証を実現するための2つのメカニズム,グループプライバシとユーザワイドDP-SGDに着目し,データ選択戦略やパラメータチューニングなどの設計選択について検討する。
Large language models (LLMs) have emerged as powerful tools for tackling complex tasks across diverse domains, but they also raise privacy concerns when fine-tuned on sensitive data due to potential memorization. While differential privacy (DP) offers a promising solution by ensuring models are `almost indistinguishable' with or without any particular privacy unit, current evaluations on LLMs mostly treat each example (text record) as the privacy unit. This leads to uneven user privacy guarantees when contributions per user vary. We therefore study user-level DP motivated by applications where it necessary to ensure uniform privacy protection across users. We present a systematic evaluation of user-level DP for LLM fine-tuning on natural language generation tasks. Focusing on two mechanisms for achieving user-level DP guarantees, Group Privacy and User-wise DP-SGD, we investigate design choices like data selection strategies and parameter tuning for the best privacy-utility tradeoff. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 注意指向メトリクスによる強化学習エージェントの学習過程の解明
Revealing the learning process in reinforcement learning agents through attention-oriented metrics ( http://arxiv.org/abs/2406.14324v1 ) ライセンス: Link先を確認 | Charlotte Beylier, Simon M. Hofmann, Nico Scherf, | (参考訳) 強化学習(RL)エージェントの学習過程は、その学習アルゴリズムの数学的定式化以外には理解されていない。
このギャップに対処するために、トレーニング中のRLエージェントの注意の発達を調べるために、注意指向メトリクス(ATOM)を導入する。
PongゲームでATOMを3つのバリエーションでテストし、それぞれがエージェントに異なる振る舞いを教えるよう設計し、行動アセスメントによって補完した。
この結果から,ATOMは,各ゲーム変動を訓練したエージェントの注意パターンを明確化し,これらの注意パターンの違いがエージェントの行動の相違に繋がることが明らかとなった。
トレーニング中のATOMの継続的なモニタリングにより,エージェントの注意は段階的に発達し,これらのフェーズはゲーム全体で一貫していることがわかった。
最後に、トレーニングの後半にエージェントのパドルに対する注意が比較的現れ、パフォーマンススコアの顕著な増加と一致したことを指摘した。
全体として、ATOMはRLエージェントの学習プロセスの理解を著しく向上させ、信頼性と効率を向上させるのに不可欠であると考えている。
The learning process of a reinforcement learning (RL) agent remains poorly understood beyond the mathematical formulation of its learning algorithm. To address this gap, we introduce attention-oriented metrics (ATOMs) to investigate the development of an RL agent's attention during training. We tested ATOMs on three variations of a Pong game, each designed to teach the agent distinct behaviours, complemented by a behavioural assessment. Our findings reveal that ATOMs successfully delineate the attention patterns of an agent trained on each game variation, and that these differences in attention patterns translate into differences in the agent's behaviour. Through continuous monitoring of ATOMs during training, we observed that the agent's attention developed in phases, and that these phases were consistent across games. Finally, we noted that the agent's attention to its paddle emerged relatively late in the training and coincided with a marked increase in its performance score. Overall, we believe that ATOMs could significantly enhance our understanding of RL agents' learning processes, which is essential for improving their reliability and efficiency. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# 機械学習研究における再現性--概観,バリア,ドライバ
Reproducibility in Machine Learning-based Research: Overview, Barriers and Drivers ( http://arxiv.org/abs/2406.14325v1 ) ライセンス: Link先を確認 | Harald Semmelrock, Tony Ross-Hellauer, Simone Kopeinik, Dieter Theiler, Armin Haberl, Stefan Thalmann, Dominik Kowald, | (参考訳) 様々な分野の研究は、現在、成果の再現性に関する課題を経験している。
この問題は、機械学習(ML)の研究でも広く用いられている。
この問題は、主に公表されていないデータと/またはソースコードと、MLトレーニング条件の感度が原因である。
MLプラットフォームの使用など、この問題に対処するためのさまざまなソリューションが提案されているが、ML主導の研究における再現性のレベルは相変わらず不満足である。
そこで本稿では,ML駆動型研究の再現性について,主に3つの目的について論じる。
一 研究にMLを適用したときの再現性に関する障壁を特定し、異なる種類の再現性(説明、コード、データ、実験再現性)の障壁を分類する。
二 機械学習の再現性を支えるためのツール、プラクティス、介入等の潜在的なドライバを識別し、技術主導のドライバ、手続き的なドライバ、および認識と教育に関連するドライバーを識別する。
(iii) ドライバをバリアにマップする。
この研究により、ML再現性をサポートするさまざまなソリューションの採用に関する洞察を提供し、意思決定プロセスに貢献したいと考えています。
Research in various fields is currently experiencing challenges regarding the reproducibility of results. This problem is also prevalent in machine learning (ML) research. The issue arises primarily due to unpublished data and/or source code and the sensitivity of ML training conditions. Although different solutions have been proposed to address this issue, such as using ML platforms, the level of reproducibility in ML-driven research remains unsatisfactory. Therefore, in this article, we discuss the reproducibility of ML-driven research with three main aims: (i) identify the barriers to reproducibility when applying ML in research as well as categorize the barriers to different types of reproducibility (description, code, data, and experiment reproducibility), (ii) identify potential drivers such as tools, practices, and interventions that support ML reproducibility as well as distinguish between technology-driven drivers, procedural drivers, and drivers related to awareness and education, and (iii) map the drivers to the barriers. With this work, we hope to provide insights and contribute to the decision-making process regarding the adoption of different solutions to support ML reproducibility. | 翻訳日:2024-06-21 13:32:31 公開日:2024-06-20 |
# medIKAL:EMMの補助として知識グラフを統合する : EMRにおける臨床診断の高度化
medIKAL: Integrating Knowledge Graphs as Assistants of LLMs for Enhanced Clinical Diagnosis on EMRs ( http://arxiv.org/abs/2406.14326v1 ) ライセンス: Link先を確認 | Mingyi Jia, Junwen Duan, Yan Song, Jianxin Wang, | (参考訳) 電子カルテ(EMR)は、現代医療に不可欠なものであるが、その複雑さと情報冗長性により、臨床推論と診断の課題を提示する。
そこで我々は,大規模言語モデル (LLM) と知識グラフ (KG) を組み合わせて診断能力を向上するフレームワークであるmedIKAL (Integrating Knowledge Graphs as Assistants of LLMs) を提案した。
medIKALは、そのタイプに基づいて医療記録のエンティティに重み付けされた重要性を割り当て、KG内の候補疾患の正確な局在を可能にする。
この手法は、LLMによる初期診断をKG検索結果にマージする、残留ネットワークのようなアプローチを革新的に採用している。
パスベースのリランクアルゴリズムとフィリング・ザ・ブランクスタイルのプロンプトテンプレートを通じて、診断プロセスをさらに改善した。
我々は,新しいオープンソースの中国のEMRデータセットの広範な実験を通じて,medIKALの有効性を検証し,実環境における臨床診断の改善の可能性を示した。
Electronic Medical Records (EMRs), while integral to modern healthcare, present challenges for clinical reasoning and diagnosis due to their complexity and information redundancy. To address this, we proposed medIKAL (Integrating Knowledge Graphs as Assistants of LLMs), a framework that combines Large Language Models (LLMs) with knowledge graphs (KGs) to enhance diagnostic capabilities. medIKAL assigns weighted importance to entities in medical records based on their type, enabling precise localization of candidate diseases within KGs. It innovatively employs a residual network-like approach, allowing initial diagnosis by the LLM to be merged into KG search results. Through a path-based reranking algorithm and a fill-in-the-blank style prompt template, it further refined the diagnostic process. We validated medIKAL's effectiveness through extensive experiments on a newly introduced open-sourced Chinese EMR dataset, demonstrating its potential to improve clinical diagnosis in real-world settings. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# ハルダンの統計相関理論の古典システムへの応用
Application of Haldane's statistical correlation theory in classical systems ( http://arxiv.org/abs/2406.14327v1 ) ライセンス: Link先を確認 | Projesh Kumar Roy, | (参考訳) この手紙は、古典システムにおけるハルダンの統計的相関理論の適用について調査する。
修正された統計的相関理論は、非線型性をハルダンの原理論に含めることによって提案されている。
識別可能なシステムに対する外部統計相関の一形態として、識別不可能性を導入することが示されている。
この修正された統計相関理論は、自己相関系に対する最大エントロピー法を用いて古典的分数除算統計(CFES)を導出するために用いられることが証明された。
パワー系列展開に基づく拡張非線形相関モデルも提案され、様々な中間統計モデルを生成することができる。
This letter investigates the application of Haldane's statistical correlation theory in classical systems. A modified statistical correlation theory has been proposed by including non-linearity into the original theory of Haldane. It is shown that indistinguishability can be introduced as a form of external statistical correlation into distinguishable systems. It is proved that this modified statistical correlation theory can be used to derive classical fractional exclusion statistics (CFES) using maximum entropy methods for a self-correlating system. An extended non-linear correlation model based on power series expansion is also proposed, which can produce various intermediate statistical models. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# 限界内での計算:MLトレーニングと推論におけるエネルギー消費に関する実証的研究
Computing Within Limits: An Empirical Study of Energy Consumption in ML Training and Inference ( http://arxiv.org/abs/2406.14328v1 ) ライセンス: Link先を確認 | Ioannis Mavromatis, Kostas Katsaros, Aftab Khan, | (参考訳) 機械学習(ML)は大きな進歩を遂げているが、その環境のフットプリントは依然として懸念されている。
本稿では,グリーンMLの環境影響の増大を認め,学習と推論の両段階における各種モデルアーキテクチャとハイパーパラメータを調査し,エネルギー効率の向上を図った。
我々の研究は、ソフトウェアベースのパワー測定を利用して、さまざまな構成、モデル、データセットのレプリケーションを容易にする。
本稿では,複数のモデルとハードウェア構成について検討し,様々な測定値と測定値の相関関係を同定し,エネルギー削減に寄与する重要な要因について考察する。
本分析は, 持続可能なML操作を構築するための実践的ガイドラインを提供し, 性能を維持しつつ, エネルギー消費と炭素フットプリント削減を強調している。
同定されたように、短寿命プロファイリングは、長期的なエネルギー消費を定量化することができる。
さらに、モデルパラメータは、広範な実験をすることなく予測される総エネルギーを正確に見積もることができる。
Machine learning (ML) has seen tremendous advancements, but its environmental footprint remains a concern. Acknowledging the growing environmental impact of ML this paper investigates Green ML, examining various model architectures and hyperparameters in both training and inference phases to identify energy-efficient practices. Our study leverages software-based power measurements for ease of replication across diverse configurations, models and datasets. In this paper, we examine multiple models and hardware configurations to identify correlations across the various measurements and metrics and key contributors to energy reduction. Our analysis offers practical guidelines for constructing sustainable ML operations, emphasising energy consumption and carbon footprint reductions while maintaining performance. As identified, short-lived profiling can quantify the long-term expected energy consumption. Moreover, model parameters can also be used to accurately estimate the expected total energy without the need for extensive experimentation. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# シャープネス認識最小化のための適応的対向的クロスエントロピー損失
Adaptive Adversarial Cross-Entropy Loss for Sharpness-Aware Minimization ( http://arxiv.org/abs/2406.14329v1 ) ライセンス: Link先を確認 | Tanapat Ratchatorn, Masayuki Tanaka, | (参考訳) 近年の学習アルゴリズムの進歩により,損失面の鋭さが一般化ギャップの改善に有効であることが示されている。
この概念に基づいて, シャープネス・アウェアの最小化(SAM)が提案され, モデルの一般化と最先端性能を実現した。
SAMは2つの主要なステップ、重みの摂動ステップと重みの更新ステップから構成される。
しかし、SAMの摂動はトレーニング損失の勾配、すなわちクロスエントロピー損失のみによって決定される。
モデルが定常点に近づくと、この勾配は小さく振動し、不整合摂動方向となり、勾配を減少させる可能性がある。
本研究は、モデル一般化をさらに強化するための革新的なアプローチを導入する。
本稿では、SAMの摂動に対する標準的なクロスエントロピー損失を置き換えるために、適応逆クロスエントロピー(AACE)損失関数を提案する。
AACE損失とその勾配は、モデルが収束に近づくにつれて一意に増加し、一貫した摂動方向を確保し、勾配減少問題に対処する。
さらに、AACE損失を正規化せずに活用する新しい摂動生成関数を提案し、ほぼ最適段階におけるモデルの探索能力を向上した。
実験的なテストはAACEの有効性を確認し、様々なデータセットにわたるワイドレスネットとピラミッドネットを用いた画像分類タスクのパフォーマンス向上を実証する実験である。
再生コードはオンラインで利用可能です
Recent advancements in learning algorithms have demonstrated that the sharpness of the loss surface is an effective measure for improving the generalization gap. Building upon this concept, Sharpness-Aware Minimization (SAM) was proposed to enhance model generalization and achieved state-of-the-art performance. SAM consists of two main steps, the weight perturbation step and the weight updating step. However, the perturbation in SAM is determined by only the gradient of the training loss, or cross-entropy loss. As the model approaches a stationary point, this gradient becomes small and oscillates, leading to inconsistent perturbation directions and also has a chance of diminishing the gradient. Our research introduces an innovative approach to further enhancing model generalization. We propose the Adaptive Adversarial Cross-Entropy (AACE) loss function to replace standard cross-entropy loss for SAM's perturbation. AACE loss and its gradient uniquely increase as the model nears convergence, ensuring consistent perturbation direction and addressing the gradient diminishing issue. Additionally, a novel perturbation-generating function utilizing AACE loss without normalization is proposed, enhancing the model's exploratory capabilities in near-optimum stages. Empirical testing confirms the effectiveness of AACE, with experiments demonstrating improved performance in image classification tasks using Wide ResNet and PyramidNet across various datasets. The reproduction code is available online | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# QAOAにおけるノイズ低減のためのグラフスペーサー化と分解の約束:トラップオンコンパイルの解析
Promise of Graph Sparsification and Decomposition for Noise Reduction in QAOA: Analysis for Trapped-Ion Compilations ( http://arxiv.org/abs/2406.14330v1 ) ライセンス: Link先を確認 | Jai Moondra, Philip C. Lotshaw, Greg Mohler, Swati Gupta, | (参考訳) 我々は,量子近似最適化アルゴリズム(QAOA)のコンパイルコストを大幅に削減する近似コンパイル手法を開発した。
Pauli-$X$演算とオールツーオールIsing Hamiltonian $H_\text{Ising}$進化をMolmer-Sorensenまたは光双極子力相互作用によって生成する。
前者は切断構造を維持しながらグラフのエッジ数を減らし、後者は重み付きグラフを少数の未重み付きグラフに分割する。
これらの手法は、様々なハイブリッド量子アルゴリズムのヒューリスティックとして使われてきたが、我々の知る限り、その性能は保証されていない。
この研究は、量子ノイズレジリエンスを改善し、量子回路の複雑さを低減するために、スペーシフィケーションと分解を用いた最初の証明可能な保証を提供する。
エッジ・バイ・エッジのQAOAコンパイルを使用する量子ハードウェアでは、スパーシフィケーションは回路の複雑さを減少させる。
すべての$H_\text{Ising}$パルスを実装したトラップイオン量子シミュレータの場合、Max-Cut近似の1-\epsilon>0)$係数の損失が$H_\text{Ising}$パルスの$H_\text{Ising}$パルスの$O(n^2)$から$O(n\log(n/\epsilon))$および$O(n^2)$から$O(n^2)$の$X$ビットフリップの$O(n^2)$から$O(n^2)$の$O(n\log(n/\epsilon)$O(n/\epsilon)$値の$H_\text{Ising}$パルスを改善することを示す。
我々は, トラップイオンハードウェアの理論と数値計算を用いた新しいコンパイル手法において, ノイズの顕著な低減が得られたことを実証した。
我々は、これらの近似コンパイル技術が、将来の量子コンピューティング実験において有用なツールになることを期待している。
We develop new approximate compilation schemes that significantly reduce the expense of compiling the Quantum Approximate Optimization Algorithm (QAOA) for solving the Max-Cut problem. Our main focus is on compilation with trapped-ion simulators using Pauli-$X$ operations and all-to-all Ising Hamiltonian $H_\text{Ising}$ evolution generated by Molmer-Sorensen or optical dipole force interactions, though some of our results also apply to standard gate-based compilations. Our results are based on principles of graph sparsification and decomposition; the former reduces the number of edges in a graph while maintaining its cut structure, while the latter breaks a weighted graph into a small number of unweighted graphs. Though these techniques have been used as heuristics in various hybrid quantum algorithms, there have been no guarantees on their performance, to the best of our knowledge. This work provides the first provable guarantees using sparsification and decomposition to improve quantum noise resilience and reduce quantum circuit complexity. For quantum hardware that uses edge-by-edge QAOA compilations, sparsification leads to a direct reduction in circuit complexity. For trapped-ion quantum simulators implementing all-to-all $H_\text{Ising}$ pulses, we show that for a $(1-\epsilon)$ factor loss in the Max-Cut approximation ($\epsilon>0)$, our compilations improve the (worst-case) number of $H_\text{Ising}$ pulses from $O(n^2)$ to $O(n\log(n/\epsilon))$ and the (worst-case) number of Pauli-$X$ bit flips from $O(n^2)$ to $O\left(\frac{n\log(n/\epsilon)}{\epsilon^2}\right)$ for $n$-node graphs. We demonstrate significant reductions in noise are obtained in our new compilation approaches using theory and numerical calculations for trapped-ion hardware. We anticipate these approximate compilation techniques will be useful tools in a variety of future quantum computing experiments. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# 参照の異なるフレームと重力の量子的性質におけるボース・マルレット・ヴェドラルの提案
The Bose-Marletto-Vedral proposal in different frames of reference and the quantum nature of gravity ( http://arxiv.org/abs/2406.14334v1 ) ライセンス: Link先を確認 | Antonia Weber, Vlatko Vedral, | (参考訳) BMV(Bose-Marletto-Vedral)実験における空間的絡み合いの観測は、重力場の非古典的性質の存在を実証するであろう。
一般相対性理論の線形状態の特殊相対論的不変性は、重力ポテンシャルのすべての成分が古典的でなければならないことを示す。
これは単に、異なる慣性フレーム間のBMV絡み合いを一貫して記述するために必要である。
一方,加速フレームの絡み合いは固定フレームの絡み合いと異なる可能性が示唆された。
Observing spatial entanglement in the Bose-Marletto-Vedral (BMV) experiment would demonstrate the existence of non-classical properties of the gravitational field. We show that the special relativistic invariance of the linear regime of general relativity implies that all the components of the gravitational potential must be non-classical. This is simply necessary in order to describe the BMV entanglement consistently across different inertial frames of reference. On the other hand, we show that the entanglement in accelerated frames could differ from that in stationary frames. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# テキスト分類のための自己教師付き解釈可能な概念ベースモデル
Self-supervised Interpretable Concept-based Models for Text Classification ( http://arxiv.org/abs/2406.14335v1 ) ライセンス: Link先を確認 | Francesco De Santis, Philippe Bich, Gabriele Ciravegna, Pietro Barbiero, Danilo Giordano, Tania Cerquitelli, | (参考訳) 彼らの成功にもかかわらず、Large-Language Models (LLMs) は、解釈可能性の欠如がコントロール可能性と信頼性を制限しているため、依然として批判に直面している。
伝統的なポストホック解釈法は、注意力と勾配に基づく分析に基づいて、モデルの意思決定プロセスについて限られた洞察を与える。
画像分野では、概念に基づくモデルは説明可能な設計アーキテクチャとして登場し、人間解釈可能な特徴を中間表現として利用している。
しかし,これらの手法がテキストデータにはまだ適用されていないのは,現実のテキストデータには実用的でない,高価な概念アノテーションを必要とするためである。
本稿では,自己教師型解釈可能概念埋め込みモデル(ICEM)を提案することで,この問題に対処する。
我々はLLMの一般化能力を活用し、自己教師付き方法で概念ラベルを予測し、解釈可能な関数で最終的な予測を行う。
実験の結果,ICEMは,完全教師付き概念ベースモデルやエンドツーエンドのブラックボックスモデルと同等の性能で,自己指導型で訓練可能であることがわかった。
さらに、私たちのモデルは
一 解釈可能で、その予測について有意義な論理的説明を提供すること。
(ii)対話可能で、人間が概念的介入を通じて中間的な予測を変更できるようにし、
3 LLMの復号処理を所要の意思決定経路に従うよう指示し、制御可能。
Despite their success, Large-Language Models (LLMs) still face criticism as their lack of interpretability limits their controllability and reliability. Traditional post-hoc interpretation methods, based on attention and gradient-based analysis, offer limited insight into the model's decision-making processes. In the image field, Concept-based models have emerged as explainable-by-design architectures, employing human-interpretable features as intermediate representations. However, these methods have not been yet adapted to textual data, mainly because they require expensive concept annotations, which are impractical for real-world text data. This paper addresses this challenge by proposing a self-supervised Interpretable Concept Embedding Models (ICEMs). We leverage the generalization abilities of LLMs to predict the concepts labels in a self-supervised way, while we deliver the final predictions with an interpretable function. The results of our experiments show that ICEMs can be trained in a self-supervised way achieving similar performance to fully supervised concept-based models and end-to-end black-box ones. Additionally, we show that our models are (i) interpretable, offering meaningful logical explanations for their predictions; (ii) interactable, allowing humans to modify intermediate predictions through concept interventions; and (iii) controllable, guiding the LLMs' decoding process to follow a required decision-making path. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# LLMを用いた歴史的湖沼地域テキストにおける空間表現の探索
Exploring Spatial Representations in the Historical Lake District Texts with LLM-based Relation Extraction ( http://arxiv.org/abs/2406.14336v1 ) ライセンス: Link先を確認 | Erum Haris, Anthony G. Cohn, John G. Stell, | (参考訳) 歴史物語の旅は、過去の風景の空間的な複雑さを明らかにする上での課題である。
提案された研究は、イングリッシュ・レイク・ディストリクトの文脈でこの問題に対処し、レイク・ディストリクト・ライティングのコーパスを採用した。
この方法は、コーパス内のテキスト記述から空間関係を抽出するために、生成事前学習型トランスフォーマーモデルを利用する。
この研究は、歴史物語に内在する空間次元を包括的に理解するために、この大きな言語モデルを適用した。
結果はセマンティック・トリプルとして表現され、実体と位置の間の微妙なつながりを捉え、ネットワークとして視覚化され、空間的物語のグラフィカルな表現を提供する。
この研究は、イングリッシュレイク地区の空間的タペストリーの深い理解に寄与し、様々な歴史的文脈における空間的関係を明らかにするためのアプローチを提供する。
Navigating historical narratives poses a challenge in unveiling the spatial intricacies of past landscapes. The proposed work addresses this challenge within the context of the English Lake District, employing the Corpus of the Lake District Writing. The method utilizes a generative pre-trained transformer model to extract spatial relations from the textual descriptions in the corpus. The study applies this large language model to understand the spatial dimensions inherent in historical narratives comprehensively. The outcomes are presented as semantic triples, capturing the nuanced connections between entities and locations, and visualized as a network, offering a graphical representation of the spatial narrative. The study contributes to a deeper comprehension of the English Lake District's spatial tapestry and provides an approach to uncovering spatial relations within diverse historical contexts. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# 学習速度適応確率勾配勾配勾配最適化法:偏微分方程式の深層学習法と収束解析のための数値シミュレーション
Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses ( http://arxiv.org/abs/2406.14340v1 ) ライセンス: Link先を確認 | Steffen Dereich, Arnulf Jentzen, Adrian Riekert, | (参考訳) 標準確率勾配勾配法(SGD)最適化法と、アダム最適化法のような加速および適応的なSGD最適化法は、学習率が0に収束しない場合(例えば、一定の学習率の状況において)収束することができないことが知られている。
数値シミュレーションでは、人間のチューニングによる決定論的学習率のスケジュールや、小さな一定の学習率を用いることが多い。
TensorFlowやPytorchといった機械学習実装フレームワークにおけるSGD最適化メソッドのデフォルトの学習率スケジュールは、一定の学習率である。
本研究では,最適化問題の目的関数(最小化を意図した関数)の値に対する経験的推定値に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
特に,Adamオプティマイザの学習速度適応版を提案し,いくつかのニューラルネットワーク学習問題,特に深いコルモゴロフ法,物理インフォームドニューラルネットワーク,ディープリッツ法といった偏微分方程式に対するディープラーニング近似手法の文脈において実装する。
提案した学習問題のそれぞれにおいて,提案したAdamオプティマイザの学習速度適応型変種は,デフォルトの学習率でAdamオプティマイザよりも目標関数の価値を早く低減する。
2次最小化問題の単純なクラスに対しては、SGD最適化法の学習速度適応型が最小化問題の最小化に収束することを厳密に証明する。
我々の収束証明は、SGD法の不変測度法則の解析と、我々が本研究で発展させたランダムだが予測可能な学習率を持つSGDのより一般的な収束解析に基づいている。
It is known that the standard stochastic gradient descent (SGD) optimization method, as well as accelerated and adaptive SGD optimization methods such as the Adam optimizer fail to converge if the learning rates do not converge to zero (as, for example, in the situation of constant learning rates). Numerical simulations often use human-tuned deterministic learning rate schedules or small constant learning rates. The default learning rate schedules for SGD optimization methods in machine learning implementation frameworks such as TensorFlow and Pytorch are constant learning rates. In this work we propose and study a learning-rate-adaptive approach for SGD optimization methods in which the learning rate is adjusted based on empirical estimates for the values of the objective function of the considered optimization problem (the function that one intends to minimize). In particular, we propose a learning-rate-adaptive variant of the Adam optimizer and implement it in case of several neural network learning problems, particularly, in the context of deep learning approximation methods for partial differential equations such as deep Kolmogorov methods, physics-informed neural networks, and deep Ritz methods. In each of the presented learning problems the proposed learning-rate-adaptive variant of the Adam optimizer faster reduces the value of the objective function than the Adam optimizer with the default learning rate. For a simple class of quadratic minimization problems we also rigorously prove that a learning-rate-adaptive variant of the SGD optimization method converges to the minimizer of the considered minimization problem. Our convergence proof is based on an analysis of the laws of invariant measures of the SGD method as well as on a more general convergence analysis for SGD with random but predictable learning rates which we develop in this work. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# HoTPPベンチマーク:ロング・ホライゾン・イベントの予測は良いか?
HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting? ( http://arxiv.org/abs/2406.14341v1 ) ライセンス: Link先を確認 | Ivan Karpukhin, Foma Shipilov, Andrey Savchenko, | (参考訳) ファイナンス、小売、ソーシャルネットワーク、ヘルスケアの応用を見つけるシーケンシャルなイベント予測において、重要なタスクは、指定された時間軸内で複数の将来のイベントを予測することである。
伝統的に、これはマーク付きテンポラルポイントプロセスのような次世代予測モデルを用いた自己回帰生成によって解決されてきた。
しかし、自己回帰法は将来の予測に独自の出力を使用し、予測の地平線が広がるにつれて品質が低下する可能性がある。
本稿では,新しいベンチマークであるHoTPPを導入することで,モデルが水平線上でイベント列を予測する能力を評価することによって,従来のアプローチに挑戦する。
このベンチマークは、コンピュータビジョンにおけるオブジェクト検出にインスパイアされた新しいメトリクスを特徴とし、不正確な時間ステップ予測を持つモデルを評価する際の既存のメトリクスの限界に対処する。
各種モデルを用いた定式化データセットの評価では,次点予測の精度が必ずしも優れた地平線予測に変換されないことが示され,その逆も示される。
HoTPPは、より堅牢なイベントシーケンス予測手法を開発するための貴重なツールとして機能することを目指している。
In sequential event prediction, which finds applications in finance, retail, social networks, and healthcare, a crucial task is forecasting multiple future events within a specified time horizon. Traditionally, this has been addressed through autoregressive generation using next-event prediction models, such as Marked Temporal Point Processes. However, autoregressive methods use their own output for future predictions, potentially reducing quality as the prediction horizon extends. In this paper, we challenge traditional approaches by introducing a novel benchmark, HoTPP, specifically designed to evaluate a model's ability to predict event sequences over a horizon. This benchmark features a new metric inspired by object detection in computer vision, addressing the limitations of existing metrics in assessing models with imprecise time-step predictions. Our evaluations on established datasets employing various models demonstrate that high accuracy in next-event prediction does not necessarily translate to superior horizon prediction, and vice versa. HoTPP aims to serve as a valuable tool for developing more robust event sequence prediction methods, ultimately paving the way for further advancements in the field. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# iWISDM: 大規模マルチモーダルモデルにおける命令追従の評価
iWISDM: Assessing instruction following in multimodal models at scale ( http://arxiv.org/abs/2406.14343v1 ) ライセンス: Link先を確認 | Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan, | (参考訳) 詳細な指示から複雑なタスクを実行する能力は、我々の種の多くの顕著な成果の鍵となる。
人間としては、幅広いタスクを実行するだけでなく、数百から数千のステップを完了させる、非常に複雑なタスクも実行できます。
テキスト入力と視覚入力を統合した大規模言語モデルとそのより最近のマルチモーダルモデルは、複雑なタスクの実行において前例のない成功を収めた。
しかし、既存のベンチマークのほとんどは単一のモダリティ入力(テキストやビジョン)に限られており、特にマルチモダリティコンテキストでのインストラクションフォローは、マルチモダリティアセスメントの範囲を狭めている。
このギャップを埋めるために,複雑度が変化する視覚言語タスクの制限のない配列を生成するために設計された,指示された仮想VISual Decision Making (iWISDM)環境を導入する。
iWISDMを用いて、様々な複雑さレベルにわたる視覚的タスクに追従する命令の3つの異なるベンチマークをコンパイルし、これらのベンチマーク上で新たに開発された複数のマルチモーダルモデルを評価した。
本研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令適合性を評価するための頑健なベンチマークとしてiWISDMを確立し,これらのモデルと人間の指示を正確に追従する能力の間に大きなギャップを浮き彫りにした。
The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# $\nabla^2$DFT: 薬物のような分子の普遍的な量子化学データセットとニューラルネットワークポテンシャルのベンチマーク
$\nabla^2$DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials ( http://arxiv.org/abs/2406.14347v1 ) ライセンス: Link先を確認 | Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin, | (参考訳) 計算量子化学の手法は、コンピュータ支援薬物発見やその他の化学分野において重要な分子特性の正確な近似を提供する。
しかし、高い計算複雑性はアプリケーションのスケーラビリティを制限します。
ニューラルネットワークポテンシャル(NNP)は量子化学法に代わる有望な代替手段であるが、トレーニングには大規模で多様なデータセットが必要である。
この研究は、nablaDFTをベースにした$\nabla^2$DFTと呼ばれる新しいデータセットとベンチマークを提示している。
分子構造の2倍、コンフォーメーションの3倍、新しいデータタイプとタスク、最先端のモデルを含んでいる。
このデータセットには、エネルギー、力、17の分子特性、ハミルトン行列と重なり合う行列、および波動関数オブジェクトが含まれる。
全ての計算はコンフォメーションごとにDFTレベル(\omega$B97X-D/def2-SVP)で実行された。
さらに、$\nabla^2$DFTは、かなりの数の薬物様分子に対する緩和軌道を含む最初のデータセットである。
また,分子特性予測,ハミルトン予測,コンフォメーション最適化タスクにおいて,NNPを評価するための新しいベンチマークを導入する。
最後に,NNPをトレーニングし,その内部に10のモデルを実装する拡張可能なフレームワークを提案する。
Methods of computational quantum chemistry provide accurate approximations of molecular properties crucial for computer-aided drug discovery and other areas of chemical science. However, high computational complexity limits the scalability of their applications. Neural network potentials (NNPs) are a promising alternative to quantum chemistry methods, but they require large and diverse datasets for training. This work presents a new dataset and benchmark called $\nabla^2$DFT that is based on the nablaDFT. It contains twice as much molecular structures, three times more conformations, new data types and tasks, and state-of-the-art models. The dataset includes energies, forces, 17 molecular properties, Hamiltonian and overlap matrices, and a wavefunction object. All calculations were performed at the DFT level ($\omega$B97X-D/def2-SVP) for each conformation. Moreover, $\nabla^2$DFT is the first dataset that contains relaxation trajectories for a substantial number of drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in molecular property prediction, Hamiltonian prediction, and conformational optimization tasks. Finally, we propose an extendable framework for training NNPs and implement 10 models within it. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# 速度論的に制約されたRydberg原子配列の非安定化性
Non-stabilizerness in kinetically-constrained Rydberg atom arrays ( http://arxiv.org/abs/2406.14348v1 ) ライセンス: Link先を確認 | Ryan Smith, Zlatko Papić, Andrew Hallam, | (参考訳) 非安定化器状態は普遍量子計算の基本的な資源である。
しかし、量子コンピューティングにおいて広範な重要性があるにもかかわらず、相互作用する量子系における「多くのボディ」非安定化剤の出現は、その解析的推論可能性のために理解されていない。
ここでは、Rydberg atom arraysは、単一の量子ビットを超えて拡張され、Rydberg ブロックによってもたらされる量子相関から生じる、非安定化性の自然な貯水池を提供することを示す。
この非安定化剤性は, クエンチダイナミックスや断熱的基底状態の調製によって, 相補的な2つの方法で実験的にアクセス可能であることを実証した。
行列積状態に基づく解析的枠組みを用いて、波動関数の量子回路分解によるライドバーグ非安定化の起源を説明する。
Non-stabilizer states are a fundamental resource for universal quantum computation. However,despite broad significance in quantum computing, the emergence of "many-body" non-stabilizerness in interacting quantum systems remains poorly understood due to its analytical intractability. Here we show that Rydberg atom arrays provide a natural reservoir of non-stabilizerness that extends beyond single qubits and arises from quantum correlations engendered by the Rydberg blockade. We demonstrate that this non-stabilizerness can be experimentally accessed in two complementary ways, either by performing quench dynamics or via adiabatic ground state preparation. Using the analytical framework based on matrix product states, we explain the origin of Rydberg nonstabilizerness via a quantum circuit decomposition of the wave function. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# 説明を信用できますか?特徴帰属手法の堅牢性テスト
Can you trust your explanations? A robustness test for feature attribution methods ( http://arxiv.org/abs/2406.14349v1 ) ライセンス: Link先を確認 | Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi, | (参考訳) 人工知能(AI)の使用に対する立法上の懸念の高まりは、最近、より透明で信頼性が高く、説明可能なAIを目指す一連の規制につながった。
これらの提案に加えて、説明可能なAI(XAI)の分野は急速に成長しているが、その技術の使用は時々予期せぬ結果をもたらした。
実際、アプローチのロバスト性は、しばしば見過ごされる重要な性質である: 結果が信頼できることを確実にするためには、説明の安定性(ランダムかつ逆の摂動)を評価する必要がある。
そこで本稿では,ニューラルネットワークや表層データセットに適用したXAI手法のロバスト性をより深く分析するためのアンサンブルアプローチと,非対角摂動に対するロバスト性を評価するテストを提案する。
多様体仮説とアンサンブルアプローチの活用が、ロバスト性の詳細な解析にどのように役立つかを示す。
The increase of legislative concerns towards the usage of Artificial Intelligence (AI) has recently led to a series of regulations striving for a more transparent, trustworthy and accountable AI. Along with these proposals, the field of Explainable AI (XAI) has seen a rapid growth but the usage of its techniques has at times led to unexpected results. The robustness of the approaches is, in fact, a key property often overlooked: it is necessary to evaluate the stability of an explanation (to random and adversarial perturbations) to ensure that the results are trustable. To this end, we propose a test to evaluate the robustness to non-adversarial perturbations and an ensemble approach to analyse more in depth the robustness of XAI methods applied to neural networks and tabular datasets. We will show how leveraging manifold hypothesis and ensemble approaches can be beneficial to an in-depth analysis of the robustness. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# ディープラーニングを用いたバイオメディカル画像分類における自動ラベルは手動ラベルに匹敵する効果
Automatic Labels are as Effective as Manual Labels in Biomedical Images Classification with Deep Learning ( http://arxiv.org/abs/2406.14351v1 ) ライセンス: Link先を確認 | Niccolò Marini, Stefano Marchesin, Lluis Borras Ferris, Simon Püttmann, Marek Wodzinski, Riccardo Fratti, Damian Podareanu, Alessandro Caputo, Svetla Boytcheva, Simona Vatrano, Filippo Fraggetta, Iris Nagtegaal, Gianmaria Silvello, Manfredo Atzori, Henning Müller, | (参考訳) バイオメディカルデータの増加は、バイオメディカルサンプルを分析するためのより堅牢なディープラーニング(DL)アルゴリズムの設計に役立っている。
現在、特定のタスクを実行するためにDLアルゴリズムを訓練する主な制限の1つは、医療専門家がデータをラベル付けする必要があることである。
ラベル付けのための自動手法は存在するが、自動ラベルはノイズになりうるため、DLモデルのトレーニングに自動ラベルをいつ採用できるかは明らかになっていない。
本稿では,WSI (Whole Slide Images) の分類に基づいて,DLモデルをトレーニングするために,自動ラベルをどのような状況で適用できるかを検討することを目的とする。
この分析には、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)などの複数のアーキテクチャと、セリアック病、肺癌、大腸癌の3つのユースケースから収集された10000以上のWSIが含まれており、それぞれバイナリ、マルチクラス、マルチラベルのデータを含んでいる。
結果は、WSIの分類のための競争モデルを訓練するためのノイズの多いラベルの比率として10%を特定できる。
したがって、自動ラベルを生成するアルゴリズムは、この基準に適合する必要がある。
セマンティック・ナレッジ・エクストラクタ・ツール(SKET)アルゴリズムを用いて自動ラベルを生成すると、手動ラベルで得られたものと同等の性能が得られる。
自動ラベルは手動ラベルと同じくらい有効であり、手動ラベルで得られたトレーニングモデルに匹敵する堅実なパフォーマンスに達する。
The increasing availability of biomedical data is helping to design more robust deep learning (DL) algorithms to analyze biomedical samples. Currently, one of the main limitations to train DL algorithms to perform a specific task is the need for medical experts to label data. Automatic methods to label data exist, however automatic labels can be noisy and it is not completely clear when automatic labels can be adopted to train DL models. This paper aims to investigate under which circumstances automatic labels can be adopted to train a DL model on the classification of Whole Slide Images (WSI). The analysis involves multiple architectures, such as Convolutional Neural Networks (CNN) and Vision Transformer (ViT), and over 10000 WSIs, collected from three use cases: celiac disease, lung cancer and colon cancer, which one including respectively binary, multiclass and multilabel data. The results allow identifying 10% as the percentage of noisy labels that lead to train competitive models for the classification of WSIs. Therefore, an algorithm generating automatic labels needs to fit this criterion to be adopted. The application of the Semantic Knowledge Extractor Tool (SKET) algorithm to generate automatic labels leads to performance comparable to the one obtained with manual labels, since it generates a percentage of noisy labels between 2-5%. Automatic labels are as effective as manual ones, reaching solid performance comparable to the one obtained training models with manual labels. | 翻訳日:2024-06-21 13:22:35 公開日:2024-06-20 |
# コンプトン散乱における絡み合いの進化の測定
Measuring the Evolution of Entanglement in Compton Scattering ( http://arxiv.org/abs/2406.14352v1 ) ライセンス: Link先を確認 | Igor Tkachev, Sultan Musin, Dzhonrid Abdurashitov, Alexander Baranov, Fedor Guber, Alexander Ivashkin, Alexander Strizhak, | (参考訳) コンプトン散乱における絡み合い測定の進化について検討した。
解析結果から, 散乱後に発生する2量子状態の一致と対応する測定値が一致していることが示唆された。
州は以前想定されていたものと対照的に、分離可能な州に崩壊することはない。
散乱中の量子絡み合いの挙動は、初期古典的に相関した光子の挙動と同一であり、定数係数は2に等しい。
これは局所量子場理論と一致しており、その一方の測定中に非局所的に絡み合った量子ビットの状態の変化を説明するのに「距離におけるスポーキーな作用」は必要ない。
消滅光子を用いた専用実験は、これらの結果を確認し、最近観察された「デコヒーレンスのパズル」を説明する。
The evolution of the entanglement measure during Compton scattering is studied. Our analytical results show that the corresponding measure coincides with the concurrence of the two-qubit state arising after scattering. The state never collapses to a separable one, contrary to what was previously assumed. The behavior of quantum entanglement during scattering is identical to the behavior of initially classically correlated photons up to a constant factor equal to two. This is consistent with local quantum field theory, and "spooky action at a distance" is not required to explain the change in state of nonlocally entangled qubits during the measurement of one of them. Our dedicated experiment with annihilation photons confirms these results and explains the "Puzzle of Decoherence" observed recently. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 論理・数学記号系処理のニューラル相関は自然言語処理よりも空間認知に類似している
The neural correlates of logical-mathematical symbol systems processing resemble that of spatial cognition more than natural language processing ( http://arxiv.org/abs/2406.14358v1 ) ライセンス: Link先を確認 | Yuannan Li, Shan Xu, Jia Liu, | (参考訳) 論理数学記号(LMS)を操る能力は、計算、推論、プログラミングといったタスクを包含しており、人間特有の認知スキルである。
ヒトの進化史におけるこの能力の比較的最近の出現を考えると、LMS処理はより基本的な認知システム、おそらくは神経細胞のリサイクルによって構築されることが示唆されている。
これまでの研究では、自然言語処理と空間認知という2つの主要な候補が指摘されてきた。
これらの領域間の既存の比較はタスクレベルの比較に大きく依存しており、タスクの慣用性によって構築される可能性がある。
本研究は,3つのLMSタスク,推論,計算,メンタルプログラミングに基づく自動メタアナリシスおよび合成マップを用いて,ドメインレベルでの神経相関を比較検討した。
言語処理とは対照的に,LMS処理と空間認知の間には,より大きな皮質重なりがみられた。
さらに、空間処理と言語処理の両方によって活性化される領域において、LMS処理の多変量活性化パターンは、言語処理よりも空間認知と多変量類似性を示した。
階層的クラスタリング分析により、典型的なLMSタスクは、神経レベルでの空間認知タスクと区別できないことが示され、これら2つの認知プロセスの間に固有の関係が示唆された。
本研究は,空間認知がLMS処理の基盤である可能性が示唆され,特に空間内容に明示的に重点を置いていないテキストデータに特化して訓練された大規模言語モデルの限界に光を当てる可能性があることを裏付けるものである。
The ability to manipulate logical-mathematical symbols (LMS), encompassing tasks such as calculation, reasoning, and programming, is a cognitive skill arguably unique to humans. Considering the relatively recent emergence of this ability in human evolutionary history, it has been suggested that LMS processing may build upon more fundamental cognitive systems, possibly through neuronal recycling. Previous studies have pinpointed two primary candidates, natural language processing and spatial cognition. Existing comparisons between these domains largely relied on task-level comparison, which may be confounded by task idiosyncrasy. The present study instead compared the neural correlates at the domain level with both automated meta-analysis and synthesized maps based on three representative LMS tasks, reasoning, calculation, and mental programming. Our results revealed a more substantial cortical overlap between LMS processing and spatial cognition, in contrast to language processing. Furthermore, in regions activated by both spatial and language processing, the multivariate activation pattern for LMS processing exhibited greater multivariate similarity to spatial cognition than to language processing. A hierarchical clustering analysis further indicated that typical LMS tasks were indistinguishable from spatial cognition tasks at the neural level, suggesting an inherent connection between these two cognitive processes. Taken together, our findings support the hypothesis that spatial cognition is likely the basis of LMS processing, which may shed light on the limitations of large language models in logical reasoning, particularly those trained exclusively on textual data without explicit emphasis on spatial content. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 進化的マルチタスクのためのトランスファーの学習
Learning to Transfer for Evolutionary Multitasking ( http://arxiv.org/abs/2406.14359v1 ) ライセンス: Link先を確認 | Sheng-Hao Wu, Yuxiao Huang, Xingyu Wu, Liang Feng, Zhi-Hui Zhan, Kay Chen Tan, | (参考訳) 進化的マルチタスク(EMT)は、マルチタスク最適化問題(MTOP)を解決するための新しいアプローチであり、かなりの研究関心を集めている。
暗黙のEMTは、進化演算子を用いてタスク間の知識伝達(KT)を可能にする重要な研究分野である。
しかしながら、暗黙のEMTにおける現在のアプローチは、限られた数の進化演算子を使用し、KTを実行するための進化状態の不十分な利用のため、適応性の課題に直面している。
これにより、様々なMTOPに対処する暗黙的なKTのポテンシャルを最適に活用できる。
これらの制約を克服するために,MTOPの効率的なKTポリシーを自動的に発見する新しいLearning to Transfer(L2T)フレームワークを提案する。
本フレームワークは,EMTプロセス内でのKT過程を,学習エージェントの戦略決定のシーケンスとして概念化する。
本稿では、いつ、どのように転送するかを決定するためのアクション定式化、進化状態の情報的特徴を持つ状態表現、収束と転送効率向上に関する報酬定式化、MTOPと対話するエージェントの環境を提案する。
我々はエージェントにアクター・クリティカル・ネットワーク構造を採用し、近似ポリシー最適化により学習する。
この学習されたエージェントは、様々な進化的アルゴリズムと統合することができ、新しいMTOPに対処する能力を高めることができる。
提案したL2Tフレームワークを検証するために,多種多様なタスク間関係,機能クラス,タスク分布を含む,総合的および実世界のMTOPに関する実証的研究を行った。
その結果,未確認MTOPの広帯域化にともなう暗黙EMTの適応性と性能は顕著に向上した。
Evolutionary multitasking (EMT) is an emerging approach for solving multitask optimization problems (MTOPs) and has garnered considerable research interest. The implicit EMT is a significant research branch that utilizes evolution operators to enable knowledge transfer (KT) between tasks. However, current approaches in implicit EMT face challenges in adaptability, due to the use of a limited number of evolution operators and insufficient utilization of evolutionary states for performing KT. This results in suboptimal exploitation of implicit KT's potential to tackle a variety of MTOPs. To overcome these limitations, we propose a novel Learning to Transfer (L2T) framework to automatically discover efficient KT policies for the MTOPs at hand. Our framework conceptualizes the KT process as a learning agent's sequence of strategic decisions within the EMT process. We propose an action formulation for deciding when and how to transfer, a state representation with informative features of evolution states, a reward formulation concerning convergence and transfer efficiency gain, and the environment for the agent to interact with MTOPs. We employ an actor-critic network structure for the agent and learn it via proximal policy optimization. This learned agent can be integrated with various evolutionary algorithms, enhancing their ability to address a range of new MTOPs. Comprehensive empirical studies on both synthetic and real-world MTOPs, encompassing diverse inter-task relationships, function classes, and task distributions are conducted to validate the proposed L2T framework. The results show a marked improvement in the adaptability and performance of implicit EMT when solving a wide spectrum of unseen MTOPs. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# イベント駆動型バンドル調整によるニューラルラジアンスフィールドの劣化
Deblurring Neural Radiance Fields with Event-driven Bundle Adjustment ( http://arxiv.org/abs/2406.14360v1 ) ライセンス: Link先を確認 | Yunshan Qi, Lin Zhu, Yifan Zhao, Nan Bao, Jia Li, | (参考訳) ニューラルラジアンス場(NeRF)は印象的な3次元表現学習と,高品質なマルチビュー画像を入力として,新しいビュー合成結果を実現する。
しかし、低照度かつ高速な動きシーンでは、画像内の動きのぼかしがしばしば発生し、NeRFの再構成品質は著しく低下する。
それまでの劣化したNeRF法は、露出時間中に情報を推定するのに苦労しており、動きのぼかしを正確にモデル化することができない。
対照的に、バイオインスパイアされたイベントカメラは、高時間分解能で強度の変化を測定することで、この情報不足を補う。
本稿では,複合イベントRGBデータを活用することで,学習可能なポーズとNeRFパラメータを協調的に最適化するイベント駆動結合調整(EBAD-NeRF)を提案する。
カメラモーションのぼかしの明示的なモデリングを強化するため、強度変化測定イベントロスと光度ボケロスを導入する。
合成データと実撮影データの両方の実験結果から、EBAD-NeRFは露光時間中に正確なカメラポーズを取得でき、従来よりもシャープな3D表現を学習できることが示されている。
Neural Radiance Fields (NeRF) achieve impressive 3D representation learning and novel view synthesis results with high-quality multi-view images as input. However, motion blur in images often occurs in low-light and high-speed motion scenes, which significantly degrade the reconstruction quality of NeRF. Previous deblurring NeRF methods are struggling to estimate information during the exposure time, unable to accurately model the motion blur. In contrast, the bio-inspired event camera measuring intensity changes with high temporal resolution makes up this information deficiency. In this paper, we propose Event-driven Bundle Adjustment for Deblurring Neural Radiance Fields (EBAD-NeRF) to jointly optimize the learnable poses and NeRF parameters by leveraging the hybrid event-RGB data. An intensity-change-metric event loss and a photo-metric blur loss are introduced to strengthen the explicit modeling of camera motion blur. Experiment results on both synthetic data and real captured data demonstrate that EBAD-NeRF can obtain accurate camera poses during the exposure time and learn sharper 3D representations compared to prior works. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 臨界エネルギーシステムにおけるAIモデルのロバスト性解析
Robustness Analysis of AI Models in Critical Energy Systems ( http://arxiv.org/abs/2406.14361v1 ) ライセンス: Link先を確認 | Pantelis Dogoulis, Matthieu Jimenez, Salah Ghamizi, Maxime Cordy, Yves Le Traon, | (参考訳) 本稿では、N-1$のセキュリティ基準の下で、電力グリッド運用のための最先端AIベースモデルのロバスト性を解析する。
これらのモデルは通常のグリッド設定では良好に動作しますが、その結果は行の切断後の精度が著しく低下していることを示します。
%以下である。
グラフ理論に基づく解析を用いて,ノード接続が損失に与える影響を実証する。
我々の研究は、重要なインフラのためのAI方法論の開発において、現実的なシナリオ的考察の必要性を強調した。
This paper analyzes the robustness of state-of-the-art AI-based models for power grid operations under the $N-1$ security criterion. While these models perform well in regular grid settings, our results highlight a significant loss in accuracy following the disconnection of a line.%under this security criterion. Using graph theory-based analysis, we demonstrate the impact of node connectivity on this loss. Our findings emphasize the need for practical scenario considerations in developing AI methodologies for critical infrastructure. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 通信効率の良いビザンチンレジリエントフェデレートゼロオーダー最適化
Communication-Efficient Byzantine-Resilient Federated Zero-Order Optimization ( http://arxiv.org/abs/2406.14362v1 ) ライセンス: Link先を確認 | Afonso de Sá Delgado Neto, Maximilian Egger, Mayank Bakshi, Rawad Bitar, | (参考訳) 我々は,ビザンチン断層に耐性を持つ,メモリ・通信効率の良いフェデレート学習のための最初のゼロオーダー最適化アルゴリズムであるCYBER-0を紹介する。
我々は、MNISTデータセットの広範な数値実験とRoBERTa-Largeの微調整により、CYBER-0は通信とメモリ効率の点で最先端のアルゴリズムより優れており、精度は同等であることを示す。
凸損失関数の収束に関する理論的保証を提供する。
We introduce CYBER-0, the first zero-order optimization algorithm for memory-and-communication efficient Federated Learning, resilient to Byzantine faults. We show through extensive numerical experiments on the MNIST dataset and finetuning RoBERTa-Large that CYBER-0 outperforms state-of-the-art algorithms in terms of communication and memory efficiency while reaching similar accuracy. We provide theoretical guarantees on its convergence for convex loss functions. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# Mask the Unknown: Assesing different Strategies to Handle Weak Annotation in the MICCAI2023 Mediastinal Lymph Node Quantification Challenge
Mask the Unknown: Assessing Different Strategies to Handle Weak Annotations in the MICCAI2023 Mediastinal Lymph Node Quantification Challenge ( http://arxiv.org/abs/2406.14365v1 ) ライセンス: Link先を確認 | Stefan M. Fischer, Johannes Kiechle, Daniel M. Lang, Jan C. Peeken, Julia A. Schnabel, | (参考訳) 病理リンパ節郭清は癌診断,進行性評価,治療計画に重要である。
MICCAI 2023 Lymph Node Quantification Challengeは、縦隔の病理リンパ節分節に関する最初の公開データセットを発表した。
リンパ節アノテーションは高価であるため、この課題は、トレーニングセット内のすべてのリンパ節のサブセットだけが注釈付けされている弱い教師付き学習タスクとして形成された。
課題として,ノイズラベルトレーニング,ラベルなしデータの損失マスキング,未知のボクセル数を減らすためにTotalSegmentatorツールボックスを擬似ラベリングの形式に統合するアプローチなど,これらの弱教師付きデータのトレーニング方法が検討された。
さらに、ディープラーニングモデルの性能向上のために、複数の公開TCIAデータセットをトレーニングに組み込んだ。
提案したモデルでは,Diceスコアが0.628,平均対称表面距離が5.8~mmであった。
提案したモデルにより,MICCAI2023 LNQチャレンジで3位となった。
病理組織学的リンパ節を含むすべての可視性リンパ節の統合は,検査セットの病理組織学的リンパ節の全体的なセグメンテーション性能を改善した。
さらに, 臨床に拡大したリンパ節のみを訓練したセグメンテーションモデルでは, より小さな病理リンパ節に一般化できなかった。
チャレンジ提出のコードとモデルは、 \url{https://gitlab.lrz.de/compai/MediastinalLymphNodeSegmentation}で公開されている。
Pathological lymph node delineation is crucial in cancer diagnosis, progression assessment, and treatment planning. The MICCAI 2023 Lymph Node Quantification Challenge published the first public dataset for pathological lymph node segmentation in the mediastinum. As lymph node annotations are expensive, the challenge was formed as a weakly supervised learning task, where only a subset of all lymph nodes in the training set have been annotated. For the challenge submission, multiple methods for training on these weakly supervised data were explored, including noisy label training, loss masking of unlabeled data, and an approach that integrated the TotalSegmentator toolbox as a form of pseudo labeling in order to reduce the number of unknown voxels. Furthermore, multiple public TCIA datasets were incorporated into the training to improve the performance of the deep learning model. Our submitted model achieved a Dice score of 0.628 and an average symmetric surface distance of 5.8~mm on the challenge test set. With our submitted model, we accomplished third rank in the MICCAI2023 LNQ challenge. A finding of our analysis was that the integration of all visible, including non-pathological, lymph nodes improved the overall segmentation performance on pathological lymph nodes of the test set. Furthermore, segmentation models trained only on clinically enlarged lymph nodes, as given in the challenge scenario, could not generalize to smaller pathological lymph nodes. The code and model for the challenge submission are available at \url{https://gitlab.lrz.de/compai/MediastinalLymphNodeSegmentation}. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# PoseBench: 崩壊時のポース推定モデルのロバスト性をベンチマークする
PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions ( http://arxiv.org/abs/2406.14367v1 ) ライセンス: Link先を確認 | Sihan Ma, Jing Zhang, Qiong Cao, Dacheng Tao, | (参考訳) ポース推定は、ヒトと動物の解剖学的キーポイントをモノクル画像を用いて正確に識別することを目的としており、これは人間と機械の相互作用、具体化AI、自律運転など様々な用途に不可欠である。
現在のモデルは有望な結果を示しているが、それらは典型的にはクリーンなデータでトレーニングされ、テストされる。
この問題に対処するために、実世界の腐敗に対するポーズ推定モデルの堅牢性を評価するために設計された総合的なベンチマークであるPoseBenchを紹介する。
トップダウン,ボトムアップ,ヒートマップベース,レグレッションベース,分類ベースを含む60の代表的なモデルを,ヒトと動物のポーズ推定のための3つのデータセットで評価した。
評価には4つのカテゴリーで10種類の汚職が関係している。
1)ぼやけと騒音
2)圧縮と色損失
3)厳しい照明、そして
4) マスク。
以上の結果から,現状のモデルでは,一般的な現実世界の腐敗に対して脆弱であり,人間と動物のポーズ推定タスクに対処する際,異なる行動を示すことが明らかとなった。
モデルの堅牢性を改善するため、入力解決、事前トレーニングデータセット、バックボーン容量、後処理、データ拡張など、さまざまな設計上の考慮事項を掘り下げる。
当社のベンチマークが、堅牢なポーズ推定研究の基盤になることを期待しています。
ベンチマークとソースコードはhttps://xymsh.github.io/PoseBenchで公開される。
Pose estimation aims to accurately identify anatomical keypoints in humans and animals using monocular images, which is crucial for various applications such as human-machine interaction, embodied AI, and autonomous driving. While current models show promising results, they are typically trained and tested on clean data, potentially overlooking the corruption during real-world deployment and thus posing safety risks in practical scenarios. To address this issue, we introduce PoseBench, a comprehensive benchmark designed to evaluate the robustness of pose estimation models against real-world corruption. We evaluated 60 representative models, including top-down, bottom-up, heatmap-based, regression-based, and classification-based methods, across three datasets for human and animal pose estimation. Our evaluation involves 10 types of corruption in four categories: 1) blur and noise, 2) compression and color loss, 3) severe lighting, and 4) masks. Our findings reveal that state-of-the-art models are vulnerable to common real-world corruptions and exhibit distinct behaviors when tackling human and animal pose estimation tasks. To improve model robustness, we delve into various design considerations, including input resolution, pre-training datasets, backbone capacity, post-processing, and data augmentations. We hope that our benchmark will serve as a foundation for advancing research in robust pose estimation. The benchmark and source code will be released at https://xymsh.github.io/PoseBench | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 銀行チェックセキュリティの強化: 検出と検証のための新しいデータセットとトランスフォーマーベースのアプローチの導入
Enhanced Bank Check Security: Introducing a Novel Dataset and Transformer-Based Approach for Detection and Verification ( http://arxiv.org/abs/2406.14370v1 ) ライセンス: Link先を確認 | Muhammad Saif Ullah Khan, Tahira Shehzadi, Rabeya Noor, Didier Stricker, Muhammad Zeshan Afzal, | (参考訳) 銀行小切手の自動署名検証は不正防止と取引の信頼性確保に不可欠である。
この課題は、現実世界の文書上の他のテキストおよびグラフィカル要素とシグネチャが共存しているため、困難である。
検証システムはまず署名を検出し、その真正性を検証する必要がある。
このギャップに対処するため,銀行小切手の署名検証に特化して設計された新しいデータセットを提案する。
このデータセットには、一般的なチェック要素に埋め込まれたさまざまなシグネチャスタイルが含まれており、高度な検出方法のための現実的なテストグラウンドを提供する。
さらに,オブジェクト検出ネットワークを用いた文字非依存署名検証のための新しい手法を提案する。
検出に基づく検証手法では、オブジェクト検出フレームワーク内の真偽と偽の署名を別クラスとして扱い、検出と検証の両方を効果的に処理する。
我々はDINOベースのネットワークを拡張モジュールで拡張し、チェック画像上の署名を同時に検出し、検証する。
提案手法は,偽シグネチャが99.2,偽シグネチャが99.4,DINOベースラインが93.1,偽シグネチャが89.3,それぞれ大幅に改善された。
この改善は、偽陽性と陰性の両方を減らすための拡張モジュールの有効性を強調します。
本研究は,ファイナンシャル文書処理におけるセキュリティと効率を向上した,検出に基づく署名検証技術の大幅な進歩を示すものである。
Automated signature verification on bank checks is critical for fraud prevention and ensuring transaction authenticity. This task is challenging due to the coexistence of signatures with other textual and graphical elements on real-world documents. Verification systems must first detect the signature and then validate its authenticity, a dual challenge often overlooked by current datasets and methodologies focusing only on verification. To address this gap, we introduce a novel dataset specifically designed for signature verification on bank checks. This dataset includes a variety of signature styles embedded within typical check elements, providing a realistic testing ground for advanced detection methods. Moreover, we propose a novel approach for writer-independent signature verification using an object detection network. Our detection-based verification method treats genuine and forged signatures as distinct classes within an object detection framework, effectively handling both detection and verification. We employ a DINO-based network augmented with a dilation module to detect and verify signatures on check images simultaneously. Our approach achieves an AP of 99.2 for genuine and 99.4 for forged signatures, a significant improvement over the DINO baseline, which scored 93.1 and 89.3 for genuine and forged signatures, respectively. This improvement highlights our dilation module's effectiveness in reducing both false positives and negatives. Our results demonstrate substantial advancements in detection-based signature verification technology, offering enhanced security and efficiency in financial document processing. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 人工レヴィアサン : ホッベシアン社会契約理論のレンズを通して LLM エージェントの社会進化を探る
Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory ( http://arxiv.org/abs/2406.14373v1 ) ライセンス: Link先を確認 | Gordon Dai, Weijia Zhang, Jinhan Li, Siqi Yang, Chidera Onochie lbe, Srihas Rao, Arthur Caetano, Misha Sra, | (参考訳) 大規模言語モデル(LLM)の出現と人工知能(AI)の進歩は、大規模に計算社会科学研究の機会を提供する。
LLMエージェント設計の先行調査に基づいて、複雑な社会的関係が時間とともに動的に形成・進化するシミュレーションエージェント社会を導入する。
エージェントには心理的なドライブが埋め込まれ、サンドボックスサバイバル環境に置かれる。
我々はトーマス・ホッブスのセミナル社会契約理論(SCT)のレンズを通してエージェント社会の評価を行う。
我々は、この理論が仮定しているように、エージェントが秩序と安全保障と引き換えに絶対的な主権を放棄することで、残酷な「自然の状態」から逃れようとするかどうかを分析する。
当初、エージェントは制約のない紛争に関わり、ホッブスの自然状態の描写を反映していました。
しかし、シミュレーションが進むにつれて、社会的契約が出現し、絶対的な主権の承認と相互協力に基づく平和的な共通目標の確立につながった。
このLLMエージェント・ソサエティの進化軌道とホッブスの理論的な説明の一致は、LLMが複雑な社会力学をモデル化し、人間の社会を形成する力を潜在的に再現する能力を示している。
集団行動や創発的な社会現象に関する洞察を可能とすることで、LLM駆動のマルチエージェントシミュレーションは、人間の行動のすべてのニュアンスをシミュレートすることができないが、社会構造、グループダイナミクス、複雑な人間のシステムに対する理解を深める可能性を秘めている。
The emergence of Large Language Models (LLMs) and advancements in Artificial Intelligence (AI) offer an opportunity for computational social science research at scale. Building upon prior explorations of LLM agent design, our work introduces a simulated agent society where complex social relationships dynamically form and evolve over time. Agents are imbued with psychological drives and placed in a sandbox survival environment. We conduct an evaluation of the agent society through the lens of Thomas Hobbes's seminal Social Contract Theory (SCT). We analyze whether, as the theory postulates, agents seek to escape a brutish "state of nature" by surrendering rights to an absolute sovereign in exchange for order and security. Our experiments unveil an alignment: Initially, agents engage in unrestrained conflict, mirroring Hobbes's depiction of the state of nature. However, as the simulation progresses, social contracts emerge, leading to the authorization of an absolute sovereign and the establishment of a peaceful commonwealth founded on mutual cooperation. This congruence between our LLM agent society's evolutionary trajectory and Hobbes's theoretical account indicates LLMs' capability to model intricate social dynamics and potentially replicate forces that shape human societies. By enabling such insights into group behavior and emergent societal phenomena, LLM-driven multi-agent simulations, while unable to simulate all the nuances of human behavior, may hold potential for advancing our understanding of social structures, group dynamics, and complex human systems. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# 心電図に基づく心血管疾患検出のための計算効率のよい半教師付き学習法
Computation-Efficient Semi-Supervised Learning for ECG-based Cardiovascular Diseases Detection ( http://arxiv.org/abs/2406.14377v1 ) ライセンス: Link先を確認 | Rushuang Zhou, Zijun Liu, Lei Clifton, David A. Clifton, Kannie W. Y. Chan, Yuan-Ting Zhang, Yining Dong, | (参考訳) 心電図(ECG)を用いた自動心血管疾患(CVD)検出におけるディープラーニングシステムの広範な適用を妨げる主な課題はラベル不足である。
トレーニング済みのモデルをチューニングすることで、大規模なデータセットから下流の小さなデータセットに学習した知識を転送することで、この問題を軽減することができる。
しかし、計算効率とCVDの検出性能のボトルネックは臨床応用を制限する。
モデル計算効率を著しく犠牲にすることなく検出性能を向上させることは困難である。
本稿では、ECGを用いた堅牢かつ計算効率の高いCVD検出のための計算効率の高い半教師付き学習パラダイム(FastECG)を提案する。
これは、限られた監督と高い計算効率で、下流データセットに事前訓練されたモデルの堅牢な適応を可能にする。
第一に、事前学習重量のロバストかつ高速な低ランク適応を実現するためにランダムデアクティベーション技術を開発した。
次に,事前訓練した重みの更新行列に対する最適なランクを決定するために,ワンショットのランク割り当てモジュールを提案する。
最後に、ラベル付きおよびラベルなしデータを高い計算効率で活用することにより、モデル性能を向上させるために、軽量な半教師付き学習パイプラインを導入する。
4つのダウンストリームECGデータセットに対する大規模な実験により、FastECGはマルチラベルCVD検出における最先端メソッドよりも優れるだけでなく、GPUフットプリント、トレーニング時間、パラメータストレージスペースも少ないことが示されている。
このように、このパラダイムは、限られた監督下で訓練済みモデルの臨床応用において、高い計算効率と堅牢な検出性能を達成するための効果的なソリューションを提供する。
Label scarcity problem is the main challenge that hinders the wide application of deep learning systems in automatic cardiovascular diseases (CVDs) detection using electrocardiography (ECG). Tuning pre-trained models alleviates this problem by transferring knowledge learned from large datasets to downstream small datasets. However, bottlenecks in computational efficiency and CVDs detection performance limit its clinical applications. It is difficult to improve the detection performance without significantly sacrificing model computational efficiency. Here, we propose a computation-efficient semi-supervised learning paradigm (FastECG) for robust and computation-efficient CVDs detection using ECG. It enables a robust adaptation of pre-trained models on downstream datasets with limited supervision and high computational efficiency. First, a random-deactivation technique is developed to achieve robust and fast low-rank adaptation of pre-trained weights. Subsequently, we propose a one-shot rank allocation module to determine the optimal ranks for the update matrices of the pre-trained weights. Finally, a lightweight semi-supervised learning pipeline is introduced to enhance model performance by leveraging labeled and unlabeled data with high computational efficiency. Extensive experiments on four downstream ECG datasets demonstrate that FastECG not only outperforms the state-of-the-art methods in multi-label CVDs detection but also consumes fewer GPU footprints, training time, and parameter storage space. As such, this paradigm provides an effective solution for achieving high computational efficiency and robust detection performance in the clinical applications of pre-trained models under limited supervision. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# Recommender Interferenceによる治療効果の推定:構造化ニューラルネットワークによるアプローチ
Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach ( http://arxiv.org/abs/2406.14380v1 ) ライセンス: Link先を確認 | Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang, | (参考訳) レコメンダシステムは、パーソナライズされたコンテンツをキュレートすることによって、コンテンツ共有プラットフォームに不可欠である。
コンテンツクリエーターを対象としたレコメンデーターシステムの更新を評価するため、プラットフォームは、新しい(vs. the status quo)アルゴリズムがプラットフォームにデプロイされた場合の結果の差として定義される治療効果を推定するために、クリエーター側のランダム化実験に頻繁に従事する。
標準差分推定器は, 偏りのある処理効果を推定できることを示す。
このバイアスは、レコメンデーターの干渉によって生じ、これは、治療とコントロールのクリエーターがレコメンデーターシステムを通じて露出を競うときに発生する。
本稿では、コンテンツアイテムの扱いと制御の両方からなるプールの中から、アイテムをどのように選択するかをキャプチャする「レコメンダ選択モデル」を提案する。
構造選択モデルとニューラルネットワークを組み合わせることで、このフレームワークは、リッチなビューアー・コンテントの不均一性を考慮しつつ、マイクロファウンデーション方式で干渉経路を直接モデル化する。
このモデルを用いて、一貫した漸近的に正常な治療効果の二重偏差推定器を構築する。
Weixin短ビデオプラットフォーム上でのフィールド実験により実験性能を実証し、標準クリエータ側実験に加えて、コストのかかる2面ランダム化設計を行い、干渉バイアスを伴わないベンチマーク推定値を得る。
提案した推定器は,標準差分推定器と比較して処理効果推定のバイアスを著しく低減することを示した。
Recommender systems are essential for content-sharing platforms by curating personalized content. To evaluate updates of recommender systems targeting content creators, platforms frequently engage in creator-side randomized experiments to estimate treatment effect, defined as the difference in outcomes when a new (vs. the status quo) algorithm is deployed on the platform. We show that the standard difference-in-means estimator can lead to a biased treatment effect estimate. This bias arises because of recommender interference, which occurs when treated and control creators compete for exposure through the recommender system. We propose a "recommender choice model" that captures how an item is chosen among a pool comprised of both treated and control content items. By combining a structural choice model with neural networks, the framework directly models the interference pathway in a microfounded way while accounting for rich viewer-content heterogeneity. Using the model, we construct a double/debiased estimator of the treatment effect that is consistent and asymptotically normal. We demonstrate its empirical performance with a field experiment on Weixin short-video platform: besides the standard creator-side experiment, we carry out a costly blocked double-sided randomization design to obtain a benchmark estimate without interference bias. We show that the proposed estimator significantly reduces the bias in treatment effect estimates compared to the standard difference-in-means estimator. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# エンベジン触媒を用いたテレポーテーション
Teleportation with Embezzling Catalysts ( http://arxiv.org/abs/2406.14386v1 ) ライセンス: Link先を確認 | Junjing Xing, Yuqi Li, Dengke Qu, Lei Xiao, Zhaobing Fan, Haitao Ma, Peng Xue, Kishor Bharti, Dax Enshan Koh, Yunlong Xiao, | (参考訳) 量子テレポーテーション(quantum teleportation)は、古典的な通信と事前共有の絡み合いを用いて量子情報を転送する過程である。
このプロセスは、消費されることなくテレポーテーションを強化することができるアシリーエンタングル状態である触媒の使用の恩恵を受けることができる。
脱活性化中の化学触媒は、不活性化の影響を受けない触媒よりも性能が劣るが、量子触媒は、不活性化の対象となるエンベジング触媒と呼ばれ、驚くほど非活性化触媒よりも優れている。
本研究では, エンベジング触媒を用いたテレポーテーションプロトコルを任意に高忠実性, すなわち, 有限次元エンベジング触媒を用いて, テレポーテーション状態を元の状態に任意に近づけることができる。
いくつかのエンベジリング触媒は普遍的であり, 事前に隠された絡み合いに対して, テレポーテーションの忠実度を向上させることができることを示す。
また,触媒消費を増大させることなく触媒の寸法を小さくする方法についても検討する。
Quantum teleportation is the process of transferring quantum information using classical communication and pre-shared entanglement. This process can benefit from the use of catalysts, which are ancillary entangled states that can enhance teleportation without being consumed. While chemical catalysts undergoing deactivation invariably exhibit inferior performance compared to those unaffected by deactivation, quantum catalysts, termed embezzling catalysts, that are subject to deactivation, may surprisingly outperform their non-deactivating counterparts. In this work, we present teleportation protocols with embezzling catalyst that can achieve arbitrarily high fidelity, namely the teleported state can be made arbitrarily close to the original state, with finite-dimensional embezzling catalysts. We show that some embezzling catalysts are universal, meaning that they can improve the teleportation fidelity for any pre-shared entanglement. We also explore methods to reduce the dimension of catalysts without increasing catalyst consumption, an essential step towards realizing quantum catalysis in practice. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# アクティブ拡散サブサンプリング
Active Diffusion Subsampling ( http://arxiv.org/abs/2406.14388v1 ) ライセンス: Link先を確認 | Oisin Nolan, Tristan S. W. Stevens, Wessel L. van Nierop, Ruud J. G. van Sloun, | (参考訳) サブサンプリングは、時間やエネルギー要求などのデータ取得に伴うコストを軽減し、部分的に測定された$y$から、完全にサンプリングされた信号のx$を推定するアルゴリズムの開発を動機付けるのが一般的である。
最大エントロピーサンプリングでは、最も高いエントロピーを持つと思われる測定位置を選択し、約$x$の不確実性を最小化する。
このアプローチは、これまでの観測結果から、将来の測定よりも後方分布の正確なモデルに依存している。
近年,拡散モデルにより誘導拡散を用いた高次元信号の高品質後部サンプルが得られた。
本研究では, モデルが逆拡散過程を通じて$x$の真状態上の信念の分布を追跡し, 最大エントロピーで測定値を取得することを選択し, 最終的に後続分布$p(x | y)$を生成するような, アクティブなサブサンプリングを行う手法であるアクティブ拡散サブサンプリング(ADS)を提案する。
ADSは、任意のサブサンプリングレートに対して事前トレーニングされた拡散モデルを使用して適用することができ、タスク固有の再トレーニング(測定モデルの仕様のみ)を必要としない。
さらに、ADSが採用する最大エントロピーサンプリングポリシーは解釈可能であり、ブラックボックスポリシーを用いた既存の手法と比較して透明性を高めている。
実験により, ADSは固定サンプリング手法より優れており, 高速MRIデータセットを用いた磁気共鳴イメージング加速におけるADSの応用について検討し, ADSが教師付き手法と競合することを示した。
コードはhttps://active-diffusion-subsampling.github.io/で公開されている。
Subsampling is commonly used to mitigate costs associated with data acquisition, such as time or energy requirements, motivating the development of algorithms for estimating the fully-sampled signal of interest $x$ from partially observed measurements $y$. In maximum-entropy sampling, one selects measurement locations that are expected to have the highest entropy, so as to minimize uncertainty about $x$. This approach relies on an accurate model of the posterior distribution over future measurements, given the measurements observed so far. Recently, diffusion models have been shown to produce high-quality posterior samples of high-dimensional signals using guided diffusion. In this work, we propose Active Diffusion Subsampling (ADS), a method for performing active subsampling using guided diffusion in which the model tracks a distribution of beliefs over the true state of $x$ throughout the reverse diffusion process, progressively decreasing its uncertainty by choosing to acquire measurements with maximum expected entropy, and ultimately generating the posterior distribution $p(x | y)$. ADS can be applied using pre-trained diffusion models for any subsampling rate, and does not require task-specific retraining - just the specification of a measurement model. Furthermore, the maximum entropy sampling policy employed by ADS is interpretable, enhancing transparency relative to existing methods using black-box policies. Experimentally, we show that ADS outperforms fixed sampling strategies, and study an application of ADS in Magnetic Resonance Imaging acceleration using the fastMRI dataset, finding that ADS performs competitively with supervised methods. Code available at https://active-diffusion-subsampling.github.io/. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# フォトニック結晶空洞を用いた効率的な一重項スピンキュービット-繊維界面
An efficient singlet-triplet spin qubit to fiber interface assisted by a photonic crystal cavity ( http://arxiv.org/abs/2406.14392v1 ) ライセンス: Link先を確認 | Kui Wu, Sebastian Kindel, Thomas Descamps, Tobias Hangleiter, Jan Christoph Müller, Rebecca Rodrigo, Florian Merget, Hendrik Bluhm, Jeremy Witzens, | (参考訳) 我々は,光量子通信応用の新たな展望を提供するため,シングルトリップスピン量子ビットとフォトニック量子ビットの間に新しい光インタフェースを導入する。
界面は220nmの厚みを持つGaAs/Al-GaAsヘテロ構造膜に基づいており、ゲート定義のシングルト・トリップ・キュービット、ゲート定義の光学活性量子ドット、フォトニック結晶キャビティ、およびボットトム金反射器を備えている。
すべての必須コンポーネントはリソグラフィで定義され、決定論的に製造できるため、オンチップ・イン・テグレーションのスケーラビリティが大幅に向上する。
FDTDシミュレーションによると、この界面は、反射体と膜の間の空間を埋めるSiO2層を仮定して、自由空間ガウスビームに28.7%の結合効率を提供する。
このSiO2層をフォトニック結晶の下方に減圧することで、さらに48.5%まで性能を向上することができる。
We introduce a novel optical interface between a singlet-triplet spin qubit and a photonic qubit which would offer new prospects for future quantum communication applications. The interface is based on a 220 nm thick GaAs/Al-GaAs heterostructure membrane and features a gate-defined singlet-triplet qubit, a gate-defined optically active quantum dot, a photonic crystal cavity and a bot-tom gold reflector. All essential components can be lithographically defined and deterministically fabricated, which greatly increases the scalability of on-chip in-tegration. According to our FDTD simulations, the interface provides an overall coupling efficiency of 28.7% into a free space Gaussian beam, assuming an SiO2 interlayer filling the space between the reflector and the membrane. The performance can be further increased to 48.5% by undercutting this SiO2 interlayer below the photonic crystal. | 翻訳日:2024-06-21 13:12:50 公開日:2024-06-20 |
# Reward Misspecification 問題としての脱獄
Jailbreaking as a Reward Misspecification Problem ( http://arxiv.org/abs/2406.14393v1 ) ライセンス: Link先を確認 | Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong, | (参考訳) 大規模言語モデル(LLM)の普及は、その安全性と信頼性、特に敵の攻撃に対する脆弱性に対する懸念を引き起こしている。
本稿では,この脆弱性をアライメント過程における不特定性に寄与する新たな視点を提案する。
本稿では,報酬の誤特定の程度を定量化するための指標ReGapを紹介し,有害なバックドアプロンプトを検出する上での有効性とロバスト性を示す。
これらの知見に基づいて、様々な目標に整列したLDMに対して対向的なプロンプトを生成する自動レッドチーム作成システムであるReMissを提案する。
ReMissは、生成されたプロンプトの可読性を保ちながら、AdvBenchベンチマークにおける最先端の攻撃成功率を達成する。
詳細な分析は、提案された報酬の不特定目標によってもたらされる独特な利点を以前の方法と比較して強調する。
The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# SEC-QA:金融QAのためのシステム評価企業
SEC-QA: A Systematic Evaluation Corpus for Financial QA ( http://arxiv.org/abs/2406.14394v1 ) ライセンス: Link先を確認 | Viet Dac Lai, Michael Krumdick, Charles Lovering, Varshini Reddy, Craig Schmidt, Chris Tanner, | (参考訳) 金融分野では、日々の業務に欠かせない大量の長い文書を扱うことが多い。
財務データ分析の自動化に多大な努力が払われている。
しかし、金融分野に限らず永続的な課題は、モデル評価のための現実世界のタスクを正確に反映するデータセットの不足である。
既存のデータセットは、多くの場合、サイズ、コンテキスト、実用的なアプリケーションとの関連性によって制約される。
さらに、LLMは現在、数兆のトークンでトレーニングされており、未バイアス評価のためのトレーニング中にモデルが遭遇していない新しいデータやドキュメントへのアクセスを制限している。
SEC-QAは,2つの重要な特徴を持つ継続的データセット生成フレームワークである。
1 質問応答(QA)の半自動生成は、現実の金融シナリオをより良く表現する複数の長期的財務文書にまたがる。
2) 最新の公開ドキュメントコレクションを使用してデータセットを継続的に更新する機能。
実験の結果,現在の検索拡張生成手法は,これらの難解な多文書質問に体系的に答えられていないことがわかった。
そこで我々は,複雑な情報検索と量的推論パイプラインの実行能力を向上させるプログラム・オブ・思想に基づくQAシステムを導入し,QAの精度を向上する。
The financial domain frequently deals with large numbers of long documents that are essential for daily operations. Significant effort is put towards automating financial data analysis. However, a persistent challenge, not limited to the finance domain, is the scarcity of datasets that accurately reflect real-world tasks for model evaluation. Existing datasets are often constrained by size, context, or relevance to practical applications. Moreover, LLMs are currently trained on trillions of tokens of text, limiting access to novel data or documents that models have not encountered during training for unbiased evaluation. We propose SEC-QA, a continuous dataset generation framework with two key features: 1) the semi-automatic generation of Question-Answer (QA) pairs spanning multiple long context financial documents, which better represent real-world financial scenarios; 2) the ability to continually refresh the dataset using the most recent public document collections, not yet ingested by LLMs. Our experiments show that current retrieval augmented generation methods systematically fail to answer these challenging multi-document questions. In response, we introduce a QA system based on program-of-thought that improves the ability to perform complex information retrieval and quantitative reasoning pipelines, thereby increasing QA accuracy. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# 量子触媒との通信
Communication with Quantum Catalysts ( http://arxiv.org/abs/2406.14395v1 ) ライセンス: Link先を確認 | Yuqi Li, Junjing Xing, Dengke Qu, Lei Xiao, Zhaobing Fan, Zhu-Jun Zheng, Haitao Ma, Peng Xue, Kishor Bharti, Dax Enshan Koh, Yunlong Xiao, | (参考訳) コミュニケーションは科学と技術の進歩に不可欠である。
特に量子通信は、触媒の使用による利点がある。
通信プロセスの間、これらの触媒は、変化のないまま性能を高める。
脱活性化する化学触媒は、通常、影響を受けない触媒よりも悪化するが、エンベジング触媒と呼ばれる量子触媒は、わずかに変化したにもかかわらず、驚くほど非活性化触媒よりも優れている。
本研究では,量子および古典情報の両方の透過性を高めるために,エンベジング量子触媒を用いる。
その結果, エンベジング触媒を用いることで, ノイズの多い量子チャネル間の情報伝達効率が向上し, 非ゼロ触媒チャネルのキャパシティが確保されることがわかった。
さらに,触媒のエンベジングによって古典情報の伝達が促進されることを示す。
最後に, 触媒の次元性を減少させる手法について検討し, 量子触媒を実用化に向けての一歩を踏み出した。
Communication is essential for advancing science and technology. Quantum communication, in particular, benefits from the use of catalysts. During the communication process, these catalysts enhance performance while remaining unchanged. Although chemical catalysts that undergo deactivation typically perform worse than those that remain unaffected, quantum catalysts, referred to as embezzling catalysts, can surprisingly outperform their non-deactivating counterparts despite experiencing slight alterations. In this work, we employ embezzling quantum catalysts to enhance the transmission of both quantum and classical information. Our results reveal that using embezzling catalysts augments the efficiency of information transmission across noisy quantum channels, ensuring a non-zero catalytic channel capacity. Furthermore, we introduce catalytic superdense coding, demonstrating how embezzling catalysts can enhance the transmission of classical information. Finally, we explore methods to reduce the dimensionality of catalysts, a step toward making quantum catalysis a practical reality. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# ATAC-Net: Zoomed Viewは異常検出に適している
ATAC-Net: Zoomed view works better for Anomaly Detection ( http://arxiv.org/abs/2406.14398v1 ) ライセンス: Link先を確認 | Shaurya Gupta, Neil Gautam, Anurag Malyala, | (参考訳) 視覚異常検出におけるディープラーニングの適用は、品質管理や製造における潜在的な使用により、広く普及している。
現在の標準メソッドはUnsupervisedで、クリーンなデータセットを使用して、テスト中の逸脱やフラグの異常を検出する。
しかし、前もって異常のタイプが分かっていれば、いくつかのサンプルを組み込むことで、性能が大幅に向上する。
そこで本研究では,最小限の事前異常から異常を検出するためのフレームワークであるATAC-Netを提案する。
さらに,訓練期間中の被疑領域をより深く把握する,注意誘導型作付けも導入した。
我々のフレームワークは、異常を検出するための信頼性が高く理解しやすいシステムであり、その優位性を、同等の設定で現在の最先端技術と比較する。
The application of deep learning in visual anomaly detection has gained widespread popularity due to its potential use in quality control and manufacturing. Current standard methods are Unsupervised, where a clean dataset is utilised to detect deviations and flag anomalies during testing. However, incorporating a few samples when the type of anomalies is known beforehand can significantly enhance performance. Thus, we propose ATAC-Net, a framework that trains to detect anomalies from a minimal set of known prior anomalies. Furthermore, we introduce attention-guided cropping, which provides a closer view of suspect regions during the training phase. Our framework is a reliable and easy-to-understand system for detecting anomalies, and we substantiate its superiority to some of the current state-of-the-art techniques in a comparable setting. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# WEATHER-5K: 総合時系列予測ベンチマークに向けた大規模グローバルステーション気象データセット
WEATHER-5K: A Large-scale Global Station Weather Dataset Towards Comprehensive Time-series Forecasting Benchmark ( http://arxiv.org/abs/2406.14399v1 ) ライセンス: Link先を確認 | Tao Han, Song Guo, Zhenghao Chen, Wanghan Xu, Lei Bai, | (参考訳) グローバルステーション気象予報(GSWF)は、航空、農業、エネルギー、災害対応など様々な分野において重要である。
近年の深層学習の進歩により,公共気象データに基づくモデル最適化により,天気予報の精度が大幅に向上した。
しかし、GSWF最適化とベンチマークのための既存の公開データセットは、小さなサイズ、時間的カバレッジの制限、包括的な変数の欠如など、大きな制限を被っている。
これらの欠点は、現在の予測手法のベンチマークを効果的に反映することを防ぎ、運用上の天気予報の真のニーズをサポートしない。
これらの課題に対処するため、WAATHER-5Kデータセットを提示する。
このデータセットは、世界中の5,672の気象観測所からのデータを集めており、1時間間隔で10年間に及ぶ。
複数の重要な気象要素を含み、予測のための信頼性と解釈可能な資源を提供する。
さらに、我々のWAATHER-5Kデータセットは、既存のよく知られた予測モデルを総合的に評価するためのベンチマークとして機能し、GSWFメソッドを超えて将来の時系列研究課題と機会をサポートすることができる。
データセットとベンチマークの実装は、https://github.com/taohan10200/WEATHER-5Kで公開されている。
Global Station Weather Forecasting (GSWF) is crucial for various sectors, including aviation, agriculture, energy, and disaster preparedness. Recent advancements in deep learning have significantly improved the accuracy of weather predictions by optimizing models based on public meteorological data. However, existing public datasets for GSWF optimization and benchmarking still suffer from significant limitations, such as small sizes, limited temporal coverage, and a lack of comprehensive variables. These shortcomings prevent them from effectively reflecting the benchmarks of current forecasting methods and fail to support the real needs of operational weather forecasting. To address these challenges, we present the WEATHER-5K dataset. This dataset comprises a comprehensive collection of data from 5,672 weather stations worldwide, spanning a 10-year period with one-hour intervals. It includes multiple crucial weather elements, providing a more reliable and interpretable resource for forecasting. Furthermore, our WEATHER-5K dataset can serve as a benchmark for comprehensively evaluating existing well-known forecasting models, extending beyond GSWF methods to support future time-series research challenges and opportunities. The dataset and benchmark implementation are publicly available at: https://github.com/taohan10200/WEATHER-5K. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# フェアストリーミングの特徴選択
Fair Streaming Feature Selection ( http://arxiv.org/abs/2406.14401v1 ) ライセンス: Link先を確認 | Zhangling Duan, Tianci Li, Xingyu Wu, Zhaolong Ling, Jingye Yang, Zhaohong Jia, | (参考訳) ストリームの特徴選択技術は、関連性の高い属性の識別を継続的に更新することで、リアルタイムデータストリームの処理に欠かせないものとなっている。
パフォーマンスにもかかわらず、現在の特徴選択に対するアルゴリズムは、バイアスを管理したり、センシティブな属性によって永続する可能性のある差別を避けるためにしばしば不足し、結果として生じるモデルに不公平な結果をもたらす可能性がある。
この問題に対処するため,FairSFSを提案する。FairSFSはFair Streaming Feature Selectionのための新しいアルゴリズムで,オンライン方式でデータを扱う能力を損なうことなく,特徴選択プロセスにおける公平性を維持できる。
FairSFSは、特徴集合を動的に調整して入ってくる特徴ベクトルに適応し、この修正セットから分類属性と感度属性の相関を識別し、感度データの伝搬を森林化する。
実証的な評価では、FairSFSはストリーミングの特徴選択方法や既存の公正な特徴技術と同等の精度を維持しているだけでなく、フェアネスの指標も大幅に改善している。
Streaming feature selection techniques have become essential in processing real-time data streams, as they facilitate the identification of the most relevant attributes from continuously updating information. Despite their performance, current algorithms to streaming feature selection frequently fall short in managing biases and avoiding discrimination that could be perpetuated by sensitive attributes, potentially leading to unfair outcomes in the resulting models. To address this issue, we propose FairSFS, a novel algorithm for Fair Streaming Feature Selection, to uphold fairness in the feature selection process without compromising the ability to handle data in an online manner. FairSFS adapts to incoming feature vectors by dynamically adjusting the feature set and discerns the correlations between classification attributes and sensitive attributes from this revised set, thereby forestalling the propagation of sensitive data. Empirical evaluations show that FairSFS not only maintains accuracy that is on par with leading streaming feature selection methods and existing fair feature techniques but also significantly improves fairness metrics. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# 量子化と早期排除を組み合わせたエラーの予測:QuEE
Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE ( http://arxiv.org/abs/2406.14404v1 ) ライセンス: Link先を確認 | Florence Regol, Joud Chataoui, Bertrand Charpentier, Mark Coates, Pablo Piantanida, Stephan Gunnemann, | (参考訳) 機械学習モデルは複雑なタスクを解くことができるが、しばしば推論中にかなりの計算資源を必要とする。
これは、重みと算術演算の精度を下げる量子化や、サンプルに計算を適応させる動的ネットワークなど、様々な方法でこの問題に対処するポストトレーニング計算の削減手法の開発につながっている。
本研究では,量子化と早期出口動的ネットワークを組み合わせたより汎用的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
終了か継続かという二項決定よりも,計算量を減らして継続する可能性を導入する。
これは、原則化された定式化によって解決される、伝統的に検討された早期退行問題を複雑化する。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
本手法の有効性を実証的評価により実証し,その成功条件を4つの分類データセットで検証した。
Machine learning models can solve complex tasks but often require significant computational resources during inference. This has led to the development of various post-training computation reduction methods that tackle this issue in different ways, such as quantization which reduces the precision of weights and arithmetic operations, and dynamic networks which adapt computation to the sample at hand. In this work, we propose a more general dynamic network that can combine both quantization and early exit dynamic network: QuEE. Our algorithm can be seen as a form of soft early exiting or input-dependent compression. Rather than a binary decision between exiting or continuing, we introduce the possibility of continuing with reduced computation. This complicates the traditionally considered early exiting problem, which we solve through a principled formulation. The crucial factor of our approach is accurate prediction of the potential accuracy improvement achievable through further computation. We demonstrate the effectiveness of our method through empirical evaluation, as well as exploring the conditions for its success on 4 classification datasets. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# FVEL: 定理証明による大規模言語モデルを用いた対話型形式検証環境
FVEL: Interactive Formal Verification Environment with Large Language Models via Theorem Proving ( http://arxiv.org/abs/2406.14408v1 ) ライセンス: Link先を確認 | Xiaohan Lin, Qingxing Cao, Yinya Huang, Haiming Wang, Jianqiao Lu, Zhengying Liu, Linqi Song, Xiaodan Liang, | (参考訳) 形式的検証(FV)は、進化する大規模言語モデル(LLM)による現在のプログラム合成において、重要性が増しているのを目撃している。
しかし、現在の公式な検証は主に記号的検証や手技規則に頼っており、その結果、広範囲かつ柔軟な検証の限界が生じる。
一方、イザベルのような自動定理証明のための形式言語は厳密な検証の別の行として、包括的な規則と定理で維持される。
本稿では,LLMを用いた対話型形式検証環境であるFVELを提案する。
具体的には、FVELは検証対象のコードをIsabelleに変換し、LLMで証明された神経自動定理を用いて検証を行う。
結合されたパラダイムは、イザベルの厳密な定式化と組織化された規則を活用し、最先端のLCMの導入と調整にも便利である。
この目的を達成するために、我々は大規模なFVELER3を抽出する。
FVELERデータセットには、Isabelleで定式化されたコード依存関係と検証プロセスが含まれており、758の理論、29,125のレムマ、200,646の証明ステップと詳細な依存関係が含まれている。
まずFVELERを用いてFVELERを微調整し,それをCode2InvおよびSV-COMP上で評価することにより,FVEL環境におけるFVELERのベンチマークを行う。
その結果, FVELERで微調整したLlama3-8Bでは17.39% (69 ->81) の問題を解き, Mistral-7Bでは12% (75 ->84) の問題をSV-COMPで解いた。
そして、証明エラーの割合は減少する。
プロジェクトページ: https://fveler.github.io/.com
Formal verification (FV) has witnessed growing significance with current emerging program synthesis by the evolving large language models (LLMs). However, current formal verification mainly resorts to symbolic verifiers or hand-craft rules, resulting in limitations for extensive and flexible verification. On the other hand, formal languages for automated theorem proving, such as Isabelle, as another line of rigorous verification, are maintained with comprehensive rules and theorems. In this paper, we propose FVEL, an interactive Formal Verification Environment with LLMs. Specifically, FVEL transforms a given code to be verified into Isabelle, and then conducts verification via neural automated theorem proving with an LLM. The joined paradigm leverages the rigorous yet abundant formulated and organized rules in Isabelle and is also convenient for introducing and adjusting cutting-edge LLMs. To achieve this goal, we extract a large-scale FVELER3. The FVELER dataset includes code dependencies and verification processes that are formulated in Isabelle, containing 758 theories, 29,125 lemmas, and 200,646 proof steps in total with in-depth dependencies. We benchmark FVELER in the FVEL environment by first fine-tuning LLMs with FVELER and then evaluating them on Code2Inv and SV-COMP. The results show that FVEL with FVELER fine-tuned Llama3- 8B solves 17.39% (69 -> 81) more problems, and Mistral-7B 12% (75 -> 84) more problems in SV-COMP. And the proportion of proof errors is reduced. Project page: https://fveler.github.io/. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# 変分量子シミュレーションの性能とスケーリング解析
Performance and scaling analysis of variational quantum simulation ( http://arxiv.org/abs/2406.14411v1 ) ライセンス: Link先を確認 | Mario Ponce, Thomas Cope, Inés de Vega, Martin Leib, | (参考訳) 本稿では,変分量子シミュレーション(VQS)法に必要な最小量子回路深さのスケーリングを実験的に解析し,既定の誤差許容範囲内での量子システムの時間発展の解を求める。
時間変化の時間進化に基づく非変分法との比較において,VQS手法を用いて,システムのサイズとシミュレーション時間の両方について,より優れたスケーリングを行う。
結果は、VQSに必要な古典的な複雑さを議論することでも見直される。
この結果から, トロタライゼーションよりもVQSに有利な領域を特定できる可能性が示唆された。
We present an empirical analysis of the scaling of the minimal quantum circuit depth required for a variational quantum simulation (VQS) method to obtain a solution to the time evolution of a quantum system within a predefined error tolerance. In a comparison against a non-variational method based on Trotterized time evolution, we observe a better scaling of the depth requirements using the VQS approach with respect to both the size of the system and the simulated time. Results are also put into perspective by discussing the corresponding classical complexity required for VQS. Our results allow us to identify a possible advantage region for VQS over Trotterization. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# In-The-Wild Motion Capture Dataを用いた単眼3次元犬の姿勢推定のベンチマーク
Benchmarking Monocular 3D Dog Pose Estimation Using In-The-Wild Motion Capture Data ( http://arxiv.org/abs/2406.14412v1 ) ライセンス: Link先を確認 | Moira Shooter, Charles Malleson, Adrian Hilton, | (参考訳) 単眼画像からの3次元犬のポーズ推定に焦点をあてた新しいベンチマーク分析を提案する。
マルチモーダルなデータセット3DDogs-Labは屋内で撮影され、様々な犬種が通路で群がっている。
光学マーカーベースのモキャップシステム、RGBDカメラ、IMU、圧力マットからのデータが含まれている。
高品質なモーションデータを提供する一方で、光学マーカーの存在と背景の多様性の制限により、キャプチャされたビデオは現実の状態をあまり表さない。
そこで我々は、3DDogs-Wildという3Dogs-Wildを作成した。このデータセットは、光学マーカーをインペイントし、被験者を多様な環境に配置し、RGB画像ベースのポーズ検出装置を訓練するための有用性を向上する。
また, 3DDogs-Wild を用いたモデルトレーニングにより, フィールド内データの評価において, 性能が向上することを示した。
さらに、様々なポーズ推定モデルを用いて、それぞれの長所と短所を明らかにする。
得られたデータセットと組み合わせることで、3D動物のポーズ推定を推し進めるための貴重な洞察が得られると我々は信じている。
We introduce a new benchmark analysis focusing on 3D canine pose estimation from monocular in-the-wild images. A multi-modal dataset 3DDogs-Lab was captured indoors, featuring various dog breeds trotting on a walkway. It includes data from optical marker-based mocap systems, RGBD cameras, IMUs, and a pressure mat. While providing high-quality motion data, the presence of optical markers and limited background diversity make the captured video less representative of real-world conditions. To address this, we created 3DDogs-Wild, a naturalised version of the dataset where the optical markers are in-painted and the subjects are placed in diverse environments, enhancing its utility for training RGB image-based pose detectors. We show that using the 3DDogs-Wild to train the models leads to improved performance when evaluating on in-the-wild data. Additionally, we provide a thorough analysis using various pose estimation models, revealing their respective strengths and weaknesses. We believe that our findings, coupled with the datasets provided, offer valuable insights for advancing 3D animal pose estimation. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# ベクトル化表現ドリーム(VRD: Vectorized Representation Dreamer)--Dreaming-Assisted Multi-Agent Motion-Forecasting
Vectorized Representation Dreamer (VRD): Dreaming-Assisted Multi-Agent Motion-Forecasting ( http://arxiv.org/abs/2406.14415v1 ) ライセンス: Link先を確認 | Hunter Schofield, Hamidreza Mirkhani, Mohammed Elmahgiubi, Kasra Rezaee, Jinjun Shan, | (参考訳) 自動運転車が環境内の経路を計画するには、近接する全ての動的物体の軌道を正確に予測する必要がある。
多くの伝統的な方法では、この問題を解決するために現場での観測を符号化しているが、エゴ車両の行動が未来の世界に与える影響を考えるアプローチは少ない。
本稿では,多エージェント動作予測問題に対するベクトル化世界モデルに基づくアプローチであるVRDを紹介する。
提案手法は,従来のオープンループトレーニングシステムと,エゴ車両の動作を前提としたすべてのエージェントの軌道を想像するために,キネマティックな再構築作業を活用する,新しいクローズループトレーニングパイプラインを組み合わせる。
提案モデルの性能を示すために,Argoverse 2マルチワールド予測評価データセットと交差点ドローン(inD)データセットを用いて定量的,定性的な実験を行った。
本モデルでは,Argoverse 2データセットの1つの予測ミスレート測定値に対して最先端の性能を達成し,1つの予測変位測定値に対する先行モデルと同等の性能を示す。
For an autonomous vehicle to plan a path in its environment, it must be able to accurately forecast the trajectory of all dynamic objects in its proximity. While many traditional methods encode observations in the scene to solve this problem, there are few approaches that consider the effect of the ego vehicle's behavior on the future state of the world. In this paper, we introduce VRD, a vectorized world model-inspired approach to the multi-agent motion forecasting problem. Our method combines a traditional open-loop training regime with a novel dreamed closed-loop training pipeline that leverages a kinematic reconstruction task to imagine the trajectory of all agents, conditioned on the action of the ego vehicle. Quantitative and qualitative experiments are conducted on the Argoverse 2 multi-world forecasting evaluation dataset and the intersection drone (inD) dataset to demonstrate the performance of our proposed model. Our model achieves state-of-the-art performance on the single prediction miss rate metric on the Argoverse 2 dataset and performs on par with the leading models for the single prediction displacement metrics. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# 圧縮誤差フィードバックによるコミュニケーション効率のよい垂直フェデレーション学習
Communication-efficient Vertical Federated Learning via Compressed Error Feedback ( http://arxiv.org/abs/2406.14420v1 ) ライセンス: Link先を確認 | Pedro Valdeira, João Xavier, Cláudia Soares, Yuejie Chi, | (参考訳) コミュニケーションのオーバーヘッドは、連邦学習(FL)のボトルネックとして知られている。
これを解決するために、トレーニング中にサーバとクライアントの間で通信される情報に対して、損失のある圧縮が一般的に使用される。
各クライアントがサンプルのサブセットを保持する水平FLでは、このような通信圧縮訓練手法が近年顕著に進歩している。
しかし、それぞれのクライアントが機能のサブセットを持っている、彼らの垂直FL版では、私たちの理解は限定的です。
そこで本研究では,ニューラルネットワーク分割学習のための誤りフィードバック圧縮垂直連合学習(EFVFL)手法を提案する。
垂直FLの従来の通信圧縮方式とは対照的に、EFVFLは滑らかな非凸問題に対して、勾配ノルムがゼロに収束する際の圧縮誤差を無くす必要はない。
誤差フィードバックを利用することで、本手法は、フルバッチケースにおける$\mathcal{O}(1/T)$収束率を達成でき、最先端の$\mathcal{O}(1/\sqrt{T})$レートを$\mathcal{O}(1/\sqrt{T})$圧縮誤差で改善し、非圧縮メソッドのレートと一致させることができる。
さらに、目的関数がpolyak-{\L}ojasiewiczの不等式を満たすとき、我々の方法は線形収束する。
また,収束率の向上に加えて,個人ラベルの利用も支援している。
数値実験により,EFVFLは従来の技術よりも有意に改善し,理論的な結果が得られた。
Communication overhead is a known bottleneck in federated learning (FL). To address this, lossy compression is commonly used on the information communicated between the server and clients during training. In horizontal FL, where each client holds a subset of the samples, such communication-compressed training methods have recently seen significant progress. However, in their vertical FL counterparts, where each client holds a subset of the features, our understanding remains limited. To address this, we propose an error feedback compressed vertical federated learning (EFVFL) method to train split neural networks. In contrast with previous communication-compressed methods for vertical FL, EFVFL does not require a vanishing compression error for the gradient norm to converge to zero for smooth nonconvex problems. By leveraging error feedback, our method can achieve a $\mathcal{O}(1/T)$ convergence rate in the full-batch case, improving over the state-of-the-art $\mathcal{O}(1/\sqrt{T})$ rate under $\mathcal{O}(1/\sqrt{T})$ compression error, and matching the rate of uncompressed methods. Further, when the objective function satisfies the Polyak-{\L}ojasiewicz inequality, our method converges linearly. In addition to improving convergence rates, our method also supports the use of private labels. Numerical experiments show that EFVFL significantly improves over the prior art, confirming our theoretical results. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# FutureNet-LOF:Futureコンテキスト符号化による共同軌道予測とLine Occupupancy場予測
FutureNet-LOF: Joint Trajectory Prediction and Lane Occupancy Field Prediction with Future Context Encoding ( http://arxiv.org/abs/2406.14422v1 ) ライセンス: Link先を確認 | Mingkun Wang, Xiaoguang Ren, Ruochun Jin, Minglong Li, Xiaochuan Zhang, Changqian Yu, Mingxu Wang, Wenjing Yang, | (参考訳) 自動運転におけるこれまでのほとんどの動き予測努力は、将来のシナリオを不適切にコード化しており、エージェント(車や歩行者など)の多様な動きを正確に捉えることができないかもしれない予測につながっている。
この問題を解決するためにFutureNetを提案する。これは、当初予測されていた軌跡を将来のシナリオに明示的に統合し、今後の予測を強化するためにこれらのコンテキストをさらにエンコードする。
さらに、これまでのほとんどのモーション予測作業は、各エージェントの独立した未来を予測することに重点を置いている。
しかし、安全でスムーズな自律運転には、複雑な動的環境において、多数の周辺エージェントの様々な将来の挙動を正確に予測する必要がある。
全てのエージェントが特定の潜在的な走行空間を占有し、車線運転優先権を有することを前提として、自律走行における運動予測のための車線意味論を用いた新しい表現である車線走行場(Lane Occupancy Field, LOC)を提案する。
LOFは、全ての道路参加者の将来の時空間位置の結合確率分布を同時に捉えることができる。
路面占有率予測と軌道予測の高整合性のため,これらの2つのタスクの連立予測に将来のコンテキストエンコーディングを用いた新しいネットワークを提案する。
提案手法は,Argoverse 1 と Argoverse 2 の2つの大規模動き予測ベンチマークにおいて第1位である。
Most prior motion prediction endeavors in autonomous driving have inadequately encoded future scenarios, leading to predictions that may fail to accurately capture the diverse movements of agents (e.g., vehicles or pedestrians). To address this, we propose FutureNet, which explicitly integrates initially predicted trajectories into the future scenario and further encodes these future contexts to enhance subsequent forecasting. Additionally, most previous motion forecasting works have focused on predicting independent futures for each agent. However, safe and smooth autonomous driving requires accurately predicting the diverse future behaviors of numerous surrounding agents jointly in complex dynamic environments. Given that all agents occupy certain potential travel spaces and possess lane driving priority, we propose Lane Occupancy Field (LOF), a new representation with lane semantics for motion forecasting in autonomous driving. LOF can simultaneously capture the joint probability distribution of all road participants' future spatial-temporal positions. Due to the high compatibility between lane occupancy field prediction and trajectory prediction, we propose a novel network with future context encoding for the joint prediction of these two tasks. Our approach ranks 1st on two large-scale motion forecasting benchmarks: Argoverse 1 and Argoverse 2. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# CascadeServe:推論のためのモデルカスケードのアンロック
CascadeServe: Unlocking Model Cascades for Inference Serving ( http://arxiv.org/abs/2406.14424v1 ) ライセンス: Link先を確認 | Ferdi Kossmann, Ziniu Wu, Alex Turk, Nesime Tatbul, Lei Cao, Samuel Madden, | (参考訳) 機械学習(ML)モデルは、効率的な推論サービスシステムを呼び出して、本番環境にデプロイされることが増えている。
効率的な推論提供は2つの課題によって複雑になる。
一 計算コストの高いMLモデル、及び
二 実用アプリケーションの要求到着率には、頻繁、高、急激な変動があり、ハードウェアの正確な供給が困難である。
モデルカスケードはこれらの課題に対処する位置にある
一 正確性を保ちながら仕事を省くこと。
(二)作業と正確性の間の高精細なトレードオフを露呈し、到着率のきめ細かい調整を可能にします。
その可能性にもかかわらず、模型のカスケードはオンラインサービスシステム内では使われていない。
これには、ワークロード適応、ハードウェアへのモデルレプリケーション、推論スケジューリング、リクエストのバッチ処理など、独自の課題が含まれている。
本研究では,カスケードを用いたエンドツーエンド推論の自動化と最適化を行うCascadeServeを提案する。
CascadeServeはオフラインおよびオンラインのフェーズで動作する。
オフラインフェーズでは、システムはオンラインで推論を提供する方法を指定するギアプランをプリコンプリートする。
オンラインフェーズでは、ギアプランにより、クエリ負荷にほぼ最適な適応を無視可能な決定オーバーヘッドで実施しながら、推論を行うことができる。
CascadeServeは、さまざまなワークロードにおける最先端のベースラインと比較して、レイテンシ-正確性領域の広い範囲で2~3倍のコスト削減を実現しています。
Machine learning (ML) models are increasingly deployed to production, calling for efficient inference serving systems. Efficient inference serving is complicated by two challenges: (i) ML models incur high computational costs, and (ii) the request arrival rates of practical applications have frequent, high, and sudden variations which make it hard to correctly provision hardware. Model cascades are positioned to tackle both of these challenges, as they (i) save work while maintaining accuracy, and (ii) expose a high-resolution trade-off between work and accuracy, allowing for fine-grained adjustments to request arrival rates. Despite their potential, model cascades haven't been used inside an online serving system. This comes with its own set of challenges, including workload adaption, model replication onto hardware, inference scheduling, request batching, and more. In this work, we propose CascadeServe, which automates and optimizes end-to-end inference serving with cascades. CascadeServe operates in an offline and online phase. In the offline phase, the system pre-computes a gear plan that specifies how to serve inferences online. In the online phase, the gear plan allows the system to serve inferences while making near-optimal adaptations to the query load at negligible decision overheads. We find that CascadeServe saves 2-3x in cost across a wide spectrum of the latency-accuracy space when compared to state-of-the-art baselines on different workloads. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# SynDARin:低リソース言語における自動推論のためのデータセットの合成
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages ( http://arxiv.org/abs/2406.14425v1 ) ライセンス: Link先を確認 | Gayane Ghazaryan, Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein, | (参考訳) QAデータセットは、LLM(Large Language Model)の機能の開発と評価に役立っている。
しかし、このようなデータセットは、収集と手作業によるアノテーションのコストと難しさのため、英語以外の言語では不十分である。
これは、低リソース言語における新しいモデルの作成と多言語LLMの性能の測定が困難であることを意味する。
これを軽減するために、低リソース言語向けのQAデータセットの生成と検証を行うメソッドである$\textbf{S}$yn$\textbf{DAR}$inを提案する。
並列コンテンツマイニングを用いて、英語と対象言語の間の$\textit{ Human-curated}$パラグラフを得る。
我々は、英語データを文脈として、$\textit{generate}$ Synthetic Multiple-Awer pairs(MC)に使用する。
これらは、指定されていない$\textit{human-curated}$パラグラフと組み合わせることで、最終的なQAデータセットを形成する。
この方法では、コンテンツ品質の維持、事実エラーの可能性を低減し、コストのかかるアノテーションの必要性を回避することができる。
この手法をテストするために、アルメニア語のための12ドルのサンプルを持つQAデータセットを作成しました。
人間の評価では、生成された英語データの9,8\%が質問の種類やトピックの品質と多様性を維持しており、翻訳検証パイプラインは品質の悪いデータの$\sim70\%をフィルタリングすることができる。
我々は、このデータセットを用いて最先端のLCMをベンチマークし、ランダムな確率に近いモデル性能で人間の精度を達成できないことを示す。
これは、生成されたデータセットが非自明であり、低リソース言語の推論能力を評価するために使用できることを示している。
Question Answering (QA) datasets have been instrumental in developing and evaluating Large Language Model (LLM) capabilities. However, such datasets are scarce for languages other than English due to the cost and difficulties of collection and manual annotation. This means that producing novel models and measuring the performance of multilingual LLMs in low-resource languages is challenging. To mitigate this, we propose $\textbf{S}$yn$\textbf{DAR}$in, a method for generating and validating QA datasets for low-resource languages. We utilize parallel content mining to obtain $\textit{human-curated}$ paragraphs between English and the target language. We use the English data as context to $\textit{generate}$ synthetic multiple-choice (MC) question-answer pairs, which are automatically translated and further validated for quality. Combining these with their designated non-English $\textit{human-curated}$ paragraphs form the final QA dataset. The method allows to maintain the content quality, reduces the likelihood of factual errors, and circumvents the need for costly annotation. To test the method, we created a QA dataset with $1.2$K samples for the Armenian language. The human evaluation shows that $98\%$ of the generated English data maintains quality and diversity in the question types and topics, while the translation validation pipeline can filter out $\sim70\%$ of data with poor quality. We use the dataset to benchmark state-of-the-art LLMs, showing their inability to achieve human accuracy with some model performances closer to random chance. This shows that the generated dataset is non-trivial and can be used to evaluate reasoning capabilities in low-resource language. | 翻訳日:2024-06-21 13:03:05 公開日:2024-06-20 |
# 伝達可能なボルツマン発電機
Transferable Boltzmann Generators ( http://arxiv.org/abs/2406.14426v1 ) ライセンス: Link先を確認 | Leon Klein, Frank Noé, | (参考訳) 分子系の平衡サンプルの生成は、統計物理学における長年の問題であった。
Boltzmann Generatorsは、単純な事前分布から対象のBoltzmann分布への正規化フローを通じて変換を学習することで、この問題に対処する生成機械学習手法である。
近年,カルテシアン座標系における小さな分子系に対するボルツマン・ジェネレータの訓練にフローマッチングが用いられている。
本研究を拡張し, 試験分子に対するゼロショットボルツマン分布をこれらの系に再学習することなく予測できるように, 化学空間に移動可能なボルツマン発生器の第一の枠組みを提案する。
これらの伝達可能なボルツマン発生器は、対象とするボルツマン分布に対する効率的な再重み付けと同様に、目に見えない系のターゲット分布から近似的なサンプリングを可能にする。
提案するフレームワークの転写性はジペプチドで評価され, 効率よく非可視系に一般化することを示した。
さらに,本アーキテクチャにより,単一分子系で訓練したボルツマン発電機の効率が向上することを示した。
The generation of equilibrium samples of molecular systems has been a long-standing problem in statistical physics. Boltzmann Generators are a generative machine learning method that addresses this issue by learning a transformation via a normalizing flow from a simple prior distribution to the target Boltzmann distribution of interest. Recently, flow matching has been employed to train Boltzmann Generators for small molecular systems in Cartesian coordinates. We extend this work and propose a first framework for Boltzmann Generators that are transferable across chemical space, such that they predict zero-shot Boltzmann distributions for test molecules without being retrained for these systems. These transferable Boltzmann Generators allow approximate sampling from the target distribution of unseen systems, as well as efficient reweighting to the target Boltzmann distribution. The transferability of the proposed framework is evaluated on dipeptides, where we show that it generalizes efficiently to unseen systems. Furthermore, we demonstrate that our proposed architecture enhances the efficiency of Boltzmann Generators trained on single molecular systems. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 信頼が犠牲になるときの制御
Control when confidence is costly ( http://arxiv.org/abs/2406.14427v1 ) ライセンス: Link先を確認 | Itzel Olivos-Castillo, Paul Schrater, Xaq Pitkow, | (参考訳) 我々は推論の計算コストを考慮に入れた確率制御のバージョンを開発する。
過去の研究では、情報を合成するコストを無視した効率的なコーディングや効率的な制御を制御せずに特定した。
ここでこれらの概念を、エージェントが効率的に制御するための推論を合理的に近似するフレームワークに結合する。
具体的には、線形二次ガウス制御(LQG)について、世界国家における後続確率の相対的精度について、内部コストを加算して検討する。
エージェントは、推論中に十分なビットを節約すれば、タスクのパフォーマンスを犠牲にすることで、全体的なユーティリティを得ることができます。
共同推論と制御問題を解く合理的戦略は、タスク要求に応じて相転移し、コストがかかるが最適な推論から、回転変換によって関係づけられた準最適推論の族に切り替わる。
いずれにせよ、エージェントは思考を少なくする傾向にある。
この研究は、脳と機械の両方が効率的なが計算的に制約された制御に使用できる新しいタイプの有理計算の基礎を提供する。
We develop a version of stochastic control that accounts for computational costs of inference. Past studies identified efficient coding without control, or efficient control that neglects the cost of synthesizing information. Here we combine these concepts into a framework where agents rationally approximate inference for efficient control. Specifically, we study Linear Quadratic Gaussian (LQG) control with an added internal cost on the relative precision of the posterior probability over the world state. This creates a trade-off: an agent can obtain more utility overall by sacrificing some task performance, if doing so saves enough bits during inference. We discover that the rational strategy that solves the joint inference and control problem goes through phase transitions depending on the task demands, switching from a costly but optimal inference to a family of suboptimal inferences related by rotation transformations, each misestimate the stability of the world. In all cases, the agent moves more to think less. This work provides a foundation for a new type of rational computations that could be used by both brains and machines for efficient but computationally constrained control. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# CollaFuse: コラボレーション拡散モデル
CollaFuse: Collaborative Diffusion Models ( http://arxiv.org/abs/2406.14429v1 ) ライセンス: Link先を確認 | Simeon Allmendinger, Domenique Zipperling, Lukas Struppek, Niklas Kühl, | (参考訳) 生成人工知能の分野では、拡散モデルが合成画像を生成するための有望な方法として登場した。
しかし、拡散モデルの適用には、特にデータ可用性、計算要求、プライバシに関する多くの課題が生じる。
連合学習のようなこれらの欠点に対処する伝統的なアプローチは、個々のクライアント、特に制約のあるリソースに重大な計算負担を課すことが多い。
これらの課題に対応するために,分割学習に着想を得た分散協調拡散モデルを提案する。
本手法は,画像合成におけるクライアントの計算負担を軽減するとともに,拡散モデルの協調学習を容易にする。
この削減された計算負担は、計算コストの高いプロセスを共有で効率的なサーバリソースにアウトソーシングしながら、各クライアントにローカルにデータと計算コストのかかるプロセスを保持することで達成される。
一般的なCelebAデータセットの実験を通じて,本手法は生データ共有の必要性を低減し,プライバシーの向上を実証する。
これらの機能は、エッジコンピューティングソリューションの設計など、さまざまなアプリケーション分野において大きな可能性を秘めている。
このように、我々の研究は、協調拡散モデルの進化に寄与することにより、分散機械学習を進歩させる。
In the landscape of generative artificial intelligence, diffusion-based models have emerged as a promising method for generating synthetic images. However, the application of diffusion models poses numerous challenges, particularly concerning data availability, computational requirements, and privacy. Traditional approaches to address these shortcomings, like federated learning, often impose significant computational burdens on individual clients, especially those with constrained resources. In response to these challenges, we introduce a novel approach for distributed collaborative diffusion models inspired by split learning. Our approach facilitates collaborative training of diffusion models while alleviating client computational burdens during image synthesis. This reduced computational burden is achieved by retaining data and computationally inexpensive processes locally at each client while outsourcing the computationally expensive processes to shared, more efficient server resources. Through experiments on the common CelebA dataset, our approach demonstrates enhanced privacy by reducing the necessity for sharing raw data. These capabilities hold significant potential across various application areas, including the design of edge computing solutions. Thus, our work advances distributed machine learning by contributing to the evolution of collaborative diffusion models. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 真正な多言語大言語モデルに向けて:ベンチマークとアライメント戦略
Towards Truthful Multilingual Large Language Models: Benchmarking and Alignment Strategies ( http://arxiv.org/abs/2406.14434v1 ) ライセンス: Link先を確認 | Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang, | (参考訳) 大規模言語モデル (LLMs) の時代には、世界中のユーザに提供可能な多言語大規模言語モデル (MLLMs) の構築が大きな意味を持つ。
しかし、既存の研究はMLLMの真偽にはほとんど焦点を当てていない。
一方、現代多言語整合技術は、大規模な言語のバランスをとるのに苦労し、しばしば異なる言語、特に英語と大きく異なる言語間で深刻な真理性のギャップを生じさせる。
本研究では,多言語シナリオにおける真理性評価のベンチマークを構築し,MLLMの真理性を高めるために言語間で事実を整合させる方法について検討する。
さらに,Fact-aware Multilingual Selective Synergy (FaMSS)を提案する。
実験結果から,本手法は多言語表現の相違を効果的に低減し,LLMの多言語能力を高めることができることが示された。
In the era of large language models (LLMs), building multilingual large language models (MLLMs) that can serve users worldwide holds great significance. However, existing research seldom focuses on the truthfulness of MLLMs. Meanwhile, contemporary multilingual aligning technologies struggle to balance massive languages and often exhibit serious truthfulness gaps across different languages, especially those that differ greatly from English. In our work, we construct a benchmark for truthfulness evaluation in multilingual scenarios and explore the ways to align facts across languages to enhance the truthfulness of MLLMs. Furthermore, we propose Fact-aware Multilingual Selective Synergy (FaMSS) to optimize the data allocation across a large number of languages and different data types. Experimental results demonstrate that our approach can effectively reduce the multilingual representation disparity and enhance the multilingual capabilities of LLMs. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 学習されたアクションによるビデオ生成
Video Generation with Learned Action Prior ( http://arxiv.org/abs/2406.14436v1 ) ライセンス: Link先を確認 | Meenakshi Sarkar, Devansh Bhardwaj, Debasish Ghose, | (参考訳) カメラの動きが観察された画像ピクセルと相互作用し、複雑な時空間ダイナミクスを生成し、問題を部分的に観察できるようにするため、カメラが動くプラットフォームにマウントされている場合、確率的ビデオ生成は特に困難である。
既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。
本稿では,観察された画像状態の一部としてカメラの動きや動作を考慮し,マルチモーダル学習フレームワーク内の画像と動作の両方をモデル化する手法を提案する。
学習行動によるビデオ生成(VG-LeAP)は、単一の遅延確率過程から生成された拡張状態として画像-アクションペアを扱い、画像-アクションの遅延を学習するために変分推論を用いる。Causal-LeAPは、時間$t$でアクションと観測画像フレーム間の因果関係を確立し、観察された画像状態に条件付きアクションを学習し、RAFIは、拡張された画像-アクション状態の概念を拡散生成プロセスに適合するフローに統合し、このアクション条件の画像生成概念が他の拡散モデルに拡張可能であることを示す。
我々は,ビデオアクションデータセットRoAMの詳細な実験を通して,部分的に観察可能なビデオ生成問題におけるマルチモーダルトレーニングの重要性を強調した。
Stochastic video generation is particularly challenging when the camera is mounted on a moving platform, as camera motion interacts with observed image pixels, creating complex spatio-temporal dynamics and making the problem partially observable. Existing methods typically address this by focusing on raw pixel-level image reconstruction without explicitly modelling camera motion dynamics. We propose a solution by considering camera motion or action as part of the observed image state, modelling both image and action within a multi-modal learning framework. We introduce three models: Video Generation with Learning Action Prior (VG-LeAP) treats the image-action pair as an augmented state generated from a single latent stochastic process and uses variational inference to learn the image-action latent prior; Causal-LeAP, which establishes a causal relationship between action and the observed image frame at time $t$, learning an action prior conditioned on the observed image states; and RAFI, which integrates the augmented image-action state concept into flow matching with diffusion generative processes, demonstrating that this action-conditioned image generation concept can be extended to other diffusion-based models. We emphasize the importance of multi-modal training in partially observable video generation problems through detailed empirical studies on our new video action dataset, RoAM. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# Omics Dataのためのグラフ表現学習戦略:パーキンソン病を事例として
Graph Representation Learning Strategies for Omics Data: A Case Study on Parkinson's Disease ( http://arxiv.org/abs/2406.14442v1 ) ライセンス: Link先を確認 | Elisa Gómez de Lope, Saurabh Deshpande, Ramón Viñas Torné, Pietro Liò, Enrico Glaab, Stéphane P. A. Bordas, | (参考訳) Omicsデータ分析は複雑な疾患の研究には不可欠であるが、その高次元性と不均一性は古典的な統計的および機械学習手法に挑戦する。
グラフニューラルネットワークは有望な代替手段として登場したが、現実のバイオメディカルな課題における設計と最適化のための最適な戦略はまだ不明である。
本研究は,パーキンソン病および対照試料からの高スループット生物学的データを用いて,ケースコントロール分類のための様々なグラフ表現学習モデルを評価する。
タンパク質-タンパク質とメタボライト-メタボライト相互作用(PPI, MMI)を含む,サンプル類似性ネットワークと分子相互作用ネットワークから得られたトポロジーを比較した。
グラフ畳み込みネットワーク(GCN)、チェビシェフスペクトルグラフ畳み込み(ChebyNet)、グラフ注意ネットワーク(GAT)は、グラフトランスフォーマー、グラフU-net、マルチ層パーセプトロン(MLP)といったより単純なモデルとともに評価される。
これらのモデルは、独立して転写学と代謝学のデータに体系的に適用される。
我々の比較分析は、オミクスデータからパターンを抽出し、バイオメディカル研究においてより正確で解釈可能なモデルを構築する際に、様々なアーキテクチャの利点と限界を強調している。
Omics data analysis is crucial for studying complex diseases, but its high dimensionality and heterogeneity challenge classical statistical and machine learning methods. Graph neural networks have emerged as promising alternatives, yet the optimal strategies for their design and optimization in real-world biomedical challenges remain unclear. This study evaluates various graph representation learning models for case-control classification using high-throughput biological data from Parkinson's disease and control samples. We compare topologies derived from sample similarity networks and molecular interaction networks, including protein-protein and metabolite-metabolite interactions (PPI, MMI). Graph Convolutional Network (GCNs), Chebyshev spectral graph convolution (ChebyNet), and Graph Attention Network (GAT), are evaluated alongside advanced architectures like graph transformers, the graph U-net, and simpler models like multilayer perceptron (MLP). These models are systematically applied to transcriptomics and metabolomics data independently. Our comparative analysis highlights the benefits and limitations of various architectures in extracting patterns from omics data, paving the way for more accurate and interpretable models in biomedical research. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 高閾値、低オーバヘッド、単一ショットのフォールトトレラント量子メモリ
High-threshold, low-overhead and single-shot decodable fault-tolerant quantum memory ( http://arxiv.org/abs/2406.14445v1 ) ライセンス: Link先を確認 | Thomas R. Scruby, Timo Hillmann, Joschka Roffe, | (参考訳) 我々は、古典的準巡回符号の特定の部分集合の持ち上げ積から得られる放射符号(radial codes)と呼ばれる量子低密度パリティチェック符号の族を新たに提示する。
コードは整数のペア$(r,s)$を使って定義され、パラメータ$[\!
[2r^2s,2(r-1)^2,\leq2s]\!
平均ケース距離は$s$で線形である。
回路レベルの雑音のシミュレーションでは、ほぼ5倍の物理量子ビットを用いて、類似した距離の曲面符号に対する比較誤差の抑制を観測する。
これは、単一ショットアプローチでラジアルコードが復号化されても事実であり、論理クロックの高速化と復号化の複雑さの低減を可能にする。
直感的な視覚表現、論理演算子の正準基底、これらの符号に対する最適長安定化器測定回路を記述し、それらの誤差補正能力、調整可能なパラメータ、小型化により、短期量子デバイス上での実装に有望な候補となると論じる。
We present a new family of quantum low-density parity-check codes, which we call radial codes, obtained from the lifted product of a specific subset of classical quasi-cyclic codes. The codes are defined using a pair of integers $(r,s)$ and have parameters $[\![2r^2s,2(r-1)^2,\leq2s]\!]$, with numerical studies suggesting average-case distance linear in $s$. In simulations of circuit-level noise, we observe comparable error suppression to surface codes of similar distance while using approximately five times fewer physical qubits. This is true even when radial codes are decoded using a single-shot approach, which can allow for faster logical clock speeds and reduced decoding complexity. We describe an intuitive visual representation, canonical basis of logical operators and optimal-length stabiliser measurement circuits for these codes, and argue that their error correction capabilities, tunable parameters and small size make them promising candidates for implementation on near-term quantum devices. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# スマートホームのためのブートストラップ付き人間行動認識システムの更新と拡張に必要なメンテナンス
Maintenance Required: Updating and Extending Bootstrapped Human Activity Recognition Systems for Smart Homes ( http://arxiv.org/abs/2406.14446v1 ) ライセンス: Link先を確認 | Shruthi K. Hiremath, Thomas Ploetz, | (参考訳) スマートホームのためのヒューマンアクティビティ認識(HAR)システムの開発は、家庭のレイアウトやパーソナライズされた設定、住民の慣用的行動などにより容易ではない。
したがって、市販のHARシステムは個々の家庭の限られた収容能力に有効であり、HARシステムは「スクラッチから」引き出されることがしばしばであり、これはかなりの努力が伴い、しばしば住民にとって負担となる。
以前の作業は、最初のフェーズを目標にしました。
この初期段階の最後にシードポイントを同定する。
我々は,自己資金で構築したHARシステム上に構築し,生活環境の変化に追従することを目的とした,HARシステムの継続的改善のための効果的な更新・拡張手順を導入する。
本手法では,初期ブートストラッピングフェーズの最後に同定されたシードポイントを利用する。
これらのシードポイントとラベルを使って、対照的な学習フレームワークをトレーニングする。
このモデルは、特定された顕著なアクティビティのセグメンテーション精度を向上させるために使用される。
この手法による活動認識システムの改善は、スマートホームにおける日常活動の大部分をモデル化するのに役立つ。
提案手法の有効性を示すCASASデータセットの実験により,提案手法の有効性を実証する。
Developing human activity recognition (HAR) systems for smart homes is not straightforward due to varied layouts of the homes and their personalized settings, as well as idiosyncratic behaviors of residents. As such, off-the-shelf HAR systems are effective in limited capacity for an individual home, and HAR systems often need to be derived "from scratch", which comes with substantial efforts and often is burdensome to the resident. Previous work has successfully targeted the initial phase. At the end of this initial phase, we identify seed points. We build on bootstrapped HAR systems and introduce an effective updating and extension procedure for continuous improvement of HAR systems with the aim of keeping up with ever changing life circumstances. Our method makes use of the seed points identified at the end of the initial bootstrapping phase. A contrastive learning framework is trained using these seed points and labels obtained for the same. This model is then used to improve the segmentation accuracy of the identified prominent activities. Improvements in the activity recognition system through this procedure help model the majority of the routine activities in the smart home. We demonstrate the effectiveness of our procedure through experiments on the CASAS datasets that show the practical value of our approach. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 極性イオン超微粒子量子ビットの偏極非感受性状態生成
Polarisation-insensitive state preparation for trapped-ion hyperfine qubits ( http://arxiv.org/abs/2406.14448v1 ) ライセンス: Link先を確認 | A. D. Leu, M. C. Smith, M. F. Gely, D. M. Lucas, | (参考訳) 閉じ込められたイオン量子ビットの量子状態の準備は、チップベースの集積光学技術では達成が難しい高品質の円偏光にしばしば依存する。
我々は、周波数選択性に依存する中間フィールド超微細量子ビットに対するハイブリッド光/マイクロ波方式を提案し、実装する。
実験的に、99.94\%$fidelity for linearly polarized ($\sigma^+$/$\sigma^-$) light, using $^{43}$Ca$^+$ at 28.8 mT. We found that the fidelity remains for $99.8\%$ for a mixture of all polarizations ($\sigma^+$/$\sigma^-$/$\pi$.
この手法は、$^{43}$Ca$^+$の99.99\%$忠実度と、$^\text{137}$Ba$^\text{+}$のような重イオンのさらに高い忠実度を計算できる。
Quantum state preparation for trapped-ion qubits often relies on high-quality circularly-polarised light, which may be difficult to achieve with chip-based integrated optics technology. We propose and implement a hybrid optical/microwave scheme for intermediate-field hyperfine qubits which instead relies on frequency selectivity. Experimentally, we achieve $99.94\%$ fidelity for linearly-polarised ($\sigma^+$/$\sigma^-$) light, using $^{43}$Ca$^+$ at 28.8 mT. We find that the fidelity remains above $99.8\%$ for a mixture of all polarisations ($\sigma^+$/$\sigma^-$/$\pi$). We calculate that the method is capable of $99.99\%$ fidelity in $^{43}$Ca$^+$, and even higher fidelities in heavier ions such as $^\text{137}$Ba$^\text{+}$. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# APEER: 大規模言語モデルのランク付けを促進する自動プロンプトエンジニアリング
APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking ( http://arxiv.org/abs/2406.14449v1 ) ライセンス: Link先を確認 | Can Jin, Hongwu Peng, Shiyu Zhao, Zhenting Wang, Wujiang Xu, Ligong Han, Jiahui Zhao, Kai Zhong, Sanguthevar Rajasekaran, Dimitris N. Metaxas, | (参考訳) 大規模言語モデル (LLM) は情報検索 (IR) を大幅に強化した。
優れた性能にもかかわらず、現在のLLMのゼロショット関連性ランキングは人間のプロンプト工学に大きく依存している。
既存の自動プロンプトエンジニアリングアルゴリズムは、言語モデリングと分類タスクに重点を置いており、IRの領域、特に再分類された領域は未探索のままである。
関連性ランキングに現在のプロンプトエンジニアリングアルゴリズムを直接適用することは、クエリと長いパスペアが入力に統合されているため、ランキングの複雑さが分類タスクを超えているため、難しい。
APEERという新しい自動プロンプトエンジニアリングアルゴリズムを導入する。
APEERはフィードバックと好みの最適化を通じて改良されたプロンプトを反復的に生成する。
4つのLLMと10のデータセットによる大規模な実験は、既存のSoTA(State-of-the-art)マニュアルプロンプトよりもAPEERの性能が大幅に向上したことを示している。
さらに, APEER が生成するプロンプトは, 多様なタスクや LLM 間で高い転送性を示す。
コードはhttps://github.com/jincan333/APEERで入手できる。
Large Language Models (LLMs) have significantly enhanced Information Retrieval (IR) across various modules, such as reranking. Despite impressive performance, current zero-shot relevance ranking with LLMs heavily relies on human prompt engineering. Existing automatic prompt engineering algorithms primarily focus on language modeling and classification tasks, leaving the domain of IR, particularly reranking, underexplored. Directly applying current prompt engineering algorithms to relevance ranking is challenging due to the integration of query and long passage pairs in the input, where the ranking complexity surpasses classification tasks. To reduce human effort and unlock the potential of prompt optimization in reranking, we introduce a novel automatic prompt engineering algorithm named APEER. APEER iteratively generates refined prompts through feedback and preference optimization. Extensive experiments with four LLMs and ten datasets demonstrate the substantial performance improvement of APEER over existing state-of-the-art (SoTA) manual prompts. Furthermore, we find that the prompts generated by APEER exhibit better transferability across diverse tasks and LLMs. Code is available at https://github.com/jincan333/APEER. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# MM-GTUNets:脳障害予測のための統合多モードグラフ深層学習
MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction ( http://arxiv.org/abs/2406.14455v1 ) ライセンス: Link先を確認 | Luhui Cai, Weiming Zeng, Hongyu Chen, Hua Zhang, Yueyang Li, Hongjie Yan, Lingbin Bian, Nizhuan Wang, | (参考訳) グラフ深層学習(GDL)は、画像データと非画像データの統合により、人口ベースの脳障害(BD)を予測する際、顕著な性能を示した。
しかし、GDLに基づく手法の有効性は、マルチモーダル人口グラフのモデル化の品質に大きく依存しており、グラフのスケールが大きくなるにつれて劣化する傾向にある。
さらに、これらの手法はしばしば、画像と非画像データの相互作用をグラフ内のノード-エッジの相互作用に制限し、複雑なモーダル間の相関を見越して、最適以下の結果をもたらす。
これらの課題を克服するために,大規模脳障害予測のためのエンドツーエンドグラフトランスフォーマーに基づくマルチモーダルグラフ深層学習(MMGDL)フレームワークMM-GTUNetsを提案する。
具体的には、病気に関連する豊富なマルチモーダル情報を効果的に活用するために、報酬システムを用いて集団グラフを適応的に構築するModality Reward Representation Learning (MRRL)を導入する。
さらに,画像特徴に整合した非画像特徴の潜在表現を再構成するために,変分オートエンコーダを用いる。
そこで我々は,グラフUNetとグラフトランスフォーマーの利点を生かしたGTUNetエンコーダと機能融合モジュールを用いて,重要なモダリティ特化およびモダリティ共有特徴を抽出する適応型クロスモーダルグラフ学習(ACMGL)を提案する。
ABIDEとADHD-200の2つの公開マルチモーダルデータセットに対して本手法の有効性を検証し,BDの診断における優れた性能を示した。
私たちのコードはhttps://github.com/NZWANG/MM-GTUNets.comで利用可能です。
Graph deep learning (GDL) has demonstrated impressive performance in predicting population-based brain disorders (BDs) through the integration of both imaging and non-imaging data. However, the effectiveness of GDL based methods heavily depends on the quality of modeling the multi-modal population graphs and tends to degrade as the graph scale increases. Furthermore, these methods often constrain interactions between imaging and non-imaging data to node-edge interactions within the graph, overlooking complex inter-modal correlations, leading to suboptimal outcomes. To overcome these challenges, we propose MM-GTUNets, an end-to-end graph transformer based multi-modal graph deep learning (MMGDL) framework designed for brain disorders prediction at large scale. Specifically, to effectively leverage rich multi-modal information related to diseases, we introduce Modality Reward Representation Learning (MRRL) which adaptively constructs population graphs using a reward system. Additionally, we employ variational autoencoder to reconstruct latent representations of non-imaging features aligned with imaging features. Based on this, we propose Adaptive Cross-Modal Graph Learning (ACMGL), which captures critical modality-specific and modality-shared features through a unified GTUNet encoder taking advantages of Graph UNet and Graph Transformer, and feature fusion module. We validated our method on two public multi-modal datasets ABIDE and ADHD-200, demonstrating its superior performance in diagnosing BDs. Our code is available at https://github.com/NZWANG/MM-GTUNets. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 時系列分類のための時間成分のキャプチャ
Capturing Temporal Components for Time Series Classification ( http://arxiv.org/abs/2406.14456v1 ) ライセンス: Link先を確認 | Venkata Ragavendra Vavilthota, Ranjith Ramanathan, Sathyanarayanan N. Aakur, | (参考訳) シーケンシャルなデータを解析することは、多くの領域において重要であり、特にIoTパラダイムから収集されたデータが豊富にあるためである。
時系列データを分類するタスクである時系列分類は、公開ベンチマークデータセットで顕著なパフォーマンスを示す機械学習アプローチによって、注目を集めている。
しかし、進歩は主に、固定された(または理想的な)時間スケールで生データから表現を学習するためのアーキテクチャの設計であり、より長いシーケンスに一般化できない。
本研究は,逐次データから抽出した統計的にコヒーレントな成分に基づいて学習した‘textit{compositional representation learning} アプローチを導入する。
マルチスケールな変更空間に基づいて、シーケンシャルデータを同様の統計特性を持つチャンクに分割する教師なしの手法を提案する。
シーケンスベースのエンコーダモデルをマルチタスク設定でトレーニングし、時系列分類のための時間成分から合成表現を学習する。
我々は,公開時系列分類ベンチマークの広範な実験を通じて,その効果を実証する。
セグメント化コンポーネントのコヒーレンスを評価することは、教師なしセグメンテーションタスクにおける競合性能を示す。
Analyzing sequential data is crucial in many domains, particularly due to the abundance of data collected from the Internet of Things paradigm. Time series classification, the task of categorizing sequential data, has gained prominence, with machine learning approaches demonstrating remarkable performance on public benchmark datasets. However, progress has primarily been in designing architectures for learning representations from raw data at fixed (or ideal) time scales, which can fail to generalize to longer sequences. This work introduces a \textit{compositional representation learning} approach trained on statistically coherent components extracted from sequential data. Based on a multi-scale change space, an unsupervised approach is proposed to segment the sequential data into chunks with similar statistical properties. A sequence-based encoder model is trained in a multi-task setting to learn compositional representations from these temporal components for time series classification. We demonstrate its effectiveness through extensive experiments on publicly available time series classification benchmarks. Evaluating the coherence of segmented components shows its competitive performance on the unsupervised segmentation task. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# タスク指向対話のためのステップバイステップ強化学習
Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue ( http://arxiv.org/abs/2406.14457v1 ) ライセンス: Link先を確認 | Huifang Du, Shuqin Li, Minghao Wu, Xuejing Feng, Yuan-Fang Li, Haofen Wang, | (参考訳) 強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
しかし、既存のRL手法は、対話状態追跡(DST)を無視しながら、対話ポリシー学習(DPL)や応答生成(RG)のような生成タスクに主にフォーカスする傾向にある。
この狭い焦点は、理解と生成の相互依存を見越して、グローバルに最適なパフォーマンスを達成するためのシステムを制限する。
さらに、RLメソッドは、トレーニングと最適化を複雑にするスパースと遅延報酬を伴う課題に直面している。
これらの問題に対処するため、トークン生成全体を通じてステップバイステップの報酬を導入することにより、RLを理解タスクと生成タスクの両方に拡張する。
理解報酬は、より多くのスロットがDSTで正しく満たされるにつれて増加するが、生成報酬は、ユーザの要求を正確に受け入れることで増大する。
このアプローチはタスク完了に合わせてバランスのとれた最適化を提供します。
実験結果から,本手法はTODシステムの性能を効果的に向上し,MultiWOZ2.0,MultiWOZ2.1,In-Carの3つの広く使用されているデータセットに対して,最先端の新たな結果が得られることが示された。
提案手法は,現行モデルと比較して,低リソース環境での撮影能力にも優れる。
Reinforcement learning (RL) is a powerful approach to enhance task-oriented dialogue (TOD) systems. However, existing RL methods tend to mainly focus on generation tasks, such as dialogue policy learning (DPL) or response generation (RG), while neglecting dialogue state tracking (DST) for understanding. This narrow focus limits the systems to achieve globally optimal performance by overlooking the interdependence between understanding and generation. Additionally, RL methods face challenges with sparse and delayed rewards, which complicates training and optimization. To address these issues, we extend RL into both understanding and generation tasks by introducing step-by-step rewards throughout the token generation. The understanding reward increases as more slots are correctly filled in DST, while the generation reward grows with the accurate inclusion of user requests. Our approach provides a balanced optimization aligned with task completion. Experimental results demonstrate that our approach effectively enhances the performance of TOD systems and achieves new state-of-the-art results on three widely used datasets, including MultiWOZ2.0, MultiWOZ2.1, and In-Car. Our approach also shows superior few-shot ability in low-resource settings compared to current models. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 6GアプリケーションのためのAI/MLを用いたCentimeter位置決め精度
Centimeter Positioning Accuracy using AI/ML for 6G Applications ( http://arxiv.org/abs/2406.14458v1 ) ライセンス: Link先を確認 | Sai Prasanth Kotturi, Radha Krishna Ganti, | (参考訳) 本研究は,AI/MLを用いて,産業用IoT(Industrial Internet of Things, IIoT)などの6Gアプリケーションにおけるセンチメートルレベルのユーザ位置決めを実現することを検討する。
最初の結果から,我々のAI/MLに基づく手法は,室内工場環境において17cmの精度でユーザ位置を推定できることがわかった。
この提案では、我々のアプローチと今後の方向性を強調します。
This research looks at using AI/ML to achieve centimeter-level user positioning in 6G applications such as the Industrial Internet of Things (IIoT). Initial results show that our AI/ML-based method can estimate user positions with an accuracy of 17 cm in an indoor factory environment. In this proposal, we highlight our approaches and future directions. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# BERTのヒーリングパワー:タスク特有なファインチューニングが故障した言語モデルをいかに再現するか
Healing Powers of BERT: How Task-Specific Fine-Tuning Recovers Corrupted Language Models ( http://arxiv.org/abs/2406.14459v1 ) ライセンス: Link先を確認 | Shijie Han, Zhenyu Zhang, Andrei Arsene Simion, | (参考訳) BERTのような言語モデルは、一般的なデータに基づく広範な事前学習のために、文分類タスクにおいて優れているが、パラメータの破損に対する頑健さは探索されていない。
これをよりよく理解するために、パラメータのいくつかが破損し、微調整によって復元されるという意味で、言語モデルが"壊れた"場合に何が起こるかを検討する。
BERTの変種を異なるレベルで戦略的に劣化させると、破損したモデルは元の性能を回復するのに苦労し、高い劣化はより深刻な劣化を引き起こします。
特に、基本的な言語的特徴に影響を及ぼす下層破壊は、上位層破壊よりも有害である。
本研究は, 言語モデルの堅牢性と悪条件下での適応性の理解に寄与し, パラメータ摂動に対する弾力性NLPシステムの開発戦略を提示する。
Language models like BERT excel at sentence classification tasks due to extensive pre-training on general data, but their robustness to parameter corruption is unexplored. To understand this better, we look at what happens if a language model is "broken", in the sense that some of its parameters are corrupted and then recovered by fine-tuning. Strategically corrupting BERT variants at different levels, we find corrupted models struggle to fully recover their original performance, with higher corruption causing more severe degradation. Notably, bottom-layer corruption affecting fundamental linguistic features is more detrimental than top-layer corruption. Our insights contribute to understanding language model robustness and adaptability under adverse conditions, informing strategies for developing resilient NLP systems against parameter perturbations. | 翻訳日:2024-06-21 12:52:55 公開日:2024-06-20 |
# 原子対と空洞光子との結合による多体絡み合いの生成
Generation of many-body entanglement by collective coupling of atom pairs to cavity photons ( http://arxiv.org/abs/2406.14461v1 ) ライセンス: Link先を確認 | Sankalp Sharma, Jan Chwedeńczuk, Tomasz Wasak, | (参考訳) このプロセスは、常に所望の量子効果と望ましくないデコヒーレンスの間の微妙な相互作用を含むため、原子サンプル中の多体絡み合った状態の生成は高速であるべきである。
ここでは, 制御可能でスケーラブルな触媒を同定し, メソジカルに有用な絡み合った状態が高速に生成できることを示した。
これは、二重井戸電位に閉じ込められたボゾン原子の集合を光学キャビティに浸漬することで達成される。
分散状態においては、空洞光子は基底状態の原子対を分子状態にまとめて結合し、光子数依存原子相互作用を効果的に生成する。
これらの効果的な相互作用は、光子数と原子数の両方で強くスケールする速度で原子を絡み合わせる。
結果として、絡み合い形成の特徴的な時間スケールは、素原子-原子相互作用よりもはるかに短くなり、光子損失によるデコヒーレンスを効果的に排除できる。
ここでは、エンタングルメント生成率の制御は、磁場のゆらぎがデコヒーレンスに寄与するフェシュバッハ共鳴を用いることを必要としない。
我々のプロトコルは、制御可能でスケーラブルな多体絡み合いが望まれる将来の量子センサーや他のシステムに応用できるかもしれない。
The generation of many-body entangled states in atomic samples should be fast, as this process always involves a subtle interplay between desired quantum effects and unwanted decoherence. Here we identify a controllable and scalable catalyst that allows metrologically useful entangled states to be generated at a high rate. This is achieved by immersing a collection of bosonic atoms, trapped in a double-well potential, in an optical cavity. In the dispersive regime, cavity photons collectively couple pairs of atoms in their ground state to a molecular state, effectively generating, photon-number dependent atom-atom interactions. These effective interactions entangle atoms at a rate that strongly scales with both the number of photons and the number of atoms. As a consequence, the characteristic time scale of entanglement formation can be much shorter than for bare atom-atom interactions, effectively eliminating the decoherence due to photon losses. Here, the control of the entanglement generation rate does not require the use of Feshbach resonances, where magnetic field fluctuations can contribute to decoherence. Our protocol may find applications in future quantum sensors or other systems where controllable and scalable many-body entanglement is desired. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 明示的かつ暗黙的な大言語モデルパーソナは意見を生成するが、より深い知覚とバイアスを再現できない
Explicit and Implicit Large Language Model Personas Generate Opinions but Fail to Replicate Deeper Perceptions and Biases ( http://arxiv.org/abs/2406.14462v1 ) ライセンス: Link先を確認 | Salvatore Giorgi, Tingting Liu, Ankit Aich, Kelsey Isman, Garrick Sherman, Zachary Fried, João Sedoc, Lyle H. Ungar, Brenda Curtis, | (参考訳) 大規模言語モデル(LLM)は、データアノテーション、合成データ生成、ダイアログの関与など、人間中心の社会科学的なタスクでますます使われている。
しかしながら、これらのタスクは、環境、態度、信念、生きた経験など、人的要因に強く依存している。
したがって、これらのタスクにLLM(そのようなヒューマンファクターを持たない)を用いることは、データの変化の欠如を招き、人間の経験の多様性を反映できない可能性がある。
本稿では, LLMを人間的なペルソナで促進する役割について検討し, モデルに対して, 特定の人間であるかのように答えるように求める。
これは明確に行われ、正確な人口統計、政治的信念、生きた経験、あるいは特定の集団でよく見られる名前を通して暗黙的に行われる。
LLMペルソナは、(1)主観的アノテーションタスク(例えば、毒性の検出)と(2)信念生成タスクによって評価される。
明示的対暗示的ペルソナの影響について検討し,LLMが認識・応答する人的要因について検討した。
結果は、LLMペルソナは、既知の人間のバイアスを再現する際には、混合の結果を示すが、一般的には暗黙のバイアスを示さないことを示している。
LLMには人間の思考の固有の認知メカニズムが欠如しており、複雑な社会科学の応用においてその効果が制限される可能性のある、人々の話し方に関する統計的パターンを捉えていると結論付けている。
Large language models (LLMs) are increasingly being used in human-centered social scientific tasks, such as data annotation, synthetic data creation, and engaging in dialog. However, these tasks are highly subjective and dependent on human factors, such as one's environment, attitudes, beliefs, and lived experiences. Thus, employing LLMs (which do not have such human factors) in these tasks may result in a lack of variation in data, failing to reflect the diversity of human experiences. In this paper, we examine the role of prompting LLMs with human-like personas and asking the models to answer as if they were a specific human. This is done explicitly, with exact demographics, political beliefs, and lived experiences, or implicitly via names prevalent in specific populations. The LLM personas are then evaluated via (1) subjective annotation task (e.g., detecting toxicity) and (2) a belief generation task, where both tasks are known to vary across human factors. We examine the impact of explicit vs. implicit personas and investigate which human factors LLMs recognize and respond to. Results show that LLM personas show mixed results when reproducing known human biases, but generate generally fail to demonstrate implicit biases. We conclude that LLMs lack the intrinsic cognitive mechanisms of human thought, while capturing the statistical patterns of how people speak, which may restrict their effectiveness in complex social science applications. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# オンライン話者ダイアリゼーション手法の検討
A Review of Common Online Speaker Diarization Methods ( http://arxiv.org/abs/2406.14464v1 ) ライセンス: Link先を確認 | Roman Aperdannier, Sigurd Schacht, Alexander Piazza, | (参考訳) 話者ダイアリゼーションは、音声ファイルに対して「誰がいつ話したか?」という質問に対する答えを提供する。
この情報は、さらなる処理ステップのためにオーディオの書き起こしを完了するために使用することができる。
ほとんどの話者ダイアリゼーションシステムは、オーディオファイルが全体として利用可能であると仮定する。
しかし、音声セグメントが到着した直後に話者ラベルが必要とされるシナリオもある。
低レイテンシの話者ダイアリゼーションをオンライン話者ダイアリゼーションと呼ぶ。
本論文は概観を述べる。
まず,オンライン話者ダイアリゼーションの歴史について概説する。
次に、トレーニングと評価のための分類学とデータセットが与えられる。
以下の節では、オンラインダイアリゼーション手法とシステムについて詳しく論じる。
本稿では,オンライン話者ダイアリゼーションの分野における今後の研究で解決すべき課題について述べる。
Speaker diarization provides the answer to the question "who spoke when?" for an audio file. This information can be used to complete audio transcripts for further processing steps. Most speaker diarization systems assume that the audio file is available as a whole. However, there are scenarios in which the speaker labels are needed immediately after the arrival of an audio segment. Speaker diarization with a correspondingly low latency is referred to as online speaker diarization. This paper provides an overview. First the history of online speaker diarization is briefly presented. Next a taxonomy and datasets for training and evaluation are given. In the sections that follow, online diarization methods and systems are discussed in detail. This paper concludes with the presentation of challenges that still need to be solved by future research in the field of online speaker diarization. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 一様ランダムウォークにおける点予測のための動きの融合とナイーブ予測
Fusion of Movement and Naive Predictions for Point Forecasting in Univariate Random Walks ( http://arxiv.org/abs/2406.14469v1 ) ライセンス: Link先を確認 | Cheng Zhang, | (参考訳) 単変量ランダムウォークにおける点予測の従来の方法は、データの予測不能のため、単純なベンチマークを超えないことが多い。
本研究では,移動予測(二項分類)とナイーブ予測を融合した新しい予測手法を提案する。
この手法の有効性は理論解析、シミュレーション、実世界のデータ実験を通じて実証される。
ARIMA、線形回帰、MLP、LSTMネットワークといったベースラインモデルを上回るパフォーマンスで、S&P500指数とBitcoin価格を予測している。
この方法は、正確な点予測が困難な場合に特に有利であるが、正確な運動予測が達成可能であり、ランダムウォークコンテキストにおける点予測に移動予測を変換する。
Traditional methods for point forecasting in univariate random walks often fail to surpass naive benchmarks due to data unpredictability. This study introduces a novel forecasting method that fuses movement prediction (binary classification) with naive forecasts for accurate one-step-ahead point forecasting. The method's efficacy is demonstrated through theoretical analysis, simulations, and real-world data experiments. It reliably exceeds naive forecasts with movement prediction accuracies as low as 0.55, outperforming baseline models like ARIMA, linear regression, MLP, and LSTM networks in forecasting the S\&P 500 index and Bitcoin prices. This method is particularly advantageous when accurate point predictions are challenging but accurate movement predictions are attainable, translating movement predictions into point forecasts in random walk contexts. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# IDTAサブモデル仕様のモデル駆動実現: 良い点、悪い点、相容れない点?
Model-driven realization of IDTA submodel specifications: The good, the bad, the incompatible? ( http://arxiv.org/abs/2406.14470v1 ) ライセンス: Link先を確認 | Holger Eichelberger, Alexander Weber, | (参考訳) アセット・マネジメント・シェルは産業4.0でトレンドになっている。
2024年2月、インダストリアル・デジタル・ツイン・アソシエーション (Industrial Digital Twin Association) は84と18のASサブモデル仕様を発表した。
プログラミングレベルでのイネーブラーとして、専用のAPIが必要であり、このレベルでは、自動生成が望ましい。
本稿では、IDTA仕様から抽出した情報を中間メタモデルに変換し、そこからAPIコードとテストを生成するモデル駆動型アプローチを提案する。
私たちは、すべての現在のIDTA仕様をうまく処理し、合計50000行以上のコードを生成することを示しています。
しかし、仕様の構文上のバリエーションと問題は、人間の介入やAIサポートを必要とする障害を課している。
経験や学んだ教訓についても議論しています。
Asset Administration Shells are trending in Industry 4.0. In February 2024, the Industrial Digital Twin Association announced 84 and released 18 AAS submodel specifications. As an enabler on programming level, dedicated APIs are needed, for which, at this level of scale, automated creation is desirable. In this paper, we present a model-driven approach, which transforms extracted information from IDTA specifications into an intermediary meta-model and, from there, generates API code and tests. We show we can process all current IDTA specifications successfully leading in total to more than 50000 lines of code. However, syntactical variations and issues in the specifications impose obstacles that require human intervention or AI support. We also discuss experiences that we made and lessons learned. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# ストリーミング映像における自己指導型マルチアクター社会活動理解
Self-supervised Multi-actor Social Activity Understanding in Streaming Videos ( http://arxiv.org/abs/2406.14472v1 ) ライセンス: Link先を確認 | Shubham Trehan, Sathyanarayanan N. Aakur, | (参考訳) この研究は、監視や補助ロボティクスといった現実世界のタスクにおいて重要な要素である社会活動認識(Social Activity Recognition, SAR)の問題に対処する。
従来のイベント理解アプローチとは異なり、SARは個々のアクターの外観や動きをモデル化し、社会的相互作用の中でそれらをコンテキスト化する必要がある。
従来のアクションローカライゼーション手法は、シングルアクター、シングルアクション仮定のために不足している。
これまでのSARの研究は、高密度に注釈付けされたデータに大きく依存していたが、プライバシーに関する懸念は、現実の環境での適用性を制限している。
本研究では,ストリーミングビデオにおけるSARのマルチアクタ予測学習に基づく自己教師型アプローチを提案する。
ビジュアル・セマンティック・グラフ構造を用いて社会的相互作用をモデル化し、最小ラベル付きデータによるロバストな性能のリレーショナル推論を可能にする。
提案フレームワークは,標準グループアクティビティ認識ベンチマーク上での競合性能を実現する。
3つの公開アクションローカライゼーションベンチマークの評価は、任意のアクションローカライゼーションへの一般化性を示している。
This work addresses the problem of Social Activity Recognition (SAR), a critical component in real-world tasks like surveillance and assistive robotics. Unlike traditional event understanding approaches, SAR necessitates modeling individual actors' appearance and motions and contextualizing them within their social interactions. Traditional action localization methods fall short due to their single-actor, single-action assumption. Previous SAR research has relied heavily on densely annotated data, but privacy concerns limit their applicability in real-world settings. In this work, we propose a self-supervised approach based on multi-actor predictive learning for SAR in streaming videos. Using a visual-semantic graph structure, we model social interactions, enabling relational reasoning for robust performance with minimal labeled data. The proposed framework achieves competitive performance on standard group activity recognition benchmarks. Evaluation on three publicly available action localization benchmarks demonstrates its generalizability to arbitrary action localization. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 大規模言語モデルにおけるデータ中心型AI
Data-Centric AI in the Age of Large Language Models ( http://arxiv.org/abs/2406.14473v1 ) ライセンス: Link先を確認 | Xinyi Xu, Zhaoxuan Wu, Rui Qiao, Arun Verma, Yao Shu, Jingtan Wang, Xinyuan Niu, Zhenfeng He, Jiangwei Chen, Zijian Zhou, Gregory Kang Ruey Lau, Hieu Dao, Lucas Agussurja, Rachael Hwee Ling Sim, Xiaoqiang Lin, Wenyang Hu, Zhongxiang Dai, Pang Wei Koh, Bryan Kian Hsiang Low, | (参考訳) 本稿では,大規模言語モデル(LLM)に着目し,AI研究におけるデータ中心の視点を提案する。
まず,LLMの発達段階(例えば,事前学習や微調整)や推論段階(例えば,文脈内学習)においてデータが有効であることを示すことから始める。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
それぞれのシナリオにおいて、データの重要性を強調し、有望な研究方向性を強調し、研究コミュニティや社会全体に与える影響を明確にする。
例えば、LLMのデータスケールと複雑さに合わせて、データ中心のベンチマークスイートを提唱する。
これらのベンチマークは、AIとLLM研究のオープン性と透明性を促進するために、新しいデータキュレーション方法やドキュメント研究の取り組みと結果の開発に使用することができる。
This position paper proposes a data-centric viewpoint of AI research, focusing on large language models (LLMs). We start by making the key observation that data is instrumental in the developmental (e.g., pretraining and fine-tuning) and inferential stages (e.g., in-context learning) of LLMs, and yet it receives disproportionally low attention from the research community. We identify four specific scenarios centered around data, covering data-centric benchmarks and data curation, data attribution, knowledge transfer, and inference contextualization. In each scenario, we underscore the importance of data, highlight promising research directions, and articulate the potential impacts on the research community and, where applicable, the society as a whole. For instance, we advocate for a suite of data-centric benchmarks tailored to the scale and complexity of data for LLMs. These benchmarks can be used to develop new data curation methods and document research efforts and results, which can help promote openness and transparency in AI and LLM research. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# テリル制御可能な状態表現の学習
Learning telic-controllable state representations ( http://arxiv.org/abs/2406.14476v1 ) ライセンス: Link先を確認 | Nadav Amir, Stas Tiomkin, Angela Langdon, | (参考訳) 目的的行動の計算的説明は記述的側面と規範的側面から構成される。
前者は、エージェントが世界の現在の(または将来の)状況を確認することを可能とし、後者はエージェントの目標に関して、これらの状態の望ましさ、またはその欠如を評価する。
強化学習(Reinforcement Learning)では、規範的側面(逆と値関数)は、事前に定義された、固定された記述的側面(状態表現)に依存すると仮定される。
あるいは、これらの2つの側面は相互依存的に現れるかもしれない: ゴールは状態表現の特徴の観点で表現できるが、状態表現自体を形作るのに役立つかもしれない。
ここでは、有界エージェントにおける状態表現学習の新たな理論的フレーミング、ゴール指向(telic)状態の概念による記述的および規範的側面の結合について説明する。
テリック状態表現の新たな制御可能性特性を定義し,その粒度と全てのテリック状態に到達するために必要な政策複雑性能力とのトレードオフを特徴付ける。
制御可能な状態表現を学習するためのアルゴリズムを提案し,目標変更を伴う単純なナビゲーションタスクを用いて実演する。
当社のフレームワークでは,目標フレキシブルかつシンプルな状態表現の学習において,意図的無知(無視すべきことを知る)という重要な役割を強調しています。
より広範に、我々の研究は、ゴールのレンズを通して自然と人工の学習の統一的な理論的な視点に向けた具体的なステップを提供する。
Computational accounts of purposeful behavior consist of descriptive and normative aspects. The former enable agents to ascertain the current (or future) state of affairs in the world and the latter to evaluate the desirability, or lack thereof, of these states with respect to the agent's goals. In Reinforcement Learning, the normative aspect (reward and value functions) is assumed to depend on a pre-defined and fixed descriptive one (state representation). Alternatively, these two aspects may emerge interdependently: goals can be, and indeed often are, expressed in terms of state representation features, but they may also serve to shape state representations themselves. Here, we illustrate a novel theoretical framing of state representation learning in bounded agents, coupling descriptive and normative aspects via the notion of goal-directed, or telic, states. We define a new controllability property of telic state representations to characterize the tradeoff between their granularity and the policy complexity capacity required to reach all telic states. We propose an algorithm for learning controllable state representations and demonstrate it using a simple navigation task with changing goals. Our framework highlights the crucial role of deliberate ignorance - knowing what to ignore - for learning state representations that are both goal-flexible and simple. More broadly, our work provides a concrete step towards a unified theoretical view of natural and artificial learning through the lens of goals. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# SafeSora: 人間の選好データセットによるText2Video生成の安全アライメントを目指して
SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset ( http://arxiv.org/abs/2406.14477v1 ) ライセンス: Link先を確認 | Josef Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang, | (参考訳) 大規模ビジョンモデル(LVM)からの有害な出力のリスクを軽減するため,テキスト・ビデオ生成と人的価値の整合性の研究を促進するため,SafeSoraデータセットを導入した。
このデータセットは、テキスト・ビデオ生成タスクにおける人間の嗜好を2つの主要な次元に沿って包含する。
より詳細な人間の嗜好を把握し,クラウドワーカーによる構造的推論を容易にするため,補助力を4つのサブディメンジョンに分割し,害のないものを12のサブカテゴリに分割し,パイロットアノテーションの基礎となる。
SafeSoraデータセットには、14,711のユニークなプロンプト、4つの異なるLVMによって生成された57,333のユニークなビデオ、人間によってラベル付けされた51,691対の好みアノテーションが含まれている。
さらに,テキストビデオモデレーションモデルのトレーニングや,プロンプト拡張モジュールや拡散モデルを微調整することで,LVMを人間の好みに合わせて調整するなど,SafeSoraデータセットの有用性をいくつかのアプリケーションで実証する。
これらのアプリケーションは、人間の嗜好モデリングやアライメントアルゴリズムの開発と検証など、テキストとビデオのアライメント研究の基礎としての可能性を強調している。
To mitigate the risk of harmful outputs from large vision models (LVMs), we introduce the SafeSora dataset to promote research on aligning text-to-video generation with human values. This dataset encompasses human preferences in text-to-video generation tasks along two primary dimensions: helpfulness and harmlessness. To capture in-depth human preferences and facilitate structured reasoning by crowdworkers, we subdivide helpfulness into 4 sub-dimensions and harmlessness into 12 sub-categories, serving as the basis for pilot annotations. The SafeSora dataset includes 14,711 unique prompts, 57,333 unique videos generated by 4 distinct LVMs, and 51,691 pairs of preference annotations labeled by humans. We further demonstrate the utility of the SafeSora dataset through several applications, including training the text-video moderation model and aligning LVMs with human preference by fine-tuning a prompt augmentation module or the diffusion model. These applications highlight its potential as the foundation for text-to-video alignment research, such as human preference modeling and the development and validation of alignment algorithms. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# データ駆動研究に向けて:機械学習を用いた材料押出成形における表面粗さ予測のための予備的研究
Toward data-driven research: preliminary study to predict surface roughness in material extrusion using previously published data with Machine Learning ( http://arxiv.org/abs/2406.14478v1 ) ライセンス: Link先を確認 | Fátima García-Martínez, Diego Carou, Francisco de Arriba-Pérez, Silvia García-Méndez, | (参考訳) 物質押出は、利用可能な添加製造プロセスの中で最もよく使われるアプローチの1つである。
その人気と技術進歩にもかかわらず、プロセスの信頼性と品質保証は部分的にしか解決されていない。
特に、このプロセスによって引き起こされる表面粗さは重要な懸念事項である。
この制約を解決するために、近年、表面粗さを最適化するために実験的な計画が活用されている。
しかしながら、後者の実証的な試行錯誤プロセスは非常に時間とリソースがかかります。
そこで本研究では,材料押出時の表面粗さを最適化するための大規模な実験プログラムの使用を避けることを目的としている。
方法論。
本研究は, 層の高さ, 印刷温度, 印刷速度, 壁厚など, 印刷パラメータの影響を詳細に解析する。
提案手法は機械学習モデルを利用して,文献から収集したデータとテスト用に生成された実験データに基づいて表面粗さを自動的に予測する。
発見。
文献から収集したデータの10倍のクロスバリデーションを用いて、提案した機械学習ソリューションは、平均絶対パーセンテージ誤差13%と、0.93の相関を達成している。
我々のデータでテストする場合、相関は0.79に減少し、平均絶対パーセンテージ誤差は8%に低下する。
したがって, 押出成形における表面粗さ予測の解は, 解析因子の変動性に関する競合的な結果をもたらす。
オリジナル。
利用可能な製造データが日々増え続けているため、これらの大量のデータから学ぶ能力は、将来の製造と科学において重要である。
具体的には、機械学習のパワーは、限られた実験テストで表面粗さをモデル化するのに役立つ。
Material extrusion is one of the most commonly used approaches within the additive manufacturing processes available. Despite its popularity and related technical advancements, process reliability and quality assurance remain only partially solved. In particular, the surface roughness caused by this process is a key concern. To solve this constraint, experimental plans have been exploited to optimize surface roughness in recent years. However, the latter empirical trial and error process is extremely time- and resource-consuming. Thus, this study aims to avoid using large experimental programs to optimize surface roughness in material extrusion. Methodology. This research provides an in-depth analysis of the effect of several printing parameters: layer height, printing temperature, printing speed and wall thickness. The proposed data-driven predictive modeling approach takes advantage of Machine Learning models to automatically predict surface roughness based on the data gathered from the literature and the experimental data generated for testing. Findings. Using 10-fold cross-validation of data gathered from the literature, the proposed Machine Learning solution attains a 0.93 correlation with a mean absolute percentage error of 13 %. When testing with our own data, the correlation diminishes to 0.79 and the mean absolute percentage error reduces to 8 %. Thus, the solution for predicting surface roughness in extrusion-based printing offers competitive results regarding the variability of the analyzed factors. Originality. As available manufacturing data continue to increase on a daily basis, the ability to learn from these large volumes of data is critical in future manufacturing and science. Specifically, the power of Machine Learning helps model surface roughness with limited experimental tests. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 層ワイド表現類似性について:単一分類器を用いたマルチエクイットモデルへの適用
On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier ( http://arxiv.org/abs/2406.14479v1 ) ライセンス: Link先を確認 | Jiachen Jiang, Jinxin Zhou, Zhihui Zhu, | (参考訳) 異なるモデル内および異なるモデル間の内部表現の類似性を分析することは、ディープニューラルネットワークの振る舞いを理解するための重要なテクニックである。
カノニカル相関解析(CCA)や広く使われているCKA(Centered Kernel Alignment)など、高次元の表現間の類似性を解析するための既存の手法は、データポイントの集合に対する表現の統計的性質に依存している。
本稿では,変圧器モデルに着目し,各変圧器の隠蔽層間の表現の類似性について検討する。
この文脈では、単純なサンプル単位のコサイン類似度メートル法が類似度を捉え、複雑なCKAと整合できることが示される。
共用変圧器における実験結果から, 層間表現は正の相関関係にあることが明らかとなった。
次に, 内部表現の類似性を高めるための一貫したトレーニング手法を提案する。(1) 最終層分類器は, 隠蔽層の後すぐに直接適用でき, 中間層精度が標準トレーニングよりもはるかに高いこと,(2) 階層的精度が単調に増加し, 与えられたタスクに必要な最小深度を明らかにすること,(3) マルチエクイットモデルとして機能する場合には, 下位層への早期退避用に設計された標準マルチエクイットアーキテクチャによるオンパー性能を実現する。
我々の知る限り、我々の研究は、一つの共通分類器がマルチエグジットモデルに十分であることを示す最初のものである。
視覚とNLPの両方のタスクで実験を行い、提案したアライメントトレーニングの性能を実証する。
Analyzing the similarity of internal representations within and across different models has been an important technique for understanding the behavior of deep neural networks. Most existing methods for analyzing the similarity between representations of high dimensions, such as those based on Canonical Correlation Analysis (CCA) and widely used Centered Kernel Alignment (CKA), rely on statistical properties of the representations for a set of data points. In this paper, we focus on transformer models and study the similarity of representations between the hidden layers of individual transformers. In this context, we show that a simple sample-wise cosine similarity metric is capable of capturing the similarity and aligns with the complicated CKA. Our experimental results on common transformers reveal that representations across layers are positively correlated, albeit the similarity decreases when layers are far apart. We then propose an aligned training approach to enhance the similarity between internal representations, with trained models that enjoy the following properties: (1) the last-layer classifier can be directly applied right after any hidden layers, yielding intermediate layer accuracies much higher than those under standard training, (2) the layer-wise accuracies monotonically increase and reveal the minimal depth needed for the given task, (3) when served as multi-exit models, they achieve on-par performance with standard multi-exit architectures which consist of additional classifiers designed for early exiting in shallow layers. To our knowledge, our work is the first to show that one common classifier is sufficient for multi-exit models. We conduct experiments on both vision and NLP tasks to demonstrate the performance of the proposed aligned training. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# マルチモーダルネットワークを用いた脳内視覚・言語統合の研究
Revealing Vision-Language Integration in the Brain with Multimodal Networks ( http://arxiv.org/abs/2406.14481v1 ) ライセンス: Link先を確認 | Vighnesh Subramaniam, Colin Conwell, Christopher Wang, Gabriel Kreiman, Boris Katz, Ignacio Cases, Andrei Barbu, | (参考訳) マルチモーダルディープ・ニューラル・ネットワーク(DNN)を用いてヒト脳におけるマルチモーダルな統合の場を探索し,ヒトが映画を見ている間に撮影されたステレオ脳波(SEEG)記録を予測した。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
我々のターゲットDNNモデルは、異なるアーキテクチャ(例えば、畳み込みネットワークと変換器)とマルチモーダルトレーニング技術(例えば、クロスアテンションとコントラスト学習)にまたがる。
まず、トレーニングされた視覚モデルと言語モデルは、SEEG信号の予測能力において、ランダムに初期化された言語モデルよりも体系的に優れていることを示す。
次に、単項モデルとマルチモーダルモデルを比較します。
対象のDNNモデルは、しばしば異なるアーキテクチャ、パラメータの数、トレーニングセット(おそらくこれらの違いが統合に起因すると推測される)を持つため、2つのモデル(SLIPとSimCLR)の制御比較を行い、これらの属性は入力モダリティの他に同じものを保持する。
このアプローチを用いることで、膨大な数の神経部位(1090のトータルサイトのうち平均141か12.94%)と、マルチモーダル統合が起こると思われる脳領域を同定する。
さらに、評価したマルチモーダルトレーニング手法の変種の中で、CLIPスタイルのトレーニングは、これらのサイトにおける神経活動の下流予測に最適であることがわかった。
We use (multi)modal deep neural networks (DNNs) to probe for sites of multimodal integration in the human brain by predicting stereoencephalography (SEEG) recordings taken while human subjects watched movies. We operationalize sites of multimodal integration as regions where a multimodal vision-language model predicts recordings better than unimodal language, unimodal vision, or linearly-integrated language-vision models. Our target DNN models span different architectures (e.g., convolutional networks and transformers) and multimodal training techniques (e.g., cross-attention and contrastive learning). As a key enabling step, we first demonstrate that trained vision and language models systematically outperform their randomly initialized counterparts in their ability to predict SEEG signals. We then compare unimodal and multimodal models against one another. Because our target DNN models often have different architectures, number of parameters, and training sets (possibly obscuring those differences attributable to integration), we carry out a controlled comparison of two models (SLIP and SimCLR), which keep all of these attributes the same aside from input modality. Using this approach, we identify a sizable number of neural sites (on average 141 out of 1090 total sites or 12.94%) and brain regions where multimodal integration seems to occur. Additionally, we find that among the variants of multimodal training techniques we assess, CLIP-style training is the best suited for downstream prediction of the neural activity in these sites. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# Visible-Thermal Tiny Object Detection:ベンチマークデータセットとベースライン
Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines ( http://arxiv.org/abs/2406.14482v1 ) ライセンス: Link先を確認 | Xinyi Ying, Chao Xiao, Ruojing Li, Xu He, Boyang Li, Zhaoxu Li, Yingqian Wang, Mingyuan Hu, Qingyu Xu, Zaiping Lin, Miao Li, Shilin Zhou, Wei An, Weidong Sheng, Li Liu, | (参考訳) 小型物体検出(SOD)は、何十年にもわたって難題であり、多くのデータセットやアルゴリズムが開発されてきた。
しかし、主に可視的または熱的モダリティに焦点をあてる一方で、可視熱水(RGBT)バイモーダリティは滅多に調査されない。
近年、いくつかのRGBTデータセットが開発されているが、不十分な量、限られたカテゴリ、不整合画像、大きなターゲットサイズは、マルチカテゴリ可視熱小物体検出(RGBT SOD)アルゴリズムを評価するための公平なベンチマークを提供することができない。
本稿では,RGBT SOD (いわゆるRGBT-Tiny) に対して,115組のペアシーケンス,93Kフレーム,1.2Mマニュアルアノテーションを含む,多様性の高い最初の大規模ベンチマークを構築した。
RGBT-Tinyには、多くのターゲット(7つのカテゴリ)と高多様性シーン(8種類の照明と密度の変化をカバーする)が含まれている。
ターゲットの81%以上が16x16よりも小さく、トラッキングIDを備えたペア境界ボックスアノテーションを提供し、RGBT融合や検出、トラッキングといった広範囲のアプリケーションで非常に難しいベンチマークを提供することに注意してください。
また,小型・大型の目標に対して高いロバスト性を示すSAFit尺度を提案する。
提案したSAFitは適切な性能評価と検出性能の促進を可能にする。
提案したRGBT-TinyデータセットとSAFit測定に基づいて、23の最新の最先端アルゴリズム(可視ジェネリック検出、可視SOD、サーマルSOD、RGBTオブジェクト検出)を含む広範な評価が行われた。
プロジェクトはhttps://github.com/XinyiYing24/RGBT-Tinyで入手できる。
Small object detection (SOD) has been a longstanding yet challenging task for decades, with numerous datasets and algorithms being developed. However, they mainly focus on either visible or thermal modality, while visible-thermal (RGBT) bimodality is rarely explored. Although some RGBT datasets have been developed recently, the insufficient quantity, limited category, misaligned images and large target size cannot provide an impartial benchmark to evaluate multi-category visible-thermal small object detection (RGBT SOD) algorithms. In this paper, we build the first large-scale benchmark with high diversity for RGBT SOD (namely RGBT-Tiny), including 115 paired sequences, 93K frames and 1.2M manual annotations. RGBT-Tiny contains abundant targets (7 categories) and high-diversity scenes (8 types that cover different illumination and density variations). Note that, over 81% of targets are smaller than 16x16, and we provide paired bounding box annotations with tracking ID to offer an extremely challenging benchmark with wide-range applications, such as RGBT fusion, detection and tracking. In addition, we propose a scale adaptive fitness (SAFit) measure that exhibits high robustness on both small and large targets. The proposed SAFit can provide reasonable performance evaluation and promote detection performance. Based on the proposed RGBT-Tiny dataset and SAFit measure, extensive evaluations have been conducted, including 23 recent state-of-the-art algorithms that cover four different types (i.e., visible generic detection, visible SOD, thermal SOD and RGBT object detection). Project is available at https://github.com/XinyiYing24/RGBT-Tiny. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 低保守性でマイクロサービスを識別するためのファジィ論理に基づく品質モデル
A Fuzzy Logic-Based Quality Model For Identifying Microservices With Low Maintainability ( http://arxiv.org/abs/2406.14489v1 ) ライセンス: Link先を確認 | Rahime Yilmaz, Feza Buzluca, | (参考訳) マイクロサービスアーキテクチャ(MSA)は一般的なアーキテクチャスタイルであり、メンテナンス性やスケーラビリティなど、品質特性に関する多くの利点を提供する。
期待されるメリットを持つマイクロサービスの集合としてシステムを開発するには、システムのプロパティの測定に基づいて確立された品質評価戦略が必要だ。
本稿では,ISO/IEC 250xy SQuaRE(System and Software Quality Requirements and Evaluation)標準を考慮したファジィ論理に基づく階層的品質モデルを提案する。
低レベルの品質特性の定性的境界は本質的に曖昧であるため、ファジフィケーション手法を用いて、コードメトリクスの清潔な値をファジィレベルに変換し、それらを品質モデルへの入力として適用します。
このモデルは、メンテナンス性の品質サブ特性、すなわちモジュラビリティとテスト可能性のファジィ値を生成し、デファジフィケーションを通じて数値に変換する。
最後のステップでは、サブ特性値を用いて、検査されたソフトウェアシステム内の各マイクロサービスの保守性レベルを示す数値スコアを算出する。
このスコアは、マイクロサービスの品質を評価し、リファクタリングが必要なかどうかを判断するために使用されました。
3人の開発者の助けを借りてテストセットを作成して、私たちのアプローチを評価しました。
マイクロサービスを低、中、あるいは高とラベル付けし、リファクタリングの必要性を示している。
テストセットで低ラベルのマイクロサービスを特定する方法は,94%の精度,78%の精度,100%のリコールを達成した。
これらの結果は、マイクロサービスの保守性の品質を評価する上で、当社のアプローチがデザイナを支援することを示唆している。
Microservice Architecture (MSA) is a popular architectural style that offers many advantages regarding quality attributes, including maintainability and scalability. Developing a system as a set of microservices with expected benefits requires a quality assessment strategy that is established on the measurements of the system's properties. This paper proposes a hierarchical quality model based on fuzzy logic to measure and evaluate the maintainability of MSAs considering ISO/IEC 250xy SQuaRE (System and Software Quality Requirements and Evaluation) standards. Since the qualitative bounds of low-level quality attributes are inherently ambiguous, we use a fuzzification technique to transform crisp values of code metrics into fuzzy levels and apply them as inputs to our quality model. The model generates fuzzy values for the quality sub-characteristics of the maintainability, i.e., modifiability and testability, converted to numerical values through defuzzification. In the last step, using the values of the sub-characteristics, we calculate numerical scores indicating the maintainability level of each microservice in the examined software system. This score was used to assess the quality of the microservices and decide whether they need refactoring. We evaluated our approach by creating a test set with the assistance of three developers, who reviewed and categorized the maintainability levels of the microservices in an open-source project based on their knowledge and experience. They labeled microservices as low, medium, or high, with low indicating the need for refactoring. Our method for identifying low-labeled microservices in the given test set achieved 94% accuracy, 78% precision, and 100% recall. These results indicate that our approach can assist designers in evaluating the maintainability quality of microservices. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 教師による事前学習:言語モデルはマルチタスク学習者を監督する
Instruction Pre-Training: Language Models are Supervised Multitask Learners ( http://arxiv.org/abs/2406.14491v1 ) ライセンス: Link先を確認 | Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei, | (参考訳) 教師なしマルチタスク事前学習は近年の言語モデル(LM)の成功を支える重要な手法である。
しかし、教師付きマルチタスク学習は、よりよい一般化に向けた訓練後の段階的なトレンドにおいて、依然として大きな可能性を秘めている。
本稿では,インストラクション・プレトレーニング(Instruction Pre-Training)を提案することで,教師付きマルチタスク・プレトレーニングについて検討する。
命令応答対は、オープンソースモデル上に構築された効率的な命令合成器によって生成される。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
スクラッチからの事前トレーニングでは、インストラクション事前訓練は、トレーニング済みのベースモデルを一貫して強化するだけでなく、さらなるインストラクションチューニングの恩恵を受ける。
Instruction Pre-Trainingでは、Llama3-8BはLlama3-70Bに匹敵するか、さらに性能が劣る。
私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されています。
Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better generalization. In this paper, we explore supervised multitask pre-training by proposing Instruction Pre-Training, a framework that scalably augments massive raw corpora with instruction-response pairs to pre-train LMs. The instruction-response pairs are generated by an efficient instruction synthesizer built on open-source models. In our experiments, we synthesize 200M instruction-response pairs covering 40+ task categories to verify the effectiveness of Instruction Pre-Training. In pre-training from scratch, Instruction Pre-Training not only consistently enhances pre-trained base models but also benefits more from further instruction tuning. In continual pre-training, Instruction Pre-Training enables Llama3-8B to be comparable to or even outperform Llama3-70B. Our model, code, and data are available at https://github.com/microsoft/LMOps. | 翻訳日:2024-06-21 12:43:03 公開日:2024-06-20 |
# 物体のグラウンド化は大規模視線モデルにおける幻覚を本当に減少させるか?
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? ( http://arxiv.org/abs/2406.14492v1 ) ライセンス: Link先を確認 | Gregor Geigle, Radu Timofte, Goran Glavaš, | (参考訳) 視覚言語モデル(LVLM)は最近、画像キャプションや多くの画像理解タスク(例えば、視覚的質問応答)の最先端を劇的に押し上げている。
しかし、LVLMは、しばしばtextit{hallucinate} となり、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
直観的ではあるが、この主張は還元効果が確立されたために実証的に正当化されていない。
(i)LVLM訓練に広く用いられているデータ(すなわち、MSCOCO)に依存している。
二 オープンエンドキャプション生成ではなく、質問応答による幻覚を測定すること。
本研究は,LVLM幻覚に対する微小物体接地の影響を,オープンジェネレーションにおけるLVLM幻覚をより現実的に捉えた評価プロトコルを用いて,初めて体系的に解析するものである。
3つのバックボーンLLMに対する広範囲な実験により,接地目的がオープンキャプション生成における物体幻覚にほとんど影響しないことが明らかとなった。
Large vision-language models (LVLMs) have recently dramatically pushed the state of the art in image captioning and many image understanding tasks (e.g., visual question answering). LVLMs, however, often \textit{hallucinate} and produce captions that mention concepts that cannot be found in the image. These hallucinations erode the trustworthiness of LVLMs and are arguably among the main obstacles to their ubiquitous adoption. Recent work suggests that addition of grounding objectives -- those that explicitly align image regions or objects to text spans -- reduces the amount of LVLM hallucination. Although intuitive, this claim is not empirically justified as the reduction effects have been established, we argue, with flawed evaluation protocols that (i) rely on data (i.e., MSCOCO) that has been extensively used in LVLM training and (ii) measure hallucination via question answering rather than open-ended caption generation. In this work, in contrast, we offer the first systematic analysis of the effect of fine-grained object grounding on LVLM hallucination under an evaluation protocol that more realistically captures LVLM hallucination in open generation. Our extensive experiments over three backbone LLMs reveal that grounding objectives have little to no effect on object hallucination in open caption generation. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# ソフトウェアメトロロジーを教える:ソフトウェア工学のための計測の科学
Teaching Software Metrology: The Science of Measurement for Software Engineering ( http://arxiv.org/abs/2406.14494v1 ) ライセンス: Link先を確認 | Paul Ralph, Miikka Kuutila, Hera Arif, Bimpe Ayoola, | (参考訳) コンピュータ研究の方法論的厳密さは過去20年間で著しく改善されているが、定量的ソフトウェア工学の研究は未熟な測定と理論への不注意によって妨げられている。
測度-現象に対する数値の原理的な割り当ては本質的に困難である、なぜなら観測は理論的な概念だけでなく、研究の価値や視点にも当てはまるからである。
従来、測定に対するより洗練されたアプローチの認識を高め、信頼性と妥当性を定量的に評価する重要性を高める試みがあったが、測定問題は広く無視され続けている。
その理由は不明だが、典型的な工学とコンピュータサイエンスの卒業訓練プログラム(例えば心理学やマネジメント)の違いが関係している。
したがって、この章は測定の科学における重要な概念をレビューし、それらをソフトウェア工学の研究に適用する。
読者の研究に重要な測定概念を適用するための一連の演習と、上記統計学的手順を試すためのサンプルデータセットが提供される。
While the methodological rigor of computing research has improved considerably in the past two decades, quantitative software engineering research is hampered by immature measures and inattention to theory. Measurement-the principled assignment of numbers to phenomena-is intrinsically difficult because observation is predicated upon not only theoretical concepts but also the values and perspective of the research. Despite several previous attempts to raise awareness of more sophisticated approaches to measurement and the importance of quantitatively assessing reliability and validity, measurement issues continue to be widely ignored. The reasons are unknown, but differences in typical engineering and computer science graduate training programs (compared to psychology and management, for example) are involved. This chapter therefore reviews key concepts in the science of measurement and applies them to software engineering research. A series of exercises for applying important measurement concepts to the reader's research are included, and a sample dataset for the reader to try some of the statistical procedures mentioned is provided. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# rKAN:Rational Kolmogorov-Arnold Networks
rKAN: Rational Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2406.14495v1 ) ライセンス: Link先を確認 | Alireza Afzal Aghaei, | (参考訳) Kolmogorov-Arnoldネットワーク(KAN)の開発は、ディープラーニングにおける従来の多層パーセプトロンから大きく変化している。
当初、カンはB-スプライン曲線を基本関数として用いたが、その固有の複雑さは実装上の問題を引き起こした。
その結果、研究者はウェーブレット、ポリノミアル、フラクタル関数などの代替基底関数を探索した。
本研究では,感性のための新しい基礎関数としての有理関数の利用について検討する。
学習可能な基底関数としてPade近似と有理ヤコビ関数に基づく2つの異なるアプローチを提案し、有理カン(rKAN)を確立する。
次に,様々な深層学習および物理インフォームドタスクにおけるrKANの性能を評価し,関数近似の実用性と有効性を示す。
The development of Kolmogorov-Arnold networks (KANs) marks a significant shift from traditional multi-layer perceptrons in deep learning. Initially, KANs employed B-spline curves as their primary basis function, but their inherent complexity posed implementation challenges. Consequently, researchers have explored alternative basis functions such as Wavelets, Polynomials, and Fractional functions. In this research, we explore the use of rational functions as a novel basis function for KANs. We propose two different approaches based on Pade approximation and rational Jacobi functions as trainable basis functions, establishing the rational KAN (rKAN). We then evaluate rKAN's performance in various deep learning and physics-informed tasks to demonstrate its practicality and effectiveness in function approximation. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# アフリカかヨーロッパか? 細粒度物体分類のための大規模視覚言語モデルのベンチマーク
African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification ( http://arxiv.org/abs/2406.14496v1 ) ライセンス: Link先を確認 | Gregor Geigle, Radu Timofte, Goran Glavaš, | (参考訳) 最近のLVLM(Large Vision-Language Models)は、多くの画像理解と推論タスクにおいて印象的な能力を示している。
しかし、細粒度オブジェクト分類(例: \textit{animal species} の区別)の課題は下流の重要性にもかかわらず、不十分に調査されている。
我々は、既存のオブジェクト分類データセットから、細粒度オブジェクト分類のための難易度ベンチマークである \texttt{FOCI} (\textbf{F}ine-fine \textbf{O}bject \textbf{C}lass\textbf{I}fication) を作成することにより、この評価ギャップを埋める。
\texttt{FOCI}\xspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
我々は、12の公開LVLMをtexttt{FOCI}上でベンチマークし、確立された画像理解および推論ベンチマークに対して、textit{complementary skill}をテストしていることを示す。
重要な点として、CLIPモデルはLVLMよりも劇的に優れた性能を示している。
LVLMのイメージエンコーダはこれらのCLIPモデルに由来するため、このことは、エンコーダとLLMの微粒なオブジェクト区別と、より微細なアノテーションによる保証(pre)訓練データとの整合性が不十分であることを示している。
ソースコードは \url{https://github.com/gregor-ge/FOCI-Benchmark} で公開しています。
Recent Large Vision-Language Models (LVLMs) demonstrate impressive abilities on numerous image understanding and reasoning tasks. The task of fine-grained object classification (e.g., distinction between \textit{animal species}), however, has been probed insufficiently, despite its downstream importance. We fill this evaluation gap by creating \texttt{FOCI} (\textbf{F}ine-grained \textbf{O}bject \textbf{C}lass\textbf{I}fication), a difficult multiple-choice benchmark for fine-grained object classification, from existing object classification datasets: (1) multiple-choice avoids ambiguous answers associated with casting classification as open-ended QA task; (2) we retain classification difficulty by mining negative labels with a CLIP model. \texttt{FOCI}\xspace complements five popular classification datasets with four domain-specific subsets from ImageNet-21k. We benchmark 12 public LVLMs on \texttt{FOCI} and show that it tests for a \textit{complementary skill} to established image understanding and reasoning benchmarks. Crucially, CLIP models exhibit dramatically better performance than LVLMs. Since the image encoders of LVLMs come from these CLIP models, this points to inadequate alignment for fine-grained object distinction between the encoder and the LLM and warrants (pre)training data with more fine-grained annotation. We release our code at \url{https://github.com/gregor-ge/FOCI-Benchmark}. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# CodeRAG-Bench: 検索によるコード生成は可能か?
CodeRAG-Bench: Can Retrieval Augment Code Generation? ( http://arxiv.org/abs/2406.14497v1 ) ライセンス: Link先を確認 | Zora Zhiruo Wang, Akari Asai, Xinyan Velocity Yu, Frank F. Xu, Yiqing Xie, Graham Neubig, Daniel Fried, | (参考訳) 言語モデル(LM)は、コード生成に非常に適していることが証明されているが、多くのプログラムは、パラメトリック知識のみを用いて、LMが生成することを困難にしている。
ライブラリドキュメンテーションのような外部コンテキストを提供することで、正確で機能的なコードを生成することができる。
テキスト指向タスクにおける検索拡張生成(RAG)の成功にもかかわらず、コード生成を改善する可能性はまだ探索されていない。
どのようなシナリオでコード生成モデルに利益をもたらすことができるのか?
どんな課題が残っていますか?
まず、基本的なプログラミング、オープンドメイン、リポジトリレベルの問題を含むコード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
コンペティションソリューション、オンラインチュートリアル、ライブラリドキュメンテーション、StackOverflowの投稿、GitHubリポジトリなどです。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
さまざまな設定にまたがって高品質なコンテキストを検索することで、最終的なコード生成において顕著な利益が得られますが、我々の分析では改善の余地が明らかになっています。
CodeRAG-Benchは、高度なコード指向RAGメソッドのさらなる開発を促進する効果的なテストベッドとして機能することを願っている。
While language models (LMs) have proven remarkably adept at generating code, many programs are challenging for LMs to generate using their parametric knowledge alone. Providing external contexts such as library documentation can facilitate generating accurate and functional code. Despite the success of retrieval-augmented generation (RAG) in various text-oriented tasks, its potential for improving code generation remains under-explored. In this work, we conduct a systematic, large-scale analysis by asking: in what scenarios can retrieval benefit code generation models? and what challenges remain? We first curate a comprehensive evaluation benchmark, CodeRAG-Bench, encompassing three categories of code generation tasks, including basic programming, open-domain, and repository-level problems. We aggregate documents from five sources for models to retrieve contexts: competition solutions, online tutorials, library documentation, StackOverflow posts, and GitHub repositories. We examine top-performing models on CodeRAG-Bench by providing contexts retrieved from one or multiple sources. While notable gains are made in final code generation by retrieving high-quality contexts across various settings, our analysis reveals room for improvement -- current retrievers still struggle to fetch useful contexts especially with limited lexical overlap, and generators fail to improve with limited context lengths or abilities to integrate additional contexts. We hope CodeRAG-Bench serves as an effective testbed to encourage further development of advanced code-oriented RAG methods. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# LLaSA:ウェアラブルセンサーによる人間の活動分析のための大規模マルチモーダルエージェント
LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors ( http://arxiv.org/abs/2406.14498v1 ) ライセンス: Link先を確認 | Sheikh Asif Imran, Mohammad Nur Hossain Khan, Subrata Biswas, Bashima Islam, | (参考訳) 慣性測定ユニット(IMU)と大言語モデル(LLM)を統合することで、人間の活動理解を強化することでマルチモーダルAIが進歩する。
我々は、26,288 IMU由来のアクティビティナレーションのデータセットであるSensorCapsと、257,562の質問応答ペアを持つ命令追従データセットであるOpenSQAを紹介する。
LIMU-BERTとLlamaを組み合わせたLLaSAを開発した。
本評価は, LLaSAが活動分類や質問応答において有効であることを示し, 医療, スポーツ科学, 人とコンピュータの相互作用におけるその可能性を明らかにするものである。
これらの貢献により、センサー対応言語モデルと新しい研究の道が開かれた。
コードリポジトリとデータセットはhttps://github.com/BASHLab/LLaSA.comで確認できます。
Integrating inertial measurement units (IMUs) with large language models (LLMs) advances multimodal AI by enhancing human activity understanding. We introduce SensorCaps, a dataset of 26,288 IMU-derived activity narrations, and OpenSQA, an instruction-following dataset with 257,562 question-answer pairs. Combining LIMU-BERT and Llama, we develop LLaSA, a Large Multimodal Agent capable of interpreting and responding to activity and motion analysis queries. Our evaluation demonstrates LLaSA's effectiveness in activity classification and question answering, highlighting its potential in healthcare, sports science, and human-computer interaction. These contributions advance sensor-aware language models and open new research avenues. Our code repository and datasets can be found on https://github.com/BASHLab/LLaSA. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# レイパーソン概要を用いた大規模言語モデルの提案による専門家放射線学レポート要約の改善
Improving Expert Radiology Report Summarization by Prompting Large Language Models with a Layperson Summary ( http://arxiv.org/abs/2406.14500v1 ) ライセンス: Link先を確認 | Xingmeng Zhao, Tongnian Wang, Anthony Rios, | (参考訳) 放射線医学報告要約(RRS)は、患者のケアに不可欠であり、詳細な「フィンディング」からの簡潔な「印象」を必要とする。
本稿では、まず、素人要約を生成することでRSを強化するための新しいプロンプト戦略を提案する。
本手法は, 医師と患者との相互作用に触発された非専門的コミュニケーション技術を用いて, 鍵観測を正規化し, 複雑な情報を単純化する。
この手法は、数発のテキスト内学習と組み合わせることで、一般用語を特定の結果にリンクするモデルの能力を向上させる。
本手法をMIMIC-CXR,CheXpert,MIMIC-IIIデータセット上で評価し,Meta-Llama-3-8B-Instructのような7B/8Bパラメータのオープンソース大言語モデル(LLM)と比較した。
以上の結果から,特にドメイン外テストにおいて,要約精度とアクセシビリティが向上し,いくつかの指標では最大5%の改善が見られた。
Radiology report summarization (RRS) is crucial for patient care, requiring concise "Impressions" from detailed "Findings." This paper introduces a novel prompting strategy to enhance RRS by first generating a layperson summary. This approach normalizes key observations and simplifies complex information using non-expert communication techniques inspired by doctor-patient interactions. Combined with few-shot in-context learning, this method improves the model's ability to link general terms to specific findings. We evaluate this approach on the MIMIC-CXR, CheXpert, and MIMIC-III datasets, benchmarking it against 7B/8B parameter state-of-the-art open-source large language models (LLMs) like Meta-Llama-3-8B-Instruct. Our results demonstrate improvements in summarization accuracy and accessibility, particularly in out-of-domain tests, with improvements as high as 5% for some metrics. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# CAIL 2023オーグメントマイニングトラックの概要
Overview of the CAIL 2023 Argument Mining Track ( http://arxiv.org/abs/2406.14503v1 ) ライセンス: Link先を確認 | Jingcong Liang, Junlong Wang, Xinyu Zhai, Yungui Zhuang, Yiyang Zheng, Xin Xu, Xiandong Ran, Xiaozheng Dong, Honghui Rong, Yanlun Liu, Hao Chen, Yuhan Wei, Donghai Li, Jiajie Peng, Xuanjing Huang, Chongde Shi, Yansong Feng, Yun Song, Zhongyu Wei, | (参考訳) 中国のAI and Law Challenge(CAIL)2023トラックの1つであるCAIL 2023 Argument Mining Trackについて概説する。
トラックの主な目標は、トライアルダイアログで相互作用する引数ペアを識別し、抽出することである。
主に要約された判断書を用いるが、裁判記録も参照できる。
トラックは2つのステージで構成されており、各ステージ用に設計されたタスクを紹介します。以前のイベントからのデータを新しいデータセットであるCAIL2023-ArgMineに拡張し、さまざまなアクション原因から注釈付けされた新しいケースを作成します。
異なる段階のメソッドを含む、最良の結果を達成するいくつかの提案を概説する。
すべての応募は言語モデルに依存していますが、この分野の将来的な作業に利益をもたらすような戦略を取り入れています。
We give a detailed overview of the CAIL 2023 Argument Mining Track, one of the Chinese AI and Law Challenge (CAIL) 2023 tracks. The main goal of the track is to identify and extract interacting argument pairs in trial dialogs. It mainly uses summarized judgment documents but can also refer to trial recordings. The track consists of two stages, and we introduce the tasks designed for each stage; we also extend the data from previous events into a new dataset -- CAIL2023-ArgMine -- with annotated new cases from various causes of action. We outline several submissions that achieve the best results, including their methods for different stages. While all submissions rely on language models, they have incorporated strategies that may benefit future work in this field. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# 異文化の翻訳:言語内文化適応のためのLLM
Translating Across Cultures: LLMs for Intralingual Cultural Adaptation ( http://arxiv.org/abs/2406.14504v1 ) ライセンス: Link先を確認 | Pushpdeep Singh, Mayur Patidar, Lovekesh Vig, | (参考訳) LLMはますます多言語アプリケーションにデプロイされ、低リソース言語と高リソース言語の間で印象的な翻訳能力を発揮している。
しばしば見落とされがちな翻訳の側面は、文化適応の側面であり、あるいは、対象文化に合うようにソース文化の参照を変更することである。
文化適応は、いくつかのクリエイティブ産業に応用され、翻訳中にソースとターゲット文化の深い知識を必要とする。
特殊翻訳モデルは、正確さのレンズから見た場合、機械翻訳タスクにおいてLLMよりも優れているが、しばしば手動修正を必要とする文化的な違いに敏感ではない。
一方、LLMは、そのパラメータに埋め込まれた文化的知識の豊富な貯水池を持ち、そのような用途に活用できる可能性がある。
本稿では,文化適応の課題を定義し,その課題に対する様々なモデルのベンチマークを行うための評価枠組みを作成する。
文化適応のための現代LLMの性能評価を行い、異なる文化をまたいだ関連概念を結びつけながら、それらの文化的知識を横断的に分析する。
また,文化的バイアスやステレオタイプを含む自動適応の問題も分析した。
このタスクは、LLMの文化的理解と、文化横断的なシナリオにおけるそれらの創造性について、より深い洞察を提供することを期待します。
LLMs are increasingly being deployed for multilingual applications and have demonstrated impressive translation capabilities between several low and high resource languages. An aspect of translation that often gets overlooked is that of cultural adaptation, or modifying source culture references to suit the target culture. Cultural adaptation has applications across several creative industries and requires intimate knowledge of source and target cultures during translation. While specialized translation models still outperform LLMs on the machine translation task when viewed from the lens of correctness, they are not sensitive to cultural differences often requiring manual correction. LLMs on the other hand have a rich reservoir of cultural knowledge embedded within its parameters that can be potentially exploited for such applications. In this paper we define the task of cultural adaptation and create an evaluation framework to benchmark different models for this task. We evaluate the performance of modern LLMs for cultural adaptation and analyze their cross cultural knowledge while connecting related concepts across different cultures. We also analyze possible issues with automatic adaptation including cultural biases and stereotypes. We hope that this task will offer more insight into the cultural understanding of LLMs and their creativity in cross-cultural scenarios. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# ニューラルネットの解き放つニュートン法について
On Newton's Method to Unlearn Neural Networks ( http://arxiv.org/abs/2406.14507v1 ) ライセンス: Link先を確認 | Nhung Bui, Xinyang Lu, See-Kiong Ng, Bryan Kian Hsian Low, | (参考訳) 機械学習は、‘忘れられる権利’を含む個人データの所有を促進する。
NNを解放するアルゴリズムを開発する必要があるため、ユーザの個人データコールに基づいてトレーニングされた 'emph{neural network} (NN) のアプリケーションの普及。
リトレーニングはコストがかかるため、トレーニングされたNNを(分布において)リトレーニングされたNNに近づけることを目的とした、近似的なアンラーニングによって効率が達成されることが多い。
ニュートンの手法は以前の研究でほとんど未学習の線形モデルに使われてきたが、NNが未学習に適応すると、ニュートンの更新を計算不能にする縮退したヘッセンに遭遇することが多い。
本稿ではまず,非学習の先進的問題を緩和するために,ナイーブかつ効果的な解法を組み合わせると,ニュートン法は破滅的な忘れ込みに悩まされることが予想されることを示す。
この難しさを克服するために、理論上正当化された正則化器を含むニュートン法を改訂し、NNをアンラーニングするニュートン法を提案する。
立方正則化器は手作業による微調整を必要とせず、自然な解釈が可能であるという利点がある。
いくつかのモデルと実世界のデータセットに対する実証的な評価は、我々の手法が破滅的な忘れ方に対してよりレジリエンスであり、特に逐次的アンラーニングにおいて、ベースラインよりも優れた性能を発揮することを示している。
Machine unlearning facilitates personal data ownership, including the ``right to be forgotten''. The proliferation of applications of \emph{neural networks} (NNs) trained on users' personal data calls for the need to develop algorithms to unlearn an NN. Since retraining is costly, efficiency is often achieved through approximate unlearning which aims to unlearn a trained NN to be close to the retrained one (in distribution). Though the Newton's method has been used by previous works to approximately unlearn linear models, adapting it for unlearning an NN often encounters degenerate Hessians that make computing the Newton's update impossible. In this paper, we will first show that when coupled with naive yet often effective solutions to mitigate the degeneracy issue for unlearning, the Newton's method surprisingly suffers from catastrophic forgetting. To overcome this difficulty, we revise the Newton's method to include a theoretically justified regularizer and propose a cubic-regularized Newton's method for unlearning an NN. The cubic regularizer comes with the benefits of not requiring manual finetuning and affording a natural interpretation. Empirical evaluation on several models and real-world datasets shows that our method is more resilient to catastrophic forgetting and performs better than the baselines, especially in sequential unlearning. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# 大規模言語モデルを用いた政治的説得のためのログスケーリング法の実証
Evidence of a log scaling law for political persuasion with large language models ( http://arxiv.org/abs/2406.14508v1 ) ライセンス: Link先を確認 | Kobi Hackenburg, Ben M. Tappin, Paul Röttger, Scott Hale, Jonathan Bright, Helen Margetts, | (参考訳) 大規模な言語モデルでは、人間が書いたものと同じくらい説得力のある政治メッセージを生成できるようになった。
ここでは、数桁の大きさの24の言語モデルから、米国の政治問題10件について、説得力のあるメッセージ720件を生成します。
次に、これらのメッセージを大規模ランダム化調査実験(N = 25982)に展開し、各モデルの説得能力を推定する。
私たちの発見は2つあります。
モデル説得性は、現在のフロンティアモデルは、大きさの小さいモデルよりも桁違いに小さいモデルよりもほとんど説得力がないような、急激なリターンの減少によって特徴づけられる。
第二に、単にタスク完了(コヒーレンス、トピックに留まる)は、より大きなモデルの説得力のある利点を考慮に入れているように見える。
これらの結果から,さらなるスケーリングモデルサイズは,静的LLM生成メッセージの説得力を大きくするものではないことが示唆された。
Large language models can now generate political messages as persuasive as those written by humans, raising concerns about how far this persuasiveness may continue to increase with model size. Here, we generate 720 persuasive messages on 10 U.S. political issues from 24 language models spanning several orders of magnitude in size. We then deploy these messages in a large-scale randomized survey experiment (N = 25,982) to estimate the persuasive capability of each model. Our findings are twofold. First, we find evidence of a log scaling law: model persuasiveness is characterized by sharply diminishing returns, such that current frontier models are barely more persuasive than models smaller in size by an order of magnitude or more. Second, mere task completion (coherence, staying on topic) appears to account for larger models' persuasive advantage. These findings suggest that further scaling model size will not much increase the persuasiveness of static LLM-generated messages. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# V-LASIK:連続ガラス-合成データによる映像の除去
V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data ( http://arxiv.org/abs/2406.14510v1 ) ライセンス: Link先を確認 | Rotem Shalev-Arkushin, Aharon Azulay, Tavi Halperin, Eitan Richardson, Amit H. Bermano, Ohad Fried, | (参考訳) 拡散に基づく生成モデルは、最近顕著な画像編集機能とビデオ編集機能を示している。
しかし、ローカルビデオ編集、特にメガネのような小さな属性の削除は依然として課題である。
既存の方法は、ビデオを過度に変更したり、非現実的なアーティファクトを生成したり、要求された編集をビデオを通して一貫して実行できない。
本研究では,映像における一貫した局所属性除去のケーススタディとして,映像中の眼鏡の一貫性とアイデンティティ保護の除去に焦点をあてる。
ペアデータがないため、調整済み拡散モデルを用いて、弱教師付きアプローチを採用し、合成不完全データを生成する。
データ不完全性にもかかわらず、生成したデータから学習し、事前訓練された拡散モデルを活用することにより、元のビデオコンテンツを保存しながら、所望の編集を一貫して行うことができることを示す。
さらに,顔ステッカー除去に有効に適用することで,他のローカルビデオ編集タスクに対する手法の一般化能力を実証する。
提案手法は既存の手法よりも大幅に改善され, ローカルビデオ編集作業において, 合成データと強力なビデオ先行処理を活用する可能性が示された。
Diffusion-based generative models have recently shown remarkable image and video editing capabilities. However, local video editing, particularly removal of small attributes like glasses, remains a challenge. Existing methods either alter the videos excessively, generate unrealistic artifacts, or fail to perform the requested edit consistently throughout the video. In this work, we focus on consistent and identity-preserving removal of glasses in videos, using it as a case study for consistent local attribute removal in videos. Due to the lack of paired data, we adopt a weakly supervised approach and generate synthetic imperfect data, using an adjusted pretrained diffusion model. We show that despite data imperfection, by learning from our generated data and leveraging the prior of pretrained diffusion models, our model is able to perform the desired edit consistently while preserving the original video content. Furthermore, we exemplify the generalization ability of our method to other local video editing tasks by applying it successfully to facial sticker-removal. Our approach demonstrates significant improvement over existing methods, showcasing the potential of leveraging synthetic data and strong video priors for local video editing tasks. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# CoT添加蒸留の謎
Investigating Mysteries of CoT-Augmented Distillation ( http://arxiv.org/abs/2406.14511v1 ) ライセンス: Link先を確認 | Somin Wadhwa, Silvio Amir, Byron C. Wallace, | (参考訳) 思考の連鎖(CoT)の合理性("推論"プロセスを伝えるトークンのシーケンス)の排除は、質問応答のようなタスクにおけるLLMのパフォーマンスを一貫して改善することが示されている。
より最近の研究により、このような合理性はモデルの蒸留にも使えることが示されている: CoT 配列(大きな「教師」モデルから派生した)に加えて、小さな学生モデルを微調整すると(しばしば実質的な)改善がもたらされるターゲットラベルも含む。
この研究で我々は、なぜこの追加の訓練信号がモデルの蒸留にどのように役立つのかを尋ねる。
我々はこれを尋問し、潜在的に驚くべき結果を報告する。
具体的には、(1)ラベルの後のCoTシークエンシング(以前よりも)は、一貫してダウンストリームのパフォーマンスの向上を実現します。
2) この方法で合理性が付加される場合、改善をもたらすためにコヒーレントな推論シーケンスは必要ない。
実際、(3)少量のキートークンは、モデル蒸留で完全な有理数を使用する際に観察されるものと同等の改善を達成するのに十分である。
Eliciting "chain of thought" (CoT) rationales -- sequences of token that convey a "reasoning" process -- has been shown to consistently improve LLM performance on tasks like question answering. More recent efforts have shown that such rationales can also be used for model distillation: Including CoT sequences (elicited from a large "teacher" model) in addition to target labels when fine-tuning a small student model yields (often substantial) improvements. In this work we ask: Why and how does this additional training signal help in model distillation? We perform ablations to interrogate this, and report some potentially surprising results. Specifically: (1) Placing CoT sequences after labels (rather than before) realizes consistently better downstream performance -- this means that no student "reasoning" is necessary at test time to realize gains. (2) When rationales are appended in this way, they need not be coherent reasoning sequences to yield improvements; performance increases are robust to permutations of CoT tokens, for example. In fact, (3) a small number of key tokens are sufficient to achieve improvements equivalent to those observed when full rationales are used in model distillation. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# PostMark: 大規模言語モデルのためのロバストなブラックボックスの透かし
PostMark: A Robust Blackbox Watermark for Large Language Models ( http://arxiv.org/abs/2406.14517v1 ) ライセンス: Link先を確認 | Yapei Chang, Kalpesh Krishna, Amir Houmansadr, John Wieting, Mohit Iyyer, | (参考訳) LLM生成テキストを検出する最も効果的なテクニックは、モデルのデコードプロセス中に検出可能なシグネチャ(または透かし)を挿入することに依存する。
既存の透かし法の多くは、LLMのロジットへのアクセスを必要としており、LLM APIプロバイダは、モデル蒸留の恐れのために共有することを誓っている。
したがって、これらの透かしはそれぞれのLCMプロバイダによって独立に実装されなければならない。
本稿では,デコード処理が完了した後,入力依存の単語(セマンティック埋め込みによって決定される)をテキストに挿入するモジュール式ポストマーク手法であるPostMarkを開発する。
重要なことは、PostMarkはロジットアクセスを必要としないため、サードパーティによって実装することができる。
実験では8つのベースラインアルゴリズム、5つのベースLLM、3つのデータセットをカバーしています。
最後に、自動評価と人的評価の両方を用いて、PostMarkがテキスト品質に与える影響を評価し、パラフレーズ化に対する品質と堅牢性の間のトレードオフを強調した。
コード、出力、アノテーションはhttps://github.com/lilakk/PostMarkで公開しています。
The most effective techniques to detect LLM-generated text rely on inserting a detectable signature -- or watermark -- during the model's decoding process. Most existing watermarking methods require access to the underlying LLM's logits, which LLM API providers are loath to share due to fears of model distillation. As such, these watermarks must be implemented independently by each LLM provider. In this paper, we develop PostMark, a modular post-hoc watermarking procedure in which an input-dependent set of words (determined via a semantic embedding) is inserted into the text after the decoding process has completed. Critically, PostMark does not require logit access, which means it can be implemented by a third party. We also show that PostMark is more robust to paraphrasing attacks than existing watermarking methods: our experiments cover eight baseline algorithms, five base LLMs, and three datasets. Finally, we evaluate the impact of PostMark on text quality using both automated and human assessments, highlighting the trade-off between quality and robustness to paraphrasing. We release our code, outputs, and annotations at https://github.com/lilakk/PostMark. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# 自己監督学習による深層ニューラルネットワークの進化に向けて
Towards evolution of Deep Neural Networks through contrastive Self-Supervised learning ( http://arxiv.org/abs/2406.14525v1 ) ライセンス: Link先を確認 | Adriano Vinhas, João Correia, Penousal Machado, | (参考訳) ディープニューラルネットワーク(DNN)は、幅広い問題にうまく適用されている。
しかし、主に2つの制限が指摘されている。
ひとつは、設計に長い時間がかかることです。
もうひとつは、ラベル付きデータに大きく依存していることです。
最初の問題に対処するために、神経進化はDNNの設計を自動化するための有効な選択肢であることが証明された。
2つ目の問題として、自己教師付き学習は、非ラベルデータを利用して表現を学習するために使われてきた。
我々のゴールは、自己教師型学習が、パフォーマンスの観点から教師型学習にギャップを埋めるのにどのように役立つかを研究することである。
本研究では,自己教師付き学習を用いて深層ニューラルネットワークを進化させるフレームワークを提案する。
CIFAR-10データセットで得られた結果は,ラベル付きデータへの依存を低減しつつ,適切なニューラルネットワークを進化させることが可能であることを示している。
さらに、進化したネットワークの構造を解析した結果、ラベル付きデータの量は、教師付き学習に依存する個人と比較して、自己教師付き学習によって学習したネットワークの構造に影響を及ぼさないことが示唆された。
Deep Neural Networks (DNNs) have been successfully applied to a wide range of problems. However, two main limitations are commonly pointed out. The first one is that they require long time to design. The other is that they heavily rely on labelled data, which can sometimes be costly and hard to obtain. In order to address the first problem, neuroevolution has been proved to be a plausible option to automate the design of DNNs. As for the second problem, self-supervised learning has been used to leverage unlabelled data to learn representations. Our goal is to study how neuroevolution can help self-supervised learning to bridge the gap to supervised learning in terms of performance. In this work, we propose a framework that is able to evolve deep neural networks using self-supervised learning. Our results on the CIFAR-10 dataset show that it is possible to evolve adequate neural networks while reducing the reliance on labelled data. Moreover, an analysis to the structure of the evolved networks suggests that the amount of labelled data fed to them has less effect on the structure of networks that learned via self-supervised learning, when compared to individuals that relied on supervised learning. | 翻訳日:2024-06-21 12:33:17 公開日:2024-06-20 |
# 幻想的な汚染されたビーストと、その生成方法(ノー)
Fantastic Copyrighted Beasts and How (Not) to Generate Them ( http://arxiv.org/abs/2406.14526v1 ) ライセンス: Link先を確認 | Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu, Yue Wang, Luke Zettlemoyer, Chiyuan Zhang, Danqi Chen, Peter Henderson, | (参考訳) 近年の研究では、画像およびビデオ生成モデルは、トレーニングデータから著作権付きコンテンツを再生するよう促され、著作権侵害に関する重大な法的懸念が提起されている。
特に著作権のある文字は、画像生成サービスにとって難しい課題であり、少なくとも1つの訴訟は、これらの文字の生成に基づいてダメージを与えている。
しかし、この問題を実証的に調べる研究はほとんどない。
私たちはこのギャップを埋めるために体系的な評価を行います。
まず、さまざまな著作権を持つ文字と、新しい評価パイプラインで構成される評価スイートであるCopyCatを構築します。
本評価では,著作権文字との類似性の検出とユーザ入力との整合性について考察する。
画像生成モデルと映像生成モデルの両方が、たとえ文字名がプロンプトに明示的に言及されていなくても、文字を生成できることを系統的に示す。
次に,文字生成を誘導するキーワードや記述を半自動で識別する手法を提案する。
評価スイートを用いて,提案する既存手法と新たな戦略を含むランタイム緩和戦略について検討する。
DALL-Eシステムでの即時書き換えのような一般的な戦略は,スタンドアロンのガードレールとしては不十分であることがわかった。
これらの戦略は、意図しない著作権のある文字の生成を効果的に削減するために、ネガティブなプロンプトのような他のアプローチと結合する必要がある。
我々の研究は、著作権緩和戦略に関する議論の実証的根拠を提供し、モデルデプロイが積極的に実施する上で実行可能な洞察を提供する。
Recent studies show that image and video generation models can be prompted to reproduce copyrighted content from their training data, raising serious legal concerns around copyright infringement. Copyrighted characters, in particular, pose a difficult challenge for image generation services, with at least one lawsuit already awarding damages based on the generation of these characters. Yet, little research has empirically examined this issue. We conduct a systematic evaluation to fill this gap. First, we build CopyCat, an evaluation suite consisting of diverse copyrighted characters and a novel evaluation pipeline. Our evaluation considers both the detection of similarity to copyrighted characters and generated image's consistency with user input. Our evaluation systematically shows that both image and video generation models can still generate characters even if characters' names are not explicitly mentioned in the prompt, sometimes with only two generic keywords (e.g., prompting with "videogame, plumber" consistently generates Nintendo's Mario character). We then introduce techniques to semi-automatically identify such keywords or descriptions that trigger character generation. Using our evaluation suite, we study runtime mitigation strategies, including both existing methods and new strategies we propose. Our findings reveal that commonly employed strategies, such as prompt rewriting in the DALL-E system, are not sufficient as standalone guardrails. These strategies must be coupled with other approaches, like negative prompting, to effectively reduce the unintended generation of copyrighted characters. Our work provides empirical grounding to the discussion of copyright mitigation strategies and offers actionable insights for model deployers actively implementing them. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# DeciMamba:Mambaの全長外挿の可能性を探る
DeciMamba: Exploring the Length Extrapolation Potential of Mamba ( http://arxiv.org/abs/2406.14528v1 ) ライセンス: Link先を確認 | Assaf Ben-Kish, Itamar Zimerman, Shady Abu-Hussein, Nadav Cohen, Amir Globerson, Lior Wolf, Raja Giryes, | (参考訳) 長距離シーケンス処理は入力長の2次複雑さのためにトランスフォーマーにとって大きな課題となる。
有望な代替手段はMambaで、高い性能を示し、トランスフォーマーレベルの能力を達成すると同時に、計算リソースを著しく少なくする。
本稿では,比較的限定的なマンバ長一般化能力について検討する。
一連の可視化と分析により、制限は訓練中に使用するシーケンス長によって決定される制限された効果的な受容場から生じると同定する。
この制約に対処するために,特にMamba用に設計されたコンテキスト拡張手法であるDeciMambaを紹介する。
このメカニズムは、S6層に埋め込まれた隠れフィルタリング機構の上に構築されており、トレーニングされたモデルが追加のトレーニングをすることなく、うまく外挿することができる。
実世界の長距離NLPタスクに対する実証実験では、DeciMambaはトレーニング中に見たものよりも25倍長いコンテキスト長に外挿でき、追加の計算資源を使わずにそれを行うことができる。
コードとモデルをリリースします。
Long-range sequence processing poses a significant challenge for Transformers due to their quadratic complexity in input length. A promising alternative is Mamba, which demonstrates high performance and achieves Transformer-level capabilities while requiring substantially fewer computational resources. In this paper we explore the length-generalization capabilities of Mamba, which we find to be relatively limited. Through a series of visualizations and analyses we identify that the limitations arise from a restricted effective receptive field, dictated by the sequence length used during training. To address this constraint, we introduce DeciMamba, a context-extension method specifically designed for Mamba. This mechanism, built on top of a hidden filtering mechanism embedded within the S6 layer, enables the trained model to extrapolate well even without additional training. Empirical experiments over real-world long-range NLP tasks show that DeciMamba can extrapolate to context lengths that are 25x times longer than the ones seen during training, and does so without utilizing additional computational resources. We will release our code and models. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# 語彙データに基づくコルモゴロフ・アルノルドネットワークのベンチマーク
A Benchmarking Study of Kolmogorov-Arnold Networks on Tabular Data ( http://arxiv.org/abs/2406.14529v1 ) ライセンス: Link先を確認 | Eleonora Poeta, Flavio Giobergia, Eliana Pastor, Tania Cerquitelli, Elena Baralis, | (参考訳) Kolmogorov-Arnold Networks (KAN) は機械学習の世界に最近導入され、コミュニティ全体の注目を集めている。
しかし、KANSAは複雑な関数の近似や合成データの処理のためにテストされてきたが、実際のグラフデータセットに対するテストは現在不足している。
本稿では,KansとMulti-Layer Perceptrons(MLP)を比較したベンチマーク研究を提案する。
本研究は,課題遂行時間と訓練時間を評価する。
さまざまなデータセットで得られた結果から、Kansは優れた精度または同等の精度とF1スコアを示し、特に多数のインスタンスを持つデータセットで優れた結果を示し、複雑なデータの堅牢なハンドリングを示唆している。
また,kansの性能改善は,同等サイズのMPPと比較して計算コストが高いことも強調した。
Kolmogorov-Arnold Networks (KANs) have very recently been introduced into the world of machine learning, quickly capturing the attention of the entire community. However, KANs have mostly been tested for approximating complex functions or processing synthetic data, while a test on real-world tabular datasets is currently lacking. In this paper, we present a benchmarking study comparing KANs and Multi-Layer Perceptrons (MLPs) on tabular datasets. The study evaluates task performance and training times. From the results obtained on the various datasets, KANs demonstrate superior or comparable accuracy and F1 scores, excelling particularly in datasets with numerous instances, suggesting robust handling of complex data. We also highlight that this performance improvement of KANs comes with a higher computational cost when compared to MLPs of comparable sizes. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# 誤り合成データのRLは8FoldによるLLM数学推論の効率をスケールする
RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold ( http://arxiv.org/abs/2406.14532v1 ) ライセンス: Link先を確認 | Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith, Aviral Kumar, | (参考訳) モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。
本稿では,この問題を経験的研究を通じて考察し,続いて観察概念の理解を構築した。
まず、有能なモデルによって生成される正解対や正解対のモデルを微調整する典型的な手法は、適度な性能向上をもたらすが、細調整された学習者自身からより正確な解をサンプリングし、その後、この自己生成データ$\textbf{doubles}$同じ合成問題の効率について微調整する。
同時に、モデル生成陽性のトレーニングは、様々なスプリアス相関を増幅し、データ量が増加するにつれて、フラットまたは逆スケーリングの傾向をもたらす。
意外なことに、これらの問題のいくつかは、負の応答、すなわち、最終回答検証器によって誤ったと判断されるモデル生成応答も利用すれば解決できる。
重要なことに、これらの負の反応は、トレーニングが負の反応における各中間ステップの効用または利点を適切に回復できるように構成されなければならない。
このステップごとのスキームにより、正のデータのみに対して一貫したゲインを得ることができ、合成データの量を$\mathbf{8 \times}$で増幅するようなパフォーマンスが得られる。
ステップごとの負のトレーニングは、正のデータの急激な相関を解き放つのに役立ち、利得重み付き強化学習(RL)と同等であり、正のデータのみを模倣するよりも、RLの堅牢性の利点を継承することを意味する。
Training on model-generated synthetic data is a promising approach for finetuning LLMs, but it remains unclear when it helps or hurts. In this paper, we investigate this question for math reasoning via an empirical study, followed by building a conceptual understanding of our observations. First, we find that while the typical approach of finetuning a model on synthetic correct or positive problem-solution pairs generated by capable models offers modest performance gains, sampling more correct solutions from the finetuned learner itself followed by subsequent fine-tuning on this self-generated data $\textbf{doubles}$ the efficiency of the same synthetic problems. At the same time, training on model-generated positives can amplify various spurious correlations, resulting in flat or even inverse scaling trends as the amount of data increases. Surprisingly, we find that several of these issues can be addressed if we also utilize negative responses, i.e., model-generated responses that are deemed incorrect by a final answer verifier. Crucially, these negatives must be constructed such that the training can appropriately recover the utility or advantage of each intermediate step in the negative response. With this per-step scheme, we are able to attain consistent gains over only positive data, attaining performance similar to amplifying the amount of synthetic data by $\mathbf{8 \times}$. We show that training on per-step negatives can help to unlearn spurious correlations in the positive data, and is equivalent to advantage-weighted reinforcement learning (RL), implying that it inherits robustness benefits of RL over imitating positive data alone. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# IRASim:インタラクティブなリアルロボットアクションシミュレータを学習
IRASim: Learning Interactive Real-Robot Action Simulators ( http://arxiv.org/abs/2406.14540v1 ) ライセンス: Link先を確認 | Fangqi Zhu, Hongtao Wu, Song Guo, Yuxiao Liu, Chilam Cheang, Tao Kong, | (参考訳) 現実世界でのスケーラブルなロボット学習は、実際のロボットのコストと安全性の問題によって制限されている。
さらに、現実世界でのロボット軌道の展開には時間と労力がかかります。
本稿では,対話型実ロボット行動シミュレータを代替として学習することを提案する。
本稿では、生成モデルのパワーを活用して、与えられた行動軌跡を実行するロボットアームの極めて現実的な映像を生成するIRASimを提案する。
提案手法の有効性を検証するため,3つの実ロボットデータセットに基づいてIRASim Benchmarkという新しいベンチマークを作成し,そのベンチマークで広範な実験を行う。
その結果, IRASimはすべての基準法より優れており, 人的評価に好適であることが示唆された。
IRASimが実世界でのロボット学習を強化するための効果的でスケーラブルなアプローチとして機能することを願っている。
生成した実ロボットの動作シミュレータの研究を促進するため、https: //gen-irasim.github.ioでコード、ベンチマーク、チェックポイントをオープンソース化した。
Scalable robot learning in the real world is limited by the cost and safety issues of real robots. In addition, rolling out robot trajectories in the real world can be time-consuming and labor-intensive. In this paper, we propose to learn an interactive real-robot action simulator as an alternative. We introduce a novel method, IRASim, which leverages the power of generative models to generate extremely realistic videos of a robot arm that executes a given action trajectory, starting from an initial given frame. To validate the effectiveness of our method, we create a new benchmark, IRASim Benchmark, based on three real-robot datasets and perform extensive experiments on the benchmark. Results show that IRASim outperforms all the baseline methods and is more preferable in human evaluations. We hope that IRASim can serve as an effective and scalable approach to enhance robot learning in the real world. To promote research for generative real-robot action simulators, we open-source code, benchmark, and checkpoints at https: //gen-irasim.github.io. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# Prism: VLMの機能の分離と評価のためのフレームワーク
Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs ( http://arxiv.org/abs/2406.14544v1 ) ライセンス: Link先を確認 | Yuxuan Qiao, Haodong Duan, Xinyu Fang, Junming Yang, Lin Chen, Songyang Zhang, Jiaqi Wang, Dahua Lin, Kai Chen, | (参考訳) 視覚言語モデル(VLM)は、様々な視覚的問題に対処する際、高い知覚力と推論能力を必要とする顕著な習熟度を示す。
これら2つの能力の独立性を評価することは、既存のVLMの観察と推論という相互に絡み合った性質のため固有の困難さにもかかわらず、モデルの改良に不可欠である。
この問題に対処するために,視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された,革新的なフレームワークであるPrismを紹介する。
Prismは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出した視覚情報に基づいて、Large Language Model(LLM)を用いて応答を定式化する推論段階と、の2つの異なる段階から構成される。
このモジュール設計により、プロプライエタリなVLMとオープンソースのVLMの両方を、その知覚と推論の強さで体系的に比較し、評価することができる。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
合理化されたVLMと推論に適した強力なLLMを組み合わせることで、Prismは訓練と運用費用を大幅に削減しつつ、一般的な視覚言語タスクにおいて優れた結果を得ることができる。
定量的評価によると、Prismはバニラ2B LLaVAと自由にアクセス可能なGPT-3.5で構成されている場合、厳格なマルチモーダルベンチマークMMStarで10ドル以上のVLMに匹敵する性能を提供する。
このプロジェクトは、https://github.com/SparksJoe/Prism.comでリリースされている。
Vision Language Models (VLMs) demonstrate remarkable proficiency in addressing a wide array of visual questions, which requires strong perception and reasoning faculties. Assessing these two competencies independently is crucial for model refinement, despite the inherent difficulty due to the intertwined nature of seeing and reasoning in existing VLMs. To tackle this issue, we present Prism, an innovative framework designed to disentangle the perception and reasoning processes involved in visual question solving. Prism comprises two distinct stages: a perception stage that utilizes a VLM to extract and articulate visual information in textual form, and a reasoning stage that formulates responses based on the extracted visual information using a Large Language Model (LLM). This modular design enables the systematic comparison and assessment of both proprietary and open-source VLM for their perception and reasoning strengths. Our analytical framework provides several valuable insights, underscoring Prism's potential as a cost-effective solution for vision-language tasks. By combining a streamlined VLM focused on perception with a powerful LLM tailored for reasoning, Prism achieves superior results in general vision-language tasks while substantially cutting down on training and operational expenses. Quantitative evaluations show that Prism, when configured with a vanilla 2B LLaVA and freely accessible GPT-3.5, delivers performance on par with VLMs $10 \times$ larger on the rigorous multimodal benchmark MMStar. The project is released at: https://github.com/SparksJoe/Prism. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# Unmasking Database Vulnerabilities: テキストからSQLシステムへのゼロ知識スキーマ推論攻撃
Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems ( http://arxiv.org/abs/2406.14545v1 ) ライセンス: Link先を確認 | Đorđe Klisura, Anthony Rios, | (参考訳) リレーショナルデータベースは現代の情報システムに不可欠なものであり、データの保存、クエリ、管理の基盤となっている。
大規模言語モデリングの進歩により、テキストからSQLへの技術が出現し、これらのデータベースからのクエリと情報の抽出が大幅に向上し、プライバシとセキュリティに関する懸念が高まっている。
本研究は,テキスト-SQLモデルに基づくデータベーススキーマ要素を抽出する。
スキーマの知識により、SQLインジェクションのような攻撃が容易になる。
専門的な質問をすることで,データベース自体の知識を必要とせず,様々なデータベーススキーマ要素を探索するゼロ知識フレームワークを開発した。
次に、テキストからSQLまでのモデルがこれらの質問を処理して、データベーススキーマの構造を明らかにするために使用する出力を生成します。
テキスト-SQLペアとSQL生成に使用される生成言語モデルに基づいて微調整された特殊テキスト-SQLモデルに適用する。
全体としては、細調整されたモデルに .75 の F1 と生成に .96 の F1 で表名を再構築することができる。
Relational databases are integral to modern information systems, serving as the foundation for storing, querying, and managing data efficiently and effectively. Advancements in large language modeling have led to the emergence of text-to-SQL technologies, significantly enhancing the querying and extracting of information from these databases and raising concerns about privacy and security. Our research extracts the database schema elements underlying a text-to-SQL model. Knowledge of the schema can make attacks such as SQL injection easier. By asking specially crafted questions, we have developed a zero-knowledge framework designed to probe various database schema elements without knowledge of the database itself. The text-to-SQL models then process these questions to produce an output that we use to uncover the structure of the database schema. We apply it to specialized text-to-SQL models fine-tuned on text-SQL pairs and generative language models used for SQL generation. Overall, we can reconstruct the table names with an F1 of nearly .75 for fine-tuned models and .96 for generative. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# ドットの接続:LLMは異なるトレーニングデータから潜在構造を推論し、言語化する
Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data ( http://arxiv.org/abs/2406.14546v1 ) ライセンス: Link先を確認 | Johannes Treutlein, Dami Choi, Jan Betley, Cem Anil, Samuel Marks, Roger Baker Grosse, Owain Evans, | (参考訳) 大きな言語モデル(LLM)の安全性リスクに対処する1つの方法は、トレーニングデータから危険な知識を検閲することである。
これにより明示的な情報が取り除かれるが、暗黙的な情報は様々な訓練文書に散らばることができる。
LLMは、これらの暗黙のヒントをまとめることで検閲された知識を推測できるだろうか?
この疑問に答える第一歩として, LLMが学習文書に分散した証拠から潜時情報を推論し, 文脈内学習なしで下流タスクに適用する一般化法であるOOCR(inductive out-of-context reasoning)について検討する。
5つのタスクからなるスイートを用いて、フロンティアLSMがインダクティブOOCRを実行できることを示す。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
興味深いことに、LLMは文脈上の例や思考の連鎖なしに、未知の都市がパリであることを口頭で言い表し、この事実を使って下流の質問に答えることができる。
さらなる実験により、LLMは個々のコインフリップ結果のみに基づいて訓練され、コインがバイアスを受けているかどうかを言語化することができ、ペア$(x,f(x))$でのみ訓練された者は$f$と計算逆数の定義を明確にすることができることが示されている。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
全体として、LLMが明示的なコンテキスト内学習なしに「ドットを接続する」能力は、LLMが獲得した知識を監視し制御する上で潜在的に障害となる。
One way to address safety risks from large language models (LLMs) is to censor dangerous knowledge from their training data. While this removes the explicit information, implicit information can remain scattered across various training documents. Could an LLM infer the censored knowledge by piecing together these implicit hints? As a step towards answering this question, we study inductive out-of-context reasoning (OOCR), a type of generalization in which LLMs infer latent information from evidence distributed across training documents and apply it to downstream tasks without in-context learning. Using a suite of five tasks, we demonstrate that frontier LLMs can perform inductive OOCR. In one experiment we finetune an LLM on a corpus consisting only of distances between an unknown city and other known cities. Remarkably, without in-context examples or Chain of Thought, the LLM can verbalize that the unknown city is Paris and use this fact to answer downstream questions. Further experiments show that LLMs trained only on individual coin flip outcomes can verbalize whether the coin is biased, and those trained only on pairs $(x,f(x))$ can articulate a definition of $f$ and compute inverses. While OOCR succeeds in a range of cases, we also show that it is unreliable, particularly for smaller LLMs learning complex structures. Overall, the ability of LLMs to "connect the dots" without explicit in-context learning poses a potential obstacle to monitoring and controlling the knowledge acquired by LLMs. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# 一貫性モデルを簡単にする
Consistency Models Made Easy ( http://arxiv.org/abs/2406.14548v1 ) ライセンス: Link先を確認 | Zhengyang Geng, Ashwini Pokle, William Luo, Justin Lin, J. Zico Kolter, | (参考訳) 一貫性モデル(CM)は、従来の拡散モデルよりも高速なサンプリングを提供する生成モデルの新たなクラスである。
CMはサンプリング軌道に沿った全ての点を同じ初期点にマッピングすることを強制する。
例えば、2024年現在、CIFAR-10上でSoTA CMをトレーニングするには8GPUで1週間かかります。
本研究では,このようなモデル構築の効率を大幅に向上させ,CMを訓練するための代替スキームを提案する。
具体的には、特定の微分方程式を通してCM軌道を表現することにより、拡散モデルは特定の離散化を伴うCMの特別な場合と見なすことができると論じる。
これにより、事前学習した拡散モデルから始まる整合性モデルを微調整し、学習過程における完全整合性条件をより強い等級に漸進的に近似することができる。
例えば、ECTは1つのA100 GPU上で1時間以内にCIFAR10上で2段階のFID2.73を達成し、何百時間ものGPUでトレーニングされた一貫性蒸留と一致する。
この計算効率から,従来の電力法のスケーリングに則っているように見えるCMのスケーリング法則を検証し,大規模で効率と性能を向上する能力を示唆した。
コード(https://github.com/locuslab/ect)が公開されている。
Consistency models (CMs) are an emerging class of generative models that offer faster sampling than traditional diffusion models. CMs enforce that all points along a sampling trajectory are mapped to the same initial point. But this target leads to resource-intensive training: for example, as of 2024, training a SoTA CM on CIFAR-10 takes one week on 8 GPUs. In this work, we propose an alternative scheme for training CMs, vastly improving the efficiency of building such models. Specifically, by expressing CM trajectories via a particular differential equation, we argue that diffusion models can be viewed as a special case of CMs with a specific discretization. We can thus fine-tune a consistency model starting from a pre-trained diffusion model and progressively approximate the full consistency condition to stronger degrees over the training process. Our resulting method, which we term Easy Consistency Tuning (ECT), achieves vastly improved training times while indeed improving upon the quality of previous methods: for example, ECT achieves a 2-step FID of 2.73 on CIFAR10 within 1 hour on a single A100 GPU, matching Consistency Distillation trained of hundreds of GPU hours. Owing to this computational efficiency, we investigate the scaling law of CMs under ECT, showing that they seem to obey classic power law scaling, hinting at their ability to improve efficiency and performance at larger scales. Code (https://github.com/locuslab/ect) is available. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# 潜在記憶の発見:大規模言語モデルにおけるデータ漏洩と記憶パターンの評価
Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Large Language Models ( http://arxiv.org/abs/2406.14549v1 ) ライセンス: Link先を確認 | Sunny Duan, Mikail Khona, Abhiram Iyer, Rylan Schaeffer, Ila R Fiete, | (参考訳) 大規模言語モデルの普及は自然言語処理タスクに革命をもたらしたが、データプライバシとセキュリティに関する深刻な懸念が持ち上がっている。
言語モデルは、潜在的にセンシティブまたはプロプライエタリな情報を含む広範なコーパスでトレーニングされており、モデル応答がそのような情報の一部を明らかにするデータ漏洩のリスクは、依然として不十分である。
本研究では,機械学習モデルにおける暗記現象を定量化することにより,データ漏洩に対する感受性について検討し,学習過程における暗記パターンの進化に着目した。
トレーニングデータの統計的特性がモデル内で符号化された記憶にどのように影響するかを,繰り返しが記憶に与える影響を評価することによって検討する。
シーケンスを記憶する確率は、データに存在している回数と対数的にスケールする。
さらに,初対面後に暗記されていない配列は,その後の遭遇を伴わずとも,訓練期間中に発見できることが判明した。
これらの潜時記憶シーケンスの存在は、モデルの最終チェックポイントに隠されている可能性があるため、データプライバシの課題となる。
そこで本研究では,そのクロスエントロピー損失を考慮し,これらの潜在記憶配列を明らかにするための診断試験を開発した。
The proliferation of large language models has revolutionized natural language processing tasks, yet it raises profound concerns regarding data privacy and security. Language models are trained on extensive corpora including potentially sensitive or proprietary information, and the risk of data leakage -- where the model response reveals pieces of such information -- remains inadequately understood. This study examines susceptibility to data leakage by quantifying the phenomenon of memorization in machine learning models, focusing on the evolution of memorization patterns over training. We investigate how the statistical characteristics of training data influence the memories encoded within the model by evaluating how repetition influences memorization. We reproduce findings that the probability of memorizing a sequence scales logarithmically with the number of times it is present in the data. Furthermore, we find that sequences which are not apparently memorized after the first encounter can be uncovered throughout the course of training even without subsequent encounters. The presence of these latent memorized sequences presents a challenge for data privacy since they may be hidden at the final checkpoint of the model. To this end, we develop a diagnostic test for uncovering these latent memorized sequences by considering their cross entropy loss. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# GraphReader: 大規模言語モデルの長期能力を高めるグラフベースのエージェントの構築
GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models ( http://arxiv.org/abs/2406.14550v1 ) ライセンス: Link先を確認 | Shilong Li, Yancheng He, Hangyu Guo, Xingyuan Bu, Ge Bai, Jie Liu, Jiaheng Liu, Xingwei Qu, Yangguang Li, Wanli Ouyang, Wenbo Su, Bo Zheng, | (参考訳) 大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
長い文脈でLLMを最適化するための多くの努力にもかかわらず、長い入力を頑健に処理する際の課題は続いている。
本稿では,グラフをグラフに構造化し,エージェントを用いてグラフを自律的に探索することにより,長いテキストを扱うグラフベースのエージェントシステムであるGraphReaderを紹介する。
質問を受けると、エージェントはまずステップバイステップの分析を行い、合理的な計画を立てる。
次に、ノードの内容と隣人を読み取るために事前に定義された関数のセットを呼び出し、グラフの粗大な探索を容易にする。
調査を通して、エージェントは新しい洞察を継続的に記録し、回答を生成するのに十分な情報を集めるまでプロセスを最適化するために現在の状況を反映する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
さらに,本手法は,シングルホップとマルチホップの4つのベンチマークにおいて,優れた性能を示す。
Long-context capabilities are essential for large language models (LLMs) to tackle complex and long-input tasks. Despite numerous efforts made to optimize LLMs for long contexts, challenges persist in robustly processing long inputs. In this paper, we introduce GraphReader, a graph-based agent system designed to handle long texts by structuring them into a graph and employing an agent to explore this graph autonomously. Upon receiving a question, the agent first undertakes a step-by-step analysis and devises a rational plan. It then invokes a set of predefined functions to read node content and neighbors, facilitating a coarse-to-fine exploration of the graph. Throughout the exploration, the agent continuously records new insights and reflects on current circumstances to optimize the process until it has gathered sufficient information to generate an answer. Experimental results on the LV-Eval dataset reveal that GraphReader, using a 4k context window, consistently outperforms GPT-4-128k across context lengths from 16k to 256k by a large margin. Additionally, our approach demonstrates superior performance on four challenging single-hop and multi-hop benchmarks. | 翻訳日:2024-06-21 12:23:24 公開日:2024-06-20 |
# xCOMET-lite:学習したMT評価指標の効率と品質のギャップを埋める
xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics ( http://arxiv.org/abs/2406.14553v1 ) ライセンス: Link先を確認 | Daniil Larionov, Mikhail Seleznyov, Vasiliy Viskov, Alexander Panchenko, Steffen Eger, | (参考訳) xCOMETのような最先端のトレーニング可能な機械翻訳評価指標は、人間の判断と高い相関性を持つが、大きなエンコーダ(最大10.7Bパラメータ)に依存しており、計算コストが高く、限られたリソースを持つ研究者にはアクセスできない。
この問題に対処するために,これらの大きなエンコーダに格納されている知識を,品質を維持しつつ圧縮できるかどうかを検討する。
我々は, 蒸留, 定量化, プルーニング技術を用いて, 効率的なxCOMET代替品を作成し, ブラックボックス蒸留のための新しいデータ収集パイプラインを導入する。
量子化により,xCOMETは3倍の圧縮が可能であり,品質劣化は生じない。
さらに、蒸留により、xCOMET-XXLパラメータの2.6%しか持たないxCOMET-liteメートル法を作成するが、品質は92.1%を維持している。
さらに、パラメータが50%少ないにもかかわらず、WMT22メトリクスのデータセットに挑戦するCOMET-22やBLEURT-20のような強力な小規模メトリクスを6.4%上回る。
すべてのコード、データセット、モデルがオンラインで利用可能だ。
State-of-the-art trainable machine translation evaluation metrics like xCOMET achieve high correlation with human judgment but rely on large encoders (up to 10.7B parameters), making them computationally expensive and inaccessible to researchers with limited resources. To address this issue, we investigate whether the knowledge stored in these large encoders can be compressed while maintaining quality. We employ distillation, quantization, and pruning techniques to create efficient xCOMET alternatives and introduce a novel data collection pipeline for efficient black-box distillation. Our experiments show that, using quantization, xCOMET can be compressed up to three times with no quality degradation. Additionally, through distillation, we create an xCOMET-lite metric, which has only 2.6% of xCOMET-XXL parameters, but retains 92.1% of its quality. Besides, it surpasses strong small-scale metrics like COMET-22 and BLEURT-20 on the WMT22 metrics challenge dataset by 6.4%, despite using 50% fewer parameters. All code, dataset, and models are available online. | 翻訳日:2024-06-21 12:23:23 公開日:2024-06-20 |
# 単語の確率を計算する方法
How to Compute the Probability of a Word ( http://arxiv.org/abs/2406.14561v1 ) ライセンス: Link先を確認 | Tiago Pimentel, Clara Meister, | (参考訳) 言語モデル(LM)は、自然言語の列上の確率分布を推定する。
通常、これらの値を単語で測定することに関心があるが、ほとんどのLMはサブワードで操作する。
一見単純だが、一方の確率を他方の確率で正確に計算するには注意が必要である。
実際、最近の多くの言語研究がこれらの価値を誤って計算していることを示している。
本稿では,単語の確率を計算するための正しい手法を導出し,単語(ボー)マーキングトークンを使用する言語モデル,例えばGPTファミリに依存する場合の問題点を明らかにする。
実験により,確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことが示された。
Language models (LMs) estimate the probability distribution over sequences of natural language; these distributions are crucial for computing perplexity and surprisal in linguistics research. While we are usually concerned with measuring these values for words, most LMs operate over subwords. Despite seemingly straightforward, accurately computing probabilities over one unit given probabilities over the other requires care. Indeed, we show here that many recent linguistic studies have been incorrectly computing these values. This paper derives the correct methods for computing word probabilities, highlighting issues when relying on language models that use beginning-of-word (bow)-marking tokenisers, e.g., the GPT family. Empirically, we show that correcting the widespread bug in probability computations affects measured outcomes in sentence comprehension and lexical optimisation analyses. | 翻訳日:2024-06-21 12:23:23 公開日:2024-06-20 |
# ホワイトボード「Whiteboard-of-Thought」
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities ( http://arxiv.org/abs/2406.14562v1 ) ライセンス: Link先を確認 | Sachit Menon, Richard Zemel, Carl Vondrick, | (参考訳) 視覚的思考に関する質問を提示すると、人間は自然に推論のモダリティを切り替え、しばしば精神的なイメージを形成したり、視覚的援助を描く。
大規模言語モデルは、テキストの中間的推論を思考の連鎖として表現することで、算術的および記号的推論において有望な結果を示してきたが、広範にマルチモーダル事前学習を行っても、視覚的推論によって容易に解けるテキストクエリに答える能力の拡張に苦慮している。
マルチモーダルな大言語モデルの視覚的推論能力をモダリティを越えて解き放つための単純な方法であるホワイトボード・オブ・シークレット(Whiteboard-of-Thought prompting)を導入する。
Whiteboard-of-Thoughtプロンプトは、イメージとして推論ステップを引き出すために、メタファ的な"ホワイトボード"を備えたマルチモーダルな大規模言語モデルを提供し、さらに処理するためにこれらのイメージをモデルに返却する。
MatplotlibやTurtleといったライブラリを使って、モデルが既存のコード記述機能を活用する代わりに、デモや特別なモジュールを使わずに、これを実現することができます。
この単純なアプローチは、視覚的および空間的推論を含む4つの難しい自然言語タスクに対する最先端の結果を示す。
チェーン・オブ・ソートを使用したGPT-4oが劇的に失敗する複数の設定を識別し、0\%の精度を達成する1つ以上の設定を含む、同じ設定でホワイトボード・オブ・ソートが最大920\%の精度を実現する。
本稿では,この手法がどの点で成功したか,またエラーの原因について詳細に検討する。
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves $0\%$ accuracy, while whiteboard-of-thought enables up to $92\%$ accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error. | 翻訳日:2024-06-21 12:23:23 公開日:2024-06-20 |
# モデルマージと安全アライメント: 1つの悪いモデルがぶつかる
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch ( http://arxiv.org/abs/2406.14563v1 ) ライセンス: Link先を確認 | Hasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay, | (参考訳) Merging Large Language Models (LLMs) は、複数の専門家 LLM を単一の汎用モデルに組み合わせ、元のモデルの専門性を保ち、コスト効率の良い手法である。
しかしながら、現在のアプローチは、マージ時の安全性の整合性の重要性をしばしば見落とし、高度に不整合したモデルに繋がる。
本研究は, モデルマージがアライメントに及ぼす影響について検討する。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
この問題に対処するための簡単な2段階のアプローチを提案する。
一 合成安全及び領域特有データを生成すること。
(II)既存のデータ・アウェア・モデル統合手法の最適化プロセスにこれらの生成データを組み込む。
これにより、アライメントを、結果の合併 LLM において最大化できるスキルとして扱うことができる。
我々の実験は、統合中にアライメントに関連するデータを統合することの有効性を示し、結果としてドメインの専門知識とアライメントの両方に優れたモデルが生まれる。
Merging Large Language Models (LLMs) is a cost-effective technique for combining multiple expert LLMs into a single versatile model, retaining the expertise of the original ones. However, current approaches often overlook the importance of safety alignment during merging, leading to highly misaligned models. This work investigates the effects of model merging on alignment. We evaluate several popular model merging techniques, demonstrating that existing methods do not only transfer domain expertise but also propagate misalignment. We propose a simple two-step approach to address this problem: (i) generating synthetic safety and domain-specific data, and (ii) incorporating these generated data into the optimization process of existing data-aware model merging techniques. This allows us to treat alignment as a skill that can be maximized in the resulting merged LLM. Our experiments illustrate the effectiveness of integrating alignment-related data during merging, resulting in models that excel in both domain expertise and alignment. | 翻訳日:2024-06-21 12:23:23 公開日:2024-06-20 |
# コンフォーマル予測を用いたニューラル気象モデルのための有効誤差バー
Valid Error Bars for Neural Weather Models using Conformal Prediction ( http://arxiv.org/abs/2406.14483v1 ) ライセンス: Link先を確認 | Vignesh Gopakumar, Joel Oskarrson, Ander Gray, Lorenzo Zanisi, Stanislas Pamela, Daniel Giles, Matt Kusner, Marc Deisenroth, | (参考訳) ニューラル気象モデルは、物理学に基づくモデルに対する安価で正確な代替手段として大きな可能性を示してきた。
しかし、天気予報を行うために訓練されたほとんどのモデルは、その予測に関連する不確実性を定量化していない。
これにより、モデルに対する信頼と予測の有用性が制限される。
本研究では,この不確実性を推定するための後処理手法として,共形予測フレームワークの構築と定式化を行う。
この手法はモデルに依存しないため、すべての変数、リード時間、空間的位置に対する校正誤差境界を与える。
モデルには何の修正も必要とせず、計算コストはモデルトレーニングと比べて無視できる。
本研究は,北欧地域の限られた領域のニューラル気象モデルにおけるコンフォメーション予測フレームワークの有用性を実証する。
さらに、決定論的および確率論的モデルに対するフレームワークの利点について検討する。
Neural weather models have shown immense potential as inexpensive and accurate alternatives to physics-based models. However, most models trained to perform weather forecasting do not quantify the uncertainty associated with their forecasts. This limits the trust in the model and the usefulness of the forecasts. In this work we construct and formalise a conformal prediction framework as a post-processing method for estimating this uncertainty. The method is model-agnostic and gives calibrated error bounds for all variables, lead times and spatial locations. No modifications are required to the model and the computational cost is negligible compared to model training. We demonstrate the usefulness of the conformal prediction framework on a limited area neural weather model for the Nordic region. We further explore the advantages of the framework for deterministic and probabilistic models. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 量子トランスダクションのための2次元光学結晶
A two-dimensional optomechanical crystal for quantum transduction ( http://arxiv.org/abs/2406.14484v1 ) ライセンス: Link先を確認 | Felix M. Mayor, Sultan Malik, André G. Primo, Samuel Gyger, Wentao Jiang, Thiago P. M. Alegre, Amir H. Safavi-Naeini, | (参考訳) 統合オプティメカルシステムは、量子情報の操作、センシング、分散のための主要なプラットフォームの一つである。
残留光吸収による温度上昇は、これらの用途の性能に究極の限界を与える。
本研究では, 周辺材料への熱アンカーの増大によりこの問題を緩和する2次元光学結晶幾何学, textbf{b-dagger} を実証する。
我々のメカニカルモードは7.4GHzで動作し、標準的な極低温マイクロ波ハードウェアと圧電トランスデューサの動作範囲内で動作する。
拡張熱化と、大きな光学的カップリング率、$g_0/2\pi \approx 880~\mathrm{kHz}$、高光学的品質因子、$Q_\text{opt} = 2.4 \times 10^5$と組み合わせることで、音速モードを3ケルビンの初期温度から$n_\text{m} = 0.35$まで低い音速で冷却することができる。
最後に,10ミリケルビン以下の温度で装置のパルスサイドバンド非対称性を実行し,3MHzの繰り返し速度で地上動作(n_\text{m} < 0.45$)を示す。
本研究は, 超伝導量子ビットの非コヒーレンス速度を克服した次世代マイクロ波-光変換器の基礎を築き, 光学系機能の境界を延長するものである。
Integrated optomechanical systems are one of the leading platforms for manipulating, sensing, and distributing quantum information. The temperature increase due to residual optical absorption sets the ultimate limit on performance for these applications. In this work, we demonstrate a two-dimensional optomechanical crystal geometry, named \textbf{b-dagger}, that alleviates this problem through increased thermal anchoring to the surrounding material. Our mechanical mode operates at 7.4 GHz, well within the operation range of standard cryogenic microwave hardware and piezoelectric transducers. The enhanced thermalization combined with the large optomechanical coupling rates, $g_0/2\pi \approx 880~\mathrm{kHz}$, and high optical quality factors, $Q_\text{opt} = 2.4 \times 10^5$, enables the ground-state cooling of the acoustic mode to phononic occupancies as low as $n_\text{m} = 0.35$ from an initial temperature of 3 kelvin, as well as entering the optomechanical strong-coupling regime. Finally, we perform pulsed sideband asymmetry of our devices at a temperature below 10 millikelvin and demonstrate ground-state operation ($n_\text{m} < 0.45$) for repetition rates as high as 3 MHz. Our results extend the boundaries of optomechanical system capabilities and establish a robust foundation for the next generation of microwave-to-optical transducers with entanglement rates overcoming the decoherence rates of state-of-the-art superconducting qubits. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 第2回eXplainable AI for the Arts(XAIxArts)国際ワークショップの開催報告
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) ( http://arxiv.org/abs/2406.14485v1 ) ライセンス: Link先を確認 | Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni, | (参考訳) この第2回説明可能なAI for the Arts(XAIxArts)に関する国際ワークショップは、HCI、インタラクションデザイン、AI、説明可能なAI(XAI)、デジタルアートの研究者のコミュニティを集めて、XAI for the Artsの役割を探求した。
第16回 ACM Conference on Creativity and Cognition (C&C 2024) でワークショップを開催した。
This second international workshop on explainable AI for the Arts (XAIxArts) brought together a community of researchers in HCI, Interaction Design, AI, explainable AI (XAI), and digital arts to explore the role of XAI for the Arts. Workshop held at the 16th ACM Conference on Creativity and Cognition (C&C 2024), Chicago, USA. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 超伝導フォトニックリンクの量子限界とミリ波への拡張
Quantum limits of superconducting-photonic links and their extension to mm-waves ( http://arxiv.org/abs/2406.14501v1 ) ライセンス: Link先を確認 | Kevin K. S. Multani, Wentao Jiang, Emilio A. Nanni, Amir H. Safavi-Naeini, | (参考訳) 超伝導回路のフォトニックアドレッシングは配線の複雑さと熱負荷の問題を克服するために提案されているが、超伝導-フォトニックリンクはスケーラビリティを制限する効率-ノイズトレードオフに悩まされている。
このトレードオフは、電力変換効率の向上には光電力の低減が必要であり、変換された信号はショットノイズの影響を受けやすいためである。
我々は、このトレードオフを分析し、フォトニック信号によって駆動されるキュービットゲートの不完全性は、使用する光子の数と逆向きにスケールし、コンバータの電力効率を向上する。
非線形検出や励起光などの手法は、この効果を緩和する可能性があるが、レーザー光を用いてミリ波(100GHz)のような高周波数の電気信号を生成することを検討する。
これらの高い周波数では、回路は高い運転温度と冷却電力予算を有する。
光駆動型極低温ミリ波源の電力効率は${1}~$\mathrm{\mu W}$で4Kで1500個の熱光子を付加した80GHzでRF電力を発生させることができる。
本研究は,光信号伝送の利点を生かしながら,光駆動型超伝導回路の効率・雑音制約を緩和する,有望なアプローチを示すものである。
高周波での電力効率とノイズのさらなる最適化により、1ケルビンを超える温度で超伝導量子ビットのフォトニック制御が可能となる。
Photonic addressing of superconducting circuits has been proposed to overcome wiring complexity and heat load challenges, but superconducting-photonic links suffer from an efficiency-noise trade-off that limits scalability. This trade-off arises because increasing power conversion efficiency requires reducing optical power, which makes the converted signal susceptible to shot noise. We analyze this trade-off and find the infidelity of qubit gates driven by photonic signals scales inversely with the number of photons used, and therefore the power efficiency of the converter. While methods like nonlinear detection or squeezed light could mitigate this effect, we consider generating higher frequency electrical signals, such as millimeter-waves (100 GHz), using laser light. At these higher frequencies, circuits have higher operating temperatures and cooling power budgets. We demonstrate an optically-driven cryogenic millimeter-wave source with a power efficiency of $10^{-4}$ that can generate ${1}~\mathrm{\mu W}$ of RF power at 80 GHz with 1500 thermal photons of added noise at 4 K. Using this source, we perform frequency-domain spectroscopy of superconducting NbTiN resonators at 80-90 GHz. Our results show a promising approach to alleviate the efficiency-noise constraints on optically-driven superconducting circuits while leveraging the benefits of photonic signal delivery. Further optimization of power efficiency and noise at high frequencies could make photonic control of superconducting qubits viable at temperatures exceeding 1 kelvin. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 動的犯罪シナリオにおける交通ネットワーク上のスタックルバーグゲームを解く:マルチ層ネットワークへの混合アプローチ
Solving a Stackelberg Game on Transportation Networks in a Dynamic Crime Scenario: A Mixed Approach on Multi-Layer Networks ( http://arxiv.org/abs/2406.14514v1 ) ライセンス: Link先を確認 | Sukanya Samanta, Kei Kimura, Makoto Yokoo, | (参考訳) 警察のリソースが限られている犯罪者の割り込みは、時間とともに犯罪が場所を変えるため、難しい作業である。
大型輸送ネットワークのサイズは、このシナリオの難しさをさらに増している。
この問題に対処するために、我々は階層グラフの概念を検討する。
各タイムスタンプにおいて,攻撃者および守備者の両方の動きを追跡するために,輸送ネットワーク全体のコピーを作成する。
我々は、攻撃者が逃走ルートで攻撃者を妨害しようとする間、攻撃者が時間とともに場所を変更する動的な犯罪シナリオとしてスタックルバーグゲームを考える。
ディフェンダー戦略のセットが与えられた場合、ディジクストラのアルゴリズムを階層ネットワークに適用することで最適な攻撃戦略が決定される。
ここでは、攻撃者は最小化を目標とし、守備側はインターディクションの確率を最大化する。
我々は,層状ネットワーク上に近似アルゴリズムを開発し,ディフェンダーの準最適戦略を求める。
提案手法の有効性をMILP法と比較した。
計算時間と解の質を比較検討する。
結果の質は、短時間で複雑な問題を効果的に解決するため、開発アプローチの必要性を示している。
Interdicting a criminal with limited police resources is a challenging task as the criminal changes location over time. The size of the large transportation network further adds to the difficulty of this scenario. To tackle this issue, we consider the concept of a layered graph. At each time stamp, we create a copy of the entire transportation network to track the possible movements of both players, the attacker and the defenders. We consider a Stackelberg game in a dynamic crime scenario where the attacker changes location over time while the defenders attempt to interdict the attacker on his escape route. Given a set of defender strategies, the optimal attacker strategy is determined by applying Dijkstra's algorithm on the layered networks. Here, the attacker aims to minimize while the defenders aim to maximize the probability of interdiction. We develop an approximation algorithm on the layered networks to find near-optimal strategy for defenders. The efficacy of the developed approach is compared with the adopted MILP approach. We compare the results in terms of computational time and solution quality. The quality of the results demonstrates the need for the developed approach, as it effectively solves the complex problem within a short amount of time. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# MMBench-Video:ホロスティックビデオ理解のための長期マルチショットベンチマーク
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding ( http://arxiv.org/abs/2406.14515v1 ) ライセンス: Link先を確認 | Xinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, Kai Chen, | (参考訳) 大規模視覚言語モデル(LVLM)の出現は、特にビデオ理解におけるマルチモーダルな文脈における彼らの応用の研究を刺激している。
従来のビデオQAベンチマークは、定量的な指標を提供するが、ビデオコンテンツの全スペクトルを包含せず、モデルの時間的理解を不十分に評価することが多い。
これらの制約に対処するために,ビデオ理解におけるLVLMの習熟度を厳格に評価する定量的なベンチマークであるMMBench-Videoを導入する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
自動評価には GPT-4 を用い, 従来の LLM による評価よりも精度, 堅牢性に優れていた。
MMBench-Videoを用いて、画像やビデオのプロプライエタリなLVLMとオープンソースのLVLMの両方を含む包括的な評価を行った。
MMBench-Videoは研究コミュニティにとって貴重な資料であり、LVLMの評価を改善し、ビデオ理解の分野での進歩を促進する。
MMBench-Videoの評価コードはVLMEvalKitに統合される。
The advent of large vision-language models (LVLMs) has spurred research into their applications in multi-modal contexts, particularly in video understanding. Traditional VideoQA benchmarks, despite providing quantitative metrics, often fail to encompass the full spectrum of video content and inadequately assess models' temporal comprehension. To address these limitations, we introduce MMBench-Video, a quantitative benchmark designed to rigorously evaluate LVLMs' proficiency in video understanding. MMBench-Video incorporates lengthy videos from YouTube and employs free-form questions, mirroring practical use cases. The benchmark is meticulously crafted to probe the models' temporal reasoning skills, with all questions human-annotated according to a carefully constructed ability taxonomy. We employ GPT-4 for automated assessment, demonstrating superior accuracy and robustness over earlier LLM-based evaluations. Utilizing MMBench-Video, we have conducted comprehensive evaluations that include both proprietary and open-source LVLMs for images and videos. MMBench-Video stands as a valuable resource for the research community, facilitating improved evaluation of LVLMs and catalyzing progress in the field of video understanding. The evalutation code of MMBench-Video will be integrated into VLMEvalKit: https://github.com/open-compass/VLMEvalKit. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# Ambiguity Clustering:qLDPC符号の正確かつ効率的なデコーダ
Ambiguity Clustering: an accurate and efficient decoder for qLDPC codes ( http://arxiv.org/abs/2406.14527v1 ) ライセンス: Link先を確認 | Stasiu Wolanski, Ben Barber, | (参考訳) 誤り訂正により、量子コンピュータは、多くの物理量子ビットに論理量子ビットを符号化することにより、物理量子ビットのデコヒーレンス時間を超える状態を保存することができる。
量子誤り訂正のスキームの先導的な提案は表面コードに基づいているが、最近提案された量子低密度パリティチェック(qLDPC)符号により、より論理的な情報をより少ない物理量子ビットで符号化することができる。
量子誤り訂正のスキームの鍵となるのはデコーダ(decoder)である。これは、量子ビットの誤差状態を、その上で行われたシンドローム測定の結果から推定するアルゴリズムである。
曲面符号には様々な高速かつ正確なデコーダがあるが、一般的なqLDPC符号のための最先端のデコーダBP-OSDは計算複雑性が高い。
本稿では、独立にデコードされたクラスタに測定データを分割するアルゴリズムであるAmbiguity Clustering(AC)を紹介する。
我々は最近提案された二変量自転車符号にACをベンチマークし、物理的に現実的な誤り率では、ACは論理的忠実度を低下させることなくBP-OSDよりも1~3桁高速であることを示した。
我々のCPU実装であるACは、144キュービットのGross符号を、中性原子や閉じ込められたイオン系に対してリアルタイムにデコードするのに十分高速です。
Error correction allows a quantum computer to preserve a state long beyond the decoherence time of its physical qubits by encoding logical qubits in a larger number of physical qubits. The leading proposal for a scheme of quantum error correction is based on the surface code, but several recently proposed quantum low-density parity check (qLDPC) codes allow more logical information to be encoded in significantly fewer physical qubits. Key to any scheme of quantum error correction is the decoder, an algorithm that estimates the error state of the qubits from the results of syndrome measurements performed on them. The surface code has a variety of fast and accurate decoders, but the state-of-the-art decoder for general qLDPC codes, BP-OSD, has a high computational complexity. Here we introduce Ambiguity Clustering (AC), an algorithm which seeks to divide the measurement data into clusters which are decoded independently. We benchmark AC on the recently proposed bivariate bicycle codes and find that, at physically realistic error rates, AC is between one and three orders of magnitude faster than BP-OSD with no reduction in logical fidelity. Our CPU implementation of AC is already fast enough to decode the 144-qubit Gross code in real time for neutral atom and trapped ion systems. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 心内膜ガイド下リアルタイム心エコー-フレーム-ボリューム登録法
Epicardium Prompt-guided Real-time Cardiac Ultrasound Frame-to-volume Registration ( http://arxiv.org/abs/2406.14534v1 ) ライセンス: Link先を確認 | Long Lei, Jun Zhou, Jialun Pei, Baoliang Zhao, Yueming Jin, Yuen-Chun Jeremy Teoh, Jing Qin, Pheng-Ann Heng, | (参考訳) 術中2D画像と術前3D容積を超音波フレーム・ボリューム登録に基づいてリアルタイムに融合させることにより、心臓外科手術の総合的なガイダンスを提供することができる。
しかし、心エコー画像は、低信号-雑音比と隣接するフレーム間の小さな差を特徴とし、2次元フレームと3次元ボリュームの有意な寸法変化を併せ持つため、リアルタイムかつ正確な心エコーフレーム-ボリューム登録は非常に難しい課題である。
本稿では,CU-Reg と呼ばれる,軽量でエンドツーエンドなカード・ツー・エンド・超音波フレーム・ツー・ボリューム・レジストレーション・ネットワークを提案する。
具体的には,2次元スパースと3次元濃密な特徴の相互作用を強化するために,心内膜刺激による解剖学的手掛かりを応用し,それに続いて,低品質超音波モダリティの相互整合性を高めるために,拡張された特徴のボクセルワイド局所グロバルアグリゲーションを応用した。
さらに、フレーム間識別正規化項をハイブリッド教師付き学習に組み込んで、隣接するスライスを同一の超音波量で区別し、登録安定性を確保する。
再処理したCAMUSデータセットの実験結果から, CU-Regは, 臨床心臓外科手術の指導要件を満たすため, 登録精度, 効率の面で既存の手法を超越していることが明らかとなった。
A comprehensive guidance view for cardiac interventional surgery can be provided by the real-time fusion of the intraoperative 2D images and preoperative 3D volume based on the ultrasound frame-to-volume registration. However, cardiac ultrasound images are characterized by a low signal-to-noise ratio and small differences between adjacent frames, coupled with significant dimension variations between 2D frames and 3D volumes to be registered, resulting in real-time and accurate cardiac ultrasound frame-to-volume registration being a very challenging task. This paper introduces a lightweight end-to-end Cardiac Ultrasound frame-to-volume Registration network, termed CU-Reg. Specifically, the proposed model leverages epicardium prompt-guided anatomical clues to reinforce the interaction of 2D sparse and 3D dense features, followed by a voxel-wise local-global aggregation of enhanced features, thereby boosting the cross-dimensional matching effectiveness of low-quality ultrasound modalities. We further embed an inter-frame discriminative regularization term within the hybrid supervised learning to increase the distinction between adjacent slices in the same ultrasound volume to ensure registration stability. Experimental results on the reprocessed CAMUS dataset demonstrate that our CU-Reg surpasses existing methods in terms of registration accuracy and efficiency, meeting the guidance requirements of clinical cardiac interventional surgery. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# MacroHFT:高頻度取引におけるメモリ拡張コンテキスト認識強化学習
MacroHFT: Memory Augmented Context-aware Reinforcement Learning On High Frequency Trading ( http://arxiv.org/abs/2406.14537v1 ) ライセンス: Link先を確認 | Chuqiao Zong, Chaojie Wang, Molei Qin, Lei Feng, Xinrun Wang, Bo An, | (参考訳) アルゴリズム取引を短時間で行う高周波取引(HFT)は、最近暗号通貨市場の大半を占めた。
従来の量的トレーディング法以外に、高次元の金融データを処理し、洗練されたシーケンシャルな意思決定問題を解決するという素晴らしい能力により、強化学習(RL)はHFTにとって魅力的なアプローチとなり、例えば、階層的強化学習(HRL)は、エージェントプールから1つのサブエージェントのみを選択して現在のトランザクションを実行するように、ルータをトレーニングすることで、2段階のHFTに対して有望な性能を示した。
しかし、HFT の既存の RL メソッドには、まだいくつかの欠陥がある。
1)標準のRLベースのトレーディングエージェントは、過度に適合する問題に悩まされ、金融状況に応じて効果的な政策調整ができない。
2) 市場状況の急激な変化により、個々のエージェントによる投資決定は通常、一方的かつ偏見が高く、極端な市場において大きな損失をもたらす可能性がある。
これらの問題に対処するために,HFT, \emph{a.k.a.} MacroHFTという2つの学習段階からなる新しいメモリ拡張コンテキスト認識強化学習手法を提案する。
1)各業者が市場状況に応じて取引政策を調整するための条件付きアダプタを所有する市場動向・ボラティリティなど、さまざまな金融指標に基づいて市場データを分解した複数のサブエージェントをまず訓練する。
2)これらのサブエージェントの意思決定を混在させるため,ハイパーエージェントを訓練し,意思決定能力を高めるためのメモリ機構を備えた迅速な市場変動に対応するために,一貫した収益性のあるメタポリティクスを出力する。
さまざまな暗号通貨市場での大規模な実験により、マクロHFTはマイクロレベルのトレーディングタスクで最先端のパフォーマンスを達成できることを示した。
High-frequency trading (HFT) that executes algorithmic trading in short time scales, has recently occupied the majority of cryptocurrency market. Besides traditional quantitative trading methods, reinforcement learning (RL) has become another appealing approach for HFT due to its terrific ability of handling high-dimensional financial data and solving sophisticated sequential decision-making problems, \emph{e.g.,} hierarchical reinforcement learning (HRL) has shown its promising performance on second-level HFT by training a router to select only one sub-agent from the agent pool to execute the current transaction. However, existing RL methods for HFT still have some defects: 1) standard RL-based trading agents suffer from the overfitting issue, preventing them from making effective policy adjustments based on financial context; 2) due to the rapid changes in market conditions, investment decisions made by an individual agent are usually one-sided and highly biased, which might lead to significant loss in extreme markets. To tackle these problems, we propose a novel Memory Augmented Context-aware Reinforcement learning method On HFT, \emph{a.k.a.} MacroHFT, which consists of two training phases: 1) we first train multiple types of sub-agents with the market data decomposed according to various financial indicators, specifically market trend and volatility, where each agent owns a conditional adapter to adjust its trading policy according to market conditions; 2) then we train a hyper-agent to mix the decisions from these sub-agents and output a consistently profitable meta-policy to handle rapid market fluctuations, equipped with a memory mechanism to enhance the capability of decision-making. Extensive experiments on various cryptocurrency markets demonstrate that MacroHFT can achieve state-of-the-art performance on minute-level trading tasks. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# テキストガイド画像編集における約7ステップの非可逆整合蒸留
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps ( http://arxiv.org/abs/2406.14539v1 ) ライセンス: Link先を確認 | Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk, | (参考訳) 拡散蒸留は、いくつかのサンプリングステップで忠実なテキスト・画像生成を実現するための非常に有望な方向を示す。
しかし、近年の成功にもかかわらず、既存の蒸留モデルは、実際の画像反転のような拡散能力の完全なスペクトルを提供していないため、多くの正確な画像操作が可能である。
本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。
そこで本研究では,高品質な画像合成と高精度な画像符号化を,わずか3~4ステップで実現する,汎用的な一貫性蒸留フレームワークであるinvertible Consistency Distillation (iCD)を導入する。
テキストから画像への拡散モデルの逆転問題は、高分類器のないガイダンス尺度によって悪化するが、動的ガイダンスは、生成性能の顕著な劣化を伴わずに、再構成エラーを著しく低減することに気づく。
その結果、ダイナミックガイダンスを備えたiCDは、より高価な最先端の代替品と競合するゼロショットテキスト誘導画像編集において、非常に効果的なツールである可能性が示された。
Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# LLMは自然に合成語彙データ生成に優れているか?
Are LLMs Naturally Good at Synthetic Tabular Data Generation? ( http://arxiv.org/abs/2406.14541v1 ) ライセンス: Link先を確認 | Shengzhe Xu, Cho-Ting Lee, Mandar Sharma, Raquib Bin Yousuf, Nikhil Muralidhar, Naren Ramakrishnan, | (参考訳) 大規模言語モデル(LLM)は、合成テキストや画像の生成において、その進歩を実証している。
本稿では, 従来の微調整後に用いたLCMが, 合成テーブルジェネレータとしては非常に不十分であることを示す。
LLMの自己回帰性のため、ランダムな順序の置換による微調整は、関数依存をモデル化することの重要性に反し、LLMは分散の条件付き混合をモデル化できない(実世界の制約を捉える鍵)。
これらの欠陥を克服するために, LLM は, 順列化を意識して実現可能であることを示す。
Large language models (LLMs) have demonstrated their prowess in generating synthetic text and images; however, their potential for generating tabular data -- arguably the most common data type in business and scientific applications -- is largely underexplored. This paper demonstrates that LLMs, used as-is, or after traditional fine-tuning, are severely inadequate as synthetic table generators. Due to the autoregressive nature of LLMs, fine-tuning with random order permutation runs counter to the importance of modeling functional dependencies, and renders LLMs unable to model conditional mixtures of distributions (key to capturing real world constraints). We showcase how LLMs can be made to overcome some of these deficiencies by making them permutation-aware. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 構造と保存機能強化による微粒化の促進
Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation ( http://arxiv.org/abs/2406.14551v1 ) ライセンス: Link先を確認 | Eyal Michaeli, Ohad Fried, | (参考訳) きめ細かい視覚分類(FGVC)は、密接に関連するサブクラスを分類する。
この課題は、クラスと高いクラス内分散の微妙な違いのため困難である。
さらに、FGVCデータセットは一般的に小さくて収集が難しいため、効果的なデータ拡張に対する大きなニーズが浮かび上がっている。
テキスト・画像拡散モデルの最近の進歩は、分類データセットを増大させる新しい可能性をもたらす。
これらのモデルは分類タスクのトレーニングデータを生成するために使われてきたが、FGVCモデルのフルデータセットトレーニングの有効性は未検討のままである。
Text2Image生成やImg2Imgメソッドに依存する最近の技術は、しばしばクラスを正確に表現するイメージを生成するのに苦労し、データセットの多様性を著しく向上させる程度に修正する。
これらの課題に対処するため、SaSPA: Structure and Subject Preserving Augmentationを提案する。
近年の手法とは対照的に,本手法では実像をガイダンスとして使用せず,生成の柔軟性を高め,多様性を高める。
正確なクラス表現を保証するため,画像のエッジと対象表現の条件付けにより,条件付け機構を用いる。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
SaSPAは、完全なデータセットトレーニング、コンテキストバイアス、少数ショット分類など、複数の設定で確立されたベースラインを一貫して上回る。
さらに,FGVCモデルに合成データを使用する際の興味深いパターンを明らかにし,実データ量と合成データの最適割合の関係について検討した。
コードはhttps://github.com/EyalMichaeli/SaSPA-Aug.comで入手できる。
Fine-grained visual classification (FGVC) involves classifying closely related sub-classes. This task is difficult due to the subtle differences between classes and the high intra-class variance. Moreover, FGVC datasets are typically small and challenging to gather, thus highlighting a significant need for effective data augmentation. Recent advancements in text-to-image diffusion models offer new possibilities for augmenting classification datasets. While these models have been used to generate training data for classification tasks, their effectiveness in full-dataset training of FGVC models remains under-explored. Recent techniques that rely on Text2Image generation or Img2Img methods, often struggle to generate images that accurately represent the class while modifying them to a degree that significantly increases the dataset's diversity. To address these challenges, we present SaSPA: Structure and Subject Preserving Augmentation. Contrary to recent methods, our method does not use real images as guidance, thereby increasing generation flexibility and promoting greater diversity. To ensure accurate class representation, we employ conditioning mechanisms, specifically by conditioning on image edges and subject representation. We conduct extensive experiments and benchmark SaSPA against both traditional and recent generative data augmentation methods. SaSPA consistently outperforms all established baselines across multiple settings, including full dataset training, contextual bias, and few-shot classification. Additionally, our results reveal interesting patterns in using synthetic data for FGVC models; for instance, we find a relationship between the amount of real data used and the optimal proportion of synthetic data. Code is available at https://github.com/EyalMichaeli/SaSPA-Aug. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# テキスト-画像拡散モデルを用いたマルチモーダルガイド画像編集の検討
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2406.14555v1 ) ライセンス: Link先を確認 | Xincheng Shuai, Henghui Ding, Xingjun Ma, Rongcheng Tu, Yu-Gang Jiang, Dacheng Tao, | (参考訳) 画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
近年、人工知能生成コンテンツ(AIGC)の有望で挑戦的な分野として広く研究されている。
この分野での最近の顕著な進歩は、テキストプロンプトに基づいて画像を生成するテキスト・ツー・イメージ拡散モデル(T2I)の開発に基づいている。
これらのモデルは顕著な生成能力を示し、画像編集のツールとして広く利用されている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
本稿では,T2I拡散モデルを利用したマルチモーダル誘導画像編集技術について概説する。
まず、総合的な視点から画像編集の範囲を定義し、様々な制御信号や編集シナリオを詳述する。
次に、編集プロセスを形式化し、2つの主要なアルゴリズムファミリに分類する統合フレームワークを提案する。
このフレームワークは、ユーザが特定の目標を達成するための設計スペースを提供する。
次に、このフレームワーク内の各コンポーネントの詳細な分析を行い、異なる組み合わせの特徴と適用シナリオについて検討する。
トレーニングベースの手法では,ユーザ指導下でソースイメージを直接ターゲットイメージにマッピングすることを学習するので,個別に議論し,異なるシナリオでソースイメージのインジェクションスキームを導入する。
さらに,映像編集における2D技術の適用を概観し,フレーム間不整合に対するソリューションの強調を行った。
最後に、この分野におけるオープンな課題について論じ、今後の研究の方向性を示唆する。
関連作業はhttps://github.com/xinchengshuai/Awesome-Image-Editing.comで追跡しています。
Image editing aims to edit the given synthetic or real image to meet the specific requirements from users. It is widely studied in recent years as a promising and challenging field of Artificial Intelligence Generative Content (AIGC). Recent significant advancement in this field is based on the development of text-to-image (T2I) diffusion models, which generate images according to text prompts. These models demonstrate remarkable generative capabilities and have become widely used tools for image editing. T2I-based image editing methods significantly enhance editing performance and offer a user-friendly interface for modifying content guided by multimodal inputs. In this survey, we provide a comprehensive review of multimodal-guided image editing techniques that leverage T2I diffusion models. First, we define the scope of image editing from a holistic perspective and detail various control signals and editing scenarios. We then propose a unified framework to formalize the editing process, categorizing it into two primary algorithm families. This framework offers a design space for users to achieve specific goals. Subsequently, we present an in-depth analysis of each component within this framework, examining the characteristics and applicable scenarios of different combinations. Given that training-based methods learn to directly map the source image to target one under user guidance, we discuss them separately, and introduce injection schemes of source image in different scenarios. Additionally, we review the application of 2D techniques to video editing, highlighting solutions for inter-frame inconsistency. Finally, we discuss open challenges in the field and suggest potential future research directions. We keep tracing related works at https://github.com/xinchengshuai/Awesome-Image-Editing. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# 自律運転のための非同期大規模言語モデル拡張プランナ
Asynchronous Large Language Model Enhanced Planner for Autonomous Driving ( http://arxiv.org/abs/2406.14556v1 ) ライセンス: Link先を確認 | Yuan Chen, Zi-han Ding, Ziqin Wang, Yan Wang, Lijun Zhang, Si Liu, | (参考訳) リアルタイムプランナーは自律走行において顕著な性能を示したが、大規模言語モデル(LLM)の探索は、運動計画の解釈可能性と制御性を高めるための道を開いた。
それでも、LLMベースのプランナーは、資源消費の増大や推論時間の延長など、重大な課題に直面し続けている。
これらの課題を踏まえ、我々はAsyncDriverという非同期LLM拡張クローズドループフレームワークを導入し、LLMが生成したシーン関連命令機能を活用して、正確な軌道予測を行うためのリアルタイムプランナーを誘導する。
一方,本手法では,ベクトル化されたシーンデータと一連のルーティング命令を解釈・推論する上で,LLMの長所を強調し,リアルタイムプランナへの効果的な支援を実証する。
一方,提案フレームワークはLLMとリアルタイムプランナの推論プロセスを分離する。
推論周波数の非同期性に乗じて,LLMの計算コストを低減し,同等の性能を維持した。
実験により,本手法はnuPlanの難解なシナリオに対して,より優れたクローズドループ評価性能が得られることが示された。
Despite real-time planners exhibiting remarkable performance in autonomous driving, the growing exploration of Large Language Models (LLMs) has opened avenues for enhancing the interpretability and controllability of motion planning. Nevertheless, LLM-based planners continue to encounter significant challenges, including elevated resource consumption and extended inference times, which pose substantial obstacles to practical deployment. In light of these challenges, we introduce AsyncDriver, a new asynchronous LLM-enhanced closed-loop framework designed to leverage scene-associated instruction features produced by LLM to guide real-time planners in making precise and controllable trajectory predictions. On one hand, our method highlights the prowess of LLMs in comprehending and reasoning with vectorized scene data and a series of routing instructions, demonstrating its effective assistance to real-time planners. On the other hand, the proposed framework decouples the inference processes of the LLM and real-time planners. By capitalizing on the asynchronous nature of their inference frequencies, our approach have successfully reduced the computational cost introduced by LLM, while maintaining comparable performance. Experiments show that our approach achieves superior closed-loop evaluation performance on nuPlan's challenging scenarios. | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |
# Coohoi: 操作対象ダイナミクスを用いた協調的オブジェクトインタラクションの学習
CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics ( http://arxiv.org/abs/2406.14558v1 ) ライセンス: Link先を確認 | Jiawei Gao, Ziqin Wang, Zeqi Xiao, Jingbo Wang, Tai Wang, Jinkun Cao, Xiaolin Hu, Si Liu, Jifeng Dai, Jiangmiao Pang, | (参考訳) 近年、大規模なモーションキャプチャーデータと強化学習手法の適用により、ヒューマノイド制御が大幅に進歩している。
しかし、大型で重い家具を移動させるような現実的なタスクの多くは、複数文字の協調を必要とする。
マルチエージェント協調に関するデータの不足とマルチエージェント学習に関連する効率上の課題を考えると、これらのタスクは単一エージェントシナリオ用に設計されたトレーニングパラダイムを使って簡単に対処することはできない。
本稿では,2段階の学習パラダイムを通した複数文字オブジェクトを扱う新しいフレームワークであるCooHOIを紹介する。
最初は、単一のエージェントがAdversarial Motion Priors (AMP)フレームワークを使ってタスクを実行することを学習する。
その後、エージェントは、MAPPO(Multi Agent Proximal Policy Optimization)を用いた並列トレーニングにおいて、操作対象の共有ダイナミクスを考慮し、他のエージェントと協調することを学ぶ。
あるエージェントがオブジェクトと対話し、特定のオブジェクトのダイナミクスが変化すると、他のエージェントは適切な応答を学習し、暗黙のコミュニケーションとチームメイト間の調整を行う。
従来のマルチキャラクタHOIのトラッキングに基づく手法とは異なり、CooHOIは本質的に効率的であり、マルチキャラクタインタラクションのモーションキャプチャデータに依存しず、より多くの参加者と幅広いオブジェクトタイプを含むようにシームレスに拡張できる。
Recent years have seen significant advancements in humanoid control, largely due to the availability of large-scale motion capture data and the application of reinforcement learning methodologies. However, many real-world tasks, such as moving large and heavy furniture, require multi-character collaboration. Given the scarcity of data on multi-character collaboration and the efficiency challenges associated with multi-agent learning, these tasks cannot be straightforwardly addressed using training paradigms designed for single-agent scenarios. In this paper, we introduce Cooperative Human-Object Interaction (CooHOI), a novel framework that addresses multi-character objects transporting through a two-phase learning paradigm: individual skill acquisition and subsequent transfer. Initially, a single agent learns to perform tasks using the Adversarial Motion Priors (AMP) framework. Following this, the agent learns to collaborate with others by considering the shared dynamics of the manipulated object during parallel training using Multi Agent Proximal Policy Optimization (MAPPO). When one agent interacts with the object, resulting in specific object dynamics changes, the other agents learn to respond appropriately, thereby achieving implicit communication and coordination between teammates. Unlike previous approaches that relied on tracking-based methods for multi-character HOI, CooHOI is inherently efficient, does not depend on motion capture data of multi-character interactions, and can be seamlessly extended to include more participants and a wide range of object types | 翻訳日:2024-06-21 12:09:55 公開日:2024-06-20 |