このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241007となっている論文です。

PDF登録状況(公開日: 20241007)

TitleAuthorsAbstract論文公表日・翻訳日
# MFE-ETP:マルチモーダル・ファンデーション・モデルのための総合的評価ベンチマーク

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning ( http://arxiv.org/abs/2407.05047v3 )

ライセンス: Link先を確認
Min Zhang, Xian Fu, Jianye Hao, Peilong Han, Hao Zhang, Lei Shi, Hongyao Tang, Yan Zheng, (参考訳) 近年、MFM(Multi-modal Foundation Models)とEmbodied Artificial Intelligence(EAI)は、前例のないペースで並んで進んでいる。 この2つの統合は、AI研究コミュニティから大きな注目を集めている。 本研究は, 具体的タスク計画において, MFM s の性能を深く, 包括的に評価することを目的としており, この領域におけるその能力と限界に光を当てることを目的としている。 そこで本研究では,まず,MFMの4つの重要な機能 – オブジェクト理解,時空間認識,タスク理解,具体的推論 – をカプセル化する,系統的評価フレームワークを開発する。 次に,MFE-ETPと呼ばれる新しいベンチマークを提案し,その複雑かつ可変なタスクシナリオ,典型的には多様だが多様なタスクタイプ,難易度が異なるタスクインスタンス,複数の具体的質問応答から具体的タスク推論まで多種多様なテストケースタイプを特徴付ける。 最後に、提案したベンチマーク上で複数のMFMの自動テストを可能にする、シンプルで使いやすい自動評価プラットフォームを提供する。 ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。 MFE-ETPは、現実世界のタスクに関連する高品質で大規模で挑戦的なベンチマークである。

In recent years, Multi-modal Foundation Models (MFMs) and Embodied Artificial Intelligence (EAI) have been advancing side by side at an unprecedented pace. The integration of the two has garnered significant attention from the AI research community. In this work, we attempt to provide an in-depth and comprehensive evaluation of the performance of MFM s on embodied task planning, aiming to shed light on their capabilities and limitations in this domain. To this end, based on the characteristics of embodied task planning, we first develop a systematic evaluation framework, which encapsulates four crucial capabilities of MFMs: object understanding, spatio-temporal perception, task understanding, and embodied reasoning. Following this, we propose a new benchmark, named MFE-ETP, characterized its complex and variable task scenarios, typical yet diverse task types, task instances of varying difficulties, and rich test case types ranging from multiple embodied question answering to embodied task reasoning. Finally, we offer a simple and easy-to-use automatic evaluation platform that enables the automated testing of multiple MFMs on the proposed benchmark. Using the benchmark and evaluation platform, we evaluated several state-of-the-art MFMs and found that they significantly lag behind human-level performance. The MFE-ETP is a high-quality, large-scale, and challenging benchmark relevant to real-world tasks.
翻訳日:2024-11-08 23:35:45 公開日:2024-10-07
# OffsetBias: チューニング評価のためのデバイアスデータを活用する

OffsetBias: Leveraging Debiased Data for Tuning Evaluators ( http://arxiv.org/abs/2407.06551v2 )

ライセンス: Link先を確認
Junsoo Park, Seungyeon Jwa, Meiying Ren, Daeyoung Kim, Sanghyuk Choi, (参考訳) 大規模言語モデル(LLM)を用いて、命令付きモデルや微調整型判断モデルなどの生成した応答の品質を評価する手法が広く採用されている。 また、そのような評価者が長い反応を好むなどバイアスに弱いことも知られている。 この問題を克服することは重要であるが、これらのバイアスの具体例は未解明のままである。 本研究では,様々な判断モデルに固有の6種類のバイアスを定性的に同定する。 バイアスタイプごとに手作りテストケースのメタ評価コレクションとしてEvalBiasBenchを提案する。 さらに、デバイアスデータセット構築法と関連する選好データセットOffsetBiasを提案する。 実験結果から,我々のデータセットの微調整により,判断モデルのバイアスに対する堅牢性が著しく向上し,ほとんどの評価シナリオにおける性能が向上することが示された。 データセットと微調整された判断モデルを公開しています。

Employing Large Language Models (LLMs) to assess the quality of generated responses, such as prompting instruct-tuned models or fine-tuning judge models, has become a widely adopted evaluation method. It is also known that such evaluators are vulnerable to biases, such as favoring longer responses. While it is important to overcome this problem, the specifics of these biases remain under-explored. In this work, we qualitatively identify six types of biases inherent in various judge models. We propose EvalBiasBench as a meta-evaluation collection of hand-crafted test cases for each bias type. Additionally, we present de-biasing dataset construction methods and the associated preference dataset OffsetBias. Experimental results demonstrate that fine-tuning on our dataset significantly enhances the robustness of judge models against biases and improves performance across most evaluation scenarios. We release our datasets and the fine-tuned judge model to public.
翻訳日:2024-11-08 23:02:19 公開日:2024-10-07
# Greit-HRNet:人間の姿勢推定のためのグループ軽量高分解能ネットワーク

Greit-HRNet: Grouped Lightweight High-Resolution Network for Human Pose Estimation ( http://arxiv.org/abs/2407.07389v2 )

ライセンス: Link先を確認
Junjia Han, (参考訳) 人間のポーズ推定作業にはマルチスケール機能が必要であるため、高解像度ネットワークが広く適用されている。 通信路重み付けや空間重み付けなど,高解像度ネットワークにおけるコストのかかるポイントワイズ畳み込みを置き換えるために,軽量モジュールを提案する。 しかし、重量の一貫性の維持に失敗し、地球規模の空間情報を収集する。 これらの問題に対処するため、Greit-HRNet(Grouped Light High-Resolution Network)を提案し、GCW(Grouped Channel Weighting)とGSW(Global Space Weighting)を含むGreitブロックを提案する。 GCWモジュール群による条件付きチャネル重み付けにより、重み付けを安定させ、ネットワークの深化に伴う高分解能な特徴を維持する一方、GSWモジュールはグローバル空間情報を効果的に抽出し、チャネル間で情報を交換する。 また、Greit-HRNetの全効率を改善するためにLKA(Large Kernel Attention)手法を適用した。 我々のMS-COCOとMPII人のポーズ推定データセットに関する実験は、Greit-HRNetの優れた性能を示し、他の最先端の軽量ネットワークよりも優れています。

As multi-scale features are necessary for human pose estimation tasks, high-resolution networks are widely applied. To improve efficiency, lightweight modules are proposed to replace costly point-wise convolutions in high-resolution networks, including channel weighting and spatial weighting methods. However, they fail to maintain the consistency of weights and capture global spatial information. To address these problems, we present a Grouped lightweight High-Resolution Network (Greit-HRNet), in which we propose a Greit block including a group method Grouped Channel Weighting (GCW) and a spatial weighting method Global Spatial Weighting (GSW). GCW modules group conditional channel weighting to make weights stable and maintain the high-resolution features with the deepening of the network, while GSW modules effectively extract global spatial information and exchange information across channels. In addition, we apply the Large Kernel Attention (LKA) method to improve the whole efficiency of our Greit-HRNet. Our experiments on both MS-COCO and MPII human pose estimation datasets demonstrate the superior performance of our Greit-HRNet, outperforming other state-of-the-art lightweight networks.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-07
# DALL-M:LLMを用いたコンテキスト対応臨床データ拡張

DALL-M: Context-Aware Clinical Data Augmentation with LLMs ( http://arxiv.org/abs/2407.08227v2 )

ライセンス: Link先を確認
Chihcheng Hsieh, Catarina Moreira, Isabel Blanco Nobre, Sandra Costa Sousa, Chun Ouyang, Margot Brereton, Joaquim Jorge, Jacinto C. Nascimento, (参考訳) X線画像は医療診断において不可欠であるが、臨床的文脈なしでは有効性は限られている。 放射線医は、基礎疾患の診断、包括的臨床特徴の必要、およびデータ統合に不十分な胸部X線をしばしば見出す。 本稿では,臨床表型データを用いた拡張技術により臨床コンテキストを向上し,AI診断における適用性と信頼性を向上させるための新しい枠組みを提案する。 症例文脈合成データを生成するために,大規模言語モデルを用いた臨床データ拡張の先駆的アプローチを導入する。 この方法論は、医療におけるより堅牢なディープラーニングモデルのトレーニングに不可欠です。 実際の患者データの整合性を保ちつつ、文脈に関連のある合成機能でデータセットを充実させ、モデル性能を大幅に向上させる。 私たちの方法論はDALL-Mと呼ばれ、三相特徴生成プロセスを用いています。 (i)クリニカル・コンテクスト・ストレージ (ii)エキスパートクエリ生成、および (iii)context-aware feature augmentation DALL-Mは胸部X線像と報告を合成することにより、臨床的に新しい特徴を生み出す。 MIMIC-IVデータセットの9つの特徴を使用して799のケースに適用された。 これは、患者のX線レポートの文脈値を生成する最初の研究である。 具体的には 一 既存の臨床特徴の文脈合成値を生成するためのLCMの能力及び方法 (II)全く新しい臨床的特徴を創出する能力。 機械学習モデルによる実証的な検証は、大幅なパフォーマンス向上を示した。 F1のスコアは16.5%、精度とリコールは25%向上した。 DALL-Mは臨床データ拡張における重要なギャップに対処し、コンテキストに富んだデータセットを生成するための堅牢なフレームワークを提供する。

X-ray images are vital in medical diagnostics, but their effectiveness is limited without clinical context. Radiologists often find chest X-rays insufficient for diagnosing underlying diseases, necessitating comprehensive clinical features and data integration. We present a novel framework to enhance the clinical context through augmentation techniques with clinical tabular data, thereby improving its applicability and reliability in AI medical diagnostics. We introduce a pioneering approach to clinical data augmentation that employs large language models to generate patient contextual synthetic data. This methodology is crucial for training more robust deep learning models in healthcare. It preserves the integrity of real patient data while enriching the dataset with contextually relevant synthetic features, significantly enhancing model performance. Our methodology, termed DALL-M, uses a three-phase feature generation process: (i)clinical context storage, (ii)expert query generation, and (iii)context-aware feature augmentation. DALL-M generates new, clinically relevant features by synthesizing chest X-ray images and reports. Applied to 799 cases using nine features from the MIMIC-IV dataset, it created an augmented set of 91 features. This is the first work to generate contextual values for patients' X-ray reports. Specifically, we provide (i)the capacity of LLMs to generate contextual synthetic values for existing clinical features and (ii)their ability to create entirely new clinically relevant features. Empirical validation with machine learning models showed significant performance improvements. Incorporating augmented features increased the F1 score by 16.5% and Precision and Recall by approximately 25%. DALL-M addresses a critical gap in clinical data augmentation, offering a robust framework for generating contextually enriched datasets.
翻訳日:2024-11-08 22:29:08 公開日:2024-10-07
# LeanQuant:Loss-error-aware Gridによる正確でスケーラブルな大規模言語モデルの量子化

LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid ( http://arxiv.org/abs/2407.10032v2 )

ライセンス: Link先を確認
Tianyi Zhang, Anshumali Shrivastava, (参考訳) 大規模言語モデル(LLM)は、様々な領域で大きな可能性を示しているが、その高いメモリ要求と推論コストは、デプロイメントにおいて重要な課題である。 トレーニング後の量子化(PTQ)は、メモリ要求を減らし、遅延を復号化するための有望な技術として登場した。 しかし、最近の正確な量子化手法は、特定のハードウェアやソフトウェアプラットフォームに適した専用の推論カーネルを必要とするため、一般的なフレームワークとの互換性を制限し、より優れたモデル品質を達成するために、特別な計算やカスタムデータフォーマットに依存することが多い。 さらに、多くの競合する手法は高いリソース要求と計算オーバーヘッドを持ち、それを数十億のパラメータにスケールすることは困難である。 これらの課題に対応するために、我々は、正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuant(Loss-error-aware Network Quantization)を提案する。 既存の反復的損失エラーに基づく量子化フレームワークでは、従来の手法において重要な制限を識別する: min-maxアフィン量子化グリッドは、逆ヘッセン対角線における外れ値によるモデル品質の維持に失敗する。 この根本的な問題を解決するために、非適応的なmin-maxアフィングリッドの代わりに、ロスエラー対応グリッドの学習を提案する。 我々のアプローチは、より正確な量子化モデルを生成するだけでなく、アフィンや非一様量子化を含むより広範な量子化タイプに一般化し、より多くのフレームワークとの互換性を向上する。 最近のLLMに関する大規模な実証的な評価によると、LeanQuantはモデル品質の最近の競争ベースラインと好適に比較され、21時間で2つのQuadro RTX 8000-48GB GPUを使用してLlama-3.1 405Bの非常に正確な量子化を実現している。

Large language models (LLMs) have shown immense potential across various domains, but their high memory requirements and inference costs remain critical challenges for deployment. Post-training quantization (PTQ) has emerged as a promising technique to reduce memory requirements and decoding latency. However, recent accurate quantization methods often depend on specialized computations or custom data formats to achieve better model quality, which limits their compatibility with popular frameworks, as they require dedicated inference kernels tailored to specific hardware and software platforms, hindering wider adoption. Furthermore, many competitive methods have high resource requirements and computational overhead, making it challenging to scale them to hundreds of billions of parameters. In response to these challenges, we propose LeanQuant (Loss-error-aware Network Quantization), a novel quantization method that is accurate, versatile, and scalable. In the existing popular iterative loss-error-based quantization framework, we identify a critical limitation in prior methods: the min-max affine quantization grid fails to preserve model quality due to outliers in inverse Hessian diagonals. To overcome this fundamental issue, we propose learning loss-error-aware grids, instead of using non-adaptive min-max affine grids. Our approach not only produces quantized models that are more accurate but also generalizes to a wider range of quantization types, including affine and non-uniform quantization, enhancing compatibility with more frameworks. Extensive empirical evaluations on recent LLMs demonstrate that LeanQuant is highly accurate, comparing favorably against recent competitive baselines in model quality, and scalable, achieving very accurate quantization of Llama-3.1 405B, one of the largest open-source LLMs to date, using two Quadro RTX 8000-48GB GPUs in 21 hours.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-07
# モデル不確かさ下におけるマルコフエージェントの学習

Learning to Steer Markovian Agents under Model Uncertainty ( http://arxiv.org/abs/2407.10207v2 )

ライセンス: Link先を確認
Jiawei Huang, Vinzenz Thoma, Zebang Shen, Heinrich H. Nax, Niao He, (参考訳) 適応する人口のためのインセンティブを設計することは、幅広い経済応用において、そしてそれ以上の領域において、ユビキタスな問題である。 本研究では,エージェントの基盤となる学習力学の事前知識に基づいて,マルチエージェントシステムに対して,望ましいポリシーであるemph{without}に向けて,新たな報酬を設計する方法について検討する。 既存の研究の限界により、我々は「emph{Markovian agent}」と呼ばれる学習力学の新しい一般的なカテゴリを考える。 ステアリング問題に対して,モデルに基づく非エポゾディック強化学習(RL)の定式化を導入する。 重要なことは、エージェントの学習力学に関する本質的なモデルの不確実性を扱うために、emph{history-dependent} ステアリング戦略を学習することに焦点を当てている。 適切なコストで良好なステアリング結果を達成するためのデシダラタを符号化する新たな客観的機能を導入する。 理論的には,所望の政策にエージェントを誘導するステアリング戦略の存在条件を特定する。 理論的な貢献を補完し,我々の目的を概ね解くための経験的アルゴリズムを提供し,歴史に依存した戦略を学習する上での課題に効果的に取り組む。 経験的評価により,アルゴリズムの有効性を実証する。

Designing incentives for an adapting population is a ubiquitous problem in a wide array of economic applications and beyond. In this work, we study how to design additional rewards to steer multi-agent systems towards desired policies \emph{without} prior knowledge of the agents' underlying learning dynamics. Motivated by the limitation of existing works, we consider a new and general category of learning dynamics called \emph{Markovian agents}. We introduce a model-based non-episodic Reinforcement Learning (RL) formulation for our steering problem. Importantly, we focus on learning a \emph{history-dependent} steering strategy to handle the inherent model uncertainty about the agents' learning dynamics. We introduce a novel objective function to encode the desiderata of achieving a good steering outcome with reasonable cost. Theoretically, we identify conditions for the existence of steering strategies to guide agents to the desired policies. Complementing our theoretical contributions, we provide empirical algorithms to approximately solve our objective, which effectively tackles the challenge in learning history-dependent strategies. We demonstrate the efficacy of our algorithms through empirical evaluations.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-07
# 高品質かつ効率的なレンダリングのためのモデルに依存しないエキスパートフレームワークNeRF

Boost Your NeRF: A Model-Agnostic Mixture of Experts Framework for High Quality and Efficient Rendering ( http://arxiv.org/abs/2407.10389v3 )

ライセンス: Link先を確認
Francesco Di Sario, Riccardo Renzulli, Enzo Tartaglione, Marco Grangetto, (参考訳) NeRFの導入以来、トレーニングと推論時間の改善にかなりの注意が向けられ、Fast-NeRFsモデルの開発に繋がった。 印象的なレンダリング速度と品質にもかかわらず、そのようなモデルの迅速な収束は、再構築品質をさらに改善するための課題を提起する。 レンダリング品質を改善するための一般的な戦略は、モデルのパラメータを増やしたり、サンプルポイントの数を増やしたりすることである。 しかし、これらの計算集約的なアプローチは、大幅な品質向上を達成するための限界に直面する。 本研究では,Sparsely-Gated Mixture of Expertsにインスパイアされたモデル非依存のフレームワークを導入し,計算複雑性を増大させることなくレンダリング品質を向上させる。 提案手法は,様々な解像度のエキスパートを混在させることで,異なるシーンコンポーネントのレンダリングを専門化することができる。 本稿では,専門家の能力を最大化するために設計された新しいゲートの定式化と,空間を効果的に誘導し,シーンを分解する解像度ベースのルーティング手法を提案する。 本研究は,競争性能を維持しつつ,再現性を大幅に向上させる。

Since the introduction of NeRFs, considerable attention has been focused on improving their training and inference times, leading to the development of Fast-NeRFs models. Despite demonstrating impressive rendering speed and quality, the rapid convergence of such models poses challenges for further improving reconstruction quality. Common strategies to improve rendering quality involves augmenting model parameters or increasing the number of sampled points. However, these computationally intensive approaches encounter limitations in achieving significant quality enhancements. This study introduces a model-agnostic framework inspired by Sparsely-Gated Mixture of Experts to enhance rendering quality without escalating computational complexity. Our approach enables specialization in rendering different scene components by employing a mixture of experts with varying resolutions. We present a novel gate formulation designed to maximize expert capabilities and propose a resolution-based routing technique to effectively induce sparsity and decompose scenes. Our work significantly improves reconstruction quality while maintaining competitive performance.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-07
# ファインチューニングとプロンプト最適化:2つの素晴らしいステップ

Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together ( http://arxiv.org/abs/2407.10930v2 )

ライセンス: Link先を確認
Dilara Soylu, Christopher Potts, Omar Khattab, (参考訳) 自然言語処理(NLP)システムは、例えばRetrieval Augmented Generation(RAG)のような洗練されたモジュールパイプラインの形式をますます取り入れている。 これらの複合システムは、各モジュールを最適化するための中間ラベルや勾配フローを欠いていることが多いため、エンドツーエンドの最適化は困難である。 ここでは,モジュールレベルのLM重み付けとそれに関連するプロンプトテンプレートの両方を最適化して,下流のタスクメトリックを最大化する方法を模索する。 そこで本研究では,モジュール型LMパイプラインを最適化するための重み付けと即時最適化を両立させるため,両パイプラインを交互に組み合わせて同じLMを学習する手法を提案する。 マルチホップQA、数学的推論、Mistral-7b、llama-2-7b、llama-3-8bを用いた特徴ベースの分類の実験において、これらのBetterTogether戦略は、パイプラインの重みとプロンプトを最適化し、パイプラインが直接的に重みを最適化し、それぞれ最大60%と6%のプロンプトを、平均してLMとタスク間で単独で行う。 BetterTogether Optimizationr は DSPy で http://dspy.ai でリリースされている。

Natural Language Processing (NLP) systems are increasingly taking the form of sophisticated modular pipelines, e.g., Retrieval Augmented Generation (RAG), where each module may involve a distinct Language Model (LM) and an associated prompt template. These compound systems often lack intermediate labels or gradient flow to optimize each module, making their end-to-end optimization challenging. Here we seek strategies to optimize both the module-level LM weights and the associated prompt templates of such systems to maximize a downstream task metric. We propose for the first time combining the weight and prompt optimization strategies to optimize a modular LM pipeline by alternating between the two to get the same LM to teach itself. In experiments with multi-hop QA, mathematical reasoning, and feature-based classification using mistral-7b, llama-2-7b, and llama-3-8b, these BetterTogether strategies optimizing the weights and prompts of a pipeline together outperform directly optimizing weights alone and prompts alone by up to 60% and 6%, respectively, on average across LMs and tasks. BetterTogether optimizer is released in DSPy at http://dspy.ai
翻訳日:2024-11-08 21:32:38 公開日:2024-10-07
# ColorwAI: GANと拡散遠絡による織物の創成色調

ColorwAI: Generative Colorways of Textiles through GAN and Diffusion Disentanglement ( http://arxiv.org/abs/2407.11514v2 )

ライセンス: Link先を確認
Ludovica Schaerf, Andrea Alfarano, Eric Postma, (参考訳) カラーウェイ生成は、下層のパターンを維持した交互な色変化で繊維サンプルを生成するタスクである。 カラーウェイに適したカラーパレットの分割は、クライアントと市場のニーズ、スタイルと文化の仕様、ムードに応じて複雑な創造的なタスクである。 本稿では,最小形状修正を含む「生成色道」作成という課題の修正を紹介し,StyleGAN と Diffusion のカラーアンタングルを用いて,この課題に対処するためのフレームワーク "ColorwAI" を提案する。 教師付きディコンタングルメントのためのInterfaceGAN法のバリエーションであるShapleyVecを紹介する。 検出された遅延方向のいくつかの次元をサブセレクトするために、Shapley値を使用する。 さらに, セマンティックな潜在空間を持つ任意のアーキテクチャ上で, 共通不整合法を採用し, 拡散とGANで検証する一般的なフレームワークを提案する。 モデルの潜在空間における色表現を解釈する。 StyleGANのW空間は、人間の色の概念と最もよく一致している。 最後に,色道創出のための創造的システムと,専門的なアンケートや創造的理論を通じて評価することを提案する。

Colorway creation is the task of generating textile samples in alternate color variations maintaining an underlying pattern. The individuation of a suitable color palette for a colorway is a complex creative task, responding to client and market needs, stylistic and cultural specifications, and mood. We introduce a modification of this task, the "generative colorway" creation, that includes minimal shape modifications, and propose a framework, "ColorwAI", to tackle this task using color disentanglement on StyleGAN and Diffusion. We introduce a variation of the InterfaceGAN method for supervised disentanglement, ShapleyVec. We use Shapley values to subselect a few dimensions of the detected latent direction. Moreover, we introduce a general framework to adopt common disentanglement methods on any architecture with a semantic latent space and test it on Diffusion and GANs. We interpret the color representations within the models' latent space. We find StyleGAN's W space to be the most aligned with human notions of color. Finally, we suggest that disentanglement can solicit a creative system for colorway creation, and evaluate it through expert questionnaires and creativity theory.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-07
# データ圧縮としての基礎モデル--情報・モデル重み・著作権法を中心に

Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law ( http://arxiv.org/abs/2407.13493v3 )

ライセンス: Link先を確認
Giorgio Franceschelli, Claudia Cevenini, Mirco Musolesi, (参考訳) ディープラーニングシステムの他のクラスに対する基礎モデルのトレーニングプロセスは、トレーニングセット上の再構成誤差を最小限に抑えることに基づいている。 そのため、記憶とその後のトレーニングサンプルの再生に影響を受けやすい。 本稿では,モデルの重みがトレーニングデータの圧縮表現を具現化する,トレーニング・アズ・圧縮の視点を紹介する。 著作権の観点から見れば、この視点は、重みが潜在的に保護された作品の複製または派生作品と見なせることを意味している。 本稿では,基礎モデルが生み出すアウトプットの著作権の枠組みから生じる技術的・法的課題について考察する。 この問題に情報中心のアプローチを採用することは、これらの新たな複雑な法的問題に取り組む上で有望な道筋を示す。

The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model's weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-07
# 証券貸出市場における動的価格設定:エージェント・レンダー・ポートフォリオの収益最適化への応用

Dynamic Pricing in Securities Lending Market: Application in Revenue Optimization for an Agent Lender Portfolio ( http://arxiv.org/abs/2407.13687v3 )

ライセンス: Link先を確認
Jing Xu, Yung-Cheng Hsu, William Biscarri, (参考訳) 証券貸付は金融市場構造の重要な部分であり、エージェント・貸し手は長期の機関投資家が貸付手数料と引き換えに短期の売り手に証券を貸し出すのを助ける。 市場のエージェント・貸し手は、できるだけ高いレートで証券を貸し出すことで収益を最適化しようとしている。 通常、このレートはハードコードされたビジネスルールまたは標準的な教師付き機械学習モデルによって設定される。 これらのアプローチはスケールが難しく、市場の状況の変化に適応できないことが多い。 中央集権的なリミット・オーダー・ブックを持つ伝統的な証券取引所とは異なり、証券貸出市場は、エージェント・貸し手や借り手が合意された価格で取引できる電子商取引市場と同様に組織されている。 この類似性から、電子商取引における動的価格問題に対処する典型的な手法は、証券融資市場において有効である可能性が示唆されている。 証券貸出市場では,既存の文脈的バンディットの枠組みをうまく活用できることが示されている。 実履歴データをオフラインで評価することにより、コンテキスト的バンディットアプローチは、総収益の少なくとも15%以上の典型的なアプローチを一貫して上回り得ることを示す。

Securities lending is an important part of the financial market structure, where agent lenders help long term institutional investors to lend out their securities to short sellers in exchange for a lending fee. Agent lenders within the market seek to optimize revenue by lending out securities at the highest rate possible. Typically, this rate is set by hard-coded business rules or standard supervised machine learning models. These approaches are often difficult to scale and are not adaptive to changing market conditions. Unlike a traditional stock exchange with a centralized limit order book, the securities lending market is organized similarly to an e-commerce marketplace, where agent lenders and borrowers can transact at any agreed price in a bilateral fashion. This similarity suggests that the use of typical methods for addressing dynamic pricing problems in e-commerce could be effective in the securities lending market. We show that existing contextual bandit frameworks can be successfully utilized in the securities lending market. Using offline evaluation on real historical data, we show that the contextual bandit approach can consistently outperform typical approaches by at least 15% in terms of total revenue generated.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-07
# 証券貸出市場における動的価格設定:エージェント・レンダー・ポートフォリオの収益最適化への応用

Dynamic Pricing in Securities Lending Market: Application in Revenue Optimization for an Agent Lender Portfolio ( http://arxiv.org/abs/2407.13687v4 )

ライセンス: Link先を確認
Jing Xu, Yung-Cheng Hsu, William Biscarri, (参考訳) 証券貸付は金融市場構造の重要な部分であり、エージェント・貸し手は長期の機関投資家が貸付手数料と引き換えに短期の売り手に証券を貸し出すのを助ける。 市場のエージェント・貸し手は、できるだけ高いレートで証券を貸し出すことで収益を最適化しようとしている。 通常、このレートはハードコードされたビジネスルールまたは標準的な教師付き機械学習モデルによって設定される。 これらのアプローチはスケールが難しく、市場の状況の変化に適応できないことが多い。 中央集権的なリミット・オーダー・ブックを持つ伝統的な証券取引所とは異なり、証券貸出市場は、エージェント・貸し手や借り手が合意された価格で取引できる電子商取引市場と同様に組織されている。 この類似性から、電子商取引における動的価格問題に対処する典型的な手法は、証券融資市場において有効である可能性が示唆されている。 証券貸出市場では,既存の文脈的バンディットの枠組みをうまく活用できることが示されている。 実履歴データをオフラインで評価することにより、コンテキスト的バンディットアプローチは、総収益の少なくとも15%以上の典型的なアプローチを一貫して上回り得ることを示す。

Securities lending is an important part of the financial market structure, where agent lenders help long term institutional investors to lend out their securities to short sellers in exchange for a lending fee. Agent lenders within the market seek to optimize revenue by lending out securities at the highest rate possible. Typically, this rate is set by hard-coded business rules or standard supervised machine learning models. These approaches are often difficult to scale and are not adaptive to changing market conditions. Unlike a traditional stock exchange with a centralized limit order book, the securities lending market is organized similarly to an e-commerce marketplace, where agent lenders and borrowers can transact at any agreed price in a bilateral fashion. This similarity suggests that the use of typical methods for addressing dynamic pricing problems in e-commerce could be effective in the securities lending market. We show that existing contextual bandit frameworks can be successfully utilized in the securities lending market. Using offline evaluation on real historical data, we show that the contextual bandit approach can consistently outperform typical approaches by at least 15% in terms of total revenue generated.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-07
# 変換器はいつnにカウントできるのか?

When Can Transformers Count to n? ( http://arxiv.org/abs/2407.15160v2 )

ライセンス: Link先を確認
Gilad Yehudai, Haim Kaplan, Asma Ghandeharioun, Mor Geva, Amir Globerson, (参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルは、非常に複雑なタスクを解くことができる。 しかし、そのようなモデルでは解決できない単純なタスクがありますか? ここでは、文字列に何回トークンが出現したかをカウントする非常に単純なカウントタスクに注目します。 本研究では, 変圧器状態の次元が文脈長で線形であれば, この課題を解くことができることを示す。 しかし,提案する解は,この限界を超えてスケールしないため,サイズ限定の変圧器では実現不可能な理由を理論的に論じる。 実験結果は,理論的な議論によって予想されるように,性能の相転移を示すものである。 本結果は,トランスフォーマーが簡単なタスクを解く方法を理解することの重要性を示す。

Large language models based on the transformer architectures can solve highly complex tasks. But are there simple tasks that such models cannot solve? Here we focus on very simple counting tasks, that involve counting how many times a token in the vocabulary have appeared in a string. We show that if the dimension of the transformer state is linear in the context length, this task can be solved. However, the solution we propose does not scale beyond this limit, and we provide theoretical arguments for why it is likely impossible for a size limited transformer to implement this task. Our empirical results demonstrate the same phase-transition in performance, as anticipated by the theoretical argument. Our results demonstrate the importance of understanding how transformers can solve simple tasks.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-07
# 内因性自己補正によるモラル向上 : 内因性メカニズムと表面仮説の解析

Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis ( http://arxiv.org/abs/2407.15286v3 )

ライセンス: Link先を確認
Guangliang Liu, Haitao Mao, Jiliang Tang, Kristen Marie Johnson, (参考訳) 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。 最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。 しかし、自己補正命令の注入方法がLLMの動作を変える過程は未解明のままである。 本稿では,(1)道徳的自己補正作業のシナリオとは何か,という3つの研究課題に答えることで,道徳的自己補正の有効性を検討する。 2)道徳的自己補正の指示に影響されるLLMの内部メカニズム、例えば隠蔽状態はどのようなものか? (3)本質的な道徳的自己補正は、隠された状態における不道徳を減らし、実際に表面的であるか? 自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。 言語生成と多選択質問応答の課題に関する実証調査を通じて、結論を下す。 (i)LLMは両課題にまたがって優れた性能を示しており、正解が既に上位にある場合には、自己訂正指示が特に有益である。 二 中間隠蔽状態の道徳レベルは、一方の指示が他方よりも効果的かどうかの指標として強い。 3) 自己訂正行動の中間的隠蔽状態の解析とタスクケーススタディに基づいて,本質的道徳的自己補正が実際に表面的であるという仮説を最初に提案する。

Large Language Models (LLMs) are capable of producing content that perpetuates stereotypes, discrimination, and toxicity. The recently proposed moral self-correction is a computationally efficient method for reducing harmful content in the responses of LLMs. However, the process of how injecting self-correction instructions can modify the behavior of LLMs remains under-explored. In this paper, we explore the effectiveness of moral self-correction by answering three research questions: (1) In what scenarios does moral self-correction work? (2) What are the internal mechanisms of LLMs, e.g., hidden states, that are influenced by moral self-correction instructions? (3) Is intrinsic moral self-correction actually superficial in terms of reduced immorality in hidden states? We argue that self-correction can help LLMs find a shortcut to more morally correct output, rather than truly reducing the immorality stored in hidden states. Through empirical investigation with tasks of language generation and multi-choice question answering, we conclude:(i) LLMs exhibit good performance across both tasks, and self-correction instructions are particularly beneficial when the correct answer is already top-ranked; (ii) The morality levels in intermediate hidden states are strong indicators as to whether one instruction would be more effective than another; (iii) Based on our analysis of intermediate hidden states and task case studies of self-correction behaviors, we are first to propose the hypothesis that intrinsic moral self-correction is in fact superficial.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-07
# Odyssey: Minecraftエージェントをオープンワールドスキルで強化する

Odyssey: Empowering Minecraft Agents with Open-World Skills ( http://arxiv.org/abs/2407.15325v2 )

ライセンス: Link先を確認
Shunyu Liu, Yaoru Li, Kongcheng Zhang, Zhenyu Cui, Wenkai Fang, Yuxuan Zheng, Tongya Zheng, Mingli Song, (参考訳) 近年の研究では、Minecraftのようなオープンワールド環境のためのジェネラリストエージェントの構築が進められている。 有望な結果にもかかわらず、既存の取り組みは主に、Minecraftのテクツリーに続くマテリアルコレクションやツールクラフトといった基本的なプログラムタスクの解決に重点を置いており、ObtainDiamondタスクを究極のゴールとして扱う。 この制限は、エージェントが利用可能な狭義のアクションセットに起因し、スクラッチから効果的なロングホライゾン戦略を学ぶ必要がある。 その結果,オープンワールドにおける多様なゲームプレイ機会の発見が困難になる。 本研究では,大規模言語モデル(LLM)をベースとしたエージェントにオープンワールドのスキルを付与し,Minecraftの世界を探索する新たなフレームワークであるOdysseyを紹介する。 Odysseyは、(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェントである。 2) Minecraft Wikiから390k以上のインストラクションを抽出した大規模質問応答データセット上で学習した微調整LLaMA-3モデルについて検討した。 3)新しいエージェント能力ベンチマークには,長期計画タスク,動的即時計画タスク,自律探査タスクが含まれる。 大規模な実験により、提案したOdysseyフレームワークは、LLMベースのエージェントの異なる能力を効果的に評価できることが示されている。 すべてのデータセット、モデルウェイト、コードは公開されており、より高度な自律エージェントソリューションに関する将来の研究を動機付けている。

Recent studies have delved into constructing generalist agents for open-world environments like Minecraft. Despite the encouraging results, existing efforts mainly focus on solving basic programmatic tasks, e.g., material collection and tool-crafting following the Minecraft tech-tree, treating the ObtainDiamond task as the ultimate goal. This limitation stems from the narrowly defined set of actions available to agents, requiring them to learn effective long-horizon strategies from scratch. Consequently, discovering diverse gameplay opportunities in the open world becomes challenging. In this work, we introduce Odyssey, a new framework that empowers Large Language Model (LLM)-based agents with open-world skills to explore the vast Minecraft world. Odyssey comprises three key parts: (1) An interactive agent with an open-world skill library that consists of 40 primitive skills and 183 compositional skills. (2) A fine-tuned LLaMA-3 model trained on a large question-answering dataset with 390k+ instruction entries derived from the Minecraft Wiki. (3) A new agent capability benchmark includes the long-term planning task, the dynamic-immediate planning task, and the autonomous exploration task. Extensive experiments demonstrate that the proposed Odyssey framework can effectively evaluate different capabilities of LLM-based agents. All datasets, model weights, and code are publicly available to motivate future research on more advanced autonomous agent solutions.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-07
# 多言語事前学習対象としての言語モデリングと翻訳の比較

A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives ( http://arxiv.org/abs/2407.15489v2 )

ライセンス: Link先を確認
Zihao Li, Shaoxiong Ji, Timothee Mickus, Vincent Segonne, Jörg Tiedemann, (参考訳) プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。 事前訓練におけるベストプラクティスの確立は、特にモノリンガル英語モデルから得られた洞察がより複雑な多言語モデルに必ずしも適用されないため、NLP研究の主要な焦点となっている。 現在の最先端の重大な注意事項の1つは、異なる作業はめったに比較されず、異なるパラメータ数、トレーニングデータ、評価方法論について議論することが多いことである。 本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。 データとモデルアーキテクチャのトレーニングが同等であることを確認し、調査と微調整のシナリオで観察する6つの言語にわたるダウンストリームのパフォーマンスについて議論します。 本研究では,(1)事前学習対象が最適であるかをアーキテクチャが規定する,(2)多言語翻訳は適切な条件下での学習対象として非常に効果的である,という2つの重要な観察を行う。 私たちは、コード、データ、モデルの重み付けを、texttt{\url{https://github.com/Helsinki-NLP/lm-vs-mt}}で公開しています。

Pretrained language models (PLMs) display impressive performances and have captured the attention of the NLP community. Establishing best practices in pretraining has, therefore, become a major focus of NLP research, especially since insights gained from monolingual English models may not necessarily apply to more complex multilingual models. One significant caveat of the current state of the art is that different works are rarely comparable: they often discuss different parameter counts, training data, and evaluation methodology. This paper proposes a comparison of multilingual pretraining objectives in a controlled methodological environment. We ensure that training data and model architectures are comparable, and discuss the downstream performances across 6 languages that we observe in probing and fine-tuning scenarios. We make two key observations: (1) the architecture dictates which pretraining objective is optimal; (2) multilingual translation is a very effective pretraining objective under the right conditions. We make our code, data, and model weights available at \texttt{\url{https://github.com/Helsinki-NLP/lm-vs-mt}}.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-07
# 医用画像解析の基礎モデルにおける信頼性に関する調査

A Survey on Trustworthiness in Foundation Models for Medical Image Analysis ( http://arxiv.org/abs/2407.15851v2 )

ライセンス: Link先を確認
Congzhen Shi, Ryan Rezai, Jiaxi Yang, Qi Dou, Xiaoxiao Li, (参考訳) 医療画像の基礎モデルの急速な進歩は、診断精度の向上とパーソナライズされた治療への大きな飛躍を示している。 しかしながら、基礎モデルのヘルスケアへの展開は、プライバシ、堅牢性、信頼性、説明可能性、公正性を含む、厳格な信頼性の検証を必要とする。 医療画像の基礎モデルに関する現在の調査文献では、特に信頼性の領域において、かなりのギャップが明らかになっている。 さらに、基礎モデルの信頼性に関する既存の調査は、医療画像領域内の特定のバリエーションや応用を適切に解決していない。 本調査は,医療画像の基盤モデルの新たな分類法を提示し,信頼性を確保するための主要な動機を分析することによって,そのギャップを埋めることを目的としている。 本研究は, 画像診断における基礎モデル, セグメンテーション, 医療報告生成, 医療質問と回答(Q\&A), 疾患診断に焦点をあてるものである。 これらの領域は、他のアプリケーションと比較して比較的成熟し、かなりの数の基盤モデルを見てきたため、強調されている。 医用画像解析原稿の信頼性を論じる文献に焦点をあてる。 信頼性を高めるための現在の関心事と戦略を要約し、各アプリケーションに対して信頼できる基盤モデルを構築するという複雑な課題について検討する。 さらに,これらのモデルが患者のケアに革命をもたらす可能性を考察した。 われわれの分析は、医療画像分析において信頼できるAIに進むための必須事項であり、倫理的かつ公平な医療提供を確保しつつ、イノベーションを促進するバランスのとれたアプローチを提唱している。

The rapid advancement of foundation models in medical imaging represents a significant leap toward enhancing diagnostic accuracy and personalized treatment. However, the deployment of foundation models in healthcare necessitates a rigorous examination of their trustworthiness, encompassing privacy, robustness, reliability, explainability, and fairness. The current body of survey literature on foundation models in medical imaging reveals considerable gaps, particularly in the area of trustworthiness. Additionally, existing surveys on the trustworthiness of foundation models do not adequately address their specific variations and applications within the medical imaging domain. This survey aims to fill that gap by presenting a novel taxonomy of foundation models used in medical imaging and analyzing the key motivations for ensuring their trustworthiness. We review current research on foundation models in major medical imaging applications, focusing on segmentation, medical report generation, medical question and answering (Q\&A), and disease diagnosis. These areas are highlighted because they have seen a relatively mature and substantial number of foundation models compared to other applications. We focus on literature that discusses trustworthiness in medical image analysis manuscripts. We explore the complex challenges of building trustworthy foundation models for each application, summarizing current concerns and strategies for enhancing trustworthiness. Furthermore, we examine the potential of these models to revolutionize patient care. Our analysis underscores the imperative for advancing towards trustworthy AI in medical image analysis, advocating for a balanced approach that fosters innovation while ensuring ethical and equitable healthcare delivery.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-07
# イベントカメラを用いたプルトラッキングフレームワーク

A Framework for Pupil Tracking with Event Cameras ( http://arxiv.org/abs/2407.16665v2 )

ライセンス: Link先を確認
Khadija Iddrisu, Waseem Shariff, Suzanne Little, (参考訳) サッカデス(英: Saccades)は、通常、個人が焦点をある物体から別の物体に移すときに観察される、両眼の非常に速い動きである。 これらの運動は、人間が生み出す最も急激な動きの一つであり、瞬きよりも速い速度を達成できる可能性を持っている。 ササード中の眼の最高角速度は、人間では700{\deg}/sに達し、特に25{\deg}の視角をカバーする大きなササードでは、最大で700{\deg}/sに達する。 これまでの研究では、サッケードの研究を通じて、神経疾患の理解が促進されることが示されている。 ササード検出に必要なステップは、目の内にある瞳孔の正確な位置を正確に特定することであり、そこから視線角などの追加情報を推測することができる。 従来のフレームベースのカメラは、非常に速い動きを追跡するのに必要な高い時間的精度に苦しむことが多く、動きのぼやけや遅延の問題を引き起こす。 一方、イベントカメラは、視覚シーンの変更を非同期に記録し、高時間分解能と低レイテンシを提供することで、有望な代替手段を提供する。 従来のコンピュータビジョンとイベントベースビジョンのギャップを埋めることで、標準的なディープラーニングアルゴリズムで簡単に利用できるフレームとしてイベントを提示する。 このアプローチでは、最先端のオブジェクト検出技術であるYOLOv8を使用して、一般にアクセス可能なEv-Eyeデータセットを使用して、これらのフレームを瞳孔追跡のために処理する。 実験の結果、このフレームワークの有効性が示され、神経科学、眼科、人間とコンピュータの相互作用における潜在的な応用が強調された。

Saccades are extremely rapid movements of both eyes that occur simultaneously, typically observed when an individual shifts their focus from one object to another. These movements are among the swiftest produced by humans and possess the potential to achieve velocities greater than that of blinks. The peak angular speed of the eye during a saccade can reach as high as 700{\deg}/s in humans, especially during larger saccades that cover a visual angle of 25{\deg}. Previous research has demonstrated encouraging outcomes in comprehending neurological conditions through the study of saccades. A necessary step in saccade detection involves accurately identifying the precise location of the pupil within the eye, from which additional information such as gaze angles can be inferred. Conventional frame-based cameras often struggle with the high temporal precision necessary for tracking very fast movements, resulting in motion blur and latency issues. Event cameras, on the other hand, offer a promising alternative by recording changes in the visual scene asynchronously and providing high temporal resolution and low latency. By bridging the gap between traditional computer vision and event-based vision, we present events as frames that can be readily utilized by standard deep learning algorithms. This approach harnesses YOLOv8, a state-of-the-art object detection technology, to process these frames for pupil tracking using the publicly accessible Ev-Eye dataset. Experimental results demonstrate the framework's effectiveness, highlighting its potential applications in neuroscience, ophthalmology, and human-computer interaction.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-07
# ハリー・ポッターの再考 : 因果的介入の視点からの未学習の目標に向けて

Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective ( http://arxiv.org/abs/2407.16997v2 )

ライセンス: Link先を確認
Yujian Liu, Yang Zhang, Tommi Jaakkola, Shiyu Chang, (参考訳) 本稿では,LLMアンラーニングの先駆的手法であるWho's Harry Potter (WHP)について検討する。 私たちはそれを2つのステップで探求します。 まず、学習対象(例えば、人物)と学習対象(学習対象)が与えられた場合、学習対象(学習対象)に関する情報のみを学習対象とする。 さらに、未学習の成功は、ジベリッシュをアウトプットしない、未学習の目標に関する事実を作らない、脱獄攻撃の事実情報を公開しない、といった基準を満たすべきだと論じる。 第2に,未学習対象の知識をLLM入力と出力の共著者としてモデル化し,未学習過程を分離プロセスとして,未学習対象の因果的介入フレームワークを構築した。 このフレームワークはWHPを正当化し拡張し、WHPを特殊なケースとして含む単純な未学習アルゴリズムを導出する。 既存のデータセットと新しいデータセットの実験では、上記の基準を明示的に最適化することなく、これらのすべてにおいて競合的なパフォーマンスを達成することが示されています。 私たちのコードはhttps://github.com/UCSB-NLP-Chang/causal_unlearn.gitで利用可能です。

This paper investigates Who's Harry Potter (WHP), a pioneering yet insufficiently understood method for LLM unlearning. We explore it in two steps. First, we introduce a new task of LLM targeted unlearning, where given an unlearning target (e.g., a person) and some unlearning documents, we aim to unlearn only the information about the target, rather than everything in the unlearning documents. We further argue that a successful unlearning should satisfy criteria such as not outputting gibberish, not fabricating facts about the unlearning target, and not releasing factual information under jailbreak attacks. Second, we construct a causal intervention framework for targeted unlearning, where the knowledge of the unlearning target is modeled as a confounder between LLM input and output, and the unlearning process as a deconfounding process. This framework justifies and extends WHP, deriving a simple unlearning algorithm that includes WHP as a special case. Experiments on existing and new datasets show that our approach, without explicitly optimizing for the aforementioned criteria, achieves competitive performance in all of them. Our code is available at https://github.com/UCSB-NLP-Chang/causal_unlearn.git.
翻訳日:2024-11-08 15:23:20 公開日:2024-10-07
# DYNAMICQA:言語モデルにおける内部知識紛争の追跡

DYNAMICQA: Tracing Internal Knowledge Conflicts in Language Models ( http://arxiv.org/abs/2407.17023v2 )

ライセンス: Link先を確認
Sara Vera Marjanović, Haeun Yu, Pepa Atanasova, Maria Maistro, Christina Lioma, Isabelle Augenstein, (参考訳) 知識集約型言語理解タスクでは、言語モデル(LM)が関連するコンテキストを統合し、不完全な知識や時代遅れな知識などの固有の弱点を軽減する必要がある。 しかし、矛盾する知識は、メモリ内競合と呼ばれるLMのパラメータに存在し、文脈的知識を受け入れるためのモデルの適合性に影響を与える可能性がある。 記憶内コンフリクトがLMの関連するコンテキストを受け入れる能力に与える影響を調べるために、2つの知識コンフリクト尺度と、本質的に矛盾するデータを含む新しいデータセットであるDynamicQAを利用する。 このデータセットには、時間とともに事実が変化しうる時間的ダイナミックな性質を持つ事実と、その視点によって変化しうる議論可能なダイナミックな事実が含まれている。 DynamicQAは、現実世界の知識コンフリクトを最初に含み、異なるタイプの知識コンフリクト間のリンクを研究するコンテキストを提供する。 セマンティックエントロピーと新しいコヒーレント・パーサーションスコアという,メモリ内コンフリクトの存在を反映するいくつかの指標についても検討した。 大規模な実験により、単一真理値の事実と比較して、LMが動的事実とのメモリ内衝突の程度が大きいことが検証された。 さらに、メモリ内競合のある事象は文脈によって更新するのが難しく、検索強化世代は最も一般的に適応された事実と闘うことを示唆している。

Knowledge-intensive language understanding tasks require Language Models (LMs) to integrate relevant context, mitigating their inherent weaknesses, such as incomplete or outdated knowledge. However, conflicting knowledge can be present in the LM's parameters, termed intra-memory conflict, which can affect a model's propensity to accept contextual knowledge. To study the effect of intra-memory conflict on an LM's ability to accept relevant context, we utilize two knowledge conflict measures and a novel dataset containing inherently conflicting data, DynamicQA. This dataset includes facts with a temporal dynamic nature where facts can change over time and disputable dynamic facts, which can change depending on the viewpoint. DynamicQA is the first to include real-world knowledge conflicts and provide context to study the link between the different types of knowledge conflicts. We also evaluate several measures on their ability to reflect the presence of intra-memory conflict: semantic entropy and a novel coherent persuasion score. With our extensive experiments, we verify that LMs exhibit a greater degree of intra-memory conflict with dynamic facts compared to facts that have a single truth value. Furthermore, we reveal that facts with intra-memory conflict are harder to update with context, suggesting that retrieval-augmented generation will struggle with the most commonly adapted facts.
翻訳日:2024-11-08 15:23:20 公開日:2024-10-07
# CMRスケーリング法:言語モデルの継続事前学習における臨界混合率の予測

CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models ( http://arxiv.org/abs/2407.17467v2 )

ライセンス: Link先を確認
Jiawei Gu, Zacc Yang, Chuanghao Ding, Rui Zhao, Fei Tan, (参考訳) 大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。 連続事前学習(CPT)は、破滅的な忘れ込みを防ぐために一般コーパスを再生しながら、新しいドメイン固有またはプロプライエタリな知識を付与することでLLM能力を増強する。 しかし、一般コーパスとドメイン固有コーパスのデータ混合比はヒューリスティックに選ばれ、実際は準最適トレーニング効率をもたらす。 そこで本研究では,LCMのスケーリング挙動を再検討し,損失,混合比,トレーニングトークンのスケールの関係を明らかにする。 我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。 バランスを打つことで、CMRはモデルの一般的な能力を維持し、望ましいドメイン転送を実現し、利用可能なリソースを最大限に活用する。 効率と有効性のバランスを考えると、CMRは最適混合比と見なすことができる。 広範な実験により、CMRの予測可能性を確認し、CMRスケーリング法則を提案し、その一般化を実証した。 これらの知見は, LLMトレーニングを専門領域で最適化するための実践的ガイドラインを提供し, 訓練資源を効率的に管理しながら, 一般分野とドメイン固有のパフォーマンスを両立させるものである。

Large Language Models (LLMs) excel in diverse tasks but often underperform in specialized fields due to limited domain-specific or proprietary corpus. Continual pre-training (CPT) enhances LLM capabilities by imbuing new domain-specific or proprietary knowledge while replaying general corpus to prevent catastrophic forgetting. The data mixture ratio of general corpus and domain-specific corpus, however, has been chosen heuristically, leading to sub-optimal training efficiency in practice. In this context, we attempt to re-visit the scaling behavior of LLMs under the hood of CPT, and discover a power-law relationship between loss, mixture ratio, and training tokens scale. We formalize the trade-off between general and domain-specific capabilities, leading to a well-defined Critical Mixture Ratio (CMR) of general and domain data. By striking the balance, CMR maintains the model's general ability and achieves the desired domain transfer, ensuring the highest utilization of available resources. Considering the balance between efficiency and effectiveness, CMR can be regarded as the optimal mixture ratio. Through extensive experiments, we ascertain the predictability of CMR, propose CMR scaling law and have substantiated its generalization. These findings offer practical guidelines for optimizing LLM training in specialized domains, ensuring both general and domain-specific performance while efficiently managing training resources.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-07
# 主要エージェント強化学習:契約付きAIエージェントのオーケストレーション

Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts ( http://arxiv.org/abs/2407.18074v2 )

ライセンス: Link先を確認
Dima Ivanov, Paul Dütting, Inbal Talgam-Cohen, Tonghan Wang, David C. Parkes, (参考訳) AIの展開の増加は、AIエージェントの統合エコシステムとなるインターネットの将来の展望を形作っている。 AIエージェント間のインタラクションをオーケストレーションするには、個人の利益と社会福祉の間の緊張を調和させる、分散的で自己持続的なメカニズムが必要である。 本稿では,強化学習と主エージェント理論を経済学から融合させることにより,この課題に対処する。 前者は非現実的な介入の自由を認め、後者はシーケンシャルな設定でスケールするのに苦労する。 これらを組み合わせることで、両方の世界のベストを達成できます。 本稿では,主体が一連の契約を用いてマルコフ決定プロセス(MDP)のエージェントを誘導する枠組みを提案する。 本稿では、主役とエージェントのポリシーを反復的に最適化し、主役のQ-関数上の収縮演算子と等価性を示し、サブゲーム完全均衡への収束を示すメタアルゴリズムを提示、分析する。 次に,本アルゴリズムを深部Q-ラーニングで拡張し,理論上もランダムに生成されたバイナリゲームツリーを用いた実験を通じて近似誤差の存在下での収束度を解析する。 フレームワークを複数のエージェントに拡張し,組み合わせ型コインゲームに適用する。 このマルチエージェントなシーケンシャルなソーシャルジレンマに対処することは、より複雑な実世界のインスタンスにアプローチを拡大するための、有望な第一歩です。

The increasing deployment of AI is shaping the future landscape of the internet, which is set to become an integrated ecosystem of AI agents. Orchestrating the interaction among AI agents necessitates decentralized, self-sustaining mechanisms that harmonize the tension between individual interests and social welfare. In this paper we tackle this challenge by synergizing reinforcement learning with principal-agent theory from economics. Taken separately, the former allows unrealistic freedom of intervention, while the latter struggles to scale in sequential settings. Combining them achieves the best of both worlds. We propose a framework where a principal guides an agent in a Markov Decision Process (MDP) using a series of contracts, which specify payments by the principal based on observable outcomes of the agent's actions. We present and analyze a meta-algorithm that iteratively optimizes the policies of the principal and agent, showing its equivalence to a contraction operator on the principal's Q-function, and its convergence to subgame-perfect equilibrium. We then scale our algorithm with deep Q-learning and analyze its convergence in the presence of approximation error, both theoretically and through experiments with randomly generated binary game-trees. Extending our framework to multiple agents, we apply our methodology to the combinatorial Coin Game. Addressing this multi-agent sequential social dilemma is a promising first step toward scaling our approach to more complex, real-world instances.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-07
# 光光学における幾何学的位相:ヘリカル光ファイバにおける光伝搬の偏光

Geometric Phases in Optics: Polarization of Light Propagating in Helical Optical Fibers ( http://arxiv.org/abs/2407.19425v2 )

ライセンス: Link先を確認
Y. B. Band, Igor Kuzmenko, Yshai Avishai, (参考訳) 光光学(GPIO)の幾何学的位相は光の偏光に直接関連している。 単モード光ファイバーを円形のヘリックス形状に巻いて伝搬する単モード光ビームのGPIO発生の基礎となる物理原理について検討した。 ヘリカルファイバーの曲率とねじれが偏光ベクトルと関連するGPIOの回転に及ぼす影響を論じる。 解析式は、ヘリカルファイバーに入る光の初期偏光状態の偏光ベクトルとストークスパラメータ、およびヘリックスアーク長の関数としての光のGPIOに対して導かれる。 さらに、最終GPIOに依存する初期および最終ビームの重ね合わせの強度が導出される。 さらに,Poincar\'{e}球面上にプロットされたヘリックスの接ベクトルによって置換された固角とGPIOの関係を解析し,ヘリカルファイバーの幾何学的特徴と材料特性を規定するパラメータの揺らぎがGPIOに及ぼす影響を考察した。

The geometric phase in optics (GPIO) is directly associated with the polarization of light. We investigate the physical principles underlying the occurrence of the GPIO for a single-mode light beam propagating in a single-mode optical fiber wound into a circular helix configuration, with and without stress-induced birefringence. The effects of the curvature and torsion of the helical fiber on the rotation of the polarization vector and the associated GPIO are discussed. Analytic expressions are derived for the polarization vector and Stokes parameters for any initial polarization state of the light entering the helical fiber, as well as for the GPIO of the light as a function of helix arc-length. Additionally, the intensity of a superposition of the initial and final beams, which depends on the final GPIO, is derived. Furthermore, the relationship between the GPIO and the solid angle subtended by the tangent vector of the helix plotted on the Poincar\'{e} sphere is analyzed, and the effects of fluctuations of the parameters specifying the geometry and the material characteristics of the helical fiber on the GPIO are considered.
翻訳日:2024-11-08 14:38:53 公開日:2024-10-07
# 状態空間変換による効率的なシールド合成

Efficient Shield Synthesis via State-Space Transformation ( http://arxiv.org/abs/2407.19911v4 )

ライセンス: Link先を確認
Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling, (参考訳) 制御システムの安全戦略を合成する問題、いわゆるシールドについて考察する。 状態空間は無限であるため、シールドは通常有限状態抽象上で計算され、最も一般的な抽象化は矩形格子である。 しかし、多くのシステムでは、そのようなグリッドは安全性やシステムのダイナミクスとうまく一致しない。 そのため、粗いグリッドはめったに十分ではないが、細いグリッドは一般に計算では得られない。 本稿では,計算オーバーヘッドのほとんどない粗いグリッドでも,適切な状態空間変換が可能であることを示す。 3つのケーススタディにおいて、変換に基づく合成は、数桁の精度で標準合成より優れていることを示す。 最初の2つのケーススタディでは、適切な変換を選択するためにドメイン知識を使用します。 第3のケーススタディでは、ドメイン知識のないトランスフォーメーションのエンジニアリング結果について報告します。

We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-07
# 量子シミュレーションによる有限温度におけるリアルタイムカイラルダイナミクス

Real-time chiral dynamics at finite temperature from quantum simulation ( http://arxiv.org/abs/2407.21496v2 )

ライセンス: Link先を確認
Kazuki Ikeda, Zhong-Bo Kang, Dmitri E. Kharzeev, Wenyang Qian, Fanyi Zhao, (参考訳) 本研究では, (1+1)-次元QED, 質量シュウィンガーモデルにおいて, キラル磁気効果(CME)の有限温度におけるリアルタイムダイナミクスについて検討した。 キラル化学ポテンシャル$\mu_5$をクエンチ過程を通じて導入することにより、系を平衡状態から追い出し、誘導されるベクトル電流とその時間的変化を解析する。 ハミルトニアンは時間依存のキラル化学ポテンシャルを含むように修正され、量子コンピューティングの枠組みの中でCMEを研究することができる。 熱状態の研究には量子想像時間進化法(QITE)アルゴリズムを用い,実時間進化には鈴木・トロッター分解法を用いる。 この研究は、CMEをモデル化するための量子シミュレーション能力についての洞察を提供し、低次元の量子場理論におけるカイラル力学を研究するための経路を提供する。

In this study, we explore the real-time dynamics of the chiral magnetic effect (CME) at a finite temperature in the (1+1)-dimensional QED, the massive Schwinger model. By introducing a chiral chemical potential $\mu_5$ through a quench process, we drive the system out of equilibrium and analyze the induced vector currents and their evolution over time. The Hamiltonian is modified to include the time-dependent chiral chemical potential, thus allowing the investigation of the CME within a quantum computing framework. We employ the quantum imaginary time evolution (QITE) algorithm to study the thermal states, and utilize the Suzuki-Trotter decomposition for the real-time evolution. This study provides insights into the quantum simulation capabilities for modeling the CME and offers a pathway for studying chiral dynamics in low-dimensional quantum field theories.
翻訳日:2024-11-08 13:51:33 公開日:2024-10-07
# ユビキタスな信号検出法に向けて

Towards a Universal Method for Meaningful Signal Detection ( http://arxiv.org/abs/2408.00016v3 )

ライセンス: Link先を確認
Louis Mahon, (参考訳) 人間の発話と特定の動物の発声は、ある発話が伝達する内容を解読できるため、意味のある内容を伝えることができることが知られている。 本稿では,信号が意味を持つかどうかを判断するための代替手法として,信号自体を解析し,伝達された意味とは無関係であることを示す。 波形を入力として取り出す手法を考案し,その「意味豊かさ」の度合いを示すスコアを出力する。 入力の連続部分をクラスタ化して、総記述長を最小化し、割り当てられたクラスタラベルのコードの長さを有意性スコアとする。 提案手法は,様々な基準に対して実証的に評価し,様々な言語および様々な話者による人間の発話に高いスコアを与える唯一の方法であり,鳥類やオルカの動物声に対する適度なスコア,および様々な音源からの環境騒音に対する低スコアであることを示す。

It is known that human speech and certain animal vocalizations can convey meaningful content because we can decipher the content that a given utterance does convey. This paper explores an alternative approach to determining whether a signal is meaningful, one that analyzes only the signal itself and is independent of what the conveyed meaning might be. We devise a method that takes a waveform as input and outputs a score indicating its degree of `meaningfulness`. We cluster contiguous portions of the input to minimize the total description length, and then take the length of the code of the assigned cluster labels as meaningfulness score. We evaluate our method empirically, against several baselines, and show that it is the only one to give a high score to human speech in various languages and with various speakers, a moderate score to animal vocalizations from birds and orcas, and a low score to ambient noise from various sources.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-07
# 雑音文脈処理のための検索拡張生成における適応的コントラスト復号法

Adaptive Contrastive Decoding in Retrieval-Augmented Generation for Handling Noisy Contexts ( http://arxiv.org/abs/2408.01084v2 )

ライセンス: Link先を確認
Youna Kim, Hyuhng Joon Kim, Cheonbok Park, Choonghyun Park, Hyunsoo Cho, Junyeob Kim, Kang Min Yoo, Sang-goo Lee, Taeuk Kim, (参考訳) オープンドメイン質問応答のような知識集約的なタスクで大きな言語モデル(LLM)を使用する場合、外部コンテキストは外部知識とLLMのパラメトリック知識のギャップを埋める可能性がある。 近年,LLMのパラメトリック知識に関する文脈知識を対照的な復号法で増幅する研究が進められている。 これらのアプローチは、関連するコンテキストが提供されると真に反応する可能性があるが、ノイズの多いコンテキストに直面すると脆弱性が発生する傾向がある。 我々は,従来の研究の範囲を広げて,雑音の文脈を包含し,文脈の影響を効果的に活用するための適応型コントラッシブ・デコーディング(ACD)を提案する。 ACDは、ベースラインと比較してオープンドメインの質問応答タスクの改善を示す。

When using large language models (LLMs) in knowledge-intensive tasks, such as open-domain question answering, external context can bridge the gap between external knowledge and the LLMs' parametric knowledge. Recent research has been developed to amplify contextual knowledge over the parametric knowledge of LLMs with contrastive decoding approaches. While these approaches could yield truthful responses when relevant context is provided, they are prone to vulnerabilities when faced with noisy contexts. We extend the scope of previous studies to encompass noisy contexts and propose adaptive contrastive decoding (ACD) to leverage contextual influence effectively. ACD demonstrates improvements in open-domain question answering tasks compared to baselines, especially in robustness by remaining undistracted by noisy contexts in retrieval-augmented generation.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-07
# Lighthouse: 再現可能なビデオモーメント検索とハイライト検出のためのユーザフレンドリーなライブラリ

Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2408.02901v3 )

ライセンス: Link先を確認
Taichi Nishimura, Shota Nakada, Hokuto Munakata, Tatsuya Komatsu, (参考訳) 再現可能なビデオモーメント検索とハイライト検出(MR-HD)のためのユーザフレンドリーなライブラリであるLighthouseを提案する。 研究者は様々なMR-HDアプローチを提案したが、研究コミュニティには2つの主要な課題がある。 1つ目は、さまざまなメソッド、データセット、ビデオテキスト機能にまたがる包括的な再現可能な実験の欠如である。 これは、統一的なトレーニングや評価コードベースが複数の設定をカバーしていないためです。 2つ目はユーザーフレンドリーなデザインです。 以前の研究では異なるライブラリを使用していたため、研究者は個別の環境を構築した。 加えて、ほとんどの作業はトレーニングコードのみをリリースし、MR-HDの全推論プロセスを実装する必要がある。 Lighthouseは6つのモデル、3つの機能、5つのデータセットを含む再現可能なコードベースを統一して実装することで、これらの問題に対処する。 さらに、推論APIとWebデモを提供し、これらのメソッドが研究者や開発者にとって容易にアクセスできるようにする。 我々の実験は、Lighthouseが参照論文で報告されたスコアを一般的に再現していることを示している。 コードはhttps://github.com/line/lighthouse.comで公開されている。

We propose Lighthouse, a user-friendly library for reproducible video moment retrieval and highlight detection (MR-HD). Although researchers proposed various MR-HD approaches, the research community holds two main issues. The first is a lack of comprehensive and reproducible experiments across various methods, datasets, and video-text features. This is because no unified training and evaluation codebase covers multiple settings. The second is user-unfriendly design. Because previous works use different libraries, researchers set up individual environments. In addition, most works release only the training codes, requiring users to implement the whole inference process of MR-HD. Lighthouse addresses these issues by implementing a unified reproducible codebase that includes six models, three features, and five datasets. In addition, it provides an inference API and web demo to make these methods easily accessible for researchers and developers. Our experiments demonstrate that Lighthouse generally reproduces the reported scores in the reference papers. The code is available at https://github.com/line/lighthouse.
翻訳日:2024-11-08 12:55:50 公開日:2024-10-07
# 無限小摂動による拡張系における定性的変化Dicke超放射

Qualitatively altered driven Dicke superradiance in extended systems due to infinitesimal perturbations ( http://arxiv.org/abs/2408.04935v2 )

ライセンス: Link先を確認
Wenqi Tong, F. Robicheaux, (参考訳) パラメータ化駆動によって誘導される興味深い量子相を持つディックモデル(英語版)は、キャビティにおいて集中的に研究され、そこでは置換対称性が磁場との等結合と同一の相互作用によって適用される。 その結果、系は適切な初期化を伴い、状態空間の高度に対称な部分集合に留まり、各原子の光子放出が互いに構成的に干渉し、定常状態において超放射性をもたらす。 しかし、駆動ディックモデルに対する定常状態の縮退のため、定常状態は無限小摂動によって質的に変化することができる。 本研究では, 1次元導波管に結合した超伝導量子ビットを拡張系としてシミュレーションし, 局所的偏差, 個別駆動相, 隣接量子ビットの分離, 個別変形の4種類の摂動について理論的に検討する。 角運動量基底を用いて退化部分空間の次元を予測し、摂動による部分空間内の遷移を研究する。

The driven Dicke model, with interesting quantum phases induced by parameterized driving, has been intensively studied in cavities, where permutation symmetry applies due to the atoms' equal coupling to the field and identical interaction. As a result, the system, with proper initialization, can remain in a highly symmetric subset of the state space, where the photon emission of each atom constructively interferes with each other, leading to superradiance at steady state. However, because of the degeneracy of steady states for the driven Dicke model, the steady state can be qualitatively altered by an infinitesimal perturbation. In this work, we simulate superconducting qubits coupled to a 1D waveguide as the extended system and theoretically investigate four kinds of perturbations: local dephasing, individual driving phases, the separation between adjacent qubits, and individual detunings. Using an angular momentum basis, we predict the dimension of the degenerate subspace and study the transition within the subspace due to the perturbation.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-07
# MAG-SQL: テキストからSQLへのソフトスキーマリンクと反復サブSQLリファインメントによるマルチエージェント生成アプローチ

MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL ( http://arxiv.org/abs/2408.07930v3 )

ライセンス: Link先を確認
Wenxuan Xie, Gaochen Wu, Bowen Zhou, (参考訳) 最近の In-Context Learning ベースの手法は Text-to-SQL タスクで顕著な成功を収めている。 しかし、複雑なデータベーススキーマとBIRDのような難しい問題を持つデータセットでは、これらのモデルの性能と人的パフォーマンスの間にはまだ大きなギャップがある。 さらに、既存の研究は、質問を反復的に解決する際の中間段階を質問分解法で監督することを無視しており、これらの研究で使用されるスキーマリンク手法は非常に初歩的なものである。 これらの問題に対処するために,ソフトスキーマリンクと反復的サブSQL改良を用いたマルチエージェント生成手法であるMAG-SQLを提案する。 本フレームワークでは,データベース内の列の選択にテーブルの要約を含むエンティティベースの手法を用い,それらの複雑な質問を分解するために,新たな目標条件分解手法を導入する。 さらに,Sub-SQL GeneratorとSub-SQL Refinerを含む反復生成モジュールを構築し,生成の各ステップに対して外部監視を導入する。 一連のアブレーション研究を通じて,本フレームワークにおける各エージェントの有効性を実証した。 GPT-4を用いてBIRDベンチマークで評価すると、MAG-SQLは、バニラGPT-4のベースライン精度が46.35%、MAC-SQLのベースライン精度が57.56%であるのに対し、実行精度が61.08%に達する。 さらに、我々のアプローチはスパイダーに類似している。

Recent In-Context Learning based methods have achieved remarkable success in Text-to-SQL task. However, there is still a large gap between the performance of these models and human performance on datasets with complex database schema and difficult questions, such as BIRD. Besides, existing work has neglected to supervise intermediate steps when solving questions iteratively with question decomposition methods, and the schema linking methods used in these works are very rudimentary. To address these issues, we propose MAG-SQL, a multi-agent generative approach with soft schema linking and iterative Sub-SQL refinement. In our framework, an entity-based method with tables' summary is used to select the columns in database, and a novel targets-conditions decomposition method is introduced to decompose those complex questions. Additionally, we build a iterative generating module which includes a Sub-SQL Generator and Sub-SQL Refiner, introducing external oversight for each step of generation. Through a series of ablation studies, the effectiveness of each agent in our framework has been demonstrated. When evaluated on the BIRD benchmark with GPT-4, MAG-SQL achieves an execution accuracy of 61.08%, compared to the baseline accuracy of 46.35% for vanilla GPT-4 and the baseline accuracy of 57.56% for MAC-SQL. Besides, our approach makes similar progress on Spider.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-07
# 大言語モデルはシンボリック・グラフィクス・プログラムを理解することができるか?

Can Large Language Models Understand Symbolic Graphics Programs? ( http://arxiv.org/abs/2408.08313v2 )

ライセンス: Link先を確認
Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf, (参考訳) 大規模言語モデル(LLM)に対する熱意の背景には、その能力と欠点を科学的に評価する必要がある。 これは、トレーニング中にモデルが遭遇していないタスクを見つけるのが難しいという理由もある。 シンボリックグラフィックスプログラムを用いて,LLMの複数の空間意味推論スキルをテストするのに適した領域を提案する。 コンピュータグラフィックスで人気のあるこれらのプログラムは、手続き的に視覚データを生成する。 LLMは、一般的なプログラム合成と解析の優れたスキルを示すが、シンボルグラフィックプログラムは、視覚エンコーダを使わずに、画像や3次元幾何学の異なる粒度のセマンティックレベルの質問に答えるLLMの能力をテストできるという、新しい評価層を提供する。 記号プログラムを意味的に理解するためには、LLMは「想像」能力を持ち、対応するグラフィックコンテンツが記号記述のみでどのように見えるかを推論する必要がある。 我々は、このタスクを用いて、人間の最小限の努力で手続き的に構築されたシンボリックグラフィックスプログラムの視覚的意味理解のための大規模なベンチマークを作成することで、LCMを評価する。 特に、基礎となるプログラムに大幅な変更を加えながら、画像レベルのセマンティクスを不変にしておくイメージの変換に重点を置いている。 我々は,プログラムの視覚的アウトプットを推論する能力を評価するため,商業用およびオープンソース用LCMをベンチマークで評価した。 最後に,SIT(Symbolic Instruction Tuning)と呼ばれる,SIT(Symbolic Instruction Tuning)という,SIT(Symbolic Instruction Tuning)機能を改善する新しい手法を提案する。 興味深いことに、SITはLLMのシンボリックプログラムに対する理解を改善するだけでなく、他の様々なベンチマークにおける一般的な推論能力も向上させる。

Against the backdrop of enthusiasm for large language models (LLMs), there is an urgent need to scientifically assess their capabilities and shortcomings. This is nontrivial in part because it is difficult to find tasks which the models have not encountered during training. Utilizing symbolic graphics programs, we propose a domain well-suited to test multiple spatial-semantic reasoning skills of LLMs. Popular in computer graphics, these programs procedurally generate visual data. While LLMs exhibit impressive skills in general program synthesis and analysis, symbolic graphics programs offer a new layer of evaluation: they allow us to test an LLM's ability to answer different-grained semantic-level questions of the images or 3D geometries without a vision encoder. To semantically understand the symbolic programs, LLMs would need to possess the ability to "imagine" and reason how the corresponding graphics content would look with only the symbolic description. We use this task to evaluate LLMs by creating a large benchmark for the semantic visual understanding of symbolic graphics programs, built procedurally with minimal human effort. Particular emphasis is placed on transformations of images that leave the image level semantics invariant while introducing significant changes to the underlying program. We evaluate commercial and open-source LLMs on our benchmark to assess their ability to reason about visual output of programs, finding that LLMs considered stronger at reasoning generally perform better. Lastly, we introduce a novel method to improve this ability -- Symbolic Instruction Tuning (SIT), in which the LLM is finetuned with pre-collected instruction data on symbolic graphics programs. Interestingly, we find that SIT not only improves LLM's understanding on symbolic programs, but it also improves general reasoning ability on various other benchmarks.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-07
# 量子ニューラルネットワークの統一理論は景観を損なう

A Unified Theory of Quantum Neural Network Loss Landscapes ( http://arxiv.org/abs/2408.11901v2 )

ライセンス: Link先を確認
Eric R. Anschuetz, (参考訳) ランダム初期化を持つ古典的ニューラルネットワークは、多くのニューロンの極限においてガウス過程として振る舞うことで知られており、トレーニングと一般化の振る舞いを完全に特徴づけることができる。 量子ニューラルネットワーク(QNN)に対するそのような一般的な理解は存在しないが、特定の特別な場合以外では、ランダムに初期化されるとガウス過程として振る舞わないことが知られている。 ここでは、QNNとその最初の2つの導関数が一般に「ウィッシュアート過程」と呼ばれるものを形成することを証明し、そこでは、ネットワークの代数的性質がプロセスのハイパーパラメータを決定する。 このWishartプロセス記述は、まず最初に、QNNアーキテクチャがガウスのプロセス限界を持つために必要な十分な条件を与え、全勾配分布を計算し、既知のバレンプラトー結果を一般化し、代数的に制約されたQNNの局所ミニマ分布を計算する。 我々の統合されたフレームワークは、ネットワークアーキテクチャの「自由度」と呼ばれる、新しく導入された実験的に利用可能な量を使って、与えられたQNNモデルの「トレーニング可能性」に対して、ある種の単純な運用定義を提案する。

Classical neural networks with random initialization famously behave as Gaussian processes in the limit of many neurons, which allows one to completely characterize their training and generalization behavior. No such general understanding exists for quantum neural networks (QNNs), which -- outside of certain special cases -- are known to not behave as Gaussian processes when randomly initialized. We here prove that QNNs and their first two derivatives instead generally form what we call "Wishart processes," where certain algebraic properties of the network determine the hyperparameters of the process. This Wishart process description allows us to, for the first time: give necessary and sufficient conditions for a QNN architecture to have a Gaussian process limit; calculate the full gradient distribution, generalizing previously known barren plateau results; and calculate the local minima distribution of algebraically constrained QNNs. Our unified framework suggests a certain simple operational definition for the "trainability" of a given QNN model using a newly introduced, experimentally accessible quantity we call the "degrees of freedom" of the network architecture.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-07
# 量子ニューラルネットワークの統一理論は景観を損なう

A Unified Theory of Quantum Neural Network Loss Landscapes ( http://arxiv.org/abs/2408.11901v3 )

ライセンス: Link先を確認
Eric R. Anschuetz, (参考訳) ランダム初期化を持つ古典的ニューラルネットワークは、多くのニューロンの極限においてガウス過程として振る舞うことで知られており、トレーニングと一般化の振る舞いを完全に特徴づけることができる。 量子ニューラルネットワーク(QNN)に対するそのような一般的な理解は存在しないが、特定の特別な場合以外では、ランダムに初期化されるとガウス過程として振る舞わないことが知られている。 ここでは、QNNとその最初の2つの導関数が一般に「ウィッシュアート過程」と呼ばれるものを形成することを証明し、そこでは、ネットワークの代数的性質がプロセスのハイパーパラメータを決定する。 このWishartプロセス記述は、まず最初に、QNNアーキテクチャがガウスのプロセス限界を持つために必要な十分な条件を与え、全勾配分布を計算し、既知のバレンプラトー結果を一般化し、代数的に制約されたQNNの局所ミニマ分布を計算する。 我々の統合されたフレームワークは、ネットワークアーキテクチャの「自由度」と呼ばれる、新しく導入された実験的に利用可能な量を使って、与えられたQNNモデルの「トレーニング可能性」に対して、ある種の単純な運用定義を提案する。

Classical neural networks with random initialization famously behave as Gaussian processes in the limit of many neurons, which allows one to completely characterize their training and generalization behavior. No such general understanding exists for quantum neural networks (QNNs), which -- outside of certain special cases -- are known to not behave as Gaussian processes when randomly initialized. We here prove that QNNs and their first two derivatives instead generally form what we call "Wishart processes," where certain algebraic properties of the network determine the hyperparameters of the process. This Wishart process description allows us to, for the first time: give necessary and sufficient conditions for a QNN architecture to have a Gaussian process limit; calculate the full gradient distribution, generalizing previously known barren plateau results; and calculate the local minima distribution of algebraically constrained QNNs. Our unified framework suggests a certain simple operational definition for the "trainability" of a given QNN model using a newly introduced, experimentally accessible quantity we call the "degrees of freedom" of the network architecture.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-07
# 時空における量子過程の実現の基本的限界

Fundamental limits for realising quantum processes in spacetime ( http://arxiv.org/abs/2408.13387v2 )

ライセンス: Link先を確認
V. Vilasini, Renato Renner, (参考訳) 量子論的理論と相対論的理論の間の界面を理解することは、特に因果関係のような重要な物理的概念がこれらの理論において異なる形式を取ることを考えると、基礎的かつ実践的な進歩に不可欠である。 ベルのノーゴー定理は、相対論的因果原理から生じる古典的過程の限界を明らかにする。 量子過程に類似した基本極限が存在するかどうかを考えると、古典的背景時空で実現可能な量子実験のノーゴー定理を導出する。 量子論で許容される一般的なプロセスは、不定因数順序(ICO)を含むが、これも最近の実験の対象となっている。 我々の最初の定理は、相対論的因果性に反しないICOプロセスの実現は、時空におけるシステムの非局在化を伴わなければならないことを示唆している。 第二の定理は、ICO過程のそのような実現には、定性的かつ非巡回因果順序過程の観点でよりきめ細かな記述が存在することを示している。 これにより、因果関係の量子的相対論的概念を一般化し、特に顕著なICOプロセスである量子スイッチの実験的実現に適用することができる。 古典時空で何が達成できないかを示すことによって、これらの非ゴーの結果は、古典時空を超えた相対論的体制における将来の量子実験において因果性と情報処理がどのように異なるかについての洞察を与える。

Understanding the interface between quantum and relativistic theories is crucial for fundamental and practical advances, especially given that key physical concepts such as causality take different forms in these theories. Bell's no-go theorem reveals limits on classical processes, arising from relativistic causality principles. Considering whether similar fundamental limits exist on quantum processes, we derive no-go theorems for quantum experiments realisable in classical background spacetimes. We account for general processes allowed by quantum theory, including those with indefinite causal order (ICO), which have also been the subject of recent experiments. Our first theorem implies that realisations of ICO processes that do not violate relativistic causality must involve the non-localization of systems in spacetime. The second theorem shows that for any such realisation of an ICO process, there exists a more fine-grained description in terms of a definite and acyclic causal order process. This enables a general reconciliation of quantum and relativistic notions of causality and, in particular, applies to experimental realisations of the quantum switch, a prominent ICO process. By showing what is impossible to achieve in classical spacetimes, these no-go results also offer insights into how causality and information processing may differ in future quantum experiments in relativistic regimes beyond classical spacetimes.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-07
# ベイズワイドニューラルネットワークのための関数空間MCMC

Function-Space MCMC for Bayesian Wide Neural Networks ( http://arxiv.org/abs/2408.14325v3 )

ライセンス: Link先を確認
Lucia Pezzetti, Stefano Favaro, Stefano Peluchetti, (参考訳) ベイズニューラルネットワークは、複雑な予測モデルにおける不確実性を理解するための魅力的なフレームワークを提供する。 本稿では, ベイズニューラルネットワークの幅が大きくなるにつれて, 重みの再パラメータ化後部分布から, プリコンディション付きクランク・ニコソン法とそのランゲヴィン法を用いて検討する。 無限次元環境におけるロバスト性に加えて,ネットワークの幅が大きくなるにつれて提案手法の受容確率が1に近づくことを証明する。 さらに,アンダーダムのランゲヴィン・モンテカルロ,プレコンディションのクランク・ニコソン,プリコンディションのクランク・ニコソン・ランゲヴィンの混合速度が,実世界のいくつかのケースにおけるネットワーク幅の変化の影響について検討・比較した。 その結果,ベイズニューラルネットワークの広い構成において,予備条件付きクランク・ニコソン法により,より効率的な後方分布のサンプリングが可能であることが示唆された。

Bayesian Neural Networks represent a fascinating confluence of deep learning and probabilistic reasoning, offering a compelling framework for understanding uncertainty in complex predictive models. In this paper, we investigate the use of the preconditioned Crank-Nicolson algorithm and its Langevin version to sample from the reparametrised posterior distribution of the weights as the widths of Bayesian Neural Networks grow larger. In addition to being robust in the infinite-dimensional setting, we prove that the acceptance probabilities of the proposed methods approach 1 as the width of the network increases, independently of any stepsize tuning. Moreover, we examine and compare how the mixing speeds of the underdamped Langevin Monte Carlo, the preconditioned Crank-Nicolson and the preconditioned Crank-Nicolson Langevin samplers are influenced by changes in the network width in some real-world cases. Our findings suggest that, in wide Bayesian Neural Networks configurations, the preconditioned Crank-Nicolson method allows for more efficient sampling of the reparametrised posterior distribution, as evidenced by a higher effective sample size and improved diagnostic results compared with the other analysed algorithms.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-07
# トロッタ誤差除去を用いた指数減少回路深さ

Exponentially Reduced Circuit Depths Using Trotter Error Mitigation ( http://arxiv.org/abs/2408.14385v2 )

ライセンス: Link先を確認
James D. Watson, Jacob Watkins, (参考訳) 製品公式は、その概念的単純さ、オーバーヘッドの低さ、そしてしばしば理論的な期待を超える性能のため、デジタル量子シミュレーションアルゴリズムの一般的なクラスである。 近年、リチャードソン外挿法と多項式補間法が提案され、これらの公式を用いて引き起こされるトロッター誤差を緩和している。 この研究は、時間発展予測値を計算するタスクのために、これらの技術の改良的で厳密な分析を提供する。 誤差$\epsilon$を得るには、$p^\text{th}$-order product formula with a extrapolation, circuits depths of $O\left(T^{1+1/p} \textrm{polylog}(1/\epsilon)\right)$が十分である。 さらに、計算器のスケーリングを実現し、T$で複雑性を向上し、トロッターステップの分数的な実装を必要としない。 この結果は,現在提案されているトロッター誤差を低減するアルゴリズム的誤差軽減手法のより正確な特徴付けを提供する。

Product formulae are a popular class of digital quantum simulation algorithms due to their conceptual simplicity, low overhead, and performance which often exceeds theoretical expectations. Recently, Richardson extrapolation and polynomial interpolation have been proposed to mitigate the Trotter error incurred by use of these formulae. This work provides an improved, rigorous analysis of these techniques for the task of calculating time-evolved expectation values. We demonstrate that, to achieve error $\epsilon$ in a simulation of time $T$ using a $p^\text{th}$-order product formula with extrapolation, circuits depths of $O\left(T^{1+1/p} \textrm{polylog}(1/\epsilon)\right)$ are sufficient -- an exponential improvement in the precision over product formulae alone. Furthermore, we achieve commutator scaling, improve the complexity with $T$, and do not require fractional implementations of Trotter steps. Our results provide a more accurate characterisation of the algorithmic error mitigation techniques currently proposed to reduce Trotter error.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-07
# CBF-LLM:LLMアライメントの安全制御

CBF-LLM: Safe Control for LLM Alignment ( http://arxiv.org/abs/2408.15625v2 )

ライセンス: Link先を確認
Yuya Miyaoka, Masaki Inoue, (参考訳) 本稿では,制御バリア関数(CBF)を活用してユーザ希望のテキスト生成を実現することで,大規模言語モデル(LLM)の整合性を確保するための制御ベースフレームワークを提案する。 提案したフレームワークは、CBFに基づいて設計された安全フィルタをベースラインLCMの出力生成、すなわちトークンのシーケンスに適用し、生成されたテキストに介入する。 テキスト生成システムはLlama 3とRoBERTaモデルで実装されており、ソースコードはhttps://github.com/Mya-Mya/CBF-LLMで公開されている。 この実験は、ユーザ特定アライメントタスクに必要な介入回数を減らすための制御能力と有効性を示す。

This paper proposes a control-based framework for aligning large language models (LLMs) by leveraging a control barrier function (CBF) to ensure user-desirable text generation. The presented framework applies the safety filter, designed based on the CBF, to the output generation of the baseline LLM, i.e., the sequence of the token, with the aim of intervening in the generated text. The overall text-generation system is implemented with Llama 3 and a RoBERTa model, and the source code is available at https://github.com/Mya-Mya/CBF-LLM. The experiment demonstrates its control ability and effectiveness in reducing the number of interventions needed for user-specified alignment tasks.
翻訳日:2024-11-08 04:30:58 公開日:2024-10-07
# より小さく、より小さく、より良くなった:Compute-Optimal SmplingによるLCMレゾネータのトレーニング

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling ( http://arxiv.org/abs/2408.16737v2 )

ライセンス: Link先を確認
Hritik Bansal, Arian Hosseini, Rishabh Agarwal, Vinh Q. Tran, Mehran Kazemi, (参考訳) 強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 本研究では,この戦略が固定された推論予算(FLOPsなど)の下で計算最適かどうかを考察する。 そこで本研究では,より強大だが高額な(SE)モデルと弱いが安価な(WC)モデルとのトレードオフについて検討する。 生成したデータは、カバレッジ、多様性、偽陽性率の3つの主要な指標で評価し、WCモデルから得られたデータは、カバレッジと多様性が高いが、偽陽性率も高いことを示す。 次に,SEモデルとWCモデルのデータに基づいて,知識蒸留,自己改善,そして弱いLMがより強いLMに推論を教えるような,新たな弱強度改善設定を行う。 その結果、WC生成データに微調整されたモデルは、複数のベンチマークと複数のWCおよびSEモデルの選択肢で、SE生成データでトレーニングされたモデルよりも一貫して優れていることがわかった。 これらの結果は、合成データ生成のためのSEモデルに依存する一般的な実践に挑戦し、WCは高度なLM推論器を訓練するための計算最適化アプローチである可能性が示唆された。

Training on high-quality synthetic data from strong language models (LMs) is a common strategy to improve the reasoning performance of LMs. In this work, we revisit whether this strategy is compute-optimal under a fixed inference budget (e.g., FLOPs). To do so, we investigate the trade-offs between generating synthetic data using a stronger but more expensive (SE) model versus a weaker but cheaper (WC) model. We evaluate the generated data across three key metrics: coverage, diversity, and false positive rate, and show that the data from WC models may have higher coverage and diversity, but also exhibit higher false positive rates. We then finetune LMs on data from SE and WC models in different settings: knowledge distillation, self-improvement, and a novel weak-to-strong improvement setup where a weaker LM teaches reasoning to a stronger LM. Our findings reveal that models finetuned on WC-generated data consistently outperform those trained on SE-generated data across multiple benchmarks and multiple choices of WC and SE models. These results challenge the prevailing practice of relying on SE models for synthetic data generation, suggesting that WC may be the compute-optimal approach for training advanced LM reasoners.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-07
# 量子通信における絡み合い支援の限界

A Limit on the Power of Entanglement-Assistance in Quantum Communication ( http://arxiv.org/abs/2408.17290v2 )

ライセンス: Link先を確認
Lasse H. Wolff, Paula Belzig, Matthias Christandl, Bergfinnur Durhuus, Marco Tomamichel, (参考訳) 量子チャネル上での信頼性の高い通信の最適な速度は、事前に共有された絡み合いによって向上することができる。 入力電力が制約された場合でも、エンハンスメントは無限次元の設定では非有界となるが、長年の予想では、絡み合い支援された古典的容量と非補助的古典的容量の比は有限次元の設定[Bennett et al , Phys. Rev. 83, 3081 (2002)]で有界である。 この研究において、これらの比が$o(d^2)$で上界であることを示し、$d$がチャネルの入力次元であることを示す。 ノイズの多いエンコーダとデコーダによる量子通信への応用について述べる。

The optimal rate of reliable communication over a quantum channel can be enhanced by pre-shared entanglement. Whereas the enhancement may be unbounded in infinite-dimensional settings even when the input power is constrained, a long-standing conjecture asserts that the ratio between the entanglement-assisted and unassisted classical capacities is bounded in finite-dimensional settings [Bennett et al., Phys. Rev. Lett. 83, 3081 (2002)]. In this work, we prove this conjecture by showing that their ratio is upper bounded by $o(d^2)$, where $d$ is the input dimension of the channel. An application to quantum communication with noisy encoders and decoders is given.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-07
# 連続対称性群に対する量子スピン鎖の対称性保護状態の分類

Classification of symmetry protected states of quantum spin chains for continuous symmetry groups ( http://arxiv.org/abs/2409.01112v2 )

ライセンス: Link先を確認
Bruno de Oliveira Carvalho, Wojciech De Roeck, Tijl Jappens, (参考訳) 量子スピン系の対称性保護状態(SPT)は、いくつかの著者によって研究された。 有限オンサイト対称性群 $G$ に対応する SPT は、Kapustin et al [J. Math. Phys. (2021)] によって確立された第2コホモロジー群 $H^2(G,U(1))$ によって分類される。 この結果はコンパクト位相対称性群 $G$ の場合に拡張する。 我々はまた、我々の分類結果が局所的に有界なオンサイト次元を持つスピン鎖のクラスに収まるという意味で、既存の結果を強化する。

Symmetry protected states (SPT's) of quantum spin systems were studied by several authors. For one-dimensional systems (spin chains), there is an essentially complete and rigorous understanding: SPT's corresponding to finite on-site symmetry groups $G$ are classified by the second cohomology group $H^2(G,U(1))$, as established by Kapustin et al. [J. Math. Phys. (2021)]. We extend this result to the case of compact topological symmetry groups $G$. We also strengthen the existing results in the sense that our classification results holds within the class of spin chains with locally bounded on-site dimensions.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-07
# シミュレーションに基づく推論を用いたユニットコミット問題のコスト推定

Cost Estimation in Unit Commitment Problems Using Simulation-Based Inference ( http://arxiv.org/abs/2409.03588v2 )

ライセンス: Link先を確認
Matthias Pirlet, Adrien Bolland, Gilles Louppe, Damien Ernst, (参考訳) ユニットコミット(UC)問題(英: Unit Commitment (UC) problem)は、需要と技術的制約を満たしながらコストを最小化することにより、電力ユニットの生成スケジュールを有限時間にわたって予測する電力システムにおいて重要な最適化タスクである。 しかし、コストなど、UCの問題で要求される多くのパラメータが不明である。 本研究では、これらの未知のコストを、実測的なUC問題に対するシミュレーションに基づく推論を用いて推定し、観測された生成スケジュールと要求のパラメータの近似後部分布を提供する。 この結果から,学習した後続分布はデータの基盤となる分布を効果的に把握し,過去の観測結果から未知のパラメータに対して可能な範囲の値を与えることがわかった。 この後付けにより、観測された過去の生成スケジュールを用いて過去のコストを推定することができ、オペレーターは将来のコストをより予測し、より堅牢な生成予測を行うことができる。 本稿では,ネットワーク制約と再生可能エネルギー源をモデル化したより複雑なUC問題に対して,後方推定における過信度に対処し,方法論のスケーラビリティを高めるための今後の研究の道程について述べる。

The Unit Commitment (UC) problem is a key optimization task in power systems to forecast the generation schedules of power units over a finite time period by minimizing costs while meeting demand and technical constraints. However, many parameters required by the UC problem are unknown, such as the costs. In this work, we estimate these unknown costs using simulation-based inference on an illustrative UC problem, which provides an approximated posterior distribution of the parameters given observed generation schedules and demands. Our results highlight that the learned posterior distribution effectively captures the underlying distribution of the data, providing a range of possible values for the unknown parameters given a past observation. This posterior allows for the estimation of past costs using observed past generation schedules, enabling operators to better forecast future costs and make more robust generation scheduling forecasts. We present avenues for future research to address overconfidence in posterior estimation, enhance the scalability of the methodology and apply it to more complex UC problems modeling the network constraints and renewable energy sources.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-07
# 多層SAEを用いた残留流解析

Residual Stream Analysis with Multi-Layer SAEs ( http://arxiv.org/abs/2409.04185v2 )

ライセンス: Link先を確認
Tim Lawson, Lucy Farnik, Conor Houghton, Laurence Aitchison, (参考訳) スパースオートエンコーダ(SAE)はトランスフォーマー言語モデルの内部表現を解釈するための有望なアプローチである。 しかしながら、SAEは通常、各トランス層で個別にトレーニングされるため、レイヤ間の情報の流れを研究するのが困難である。 この問題を解決するために,各トランス層からの残ストリームアクティベーションベクトルをトレーニングした単一SAEである多層SAE(MLSAE)を導入する。 残余ストリームがレイヤ間で情報を保存するように理解されていることを考慮すれば、MLSAEラテントはトークン位置で“switch on”を期待して、後続のレイヤでアクティブなままです。 興味深いことに、個々のラテントが特定のトークンやプロンプトの単一の層でアクティブであることが多いが、この層は異なるトークンやプロンプトに対して異なる場合がある。 層上の分布を定義し,その分散を考慮し,これらの現象を定量化する。 層上での潜伏活性化の分布のばらつきは, 単一トークンに比べて, トークンを集積する場合の約2桁の差が大きいことがわかった。 より大きな基盤モデルでは、複数の層でラテントの活性度が増加するが、これは隣接する層での残留ストリーム活性化ベクトルがより類似しているという事実と一致している。 最後に,事前学習したチューリングレンズ変換を適用することで,残差ストリーム基底が各層で同じであるという仮定を緩和するが,その結果は定性的に類似している。 この結果は,トランスを流れるとき,表現がどのように変化するかを理解するための新しいアプローチを示す。 コードをリリースして、https://github.com/tim-lawson/mlsae.comでMLSAEをトレーニングし分析します。

Sparse autoencoders (SAEs) are a promising approach to interpreting the internal representations of transformer language models. However, SAEs are usually trained separately on each transformer layer, making it difficult to use them to study how information flows across layers. To solve this problem, we introduce the multi-layer SAE (MLSAE): a single SAE trained on the residual stream activation vectors from every transformer layer. Given that the residual stream is understood to preserve information across layers, we expected MLSAE latents to `switch on' at a token position and remain active at later layers. Interestingly, we find that individual latents are often active at a single layer for a given token or prompt, but this layer may differ for different tokens or prompts. We quantify these phenomena by defining a distribution over layers and considering its variance. We find that the variance of the distributions of latent activations over layers is about two orders of magnitude greater when aggregating over tokens compared with a single token. For larger underlying models, the degree to which latents are active at multiple layers increases, which is consistent with the fact that the residual stream activation vectors at adjacent layers become more similar. Finally, we relax the assumption that the residual stream basis is the same at every layer by applying pre-trained tuned-lens transformations, but our findings remain qualitatively similar. Our results represent a new approach to understanding how representations change as they flow through transformers. We release our code to train and analyze MLSAEs at https://github.com/tim-lawson/mlsae.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-07
# データをアップロードせずにクラウド上で量子機械学習モデルを訓練する

Training quantum machine learning models on cloud without uploading the data ( http://arxiv.org/abs/2409.04602v2 )

ライセンス: Link先を確認
Guang Ping He, (参考訳) 量子ユニタリ演算の線形性に基づいて,入力データを符号化する前にパラメータ化量子回路を動作させる手法を提案する。 これにより、データセット所有者は、データに関する情報をリークするリスクなく、量子クラウド計算プラットフォーム上で機械学習モデルをトレーニングすることができる。 また、後に古典的な計算を用いて大量のデータを効率的にエンコードすることができ、量子計算デバイス上でのランタイムを節約できる。 トレーニングされた量子機械学習モデルは、古典的なコンピュータで完全に実行できるため、データセットの所有者は量子ハードウェアや量子シミュレータさえも必要としない。 さらに,回路深度を$O(2^{n})$から$O(n)$に減らして符号化ボトルネックを緩和し,符号化のための量子ゲートの精度に対する耐性を緩和する。 これらの結果は、既存の古典的ニューラルネットワークよりも量子と量子にインスパイアされた機械学習モデルのもう1つの利点を示し、データセキュリティへのアプローチを広げている。

Based on the linearity of quantum unitary operations, we propose a method that runs the parameterized quantum circuits before encoding the input data. This enables a dataset owner to train machine learning models on quantum cloud computation platforms, without the risk of leaking the information about the data. It is also capable of encoding a vast amount of data effectively at a later time using classical computations, thus saving runtime on quantum computation devices. The trained quantum machine learning models can be run completely on classical computers, meaning the dataset owner does not need to have any quantum hardware, nor even quantum simulators. Moreover, our method mitigates the encoding bottleneck by reducing the required circuit depth from $O(2^{n})$ to $O(n)$, and relax the tolerance on the precision of the quantum gates for the encoding. These results demonstrate yet another advantage of quantum and quantum-inspired machine learning models over existing classical neural networks, and broaden the approaches to data security.
翻訳日:2024-11-07 22:49:49 公開日:2024-10-07
# 影響に基づく属性を操作できる

Influence-based Attributions can be Manipulated ( http://arxiv.org/abs/2409.05208v3 )

ライセンス: Link先を確認
Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri, (参考訳) インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。 本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって改ざんされる可能性があるかどうかを検討する。 ResNetの機能埋め込みと標準的な表の公正度データセットに基づいてトレーニングされたロジスティック回帰モデルに対して、これは実際に可能であり、後方対応の実装による効率的な攻撃を提供する。 我々の研究は、敵の状況における影響に基づく属性の信頼性に関する疑問を提起する。 コードは以下の通りである。 \url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}

Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influence-based attributions and investigate whether these attributions can be \textit{systematically} tampered by an adversary. We show that this is indeed possible for logistic regression models trained on ResNet feature embeddings and standard tabular fairness datasets and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions in adversarial circumstances. Code is available at : \url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}
翻訳日:2024-11-07 22:38:45 公開日:2024-10-07
# 影響に基づく属性を操作できる

Influence-based Attributions can be Manipulated ( http://arxiv.org/abs/2409.05208v4 )

ライセンス: Link先を確認
Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri, (参考訳) インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。 本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって改ざんされる可能性があるかどうかを検討する。 ResNetの機能埋め込みと標準的な表の公正度データセットに基づいてトレーニングされたロジスティック回帰モデルに対して、これは実際に可能であり、後方対応の実装による効率的な攻撃を提供する。 我々の研究は、敵の状況における影響に基づく属性の信頼性に関する疑問を提起する。 コードは以下の通りである。 \url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}

Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influence-based attributions and investigate whether these attributions can be \textit{systematically} tampered by an adversary. We show that this is indeed possible for logistic regression models trained on ResNet feature embeddings and standard tabular fairness datasets and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions in adversarial circumstances. Code is available at : \url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}
翻訳日:2024-11-07 22:38:45 公開日:2024-10-07
# UPCS:対話生成のための曖昧なペルソナ構築

UPCS: Unbiased Persona Construction for Dialogue Generation ( http://arxiv.org/abs/2409.05257v2 )

ライセンス: Link先を確認
Kuiyun Chen, Yanbin Wei, (参考訳) 対話やストーリーテリングシステムのようなナラティブシステムは、パーソナライズされたインタラクションを強化するためにペルソナプロファイルを利用することが多い。 既存のペルソナプロファイルは、しばしばバイアスを示し、システムの完全性と公平性にリスクを及ぼす。 そこで本研究では, キャラクタ記述を8次元に分類する UPCS フレームワークを提案する。 UPCSの精度,多様性,バイアス除去,ユーザ満足度は,信頼性の高い物語システムにおけるペルソナ構築の著しい進歩を示している。

Narrative systems, such as dialogue and storytelling systems, often utilize persona profiles to enhance personalized interactions. Existing persona profiles frequently exhibit biases, posing risks to system integrity and fairness. To address this, we introduce the UPCS framework, which categorizes character descriptions into eight dimensions, including bias mitigation strategies. Experimental results demonstrate UPCS's superiority in accuracy, diversity, bias elimination, and user satisfaction, marking a significant advancement in persona construction for reliable narrative systems.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-07
# IndicVoices-R:インドTSスケーリングのための多言語多話者音声コーパスのアンロック

IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS ( http://arxiv.org/abs/2409.05356v2 )

ライセンス: Link先を確認
Ashwin Sankar, Srija Anand, Praveen Srinivasa Varadhan, Sherry Thomas, Mehak Singal, Shridhar Kumar, Deovrat Mehendale, Aditi Krishana, Giri Raju, Mitesh Khapra, (参考訳) 最近のTTS(text-to-Speech)合成の進歩は、広範囲なWebデータで訓練された大規模なモデルが、非常に自然に聞こえる出力を生み出すことを示している。 しかし、インドの言語では、LibriVoxやYouTubeのようなプラットフォーム上で、高品質で手書きの字幕データがないため、そのようなデータは少ない。 このギャップに対処するため、我々は、高品質なTSトレーニングデータを生成するために、低品質環境で収集された自然な会話を含む既存の大規模ASRデータセットを拡張した。 我々のパイプラインは、英語で訓練され、インド語に適用される音声強調モデルの言語間一般化を活用している。 その結果、インド最大の多言語TTSデータセットであるIndicVoices-R(IV-R)が、22のインドの言語で10,496人の話者から1,704時間の高品質なスピーチを処理した。 IV-Rは、LJSpeech、LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。 また、インド音声におけるTSモデルのゼロショット、少数ショット、多ショット話者一般化機能を評価し、年齢、性別、スタイルの多様性を保証するIV-Rベンチマークも導入した。 高品質なIndicTTSデータセットとIV-Rデータセットの組み合わせによる英語事前学習モデルの微調整は、IndicTTSデータセットのみの微調整に比べて、ゼロショット話者の一般化が優れていることを示す。 さらに,本評価では,事前データセットに基づいて訓練したTSモデルにおいて,インド音声のゼロショット一般化が制限されていることを明らかにする。 私たちはすべてのデータとコードをオープンソース化し、22のインドの公式言語で最初のTSモデルをリリースしました。

Recent advancements in text-to-speech (TTS) synthesis show that large-scale models trained with extensive web data produce highly natural-sounding output. However, such data is scarce for Indian languages due to the lack of high-quality, manually subtitled data on platforms like LibriVox or YouTube. To address this gap, we enhance existing large-scale ASR datasets containing natural conversations collected in low-quality environments to generate high-quality TTS training data. Our pipeline leverages the cross-lingual generalization of denoising and speech enhancement models trained on English and applied to Indian languages. This results in IndicVoices-R (IV-R), the largest multilingual Indian TTS dataset derived from an ASR dataset, with 1,704 hours of high-quality speech from 10,496 speakers across 22 Indian languages. IV-R matches the quality of gold-standard TTS datasets like LJSpeech, LibriTTS, and IndicTTS. We also introduce the IV-R Benchmark, the first to assess zero-shot, few-shot, and many-shot speaker generalization capabilities of TTS models on Indian voices, ensuring diversity in age, gender, and style. We demonstrate that fine-tuning an English pre-trained model on a combined dataset of high-quality IndicTTS and our IV-R dataset results in better zero-shot speaker generalization compared to fine-tuning on the IndicTTS dataset alone. Further, our evaluation reveals limited zero-shot generalization for Indian voices in TTS models trained on prior datasets, which we improve by fine-tuning the model on our data containing diverse set of speakers across language families. We open-source all data and code, releasing the first TTS model for all 22 official Indian languages.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-07
# 機械学習によるフィブリル接着剤の最適設計

Machine Learning Based Optimal Design of Fibrillar Adhesives ( http://arxiv.org/abs/2409.05928v3 )

ライセンス: Link先を確認
Mohammad Shojaeifard, Matteo Ferraresso, Alessandro Lucantonio, Mattia Bacca, (参考訳) 甲虫、クモ、ヤモリなどの動物で観察されるフィブリルの付着は、「接触分裂」によって表面の接着を強化するためにナノスコープや顕微鏡のフィブリルに依存している。 この概念は、ロボット工学、輸送学、医学における工学的応用に影響を与えた。 近年の研究では、フィブリル物性の官能的なグレーディングは接着性を向上させることが示唆されているが、これは簡易な測地でのみ検討された複雑な設計課題である。 機械学習(ML)は接着設計において注目を集めているが、これまでの試みではフィブリルアレイスケールの最適化を目標としていなかった。 本研究では,フィブリルコンプライアンスの分布を最適化し,接着強度を最大化するMLベースのツールを提案する。 2つのディープニューラルネットワーク(DNN)を特徴とする我々のツールは、単純なジオメトリのための以前の設計結果を復元し、複雑な構成のための新しいソリューションを導入する。 予測器DNNはランダムなコンプライアンス分布に基づいて接着強度を推定し、デザイナDNNは勾配に基づく最適化を用いて最大強度のコンプライアンスを最適化する。 本手法は, 試験誤差を大幅に低減し, 最適化プロセスの高速化を図り, 等荷重共有(ELS)を達成し, フィブリル接着剤と耐破壊性を目的としたマイクロ構造材料を設計するための高性能なソリューションを提供する。

Fibrillar adhesion, observed in animals like beetles, spiders, and geckos, relies on nanoscopic or microscopic fibrils to enhance surface adhesion via 'contact splitting.' This concept has inspired engineering applications across robotics, transportation, and medicine. Recent studies suggest that functional grading of fibril properties can improve adhesion, but this is a complex design challenge that has only been explored in simplified geometries. While machine learning (ML) has gained traction in adhesive design, no previous attempts have targeted fibril-array scale optimization. In this study, we propose an ML-based tool that optimizes the distribution of fibril compliance to maximize adhesive strength. Our tool, featuring two deep neural networks (DNNs), recovers previous design results for simple geometries and introduces novel solutions for complex configurations. The Predictor DNN estimates adhesive strength based on random compliance distributions, while the Designer DNN optimizes compliance for maximum strength using gradient-based optimization. Our method significantly reduces test error and accelerates the optimization process, offering a high-performance solution for designing fibrillar adhesives and micro-architected materials aimed at fracture resistance by achieving equal load sharing (ELS).
翻訳日:2024-11-07 22:27:40 公開日:2024-10-07
# ProteinBench: タンパク質基盤モデルの全体的評価

ProteinBench: A Holistic Evaluation of Protein Foundation Models ( http://arxiv.org/abs/2409.06744v2 )

ライセンス: Link先を確認
Fei Ye, Zaixiang Zheng, Dongyu Xue, Yuning Shen, Lihao Wang, Yiming Ma, Yan Wang, Xinyou Wang, Xiangxin Zhou, Quanquan Gu, (参考訳) 近年、タンパク質基盤モデルの開発が急増し、タンパク質の予測性能が大幅に向上し、3次元構造予測やタンパク質設計からコンフォメーションダイナミクスまで、生成タスクが大幅に改善されている。 しかしながら、これらのモデルに関連する機能や制限は、統一された評価フレームワークが存在しないため、よく理解されていない。 このギャップを埋めるために,タンパク質基盤モデルの透明性を高めるために設計された総合評価フレームワークであるProteinBenchを紹介する。 私たちのアプローチは3つの重要なコンポーネントで構成されています。 一 異なるタンパク質モダリティ間の関係に基づいて、タンパク質ドメインの主要な課題を幅広く包含するタスクの分類分類 (二)品質、ノベルティ、多様性、堅牢性の四つの重要な側面におけるパフォーマンスを評価する多段階評価アプローチ 三 様々なユーザ目標から詳細な分析を行い、モデル性能の全体像を提供する。 タンパク質基盤モデルの包括的評価は、その機能と限界に光を当てたいくつかの重要な発見を示す。 透明性を促進し,さらなる研究を促進するために,評価データセット,コード,公開リーダボードを公開して,さらなる分析と汎用的なモジュラーツールキットを提案する。 我々は、タンパク質基盤モデルのための標準化された詳細な評価フレームワークを確立し、その開発と応用を推進し、分野内のコラボレーションを育むための生きたベンチマークとして、ProteinBenchを目標としています。

Recent years have witnessed a surge in the development of protein foundation models, significantly improving performance in protein prediction and generative tasks ranging from 3D structure prediction and protein design to conformational dynamics. However, the capabilities and limitations associated with these models remain poorly understood due to the absence of a unified evaluation framework. To fill this gap, we introduce ProteinBench, a holistic evaluation framework designed to enhance the transparency of protein foundation models. Our approach consists of three key components: (i) A taxonomic classification of tasks that broadly encompass the main challenges in the protein domain, based on the relationships between different protein modalities; (ii) A multi-metric evaluation approach that assesses performance across four key dimensions: quality, novelty, diversity, and robustness; and (iii) In-depth analyses from various user objectives, providing a holistic view of model performance. Our comprehensive evaluation of protein foundation models reveals several key findings that shed light on their current capabilities and limitations. To promote transparency and facilitate further research, we release the evaluation dataset, code, and a public leaderboard publicly for further analysis and a general modular toolkit. We intend for ProteinBench to be a living benchmark for establishing a standardized, in-depth evaluation framework for protein foundation models, driving their development and application while fostering collaboration within the field.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-07
# LLMにおけるベクトル埋め込みによるアイデアの客観的評価のための新しい数学的枠組み

A Novel Mathematical Framework for Objective Characterization of Ideas through Vector Embeddings in LLM ( http://arxiv.org/abs/2409.07578v2 )

ライセンス: Link先を確認
B. Sankar, Dibakar Sen, (参考訳) 製品デザインにおけるイノベーションの需要は、多くのアイデアフェーズを必要とします。 GPT(Generative Pre-trained Transformer)のような大規模言語モデル(LLM)を使用する会話型AI(CAI)システムは、人間の創造性を増強し、数多くの斬新で多様なアイデアを提供する上で有益であることが示されている。 アイデア量の成功にもかかわらず、これらのアイデアの質的な評価は依然として困難であり、伝統的に専門家による人間の評価に依存している。 この方法は、人間の判断ミス、偏見、監視などの制限に悩まされる。 このギャップに対処するため,本研究では,CAIシステムや人間によって生み出されるアイデアの多元性を客観的に評価する,自動解析のための包括的な数学的枠組みを提案する。 このフレームワークは、有望なアイデアを選択する経験のない初心者デザイナにとって特に有利である。 提案手法は, アイデアを高次元ベクトルに変換し, UMAP, DBSCAN, PCAなどのツールを用いてその多様性を定量的に測定することにより, 最も有望なアイデアを選択する信頼性と客観的な方法を提供する。

The demand for innovation in product design necessitates a prolific ideation phase. Conversational AI (CAI) systems that use Large Language Models (LLMs) such as GPT (Generative Pre-trained Transformer) have been shown to be fruitful in augmenting human creativity, providing numerous novel and diverse ideas. Despite the success in ideation quantity, the qualitative assessment of these ideas remains challenging and traditionally reliant on expert human evaluation. This method suffers from limitations such as human judgment errors, bias, and oversight. Addressing this gap, our study introduces a comprehensive mathematical framework for automated analysis to objectively evaluate the plethora of ideas generated by CAI systems and/or humans. This framework is particularly advantageous for novice designers who lack experience in selecting promising ideas. By converting the ideas into higher dimensional vectors and quantitatively measuring the diversity between them using tools such as UMAP, DBSCAN and PCA, the proposed method provides a reliable and objective way of selecting the most promising ideas, thereby enhancing the efficiency of the ideation phase.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-07
# 精密ビジョンに基づく3次元活動予測のための深度デカップリング

Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction ( http://arxiv.org/abs/2409.07972v2 )

ライセンス: Link先を確認
Yuan Wu, Zhiqiang Yan, Zhengxue Wang, Xiang Li, Le Hui, Jian Yang, (参考訳) 視覚に基づく3次元占有予測の課題は、3次元幾何学を再構築し、2Dから3Dへの視点変換が必須となる2次元カラー画像から意味クラスを推定することを目的としている。 BEVPoolingやVoxelPoolingといった従来の手法では、どちらも2D画像の特徴を3Dグリッドにマッピングする。 しかしながら、ある高さ範囲内の特徴を表す現在のグリッドは、通常、他の高さ範囲に属する多くの混乱した特徴を導入します。 この課題に対処するために、混乱する特徴をフィルタリングする前に、明示的な高さを組み込んだ新しいフレームワークであるDeep Height Decoupling (DHD)を紹介します。 具体的には、DHDはまず、明示的な監督によって高さマップを予測する。 高度分布統計に基づいて、DHDは高度マップを複数の二値マスクに適応的に分離するようにMask Guided Height Sampling (MGHS)を設計した。 MGHSは2D画像の特徴を複数のサブスペースに投影する。 最後に、Synergistic Feature Aggregation (SFA)モジュールを配置し、チャネルと空間親和性を通じて特徴表現を強化し、さらなる占有率の向上を可能にする。 一般的なOcc3D-nuScenesベンチマークでは,最小入力フレームでも最先端の性能を実現する。 コードはhttps://github.com/yanzq95/DHDで入手できる。

The task of vision-based 3D occupancy prediction aims to reconstruct 3D geometry and estimate its semantic classes from 2D color images, where the 2D-to-3D view transformation is an indispensable step. Most previous methods conduct forward projection, such as BEVPooling and VoxelPooling, both of which map the 2D image features into 3D grids. However, the current grid representing features within a certain height range usually introduces many confusing features that belong to other height ranges. To address this challenge, we present Deep Height Decoupling (DHD), a novel framework that incorporates explicit height prior to filter out the confusing features. Specifically, DHD first predicts height maps via explicit supervision. Based on the height distribution statistics, DHD designs Mask Guided Height Sampling (MGHS) to adaptively decouple the height map into multiple binary masks. MGHS projects the 2D image features into multiple subspaces, where each grid contains features within reasonable height ranges. Finally, a Synergistic Feature Aggregation (SFA) module is deployed to enhance the feature representation through channel and spatial affinities, enabling further occupancy refinement. On the popular Occ3D-nuScenes benchmark, our method achieves state-of-the-art performance even with minimal input frames. Code is available at https://github.com/yanzq95/DHD.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-07
# SplatSim: ゼロショットSim2 ガウススティングを用いたRGB操作ポリシーのリアルタイム転送

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting ( http://arxiv.org/abs/2409.10161v2 )

ライセンス: Link先を確認
Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhisesh Silwal, (参考訳) Sim2Real転送、特にRGB画像に依存する操作ポリシーは、合成と実世界の視覚データ間のドメインシフトが著しいため、ロボット工学において重要な課題である。 本稿では,RGBベースの操作ポリシーにおけるSim2Realギャップを低減するために,ガウススティングを主レンダリングプリミティブとして活用する新しいフレームワークであるSplatSimを提案する。 従来のメッシュ表現をシミュレーターのガウスSplatに置き換えることにより、SplatSimはシミュレーションのスケーラビリティとコスト効率を保ちながら、高度にフォトリアリスティックな合成データを生成する。 我々は,SplatSim内の操作ポリシーを訓練し,それらをゼロショットで実世界で展開し,実世界のデータに基づいてトレーニングしたポリシーの97.5%に対して平均86.25%の成功率を達成することにより,フレームワークの有効性を実証する。 ビデオはプロジェクトのページで見ることができる。

Sim2Real transfer, particularly for manipulation policies relying on RGB images, remains a critical challenge in robotics due to the significant domain shift between synthetic and real-world visual data. In this paper, we propose SplatSim, a novel framework that leverages Gaussian Splatting as the primary rendering primitive to reduce the Sim2Real gap for RGB-based manipulation policies. By replacing traditional mesh representations with Gaussian Splats in simulators, SplatSim produces highly photorealistic synthetic data while maintaining the scalability and cost-efficiency of simulation. We demonstrate the effectiveness of our framework by training manipulation policies within SplatSim and deploying them in the real world in a zero-shot manner, achieving an average success rate of 86.25%, compared to 97.5% for policies trained on real-world data. Videos can be found on our project page: https://splatsim.github.io
翻訳日:2024-11-07 20:35:12 公開日:2024-10-07
# SplatSim: ゼロショットSim2 ガウススティングを用いたRGB操作ポリシーのリアルタイム転送

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting ( http://arxiv.org/abs/2409.10161v3 )

ライセンス: Link先を確認
Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhisesh Silwal, (参考訳) Sim2Real転送、特にRGB画像に依存する操作ポリシーは、合成と実世界の視覚データ間のドメインシフトが著しいため、ロボット工学において重要な課題である。 本稿では,RGBベースの操作ポリシーにおけるSim2Realギャップを低減するために,ガウススティングを主レンダリングプリミティブとして活用する新しいフレームワークであるSplatSimを提案する。 従来のメッシュ表現をシミュレーターのガウスSplatに置き換えることにより、SplatSimはシミュレーションのスケーラビリティとコスト効率を保ちながら、高度にフォトリアリスティックな合成データを生成する。 我々は,SplatSim内の操作ポリシーを訓練し,それらをゼロショットで実世界で展開し,実世界のデータに基づいてトレーニングしたポリシーの97.5%に対して平均86.25%の成功率を達成することにより,フレームワークの有効性を実証する。 ビデオはプロジェクトのページで見ることができる。

Sim2Real transfer, particularly for manipulation policies relying on RGB images, remains a critical challenge in robotics due to the significant domain shift between synthetic and real-world visual data. In this paper, we propose SplatSim, a novel framework that leverages Gaussian Splatting as the primary rendering primitive to reduce the Sim2Real gap for RGB-based manipulation policies. By replacing traditional mesh representations with Gaussian Splats in simulators, SplatSim produces highly photorealistic synthetic data while maintaining the scalability and cost-efficiency of simulation. We demonstrate the effectiveness of our framework by training manipulation policies within SplatSim and deploying them in the real world in a zero-shot manner, achieving an average success rate of 86.25%, compared to 97.5% for policies trained on real-world data. Videos can be found on our project page: https://splatsim.github.io
翻訳日:2024-11-07 20:35:12 公開日:2024-10-07
# 新生児集中治療室における機械聴取

Machine listening in a neonatal intensive care unit ( http://arxiv.org/abs/2409.11439v2 )

ライセンス: Link先を確認
Modan Tailleur, Vincent Lostanlen, Jean-Philippe Rivière, Pierre Aumond, (参考訳) 酸素、警報装置、足音は、病院で最も一般的な音源である。 環境心理学には科学的価値があるが、プライバシー保護と限定ラベル付きデータという独自の課題が伴う。 本稿では,エッジコンピューティングとクラウドコンピューティングの組み合わせにより,これら2つの課題に対処する。 プライバシー保護のための音響センサを設計し,音声波形を録音する代わりに,3オクターブのスペクトルをリアルタイムで計算する。 サンプル効率のよい機械学習では、スペクトル変換とラベル空間適応により、事前訓練された音声ニューラルネットワーク(PANN)を再利用した。 NICU(nenenatological intensive care Unit)における小規模な研究は、検出された事象の時系列が別の測定のモダリティ、すなわち、親や医療専門家の電子的バッジと一致することを確認している。 そこで本研究では,病院病棟におけるポリフォニック・マシン・リスニングの実現可能性を示すとともに,設計によるプライバシの確保も図っている。

Oxygenators, alarm devices, and footsteps are some of the most common sound sources in a hospital. Detecting them has scientific value for environmental psychology but comes with challenges of its own: namely, privacy preservation and limited labeled data. In this paper, we address these two challenges via a combination of edge computing and cloud computing. For privacy preservation, we have designed an acoustic sensor which computes third-octave spectrograms on the fly instead of recording audio waveforms. For sample-efficient machine learning, we have repurposed a pretrained audio neural network (PANN) via spectral transcoding and label space adaptation. A small-scale study in a neonatological intensive care unit (NICU) confirms that the time series of detected events align with another modality of measurement: i.e., electronic badges for parents and healthcare professionals. Hence, this paper demonstrates the feasibility of polyphonic machine listening in a hospital ward while guaranteeing privacy by design.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-07
# FoodPuzzle:フレーバー科学者として大規模言語モデルエージェントを開発する

FoodPuzzle: Developing Large Language Model Agents as Flavor Scientists ( http://arxiv.org/abs/2409.12832v2 )

ライセンス: Link先を確認
Tenghao Huang, Donghee Lee, John Sweeney, Jiatong Shi, Emily Steliotes, Matthew Lange, Jonathan May, Muhao Chen, (参考訳) 食品産業におけるフレーバー開発は、急速な革新と正確なフレーバープロファイルの作成の必要性により、ますます困難になってきている。 伝統的なフレーバー研究手法は、一般的に反復的で主観的なテストに依存しており、現代の需要に必要とされる効率性とスケーラビリティを欠いている。 本稿では,課題に対処するための3つの貢献について述べる。 まず、フレーバー・サイエンスにおける科学的エージェントのための新しい問題領域を定義し、フレーバー・プロファイルのソーシングと理解のための仮説の生成を概念化した。 この領域の研究を容易にするために,978個の食品と1,766個のフレーバー分子プロファイルからなる挑戦的なベンチマークであるFoodPuzzleを紹介した。 本稿では,食品科学分野における基礎仮説を生成するために,文脈内学習と検索技術を統合した新しい科学エージェント手法を提案する。 実験結果から,フレーバーモデルがフレーバープロファイル予測タスクの従来の手法をはるかに上回り,フレーバー開発プラクティスを変革する可能性が示された。

Flavor development in the food industry is increasingly challenged by the need for rapid innovation and precise flavor profile creation. Traditional flavor research methods typically rely on iterative, subjective testing, which lacks the efficiency and scalability required for modern demands. This paper presents three contributions to address the challenges. Firstly, we define a new problem domain for scientific agents in flavor science, conceptualized as the generation of hypotheses for flavor profile sourcing and understanding. To facilitate research in this area, we introduce the FoodPuzzle, a challenging benchmark consisting of 978 food items and 1,766 flavor molecules profiles. We propose a novel Scientific Agent approach, integrating in-context learning and retrieval augmented techniques to generate grounded hypotheses in the domain of food science. Experimental results indicate that our model significantly surpasses traditional methods in flavor profile prediction tasks, demonstrating its potential to transform flavor development practices.
翻訳日:2024-11-07 13:10:09 公開日:2024-10-07
# FoodPuzzle:フレーバー科学者として大規模言語モデルエージェントを開発する

FoodPuzzle: Developing Large Language Model Agents as Flavor Scientists ( http://arxiv.org/abs/2409.12832v3 )

ライセンス: Link先を確認
Tenghao Huang, Donghee Lee, John Sweeney, Jiatong Shi, Emily Steliotes, Matthew Lange, Jonathan May, Muhao Chen, (参考訳) 食品産業におけるフレーバー開発は、急速な革新と正確なフレーバープロファイルの作成の必要性により、ますます困難になってきている。 伝統的なフレーバー研究手法は、一般的に反復的で主観的なテストに依存しており、現代の需要に必要とされる効率性とスケーラビリティを欠いている。 本稿では,課題に対処するための3つの貢献について述べる。 まず、フレーバー・サイエンスにおける科学的エージェントのための新しい問題領域を定義し、フレーバー・プロファイルのソーシングと理解のための仮説の生成を概念化した。 この領域の研究を容易にするために,978個の食品と1,766個のフレーバー分子プロファイルからなる挑戦的なベンチマークであるFoodPuzzleを紹介した。 本稿では,食品科学分野における基礎仮説を生成するために,文脈内学習と検索技術を統合した新しい科学エージェント手法を提案する。 実験結果から,フレーバーモデルがフレーバープロファイル予測タスクの従来の手法をはるかに上回り,フレーバー開発プラクティスを変革する可能性が示された。

Flavor development in the food industry is increasingly challenged by the need for rapid innovation and precise flavor profile creation. Traditional flavor research methods typically rely on iterative, subjective testing, which lacks the efficiency and scalability required for modern demands. This paper presents three contributions to address the challenges. Firstly, we define a new problem domain for scientific agents in flavor science, conceptualized as the generation of hypotheses for flavor profile sourcing and understanding. To facilitate research in this area, we introduce the FoodPuzzle, a challenging benchmark consisting of 978 food items and 1,766 flavor molecules profiles. We propose a novel Scientific Agent approach, integrating in-context learning and retrieval augmented techniques to generate grounded hypotheses in the domain of food science. Experimental results indicate that our model significantly surpasses traditional methods in flavor profile prediction tasks, demonstrating its potential to transform flavor development practices.
翻訳日:2024-11-07 13:10:09 公開日:2024-10-07
# ウィスパーによる知識蒸留による高速ストリーミングトランスデューサASRプロトタイピング

Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper ( http://arxiv.org/abs/2409.13499v1 )

ライセンス: Link先を確認
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello, Shashi Kumar, Pradeep Rangappa, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju, (参考訳) 教師付きデータがほとんど、あるいは全くない自動音声認識(ASR)の訓練は、未解決の問題である。 本研究では,ストリーミングトランスフォーマー・トランスデューサ(TT)モデルを,基礎的音声モデル(FSM)の擬似ラベル付き(PL)音声を用いて,コンシューマとアクセス可能なGPU全体のスクラッチからトレーニングできることを実証する。 これにより、1段階だけでロバストなASRモデルをトレーニングでき、事前訓練と微調整の2段階シナリオと比べて大きなデータと計算予算を必要としない。 我々は,(1)n-gram LMの浅い融合,(2)名前付きエンティティによるコンテキストバイアス,(3)低レイテンシストリーミングアプリケーションのためのチャンクワイドデコーディング,(4)FSMサイズの関数としてのTT全体のパフォーマンスなど,PLベースのストリーミングTTモデルのさまざまな側面に関する包括的なアブレーションを行う。 以上の結果から,ノイズの多いPLでも,教師付きデータなしでTTをスクラッチから訓練できることが示唆された。 The proposed framework on 6 languages from CommonVoice and proposed multiple heuristics to filter out hallucinated PLs。

The training of automatic speech recognition (ASR) with little to no supervised data remains an open question. In this work, we demonstrate that streaming Transformer-Transducer (TT) models can be trained from scratch in consumer and accessible GPUs in their entirety with pseudo-labeled (PL) speech from foundational speech models (FSM). This allows training a robust ASR model just in one stage and does not require large data and computational budget compared to the two-step scenario with pre-training and fine-tuning. We perform a comprehensive ablation on different aspects of PL-based streaming TT models such as the impact of (1) shallow fusion of n-gram LMs, (2) contextual biasing with named entities, (3) chunk-wise decoding for low-latency streaming applications, and (4) TT overall performance as the function of the FSM size. Our results demonstrate that TT can be trained from scratch without supervised data, even with very noisy PLs. We validate the proposed framework on 6 languages from CommonVoice and propose multiple heuristics to filter out hallucinated PLs.
翻訳日:2024-11-07 06:53:09 公開日:2024-10-07
# ウィスパーによる知識蒸留による高速ストリーミングトランスデューサASRプロトタイピング

Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper ( http://arxiv.org/abs/2409.13499v2 )

ライセンス: Link先を確認
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello, Shashi Kumar, Pradeep Rangappa, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju, (参考訳) 教師付きデータがほとんど、あるいは全くない自動音声認識(ASR)の訓練は、未解決の問題である。 本研究では,ストリーミングトランスフォーマー・トランスデューサ(TT)モデルを,基礎的音声モデル(FSM)の擬似ラベル付き(PL)音声を用いて,コンシューマとアクセス可能なGPU全体のスクラッチからトレーニングできることを実証する。 これにより、1段階だけでロバストなASRモデルをトレーニングでき、事前訓練と微調整の2段階シナリオと比べて大きなデータと計算予算を必要としない。 我々は,(1)n-gram LMの浅い融合,(2)名前付きエンティティによるコンテキストバイアス,(3)低レイテンシストリーミングアプリケーションのためのチャンクワイドデコーディング,(4)FSMサイズの関数としてのTT全体のパフォーマンスなど,PLベースのストリーミングTTモデルのさまざまな側面に関する包括的なアブレーションを行う。 以上の結果から,ノイズの多いPLでも,教師付きデータなしでTTをスクラッチから訓練できることが示唆された。 The proposed framework on 6 languages from CommonVoice and proposed multiple heuristics to filter out hallucinated PLs。

The training of automatic speech recognition (ASR) with little to no supervised data remains an open question. In this work, we demonstrate that streaming Transformer-Transducer (TT) models can be trained from scratch in consumer and accessible GPUs in their entirety with pseudo-labeled (PL) speech from foundational speech models (FSM). This allows training a robust ASR model just in one stage and does not require large data and computational budget compared to the two-step scenario with pre-training and fine-tuning. We perform a comprehensive ablation on different aspects of PL-based streaming TT models such as the impact of (1) shallow fusion of n-gram LMs, (2) contextual biasing with named entities, (3) chunk-wise decoding for low-latency streaming applications, and (4) TT overall performance as the function of the FSM size. Our results demonstrate that TT can be trained from scratch without supervised data, even with very noisy PLs. We validate the proposed framework on 6 languages from CommonVoice and propose multiple heuristics to filter out hallucinated PLs.
翻訳日:2024-11-07 06:53:09 公開日:2024-10-07
# 説得を超えて:クレディブルな説明を伴う会話レコメンダシステムを目指して

Beyond Persuasion: Towards Conversational Recommender System with Credible Explanations ( http://arxiv.org/abs/2409.14399v1 )

ライセンス: Link先を確認
Peixin Qin, Chen Huang, Yang Deng, Wenqiang Lei, Tat-Seng Chua, (参考訳) 大規模言語モデルの助けを借りて、現在の会話レコメンデーションシステム(CRS)は、ユーザに推奨項目の受け入れを説得する強力な能力を獲得している。 これらのCRSは非常に説得力があるが、その説明に信じられない情報を組み込むことで、ユーザーとCRSの長期的な信頼を損なうことができる。 そこで本研究では,PC-CRS(PC-CRS)と呼ばれるシンプルな手法を提案する。 提案した信頼性に配慮した説得戦略を通じて説明生成を導くとともに,ポストホック自己回帰を通じて説明を徐々に洗練する。 実験結果から,PC-CRSの説得的・信頼性的説明を促進する効果が示された。 さらなる分析では、現在の手法が素晴らしい説明を生み出している理由と、推薦精度を向上させるための信頼できる説明の可能性を明らかにしている。

With the aid of large language models, current conversational recommender system (CRS) has gaining strong abilities to persuade users to accept recommended items. While these CRSs are highly persuasive, they can mislead users by incorporating incredible information in their explanations, ultimately damaging the long-term trust between users and the CRS. To address this, we propose a simple yet effective method, called PC-CRS, to enhance the credibility of CRS's explanations during persuasion. It guides the explanation generation through our proposed credibility-aware persuasive strategies and then gradually refines explanations via post-hoc self-reflection. Experimental results demonstrate the efficacy of PC-CRS in promoting persuasive and credible explanations. Further analysis reveals the reason behind current methods producing incredible explanations and the potential of credible explanations to improve recommendation accuracy.
翻訳日:2024-11-06 22:52:52 公開日:2024-10-07
# 説得を超えて:クレディブルな説明を伴う会話レコメンダシステムを目指して

Beyond Persuasion: Towards Conversational Recommender System with Credible Explanations ( http://arxiv.org/abs/2409.14399v2 )

ライセンス: Link先を確認
Peixin Qin, Chen Huang, Yang Deng, Wenqiang Lei, Tat-Seng Chua, (参考訳) 大規模言語モデルの助けを借りて、現在の会話レコメンデーションシステム(CRS)は、ユーザに推奨項目の受け入れを説得する強力な能力を獲得している。 これらのCRSは非常に説得力があるが、その説明に信じられない情報を組み込むことで、ユーザーとCRSの長期的な信頼を損なうことができる。 そこで本研究では,PC-CRS(PC-CRS)と呼ばれるシンプルな手法を提案する。 提案した信頼性に配慮した説得戦略を通じて説明生成を導くとともに,ポストホック自己回帰を通じて説明を徐々に洗練する。 実験結果から,PC-CRSの説得的・信頼性的説明を促進する効果が示された。 さらなる分析では、現在の手法が素晴らしい説明を生み出している理由と、推薦精度を向上させるための信頼できる説明の可能性を明らかにしている。

With the aid of large language models, current conversational recommender system (CRS) has gaining strong abilities to persuade users to accept recommended items. While these CRSs are highly persuasive, they can mislead users by incorporating incredible information in their explanations, ultimately damaging the long-term trust between users and the CRS. To address this, we propose a simple yet effective method, called PC-CRS, to enhance the credibility of CRS's explanations during persuasion. It guides the explanation generation through our proposed credibility-aware persuasive strategies and then gradually refines explanations via post-hoc self-reflection. Experimental results demonstrate the efficacy of PC-CRS in promoting persuasive and credible explanations. Further analysis reveals the reason behind current methods producing incredible explanations and the potential of credible explanations to improve recommendation accuracy.
翻訳日:2024-11-06 22:52:52 公開日:2024-10-07
# StyleReiser:強化構造ガイドで動画をスタイリング

StyleReiser: Stylizing Video With Reinforced Structure Guide ( http://arxiv.org/abs/2409.15341v1 )

ライセンス: Link先を確認
Radim Spetlik, David Futschik, Daniel Sykora, (参考訳) StyleReiserは,シーン構造が大きく変化する可能性のある遠隔フレームにおいても,視覚的整合性を保ちながら,所定のキーフレームからビデオシーケンス全体へスタイルを転送する例ベースのビデオスタイリング手法である。 従来のキーフレーム方式とは異なり,本手法は所定のスタイルとの整合性を考慮し,対象映像列に現れる新しい構造要素への忠実性を維持する。 この組み合わせは、修正キーフレームを追加することなく、スタイリングされたシーケンスの品質を大幅に向上させることができる。 また,本手法は,その構造的不安定さを抑え,ユーザが生成したキーフレーム上でカスタム編集を行うことで,テキスト駆動型ビデオスタイリング手法の出力を顕著に向上させることができることを示す。 さらに, リアルタイムに推論を行う能力により, テキスト駆動型アプローチでは実現が困難である一貫したタイマライズされたビデオ通話など, 対話的なシナリオにも適用することができる。

We introduce StyleReiser, an example-based video stylization method that transfers style from a given keyframe to the entire video sequence while maintaining visual consistency even in distant frames where the scene structure may change significantly. Unlike previous keyframe-based methods, our approach considers consistency with the prescribed style and maintains fidelity to new structural elements appearing in the target video sequence. This combination can significantly improve the quality of the stylized sequence without the need to add more correction keyframes. We also demonstrate that our approach can notably enhance the output of text-driven video stylization methods by suppressing their structural instability and enabling the user to perform custom edits on the generated keyframes. Moreover, due to its capability to perform inference in real-time, our technique can also be applied in interactive scenarios, such as consistently stylized video calls, which are difficult to achieve using text-driven approaches.
翻訳日:2024-11-06 19:54:40 公開日:2024-10-07
# StructuReiser: 構造保存型ビデオスティル化手法

StructuReiser: A Structure-preserving Video Stylization Method ( http://arxiv.org/abs/2409.15341v2 )

ライセンス: Link先を確認
Radim Spetlik, David Futschik, Daniel Sykora, (参考訳) 本稿では,ユーザが提供する一連のキーフレームを用いて,入力映像をスタイル化されたシーケンスに変換する新しいビデオ・ビデオ翻訳手法であるStructuReiserを紹介する。 既存のアプローチとは異なり、StructuReiserはターゲットビデオの構造的要素への厳密な固執を維持し、元のアイデンティティを保持しながら、望ましいスタイル変換をシームレスに適用する。 これにより、従来テキスト駆動やキーフレームベースのメソッドでは実現不可能だったコントロールと一貫性のレベルが可能になる。 さらに、StructuReiserはリアルタイム推論とカスタムキーフレーム編集をサポートしており、インタラクティブなアプリケーションに理想的であり、クリエイティブな表現やビデオ操作の可能性を広げている。

We introduce StructuReiser, a novel video-to-video translation method that transforms input videos into stylized sequences using a set of user-provided keyframes. Unlike existing approaches, StructuReiser maintains strict adherence to the structural elements of the target video, preserving the original identity while seamlessly applying the desired stylistic transformations. This enables a level of control and consistency that was previously unattainable with traditional text-driven or keyframe-based methods. Furthermore, StructuReiser supports real-time inference and custom keyframe editing, making it ideal for interactive applications and expanding the possibilities for creative expression and video manipulation.
翻訳日:2024-11-06 19:54:40 公開日:2024-10-07
# 微動の修正構造を用いた自律エージェントの単眼視覚ナビゲーションの初期化

Initialization of Monocular Visual Navigation for Autonomous Agents Using Modified Structure from Small Motion ( http://arxiv.org/abs/2409.16465v2 )

ライセンス: Link先を確認
Juan-Diego Florez, Mehregan Dor, Panagiotis Tsiotras, (参考訳) 本稿では,自律型宇宙ロボットのためのスタンドアロンの単眼視覚的同時局所マッピング(vSLAM)の初期化パイプラインを提案する。 現状の因子グラフ最適化パイプラインであるStructure from Small Motion (SfSM) を拡張して、宇宙船の点検軌道における単分子エージェントを堅牢に初期化し、バスト・レリーフのあいまいさ、支配的な平面幾何学を悪化させる弱視射影や中心点運動などの視覚的推定課題に対処し、視覚情報の生存性を低下させる動的照明条件を実現する。 タンブリング宇宙船を用いた実測衛星検査画像系列の現実的評価を行い,既存の単分子初期化法に対する手法の有効性を実証した。

We propose a standalone monocular visual Simultaneous Localization and Mapping (vSLAM) initialization pipeline for autonomous space robots. Our method, a state-of-the-art factor graph optimization pipeline, extends Structure from Small Motion (SfSM) to robustly initialize a monocular agent in spacecraft inspection trajectories, addressing visual estimation challenges such as weak-perspective projection and center-pointing motion, which exacerbates the bas-relief ambiguity, dominant planar geometry, which causes motion estimation degeneracies in classical Structure from Motion, and dynamic illumination conditions, which reduce the survivability of visual information. We validate our approach on realistic, simulated satellite inspection image sequences with a tumbling spacecraft and demonstrate the method's effectiveness over existing monocular initialization procedures.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-07
# 量子暗号におけるハード量子外挿

Hard Quantum Extrapolations in Quantum Cryptography ( http://arxiv.org/abs/2409.16516v2 )

ライセンス: Link先を確認
Luowen Qian, Justin Raizes, Mark Zhandry, (参考訳) 一方向関数は古典暗号の最小プリミティブとして確立されているが、量子暗号の最小プリミティブはいまだに不明である。 Impagliazzo と Levin (1990) によって最初に考えられた普遍外挿は、一方方向函数が存在する場合に限り困難である。 量子暗号の最小仮定をよりよく理解するために、普遍的外挿タスクの量子アナログについて検討する。 具体的には,古典的な$\rightarrow$quantum外挿課題を提示し,計算ベースで測定された最初のレジスタを考慮すれば,両部純状態の残りを外挿するように求めた。 次に、量子暗号における新しい接続を確立するために、キーコンポーネントとしてそれを使用します。 (a)古典$\rightarrow$quantum外挿が困難であれば、量子コミットメントが存在する。 (b)古典$\rightarrow$quantum外挿は、以下の暗号プリミティブのいずれかが存在する場合、難しい:古典的な公開鍵または2メッセージの量子鍵分配プロトコルを持つ量子公開鍵暗号(量子マネーやシグネチャなど)。 今後の研究のために、外挿タスクをさらに一般化し、完全量子アナログを提案する。 量子コミットメントが存在すれば困難であり、量子多項式空間にとって容易であることを示す。

Although one-way functions are well-established as the minimal primitive for classical cryptography, a minimal primitive for quantum cryptography is still unclear. Universal extrapolation, first considered by Impagliazzo and Levin (1990), is hard if and only if one-way functions exist. Towards better understanding minimal assumptions for quantum cryptography, we study the quantum analogues of the universal extrapolation task. Specifically, we put forth the classical$\rightarrow$quantum extrapolation task, where we ask to extrapolate the rest of a bipartite pure state given the first register measured in the computational basis. We then use it as a key component to establish new connections in quantum cryptography: (a) quantum commitments exist if classical$\rightarrow$quantum extrapolation is hard; and (b) classical$\rightarrow$quantum extrapolation is hard if any of the following cryptographic primitives exists: quantum public-key cryptography (such as quantum money and signatures) with a classical public key or 2-message quantum key distribution protocols. For future work, we further generalize the extrapolation task and propose a fully quantum analogue. We show that it is hard if quantum commitments exist, and it is easy for quantum polynomial space.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-07
# 固定周波数トランスモン量子ビットにおける高速無条件リセットとリーク低減

Fast unconditional reset and leakage reduction in fixed-frequency transmon qubits ( http://arxiv.org/abs/2409.16748v2 )

ライセンス: Link先を確認
Liangyu Chen, Simon Pettersson Fors, Zixian Yan, Anaida Ali, Tahereh Abad, Amr Osman, Eleftherios Moschandreou, Benjamin Lienhard, Sandoko Kosen, Hang-Xi Li, Daryoush Shiri, Tong Liu, Stefan Hill, Abdullah-Al Amin, Robert Rehammar, Mamta Dahiya, Andreas Nylander, Marcus Rommel, Anita Fadavi Roudsari, Marco Caputo, Grönberg Leif, Joonas Govenius, Miroslav Dobsicek, Michele Faucci Giannelli, Anton Frisk Kockum, Jonas Bylander, Giovanna Tancredi, (参考訳) フォールトトレラント量子コンピューティングの実現には、量子ビットの脆弱性を軽減するために量子エラー補正(QEC)スキームの実行が必要である。 この文脈では、QECの成功を確実にするために、キュービットリセットとリーク低減の両方を実装可能なプロトコルが極めて望ましい。 このようなプロトコルは、固定周波数のトランペットキュービットからなるアーキテクチャにおいて、チューナブルカプラ(表面コードと互換性のあるアーキテクチャ)を介してペアで結合される。 チューナブルカプラを用いて、望ましくないクビット励起をキュービットの読み出し共振器に転送し、そこからこの励起がフィードラインに減衰する。 合計して、クビットリセット、リークリセット、カプラリセットの組み合わせは83nsで完了する。 我々のリセット方式は高速で無条件であり、99%以上の忠実性を実現し、フォールトトレラント量子コンピュータの将来の実装として固定周波数量子ビットアーキテクチャを実現する。 また,本プロトコルは,QECサイクル実行時間を短縮し,量子コンピュータにおけるアルゴリズムの忠実度を向上させる手段を提供する。

The realization of fault-tolerant quantum computing requires the execution of quantum error-correction (QEC) schemes, to mitigate the fragile nature of qubits. In this context, to ensure the success of QEC, a protocol capable of implementing both qubit reset and leakage reduction is highly desirable. We demonstrate such a protocol in an architecture consisting of fixed-frequency transmon qubits pair-wise coupled via tunable couplers -- an architecture that is compatible with the surface code. We use tunable couplers to transfer any undesired qubit excitation to the readout resonator of the qubit, from which this excitation decays into the feedline. In total, the combination of qubit reset, leakage reduction, and coupler reset takes only 83ns to complete. Our reset scheme is fast, unconditional, and achieves fidelities well above 99%, thus enabling fixed-frequency qubit architectures as future implementations of fault-tolerant quantum computers. Our protocol also provides a means to both reduce QEC cycle runtime and improve algorithmic fidelity on quantum computers.
翻訳日:2024-11-06 17:20:02 公開日:2024-10-07
# 説明可能なAIの迷路をナビゲートする - 方法とメトリクスを評価するための体系的なアプローチ

Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics ( http://arxiv.org/abs/2409.16756v2 )

ライセンス: Link先を確認
Lukas Klein, Carsten T. Lüth, Udo Schlegel, Till J. Bungert, Mennatallah El-Assady, Paul F. Jäger, (参考訳) 説明可能なAI(XAI)は、数多くの提案されたメソッドと、その有効性を評価するためのメトリクスを備えた、急速に成長するドメインである。 しかしながら、現在の研究はしばしば範囲が限られており、XAIメソッドのごく一部だけを調べ、モデルアーキテクチャや入力データの性質など、パフォーマンスの基本的な設計パラメータを無視している。 さらに、彼らはしばしば1つか数つのメトリクスに依存し、徹底的な検証を無視し、選択バイアスのリスクを高め、メトリクス間の相違を無視します。 これらの欠点は、実践者が自分の問題にどの方法を選ぶべきかを混乱させます。 LATECは、20の異なる指標を用いて17の著名なXAI手法を批判的に評価する大規模ベンチマークである。 様々なアーキテクチャや多様な入力モダリティといった重要な設計パラメータを体系的に組み込んだ結果、7,560の組合せが得られた。 LATECを通じて、信頼性の低いランキングに繋がるメトリクスの衝突リスクの高さを示し、その結果、より堅牢な評価手法を提案する。 さらに,実践者のニーズに合わせて適切な方法を選択する際の支援として,様々なXAI手法を総合的に評価する。 驚くべきことに、新たなトップパフォーマンス手法である予測グラディエントは、関連する研究では検討されていない。 LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ)評価データセットとして公開している。 ベンチマークはhttps://github.com/IML-DKFZ/latec.comでホストされている。

Explainable AI (XAI) is a rapidly growing domain with a myriad of proposed methods as well as metrics aiming to evaluate their efficacy. However, current studies are often of limited scope, examining only a handful of XAI methods and ignoring underlying design parameters for performance, such as the model architecture or the nature of input data. Moreover, they often rely on one or a few metrics and neglect thorough validation, increasing the risk of selection bias and ignoring discrepancies among metrics. These shortcomings leave practitioners confused about which method to choose for their problem. In response, we introduce LATEC, a large-scale benchmark that critically evaluates 17 prominent XAI methods using 20 distinct metrics. We systematically incorporate vital design parameters like varied architectures and diverse input modalities, resulting in 7,560 examined combinations. Through LATEC, we showcase the high risk of conflicting metrics leading to unreliable rankings and consequently propose a more robust evaluation scheme. Further, we comprehensively evaluate various XAI methods to assist practitioners in selecting appropriate methods aligning with their needs. Curiously, the emerging top-performing method, Expected Gradients, is not examined in any relevant related study. LATEC reinforces its role in future XAI research by publicly releasing all 326k saliency maps and 378k metric scores as a (meta-)evaluation dataset. The benchmark is hosted at: https://github.com/IML-DKFZ/latec.
翻訳日:2024-11-06 17:20:02 公開日:2024-10-07
# IRASNet:ドメイン一般化SAR-ATRのための特徴レベルクラッタ低減の改良

IRASNet: Improved Feature-Level Clutter Reduction for Domain Generalized SAR-ATR ( http://arxiv.org/abs/2409.16845v2 )

ライセンス: Link先を確認
Oh-Tae Jang, Hae-Kang Song, Min-Jun Kim, Kyung-Hwan Lee, Geon Lee, Sung-Ho Kim, Hee-Sub Shin, Jae-Woo Ok, Min-Young Back, Jae-Hyuk Yoon, Kyung-Tae Kim, (参考訳) 近年,コンピュータ支援設計モデルと電磁シミュレーションを用いて,深層学習のための合成開口レーダ(SAR)データを拡張している。 しかし, 合成データを用いた場合, 自動目標認識(ATR)モデルでは, それらのデータに存在する特定の乱れパターンを学習し, 異なる乱れ分布を持つ測定データに適用した場合の性能を損なうため, ドメインシフトに苦慮する。 本研究では, IRASNet と呼ばれるドメイン一般化 SAR-ATR のためのフレームワークを提案する。 まず,特徴マップ上での信号対クラッタ比を最大化するクラッタ低減モジュール(CRM)を提案する。 このモジュールは、目標情報と影情報を保存しながら、特徴レベルでのクラッタの影響を低減し、ATR性能を向上させる。 第二に、逆学習をCRMと統合して、クラッタ還元されたドメイン不変の特徴を抽出する。 この統合は、トレーニング中に測定データを必要とせずに、合成データセットと測定データセットのギャップを埋める。 第3に、マスクグラウンドの真偽エンコーディングを用いた位置監視タスクを実装することにより、ターゲット領域とシャドウ領域の特徴抽出を改善する。 この改善により、モデルがクラスを識別する能力が向上する。 提案するIRASNetは,ターゲット情報とシャドウ情報を利用して,様々なテスト条件において優れた性能を実現するために,最先端の公開SARデータセットを提案する。 IRASNetは、一般化性能を向上するだけでなく、特徴レベルのクラッタ低減を大幅に改善し、レーダ画像パターン認識の分野における重要な進歩となる。

Recently, computer-aided design models and electromagnetic simulations have been used to augment synthetic aperture radar (SAR) data for deep learning. However, an automatic target recognition (ATR) model struggles with domain shift when using synthetic data because the model learns specific clutter patterns present in such data, which disturbs performance when applied to measured data with different clutter distributions. This study proposes a framework particularly designed for domain-generalized SAR-ATR called IRASNet, enabling effective feature-level clutter reduction and domain-invariant feature learning. First, we propose a clutter reduction module (CRM) that maximizes the signal-to-clutter ratio on feature maps. The module reduces the impact of clutter at the feature level while preserving target and shadow information, thereby improving ATR performance. Second, we integrate adversarial learning with CRM to extract clutter-reduced domain-invariant features. The integration bridges the gap between synthetic and measured datasets without requiring measured data during training. Third, we improve feature extraction from target and shadow regions by implementing a positional supervision task using mask ground truth encoding. The improvement enhances the ability of the model to discriminate between classes. Our proposed IRASNet presents new state-of-the-art public SAR datasets utilizing target and shadow information to achieve superior performance across various test conditions. IRASNet not only enhances generalization performance but also significantly improves feature-level clutter reduction, making it a valuable advancement in the field of radar image pattern recognition.
翻訳日:2024-11-06 17:10:14 公開日:2024-10-07
# 室温テレコム単一光子エミッタを用いた分極符号化量子鍵分布

Polarization-encoded quantum key distribution with a room-temperature telecom single-photon emitter ( http://arxiv.org/abs/2409.17060v2 )

ライセンス: Link先を確認
Xingjian Zhang, Haoran Zhang, Rui Ming Chua, John Eng, Max Meunier, James A Grieve, Weibo Gao, Alexander Ling, (参考訳) 単一光子源(SPS)は、標準BB84プロトコルの実装を可能にするため、量子鍵分布(QKD)に直接適用される。 SPSを用いたQKD実装は、現在、低温動作や、電気通信ファイバーを介して効率よく伝送される波長への周波数変換を必要とするため、普及していない。 GaN欠陥に基づく室温通信SPSを用いた分極符号化QKDの観測を行った。 4.0dBの損失を持つ3.5kmの繊維のフィールドテストにより、安全なキーレートは585.9~bpsとなった。 さらに32.5kmのファイバースプール(減衰率11.2dB)での試験では、偏光モードの分散が著しく低くなり、キーレートは50.4bpsとなった。 どちらの結果も約5%の量子ビット誤り率(QBER)を示した。 これらの結果は、分極符号化量子通信をサポートするGaN欠陥の可能性を示している。

Single photon sources (SPSs) are directly applicable in quantum key distribution (QKD) because they allow the implementation of the canonical BB84 protocol. To date, QKD implementations using SPS are not widespread because of the need for cryogenic operation, or frequency conversion to a wavelength efficiently transmitted over telecommunication fibers. We report an observation of polarization-encoded QKD using a room-temperature telecom SPS based on a GaN defect. A field test over 3.5 km of deployed fiber with 4.0 dB loss yielded a secure key rate of 585.9~bps. Further testing in a 32.5 km fiber spool (attenuation of 11.2 dB), which exhibited substantially lower polarization mode dispersion, yielded a secure key rate of 50.4 bps. Both results exhibited a quantum bit error rate (QBER) of approximately 5%. These results illustrate the potential of the GaN defects for supporting polarization-encoded quantum communication.
翻訳日:2024-11-06 17:00:06 公開日:2024-10-07
# AIがデュアルフォーカスで委任:プライバシと戦略的自己開示を保証する

AI Delegates with a Dual Focus: Ensuring Privacy and Strategic Self-Disclosure ( http://arxiv.org/abs/2409.17642v2 )

ライセンス: Link先を確認
Xi Chen, Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Chao Du, Xi Cheng, Hangxin Liu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, (参考訳) 大規模言語モデル(LLM)ベースのAIデリゲートは、ユーザに代わって行動するためにますます利用され、会話インターフェースを通じて幅広いタスクを支援している。 その利点にもかかわらず、特に社会的相互作用を含むシナリオにおいて、プライバシー漏洩の潜在的なリスクについて懸念が生じる。 既存の研究は、機密性の高いユーザー情報へのAIデリゲートへのアクセスを制限することでプライバシ保護に重点を置いているが、多くの社会的シナリオでは、望ましい結果を達成するためにプライベートな詳細を開示し、プライバシ保護と開示のバランスを取る必要がある。 この課題に対処するために、さまざまな社会的関係やタスクシナリオにわたるAIデリゲートに対するユーザの嗜好を調査するためのパイロット研究を行い、プライバシを重視した自己開示を可能にする新しいAIデリゲートシステムを提案する。 我々のユーザー調査は、提案されたAIデリゲートがプライバシーを戦略的に保護し、多様なダイナミックなソーシャルインタラクションにおけるその利用の先駆者であることを実証している。

Large language model (LLM)-based AI delegates are increasingly utilized to act on behalf of users, assisting them with a wide range of tasks through conversational interfaces. Despite their advantages, concerns arise regarding the potential risk of privacy leaks, particularly in scenarios involving social interactions. While existing research has focused on protecting privacy by limiting the access of AI delegates to sensitive user information, many social scenarios require disclosing private details to achieve desired outcomes, necessitating a balance between privacy protection and disclosure. To address this challenge, we conduct a pilot study to investigate user preferences for AI delegates across various social relations and task scenarios, and then propose a novel AI delegate system that enables privacy-conscious self-disclosure. Our user study demonstrates that the proposed AI delegate strategically protects privacy, pioneering its use in diverse and dynamic social interactions.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-07
# PhoCoLens:レンズレス画像におけるフォトリアリスティックで一貫性のある再構成

PhoCoLens: Photorealistic and Consistent Reconstruction in Lensless Imaging ( http://arxiv.org/abs/2409.17996v2 )

ライセンス: Link先を確認
Xin Cai, Zhiyuan You, Hailong Zhang, Wentao Liu, Jinwei Gu, Tianfan Xue, (参考訳) レンズレスカメラは、従来のレンズベースのシステムと比較して、サイズ、重量、コストにおいて大きな利点がある。 フォーカスレンズがなければ、レンズレスカメラは多重測定からシーンを復元するために計算アルゴリズムに依存している。 しかし、現在のアルゴリズムは、不正確な前方画像モデルと、高品質な画像の再構成に不十分な事前処理に苦慮している。 これらの制約を克服するために、一貫したフォトリアリスティックなレンズレス画像再構成のための新しい2段階のアプローチを導入する。 提案手法の第一段階は、カメラの視野を越えたポイントスプレッド関数(PSF)の変化に合わせて空間的に変化するデコンボリューション法を用いて、低周波コンテンツを正確に再構成することに焦点を当て、データの整合性を保証する。 第2段階は、事前訓練された拡散モデルから生成前のモデルを組み込むことにより、光現実性を高める。 第1段階で得られた低周波コンテンツを条件付けすることにより、拡散モデルは、レンズレス撮像プロセスで通常失われる高周波の詳細を効果的に再構成し、画像の忠実性も維持する。 提案手法は,PhlatCamとDiffuserCamの2種類のレンズレスシステムで実証されているように,既存の手法と比較して,データの忠実度と視覚的品質のバランスが良好である。 プロジェクトウェブサイト:https://phocolens.github.io/.com

Lensless cameras offer significant advantages in size, weight, and cost compared to traditional lens-based systems. Without a focusing lens, lensless cameras rely on computational algorithms to recover the scenes from multiplexed measurements. However, current algorithms struggle with inaccurate forward imaging models and insufficient priors to reconstruct high-quality images. To overcome these limitations, we introduce a novel two-stage approach for consistent and photorealistic lensless image reconstruction. The first stage of our approach ensures data consistency by focusing on accurately reconstructing the low-frequency content with a spatially varying deconvolution method that adjusts to changes in the Point Spread Function (PSF) across the camera's field of view. The second stage enhances photorealism by incorporating a generative prior from pre-trained diffusion models. By conditioning on the low-frequency content retrieved in the first stage, the diffusion model effectively reconstructs the high-frequency details that are typically lost in the lensless imaging process, while also maintaining image fidelity. Our method achieves a superior balance between data fidelity and visual quality compared to existing methods, as demonstrated with two popular lensless systems, PhlatCam and DiffuserCam. Project website: https://phocolens.github.io/.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-07
# アプリ開発中に大きな言語モデルでAlt-text for UIアイコンを推測する

Inferring Alt-text For UI Icons With Large Language Models During App Development ( http://arxiv.org/abs/2409.18060v2 )

ライセンス: Link先を確認
Sabrina Haque, Christoph Csallner, (参考訳) モバイルアプリケーションにおけるアクセシビリティの確保は、特に画面リーダーに依存している視覚障害者にとって、依然として大きな課題である。 ユーザインターフェースアイコンはナビゲーションとインタラクションに不可欠であり、意味のあるalt-textが欠如していることが多いため、効果的な使用の障壁が生じる。 アルトテキストを生成するための従来のディープラーニングアプローチは、広範なデータセットを必要とし、アイコンタイプの多様性と不均衡に苦労する。 最新のVision Language Models (VLM) には完全なUI画面が必要で、これはアプリ開発の反復的なフェーズにおいて実用的ではない。 これらの問題に対処するため,我々はLarge Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。 クラス、リソースID、バウンダリ、OCR検出されたテキスト、親と兄弟ノードからのコンテキスト情報を含むアイコンコンテキストを組み込むことで、約1.4kのアイコンからなる小さなデータセット上で、既製のLCMを微調整し、IconDescを生成する。 経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。 これにより、IconDescは開発者にとって貴重なツールとなり、迅速なイテレーションとUIアクセシビリティの向上を支援します。

Ensuring accessibility in mobile applications remains a significant challenge, particularly for visually impaired users who rely on screen readers. User interface icons are essential for navigation and interaction and often lack meaningful alt-text, creating barriers to effective use. Traditional deep learning approaches for generating alt-text require extensive datasets and struggle with the diversity and imbalance of icon types. More recent Vision Language Models (VLMs) require complete UI screens, which can be impractical during the iterative phases of app development. To address these issues, we introduce a novel method using Large Language Models (LLMs) to autonomously generate informative alt-text for mobile UI icons with partial UI data. By incorporating icon context, that include class, resource ID, bounds, OCR-detected text, and contextual information from parent and sibling nodes, we fine-tune an off-the-shelf LLM on a small dataset of approximately 1.4k icons, yielding IconDesc. In an empirical evaluation and a user study IconDesc demonstrates significant improvements in generating relevant alt-text. This ability makes IconDesc an invaluable tool for developers, aiding in the rapid iteration and enhancement of UI accessibility.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-07
# SKT:ロボットガーメントマニピュレーションのための状態認識キーポイント軌道と視覚言語モデルの統合

SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation ( http://arxiv.org/abs/2409.18082v2 )

ライセンス: Link先を確認
Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu, (参考訳) 衣服の操作の自動化は、衣服の多様性と変形性のために、補助ロボットにとって重要な課題となっている。 伝統的なアプローチは一般的に、スケーラビリティと適応性を制限する、各衣服タイプごとに別々のモデルを必要とする。 これとは対照的に,視覚言語モデル(VLM)を用いて,様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。 視覚情報と意味情報の両方を解釈することにより、ロボットは単一のモデルで異なる衣服状態を管理することができる。 我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。 実験結果から,VLM法はキーポイント検出精度とタスク成功率を大幅に向上させ,ロボット服用操作の柔軟性と汎用性を実現した。 さらに、この研究は、VLMが単一のフレームワークに様々な衣服操作タスクを統合する可能性を強調し、将来のホームオートメーションやアシストロボティクスにおける幅広い応用の道を開く。

Automating garment manipulation poses a significant challenge for assistive robotics due to the diverse and deformable nature of garments. Traditional approaches typically require separate models for each garment type, which limits scalability and adaptability. In contrast, this paper presents a unified approach using vision-language models (VLMs) to improve keypoint prediction across various garment categories. By interpreting both visual and semantic information, our model enables robots to manage different garment states with a single model. We created a large-scale synthetic dataset using advanced simulation techniques, allowing scalable training without extensive real-world data. Experimental results indicate that the VLM-based method significantly enhances keypoint detection accuracy and task success rates, providing a more flexible and general solution for robotic garment manipulation. In addition, this research also underscores the potential of VLMs to unify various garment manipulation tasks within a single framework, paving the way for broader applications in home automation and assistive robotics for future.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-07
# AQMLator - 自動量子機械学習E-プラットフォーム

AQMLator -- An Auto Quantum Machine Learning E-Platform ( http://arxiv.org/abs/2409.18338v1 )

ライセンス: Link先を確認
Tomasz Rybotycki, Piotr Gawron, (参考訳) 機械学習(ML)モデル実装の成功には、トレーニングデータセット、適切なモデルアーキテクチャ、トレーニング手順の3つの主要コンポーネントが必要です。 データセットとタスクがあれば、適切なモデルを見つけることは難しいかもしれません。 MLのブランチであるAutoMLは、MLシステム設計プロセスから人間を動かすことを目的としたメタメソッドである、自動アーキテクチャ検索に焦点を当てている。 MLの成功と近年の量子コンピューティング(QC)の発展により、量子機械学習(QML)と呼ばれる新しい魅力的な分野が生まれた。 本稿では,ユーザが最小限の入力でMLモデルの量子層を自動提案し,トレーニングすることを目的とした,自動量子機械学習プラットフォームであるAQMLatorを提案する。 このようにして、データサイエンティストはQCのエントリバリアをバイパスし、QMLを使用することができる。 AQMLatorは標準のMLライブラリを使用するため、既存のMLパイプラインを簡単に導入できる。

A successful Machine Learning (ML) model implementation requires three main components: training dataset, suitable model architecture and training procedure. Given dataset and task, finding an appropriate model might be challenging. AutoML, a branch of ML, focuses on automatic architecture search -- a meta method that aims at moving human from ML system design process. The success of ML and the development of quantum computing (QC) in recent years led to a birth of new fascinating field called Quantum Machine Learning (QML) that, amongst others, incorporates quantum computers into ML models. In this paper we present AQMLator, an Auto Quantum Machine Learning platform that aims to automatically propose and train the quantum layers of an ML model with minimal input from the user. This way, data scientists can bypass the entry barrier for QC and use QML. AQMLator uses standard ML libraries, making it easy to introduce into existing ML pipelines.
翻訳日:2024-11-06 06:50:51 公開日:2024-10-07
# AQMLator - 自動量子機械学習E-プラットフォーム

AQMLator -- An Auto Quantum Machine Learning E-Platform ( http://arxiv.org/abs/2409.18338v2 )

ライセンス: Link先を確認
Tomasz Rybotycki, Piotr Gawron, (参考訳) 機械学習(ML)モデル実装の成功には、トレーニングデータセット、適切なモデルアーキテクチャ、トレーニング手順の3つの主要コンポーネントが必要です。 データセットとタスクがあれば、適切なモデルを見つけることは難しいかもしれません。 MLのブランチであるAutoMLは、MLシステム設計プロセスから人間を動かすことを目的としたメタメソッドである、自動アーキテクチャ検索に焦点を当てている。 MLの成功と近年の量子コンピューティング(QC)の発展により、量子機械学習(QML)と呼ばれる新しい魅力的な分野が生まれた。 本稿では,ユーザが最小限の入力でMLモデルの量子層を自動提案し,トレーニングすることを目的とした,自動量子機械学習プラットフォームであるAQMLatorを提案する。 このようにして、データサイエンティストはQCのエントリバリアをバイパスし、QMLを使用することができる。 AQMLatorは標準のMLライブラリを使用するため、既存のMLパイプラインを簡単に導入できる。

A successful Machine Learning (ML) model implementation requires three main components: training dataset, suitable model architecture and training procedure. Given dataset and task, finding an appropriate model might be challenging. AutoML, a branch of ML, focuses on automatic architecture search -- a meta method that aims at moving human from ML system design process. The success of ML and the development of quantum computing (QC) in recent years led to a birth of new fascinating field called Quantum Machine Learning (QML) that, amongst others, incorporates quantum computers into ML models. In this paper we present AQMLator, an Auto Quantum Machine Learning platform that aims to automatically propose and train the quantum layers of an ML model with minimal input from the user. This way, data scientists can bypass the entry barrier for QC and use QML. AQMLator uses standard ML libraries, making it easy to introduce into existing ML pipelines.
翻訳日:2024-11-06 06:50:51 公開日:2024-10-07
# AQMLator - 自動量子機械学習E-プラットフォーム

AQMLator -- An Auto Quantum Machine Learning E-Platform ( http://arxiv.org/abs/2409.18338v3 )

ライセンス: Link先を確認
Tomasz Rybotycki, Piotr Gawron, (参考訳) 機械学習(ML)モデル実装の成功には、トレーニングデータセット、適切なモデルアーキテクチャ、トレーニング手順の3つの主要コンポーネントが必要です。 データセットとタスクがあれば、適切なモデルを見つけることは難しいかもしれません。 MLのブランチであるAutoMLは、MLシステム設計プロセスから人間を動かすことを目的としたメタメソッドである、自動アーキテクチャ検索に焦点を当てている。 MLの成功と近年の量子コンピューティング(QC)の発展により、量子機械学習(QML)と呼ばれる新しい魅力的な分野が生まれた。 本稿では,ユーザが最小限の入力でMLモデルの量子層を自動提案し,トレーニングすることを目的とした,自動量子機械学習プラットフォームであるAQMLatorを提案する。 このようにして、データサイエンティストはQCのエントリバリアをバイパスし、QMLを使用することができる。 AQMLatorは標準のMLライブラリを使用するため、既存のMLパイプラインを簡単に導入できる。

A successful Machine Learning (ML) model implementation requires three main components: training dataset, suitable model architecture and training procedure. Given dataset and task, finding an appropriate model might be challenging. AutoML, a branch of ML, focuses on automatic architecture search -- a meta method that aims at moving human from ML system design process. The success of ML and the development of quantum computing (QC) in recent years led to a birth of new fascinating field called Quantum Machine Learning (QML) that, amongst others, incorporates quantum computers into ML models. In this paper we present AQMLator, an Auto Quantum Machine Learning platform that aims to automatically propose and train the quantum layers of an ML model with minimal input from the user. This way, data scientists can bypass the entry barrier for QC and use QML. AQMLator uses standard ML libraries, making it easy to introduce into existing ML pipelines.
翻訳日:2024-11-06 06:50:51 公開日:2024-10-07
# A3: ソースフリーなドメイン適応のためのアクティブな逆アライメント

A3: Active Adversarial Alignment for Source-Free Domain Adaptation ( http://arxiv.org/abs/2409.18418v1 )

ライセンス: Link先を確認
Chrisantus Eze, Christopher Crick, (参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。 最近の研究は、ターゲットデータのみが利用可能な、ソースフリーのUDAに焦点を当てている。 モデルはノイズの多い擬似ラベルに依存し、分散シフトに苦労するため、これは難しい。 本研究では, 自己教師型学習, 対人訓練, アクティブラーニングを組み合わせた, 頑健なソースレスUDAのための新しいフレームワークであるActive Adversarial Alignment (A3)を提案する。 A3は、学習のための取得機能を使用して、情報的かつ多様なデータを積極的にサンプリングする。 敵の損失と一貫性の規則化を通じてモデルを適応し、ソースデータアクセスなしで分散を整列する。 A3は、効果的なドメインアライメントとノイズリダクションのためのアクティブおよび逆学習の相乗的統合を通じて、ソースフリーなUDAを進化させる。

Unsupervised domain adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. Recent works have focused on source-free UDA, where only target data is available. This is challenging as models rely on noisy pseudo-labels and struggle with distribution shifts. We propose Active Adversarial Alignment (A3), a novel framework combining self-supervised learning, adversarial training, and active learning for robust source-free UDA. A3 actively samples informative and diverse data using an acquisition function for training. It adapts models via adversarial losses and consistency regularization, aligning distributions without source data access. A3 advances source-free UDA through its synergistic integration of active and adversarial learning for effective domain alignment and noise reduction.
翻訳日:2024-11-06 06:31:22 公開日:2024-10-07
# A3: ソースフリーなドメイン適応のためのアクティブな逆アライメント

A3: Active Adversarial Alignment for Source-Free Domain Adaptation ( http://arxiv.org/abs/2409.18418v2 )

ライセンス: Link先を確認
Chrisantus Eze, Christopher Crick, (参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。 最近の研究は、ターゲットデータのみが利用可能な、ソースフリーのUDAに焦点を当てている。 モデルはノイズの多い擬似ラベルに依存し、分散シフトに苦労するため、これは難しい。 本研究では, 自己教師型学習, 対人訓練, アクティブラーニングを組み合わせた, 頑健なソースレスUDAのための新しいフレームワークであるActive Adversarial Alignment (A3)を提案する。 A3は、学習のための取得機能を使用して、情報的かつ多様なデータを積極的にサンプリングする。 敵の損失と一貫性の規則化を通じてモデルを適応し、ソースデータアクセスなしで分散を整列する。 A3は、効果的なドメインアライメントとノイズリダクションのためのアクティブおよび逆学習の相乗的統合を通じて、ソースフリーなUDAを進化させる。

Unsupervised domain adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. Recent works have focused on source-free UDA, where only target data is available. This is challenging as models rely on noisy pseudo-labels and struggle with distribution shifts. We propose Active Adversarial Alignment (A3), a novel framework combining self-supervised learning, adversarial training, and active learning for robust source-free UDA. A3 actively samples informative and diverse data using an acquisition function for training. It adapts models via adversarial losses and consistency regularization, aligning distributions without source data access. A3 advances source-free UDA through its synergistic integration of active and adversarial learning for effective domain alignment and noise reduction.
翻訳日:2024-11-06 06:31:22 公開日:2024-10-07
# 1st Place Solution to the 8th HANDS Workshop Challenge -- ARCTIC Track: 3DGS-based bimanual Category-Agnostic Interaction Reconstruction

1st Place Solution to the 8th HANDS Workshop Challenge -- ARCTIC Track: 3DGS-based Bimanual Category-agnostic Interaction Reconstruction ( http://arxiv.org/abs/2409.19215v1 )

ライセンス: Link先を確認
Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang, Hyein Hwang, Soohyun Hwang, Junuk Cha, Jaewook Han, Seungryul Baek, (参考訳) 本報告では,ECCV 2024と合わせて第8回HANDSワークショップチャレンジ(ARCTIC Track)の第1位となるソリューションについて述べる。 本課題では, 予め定義されたテンプレートに頼ることなく, モノクロ映像から手と物体の3次元再構成を再現することを目的とした, 双方向のカテゴリー非依存の手オブジェクト間相互作用再構築の課題に対処する。 この作業は、両手操作時の手と物体の間に大きな閉塞と動的接触があるため、特に困難である。 マスク損失と3次元接触損失をそれぞれ導入することで,これらの問題を解決することを試みた。 さらに,この課題に3Dガウススプラッティング(3DGS)を適用した。 その結果,本手法はARCTICテストセットにおける主計量CD$_h$の38.69の値を得た。

This report describes our 1st place solution to the 8th HANDS workshop challenge (ARCTIC track) in conjunction with ECCV 2024. In this challenge, we address the task of bimanual category-agnostic hand-object interaction reconstruction, which aims to generate 3D reconstructions of both hands and the object from a monocular video, without relying on predefined templates. This task is particularly challenging due to the significant occlusion and dynamic contact between the hands and the object during bimanual manipulation. We worked to resolve these issues by introducing a mask loss and a 3D contact loss, respectively. Moreover, we applied 3D Gaussian Splatting (3DGS) to this task. As a result, our method achieved a value of 38.69 in the main metric, CD$_h$, on the ARCTIC test set.
翻訳日:2024-11-06 04:01:11 公開日:2024-10-07
# 1st Place Solution to the 8th HANDS Workshop Challenge -- ARCTIC Track: 3DGS-based bimanual Category-Agnostic Interaction Reconstruction

1st Place Solution to the 8th HANDS Workshop Challenge -- ARCTIC Track: 3DGS-based Bimanual Category-agnostic Interaction Reconstruction ( http://arxiv.org/abs/2409.19215v2 )

ライセンス: Link先を確認
Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang, Hyein Hwang, Soohyun Hwang, Junuk Cha, Jaewook Han, Seungryul Baek, (参考訳) 本報告では,ECCV 2024と合わせて第8回HANDSワークショップチャレンジ(ARCTIC Track)の第1位となるソリューションについて述べる。 本課題では, 予め定義されたテンプレートに頼ることなく, モノクロ映像から手と物体の3次元再構成を再現することを目的とした, 双方向のカテゴリー非依存の手オブジェクト間相互作用再構築の課題に対処する。 この作業は、両手操作時の手と物体の間に大きな閉塞と動的接触があるため、特に困難である。 マスク損失と3次元接触損失をそれぞれ導入することで,これらの問題を解決することを試みた。 さらに,この課題に3Dガウススプラッティング(3DGS)を適用した。 その結果,本手法はARCTICテストセットにおける主計量CD$_h$の38.69の値を得た。

This report describes our 1st place solution to the 8th HANDS workshop challenge (ARCTIC track) in conjunction with ECCV 2024. In this challenge, we address the task of bimanual category-agnostic hand-object interaction reconstruction, which aims to generate 3D reconstructions of both hands and the object from a monocular video, without relying on predefined templates. This task is particularly challenging due to the significant occlusion and dynamic contact between the hands and the object during bimanual manipulation. We worked to resolve these issues by introducing a mask loss and a 3D contact loss, respectively. Moreover, we applied 3D Gaussian Splatting (3DGS) to this task. As a result, our method achieved a value of 38.69 in the main metric, CD$_h$, on the ARCTIC test set.
翻訳日:2024-11-06 00:28:26 公開日:2024-10-07
# マルチモーダル大言語モデルにおける視覚的質問分解

Visual Question Decomposition on Multimodal Large Language Models ( http://arxiv.org/abs/2409.19339v1 )

ライセンス: Link先を確認
Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu, (参考訳) 質問分解は、複雑な質問に答えるためにLarge Language Models (LLMs) を促す効果的な戦略として登場した。 しかし,既存の手法は主に一助言語モデルに焦点を当てているが,MLLM(Multimodal Large Language Models)の分解能力についてはまだ検討されていない。 そこで本稿では,MLLMの視覚的問題分解について検討する。 具体的には、分割されたサブクエストの品質を評価するために、データセットといくつかの評価基準を含む体系的な評価フレームワークを導入し、既存のMLLMが高品質なサブクエストを作成するのに苦労していることを明らかにする。 この制限に対処するために、モデルの質問分解能力を高めるための特定の微調整データセットであるDecoVQA+を提案する。 モデルが適切な選択分解を行えるようにすることを目的として,効率的な微調整パイプラインを提案する。 微調整パイプラインは,提案したデータセットと選択的分解のためのトレーニング目標から構成される。 微調整MLLMはサブクエストの品質と選択的質問分解のポリシーを著しく改善した。 さらに、VQAベンチマークデータセットを選択的に分解することで、モデルの精度も向上する。

Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (MLLMs) has yet to be explored. To this end, this paper explores visual question decomposition on MLLMs. Specifically, we introduce a systematic evaluation framework including a dataset and several evaluation criteria to assess the quality of the decomposed sub-questions, revealing that existing MLLMs struggle to produce high-quality sub-questions. To address this limitation, we propose a specific finetuning dataset, DecoVQA+, for enhancing the model's question decomposition capability. Aiming at enabling models to perform appropriate selective decomposition, we propose an efficient finetuning pipeline. The finetuning pipeline consists of our proposed dataset and a training objective for selective decomposition. Finetuned MLLMs demonstrate significant improvements in the quality of sub-questions and the policy of selective question decomposition. Additionally, the models also achieve higher accuracy with selective decomposition on VQA benchmark datasets.
翻訳日:2024-11-05 23:58:48 公開日:2024-10-07
# マルチモーダル大言語モデルにおける視覚的質問分解

Visual Question Decomposition on Multimodal Large Language Models ( http://arxiv.org/abs/2409.19339v2 )

ライセンス: Link先を確認
Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu, (参考訳) 質問分解は、複雑な質問に答えるためにLarge Language Models (LLMs) を促す効果的な戦略として登場した。 しかし,既存の手法は主に一助言語モデルに焦点を当てているが,MLLM(Multimodal Large Language Models)の分解能力についてはまだ検討されていない。 そこで本稿では,MLLMの視覚的問題分解について検討する。 具体的には、分割されたサブクエストの品質を評価するために、データセットといくつかの評価基準を含む体系的な評価フレームワークを導入し、既存のMLLMが高品質なサブクエストを作成するのに苦労していることを明らかにする。 この制限に対処するために、モデルの質問分解能力を高めるための特定の微調整データセットであるDecoVQA+を提案する。 モデルが適切な選択分解を行えるようにすることを目的として,効率的な微調整パイプラインを提案する。 微調整パイプラインは,提案したデータセットと選択的分解のためのトレーニング目標から構成される。 微調整MLLMはサブクエストの品質と選択的質問分解のポリシーを著しく改善した。 さらに、VQAベンチマークデータセットを選択的に分解することで、モデルの精度も向上する。

Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (MLLMs) has yet to be explored. To this end, this paper explores visual question decomposition on MLLMs. Specifically, we introduce a systematic evaluation framework including a dataset and several evaluation criteria to assess the quality of the decomposed sub-questions, revealing that existing MLLMs struggle to produce high-quality sub-questions. To address this limitation, we propose a specific finetuning dataset, DecoVQA+, for enhancing the model's question decomposition capability. Aiming at enabling models to perform appropriate selective decomposition, we propose an efficient finetuning pipeline. The finetuning pipeline consists of our proposed dataset and a training objective for selective decomposition. Finetuned MLLMs demonstrate significant improvements in the quality of sub-questions and the policy of selective question decomposition. Additionally, the models also achieve higher accuracy with selective decomposition on VQA benchmark datasets.
翻訳日:2024-11-05 23:58:48 公開日:2024-10-07
# PEAR:ゼロ推論オーバーヘッドによる位置埋め込み非依存再重み付け

PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead ( http://arxiv.org/abs/2409.19745v1 )

ライセンス: Link先を確認
Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan, (参考訳) 検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。 しかしながら、LLMのコンテキスト認識はRAGタスクの性能を低下させる。 既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドを発生させ、多くは特定の位置の埋め込みに合わせて調整される。 本稿では,LLMの文脈認識をゼロ推論オーバーヘッドで促進する位置埋め込み・非依存型再重み付け(PEAR)を提案する。 具体的には、コンテキストコピーに焦点を当てたプロキシタスクにおいて、まず、モデルのコンテキスト認識を抑制するヘッドを検出し、RAG性能を低下させる。 これらの頭部の影響を弱めるため、学習可能な係数で出力を再重み付けする。 LLMは、プロキシタスクの損失を最小限に抑えるために、これらの係数を調整することで最適化される。 その結果、係数は1未満の値に最適化され、RAG性能を抑制する傾向が低下する。 推論中、最適化された係数は、手前の特定のタスクに関係なく、これらのヘッドを再重み付けするために固定される。 提案したPEARは, メモリ使用量や推定時間のオーバーヘッドをゼロにすると同時に, 各種RAGタスクにおける精度と効率の競争的ベースラインを上回りながら, 従来の手法に比べて2つの大きな利点がある。 2) 位置埋め込みアルゴリズムとは独立であり,より広い適用性を確保している。

Large language models (LLMs) enhanced with retrieval-augmented generation (RAG) have introduced a new paradigm for web search. However, the limited context awareness of LLMs degrades their performance on RAG tasks. Existing methods to enhance context awareness are often inefficient, incurring time or memory overhead during inference, and many are tailored to specific position embeddings. In this paper, we propose Position-Embedding-Agnostic attention Re-weighting (PEAR), which enhances the context awareness of LLMs with zero inference overhead. Specifically, on a proxy task focused on context copying, we first detect heads which suppress the models' context awareness thereby diminishing RAG performance. To weaken the impact of these heads, we re-weight their outputs with learnable coefficients. The LLM (with frozen parameters) is optimized by adjusting these coefficients to minimize loss on the proxy task. As a result, the coefficients are optimized to values less than one, thereby reducing their tendency to suppress RAG performance. During inference, the optimized coefficients are fixed to re-weight these heads, regardless of the specific task at hand. Our proposed PEAR offers two major advantages over previous approaches: (1) It introduces zero additional inference overhead in terms of memory usage or inference time, while outperforming competitive baselines in accuracy and efficiency across various RAG tasks. (2) It is independent of position embedding algorithms, ensuring broader applicability.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-07
# PEAR:ゼロ推論オーバーヘッドによる位置埋め込み非依存再重み付け

PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead ( http://arxiv.org/abs/2409.19745v2 )

ライセンス: Link先を確認
Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan, (参考訳) 検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。 しかしながら、LLMのコンテキスト認識はRAGタスクの性能を低下させる。 既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドを発生させ、多くは特定の位置の埋め込みに合わせて調整される。 本稿では,LLMの文脈認識をゼロ推論オーバーヘッドで促進する位置埋め込み・非依存型再重み付け(PEAR)を提案する。 具体的には、コンテキストコピーに焦点を当てたプロキシタスクにおいて、まず、モデルのコンテキスト認識を抑制するヘッドを検出し、RAG性能を低下させる。 これらの頭部の影響を弱めるため、学習可能な係数で出力を再重み付けする。 LLMは、プロキシタスクの損失を最小限に抑えるために、これらの係数を調整することで最適化される。 その結果、係数は1未満の値に最適化され、RAG性能を抑制する傾向が低下する。 推論中、最適化された係数は、手前の特定のタスクに関係なく、これらのヘッドを再重み付けするために固定される。 提案したPEARは, メモリ使用量や推定時間のオーバーヘッドをゼロにすると同時に, 各種RAGタスクにおける精度と効率の競争的ベースラインを上回りながら, 従来の手法に比べて2つの大きな利点がある。 2) 位置埋め込みアルゴリズムとは独立であり,より広い適用性を確保している。

Large language models (LLMs) enhanced with retrieval-augmented generation (RAG) have introduced a new paradigm for web search. However, the limited context awareness of LLMs degrades their performance on RAG tasks. Existing methods to enhance context awareness are often inefficient, incurring time or memory overhead during inference, and many are tailored to specific position embeddings. In this paper, we propose Position-Embedding-Agnostic attention Re-weighting (PEAR), which enhances the context awareness of LLMs with zero inference overhead. Specifically, on a proxy task focused on context copying, we first detect heads which suppress the models' context awareness thereby diminishing RAG performance. To weaken the impact of these heads, we re-weight their outputs with learnable coefficients. The LLM (with frozen parameters) is optimized by adjusting these coefficients to minimize loss on the proxy task. As a result, the coefficients are optimized to values less than one, thereby reducing their tendency to suppress RAG performance. During inference, the optimized coefficients are fixed to re-weight these heads, regardless of the specific task at hand. Our proposed PEAR offers two major advantages over previous approaches: (1) It introduces zero additional inference overhead in terms of memory usage or inference time, while outperforming competitive baselines in accuracy and efficiency across various RAG tasks. (2) It is independent of position embedding algorithms, ensuring broader applicability.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-07
# 合成デコーダを用いたユニバーサル医用画像表現学習

Universal Medical Image Representation Learning with Compositional Decoders ( http://arxiv.org/abs/2409.19890v2 )

ライセンス: Link先を確認
Kaini Wang, Ling Yang, Siping Zhou, Guangquan Zhou, Wentao Zhang, Bin Cui, Shuo Li, (参考訳) ビジュアル言語モデルはユニバーサルモデルの開発を進めてきたが、医療画像への応用は特定の機能要件と限られたデータによって制限されている。 現在の汎用モデルは、通常、タスク固有のブランチとヘッドで設計され、共有された特徴空間とモデルの柔軟性を制限する。 これらの課題に対処するため、我々は、あらゆるレベルでタスクをサポートする、分解分解されたユニバーサル医療イメージングパラダイム(UniMed)を開発した。 そこで我々はまず,定義した入力キューに基づいて,画素とセマンティックという2種類の出力を予測可能な分解デコーダを提案する。 さらに、入力空間と出力空間を統一した合成デコーダを導入し、異なるレベルのタスクアノテーションを離散トークン形式に標準化する。 これら2つのコンポーネントの結合設計により、モデルが柔軟にタスクと相互利益を組み合わせることができる。 さらに、我々の共同表現学習戦略は、大量のラベルのないデータと教師なしの損失を巧みに活用し、より堅牢なパフォーマンスのために効率的なワンステージ事前学習を実現する。 実験結果から、UniMedは3つのタスクすべてにわたる8つのデータセットで最先端のパフォーマンスを実現し、強力なゼロショットと100ショットの転送性を示した。 論文の受理に応じて、コードとモデルをトレーニングします。

Visual-language models have advanced the development of universal models, yet their application in medical imaging remains constrained by specific functional requirements and the limited data. Current general-purpose models are typically designed with task-specific branches and heads, which restricts the shared feature space and the flexibility of model. To address these challenges, we have developed a decomposed-composed universal medical imaging paradigm (UniMed) that supports tasks at all levels. To this end, we first propose a decomposed decoder that can predict two types of outputs -- pixel and semantic, based on a defined input queue. Additionally, we introduce a composed decoder that unifies the input and output spaces and standardizes task annotations across different levels into a discrete token format. The coupled design of these two components enables the model to flexibly combine tasks and mutual benefits. Moreover, our joint representation learning strategy skilfully leverages large amounts of unlabeled data and unsupervised loss, achieving efficient one-stage pretraining for more robust performance. Experimental results show that UniMed achieves state-of-the-art performance on eight datasets across all three tasks and exhibits strong zero-shot and 100-shot transferability. We will release the code and trained models upon the paper's acceptance.
翻訳日:2024-11-05 17:19:55 公開日:2024-10-07
# 合成デコーダを用いたユニバーサル医用画像表現学習

Universal Medical Image Representation Learning with Compositional Decoders ( http://arxiv.org/abs/2409.19890v1 )

ライセンス: Link先を確認
Kaini Wang, Kaini Wang, Siping Zhou, Guangquan Zhou, Wentao Zhang, Bin Cui, Shuo Li, (参考訳) ビジュアル言語モデルはユニバーサルモデルの開発を進めてきたが、医療画像への応用は特定の機能要件と限られたデータによって制限されている。 現在の汎用モデルは、通常、タスク固有のブランチとヘッドで設計され、共有された特徴空間とモデルの柔軟性を制限する。 これらの課題に対処するため、我々は、あらゆるレベルでタスクをサポートする、分解分解されたユニバーサル医療イメージングパラダイム(UniMed)を開発した。 そこで我々はまず,定義した入力キューに基づいて,画素とセマンティックという2種類の出力を予測可能な分解デコーダを提案する。 さらに、入力空間と出力空間を統一した合成デコーダを導入し、異なるレベルのタスクアノテーションを離散トークン形式に標準化する。 これら2つのコンポーネントの結合設計により、モデルが柔軟にタスクと相互利益を組み合わせることができる。 さらに、我々の共同表現学習戦略は、大量のラベルのないデータと教師なしの損失を巧みに活用し、より堅牢なパフォーマンスのために効率的なワンステージ事前学習を実現する。 実験結果から、UniMedは3つのタスクすべてにわたる8つのデータセットで最先端のパフォーマンスを実現し、強力なゼロショットと100ショットの転送性を示した。 論文の受理に応じて、コードとモデルをトレーニングします。

Visual-language models have advanced the development of universal models, yet their application in medical imaging remains constrained by specific functional requirements and the limited data. Current general-purpose models are typically designed with task-specific branches and heads, which restricts the shared feature space and the flexibility of model. To address these challenges, we have developed a decomposed-composed universal medical imaging paradigm (UniMed) that supports tasks at all levels. To this end, we first propose a decomposed decoder that can predict two types of outputs -- pixel and semantic, based on a defined input queue. Additionally, we introduce a composed decoder that unifies the input and output spaces and standardizes task annotations across different levels into a discrete token format. The coupled design of these two components enables the model to flexibly combine tasks and mutual benefits. Moreover, our joint representation learning strategy skilfully leverages large amounts of unlabeled data and unsupervised loss, achieving efficient one-stage pretraining for more robust performance. Experimental results show that UniMed achieves state-of-the-art performance on eight datasets across all three tasks and exhibits strong zero-shot and 100-shot transferability. We will release the code and trained models upon the paper's acceptance.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-07
# HYDRA-FL:ロバストで正確なフェデレート学習のためのハイブリッド知識蒸留

HYDRA-FL: Hybrid Knowledge Distillation for Robust and Accurate Federated Learning ( http://arxiv.org/abs/2409.19912v1 )

ライセンス: Link先を確認
Momin Ahmad Khan, Yasra Chandio, Fatima Muhammad Anwar, (参考訳) フェデレートラーニング(FL)ユーザ間のデータの異質性は大きな課題となり、結果としてグローバルモデルのパフォーマンスが低下する。 コミュニティは、知識蒸留(KD)ベースのテクニックが一般的である、この問題に対処する様々なテクニックを設計してきた。 これらの技術は、高い不均一性の下で性能を効果的に向上するが、モデル中毒攻撃(アタック増幅(英語版)として知られる)下では、必然的に高い精度の劣化を引き起こす。 本稿では,KDベースのFLシステムにおいて,この重大な脆弱性を明らかにするケーススタディを提案する。 KDがなぜこの問題を経験的証拠を通じて引き起こし、それをハイブリッド蒸留技術の設計の動機として利用するのかを示す。 本稿では,ロバストと精度FL(HYDRA-FL)のハイブリッド知識蒸留アルゴリズムを導入し,KD損失の一部を補助分類器を介して浅層にオフロードすることで,攻撃シナリオにおける攻撃の影響を低減する。 我々は、HYDRA-FLを汎用フレームワークとしてモデル化し、2つのKDベースのFLアルゴリズムであるFedNTDとMOONに適応する。 これら2つのケーススタディを用いて,本手法が攻撃設定におけるベースラインを上回り,良性設定における同等の性能を維持していることを示す。

Data heterogeneity among Federated Learning (FL) users poses a significant challenge, resulting in reduced global model performance. The community has designed various techniques to tackle this issue, among which Knowledge Distillation (KD)-based techniques are common. While these techniques effectively improve performance under high heterogeneity, they inadvertently cause higher accuracy degradation under model poisoning attacks (known as attack amplification). This paper presents a case study to reveal this critical vulnerability in KD-based FL systems. We show why KD causes this issue through empirical evidence and use it as motivation to design a hybrid distillation technique. We introduce a novel algorithm, Hybrid Knowledge Distillation for Robust and Accurate FL (HYDRA-FL), which reduces the impact of attacks in attack scenarios by offloading some of the KD loss to a shallow layer via an auxiliary classifier. We model HYDRA-FL as a generic framework and adapt it to two KD-based FL algorithms, FedNTD and MOON. Using these two as case studies, we demonstrate that our technique outperforms baselines in attack settings while maintaining comparable performance in benign settings.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-07
# HYDRA-FL:ロバストで正確なフェデレート学習のためのハイブリッド知識蒸留

HYDRA-FL: Hybrid Knowledge Distillation for Robust and Accurate Federated Learning ( http://arxiv.org/abs/2409.19912v2 )

ライセンス: Link先を確認
Momin Ahmad Khan, Yasra Chandio, Fatima Muhammad Anwar, (参考訳) フェデレートラーニング(FL)ユーザ間のデータの異質性は大きな課題となり、結果としてグローバルモデルのパフォーマンスが低下する。 コミュニティは、知識蒸留(KD)ベースのテクニックが一般的である、この問題に対処する様々なテクニックを設計してきた。 これらの技術は、高い不均一性の下で性能を効果的に向上するが、モデル中毒攻撃(アタック増幅(英語版)として知られる)下では、必然的に高い精度の劣化を引き起こす。 本稿では,KDベースのFLシステムにおいて,この重大な脆弱性を明らかにするケーススタディを提案する。 KDがなぜこの問題を経験的証拠を通じて引き起こし、それをハイブリッド蒸留技術の設計の動機として利用するのかを示す。 本稿では,ロバストと精度FL(HYDRA-FL)のハイブリッド知識蒸留アルゴリズムを導入し,KD損失の一部を補助分類器を介して浅層にオフロードすることで,攻撃シナリオにおける攻撃の影響を低減する。 我々は、HYDRA-FLを汎用フレームワークとしてモデル化し、2つのKDベースのFLアルゴリズムであるFedNTDとMOONに適応する。 これら2つのケーススタディを用いて,本手法が攻撃設定におけるベースラインを上回り,良性設定における同等の性能を維持していることを示す。

Data heterogeneity among Federated Learning (FL) users poses a significant challenge, resulting in reduced global model performance. The community has designed various techniques to tackle this issue, among which Knowledge Distillation (KD)-based techniques are common. While these techniques effectively improve performance under high heterogeneity, they inadvertently cause higher accuracy degradation under model poisoning attacks (known as attack amplification). This paper presents a case study to reveal this critical vulnerability in KD-based FL systems. We show why KD causes this issue through empirical evidence and use it as motivation to design a hybrid distillation technique. We introduce a novel algorithm, Hybrid Knowledge Distillation for Robust and Accurate FL (HYDRA-FL), which reduces the impact of attacks in attack scenarios by offloading some of the KD loss to a shallow layer via an auxiliary classifier. We model HYDRA-FL as a generic framework and adapt it to two KD-based FL algorithms, FedNTD and MOON. Using these two as case studies, we demonstrate that our technique outperforms baselines in attack settings while maintaining comparable performance in benign settings.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-07
# HYDRA-FL:ロバストで正確なフェデレート学習のためのハイブリッド知識蒸留

HYDRA-FL: Hybrid Knowledge Distillation for Robust and Accurate Federated Learning ( http://arxiv.org/abs/2409.19912v3 )

ライセンス: Link先を確認
Momin Ahmad Khan, Yasra Chandio, Fatima Muhammad Anwar, (参考訳) フェデレートラーニング(FL)ユーザ間のデータの異質性は大きな課題となり、結果としてグローバルモデルのパフォーマンスが低下する。 コミュニティは、知識蒸留(KD)ベースのテクニックが一般的である、この問題に対処する様々なテクニックを設計してきた。 これらの技術は、高い不均一性の下で性能を効果的に向上するが、モデル中毒攻撃(アタック増幅(英語版)として知られる)下では、必然的に高い精度の劣化を引き起こす。 本稿では,KDベースのFLシステムにおいて,この重大な脆弱性を明らかにするケーススタディを提案する。 KDがなぜこの問題を経験的証拠を通じて引き起こし、それをハイブリッド蒸留技術の設計の動機として利用するのかを示す。 本稿では,ロバストと精度FL(HYDRA-FL)のハイブリッド知識蒸留アルゴリズムを導入し,KD損失の一部を補助分類器を介して浅層にオフロードすることで,攻撃シナリオにおける攻撃の影響を低減する。 我々は、HYDRA-FLを汎用フレームワークとしてモデル化し、2つのKDベースのFLアルゴリズムであるFedNTDとMOONに適応する。 これら2つのケーススタディを用いて,本手法が攻撃設定におけるベースラインを上回り,良性設定における同等の性能を維持していることを示す。

Data heterogeneity among Federated Learning (FL) users poses a significant challenge, resulting in reduced global model performance. The community has designed various techniques to tackle this issue, among which Knowledge Distillation (KD)-based techniques are common. While these techniques effectively improve performance under high heterogeneity, they inadvertently cause higher accuracy degradation under model poisoning attacks (known as attack amplification). This paper presents a case study to reveal this critical vulnerability in KD-based FL systems. We show why KD causes this issue through empirical evidence and use it as motivation to design a hybrid distillation technique. We introduce a novel algorithm, Hybrid Knowledge Distillation for Robust and Accurate FL (HYDRA-FL), which reduces the impact of attacks in attack scenarios by offloading some of the KD loss to a shallow layer via an auxiliary classifier. We model HYDRA-FL as a generic framework and adapt it to two KD-based FL algorithms, FedNTD and MOON. Using these two as case studies, we demonstrate that our technique outperforms baselines in attack settings while maintaining comparable performance in benign settings.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-07
# KV圧縮:アテンションヘッドあたりの圧縮速度が可変なページKVキャッシュ圧縮

KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head ( http://arxiv.org/abs/2410.00161v1 )

ライセンス: Link先を確認
Isaac Rehg, (参考訳) 大規模言語モデル(LLM)のコンテキスト長は近年爆発的に増加しており、128kのコンテキストが標準となり、100万のコンテキストが現実になる。 キー値(KV)キャッシュに割り当てられるメモリは、そのコンテキスト長とともに世代スケールで割り当てられなければならないため、与えられたメモリ予算の下で同時に提供可能なロングコンテキストリクエストの数を制限するため、ロングコンテキスト推論を効果的にサポートすることは依然として困難である。 KVキャッシュ圧縮は、各アテンションヘッドのキャッシュから未使用のKVを取り除き、メモリフットプリントを減らすことでこの問題を軽減することができる。 既存の推論フレームワークにおけるこのような戦略の適用は断片化を増し、物理メモリにおける理論的圧縮速度を実現することができない。 我々は,PagedAttentionフレームワーク内で連続KVブロックを排除し,KVキャッシュのメモリフットプリントをこの理論的圧縮率に比例して削減する,新しい圧縮手法であるKV-Compressを紹介する。 提案手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchの圧縮KVの総数を従来の方法に比べて4倍減らすとともに,LongBenchの最先端性能を実現する。 Llama-3.1-8B-インストラクタとLlama-3.1-70B-インストラクタ-FP8の評価では、圧縮速度は最大8倍、性能は最大64倍となり、スイートの3つのサブセットを除いて、フルキャッシュ性能の90%以上を維持している。 我々は,より大規模な復号バッチを実現することで,スループットを最大5.18倍に向上するvLLMとメソッドの統合をベンチマークする。

Context lengths of Large Language Models (LLMs) have exploded in recent years, with 128k-token context becoming a standard and million-token context becoming a reality. Efficiently supporting long-context inference remains challenging as the memory that must be allocated in key-value (KV) cache for a generation scales with its context length, limiting the number of long-context requests that can be served concurrently under a given memory budget. KV cache compression can mitigate this issue by removing under-utilized KVs from each attention head's cache and reducing its memory footprint. Higher theoretical compression rates can be achieved when the number of removed KVs varies across attention heads, but application of such a strategy within existing inference frameworks adds fragmentation and cannot realize the theoretical compression rates in physical memory. We introduce KV-Compress, a novel compression method that evicts contiguous KV blocks within a PagedAttention framework, reducing the memory footprint of the KV cache proportionally to this theoretical compression rate. Our method achieves state-of-the-art performance on LongBench for both Mistral-7B-Instruct-v0.2 and Llama-3.1-8B-Instruct while lowering the total number of compressed KVs by 4x compared with prior methods. Evaluations on Llama-3.1-8B-Instruct and Llama-3.1-70B-Instruct-FP8 achieve compression rates up to 8x with negligible impact on performance, and up to 64x while retaining over 90% of full-cache performance for all but three of the suite's subsets. We benchmark an integration of our method with vLLM that increases total throughput by up to 5.18x by enabling larger decoding batches.
翻訳日:2024-11-05 10:14:04 公開日:2024-10-07
# KV圧縮:アテンションヘッドあたりの圧縮速度が可変なページKVキャッシュ圧縮

KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head ( http://arxiv.org/abs/2410.00161v2 )

ライセンス: Link先を確認
Isaac Rehg, (参考訳) 大規模言語モデル(LLM)のコンテキスト長は近年爆発的に増加しており、128kのコンテキストが標準となり、100万のコンテキストが現実になる。 キー値(KV)キャッシュに割り当てられるメモリは、そのコンテキスト長とともに世代スケールで割り当てられなければならないため、与えられたメモリ予算の下で同時に提供可能なロングコンテキストリクエストの数を制限するため、ロングコンテキスト推論を効果的にサポートすることは依然として困難である。 KVキャッシュ圧縮は、各アテンションヘッドのキャッシュから未使用のKVを取り除き、メモリフットプリントを減らすことでこの問題を軽減することができる。 既存の推論フレームワークにおけるこのような戦略の適用は断片化を増し、物理メモリにおける理論的圧縮速度を実現することができない。 我々は,PagedAttentionフレームワーク内で連続KVブロックを排除し,KVキャッシュのメモリフットプリントをこの理論的圧縮率に比例して削減する,新しい圧縮手法であるKV-Compressを紹介する。 提案手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchの圧縮KVの総数を従来の方法に比べて4倍減らすとともに,LongBenchの最先端性能を実現する。 Llama-3.1-8B-インストラクタとLlama-3.1-70B-インストラクタ-FP8の評価では、圧縮速度は最大8倍、性能は最大64倍となり、スイートの3つのサブセットを除いて、フルキャッシュ性能の90%以上を維持している。 我々は,より大規模な復号バッチを実現することで,スループットを最大5.18倍に向上するvLLMとメソッドの統合をベンチマークする。

Context lengths of Large Language Models (LLMs) have exploded in recent years, with 128k-token context becoming a standard and million-token context becoming a reality. Efficiently supporting long-context inference remains challenging as the memory that must be allocated in key-value (KV) cache for a generation scales with its context length, limiting the number of long-context requests that can be served concurrently under a given memory budget. KV cache compression can mitigate this issue by removing under-utilized KVs from each attention head's cache and reducing its memory footprint. Higher theoretical compression rates can be achieved when the number of removed KVs varies across attention heads, but application of such a strategy within existing inference frameworks adds fragmentation and cannot realize the theoretical compression rates in physical memory. We introduce KV-Compress, a novel compression method that evicts contiguous KV blocks within a PagedAttention framework, reducing the memory footprint of the KV cache proportionally to this theoretical compression rate. Our method achieves state-of-the-art performance on LongBench for both Mistral-7B-Instruct-v0.2 and Llama-3.1-8B-Instruct while lowering the total number of compressed KVs by 4x compared with prior methods. Evaluations on Llama-3.1-8B-Instruct and Llama-3.1-70B-Instruct-FP8 achieve compression rates up to 8x with negligible impact on performance, and up to 64x while retaining over 90% of full-cache performance for all but three of the suite's subsets. We benchmark an integration of our method with vLLM that increases total throughput by up to 5.18x by enabling larger decoding batches.
翻訳日:2024-11-05 10:14:04 公開日:2024-10-07
# 人間中心学習による機械翻訳におけるジェンダーバイアスの有形影響の定量化

What the Harm? Quantifying the Tangible Impact of Gender Bias in Machine Translation with a Human-centered Study ( http://arxiv.org/abs/2410.00545v1 )

ライセンス: Link先を確認
Beatrice Savoldi, Sara Papi, Matteo Negri, Ana Guerberof, Luisa Bentivogli, (参考訳) 機械翻訳(MT)におけるジェンダーバイアスは、人や社会に害を与える問題として認識されている。 しかし、この分野の進歩には、人々、最後のMTユーザー、あるいは偏見のある技術によってどのように影響を受けるかを伝えることはめったにない。 現在の評価は、しばしば、性別格差の下流への影響を不透明に見積もる自動手法に制限される。 我々は、MTにおける偏見が、女性と男性間のサービスギャップの質など、具体的なコストにどの程度の害をもたらすかを調べるために、広範囲にわたる人間中心の研究を行う。 この目的のために, MT出力を後編集した90人の参加者から行動データを収集し, 正しい性翻訳を確実にする。 複数のデータセット、言語、タイプのユーザーに対して、女性の編集後要求は、より技術的、時間的努力が大幅に増加し、財務コストも上昇した。 しかし、既存のバイアス測定は、見いだされた格差を反映することができない。 我々の研究は、偏見の社会的影響を知らせる人間中心のアプローチを提唱する。

Gender bias in machine translation (MT) is recognized as an issue that can harm people and society. And yet, advancements in the field rarely involve people, the final MT users, or inform how they might be impacted by biased technologies. Current evaluations are often restricted to automatic methods, which offer an opaque estimate of what the downstream impact of gender disparities might be. We conduct an extensive human-centered study to examine if and to what extent bias in MT brings harms with tangible costs, such as quality of service gaps across women and men. To this aim, we collect behavioral data from 90 participants, who post-edited MT outputs to ensure correct gender translation. Across multiple datasets, languages, and types of users, our study shows that feminine post-editing demands significantly more technical and temporal effort, also corresponding to higher financial costs. Existing bias measurements, however, fail to reflect the found disparities. Our findings advocate for human-centered approaches that can inform the societal impact of bias.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-07
# 人間中心学習による機械翻訳におけるジェンダーバイアスの有形影響の定量化

What the Harm? Quantifying the Tangible Impact of Gender Bias in Machine Translation with a Human-centered Study ( http://arxiv.org/abs/2410.00545v2 )

ライセンス: Link先を確認
Beatrice Savoldi, Sara Papi, Matteo Negri, Ana Guerberof, Luisa Bentivogli, (参考訳) 機械翻訳(MT)におけるジェンダーバイアスは、人や社会に害を与える問題として認識されている。 しかし、この分野の進歩には、人々、最後のMTユーザー、あるいは偏見のある技術によってどのように影響を受けるかを伝えることはめったにない。 現在の評価は、しばしば、性別格差の下流への影響を不透明に見積もる自動手法に制限される。 我々は、MTにおける偏見が、女性と男性間のサービスギャップの質など、具体的なコストにどの程度の害をもたらすかを調べるために、広範囲にわたる人間中心の研究を行う。 この目的のために, MT出力を後編集した90人の参加者から行動データを収集し, 正しい性翻訳を確実にする。 複数のデータセット、言語、タイプのユーザーに対して、女性の編集後要求は、より技術的、時間的努力が大幅に増加し、財務コストも上昇した。 しかし、既存のバイアス測定は、見いだされた格差を反映することができない。 我々の研究は、偏見の社会的影響を知らせる人間中心のアプローチを提唱する。

Gender bias in machine translation (MT) is recognized as an issue that can harm people and society. And yet, advancements in the field rarely involve people, the final MT users, or inform how they might be impacted by biased technologies. Current evaluations are often restricted to automatic methods, which offer an opaque estimate of what the downstream impact of gender disparities might be. We conduct an extensive human-centered study to examine if and to what extent bias in MT brings harms with tangible costs, such as quality of service gaps across women and men. To this aim, we collect behavioral data from 90 participants, who post-edited MT outputs to ensure correct gender translation. Across multiple datasets, languages, and types of users, our study shows that feminine post-editing demands significantly more technical and temporal effort, also corresponding to higher financial costs. Existing bias measurements, however, fail to reflect the found disparities. Our findings advocate for human-centered approaches that can inform the societal impact of bias.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-07
# 非シグナリング型古典量子チャネル符号化における誤り指数

Error exponent of activated non-signaling assisted classical-quantum channel coding ( http://arxiv.org/abs/2410.01084v1 )

ライセンス: Link先を確認
Aadil Oufkir, Marco Tomamichel, Mario Berta, (参考訳) 本稿では,非シグナリングの活性化による古典量子チャネル符号化における誤り指数の厳密な漸近的特徴付けについて述べる。 すなわち、最適な指数---------------------------------------------------------------------------------------------------- ---------------------------------------------------------------------------------------------------- ------------------ 注目すべきは、臨界速度は存在せず、キャパシティ以下で任意に低いレートでキャラクタリゼーションを厳格に保っていることです。 達成性については、結果を完全な量子チャネルに拡張する。 我々の証明は半定値プログラム双対性と、ヤング不等式によるペッツ・R'enyi発散の双対表現に依存している。 独立な興味の結果、位数 $\alpha\in[0,2]$ のペッツ-R'enyi の発散は、位数 $1/(2-\alpha)\in[1/2,\infty]$ のサンドイッチ付き R'enyi の発散によって上界となることが分かる。

We provide a tight asymptotic characterization of the error exponent for classical-quantum channel coding assisted by activated non-signaling correlations. Namely, we find that the optimal exponent\, -- \,also called reliability function\, -- \,is equal to the well-known sphere packing bound, which can be written as a single-letter formula optimized over Petz-R\'enyi divergences. Remarkably, there is no critical rate and as such our characterization remains tight for arbitrarily low rates below the capacity. On the achievability side, we further extend our results to fully quantum channels. Our proofs rely on semi-definite program duality and a dual representation of the Petz-R\'enyi divergences via Young inequalities. As a result of independent interest, we find that the Petz-R\'enyi divergences of order $\alpha\in[0,2]$ are upper bounded by the sandwiched R\'enyi divergences of order $1/(2-\alpha)\in[1/2,\infty]$.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-07
# 非シグナリング型古典量子チャネル符号化における誤り指数

Error exponent of activated non-signaling assisted classical-quantum channel coding ( http://arxiv.org/abs/2410.01084v2 )

ライセンス: Link先を確認
Aadil Oufkir, Marco Tomamichel, Mario Berta, (参考訳) 本稿では,非シグナリングの活性化による古典量子チャネル符号化における誤り指数の厳密な漸近的特徴付けについて述べる。 すなわち、最適指数(信頼性関数とも呼ばれる)は、ペッツ・R'enyi の発散に最適化されたシングルレター公式として記述できる、よく知られた球包装境界に等しいことが分かる。 注目すべきは、臨界速度は存在せず、キャパシティ以下で任意に低いレートでキャラクタリゼーションを厳格に保っていることです。 達成性については、結果を完全な量子チャネルに拡張する。 我々の証明は半定値プログラム双対性と、ヤング不等式によるペッツ・R'enyi発散の双対表現に依存している。

We provide a tight asymptotic characterization of the error exponent for classical-quantum channel coding assisted by activated non-signaling correlations. Namely, we find that the optimal exponent--also called reliability function--is equal to the well-known sphere packing bound, which can be written as a single-letter formula optimized over Petz-R\'enyi divergences. Remarkably, there is no critical rate and as such our characterization remains tight for arbitrarily low rates below the capacity. On the achievability side, we further extend our results to fully quantum channels. Our proofs rely on semi-definite program duality and a dual representation of the Petz-R\'enyi divergences via Young inequalities.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-07
# ソフトマックスは十分ではない(分布の鋭いアウト・オブ・ディストリビューションのために)

softmax is not enough (for sharp out-of-distribution) ( http://arxiv.org/abs/2410.01104v1 )

ライセンス: Link先を確認
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu, (参考訳) 推論システムの重要な特性は、入力データに対して鋭い決定を行う能力である。 現代のAIシステムでは、シャープな振る舞いのキーキャリアはソフトマックス関数であり、異なるクエリキーのルックアップを実行することができる。 ソフトマックスを利用したネットワークの予測力は、様々な入力に対して一定の種類の計算を確実に行う「回路」から生じるという一般的な信念である。 しかし、これらの回路が堅牢であるためには、任意の有効な入力に対してうまく一般化する必要がある。 最大鍵を見つけるのと同じくらい簡単なタスクであっても、学習回路はテスト時に項目数が増加するにつれて分散しなければならない。 我々はこれを,ソフトマックス関数の基本的制限として,シャープ関数を頑健に近似し,理論的にこれを証明し,推定時のソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。

A key property of reasoning systems is the ability to make sharp decisions on their input data. For contemporary AI systems, a key carrier of sharp behaviour is the softmax function, with its capability to perform differentiable query-key lookups. It is a common belief that the predictive power of networks leveraging softmax arises from "circuits" which sharply perform certain kinds of computations consistently across many diverse inputs. However, for these circuits to be robust, they would need to generalise well to arbitrary valid inputs. In this paper, we dispel this myth: even for tasks as simple as finding the maximum key, any learned circuitry must disperse as the number of items grows at test time. We attribute this to a fundamental limitation of the softmax function to robustly approximate sharp functions, prove this phenomenon theoretically, and propose adaptive temperature as an ad-hoc technique for improving the sharpness of softmax at inference time.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-07
# ソフトマックスは十分ではない(分布の鋭いアウト・オブ・ディストリビューションのために)

softmax is not enough (for sharp out-of-distribution) ( http://arxiv.org/abs/2410.01104v2 )

ライセンス: Link先を確認
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu, (参考訳) 推論システムの重要な特性は、入力データに対して鋭い決定を行う能力である。 現代のAIシステムでは、シャープな振る舞いのキーキャリアはソフトマックス関数であり、異なるクエリキーのルックアップを実行することができる。 ソフトマックスを利用したネットワークの予測力は、様々な入力に対して一定の種類の計算を確実に行う「回路」から生じるという一般的な信念である。 しかし、これらの回路が堅牢であるためには、任意の有効な入力に対してうまく一般化する必要がある。 最大鍵を見つけるのと同じくらい簡単なタスクであっても、学習回路はテスト時に項目数が増加するにつれて分散しなければならない。 我々はこれを,ソフトマックス関数の基本的制限として,シャープ関数を頑健に近似し,理論的にこれを証明し,推定時のソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。

A key property of reasoning systems is the ability to make sharp decisions on their input data. For contemporary AI systems, a key carrier of sharp behaviour is the softmax function, with its capability to perform differentiable query-key lookups. It is a common belief that the predictive power of networks leveraging softmax arises from "circuits" which sharply perform certain kinds of computations consistently across many diverse inputs. However, for these circuits to be robust, they would need to generalise well to arbitrary valid inputs. In this paper, we dispel this myth: even for tasks as simple as finding the maximum key, any learned circuitry must disperse as the number of items grows at test time. We attribute this to a fundamental limitation of the softmax function to robustly approximate sharp functions, prove this phenomenon theoretically, and propose adaptive temperature as an ad-hoc technique for improving the sharpness of softmax at inference time.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-07
# 知覚的ピアシング:低視認性条件下での人間の視覚的キューに基づく物体検出

Perceptual Piercing: Human Visual Cue-based Object Detection in Low Visibility Conditions ( http://arxiv.org/abs/2410.01225v1 )

ライセンス: Link先を確認
Ashutosh Kumar, (参考訳) 本研究では,大気散乱と人間の視覚野機構に触発された新しい深層学習フレームワークを提案する。 これらの条件は、自律運転、航空管理、セキュリティシステムを含む様々な分野に影響を及ぼす、物体認識に重大な課題をもたらす。 本研究の目的は, 環境条件下での検知システムの精度と信頼性を高めることである。 この研究は、物体検出の計算効率と精度に与える影響を確かめるために、人のような視覚的手がかりの統合、特に選択的注意と環境適応性に焦点を当てている。 本稿では,初期早期検出プロセスを統合したマルチ階層戦略を提案する。 この手法はFOGY Cityscapes, RESIDE-beta (OTS and RTTS) データセットを用いて検証され, 計算効率を著しく最適化しつつ, 検出精度において新たな性能基準を設定することが期待されている。 この発見は、視認性の低い物体検出を強化するための実行可能なソリューションを提供し、人間の視覚原理を深層学習アルゴリズムに統合して、複雑な視覚的認識課題を克服する、というより広い理解に寄与する。

This study proposes a novel deep learning framework inspired by atmospheric scattering and human visual cortex mechanisms to enhance object detection under poor visibility scenarios such as fog, smoke, and haze. These conditions pose significant challenges for object recognition, impacting various sectors, including autonomous driving, aviation management, and security systems. The objective is to enhance the precision and reliability of detection systems under adverse environmental conditions. The research investigates the integration of human-like visual cues, particularly focusing on selective attention and environmental adaptability, to ascertain their impact on object detection's computational efficiency and accuracy. This paper proposes a multi-tiered strategy that integrates an initial quick detection process, followed by targeted region-specific dehazing, and concludes with an in-depth detection phase. The approach is validated using the Foggy Cityscapes, RESIDE-beta (OTS and RTTS) datasets and is anticipated to set new performance standards in detection accuracy while significantly optimizing computational efficiency. The findings offer a viable solution for enhancing object detection in poor visibility and contribute to the broader understanding of integrating human visual principles into deep learning algorithms for intricate visual recognition challenges.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-07
# 知覚的ピアシング:低視認性条件下での人間の視覚的キューに基づく物体検出

Perceptual Piercing: Human Visual Cue-based Object Detection in Low Visibility Conditions ( http://arxiv.org/abs/2410.01225v2 )

ライセンス: Link先を確認
Ashutosh Kumar, (参考訳) 本研究では,大気散乱と人間の視覚野機構に触発された新しい深層学習フレームワークを提案する。 これらの条件は、自律運転、航空管理、セキュリティシステムを含む様々な分野に影響を及ぼす、物体認識に重大な課題をもたらす。 本研究の目的は, 環境条件下での検知システムの精度と信頼性を高めることである。 この研究は、物体検出の計算効率と精度に与える影響を確かめるために、人のような視覚的手がかりの統合、特に選択的注意と環境適応性に焦点を当てている。 本稿では,初期早期検出プロセスを統合したマルチ階層戦略を提案する。 この手法はFOGY Cityscapes, RESIDE-beta (OTS and RTTS) データセットを用いて検証され, 計算効率を著しく最適化しつつ, 検出精度において新たな性能基準を設定することが期待されている。 この発見は、視認性の低い物体検出を強化するための実行可能なソリューションを提供し、人間の視覚原理を深層学習アルゴリズムに統合して、複雑な視覚的認識課題を克服する、というより広い理解に寄与する。

This study proposes a novel deep learning framework inspired by atmospheric scattering and human visual cortex mechanisms to enhance object detection under poor visibility scenarios such as fog, smoke, and haze. These conditions pose significant challenges for object recognition, impacting various sectors, including autonomous driving, aviation management, and security systems. The objective is to enhance the precision and reliability of detection systems under adverse environmental conditions. The research investigates the integration of human-like visual cues, particularly focusing on selective attention and environmental adaptability, to ascertain their impact on object detection's computational efficiency and accuracy. This paper proposes a multi-tiered strategy that integrates an initial quick detection process, followed by targeted region-specific dehazing, and concludes with an in-depth detection phase. The approach is validated using the Foggy Cityscapes, RESIDE-beta (OTS and RTTS) datasets and is anticipated to set new performance standards in detection accuracy while significantly optimizing computational efficiency. The findings offer a viable solution for enhancing object detection in poor visibility and contribute to the broader understanding of integrating human visual principles into deep learning algorithms for intricate visual recognition challenges.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-07
# FLAME:Federated Learning Deploymentsのための適応的でリアクティブなコンセプトドリフト緩和

FLAME: Adaptive and Reactive Concept Drift Mitigation for Federated Learning Deployments ( http://arxiv.org/abs/2410.01386v1 )

ライセンス: Link先を確認
Ioannis Mavromatis, Stefano De Feo, Aftab Khan, (参考訳) 本稿では,Federated Learning with Adaptive Monitoring and Elimination (FLAME)という,Federated Learning (FL) Internet of Things (IoT)環境におけるコンセプトドリフトの検出と緩和が可能な新しいソリューションを提案する。 コンセプトドリフトは、動的および実世界の設定でデプロイされたFLモデルに重大な課題をもたらす。 FLAMEはFLアーキテクチャを活用し、現実世界のFLパイプラインを検討し、帯域幅とプライバシーの制約に対処しながらモデルの性能と精度を維持する能力を証明する。 FLAMEは、以前の作業で様々な機能や拡張を導入し、コンセプトドリフトに対する堅牢なソリューションを提供し、計算負荷と通信オーバーヘッドを大幅に削減した。 FLAMEは、よく知られた軽量緩和方法と比較して、高いF1スコアの維持と大規模なIoTデプロイメントにおけるリソース利用の削減に優れたパフォーマンスを示しており、現実のアプリケーションには有望なアプローチである。

This paper presents Federated Learning with Adaptive Monitoring and Elimination (FLAME), a novel solution capable of detecting and mitigating concept drift in Federated Learning (FL) Internet of Things (IoT) environments. Concept drift poses significant challenges for FL models deployed in dynamic and real-world settings. FLAME leverages an FL architecture, considers a real-world FL pipeline, and proves capable of maintaining model performance and accuracy while addressing bandwidth and privacy constraints. Introducing various features and extensions on previous works, FLAME offers a robust solution to concept drift, significantly reducing computational load and communication overhead. Compared to well-known lightweight mitigation methods, FLAME demonstrates superior performance in maintaining high F1 scores and reducing resource utilisation in large-scale IoT deployments, making it a promising approach for real-world applications.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-07
# FLAME:Federated Learning Deploymentsのための適応的でリアクティブなコンセプトドリフト緩和

FLAME: Adaptive and Reactive Concept Drift Mitigation for Federated Learning Deployments ( http://arxiv.org/abs/2410.01386v2 )

ライセンス: Link先を確認
Ioannis Mavromatis, Stefano De Feo, Aftab Khan, (参考訳) 本稿では,Federated Learning with Adaptive Monitoring and Elimination (FLAME)という,Federated Learning (FL) Internet of Things (IoT)環境におけるコンセプトドリフトの検出と緩和が可能な新しいソリューションを提案する。 コンセプトドリフトは、動的および実世界の設定でデプロイされたFLモデルに重大な課題をもたらす。 FLAMEはFLアーキテクチャを活用し、現実世界のFLパイプラインを検討し、帯域幅とプライバシーの制約に対処しながらモデルの性能と精度を維持する能力を証明する。 FLAMEは、以前の作業で様々な機能や拡張を導入し、コンセプトドリフトに対する堅牢なソリューションを提供し、計算負荷と通信オーバーヘッドを大幅に削減した。 FLAMEは、よく知られた軽量緩和方法と比較して、高いF1スコアの維持と大規模なIoTデプロイメントにおけるリソース利用の削減に優れたパフォーマンスを示しており、現実のアプリケーションには有望なアプローチである。

This paper presents Federated Learning with Adaptive Monitoring and Elimination (FLAME), a novel solution capable of detecting and mitigating concept drift in Federated Learning (FL) Internet of Things (IoT) environments. Concept drift poses significant challenges for FL models deployed in dynamic and real-world settings. FLAME leverages an FL architecture, considers a real-world FL pipeline, and proves capable of maintaining model performance and accuracy while addressing bandwidth and privacy constraints. Introducing various features and extensions on previous works, FLAME offers a robust solution to concept drift, significantly reducing computational load and communication overhead. Compared to well-known lightweight mitigation methods, FLAME demonstrates superior performance in maintaining high F1 scores and reducing resource utilisation in large-scale IoT deployments, making it a promising approach for real-world applications.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-07
# 言語モデルの生涯における構成性の幾何学的シグナチャ

Geometric Signatures of Compositionality Across a Language Model's Lifetime ( http://arxiv.org/abs/2410.01444v1 )

ライセンス: Link先を確認
Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng, (参考訳) 構成性、つまり表現の意味は、その部分の意味と統語規則から成り立っているという概念は、人間の言語の無限の生産性を許容する。 初めて、人工言語モデル(LM)は、多くの構成的一般化タスクにおいて、人間のパフォーマンスにマッチする。 しかしながら、これらの能力の根底にある表現機構について、多くのことが理解されている。 本稿では,データセットにおける構成性の度合いと,その表現の内在次元を,特徴複雑性の尺度であるLMの下で関連付けることにより,この問題に対して高レベルの幾何学的アプローチをとる。 データセットの構成性の度合いが表現の本質的な次元に反映されるだけでなく、構成性と幾何学的複雑性の関係が学習した言語的特徴によって生じることが分かる。 最後に, 線形次元と非線形次元の顕著な対比から, 言語構成の形式的側面と意味的側面をそれぞれエンコードしていることを示す。

Compositionality, the notion that the meaning of an expression is constructed from the meaning of its parts and syntactic rules, permits the infinite productivity of human language. For the first time, artificial language models (LMs) are able to match human performance in a number of compositional generalization tasks. However, much remains to be understood about the representational mechanisms underlying these abilities. We take a high-level geometric approach to this problem by relating the degree of compositionality in a dataset to the intrinsic dimensionality of its representations under an LM, a measure of feature complexity. We find not only that the degree of dataset compositionality is reflected in representations' intrinsic dimensionality, but that the relationship between compositionality and geometric complexity arises due to learned linguistic features over training. Finally, our analyses reveal a striking contrast between linear and nonlinear dimensionality, showing that they respectively encode formal and semantic aspects of linguistic composition.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-07
# 言語モデルの生涯における構成性の幾何学的シグナチャ

Geometric Signatures of Compositionality Across a Language Model's Lifetime ( http://arxiv.org/abs/2410.01444v2 )

ライセンス: Link先を確認
Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng, (参考訳) 構成性、つまり表現の意味は、その部分の意味と統語規則から成り立っているという概念は、人間の言語の無限の生産性を許容する。 初めて、人工言語モデル(LM)は、多くの構成的一般化タスクにおいて、人間のパフォーマンスにマッチする。 しかしながら、これらの能力の根底にある表現機構について、多くのことが理解されている。 本稿では,データセットにおける構成性の度合いと,その表現の内在次元を,特徴複雑性の尺度であるLMの下で関連付けることにより,この問題に対して高レベルの幾何学的アプローチをとる。 データセットの構成性の度合いが表現の本質的な次元に反映されるだけでなく、構成性と幾何学的複雑性の関係が学習した言語的特徴によって生じることが分かる。 最後に, 線形次元と非線形次元の顕著な対比から, 言語構成の形式的側面と意味的側面をそれぞれエンコードしていることを示す。

Compositionality, the notion that the meaning of an expression is constructed from the meaning of its parts and syntactic rules, permits the infinite productivity of human language. For the first time, artificial language models (LMs) are able to match human performance in a number of compositional generalization tasks. However, much remains to be understood about the representational mechanisms underlying these abilities. We take a high-level geometric approach to this problem by relating the degree of compositionality in a dataset to the intrinsic dimensionality of its representations under an LM, a measure of feature complexity. We find not only that the degree of dataset compositionality is reflected in representations' intrinsic dimensionality, but that the relationship between compositionality and geometric complexity arises due to learned linguistic features over training. Finally, our analyses reveal a striking contrast between linear and nonlinear dimensionality, showing that they respectively encode formal and semantic aspects of linguistic composition.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-07
# BEADS:量子情報処理への応用のための量子状態のカノニカル可視化

BEADS: A Canonical Visualization of Quantum States for Applications in Quantum Information Processing ( http://arxiv.org/abs/2410.01446v1 )

ライセンス: Link先を確認
Dennis Huber, Steffen J. Glaser, (参考訳) 本稿では、BEADS表現と呼ばれる量子ビット系の一般化された位相空間表現を導入し、任意の量子状態を直感的で分かりやすい方法で可視化できるようにする。 同時に、私たちの表現は正確で、単射的で、一般的です。 これは、量子力学現象の非常に抽象的な数学的記述と、意味のある画像と有形モデルの観点から、それらを非特殊主義者に伝達する使命のギャップを埋めるものである。 量子力学の一般への通信においてBEADS表現を使用する場合、いくつかのレベルの単純化が選択できる。 特に、この視覚化はSchr\"odinger's cat"のような単純な比喩とは対照的に予測力を持つ。

Here, we introduce a generalized phase-space representation of qubit systems called the BEADS representation which makes it possible to visualize arbitrary quantum states in an intuitive and an easy to grasp way. At the same time, our representation is exact, bijective, and general. It bridges the gap between the highly abstract mathematical description of quantum mechanical phenomena and the mission to convey them to non-specialists in terms of meaningful pictures and tangible models. Several levels of simplifications can be chosen, e.g., when using the BEADS representation in the communication of quantum mechanics to the general public. In particular, this visualization has predictive power in contrast to simple metaphors such as Schr\"odinger's cat.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-07
# BEADS:量子情報処理への応用のための量子状態のカノニカル可視化

BEADS: A Canonical Visualization of Quantum States for Applications in Quantum Information Processing ( http://arxiv.org/abs/2410.01446v2 )

ライセンス: Link先を確認
Dennis Huber, Steffen J. Glaser, (参考訳) 我々は、BEADS表現と呼ばれる量子ビット系の一般化された位相空間表現を導入し、任意の量子状態を直感的で分かりやすい方法で視覚化できるようにする。 同時に、私たちの表現は正確で、単射的で、一般的です。 これは、量子力学現象の非常に抽象的な数学的記述と、意味のある画像と有形モデルの観点から、それらを非特殊主義者に伝達する使命のギャップを埋めるものである。 量子力学の一般への通信においてBEADS表現を使用する場合、いくつかのレベルの単純化が選択できる。 特に、この視覚化はSchr\"odinger's cat"のような単純な比喩とは対照的に予測力を持つ。

We introduce a generalized phase-space representation of qubit systems called the BEADS representation which makes it possible to visualize arbitrary quantum states in an intuitive and an easy to grasp way. At the same time, our representation is exact, bijective, and general. It bridges the gap between the highly abstract mathematical description of quantum mechanical phenomena and the mission to convey them to non-specialists in terms of meaningful pictures and tangible models. Several levels of simplifications can be chosen, e.g., when using the BEADS representation in the communication of quantum mechanics to the general public. In particular, this visualization has predictive power in contrast to simple metaphors such as Schr\"odinger's cat.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-07
# 自律走行における軌道予測のためのエントロピーに基づく不確実性モデル

Entropy-Based Uncertainty Modeling for Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2410.01628v1 )

ライセンス: Link先を確認
Aron Distelzweig, Andreas Look, Eitan Kosman, Faris Janjoš, Jörg Wagner, Abhinav Valadaa, (参考訳) 自律運転では、安全かつ効率的な運動計画に正確な動き予測が不可欠である。 安全を確保するため、プランナーは周辺エージェントの将来の行動に関する確実な不確実性情報に頼る必要があるが、この側面は限定的な注目を集めている。 本稿では、軌道予測における不確実性モデリングのいわゆる無視問題に対処する。 我々は、不確実性の定量化、分解、およびモデル構成の影響に焦点を当てた全体論的アプローチを採用する。 提案手法は,不確実性を測定するための理論的に基礎付けられた情報理論的アプローチに基づいており,総不確実性をアレタリック成分とてんかん成分に分解することができる。 我々はnuScenesデータセットに関する広範な実験を行い、異なるモデルアーキテクチャと構成が不確実性定量化とモデルロバスト性にどのように影響するかを評価する。

In autonomous driving, accurate motion prediction is essential for safe and efficient motion planning. To ensure safety, planners must rely on reliable uncertainty information about the predicted future behavior of surrounding agents, yet this aspect has received limited attention. This paper addresses the so-far neglected problem of uncertainty modeling in trajectory prediction. We adopt a holistic approach that focuses on uncertainty quantification, decomposition, and the influence of model composition. Our method is based on a theoretically grounded information-theoretic approach to measure uncertainty, allowing us to decompose total uncertainty into its aleatoric and epistemic components. We conduct extensive experiments on the nuScenes dataset to assess how different model architectures and configurations affect uncertainty quantification and model robustness.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-07
# 自律走行における軌道予測のためのエントロピーに基づく不確実性モデル

Entropy-Based Uncertainty Modeling for Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2410.01628v2 )

ライセンス: Link先を確認
Aron Distelzweig, Andreas Look, Eitan Kosman, Faris Janjoš, Jörg Wagner, Abhinav Valada, (参考訳) 自律運転では、安全かつ効率的な運動計画に正確な動き予測が不可欠である。 安全を確保するため、プランナーは周辺エージェントの将来の行動に関する確実な不確実性情報に頼る必要があるが、この側面は限定的な注目を集めている。 本稿では、軌道予測における不確実性モデリングのいわゆる無視問題に対処する。 我々は、不確実性の定量化、分解、およびモデル構成の影響に焦点を当てた全体論的アプローチを採用する。 提案手法は,不確実性を測定するための理論的に基礎付けられた情報理論的アプローチに基づいており,総不確実性をアレタリック成分とてんかん成分に分解することができる。 我々はnuScenesデータセットに関する広範な実験を行い、異なるモデルアーキテクチャと構成が不確実性定量化とモデルロバスト性にどのように影響するかを評価する。

In autonomous driving, accurate motion prediction is essential for safe and efficient motion planning. To ensure safety, planners must rely on reliable uncertainty information about the predicted future behavior of surrounding agents, yet this aspect has received limited attention. This paper addresses the so-far neglected problem of uncertainty modeling in trajectory prediction. We adopt a holistic approach that focuses on uncertainty quantification, decomposition, and the influence of model composition. Our method is based on a theoretically grounded information-theoretic approach to measure uncertainty, allowing us to decompose total uncertainty into its aleatoric and epistemic components. We conduct extensive experiments on the nuScenes dataset to assess how different model architectures and configurations affect uncertainty quantification and model robustness.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-07
# 待ち時間分布を用いた非マルコフ的近藤輸送の探索

Revealing non-Markovian Kondo transport with waiting time distributions ( http://arxiv.org/abs/2410.01717v1 )

ライセンス: Link先を確認
Feng-Jui Chan, Po-Chen Kuo, Neill Lambert, Mauro Cirio, Yueh-Nan Chen, (参考訳) 単一不純物アンダーソンモデルにおける非マルコフ輸送力学と近藤効果のシグネチャについて検討する。 モデルは、左の鉛に超強結合し、右の鉛が検出器として働く弱い結合を持つ量子ドット(QD)で構成されている。 我々は,階層的運動アプローチ方程式(HEOM)と装束マスター方程式の組み合わせを用いて,検出器にトンネルする電子の待ち時間分布(WTD)を算出する。 短時間のWTDでは振動が出現し、強い左リード結合によってより顕著になる。 フーリエ解析により、結合が増加するにつれて振動周波数のブルーシフトが明らかとなり、システム-バスのハイブリッド化が促進された。 重要なことに、服を着たマスター方程式との比較は、これらの振動が非マルコフ系-バス相関の直接的な結果であることを確認した。 我々は、量子ドットのクーロン反発を変化させることで、これらの振動に対する近藤効果の影響を検討する。 この相互作用の増大は、量子ドットの状態密度における強化された近藤共鳴のシグネチャと一致するWTD振動を増加させる。 その結果,WTD振動は,非マルコフ系-バス相互作用と量子ドット系における近藤相関の出現を推定するための貴重なツールであることが示された。

We investigate non-Markovian transport dynamics and signatures of the Kondo effect in a single impurity Anderson model. The model consists of a quantum dot (QD) with ultra-strong coupling to a left lead and weak coupling to a right lead acting as a detector. We calculate the waiting time distribution (WTD) of electrons tunneling into the detector using a combination of the hierarchical equations of motion approach (HEOM) and a dressed master equation. Oscillations emerge in the short-time WTD, becoming more pronounced with stronger left-lead coupling. Fourier analysis reveals a blue shift in the oscillation frequency as coupling increases, indicating enhanced system-bath hybridization. Crucially, comparison with a dressed master equation confirms that these oscillations are a direct consequence of non-Markovian system-bath correlations. We examine the Kondo effect's influence on these oscillations by varying the quantum dot's Coulomb repulsion. Increasing this interaction enhances the WTD oscillations, coinciding with the signatures of a strengthened Kondo resonance in the quantum dot's density of states. Our results demonstrate that WTD oscillations offer a valuable tool for probing non-Markovian system-bath interactions and the emergence of Kondo correlations within quantum dot systems.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-07
# 待ち時間分布を用いた非マルコフ的近藤輸送の探索

Revealing non-Markovian Kondo transport with waiting time distributions ( http://arxiv.org/abs/2410.01717v2 )

ライセンス: Link先を確認
Feng-Jui Chan, Po-Chen Kuo, Neill Lambert, Mauro Cirio, Yueh-Nan Chen, (参考訳) 単一不純物アンダーソンモデルにおける非マルコフ輸送力学と近藤効果のシグネチャについて検討する。 モデルは、左の鉛に超強結合し、右の鉛が検出器として働く弱い結合を持つ量子ドット(QD)で構成されている。 我々は,階層的運動アプローチ方程式(HEOM)と装束マスター方程式の組み合わせを用いて,検出器にトンネルする電子の待ち時間分布(WTD)を算出する。 短時間のWTDでは振動が出現し、強い左リード結合によってより顕著になる。 フーリエ解析により、結合が増加するにつれて振動周波数のブルーシフトが明らかとなり、システム-バスのハイブリッド化が促進された。 重要なことに、服を着たマスター方程式との比較は、これらの振動が非マルコフ系-バス相関の直接的な結果であることを確認した。 我々は、量子ドットのクーロン反発を変化させることで、これらの振動に対する近藤効果の影響を検討する。 この相互作用の増大は、量子ドットの状態密度における強化された近藤共鳴のシグネチャと一致するWTD振動を増加させる。 その結果,WTD振動は,非マルコフ系-バス相互作用と量子ドット系における近藤相関の出現を推定するための貴重なツールであることが示された。

We investigate non-Markovian transport dynamics and signatures of the Kondo effect in a single impurity Anderson model. The model consists of a quantum dot (QD) with ultra-strong coupling to a left lead and weak coupling to a right lead acting as a detector. We calculate the waiting time distribution (WTD) of electrons tunneling into the detector using a combination of the hierarchical equations of motion approach (HEOM) and a dressed master equation. Oscillations emerge in the short-time WTD, becoming more pronounced with stronger left-lead coupling. Fourier analysis reveals a blue shift in the oscillation frequency as coupling increases, indicating enhanced system-bath hybridization. Crucially, comparison with a dressed master equation confirms that these oscillations are a direct consequence of non-Markovian system-bath correlations. We examine the Kondo effect's influence on these oscillations by varying the quantum dot's Coulomb repulsion. Increasing this interaction enhances the WTD oscillations, coinciding with the signatures of a strengthened Kondo resonance in the quantum dot's density of states. Our results demonstrate that WTD oscillations offer a valuable tool for probing non-Markovian system-bath interactions and the emergence of Kondo correlations within quantum dot systems.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-07
# ジェイルブレイク解毒剤:大言語モデルにおけるスパース表現調整による実行時安全・実用バランス

Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models ( http://arxiv.org/abs/2410.02298v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Xiang He, Yi Zeng, (参考訳) 大規模言語モデル(LLM)が様々なアプリケーションに不可欠なものになると、安全性と実用性の両方が最重要であることが保証される。 LLMを操作して有害なコンテンツを生成するジェイルブレイク攻撃は、このバランスに重大な課題をもたらす。 プロンプトエンジニアリングや安全性の微調整といった既存のディフェンスは、しばしば計算オーバーヘッドを導入し、推論遅延を増大させ、実行時の柔軟性を欠いている。 さらに、過度に制限された安全性対策は、良性クエリの拒否を引き起こすことによって、モデルユーティリティを劣化させる可能性がある。 本稿では,モデルの内部状態のスパースサブセットを推論中に操作することで,LLMの安全性をリアルタイムに調整する手法であるJailbreak Antidoteを紹介する。 モデルの隠れ表現を様々な強度で安全方向にシフトさせることで、トークンのオーバーヘッドや推論遅延を伴わずに、安全ユーティリティバランスを柔軟に制御できる。 解析の結果, LLMの安全性関連情報はわずかに分散しており, 内部状態の約5%の調整は, 全体の修正に匹敵する効果があることがわかった。 9つのLDM(20億から72億のパラメータ)に対する広範囲な実験を行い,9つのジェイルブレイク攻撃法に対して評価し,6つの防衛戦略と比較し,アプローチの有効性と有効性を検証した。 推論中に内部状態を直接操作することで、Jailbreak Antidoteは軽量でスケーラブルなソリューションを提供し、実用性を維持しながらLCMの安全性を高め、広くデプロイされたAIシステムにおけるリアルタイムの安全性メカニズムの新たな可能性を開く。

As large language models (LLMs) become integral to various applications, ensuring both their safety and utility is paramount. Jailbreak attacks, which manipulate LLMs into generating harmful content, pose significant challenges to this balance. Existing defenses, such as prompt engineering and safety fine-tuning, often introduce computational overhead, increase inference latency, and lack runtime flexibility. Moreover, overly restrictive safety measures can degrade model utility by causing refusals of benign queries. In this paper, we introduce Jailbreak Antidote, a method that enables real-time adjustment of LLM safety preferences by manipulating a sparse subset of the model's internal states during inference. By shifting the model's hidden representations along a safety direction with varying strengths, we achieve flexible control over the safety-utility balance without additional token overhead or inference delays. Our analysis reveals that safety-related information in LLMs is sparsely distributed; adjusting approximately 5% of the internal state is as effective as modifying the entire state. Extensive experiments on nine LLMs (ranging from 2 billion to 72 billion parameters), evaluated against ten jailbreak attack methods and compared with six defense strategies, validate the effectiveness and efficiency of our approach. By directly manipulating internal states during reasoning, Jailbreak Antidote offers a lightweight, scalable solution that enhances LLM safety while preserving utility, opening new possibilities for real-time safety mechanisms in widely-deployed AI systems.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-07
# ジェイルブレイク解毒剤:大言語モデルにおけるスパース表現調整による実行時安全・実用バランス

Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models ( http://arxiv.org/abs/2410.02298v2 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Xiang He, Yi Zeng, (参考訳) 大規模言語モデル(LLM)が様々なアプリケーションに不可欠なものになると、安全性と実用性の両方が最重要であることが保証される。 LLMを操作して有害なコンテンツを生成するジェイルブレイク攻撃は、このバランスに重大な課題をもたらす。 プロンプトエンジニアリングや安全性の微調整といった既存のディフェンスは、しばしば計算オーバーヘッドを導入し、推論遅延を増大させ、実行時の柔軟性を欠いている。 さらに、過度に制限された安全性対策は、良性クエリの拒否を引き起こすことによって、モデルユーティリティを劣化させる可能性がある。 本稿では,モデルの内部状態のスパースサブセットを推論中に操作することで,LLMの安全性をリアルタイムに調整する手法であるJailbreak Antidoteを紹介する。 モデルの隠れ表現を様々な強度で安全方向にシフトさせることで、トークンのオーバーヘッドや推論遅延を伴わずに、安全ユーティリティバランスを柔軟に制御できる。 解析の結果, LLMの安全性関連情報はわずかに分散しており, 内部状態の約5%の調整は, 全体の修正に匹敵する効果があることがわかった。 9つのLDM(20億から72億のパラメータ)に対する広範囲な実験を行い,9つのジェイルブレイク攻撃法に対して評価し,6つの防衛戦略と比較し,アプローチの有効性と有効性を検証した。 推論中に内部状態を直接操作することで、Jailbreak Antidoteは軽量でスケーラブルなソリューションを提供し、実用性を維持しながらLCMの安全性を高め、広くデプロイされたAIシステムにおけるリアルタイムの安全性メカニズムの新たな可能性を開く。

As large language models (LLMs) become integral to various applications, ensuring both their safety and utility is paramount. Jailbreak attacks, which manipulate LLMs into generating harmful content, pose significant challenges to this balance. Existing defenses, such as prompt engineering and safety fine-tuning, often introduce computational overhead, increase inference latency, and lack runtime flexibility. Moreover, overly restrictive safety measures can degrade model utility by causing refusals of benign queries. In this paper, we introduce Jailbreak Antidote, a method that enables real-time adjustment of LLM safety preferences by manipulating a sparse subset of the model's internal states during inference. By shifting the model's hidden representations along a safety direction with varying strengths, we achieve flexible control over the safety-utility balance without additional token overhead or inference delays. Our analysis reveals that safety-related information in LLMs is sparsely distributed; adjusting approximately 5% of the internal state is as effective as modifying the entire state. Extensive experiments on nine LLMs (ranging from 2 billion to 72 billion parameters), evaluated against ten jailbreak attack methods and compared with six defense strategies, validate the effectiveness and efficiency of our approach. By directly manipulating internal states during reasoning, Jailbreak Antidote offers a lightweight, scalable solution that enhances LLM safety while preserving utility, opening new possibilities for real-time safety mechanisms in widely-deployed AI systems.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-07
# メタメトリクス:人間の選好を用いたタスク生成のためのメトリクスの校正

MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences ( http://arxiv.org/abs/2410.02381v1 )

ライセンス: Link先を確認
Genta Indra Winata, David Anugraha, Lucky Susanto, Garry Kuwanto, Derry Tanti Wijaya, (参考訳) 性能評価指標の品質を理解することは、モデルの出力が人間の好みと一致していることを保証するために不可欠である。 しかし、各計量がこれらの選好の様々な側面をどれだけうまく捉えているかは、はっきりしない。 これに対処するためには、各側面の特異な特徴に対応して、人間の嗜好の特定の側面にメトリクスを体系的に調整することが不可欠である。 そこで,メタメトリックス(MetaMetrics)について紹介する。メタメトリックス(MetaMetrics)は,様々なモダリティにまたがる生成タスクを教師付きで評価するためのメタメトリックである。 MetaMetricsは既存のメトリクスの組み合わせを最適化し、人間の好みに合わせて調整する。 我々の測定基準は、言語と視覚の両方の下流タスクにおける柔軟性と有効性を示し、様々な多言語および多ドメインのシナリオにおいて大きな利点を示します。 MetaMetricsは人間の好みと密接に一致しており、どんなアプリケーションにも非常に拡張可能で簡単に統合できる。 これによりMetaMetricsは、生成タスクの評価を改善する強力なツールとなり、メトリクスがさまざまなコンテキストにわたる人間の判断をよりよく表すようにします。

Understanding the quality of a performance evaluation metric is crucial for ensuring that model outputs align with human preferences. However, it remains unclear how well each metric captures the diverse aspects of these preferences, as metrics often excel in one particular area but not across all dimensions. To address this, it is essential to systematically calibrate metrics to specific aspects of human preference, catering to the unique characteristics of each aspect. We introduce MetaMetrics, a calibrated meta-metric designed to evaluate generation tasks across different modalities in a supervised manner. MetaMetrics optimizes the combination of existing metrics to enhance their alignment with human preferences. Our metric demonstrates flexibility and effectiveness in both language and vision downstream tasks, showing significant benefits across various multilingual and multi-domain scenarios. MetaMetrics aligns closely with human preferences and is highly extendable and easily integrable into any application. This makes MetaMetrics a powerful tool for improving the evaluation of generation tasks, ensuring that metrics are more representative of human judgment across diverse contexts.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-07
# メタメトリクス:人間の選好を用いたタスク生成のためのメトリクスの校正

MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences ( http://arxiv.org/abs/2410.02381v2 )

ライセンス: Link先を確認
Genta Indra Winata, David Anugraha, Lucky Susanto, Garry Kuwanto, Derry Tanti Wijaya, (参考訳) 性能評価指標の品質を理解することは、モデルの出力が人間の好みと一致していることを保証するために不可欠である。 しかし、各計量がこれらの選好の様々な側面をどれだけうまく捉えているかは、はっきりしない。 これに対処するためには、各側面の特異な特徴に対応して、人間の嗜好の特定の側面にメトリクスを体系的に調整することが不可欠である。 そこで,メタメトリックス(MetaMetrics)について紹介する。メタメトリックス(MetaMetrics)は,様々なモダリティにまたがる生成タスクを教師付きで評価するためのメタメトリックである。 MetaMetricsは既存のメトリクスの組み合わせを最適化し、人間の好みに合わせて調整する。 我々の測定基準は、言語と視覚の両方の下流タスクにおける柔軟性と有効性を示し、様々な多言語および多ドメインのシナリオにおいて大きな利点を示します。 MetaMetricsは人間の好みと密接に一致しており、どんなアプリケーションにも非常に拡張可能で簡単に統合できる。 これによりMetaMetricsは、生成タスクの評価を改善する強力なツールとなり、メトリクスがさまざまなコンテキストにわたる人間の判断をよりよく表すようにします。

Understanding the quality of a performance evaluation metric is crucial for ensuring that model outputs align with human preferences. However, it remains unclear how well each metric captures the diverse aspects of these preferences, as metrics often excel in one particular area but not across all dimensions. To address this, it is essential to systematically calibrate metrics to specific aspects of human preference, catering to the unique characteristics of each aspect. We introduce MetaMetrics, a calibrated meta-metric designed to evaluate generation tasks across different modalities in a supervised manner. MetaMetrics optimizes the combination of existing metrics to enhance their alignment with human preferences. Our metric demonstrates flexibility and effectiveness in both language and vision downstream tasks, showing significant benefits across various multilingual and multi-domain scenarios. MetaMetrics aligns closely with human preferences and is highly extendable and easily integrable into any application. This makes MetaMetrics a powerful tool for improving the evaluation of generation tasks, ensuring that metrics are more representative of human judgment across diverse contexts.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-07
# 分離されたOracleによるオンライン凸最適化

Online Convex Optimization with a Separation Oracle ( http://arxiv.org/abs/2410.02476v1 )

ライセンス: Link先を確認
Zakaria Mhammedi, (参考訳) 本稿では,オンライン凸最適化(OCO)のための新しいプロジェクションフリーアルゴリズムを提案する。 古典的フランク=ウルフアルゴリズムに基づく既存の射影自由法は、$O(T^{3/4})$の最適的後悔境界を達成する一方、より最近の分離に基づくアプローチは、$O(\kappa \sqrt{T})$の後悔境界を保証する。 しかし、不条件集合の場合、$\kappa$は任意に大きくなり、性能が低下する可能性がある。 我々のアルゴリズムは、$\tilde{O}(\sqrt{dT} + \kappa d)$の後悔境界を達成できるが、ラウンドごとの分離オラクルへの呼び出しは$\tilde{O}(1)$のみである。 重要なことに、境界の主項である$\tilde{O}(\sqrt{d T})$は$\kappa$とは独立であり、以前のメソッドの制限に対処する。 さらに、分析の副産物として、既存のOCOアルゴリズムの後悔境界をより簡単な分析で復元し、プロジェクションフリーのオンラインexp-concave最適化における後悔境界を改善する。 最後に、制約付き確率凸最適化では、$\tilde{O}(\sigma/\sqrt{T} + \kappa d/T)$の最先端収束率を達成する。

In this paper, we introduce a new projection-free algorithm for Online Convex Optimization (OCO) with a state-of-the-art regret guarantee among separation-based algorithms. Existing projection-free methods based on the classical Frank-Wolfe algorithm achieve a suboptimal regret bound of $O(T^{3/4})$, while more recent separation-based approaches guarantee a regret bound of $O(\kappa \sqrt{T})$, where $\kappa$ denotes the asphericity of the feasible set, defined as the ratio of the radii of the containing and contained balls. However, for ill-conditioned sets, $\kappa$ can be arbitrarily large, potentially leading to poor performance. Our algorithm achieves a regret bound of $\tilde{O}(\sqrt{dT} + \kappa d)$, while requiring only $\tilde{O}(1)$ calls to a separation oracle per round. Crucially, the main term in the bound, $\tilde{O}(\sqrt{d T})$, is independent of $\kappa$, addressing the limitations of previous methods. Additionally, as a by-product of our analysis, we recover the $O(\kappa \sqrt{T})$ regret bound of existing OCO algorithms with a more straightforward analysis and improve the regret bound for projection-free online exp-concave optimization. Finally, for constrained stochastic convex optimization, we achieve a state-of-the-art convergence rate of $\tilde{O}(\sigma/\sqrt{T} + \kappa d/T)$, where $\sigma$ represents the noise in the stochastic gradients, while requiring only $\tilde{O}(1)$ calls to a separation oracle per iteration.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-07
# 分離されたOracleによるオンライン凸最適化

Online Convex Optimization with a Separation Oracle ( http://arxiv.org/abs/2410.02476v2 )

ライセンス: Link先を確認
Zakaria Mhammedi, (参考訳) 本稿では,オンライン凸最適化(OCO)のための新しいプロジェクションフリーアルゴリズムを提案する。 古典的フランク=ウルフアルゴリズムに基づく既存の射影自由法は、$O(T^{3/4})$の最適的後悔境界を達成する一方、より最近の分離に基づくアプローチは、$O(\kappa \sqrt{T})$の後悔境界を保証する。 しかし、不条件集合の場合、$\kappa$は任意に大きくなり、性能が低下する可能性がある。 我々のアルゴリズムは、$\widetilde{O}(\sqrt{dT} + \kappa d)$の後悔境界を達成し、$\widetilde{O}(1)$のラウンドごとの分離オラクルへの呼び出ししか必要としない。 重要なことに、境界の主項である$\widetilde{O}(\sqrt{d T})$は$\kappa$とは独立であり、以前のメソッドの制限に対処する。 さらに、分析の副産物として、既存のOCOアルゴリズムの後悔境界をより簡単な分析で復元し、プロジェクションフリーのオンラインexp-concave最適化における後悔境界を改善する。 最後に、制約付き確率凸最適化では、$\widetilde{O}(\sigma/\sqrt{T} + \kappa d/T)$の最先端収束率を達成する。

In this paper, we introduce a new projection-free algorithm for Online Convex Optimization (OCO) with a state-of-the-art regret guarantee among separation-based algorithms. Existing projection-free methods based on the classical Frank-Wolfe algorithm achieve a suboptimal regret bound of $O(T^{3/4})$, while more recent separation-based approaches guarantee a regret bound of $O(\kappa \sqrt{T})$, where $\kappa$ denotes the asphericity of the feasible set, defined as the ratio of the radii of the containing and contained balls. However, for ill-conditioned sets, $\kappa$ can be arbitrarily large, potentially leading to poor performance. Our algorithm achieves a regret bound of $\widetilde{O}(\sqrt{dT} + \kappa d)$, while requiring only $\widetilde{O}(1)$ calls to a separation oracle per round. Crucially, the main term in the bound, $\widetilde{O}(\sqrt{d T})$, is independent of $\kappa$, addressing the limitations of previous methods. Additionally, as a by-product of our analysis, we recover the $O(\kappa \sqrt{T})$ regret bound of existing OCO algorithms with a more straightforward analysis and improve the regret bound for projection-free online exp-concave optimization. Finally, for constrained stochastic convex optimization, we achieve a state-of-the-art convergence rate of $\widetilde{O}(\sigma/\sqrt{T} + \kappa d/T)$, where $\sigma$ represents the noise in the stochastic gradients, while requiring only $\widetilde{O}(1)$ calls to a separation oracle per iteration.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-07
# NestedMorph:Nested Attention Mechanismによる変形可能な医用画像登録の強化

NestedMorph: Enhancing Deformable Medical Image Registration with Nested Attention Mechanisms ( http://arxiv.org/abs/2410.02550v1 )

ライセンス: Link先を確認
Gurucharan Marthi Krishna Kumar, Janine Mendola, Amir Shmuel, (参考訳) 変形可能な画像登録は、異なるモダリティをまたいだ非直線的な医療画像の整列に不可欠であり、異なる解剖学的構造間の正確な空間対応を可能にする。 本稿では,Nested Attention Fusion を用いた新しいネットワークであるNestedMorphについて述べる。 NestedMorphは、エンコーダからの高解像度空間の詳細と、マルチスケールフレームワークを使用したデコーダからのセマンティック情報を統合し、局所的特徴抽出とグローバル的特徴抽出の両方を強化している。 我々のモデルは,VoxelMorphやMIDIR,CycleMorphといったCNNベースのアプローチ,TransMorphやViT-V-NetといったTransformerベースのモデル,NiftyRegやSyNといった従来のテクニックなど,既存の手法よりも優れています。 HCPデータセットの評価によると、NestedMorphはSSIM、HD95、SDlogJなど主要なメトリクスで優れたパフォーマンスを達成しており、SSIMは0.89、HD95は2.5、SDlogJは0.22である。 これらの結果は、NestedMorphがローカル画像とグローバル画像の両方を効果的にキャプチャできる能力を強調し、登録性能が向上した。 この研究の有望な成果は、変形可能な医用画像の登録を大幅に進歩させるNestedMorphの可能性を強調し、将来の研究および臨床応用のための堅牢な枠組みを提供する。 ソースコードと実装は以下の通りである。

Deformable image registration is crucial for aligning medical images in a non-linear fashion across different modalities, allowing for precise spatial correspondence between varying anatomical structures. This paper presents NestedMorph, a novel network utilizing a Nested Attention Fusion approach to improve intra-subject deformable registration between T1-weighted (T1w) MRI and diffusion MRI (dMRI) data. NestedMorph integrates high-resolution spatial details from an encoder with semantic information from a decoder using a multi-scale framework, enhancing both local and global feature extraction. Our model notably outperforms existing methods, including CNN-based approaches like VoxelMorph, MIDIR, and CycleMorph, as well as Transformer-based models such as TransMorph and ViT-V-Net, and traditional techniques like NiftyReg and SyN. Evaluations on the HCP dataset demonstrate that NestedMorph achieves superior performance across key metrics, including SSIM, HD95, and SDlogJ, with the highest SSIM of 0.89, and the lowest HD95 of 2.5 and SDlogJ of 0.22. These results highlight NestedMorph's ability to capture both local and global image features effectively, leading to superior registration performance. The promising outcomes of this study underscore NestedMorph's potential to significantly advance deformable medical image registration, providing a robust framework for future research and clinical applications. The source code and our implementation are available at: https://bit.ly/3zdVqcg
翻訳日:2024-11-04 02:31:52 公開日:2024-10-07
# NestedMorph:Nested Attention Mechanismによる変形可能な医用画像登録の強化

NestedMorph: Enhancing Deformable Medical Image Registration with Nested Attention Mechanisms ( http://arxiv.org/abs/2410.02550v2 )

ライセンス: Link先を確認
Gurucharan Marthi Krishna Kumar, Janine Mendola, Amir Shmuel, (参考訳) 変形可能な画像登録は、異なるモダリティをまたいだ非直線的な医療画像の整列に不可欠であり、異なる解剖学的構造間の正確な空間対応を可能にする。 本稿では,Nested Attention Fusion を用いた新しいネットワークであるNestedMorphについて述べる。 NestedMorphは、エンコーダからの高解像度空間の詳細と、マルチスケールフレームワークを使用したデコーダからのセマンティック情報を統合し、局所的特徴抽出とグローバル的特徴抽出の両方を強化している。 我々のモデルは,VoxelMorphやMIDIR,CycleMorphといったCNNベースのアプローチ,TransMorphやViT-V-NetといったTransformerベースのモデル,NiftyRegやSyNといった従来のテクニックなど,既存の手法よりも優れています。 HCPデータセットの評価によると、NestedMorphはSSIM、HD95、SDlogJなど主要なメトリクスで優れたパフォーマンスを達成しており、SSIMは0.89、HD95は2.5、SDlogJは0.22である。 これらの結果は、NestedMorphがローカル画像とグローバル画像の両方を効果的にキャプチャできる能力を強調し、登録性能が向上した。 この研究の有望な成果は、変形可能な医用画像の登録を大幅に進歩させるNestedMorphの可能性を強調し、将来の研究および臨床応用のための堅牢な枠組みを提供する。 ソースコードと実装は以下の通りである。

Deformable image registration is crucial for aligning medical images in a non-linear fashion across different modalities, allowing for precise spatial correspondence between varying anatomical structures. This paper presents NestedMorph, a novel network utilizing a Nested Attention Fusion approach to improve intra-subject deformable registration between T1-weighted (T1w) MRI and diffusion MRI (dMRI) data. NestedMorph integrates high-resolution spatial details from an encoder with semantic information from a decoder using a multi-scale framework, enhancing both local and global feature extraction. Our model notably outperforms existing methods, including CNN-based approaches like VoxelMorph, MIDIR, and CycleMorph, as well as Transformer-based models such as TransMorph and ViT-V-Net, and traditional techniques like NiftyReg and SyN. Evaluations on the HCP dataset demonstrate that NestedMorph achieves superior performance across key metrics, including SSIM, HD95, and SDlogJ, with the highest SSIM of 0.89, and the lowest HD95 of 2.5 and SDlogJ of 0.22. These results highlight NestedMorph's ability to capture both local and global image features effectively, leading to superior registration performance. The promising outcomes of this study underscore NestedMorph's potential to significantly advance deformable medical image registration, providing a robust framework for future research and clinical applications. The source code and our implementation are available at: https://bit.ly/3zdVqcg
翻訳日:2024-11-04 02:31:52 公開日:2024-10-07
# 超解像型超解像型3Dガウススプラッティングとグラディエント誘導スプリット

SuperGS: Super-Resolution 3D Gaussian Splatting via Latent Feature Field and Gradient-guided Splitting ( http://arxiv.org/abs/2410.02571v1 )

ライセンス: Link先を確認
Shiyun Xie, Zhiru Wang, Yinghao Zhu, Chengwei Pan, (参考訳) 近年,3D Gaussian Splatting (3DGS) はリアルタイムレンダリング機能と優れた品質を備えた新規なビュー合成に優れている。 しかし、低解像度の入力ビューから派生したプリミティブの粗い性質のため、高解像度の新規ビュー合成(HRNVS)の課題に直面している。 この問題に対処するために,2段階の粗粒度トレーニングフレームワークを用いて設計した3DGSの拡張であるSuper-Resolution 3DGS(SuperGS)を提案する。 さらに、フレキシブルな特徴サンプリングのための潜在機能フィールドと効果的なガウスアップサンプリングのためのグラディエント誘導選択分割(GSS)を組み込むため、マルチレゾリューション・フィーチャー・ガウス・スティング(MFGS)を導入する。 これらの戦略を粗粒度フレームワークに統合することにより、高い忠実度とメモリ効率の両方が保証される。 大規模な実験により、SuperGSは、低解像度入力のみを使用して現実世界のデータセットに挑戦する最先端のHRNVSメソッドを超越していることが示された。

Recently, 3D Gaussian Splatting (3DGS) has exceled in novel view synthesis with its real-time rendering capabilities and superior quality. However, it faces challenges for high-resolution novel view synthesis (HRNVS) due to the coarse nature of primitives derived from low-resolution input views. To address this issue, we propose Super-Resolution 3DGS (SuperGS), which is an expansion of 3DGS designed with a two-stage coarse-to-fine training framework, utilizing pretrained low-resolution scene representation as an initialization for super-resolution optimization. Moreover, we introduce Multi-resolution Feature Gaussian Splatting (MFGS) to incorporates a latent feature field for flexible feature sampling and Gradient-guided Selective Splitting (GSS) for effective Gaussian upsampling. By integrating these strategies within the coarse-to-fine framework ensure both high fidelity and memory efficiency. Extensive experiments demonstrate that SuperGS surpasses state-of-the-art HRNVS methods on challenging real-world datasets using only low-resolution inputs.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-07
# 超解像型超解像型3Dガウススプラッティングとグラディエント誘導スプリット

SuperGS: Super-Resolution 3D Gaussian Splatting via Latent Feature Field and Gradient-guided Splitting ( http://arxiv.org/abs/2410.02571v2 )

ライセンス: Link先を確認
Shiyun Xie, Zhiru Wang, Yinghao Zhu, Chengwei Pan, (参考訳) 近年,3D Gaussian Splatting (3DGS) はリアルタイムレンダリング機能と優れた品質を備えた新規なビュー合成に優れている。 しかし、低解像度の入力ビューから派生したプリミティブの粗い性質のため、高解像度の新規ビュー合成(HRNVS)の課題に直面している。 この問題に対処するために,2段階の粗粒度トレーニングフレームワークを用いて設計した3DGSの拡張であるSuper-Resolution 3DGS(SuperGS)を提案する。 さらに、フレキシブルな特徴サンプリングのための潜在機能フィールドと効果的なガウスアップサンプリングのためのグラディエント誘導選択分割(GSS)を組み込むため、マルチレゾリューション・フィーチャー・ガウス・スティング(MFGS)を導入する。 これらの戦略を粗粒度フレームワークに統合することにより、高い忠実度とメモリ効率の両方が保証される。 大規模な実験により、SuperGSは、低解像度入力のみを使用して現実世界のデータセットに挑戦する最先端のHRNVSメソッドを超越していることが示された。

Recently, 3D Gaussian Splatting (3DGS) has exceled in novel view synthesis with its real-time rendering capabilities and superior quality. However, it faces challenges for high-resolution novel view synthesis (HRNVS) due to the coarse nature of primitives derived from low-resolution input views. To address this issue, we propose Super-Resolution 3DGS (SuperGS), which is an expansion of 3DGS designed with a two-stage coarse-to-fine training framework, utilizing pretrained low-resolution scene representation as an initialization for super-resolution optimization. Moreover, we introduce Multi-resolution Feature Gaussian Splatting (MFGS) to incorporates a latent feature field for flexible feature sampling and Gradient-guided Selective Splitting (GSS) for effective Gaussian upsampling. By integrating these strategies within the coarse-to-fine framework ensure both high fidelity and memory efficiency. Extensive experiments demonstrate that SuperGS surpasses state-of-the-art HRNVS methods on challenging real-world datasets using only low-resolution inputs.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-07
# 基礎モデルとPDDLを用いた食品状態認識に基づくレシピからのリアルタイム調理ロボットシステム

Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL ( http://arxiv.org/abs/2410.02874v1 )

ライセンス: Link先を確認
Naoaki Kanazawa, Kento Kawaharazuka, Yoshiki Obinata, Kei Okada, Masayuki Inaba, (参考訳) ロボットが期待する課題の一つとして調理行動の需要が高まっているが、ロボットによるロボットによる新しいレシピ記述に基づく一連の調理行動はまだ実現されていない。 本研究では,Large Language Model (LLM) とPDDL記述の古典的計画を用いた実世界のロボット調理行動計画と,Vision-Language Model (VLM) を用いた少数のデータからの食品成分状態認識学習を統合するロボットシステムを提案する。 両腕の車輪付きロボットであるPR2が、実環境において配置された新しいレシピから調理を行い、提案システムの有効性を確認した。

Although there is a growing demand for cooking behaviours as one of the expected tasks for robots, a series of cooking behaviours based on new recipe descriptions by robots in the real world has not yet been realised. In this study, we propose a robot system that integrates real-world executable robot cooking behaviour planning using the Large Language Model (LLM) and classical planning of PDDL descriptions, and food ingredient state recognition learning from a small number of data using the Vision-Language model (VLM). We succeeded in experiments in which PR2, a dual-armed wheeled robot, performed cooking from arranged new recipes in a real-world environment, and confirmed the effectiveness of the proposed system.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-07
# 基礎モデルとPDDLを用いた食品状態認識に基づくレシピからのリアルタイム調理ロボットシステム

Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL ( http://arxiv.org/abs/2410.02874v2 )

ライセンス: Link先を確認
Naoaki Kanazawa, Kento Kawaharazuka, Yoshiki Obinata, Kei Okada, Masayuki Inaba, (参考訳) ロボットが期待する課題の一つとして調理行動の需要が高まっているが、ロボットによるロボットによる新しいレシピ記述に基づく一連の調理行動はまだ実現されていない。 本研究では,Large Language Model (LLM) とPDDL記述の古典的計画を用いた実世界のロボット調理行動計画と,Vision-Language Model (VLM) を用いた少数のデータからの食品成分状態認識学習を統合するロボットシステムを提案する。 両腕の車輪付きロボットであるPR2が、実環境において配置された新しいレシピから調理を行い、提案システムの有効性を確認した。

Although there is a growing demand for cooking behaviours as one of the expected tasks for robots, a series of cooking behaviours based on new recipe descriptions by robots in the real world has not yet been realised. In this study, we propose a robot system that integrates real-world executable robot cooking behaviour planning using the Large Language Model (LLM) and classical planning of PDDL descriptions, and food ingredient state recognition learning from a small number of data using the Vision-Language model (VLM). We succeeded in experiments in which PR2, a dual-armed wheeled robot, performed cooking from arranged new recipes in a real-world environment, and confirmed the effectiveness of the proposed system.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-07
# Deep Deterministic Policy Gradientsを用いたリーチ回避問題の解法

Solving Reach-Avoid-Stay Problems Using Deep Deterministic Policy Gradients ( http://arxiv.org/abs/2410.02898v1 )

ライセンス: Link先を確認
Gabriel Chenevert, Jingqi Li, Achyuta kannan, Sangjae Bae, Donggun Lee, (参考訳) Reach-Avoid-Stay (RAS) の最適制御により、ロボットやエアタクシーなどのシステムが目標に到達し、障害物を避け、目標の近くに留まることができる。 しかしながら、RASの現在の手法は複雑な動的環境の処理と高次元システムへのスケーリングにしばしば苦労する。 強化学習(RL)に基づく到達可能性分析はこれらの課題に対処するが、RAS問題にはまだ取り組んでいない。 本稿では, RLに基づくリーチビリティ法を拡張してRAS問題を解決するために, 2段階のDeep Deterministic Policy gradient (DDPG)法を提案する。 まず、ターゲットセット内の最大ロバスト制御不変量を特徴付ける関数を訓練する。 第2に、ロバスト制御不変量に安全に到達可能な状態の集合と対応するポリシーを定義する関数を訓練する。 本手法は, トレーニングエラーがない場合に設定した最大ロバストRASを実現し, 複雑な環境下でRASを実現し, 高次元システムにスケールし, 従来の手法と比較してRASタスクの成功率を高めることを実証し, シミュレーションと2つの高次元実験により検証した。

Reach-Avoid-Stay (RAS) optimal control enables systems such as robots and air taxis to reach their targets, avoid obstacles, and stay near the target. However, current methods for RAS often struggle with handling complex, dynamic environments and scaling to high-dimensional systems. While reinforcement learning (RL)-based reachability analysis addresses these challenges, it has yet to tackle the RAS problem. In this paper, we propose a two-step deep deterministic policy gradient (DDPG) method to extend RL-based reachability method to solve RAS problems. First, we train a function that characterizes the maximal robust control invariant set within the target set, where the system can safely stay, along with its corresponding policy. Second, we train a function that defines the set of states capable of safely reaching the robust control invariant set, along with its corresponding policy. We prove that this method results in the maximal robust RAS set in the absence of training errors and demonstrate that it enables RAS in complex environments, scales to high-dimensional systems, and achieves higher success rates for the RAS task compared to previous methods, validated through one simulation and two high-dimensional experiments.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-07
# Deep Deterministic Policy Gradientsを用いたリーチ回避問題の解法

Solving Reach-Avoid-Stay Problems Using Deep Deterministic Policy Gradients ( http://arxiv.org/abs/2410.02898v2 )

ライセンス: Link先を確認
Gabriel Chenevert, Jingqi Li, Achyuta kannan, Sangjae Bae, Donggun Lee, (参考訳) Reach-Avoid-Stay (RAS) の最適制御により、ロボットやエアタクシーなどのシステムが目標に到達し、障害物を避け、目標の近くに留まることができる。 しかしながら、RASの現在の手法は複雑な動的環境の処理と高次元システムへのスケーリングにしばしば苦労する。 強化学習(RL)に基づく到達可能性分析はこれらの課題に対処するが、RAS問題にはまだ取り組んでいない。 本稿では, RLに基づくリーチビリティ法を拡張してRAS問題を解決するために, 2段階のDeep Deterministic Policy gradient (DDPG)法を提案する。 まず、ターゲットセット内の最大ロバスト制御不変量を特徴付ける関数を訓練する。 第2に、ロバスト制御不変量に安全に到達可能な状態の集合と対応するポリシーを定義する関数を訓練する。 本手法は, トレーニングエラーがない場合に設定した最大ロバストRASを実現し, 複雑な環境下でRASを実現し, 高次元システムにスケールし, 従来の手法と比較してRASタスクの成功率を高めることを実証し, シミュレーションと2つの高次元実験により検証した。

Reach-Avoid-Stay (RAS) optimal control enables systems such as robots and air taxis to reach their targets, avoid obstacles, and stay near the target. However, current methods for RAS often struggle with handling complex, dynamic environments and scaling to high-dimensional systems. While reinforcement learning (RL)-based reachability analysis addresses these challenges, it has yet to tackle the RAS problem. In this paper, we propose a two-step deep deterministic policy gradient (DDPG) method to extend RL-based reachability method to solve RAS problems. First, we train a function that characterizes the maximal robust control invariant set within the target set, where the system can safely stay, along with its corresponding policy. Second, we train a function that defines the set of states capable of safely reaching the robust control invariant set, along with its corresponding policy. We prove that this method results in the maximal robust RAS set in the absence of training errors and demonstrate that it enables RAS in complex environments, scales to high-dimensional systems, and achieves higher success rates for the RAS task compared to previous methods, validated through one simulation and two high-dimensional experiments.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-07
# MMP: Masked Modality Projection を用いたロバストなマルチモーダル学習を目指して

MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection ( http://arxiv.org/abs/2410.03010v1 )

ライセンス: Link先を確認
Niki Nezakati, Md Kaykobad Reza, Ameya Patil, Mashhour Solh, M. Salman Asif, (参考訳) マルチモーダル学習は、異なる下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。 実世界のシナリオでは、いくつかの入力モダリティが欠如している場合、パフォーマンスは大幅に低下する可能性がある。 欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。 これらのアプローチは特定のモダリティに結びついているか、入力モダリティの数が増えるにつれて計算コストが高くなる。 本稿では,MMP (Masked Modality Projection) を提案する。 トレーニング中にランダムにモダリティのサブセットをマスキングし、利用可能な入力モダリティを投影し、マスクされたモダリティのトークンを推定することでこれを実現する。 このアプローチにより、モデルは利用可能なモダリティからの情報を効果的に学習して、欠落したモダリティを補うことができ、欠落したモダリティの堅牢性を高めることができる。 我々は、この戦略の有効性を評価するために、様々なベースラインモデルとデータセットを用いて一連の実験を行う。 実験により,本手法は,異なるモダリティシナリオに対するロバスト性を向上し,モダリティの欠如や特定のモダリティの組み合わせに対して,既存の手法よりも優れていることが示された。

Multimodal learning seeks to combine data from multiple input sources to enhance the performance of different downstream tasks. In real-world scenarios, performance can degrade substantially if some input modalities are missing. Existing methods that can handle missing modalities involve custom training or adaptation steps for each input modality combination. These approaches are either tied to specific modalities or become computationally expensive as the number of input modalities increases. In this paper, we propose Masked Modality Projection (MMP), a method designed to train a single model that is robust to any missing modality scenario. We achieve this by randomly masking a subset of modalities during training and learning to project available input modalities to estimate the tokens for the masked modalities. This approach enables the model to effectively learn to leverage the information from the available modalities to compensate for the missing ones, enhancing missing modality robustness. We conduct a series of experiments with various baseline models and datasets to assess the effectiveness of this strategy. Experiments demonstrate that our approach improves robustness to different missing modality scenarios, outperforming existing methods designed for missing modalities or specific modality combinations.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-07
# MMP: Masked Modality Projection を用いたロバストなマルチモーダル学習を目指して

MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection ( http://arxiv.org/abs/2410.03010v2 )

ライセンス: Link先を確認
Niki Nezakati, Md Kaykobad Reza, Ameya Patil, Mashhour Solh, M. Salman Asif, (参考訳) マルチモーダル学習は、異なる下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。 実世界のシナリオでは、いくつかの入力モダリティが欠如している場合、パフォーマンスは大幅に低下する可能性がある。 欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。 これらのアプローチは特定のモダリティに結びついているか、入力モダリティの数が増えるにつれて計算コストが高くなる。 本稿では,MMP (Masked Modality Projection) を提案する。 トレーニング中にランダムにモダリティのサブセットをマスキングし、利用可能な入力モダリティを投影し、マスクされたモダリティのトークンを推定することでこれを実現する。 このアプローチにより、モデルは利用可能なモダリティからの情報を効果的に学習して、欠落したモダリティを補うことができ、欠落したモダリティの堅牢性を高めることができる。 我々は、この戦略の有効性を評価するために、様々なベースラインモデルとデータセットを用いて一連の実験を行う。 実験により,本手法は,異なるモダリティシナリオに対するロバスト性を向上し,モダリティの欠如や特定のモダリティの組み合わせに対して,既存の手法よりも優れていることが示された。

Multimodal learning seeks to combine data from multiple input sources to enhance the performance of different downstream tasks. In real-world scenarios, performance can degrade substantially if some input modalities are missing. Existing methods that can handle missing modalities involve custom training or adaptation steps for each input modality combination. These approaches are either tied to specific modalities or become computationally expensive as the number of input modalities increases. In this paper, we propose Masked Modality Projection (MMP), a method designed to train a single model that is robust to any missing modality scenario. We achieve this by randomly masking a subset of modalities during training and learning to project available input modalities to estimate the tokens for the masked modalities. This approach enables the model to effectively learn to leverage the information from the available modalities to compensate for the missing ones, enhancing missing modality robustness. We conduct a series of experiments with various baseline models and datasets to assess the effectiveness of this strategy. Experiments demonstrate that our approach improves robustness to different missing modality scenarios, outperforming existing methods designed for missing modalities or specific modality combinations.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-07
# CPFD: 短いビデオ分類のための信頼を意識したプリビレギュラー機能蒸留

CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification ( http://arxiv.org/abs/2410.03038v1 )

ライセンス: Link先を確認
Jinghao Shi, Xiang Shen, Kaili Zhao, Xuedong Wang, Vera Wen, Zixuan Wang, Yifan Wu, Zhixin Zhang, (参考訳) 異なるビジネスシナリオ用にカスタマイズされたDense機能は、ショートビデオ分類に不可欠である。 しかしながら、それらの複雑さ、特定の適応要件、高い計算コストは、オンライン推論中にリソース集約的でアクセスしにくくする。 そのため、これらの密集した特徴は「プリヴィレグド・デンス・フィーチャー」に分類される。 一方、エンドツーエンドのマルチモーダルモデルは、多くのコンピュータビジョンタスクにおいて有望な結果を示している。 産業アプリケーションにおいて、エンド・ツー・エンドのマルチモーダル特徴の優先順位付けは効率を向上するが、しばしば歴史的な特権的特徴から貴重な情報を失うことにつながる。信頼性と管理可能な資源コストの両機能を統合するため、トレーニング中に特権的特徴を適応的に蒸留することで、エンド・ツー・エンドのマルチモーダルモデルの特徴を付与するCPFDを提示する。既存の特権的特徴蒸留(PFD)とは異なり、蒸留中の全てのインスタンスに均一な重みを付与し、異なるビジネスシナリオ間で不安定なパフォーマンスを生じさせ、教師モデル(Dense機能強化型マルチモーダルモデルDFX-VLM)と学生モデル(マルチモーダルモデルX-VLM)の間に顕著なパフォーマンスギャップを生じさせる可能性がある。 そして、パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。 CPFDの有効性はオンライン実験によってさらに裏付けられ,本フレームワークは10以上のモデルで実運用システムに展開されている。

Dense features, customized for different business scenarios, are essential in short video classification. However, their complexity, specific adaptation requirements, and high computational costs make them resource-intensive and less accessible during online inference. Consequently, these dense features are categorized as `Privileged Dense Features'.Meanwhile, end-to-end multi-modal models have shown promising results in numerous computer vision tasks. In industrial applications, prioritizing end-to-end multi-modal features, can enhance efficiency but often leads to the loss of valuable information from historical privileged dense features.To integrate both features while maintaining efficiency and manageable resource costs, we present Confidence-aware Privileged Feature Distillation (CPFD), which empowers features of an end-to-end multi-modal model by adaptively distilling privileged features during training.Unlike existing privileged feature distillation (PFD) methods, which apply uniform weights to all instances during distillation, potentially causing unstable performance across different business scenarios and a notable performance gap between teacher model (Dense Feature enhanced multimodal-model DF-X-VLM) and student model (multimodal-model only X-VLM), our CPFD leverages confidence scores derived from the teacher model to adaptively mitigate the performance variance with the student model.We conducted extensive offline experiments on five diverse tasks demonstrating that CPFD improves the video classification F1 score by 6.76% compared with end-to-end multimodal-model (X-VLM) and by 2.31% with vanilla PFD on-average. And it reduces the performance gap by 84.6% and achieves results comparable to teacher model DF-X-VLM. The effectiveness of CPFD is further substantiated by online experiments, and our framework has been deployed in production systems for over a dozen models.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-07
# CPFD: 短いビデオ分類のための信頼を意識したプリビレギュラー機能蒸留

CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification ( http://arxiv.org/abs/2410.03038v2 )

ライセンス: Link先を確認
Jinghao Shi, Xiang Shen, Kaili Zhao, Xuedong Wang, Vera Wen, Zixuan Wang, Yifan Wu, Zhixin Zhang, (参考訳) 異なるビジネスシナリオ用にカスタマイズされたDense機能は、ショートビデオ分類に不可欠である。 しかしながら、それらの複雑さ、特定の適応要件、高い計算コストは、オンライン推論中にリソース集約的でアクセスしにくくする。 そのため、これらの密集した特徴は「プリヴィレグド・デンス・フィーチャー」に分類される。 一方、エンドツーエンドのマルチモーダルモデルは、多くのコンピュータビジョンタスクにおいて有望な結果を示している。 産業アプリケーションでは、エンドツーエンドのマルチモーダル特徴の優先順位付けは効率を高めることができるが、しばしば歴史的特権のある高機能特徴から貴重な情報が失われる。 資源コストと効率性を維持しつつ両機能を統合するため,訓練中の特権的特徴を適応的に蒸留することにより,エンド・ツー・エンドのマルチモーダルモデルの特徴を増強する信頼性の高いプリビレグド・フィーチャー蒸留(CPFD)を提案する。 従来の特権的特徴蒸留法(PFD)は, 蒸留中の全ての事例に均一な重み付けを施し, 異なる事業シナリオ間での不安定なパフォーマンスと, 教師モデル(Dense Feature enhanced multimodal-model DF-X-VLM)と学生モデル(multimodal-model only X-VLM)の顕著なパフォーマンスギャップを生じさせる可能性がある。 我々は、CPFDがビデオ分類F1のスコアを、X-VLM(End-to-end Multimodal-model)と比較して6.76%改善し、バニラPFDを平均2.31%改善することを示す5つの多様なタスクについて、広範囲にわたるオフライン実験を行った。 そして、パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。 CPFDの有効性はオンライン実験によってさらに裏付けられ,本フレームワークは10以上のモデルで実運用システムに展開されている。

Dense features, customized for different business scenarios, are essential in short video classification. However, their complexity, specific adaptation requirements, and high computational costs make them resource-intensive and less accessible during online inference. Consequently, these dense features are categorized as `Privileged Dense Features'.Meanwhile, end-to-end multi-modal models have shown promising results in numerous computer vision tasks. In industrial applications, prioritizing end-to-end multi-modal features, can enhance efficiency but often leads to the loss of valuable information from historical privileged dense features. To integrate both features while maintaining efficiency and manageable resource costs, we present Confidence-aware Privileged Feature Distillation (CPFD), which empowers features of an end-to-end multi-modal model by adaptively distilling privileged features during training. Unlike existing privileged feature distillation (PFD) methods, which apply uniform weights to all instances during distillation, potentially causing unstable performance across different business scenarios and a notable performance gap between teacher model (Dense Feature enhanced multimodal-model DF-X-VLM) and student model (multimodal-model only X-VLM), our CPFD leverages confidence scores derived from the teacher model to adaptively mitigate the performance variance with the student model. We conducted extensive offline experiments on five diverse tasks demonstrating that CPFD improves the video classification F1 score by 6.76% compared with end-to-end multimodal-model (X-VLM) and by 2.31% with vanilla PFD on-average. And it reduces the performance gap by 84.6% and achieves results comparable to teacher model DF-X-VLM. The effectiveness of CPFD is further substantiated by online experiments, and our framework has been deployed in production systems for over a dozen models.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-07
# 時系列の森林確率

Forest Proximities for Time Series ( http://arxiv.org/abs/2410.03098v1 )

ライセンス: Link先を確認
Ben Shaw, Jake Rhodes, Soukaina Filali Boubrahimi, Kevin R. Moon, (参考訳) RF-GAPは、最近無作為な森林近接測定法として導入されている。 本稿では,RF-GAPの近縁林への拡張であるPF-GAPについて,高精度かつ効率的な時系列分類モデルを提案する。 我々は,多次元スケーリングと関係する森林の確率を用いて,一変量時系列のベクトル埋め込みを求め,その埋め込みを様々な時系列距離測定を用いて得られたものと比較した。 また, 地域外層因子とともに森林の近縁性を利用して, 時系列距離測定を用いた近隣の分類器と比較し, 誤分類点と外層との関係を調べた。 森林の近縁性は, 近隣の分類器に比べて, 誤分類点と外れ値との間には強い関係があることが示唆された。

RF-GAP has recently been introduced as an improved random forest proximity measure. In this paper, we present PF-GAP, an extension of RF-GAP proximities to proximity forests, an accurate and efficient time series classification model. We use the forest proximities in connection with Multi-Dimensional Scaling to obtain vector embeddings of univariate time series, comparing the embeddings to those obtained using various time series distance measures. We also use the forest proximities alongside Local Outlier Factors to investigate the connection between misclassified points and outliers, comparing with nearest neighbor classifiers which use time series distance measures. We show that the forest proximities may exhibit a stronger connection between misclassified points and outliers than nearest neighbor classifiers.
翻訳日:2024-11-03 03:56:19 公開日:2024-10-07
# 時系列の森林確率

Forest Proximities for Time Series ( http://arxiv.org/abs/2410.03098v2 )

ライセンス: Link先を確認
Ben Shaw, Jake Rhodes, Soukaina Filali Boubrahimi, Kevin R. Moon, (参考訳) RF-GAPは、最近無作為な森林近接測定法として導入されている。 本稿では,RF-GAPの近縁林への拡張であるPF-GAPについて,高精度かつ効率的な時系列分類モデルを提案する。 我々は,多次元スケーリングと関係する森林の確率を用いて,一変量時系列のベクトル埋め込みを求め,その埋め込みを様々な時系列距離測定を用いて得られたものと比較した。 また, 地域外層因子とともに森林の近縁性を利用して, 時系列距離測定を用いた近隣の分類器と比較し, 誤分類点と外層との関係を調べた。 森林の近縁性は, 近隣の分類器に比べて, 誤分類点と外れ値との間には強い関係があることが示唆された。

RF-GAP has recently been introduced as an improved random forest proximity measure. In this paper, we present PF-GAP, an extension of RF-GAP proximities to proximity forests, an accurate and efficient time series classification model. We use the forest proximities in connection with Multi-Dimensional Scaling to obtain vector embeddings of univariate time series, comparing the embeddings to those obtained using various time series distance measures. We also use the forest proximities alongside Local Outlier Factors to investigate the connection between misclassified points and outliers, comparing with nearest neighbor classifiers which use time series distance measures. We show that the forest proximities may exhibit a stronger connection between misclassified points and outliers than nearest neighbor classifiers.
翻訳日:2024-11-03 03:56:19 公開日:2024-10-07
# 衛星ベースマルチスペクトルイメージングによる無症候性ラットのストーニング病検出のための機械学習

Machine Learning for Asymptomatic Ratoon Stunting Disease Detection With Freely Available Satellite Based Multispectral Imaging ( http://arxiv.org/abs/2410.03141v1 )

ライセンス: Link先を確認
Ethan Kane Waters, Carla Chia-ming Chen, Mostafa Rahimi Azghadi, (参考訳) サトウキビの病気検出,特にラットーン・スタンティング病 (RSD) などの無症候性感染症の同定は,効果的な作物管理に重要である。 本研究は、サトウキビ品種におけるRSDの存在を検出するために、自由に利用可能な衛星ベースのスペクトルデータから得られた植生指標を用いて様々な機械学習手法を用いた。 以上の結果から, 放射基底関数カーネル(SVM-RBF)を用いたサポートベクトルマシンが最も有効なアルゴリズムであり, 分類精度は85.64\%から96.55\%とばらつきがあることがわかった。 グラディエント・ブースティングとランダム・フォレストも83.33\%から96.55\%の精度で高い性能を示し、ロジスティック・レグレッションと擬似判別分析は異なる品種で異なる結果を示した。 RSDの検出にはサトウキビ品種と植生指標の含有が重要であった。 これは現在の文献で確認されたものと一致した。 本研究は,従来の手動試験法に代えて,サトウキビ病検出の費用対効果と効率的な方法として,衛星リモートセンシングの可能性を強調した。

Disease detection in sugarcane, particularly the identification of asymptomatic infectious diseases such as Ratoon Stunting Disease (RSD), is critical for effective crop management. This study employed various machine learning techniques to detect the presence of RSD in different sugarcane varieties, using vegetation indices derived from freely available satellite-based spectral data. Our results show that the Support Vector Machine with a Radial Basis Function Kernel (SVM-RBF) was the most effective algorithm, achieving classification accuracy between 85.64\% and 96.55\%, depending on the variety. Gradient Boosting and Random Forest also demonstrated high performance achieving accuracy between 83.33\% to 96.55\%, while Logistic Regression and Quadratic Discriminant Analysis showed variable results across different varieties. The inclusion of sugarcane variety and vegetation indices was important in the detection of RSD. This agreed with what was identified in the current literature. Our study highlights the potential of satellite-based remote sensing as a cost-effective and efficient method for large-scale sugarcane disease detection alternative to traditional manual laboratory testing methods.
翻訳日:2024-11-03 03:24:16 公開日:2024-10-07
# 衛星ベースマルチスペクトルイメージングによる無症候性ラットのストーニング病検出のための機械学習

Machine Learning for Asymptomatic Ratoon Stunting Disease Detection With Freely Available Satellite Based Multispectral Imaging ( http://arxiv.org/abs/2410.03141v2 )

ライセンス: Link先を確認
Ethan Kane Waters, Carla Chia-ming Chen, Mostafa Rahimi Azghadi, (参考訳) サトウキビの病気検出,特にラットーン・スタンティング病 (RSD) などの無症候性感染症の同定は,効果的な作物管理に重要である。 本研究は、サトウキビ品種におけるRSDの存在を検出するために、自由に利用可能な衛星ベースのスペクトルデータから得られた植生指標を用いて様々な機械学習手法を用いた。 以上の結果から, 放射基底関数カーネル(SVM-RBF)を用いたサポートベクトルマシンが最も有効なアルゴリズムであり, 分類精度は85.64%から96.55%であった。 グラディエント・ブースティングとランダム・フォレストも83.33%から96.55%の精度で高い性能を示し、ロジスティック・レグレッションと擬似判別分析は異なる品種で異なる結果を示した。 RSDの検出にはサトウキビ品種と植生指標の含有が重要であった。 これは現在の文献で確認されたものと一致した。 本研究は,従来の手動試験法に代えて,サトウキビ病検出の費用対効果と効率的な方法として,衛星リモートセンシングの可能性を強調した。

Disease detection in sugarcane, particularly the identification of asymptomatic infectious diseases such as Ratoon Stunting Disease (RSD), is critical for effective crop management. This study employed various machine learning techniques to detect the presence of RSD in different sugarcane varieties, using vegetation indices derived from freely available satellite-based spectral data. Our results show that the Support Vector Machine with a Radial Basis Function Kernel (SVM-RBF) was the most effective algorithm, achieving classification accuracy between 85.64% and 96.55%, depending on the variety. Gradient Boosting and Random Forest also demonstrated high performance achieving accuracy between 83.33% to 96.55%, while Logistic Regression and Quadratic Discriminant Analysis showed variable results across different varieties. The inclusion of sugarcane variety and vegetation indices was important in the detection of RSD. This agreed with what was identified in the current literature. Our study highlights the potential of satellite-based remote sensing as a cost-effective and efficient method for large-scale sugarcane disease detection alternative to traditional manual laboratory testing methods.
翻訳日:2024-11-03 03:24:16 公開日:2024-10-07
# ハイパースペクトル画像分類のための選択変換器

Selective Transformer for Hyperspectral Image Classification ( http://arxiv.org/abs/2410.03171v1 )

ライセンス: Link先を確認
Yichu Xu, Di Wang, Lefei Zhang, Liangpei Zhang, (参考訳) Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。 しかし、既存のトランスフォーマーモデルは、多様な土地被覆タイプと豊富なスペクトル情報によって特徴付けられるHSIシーンを扱う際に、2つの重要な課題に直面している。 これらの制約に対処するために,HSI分類のための新しい選択変換器(SFormer)を提案する。 SFormerは、空間的およびスペクトル的両方の情報をキャプチャするための受容的フィールドを動的に選択し、最も関連する特徴を優先順位付けすることで冗長データの影響を緩和するように設計されている。 これにより、HSIの土地被覆を高精度に分類することができる。 具体的には、まず、KSTB(Kernel Selective Transformer Block)を用いて、適切な受容領域を動的に選択し、空間スペクトルの特徴を効果的に抽出する。 さらに、最も重要なトークンをキャプチャするために、各クエリのアテンションスコアのランキングに基づいて最も関連性の高いトークンを選択するToken Selective Transformer Block(TSTB)が導入される。 4つのベンチマークHSIデータセットの大規模な実験により、提案されたSFormerは最先端のHSI分類モデルより優れていることが示された。 コードはリリースされます。

Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) fixed receptive field representation overlooks effective contextual information; (2) redundant self-attention feature representation. To address these limitations, we propose a novel Selective Transformer (SFormer) for HSI classification. The SFormer is designed to dynamically select receptive fields for capturing both spatial and spectral contextual information, while mitigating the impact of redundant data by prioritizing the most relevant features. This enables a highly accurate classification of the land covers of the HSI. Specifically, a Kernel Selective Transformer Block (KSTB) is first utilized to dynamically select an appropriate receptive field range to effectively extract spatial-spectral features. Furthermore, to capture the most crucial tokens, a Token Selective Transformer Block (TSTB) is introduced, which selects the most relevant tokens based on the ranking of attention scores for each query. Extensive experiments on four benchmark HSI datasets demonstrate that the proposed SFormer outperforms the state-of-the-art HSI classification models. The codes will be released.
翻訳日:2024-11-03 03:14:31 公開日:2024-10-07
# ハイパースペクトル画像分類のための選択変換器

Selective Transformer for Hyperspectral Image Classification ( http://arxiv.org/abs/2410.03171v2 )

ライセンス: Link先を確認
Yichu Xu, Di Wang, Lefei Zhang, Liangpei Zhang, (参考訳) Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。 しかし、既存のトランスフォーマーモデルは、多様な土地被覆タイプと豊富なスペクトル情報によって特徴付けられるHSIシーンを扱う際に、2つの重要な課題に直面している。 これらの制約に対処するために,HSI分類のための新しい選択変換器(SFormer)を提案する。 SFormerは、空間的およびスペクトル的両方の情報をキャプチャするための受容的フィールドを動的に選択し、最も関連する特徴を優先順位付けすることで冗長データの影響を緩和するように設計されている。 これにより、HSIの土地被覆を高精度に分類することができる。 具体的には、まず、KSTB(Kernel Selective Transformer Block)を用いて、適切な受容領域を動的に選択し、空間スペクトルの特徴を効果的に抽出する。 さらに、最も重要なトークンをキャプチャするために、各クエリのアテンションスコアのランキングに基づいて最も関連性の高いトークンを選択するToken Selective Transformer Block(TSTB)が導入される。 4つのベンチマークHSIデータセットの大規模な実験により、提案されたSFormerは最先端のHSI分類モデルより優れていることが示された。 コードはリリースされます。

Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) fixed receptive field representation overlooks effective contextual information; (2) redundant self-attention feature representation. To address these limitations, we propose a novel Selective Transformer (SFormer) for HSI classification. The SFormer is designed to dynamically select receptive fields for capturing both spatial and spectral contextual information, while mitigating the impact of redundant data by prioritizing the most relevant features. This enables a highly accurate classification of the land covers of the HSI. Specifically, a Kernel Selective Transformer Block (KSTB) is first utilized to dynamically select an appropriate receptive field range to effectively extract spatial-spectral features. Furthermore, to capture the most crucial tokens, a Token Selective Transformer Block (TSTB) is introduced, which selects the most relevant tokens based on the ranking of attention scores for each query. Extensive experiments on four benchmark HSI datasets demonstrate that the proposed SFormer outperforms the state-of-the-art HSI classification models. The codes will be released.
翻訳日:2024-11-03 03:14:31 公開日:2024-10-07
# Frame-Voyager: ビデオ大言語モデルのためのフレームの問合せ学習

Frame-Voyager: Learning to Query Frames for Video Large Language Models ( http://arxiv.org/abs/2410.03226v1 )

ライセンス: Link先を確認
Sicheng Yu, Chengkai Jin, Huanyu Wang, Zhenghao Chen, Sheng Jin, Zhongrong Zuo, Xioalei Xu, Zhenbang Sun, Bingni Zhang, Jiawei Wu, Hao Zhang, Qianru Sun, (参考訳) ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。 しかし、これらは入力トークンの最大長に制約されているため、ビデオ全体の入力は不可能である。 フレームの一様サンプリングやテキストフレームの検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変化やタスクの複雑な命令を考慮できないため、サブ最適性能が得られる。 本稿では,タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せするFrame-Voyagerを提案する。 Frame-Voyagerをトレーニングするために,事前学習したVideo-LLMを用いてフレームの組み合わせをランク付けすることで,新しいデータ収集とラベル付けパイプラインを導入する。 Mフレームのビデオが与えられたら、Tフレームの組み合わせを横切り、それらをVideo-LLMにフィードし、Video-LLMの予測損失に基づいてランク付けします。 このランキングを監督として使用して、フレームとボイジャーをトレーニングして、フレームの組み合わせを低い損失でクエリします。 実験では, Frame-Voyagerを2つのビデオLLMにプラグインすることで, 4つのビデオ質問応答ベンチマークで評価した。 実験の結果、Frame-Voyagerはすべての設定で印象的な結果が得られており、ビデオLLMのプラグアンドプレイソリューションとしての可能性を強調している。

Video Large Language Models (Video-LLMs) have made remarkable progress in video understanding tasks. However, they are constrained by the maximum length of input tokens, making it impractical to input entire videos. Existing frame selection approaches, such as uniform frame sampling and text-frame retrieval, fail to account for the information density variations in the videos or the complex instructions in the tasks, leading to sub-optimal performance. In this paper, we propose Frame-Voyager that learns to query informative frame combinations, based on the given textual queries in the task. To train Frame-Voyager, we introduce a new data collection and labeling pipeline, by ranking frame combinations using a pre-trained Video-LLM. Given a video of M frames, we traverse its T-frame combinations, feed them into a Video-LLM, and rank them based on Video-LLM's prediction losses. Using this ranking as supervision, we train Frame-Voyager to query the frame combinations with lower losses. In experiments, we evaluate Frame-Voyager on four Video Question Answering benchmarks by plugging it into two different Video-LLMs. The experimental results demonstrate that Frame-Voyager achieves impressive results in all settings, highlighting its potential as a plug-and-play solution for Video-LLMs.
翻訳日:2024-11-03 02:54:39 公開日:2024-10-07
# Frame-Voyager: ビデオ大言語モデルのためのフレームの問合せ学習

Frame-Voyager: Learning to Query Frames for Video Large Language Models ( http://arxiv.org/abs/2410.03226v2 )

ライセンス: Link先を確認
Sicheng Yu, Chengkai Jin, Huanyu Wang, Zhenghao Chen, Sheng Jin, Zhongrong Zuo, Xiaolei Xu, Zhenbang Sun, Bingni Zhang, Jiawei Wu, Hao Zhang, Qianru Sun, (参考訳) ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。 しかし、これらは入力トークンの最大長に制約されているため、ビデオ全体の入力は不可能である。 フレームの一様サンプリングやテキストフレームの検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変化やタスクの複雑な命令を考慮できないため、サブ最適性能が得られる。 本稿では,タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せするFrame-Voyagerを提案する。 Frame-Voyagerをトレーニングするために,事前学習したVideo-LLMを用いてフレームの組み合わせをランク付けすることで,新しいデータ収集とラベル付けパイプラインを導入する。 Mフレームのビデオが与えられたら、Tフレームの組み合わせを横切り、それらをVideo-LLMにフィードし、Video-LLMの予測損失に基づいてランク付けします。 このランキングを監督として使用して、フレームとボイジャーをトレーニングして、フレームの組み合わせを低い損失でクエリします。 実験では, Frame-Voyagerを2つのビデオLLMにプラグインすることで, 4つのビデオ質問応答ベンチマークで評価した。 実験の結果、Frame-Voyagerはすべての設定で印象的な結果が得られており、ビデオLLMのプラグアンドプレイソリューションとしての可能性を強調している。

Video Large Language Models (Video-LLMs) have made remarkable progress in video understanding tasks. However, they are constrained by the maximum length of input tokens, making it impractical to input entire videos. Existing frame selection approaches, such as uniform frame sampling and text-frame retrieval, fail to account for the information density variations in the videos or the complex instructions in the tasks, leading to sub-optimal performance. In this paper, we propose Frame-Voyager that learns to query informative frame combinations, based on the given textual queries in the task. To train Frame-Voyager, we introduce a new data collection and labeling pipeline, by ranking frame combinations using a pre-trained Video-LLM. Given a video of M frames, we traverse its T-frame combinations, feed them into a Video-LLM, and rank them based on Video-LLM's prediction losses. Using this ranking as supervision, we train Frame-Voyager to query the frame combinations with lower losses. In experiments, we evaluate Frame-Voyager on four Video Question Answering benchmarks by plugging it into two different Video-LLMs. The experimental results demonstrate that Frame-Voyager achieves impressive results in all settings, highlighting its potential as a plug-and-play solution for Video-LLMs.
翻訳日:2024-11-03 02:54:39 公開日:2024-10-07
# SeBS-Flow: サーバレスクラウドファンクションワークフローのベンチマーク

SeBS-Flow: Benchmarking Serverless Cloud Function Workflows ( http://arxiv.org/abs/2410.03480v1 )

ライセンス: Link先を確認
Larissa Schmid, Marcin Copik, Alexandru Calotoiu, Laurin Brandner, Anne Koziolek, Torsten Hoefler, (参考訳) サーバレスコンピューティングは、クラウド顧客の間で大きな採用率を持つ、目立ったパラダイムとして現れています。 このモデルは、デプロイからの抽象化やリソーススケジューリングといった利点を提供するが、個々の関数の制限された性質のため、複雑なユースケースを扱う際にも制限が生じる。 サーバレスワークフローは、複数の関数を結合的なアプリケーションにオーケストレーションすることで、この制限に対処する。 しかしながら、既存のサーバレスワークフロープラットフォームは、プログラミングモデルとインフラストラクチャに大きな違いを示しており、フェアで一貫したパフォーマンス評価を実際に難しいものにしている。 このギャップに対処するために、さまざまなプラットフォームで一貫したベンチマークを可能にするプラットフォームに依存しないワークフローモデルを提供する、最初のサーバレスワークフローベンチマークスイートであるSeBS-Flowを提案する。 SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。 当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。 ベンチマークスイートをオープンソースにすることで、サーバーレスワークフローを厳格かつ同等に評価することが可能になります。

Serverless computing has emerged as a prominent paradigm, with a significant adoption rate among cloud customers. While this model offers advantages such as abstraction from the deployment and resource scheduling, it also poses limitations in handling complex use cases due to the restricted nature of individual functions. Serverless workflows address this limitation by orchestrating multiple functions into a cohesive application. However, existing serverless workflow platforms exhibit significant differences in their programming models and infrastructure, making fair and consistent performance evaluations difficult in practice. To address this gap, we propose the first serverless workflow benchmarking suite SeBS-Flow, providing a platform-agnostic workflow model that enables consistent benchmarking across various platforms. SeBS-Flow includes six real-world application benchmarks and four microbenchmarks representing different computational patterns. We conduct comprehensive evaluations on three major cloud platforms, assessing performance, cost, scalability, and runtime deviations. We make our benchmark suite open-source, enabling rigorous and comparable evaluations of serverless workflows over time.
翻訳日:2024-11-02 21:59:46 公開日:2024-10-07
# SeBS-Flow: サーバレスクラウドファンクションワークフローのベンチマーク

SeBS-Flow: Benchmarking Serverless Cloud Function Workflows ( http://arxiv.org/abs/2410.03480v2 )

ライセンス: Link先を確認
Larissa Schmid, Marcin Copik, Alexandru Calotoiu, Laurin Brandner, Anne Koziolek, Torsten Hoefler, (参考訳) サーバレスコンピューティングは、クラウド顧客の間で大きな採用率を持つ、目立ったパラダイムとして現れています。 このモデルは、デプロイからの抽象化やリソーススケジューリングといった利点を提供するが、個々の関数の制限された性質のため、複雑なユースケースを扱う際にも制限が生じる。 サーバレスワークフローは、複数の関数を結合的なアプリケーションにオーケストレーションすることで、この制限に対処する。 しかしながら、既存のサーバレスワークフロープラットフォームは、プログラミングモデルとインフラストラクチャに大きな違いを示しており、フェアで一貫したパフォーマンス評価を実際に難しいものにしている。 このギャップに対処するために、さまざまなプラットフォームで一貫したベンチマークを可能にするプラットフォームに依存しないワークフローモデルを提供する、最初のサーバレスワークフローベンチマークスイートであるSeBS-Flowを提案する。 SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。 当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。 ベンチマークスイートをオープンソースにすることで、サーバーレスワークフローを厳格かつ同等に評価することが可能になります。

Serverless computing has emerged as a prominent paradigm, with a significant adoption rate among cloud customers. While this model offers advantages such as abstraction from the deployment and resource scheduling, it also poses limitations in handling complex use cases due to the restricted nature of individual functions. Serverless workflows address this limitation by orchestrating multiple functions into a cohesive application. However, existing serverless workflow platforms exhibit significant differences in their programming models and infrastructure, making fair and consistent performance evaluations difficult in practice. To address this gap, we propose the first serverless workflow benchmarking suite SeBS-Flow, providing a platform-agnostic workflow model that enables consistent benchmarking across various platforms. SeBS-Flow includes six real-world application benchmarks and four microbenchmarks representing different computational patterns. We conduct comprehensive evaluations on three major cloud platforms, assessing performance, cost, scalability, and runtime deviations. We make our benchmark suite open-source, enabling rigorous and comparable evaluations of serverless workflows over time.
翻訳日:2024-11-02 21:59:46 公開日:2024-10-07
# 実世界のファクトチェックのための検索改善のためのコントラスト学習

Contrastive Learning to Improve Retrieval for Real-world Fact Checking ( http://arxiv.org/abs/2410.04657v1 )

ライセンス: Link先を確認
Aniruddh Sriram, Fangyuan Xu, Eunsol Choi, Greg Durrett, (参考訳) ファクトチェックに関する最近の研究は、モデルがWebから取得した証拠を組み込んでクレームの正確性を決定する現実的な環境に対処している。 このパイプラインのボトルネックは、関連する証拠を検索することにある。従来のメソッドは、クレームに直接関係するドキュメントをサーフェする可能性があるが、ファクトチェックの複雑なクレームは、より多くの推論を必要とする。 例えば、ワクチンの開発方法に関する文書は、たとえ直接的にワクチンに対処していなくても、ワクチンに含まれる可能性のあるものに関する主張に対処することに関連する。 本稿では, コントラスト型Fact-Checking Reranker (CFR) について述べる。 AVeriTeCデータセットを利用することで、証拠文書からの人間による回答によるクレームのアノテートを行い、GPT-4からの蒸留、サブクレーム回答の評価、データセット内のゴールドラベルなどを含む複数のトレーニング信号に基づいて、コントリビュータを比較対象として微調整する。 我々は,クレームに対する検索とエンドツーエンドの精度判定の両面からモデルを評価する。 AVeriTeC データセットでは,精度が 6 % 向上した。 また、このゲインをFEVER、ClaymDecomp、HotpotQA、および検索者による推論を必要とする合成データセットに転送できることを示す。

Recent work on fact-checking addresses a realistic setting where models incorporate evidence retrieved from the web to decide the veracity of claims. A bottleneck in this pipeline is in retrieving relevant evidence: traditional methods may surface documents directly related to a claim, but fact-checking complex claims requires more inferences. For instance, a document about how a vaccine was developed is relevant to addressing claims about what it might contain, even if it does not address them directly. We present Contrastive Fact-Checking Reranker (CFR), an improved retriever for this setting. By leveraging the AVeriTeC dataset, which annotates subquestions for claims with human written answers from evidence documents, we fine-tune Contriever with a contrastive objective based on multiple training signals, including distillation from GPT-4, evaluating subquestion answers, and gold labels in the dataset. We evaluate our model on both retrieval and end-to-end veracity judgments about claims. On the AVeriTeC dataset, we find a 6\% improvement in veracity classification accuracy. We also show our gains can be transferred to FEVER, ClaimDecomp, HotpotQA, and a synthetic dataset requiring retrievers to make inferences.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-07
# ActiView: マルチモーダル大規模言語モデルにおけるアクティブな知覚能力の評価

ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models ( http://arxiv.org/abs/2410.04659v1 )

ライセンス: Link先を確認
Ziyue Wang, Chi Chen, Fuwen Luo, Yurui Dong, Yuanchi Zhang, Yuzhuang Xu, Xiaolong Wang, Peng Li, Yang Liu, (参考訳) アクティブな認識は、重要な人間の能力であり、現在の環境の理解に基づいて目標を設定し、その目標を達成するためのアクションを実行する。 MLLM(Multimodal Large Language Models)の評価に多大な努力を払っているにもかかわらず、アクティブな認識はほとんど見過ごされている。 このギャップに対処するために,MLLMのアクティブな知覚を評価するために,ActiViewという新しいベンチマークを提案する。 アクティブな知覚を包括的に評価することは困難であるため,既存のMLLMでは評価が困難である,視覚質問応答(VQA)の特殊な形式に着目する。 画像が与えられた場合、我々はモデルの知覚場を制限し、その疑問にうまく答えるために推論に基づいて、その知覚場を積極的にズームしたり、シフトさせたりする必要がある。 我々は,プロプライエタリモデルやオープンソースモデルを含む27モデルに対して広範な評価を行い,複数の画像を読み,理解する能力が,アクティブな知覚を可能にする上で重要な役割を担っていることを観察した。 その結果,MLLMの能動的知覚能力に有意な差がみられた。 我々のベンチマークは、MLLMがより自然で総合的な方法でマルチモーダル入力を理解する方法の開発に役立てられることを期待している。

Active perception, a crucial human capability, involves setting a goal based on the current understanding of the environment and performing actions to achieve that goal. Despite significant efforts in evaluating Multimodal Large Language Models (MLLMs), active perception has been largely overlooked. To address this gap, we propose a novel benchmark named ActiView to evaluate active perception in MLLMs. Since comprehensively assessing active perception is challenging, we focus on a specialized form of Visual Question Answering (VQA) that eases the evaluation yet challenging for existing MLLMs. Given an image, we restrict the perceptual field of a model, requiring it to actively zoom or shift its perceptual field based on reasoning to answer the question successfully. We conduct extensive evaluation over 27 models, including proprietary and open-source models, and observe that the ability to read and comprehend multiple images simultaneously plays a significant role in enabling active perception. Results reveal a significant gap in the active perception capability of MLLMs, indicating that this area deserves more attention. We hope that our benchmark could help develop methods for MLLMs to understand multimodal inputs in more natural and holistic ways.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-07
# 複雑な知識集約型QAのための知識グラフベースエージェント

Knowledge Graph Based Agent for Complex, Knowledge-Intensive QA in Medicine ( http://arxiv.org/abs/2410.04660v1 )

ライセンス: Link先を確認
Xiaorui Su, Yibo Wang, Shanghua Gao, Xiaolong Liu, Valentina Giunchiglia, Djork-Arné Clevert, Marinka Zitnik, (参考訳) 生物医学の知識は、物理学や化学といった他の科学分野と比較して、独特な推論戦略を必要とする、独特で複雑で構造的なものである。 バイオメディカルサイエンティストは、推論に単一のアプローチに頼るのではなく、ルールベース、プロトタイプベース、ケースベースの推論など、さまざまな戦略を使用する。 この多様性は、ドメイン内の知識を活用しながら、複数の推論戦略に対応する柔軟なアプローチを要求する。 KGARevionは知識集約型医療クエリの複雑さに対処するために設計された知識グラフ(KG)ベースのエージェントである。 クエリを受信すると、KGARevionはLLMの知識ベースを使用して関連する三つ子を生成する。 これらの三重項は接地されたKGに対して検証され、誤った情報をフィルタリングし、正確な関連データが最終回答に寄与することを保証する。 RAGベースのモデルとは異なり、このマルチステッププロセスは、医学的推論の異なるモデルに適応しながら、推論の堅牢性を保証する。 4つの金標準医療QAデータセットの評価によると、KGARevionは5.2%以上の精度を向上し、複雑な医療問題を扱う15のモデルを上回っている。 そこではKGARevionが10.4%の精度向上を達成した。

Biomedical knowledge is uniquely complex and structured, requiring distinct reasoning strategies compared to other scientific disciplines like physics or chemistry. Biomedical scientists do not rely on a single approach to reasoning; instead, they use various strategies, including rule-based, prototype-based, and case-based reasoning. This diversity calls for flexible approaches that accommodate multiple reasoning strategies while leveraging in-domain knowledge. We introduce KGARevion, a knowledge graph (KG) based agent designed to address the complexity of knowledge-intensive medical queries. Upon receiving a query, KGARevion generates relevant triplets by using the knowledge base of the LLM. These triplets are then verified against a grounded KG to filter out erroneous information and ensure that only accurate, relevant data contribute to the final answer. Unlike RAG-based models, this multi-step process ensures robustness in reasoning while adapting to different models of medical reasoning. Evaluations on four gold-standard medical QA datasets show that KGARevion improves accuracy by over 5.2%, outperforming 15 models in handling complex medical questions. To test its capabilities, we curated three new medical QA datasets with varying levels of semantic complexity, where KGARevion achieved a 10.4% improvement in accuracy.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-07
# フェデレートされた学習ノードは、ピアのイメージデータを再構築できる

Federated Learning Nodes Can Reconstruct Peers' Image Data ( http://arxiv.org/abs/2410.04661v1 )

ライセンス: Link先を確認
Ethan Wilson, Kai Yue, Chau-Wai Wong, Huaiyu Dai, (参考訳) Federated Learning(FL)は、複数のノードがローカルデータ上でモデルをトレーニングし、他のノードのトレーニングの恩恵を受けるために定期的に平均的な重量更新を可能にする、プライバシ保護機械学習フレームワークである。 各ノードの目標は、トレーニングデータをプライベートに保ちながら、他のノードと協力してモデルのパフォーマンスを改善することだ。 しかし、このフレームワークはデータのプライバシを保証しません。 以前の研究によると、FLの勾配共有ステップは、正直だが正確な中央サーバからのデータ再構成攻撃に弱い可能性がある。 本研究では,ノード/クライアントが,集中型システムにおいてピアのイメージデータを再構築する攻撃を発生させることで,プライバシの深刻なリスクが生じることを示す。 連続的な更新で利用可能な希薄な情報を用いて、単一のクライアントが静かに他のクライアントのプライベートイメージを再構築できることを実証する。 我々は最先端拡散モデルを利用して、再構成された画像の知覚的品質と認識性を高め、さらに意味レベルでの情報漏洩のリスクを示す。 これは、フェデレートトレーニング中にサイレントクライアント側の攻撃から保護する、より堅牢なプライバシ保護メカニズムの必要性を強調している。

Federated learning (FL) is a privacy-preserving machine learning framework that enables multiple nodes to train models on their local data and periodically average weight updates to benefit from other nodes' training. Each node's goal is to collaborate with other nodes to improve the model's performance while keeping its training data private. However, this framework does not guarantee data privacy. Prior work has shown that the gradient-sharing steps in FL can be vulnerable to data reconstruction attacks from an honest-but-curious central server. In this work, we show that an honest-but-curious node/client can also launch attacks to reconstruct peers' image data in a centralized system, presenting a severe privacy risk. We demonstrate that a single client can silently reconstruct other clients' private images using diluted information available within consecutive updates. We leverage state-of-the-art diffusion models to enhance the perceptual quality and recognizability of the reconstructed images, further demonstrating the risk of information leakage at a semantic level. This highlights the need for more robust privacy-preserving mechanisms that protect against silent client-side attacks during federated training.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-07
# 射影型還元次数モデルのシュワルツ型カップリングにおける界面境界条件とサンプリング戦略の役割

The role of interface boundary conditions and sampling strategies for Schwarz-based coupling of projection-based reduced order models ( http://arxiv.org/abs/2410.04668v1 )

ライセンス: Link先を確認
Christopher R. Wentland, Francesco Rizzi, Joshua Barnett, Irina Tezaur, (参考訳) 本稿では,空間領域の領域分解(DD)に続くシュワルツ交互化法を用いて,サブドメイン局所射影型縮小順序モデル(PROM)の結合に関する枠組みを提示し,評価する。 このアプローチでは、サブドメイン間の情報伝達境界条件(BCs)を介し、サブドメイン局所問題の系列を解く反復過程により、フルドメイン上の解を得る。 提案手法の効率性と柔軟性を最大化することを目的としたシュワルツ交互化法を含むいくつかの新しい方向を探索し、浅水方程式、バーガー方程式、圧縮可能なオイラー方程式という3つの難解な2次元非線形双曲問題について実演する。 セル中心の有限体積離散化と非重重畳DDの場合、サブドメイン境界上のDirichlet-Dirichlet(Robin-RobinやDirichlet-Neumannの交互化)伝送BCを用いて安定かつ正確な結合モデルを得ることが可能である。 さらに,シュワルツ交互化法を2つのサブドメイン局所超還元PROMに利用した場合の境界サンプリングの影響についても検討する。 以上の結果から,提案手法は領域分解による空間的局所化を実現し,同値結合フルオーダーモデル解と類似のモノリシック解に対する適度なスピードアップを最大2桁まで達成することで,PROMの精度を向上させる可能性が示唆された。

This paper presents and evaluates a framework for the coupling of subdomain-local projection-based reduced order models (PROMs) using the Schwarz alternating method following a domain decomposition (DD) of the spatial domain on which a given problem of interest is posed. In this approach, the solution on the full domain is obtained via an iterative process in which a sequence of subdomain-local problems are solved, with information propagating between subdomains through transmission boundary conditions (BCs). We explore several new directions involving the Schwarz alternating method aimed at maximizing the method's efficiency and flexibility, and demonstrate it on three challenging two-dimensional nonlinear hyperbolic problems: the shallow water equations, Burgers' equation, and the compressible Euler equations. We demonstrate that, for a cell-centered finite volume discretization and a non-overlapping DD, it is possible to obtain a stable and accurate coupled model utilizing Dirichlet-Dirichlet (rather than Robin-Robin or alternating Dirichlet-Neumann) transmission BCs on the subdomain boundaries. We additionally explore the impact of boundary sampling when utilizing the Schwarz alternating method to couple subdomain-local hyper-reduced PROMs. Our numerical results suggest that the proposed methodology has the potential to improve PROM accuracy by enabling the spatial localization of these models via domain decomposition, and achieve up to two orders of magnitude speedup over equivalent coupled full order model solutions and moderate speedups over analogous monolithic solutions.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# CAR:視覚生成のための制御可能な自己回帰モデリング

CAR: Controllable Autoregressive Modeling for Visual Generation ( http://arxiv.org/abs/2410.04671v1 )

ライセンス: Link先を確認
Ziyu Yao, Jialin Li, Yifeng Zhou, Yong Liu, Xi Jiang, Chengjie Wang, Feng Zheng, Yuexian Zou, Lei Li, (参考訳) 生成した出力のきめ細かい制御を可能にする制御可能生成は、視覚生成モデルにおいて重要な焦点となっている。 現在、視覚生成には拡散モデルと自己回帰モデルという2つの主要な技術的アプローチがある。 ControlNetとT2I-Adapterによって実証された拡散モデルは高度な制御機構を提供するが、自己回帰モデルは優れた生成品質とスケーラビリティを誇示しているにもかかわらず、制御性と柔軟性の観点からはまだ未熟である。 本研究では,条件付き制御をマルチスケールの潜在変数モデリングに統合し,事前学習した視覚的自己回帰モデル内で効率的な制御生成を可能にする,新しいプラグイン・アンド・プレイフレームワークであるCARを導入する。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。 提案手法は, 各種条件に対して優れた制御性を示し, 従来手法に比べて高画質化を実現している。 さらに、CARは、モデルの事前トレーニングに必要なものよりも、トレーニングリソースが大幅に少ない、堅牢な一般化を実現している。 我々の知る限り、我々は、事前学習された自己回帰視覚生成モデルのための制御フレームワークを最初に提案する。

Controllable generation, which enables fine-grained control over generated outputs, has emerged as a critical focus in visual generative models. Currently, there are two primary technical approaches in visual generation: diffusion models and autoregressive models. Diffusion models, as exemplified by ControlNet and T2I-Adapter, offer advanced control mechanisms, whereas autoregressive models, despite showcasing impressive generative quality and scalability, remain underexplored in terms of controllability and flexibility. In this study, we introduce Controllable AutoRegressive Modeling (CAR), a novel, plug-and-play framework that integrates conditional control into multi-scale latent variable modeling, enabling efficient control generation within a pre-trained visual autoregressive model. CAR progressively refines and captures control representations, which are injected into each autoregressive step of the pre-trained model to guide the generation process. Our approach demonstrates excellent controllability across various types of conditions and delivers higher image quality compared to previous methods. Additionally, CAR achieves robust generalization with significantly fewer training resources compared to those required for pre-training the model. To the best of our knowledge, we are the first to propose a control framework for pre-trained autoregressive visual generation models.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# 現代的なコードレビューにおけるリファクタリングブランチのダイナミクスの解読 - Qtに関する実証的研究

Deciphering Refactoring Branch Dynamics in Modern Code Review: An Empirical Study on Qt ( http://arxiv.org/abs/2410.04678v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, (参考訳) コンテキスト: モダンなコードレビューは、産業とオープンソースプロジェクトの両方で広く採用されているテクニックであり、ソフトウェア品質の向上、知識の共有、コーディング標準とガイドラインの遵守の確保に役立ちます。 コードレビューは、その一般的な課題、ベストプラクティス、成果、社会技術的側面について広範囲に研究されているが、リファクタリングがどのようにレビューされるか、リファクタリングブランチでリファクタリングされたコードをレビューする際に開発者が何を優先するかにはほとんど注意が払われていない。 目的: Refactorブランチの変更をリファクタリングするためのレビュープロセスを理解し、このブランチでコードをレビューする際に開発者が何に関心を持っているかを特定することです。 方法:本研究では,リファクタリングされたコードの提出を受理するか,拒否するかを決定するために開発者が使用する主要な基準を理解し,このプロセスに固有の課題を特定するための量的,質的な試験を提案する。 結果: Qtオープンソースプロジェクト全体で2,154のリファクタリングと非リファクタリングレビューを分析した結果、リファクタリングブランチからのリファクタリングを含むレビューは、コードレビューの取り組みにおいて、解決に要する時間が大幅に削減されていることがわかった。 さらに、開発者意図のドキュメンテーションは、他のブランチと比べて、Refactorブランチ内では特に少ない。 さらに、リファクタリングコードレビューの議論のかなりのサンプルをテーマ分析することで、12のリファクタリングレビュー基準からなる包括的分類を構築した。

Context: Modern code review is a widely employed technique in both industrial and open-source projects, serving to enhance software quality, share knowledge, and ensure compliance with coding standards and guidelines. While code review is extensively studied for its general challenges, best practices, outcomes, and socio-technical aspects, little attention has been paid to how refactoring is reviewed and what developers prioritize when reviewing refactored code in the Refactor branch. Objective: The goal is to understand the review process for refactoring changes in the Refactor branch and to identify what developers care about when reviewing code in this branch. Method: In this study, we present a quantitative and qualitative examination to understand the main criteria developers use to decide whether to accept or reject refactored code submissions and identify the challenges inherent in this process. Results: Analyzing 2,154 refactoring and non-refactoring reviews across Qt open-source projects, we find that reviews involving refactoring from the Refactor branch take significantly less time to resolve in terms of code review efforts. Additionally, documentation of developer intent is notably sparse within the Refactor branch compared to other branches. Furthermore, through thematic analysis of a substantial sample of refactoring code review discussions, we construct a comprehensive taxonomy consisting of 12 refactoring review criteria.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# IOP行列モデル対応によるPSSYモデルにおけるページ曲線の非平面補正に関する一考察

A note on the non-planar corrections for the Page curve in the PSSY model via the IOP matrix model correspondence ( http://arxiv.org/abs/2410.04679v1 )

ライセンス: Link先を確認
Norihiro Iizuka, Mitsuhiro Nishida, (参考訳) 我々は,それらのシュウィンガー・ダイソン方程式,ファインマン図,パラメータを比較することで,PSSYモデルとIOP行列モデルとの対応性を開発した。 この対応を応用して、IOP行列モデルにおける2点関数の非平面解析を用いて、PSSYモデルの交差を含む特定の非平面図を推定する。 また、エンタングルメントエントロピーに関するページの公式と比較し、エクストラハンドル・イン・バルク図の寄与について議論する。

We develop a correspondence between the PSSY model and the IOP matrix model by comparing their Schwinger-Dyson equations, Feynman diagrams, and parameters. Applying this correspondence, we resum specific non-planar diagrams involving crossing in the PSSY model by using a non-planar analysis of a two-point function in the IOP matrix model. We also compare them with Page's formula on entanglement entropy and discuss the contributions of extra-handle-in-bulk diagrams.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# AIシステムにおけるゴール指向性の測定に向けて

Towards Measuring Goal-Directedness in AI Systems ( http://arxiv.org/abs/2410.04683v1 )

ライセンス: Link先を確認
Dylan Xu, Juan-Pablo Rivera, (参考訳) 近年のディープラーニングの進歩は、多くのタスクで人間を上回る高度な汎用AIシステムを構築する可能性に注意を向けている。 しかし、これらのシステムが意図しない目標を追求すれば、破滅的な結果がもたらされる可能性がある。 意図しない目標を追求するAIシステムにとって重要な前提条件は、まず第一に、コヒーレントでゴール指向の方法で行動し、未知の目標を最適化するかどうかである。 しかし、私たちが現在持っているゴール指向性の最も厳格な定義は、現実の環境では計算が難しい。 本論文を参考に,強化学習(RL)環境における政策目標指向性について考察する。 そこで本研究では,多くの報酬関数に準最適にモデル化されているかどうかを解析する政策の目的指向性の異なる定義系を提案する。 目標指向性の予備的な定義を運用し、おもちゃのマルコフ決定プロセス(MDP)環境でテストする。 さらに,フロンティア大言語モデル (LLM) における目標指向性の測定方法について検討した。 私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。 我々は,この結果に基づいて,コヒーレンスとゴール指向性の測定をさらに行うことを推奨する。

Recent advances in deep learning have brought attention to the possibility of creating advanced, general AI systems that outperform humans across many tasks. However, if these systems pursue unintended goals, there could be catastrophic consequences. A key prerequisite for AI systems pursuing unintended goals is whether they will behave in a coherent and goal-directed manner in the first place, optimizing for some unknown goal; there exists significant research trying to evaluate systems for said behaviors. However, the most rigorous definitions of goal-directedness we currently have are difficult to compute in real-world settings. Drawing upon this previous literature, we explore policy goal-directedness within reinforcement learning (RL) environments. In our findings, we propose a different family of definitions of the goal-directedness of a policy that analyze whether it is well-modeled as near-optimal for many (sparse) reward functions. We operationalize this preliminary definition of goal-directedness and test it in toy Markov decision process (MDP) environments. Furthermore, we explore how goal-directedness could be measured in frontier large-language models (LLMs). Our contribution is a definition of goal-directedness that is simpler and more easily computable in order to approach the question of whether AI systems could pursue dangerous goals. We recommend further exploration of measuring coherence and goal-directedness, based on our findings.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# 構造データと非構造データを組み合わせる:保険請求予測のためのトピックベース有限混合モデル

Combining Structural and Unstructured Data: A Topic-based Finite Mixture Model for Insurance Claim Prediction ( http://arxiv.org/abs/2410.04684v1 )

ライセンス: Link先を確認
Yanxi Hou, Xiaolan Xia, Guangyuan Gao, (参考訳) 保険請求額のモデリングと異なるリスクレベルへのクレームの分類は、非常に難しい作業である。 従来の保険請求の予測モデルは、クレーム記述に埋め込まれた貴重な情報を見落としていることが多い。 本稿では,クレーム記述とクレーム量を統合した混合モデルを提案する。 本手法は,テキスト記述と損失量との確率的リンクを確立し,クレームクラスタリングと予測の精度を高める。 提案したモデルでは,潜在トピック/コンポーネントインジケータは,クレーム記述のテーマ内容と損失分布の構成要素の両方のプロキシとして機能する。 具体的には、トピック/コンポーネントインジケータに条件付きで、クレーム記述は多項分布、クレーム量は成分損失分布に従う。 モデルキャリブレーションのための2つの手法として, 後方推定を最大化するEMアルゴリズムと, 後方分布に対するMH-within-Gibbs サンプリングアルゴリズムを提案する。 実証的研究は,提案手法が効果的に機能し,解釈可能なクレームのクラスタリングと予測を提供することを示した。

Modeling insurance claim amounts and classifying claims into different risk levels are critical yet challenging tasks. Traditional predictive models for insurance claims often overlook the valuable information embedded in claim descriptions. This paper introduces a novel approach by developing a joint mixture model that integrates both claim descriptions and claim amounts. Our method establishes a probabilistic link between textual descriptions and loss amounts, enhancing the accuracy of claims clustering and prediction. In our proposed model, the latent topic/component indicator serves as a proxy for both the thematic content of the claim description and the component of loss distributions. Specifically, conditioned on the topic/component indicator, the claim description follows a multinomial distribution, while the claim amount follows a component loss distribution. We propose two methods for model calibration: an EM algorithm for maximum a posteriori estimates, and an MH-within-Gibbs sampler algorithm for the posterior distribution. The empirical study demonstrates that the proposed methods work effectively, providing interpretable claims clustering and prediction.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# 低域連続ピラミッド視変換器:軽度適応によるCTにおける全身体臓器の増分

Low-Rank Continual Pyramid Vision Transformer: Incrementally Segment Whole-Body Organs in CT with Light-Weighted Adaptation ( http://arxiv.org/abs/2410.04689v1 )

ライセンス: Link先を確認
Vince Zhu, Zhanghexuan Ji, Dazhou Guo, Puyang Wang, Yingda Xia, Le Lu, Xianghua Ye, Wei Zhu, Dakai Jin, (参考訳) ディープセグメンテーションネットワークは、特定のデータセットでトレーニングされた場合、高いパフォーマンスを達成する。 しかし, 臨床実践においては, 既存の訓練データセットにアクセスせずに, あるいはスクラッチからトレーニングを受けることなく, 新しい臓器の分節を動的に拡張することが望まれる。 これにより、患者のプライバシとデータストレージの問題を考慮したモデル開発とデプロイメントのパラダイムがより効率的になる。 この臨床的に好まれるプロセスは、連続的セマンティックセグメンテーション(CSS)問題と見なすことができる。 これまでのCSSの作業は、悲惨な忘れを経験するか、あるいはモデルが拡大するにつれて、不都合なメモリコストにつながる可能性がある。 そこで本研究では,軽量低ランク適応 (LoRA) を用いた連続的な全身臓器分割モデルを提案する。 まず、最初のタスクでピラミッドビジョントランスフォーマー(PVT)ベースセグメンテーションモデルをトレーニングし、その後、新しい学習タスク毎に凍結モデルに軽量でトレーニング可能なLoRAパラメータを継続的に追加する。 アーキテクチャ修正の全体的調査を通じて、事前訓練されたパラメータの大部分を固定しつつ、新しいセグメンテーションタスクに適応するために重要な3つの重要なレイヤ(パッチ埋め込み、マルチヘッドアテンション、フィードフォワード層)を識別する。 提案モデルでは, 破滅的忘れを伴わず, 低パラメータ増加率を維持しながら, 新しい臓器を連続的に分割する。 121の臓器の異なる部位をカバーする4つのデータセットで連続的にトレーニングと試験を行い、その結果、我々のモデルは高いセグメンテーション精度を達成し、PVTおよびnnUNetの上限に近づき、他の正規化ベースのCSSメソッドよりも大幅に優れていることが示された。 主要なアーキテクチャベースのCSSメソッドと比較すると、我々のモデルは、同等のパフォーマンスを達成しながら、かなり低いパラメータ増加率を持つ。

Deep segmentation networks achieve high performance when trained on specific datasets. However, in clinical practice, it is often desirable that pretrained segmentation models can be dynamically extended to enable segmenting new organs without access to previous training datasets or without training from scratch. This would ensure a much more efficient model development and deployment paradigm accounting for the patient privacy and data storage issues. This clinically preferred process can be viewed as a continual semantic segmentation (CSS) problem. Previous CSS works would either experience catastrophic forgetting or lead to unaffordable memory costs as models expand. In this work, we propose a new continual whole-body organ segmentation model with light-weighted low-rank adaptation (LoRA). We first train and freeze a pyramid vision transformer (PVT) base segmentation model on the initial task, then continually add light-weighted trainable LoRA parameters to the frozen model for each new learning task. Through a holistically exploration of the architecture modification, we identify three most important layers (i.e., patch-embedding, multi-head attention and feed forward layers) that are critical in adapting to the new segmentation tasks, while retaining the majority of the pretrained parameters fixed. Our proposed model continually segments new organs without catastrophic forgetting and meanwhile maintaining a low parameter increasing rate. Continually trained and tested on four datasets covering different body parts of a total of 121 organs, results show that our model achieves high segmentation accuracy, closely reaching the PVT and nnUNet upper bounds, and significantly outperforms other regularization-based CSS methods. When comparing to the leading architecture-based CSS method, our model has a substantial lower parameter increasing rate while achieving comparable performance.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# SegINR:Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech

SegINR: Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech ( http://arxiv.org/abs/2410.04690v1 )

ライセンス: Link先を確認
Minchan Kim, Myeonghun Jeong, Joun Yeop Lee, Nam Soo Kim, (参考訳) 本稿では, 持続時間予測器や複雑な自己回帰(AR)や非自己回帰(NAR)フレームレベルのシーケンスモデリングに頼ることなく, シーケンスアライメントに対処する, ニューラルテキスト音声合成(TTS)の新しいアプローチであるSeginRを提案する。 SegINRは、テキストシーケンスを直接フレームレベルの特徴に変換することで、プロセスを単純化する。 最適なテキストエンコーダを利用して埋め込みを抽出し、それぞれを条件付き暗黙的ニューラル表現(INR)を使用してフレームレベルの特徴のセグメントに変換する。 この手法はセグメントワイドINR (SegINR) と呼ばれ、各セグメント内の時間力学をモデル化し、セグメント境界を自律的に定義し、計算コストを削減している。 SegINRを2段階のTSフレームワークに統合し、セマンティックトークン予測に使用する。 ゼロショット適応TSシナリオにおける実験により、SegINRは従来の音声品質を計算効率で上回ることを示した。

We present SegINR, a novel approach to neural Text-to-Speech (TTS) that addresses sequence alignment without relying on an auxiliary duration predictor and complex autoregressive (AR) or non-autoregressive (NAR) frame-level sequence modeling. SegINR simplifies the process by converting text sequences directly into frame-level features. It leverages an optimal text encoder to extract embeddings, transforming each into a segment of frame-level features using a conditional implicit neural representation (INR). This method, named segment-wise INR (SegINR), models temporal dynamics within each segment and autonomously defines segment boundaries, reducing computational costs. We integrate SegINR into a two-stage TTS framework, using it for semantic token prediction. Our experiments in zero-shot adaptive TTS scenarios demonstrate that SegINR outperforms conventional methods in speech quality with computational efficiency.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-07
# アップデートなしのより深い洞察:微調整によるインテクスト学習の力

Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning ( http://arxiv.org/abs/2410.04691v1 )

ライセンス: Link先を確認
Qingyu Yin, Xuzheng He, Luoao Deng, Chak Tou Leong, Fan Wang, Yanzhao Yan, Xiaoyu Shen, Qiang Zhang, (参考訳) ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。 モデルがデータに基づいて内部パラメータを調整できるので、十分なトレーニングサンプルが与えられた場合、微調整はICLを超える可能性があると一般的に信じられている。 暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。 例えば、パリティによる回答の順序の決定や、計算における可算項の同定などである。 次に、0.5B から 7B までの範囲で、細調整と ICL の両方で、これらのパターンに対するモデルの理解を評価した。 その結果、ICLを用いたモデルでは、深いパターンを素早く把握し、精度を大幅に向上できることがわかった。 対照的に、細調整はICLよりも何千倍もトレーニングサンプルを利用しているにもかかわらず、限られた改善しか得られなかった。 また、ICLが勝つ理由を説明するために、機械論的解釈可能性の観点から回路シフト理論を提案した。

Fine-tuning and in-context learning (ICL) are two prevalent methods in imbuing large language models with task-specific knowledge. It is commonly believed that fine-tuning can surpass ICL given sufficient training samples as it allows the model to adjust its internal parameters based on the data. However, this paper presents a counterintuitive finding: For tasks with implicit patterns, ICL captures these patterns significantly better than fine-tuning. We developed several datasets featuring implicit patterns, such as sequences determining answers through parity or identifying reducible terms in calculations. We then evaluated the models' understanding of these patterns under both fine-tuning and ICL across models ranging from 0.5B to 7B parameters. The results indicate that models employing ICL can quickly grasp deep patterns and significantly improve accuracy. In contrast, fine-tuning, despite utilizing thousands of times more training samples than ICL, achieved only limited improvements. We also proposed circuit shift theory from a mechanistic interpretability's view to explain why ICL wins.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# E(n)-同変高次グラフニューラルネットワークに対するクリフォード代数的アプローチ

A Clifford Algebraic Approach to E(n)-Equivariant High-order Graph Neural Networks ( http://arxiv.org/abs/2410.04692v1 )

ライセンス: Link先を確認
Hoang-Viet Tran, Thieu N. Vo, Tho Tran Huu, Tan Minh Nguyen, (参考訳) データ対称性を扱うニューラルネットワークアーキテクチャの設計が不可欠です。 これはユークリッド変換の下で性質が同値な幾何グラフにとって特に重要である。 現在の同変グラフニューラルネットワーク(EGNN)、特にメッセージパッシングを使用するものは、表現力に制限がある。 最近の高次グラフニューラルネットワークは、この制限を克服することができるが、等分散性は欠如しており、化学や物理科学の特定の応用において顕著な欠点を示している。 本稿では,Clifford Group Equivariant Graph Neural Networks (CG-EGNNs)を紹介する。 クリフォード代数の鍵となる利点として、CG-EGNNは位置的特徴から等分散を捉える関数を学ぶことができる。 高次メッセージパッシング機構を採用することで、CG-EGNNは隣人からよりリッチな情報を得ることができ、モデル性能が向上する。 さらに、$k$-hopメッセージパッシングフレームワークの普遍性を確立し、追加の$k$-hopメッセージパッシング機構によりCG-EGNNの表現力を高めることを示す。 CG-EGNNは, n-body, CMU モーションキャプチャ, MD17などの様々なベンチマークにおいて, 従来の手法よりも優れており, 幾何学的深層学習におけるその有効性を強調している。

Designing neural network architectures that can handle data symmetry is crucial. This is especially important for geometric graphs whose properties are equivariance under Euclidean transformations. Current equivariant graph neural networks (EGNNs), particularly those using message passing, have a limitation in expressive power. Recent high-order graph neural networks can overcome this limitation, yet they lack equivariance properties, representing a notable drawback in certain applications in chemistry and physical sciences. In this paper, we introduce the Clifford Group Equivariant Graph Neural Networks (CG-EGNNs), a novel EGNN that enhances high-order message passing by integrating high-order local structures in the context of Clifford algebras. As a key benefit of using Clifford algebras, CG-EGNN can learn functions that capture equivariance from positional features. By adopting the high-order message passing mechanism, CG-EGNN gains richer information from neighbors, thus improving model performance. Furthermore, we establish the universality property of the $k$-hop message passing framework, showcasing greater expressive power of CG-EGNNs with additional $k$-hop message passing mechanism. We empirically validate that CG-EGNNs outperform previous methods on various benchmarks including n-body, CMU motion capture, and MD17, highlighting their effectiveness in geometric deep learning.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# MathHay: LLMにおける長期数学的推論のための自動ベンチマーク

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs ( http://arxiv.org/abs/2410.04698v1 )

ライセンス: Link先を確認
Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo, (参考訳) 近年の大規模言語モデル (LLM) は, 長文シナリオにおいて多目的性を示す。 近年、LLMの長期コンテキスト能力を評価するためにいくつかのベンチマークが開発されているが、LLMの長期コンテキストにおける数学的推論能力を評価するベンチマークは乏しく、現実のシナリオにおけるLLMの応用には不可欠である。 本稿では,LLMの長文数学的推論能力を評価するための自動ベンチマークであるMathHayを紹介する。 Needle in a Haystackのような、主に長いテキスト内の情報検索に焦点を当てた以前のベンチマークとは異なり、MathHayは情報検索と複雑な数学的推論能力の両方のモデルを要求する。 本研究では,8つのLLMの長文数学的推論能力を評価するため,MathHayに関する広範囲な実験を行った。 最も優れたモデルであるGemini-1.5-Pro-002でさえ、長いコンテキストに対する数学的推論に苦慮しており、128Kトークンで51.26%の精度しか達成していない。 このことは、MathHayベンチマークの大幅な改善の余地を強調している。

Recent large language models (LLMs) have demonstrated versatile capabilities in long-context scenarios. Although some recent benchmarks have been developed to evaluate the long-context capabilities of LLMs, there is a lack of benchmarks evaluating the mathematical reasoning abilities of LLMs over long contexts, which is crucial for LLMs' application in real-world scenarios. In this paper, we introduce MathHay, an automated benchmark designed to assess the long-context mathematical reasoning capabilities of LLMs. Unlike previous benchmarks like Needle in a Haystack, which focus primarily on information retrieval within long texts, MathHay demands models with both information-seeking and complex mathematical reasoning abilities. We conduct extensive experiments on MathHay to assess the long-context mathematical reasoning abilities of eight top-performing LLMs. Even the best-performing model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights the significant room for improvement on the MathHay benchmark.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# LLM効果:人間はLSMを真に使っているのか、それともその代わりにその影響を受けているのか?

The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? ( http://arxiv.org/abs/2410.04699v1 )

ライセンス: Link先を確認
Alexander S. Choi, Syeda Sabrina Akter, JP Singh, Antonios Anastasopoulos, (参考訳) 大規模言語モデル(LLM)は、様々な分析タスクにおいて人間のパフォーマンスに近い能力を示しており、研究者は時間と労働集約的な分析にそれらを使用するようになった。 しかし、政策研究のような領域において、高度に専門的でオープンなタスクを扱う能力は疑問視されている。 本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。 この研究は2つの段階(Topic Discovery and Topic Assignment-Integrated LLMs with expert annotators)で行われた。 以上の結果から,LLM生成トピックリストは人為的なトピックリストと大きく重なり,文書固有のトピックが不足していることが示唆された。 しかし、LCMの提案はタスク完了速度を大幅に改善するが、同時にアンカーバイアスを導入し、分析の深さとニュアンスに影響を与える可能性があり、効率の向上とバイアス分析のリスクの間のトレードオフについて批判的な疑問を提起する。

Large Language Models (LLMs) have shown capabilities close to human performance in various analytical tasks, leading researchers to use them for time and labor-intensive analyses. However, their capability to handle highly specialized and open-ended tasks in domains like policy studies remains in question. This paper investigates the efficiency and accuracy of LLMs in specialized tasks through a structured user study focusing on Human-LLM partnership. The study, conducted in two stages-Topic Discovery and Topic Assignment-integrates LLMs with expert annotators to observe the impact of LLM suggestions on what is usually human-only analysis. Results indicate that LLM-generated topic lists have significant overlap with human generated topic lists, with minor hiccups in missing document-specific topics. However, LLM suggestions may significantly improve task completion speed, but at the same time introduce anchoring bias, potentially affecting the depth and nuance of the analysis, raising a critical question about the trade-off between increased efficiency and the risk of biased analysis.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# ニューラルフーリエモデリング:時系列解析における高精度なアプローチ

Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis ( http://arxiv.org/abs/2410.04703v1 )

ライセンス: Link先を確認
Minjung Kim, Yusuke Hioka, Michael Witbrock, (参考訳) ニューラルネットワークの時系列分析は、伝統的に時間領域のデータモデリングに重点を置いており、しばしば等価なフーリエ領域表現を補助スペクトルの特徴として取り入れたいくつかのアプローチで行われている。 本研究では、主に周波数表現に焦点を移し、フーリエ領域において時系列データを完全かつ直接モデル化する。 時系列解析のためのコンパクトで強力なソリューションであるニューラルフーリエモデリング(NFM)を導入する。 NFMはフーリエ変換(FT)の2つの重要な性質に接している。 (i)有限長時系列をフーリエ領域の関数としてモデル化し、関数空間における連続時間要素として扱う能力、 (ii) フーリエドメイン内のデータ操作(リサンプリングやタイムパン拡張など)の能力。 我々は、フーリエ領域のデータ操作を周波数外挿と補間と解釈し、これをNFMの中核学習機構として取り入れ、様々なタスクに適用する。 スペクトル事前のフレキシブルな周波数拡張と周波数表現の効率的な変調をサポートするために,LFT(Learable Frequency Tokens)とINFF(Implicit Neural Fourier Filters)の2つの学習モジュールを提案する。 これらの加群はフーリエ領域におけるコンパクトで表現的なモデリングを可能にする。 大規模な実験により、NFMは幅広いタスク(予測、異常検出、分類)で最先端のパフォーマンスを達成している。 さらに、NFMは非常にコンパクトで、各タスクで40K未満のパラメータが必要であり、時系列の長さは100から16Kである。

Neural time-series analysis has traditionally focused on modeling data in the time domain, often with some approaches incorporating equivalent Fourier domain representations as auxiliary spectral features. In this work, we shift the main focus to frequency representations, modeling time-series data fully and directly in the Fourier domain. We introduce Neural Fourier Modelling (NFM), a compact yet powerful solution for time-series analysis. NFM is grounded in two key properties of the Fourier transform (FT): (i) the ability to model finite-length time series as functions in the Fourier domain, treating them as continuous-time elements in function space, and (ii) the capacity for data manipulation (such as resampling and timespan extension) within the Fourier domain. We reinterpret Fourier-domain data manipulation as frequency extrapolation and interpolation, incorporating this as a core learning mechanism in NFM, applicable across various tasks. To support flexible frequency extension with spectral priors and effective modulation of frequency representations, we propose two learning modules: Learnable Frequency Tokens (LFT) and Implicit Neural Fourier Filters (INFF). These modules enable compact and expressive modeling in the Fourier domain. Extensive experiments demonstrate that NFM achieves state-of-the-art performance on a wide range of tasks (forecasting, anomaly detection, and classification), including challenging time-series scenarios with previously unseen sampling rates at test time. Moreover, NFM is highly compact, requiring fewer than 40K parameters in each task, with time-series lengths ranging from 100 to 16K.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# ARMAX-LFモデルを用いた声道・声門音源パラメータのモデル化と推定

Modeling and Estimation of Vocal Tract and Glottal Source Parameters Using ARMAX-LF Model ( http://arxiv.org/abs/2410.04704v1 )

ライセンス: Link先を確認
Kai Lia, Masato Akagia, Yongwei Lib, Masashi Unokia, (参考訳) eXogenous input (ARX) モデルとLiljencrants-Fant (LF) モデルを用いて、反復的推定手法を用いて、生音声からの母音の声道パラメータと声道パラメータのモデル化と推定を行うことができる。 しかし、声道フィルタのモデル化における全極自己回帰モデルでは、鼻音、摩擦音、停止子音などの音声の特定のクラスにおける推定誤差を増大させる反フォルマント(ゼロス)の位置は提供できない。 本稿では,ARX-LFモデルを母音や鼻音を含む幅広い音声に拡張するための,LF(ARMAX-LF)モデルを用いた自己回帰移動平均eXogenousを提案する。 LFモデルはパラメータ化された時間領域モデルであり、ARMAXモデルは声道を極ゼロフィルタとして、追加の外因性LF励起を入力として表現する。 誤差が少ない複数のパラメータを推定するために、まずディープニューラルネットワーク(DNN)の強力な非線形適合性を利用して、抽出した声門音源導関数や音声波形から対応するLFパラメータへのマッピングを構築する。 そして, 声道音源および声道パラメータを, 解析・合成戦略のように, 誤差が少なく, 繰り返しを伴わずに推定することができる。 線形音源フィルタモデルを用いた合成音声、物理モデルを用いた合成音声、実音声信号による実験結果から、DNNに基づく推定法を用いて提案したARMAX-LFモデルは、誤りや推定時間が少なく、母音と鼻音の両方のパラメータを推定できることがわかった。

Modeling and estimation of the vocal tract and glottal source parameters of vowels from raw speech can be typically done by using the Auto-Regressive with eXogenous input (ARX) model and Liljencrants-Fant (LF) model with an iteration-based estimation approach. However, the all-pole autoregressive model in the modeling of vocal tract filters cannot provide the locations of anti-formants (zeros), which increases the estimation errors in certain classes of speech sounds, such as nasal, fricative, and stop consonants. In this paper, we propose the Auto-Regressive Moving Average eXogenous with LF (ARMAX-LF) model to extend the ARX-LF model to a wider variety of speech sounds, including vowels and nasalized consonants. The LF model represents the glottal source derivative as a parametrized time-domain model, and the ARMAX model represents the vocal tract as a pole-zero filter with an additional exogenous LF excitation as input. To estimate multiple parameters with fewer errors, we first utilize the powerful nonlinear fitting ability of deep neural networks (DNNs) to build a mapping from extracted glottal source derivatives or speech waveforms to corresponding LF parameters. Then, glottal source and vocal tract parameters can be estimated with fewer estimation errors and without any iterations as in the analysis-by-synthesis strategy. Experimental results with synthesized speech using the linear source-filter model, synthesized speech using the physical model, and real speech signals showed that the proposed ARMAX-LF model with a DNN-based estimation method can estimate the parameters of both vowels and nasalized sounds with fewer errors and estimation time.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# LM計算の入力適応アロケーションについて考えるのがいかに難しいか

Learning How Hard to Think: Input-Adaptive Allocation of LM Computation ( http://arxiv.org/abs/2410.04707v1 )

ライセンス: Link先を確認
Mehul Damani, Idan Shenfeld, Andi Peng, Andreea Bobu, Jacob Andreas, (参考訳) コード生成、数値推論、ダイアログにまたがる問題における言語モデル(LM)出力の品質を改善する。 既存の作業は通常、LMに全ての入力に対して同じ復号手順を適用する。 しかし、全ての入力が処理に同じ量の計算を必要とするわけではない。 デコード計算を適応的に割り当てて、より多くのリソースを使って、答えが計算しづらい質問に答えることができるか? 本稿では,入力と計算予算が与えられた報酬の分配を予測し,次に最も有用であると予測される入力に余分な計算を割り当てる手法を提案する。 本稿では,提案手法を2つのデコード手順に適用する。第1に,リランカへの入力として生成するサンプル数を動的に選択する適応的ベスト・オブ・kプロシージャ,第2に,高価で精度の低いデコードプロシージャを用いてクエリに動的に応答するルーティングプロシージャ,第2に,安価で低機能なデコードプロシージャである。 プログラム,数学,ダイアログの一連のタスクを通して,正確な計算割当手順を学習し,応答品質を犠牲にすることなく計算を最大50%削減したり,固定された計算予算で最大10%品質を向上することができることを示す。

Computationally intensive decoding procedures--including search, reranking, and self-critique--can improve the quality of language model (LM) outputs in problems spanning code generation, numerical reasoning, and dialog. Existing work typically applies the same decoding procedure for every input to an LM. But not all inputs require the same amount of computation to process. Can we allocate decoding computation adaptively, using more resources to answer questions whose answers will be harder to compute? We present an approach that predicts the distribution of rewards given an input and computation budget, then allocates additional computation to inputs for which it is predicted to be most useful. We apply this approach in two decoding procedures: first, an adaptive best-of-k procedure that dynamically selects the number of samples to generate as input to a reranker; second, a routing procedure that dynamically responds to a query using a decoding procedure that is expensive but accurate, or one that is cheaper but less capable. Across a suite of programming, mathematics, and dialog tasks, we show that accurate computation-allocation procedures can be learned, and reduce computation by up to 50% at no cost to response quality, or improve quality by up to 10% at a fixed computational budget.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# 予測符号化ネットワークにおけるタイト安定性,収束性,ロバスト性境界

Tight Stability, Convergence, and Robustness Bounds for Predictive Coding Networks ( http://arxiv.org/abs/2410.04708v1 )

ライセンス: Link先を確認
Ankur Mali, Tommaso Salvatori, Alexander Ororbia, (参考訳) 予測符号化(PC)のようなエネルギーベースの学習アルゴリズムは、局所的な操作や生物学的に妥当なエラー訂正機構などの理論的性質から、機械学習コミュニティにおいて大きな注目を集めている。 本研究では, 動的システム理論のレンズを用いて, PCの安定性, 堅牢性, 収束性を厳密に解析する。 第一に、PCはその損失と余剰エネルギー関数の軽微な仮定の下で安定であり、エネルギー最小化のダイナミクスにより、小さなランダム摂動に対する本質的な頑健性を示す。 第二に、PCは、上位の曲率情報を組み込むことで近似準ニュートン法を更新し、バックプロパゲーション(BP)を用いて訓練されたモデルと比較して、より安定で、より少ないイテレーションで収束させることができることを正式に確立する。 さらに、この動的フレームワークを用いて、高次微分の役割を正確に特徴づけることにより、PCと他のアルゴリズム、すなわちBPとターゲット伝搬(TP)の類似性に関する新たな理論的境界を提供する。 これらの境界はヘッセン構造の詳細な解析から導かれるもので、PCはTPよりも準ニュートン更新にかなり近く、PCの安定性と効率を従来の学習法と比較して深く理解していることを示している。

Energy-based learning algorithms, such as predictive coding (PC), have garnered significant attention in the machine learning community due to their theoretical properties, such as local operations and biologically plausible mechanisms for error correction. In this work, we rigorously analyze the stability, robustness, and convergence of PC through the lens of dynamical systems theory. We show that, first, PC is Lyapunov stable under mild assumptions on its loss and residual energy functions, which implies intrinsic robustness to small random perturbations due to its well-defined energy-minimizing dynamics. Second, we formally establish that the PC updates approximate quasi-Newton methods by incorporating higher-order curvature information, which makes them more stable and able to converge with fewer iterations compared to models trained via backpropagation (BP). Furthermore, using this dynamical framework, we provide new theoretical bounds on the similarity between PC and other algorithms, i.e., BP and target propagation (TP), by precisely characterizing the role of higher-order derivatives. These bounds, derived through detailed analysis of the Hessian structures, show that PC is significantly closer to quasi-Newton updates than TP, providing a deeper understanding of the stability and efficiency of PC compared to conventional learning methods.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# クリフォード階層における制御ゲート

Controlled Gates in the Clifford Hierarchy ( http://arxiv.org/abs/2410.04711v1 )

ライセンス: Link先を確認
Jonas T. Anderson, Matthew Weippert, (参考訳) ここでは、立方体 Clifford Hierarchy における任意の制御ゲートによって満たされなければならない条件の集合を証明する。 これらの条件は容易に導出できるが、非常に制限されている。 また、証明をある種のユニタリの直和からなるゲートに拡張する。 最後に、これらの条件も十分であることを示す。

In this note we prove a necessary set of conditions which must be satisfied by any controlled gate in the qubit Clifford Hierarchy. These conditions are straightforward to derive yet quite restricting. We also extend our proofs to gates composed of certain direct sums of unitaries. Finally, we provide some evidence that these conditions are also sufficient.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# 量子カオスにおけるシステム対称性と時間外コレレータダイナミクスの分類

System Symmetry and the Classification of Out-of-Time-Ordered Correlator Dynamics in Quantum Chaos ( http://arxiv.org/abs/2410.04712v1 )

ライセンス: Link先を確認
Fuxing Chen, Ping Fang, (参考訳) カオス系の対称性は、ランダム行列理論の枠組みの中で説明できるスペクトル統計学と動的挙動の普遍性クラスを決定する上で重要な役割を果たす。 これらの挙動に対する系対称性の影響を理解することは、量子カオス系の普遍的性質を特徴づけるのに不可欠である。 本研究では, 量子カオスシステムにおける外秩序相関器(OTOC)の普遍性について検討し, キックロータとキックハーパーモデルに着目した。 周期的に発振されたポテンシャルを変調することにより、システム対称性を制御し、OTOC力学およびレベル間隔分布への影響を調べる。 この結果から,アンサンブル平均OTOCダイナミクスはシステム対称性によって異なる普遍的な挙動を示し,ランダム行列理論による分類が可能となった。 これらの区別は局所化された状態における局所化時間後に明らかとなり、量子共鳴条件下での運動量空間におけるフロケ作用素の翻訳周期に対応する特定の時間スケールで現れる。 我々の発見は対称性と量子カオス力学の関係を厳密に理解し、これらのシステムにおける普遍的な振る舞いのより深い理解に寄与する。

The symmetry of chaotic systems plays a pivotal role in determining the universality class of spectral statistics and dynamical behaviors, which can be described within the framework of random matrix theory. Understanding the influence of system symmetry on these behaviors is crucial for characterizing universal properties in quantum chaotic systems. In this work, we explore the universality of out-of-time-ordered correlator (OTOC) dynamics in quantum chaotic systems, focusing on the kicked rotor and the kicked Harper model. By modulating the periodically kicked potential, we control system symmetry to examine its impact on OTOC dynamics and level spacing distributions. Our results show that ensemble-averaged OTOC dynamics exhibit distinct universal behaviors depending on system symmetry, enabling classification through random matrix theory. These distinctions become evident after the localization time in localized regimes and emerge at specific time scales corresponding to the translational period of the Floquet operator in momentum space under quantum resonance conditions. Our findings provide a rigorous understanding of the relationship between symmetry and quantum chaotic dynamics, contributing to a deeper comprehension of universal behaviors in these systems.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# 大規模言語モデルのためのルールベースデータ選択

Rule-based Data Selection for Large Language Models ( http://arxiv.org/abs/2410.04715v1 )

ライセンス: Link先を確認
Xiaomin Li, Mingye Gao, Zhiwei Zhang, Chang Yue, Hong Hu, (参考訳) トレーニングデータの質は、大規模言語モデル(LLM)の性能に大きな影響を及ぼす。 いくつかの人為的な指標(ルール)に基づいてデータを評価・選択するためにLLMを用いた研究が増えている。 しかしながら、これらの従来のルールベースのアプローチは、しばしば人間のヒューリスティックに強く依存し、ルールを評価するための効果的な指標が欠如し、新しいタスクへの適応性が制限されている。 本研究では,ルール評価のための新しい指標として,ルールに関連付けられたスコアベクトルの直交性を利用する,革新的なルールベースフレームワークを提案する。 我々のアプローチには、まずLLMを使用してさまざまなルールを生成し、データ品質を評価するためのさまざまな評価次元を含む自動パイプラインが含まれています。 次に、これらの規則に基づいてデータのバッチを評価し、ランダム行列理論から決定点プロセス(DPP)を使用して最も直交的なスコアベクトルを選択し、それによって独立したルールの集合を識別する。 これらのルールはその後、全てのデータを評価するために使用され、LLMトレーニングのような下流タスクの平均スコアが最も高いサンプルを選択する。 提案手法の有効性を2つの実験装置で検証する。 1) 根拠的真理格付けとの比較 2) 選択したデータでトレーニングしたLSMのベンチマークを行う。 包括的実験では、IMDB、メディカル、数学、コードなど、一般的な事前トレーニングやドメイン固有の微調整など、さまざまなシナリオをカバーしています。 その結果, DPPに基づくルール評価法は, ルールフリー評価, 均一サンプリング, 重要再サンプリング, QuRatingなど, 評価精度とモデル性能の両面で, 他の手法よりも一貫して優れていた。

The quality of training data significantly impacts the performance of large language models (LLMs). There are increasing studies using LLMs to rate and select data based on several human-crafted metrics (rules). However, these conventional rule-based approaches often depend too heavily on human heuristics, lack effective metrics for assessing rules, and exhibit limited adaptability to new tasks. In our study, we introduce an innovative rule-based framework that utilizes the orthogonality of score vectors associated with rules as a novel metric for rule evaluations. Our approach includes an automated pipeline that first uses LLMs to generate a diverse set of rules, encompassing various rating dimensions to evaluate data quality. Then it rates a batch of data based on these rules and uses the determinantal point process (DPP) from random matrix theory to select the most orthogonal score vectors, thereby identifying a set of independent rules. These rules are subsequently used to evaluate all data, selecting samples with the highest average scores for downstream tasks such as LLM training. We verify the effectiveness of our method through two experimental setups: 1) comparisons with ground truth ratings and 2) benchmarking LLMs trained with the chosen data. Our comprehensive experiments cover a range of scenarios, including general pre-training and domain-specific fine-tuning in areas such as IMDB, Medical, Math, and Code. The outcomes demonstrate that our DPP-based rule rating method consistently outperforms other approaches, including rule-free rating, uniform sampling, importance resampling, and QuRating, in terms of both rating precision and model performance.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# H-SIREN:双曲周期関数による暗黙的神経表現の改善

H-SIREN: Improving implicit neural representations with hyperbolic periodic functions ( http://arxiv.org/abs/2410.04716v1 )

ライセンス: Link先を確認
Rui Gao, Rajeev K. Jaiman, (参考訳) 入射神経表現(INR)は、コンピュータビジョンタスクから偏微分方程式の解法による物理シミュレーションまで、様々な用途で最近採用されている。 既存のINRベースの研究の中で、正弦波活性化関数を持つ多層パーセプトロンは広く応用され、またINRアプリケーションのためのより良いアクティベーション関数の開発のためのベースラインとして頻繁に扱われる。 近年の研究では、正弦波活性化関数の使用は、サポート周波数が制限されたことと、過度に滑らかな解を生成する傾向があるため、準最適であると主張している。 第一層の活性化関数を $\sin(x)$ から $\sin(\sinh(2x))$ に変更することで、そのような問題を緩和する簡単な解決策を提供する。 我々はH-SIRENを様々なコンピュータビジョンと流体流問題で実証し、いくつかの最先端INRの性能を上回った。

Implicit neural representations (INR) have been recently adopted in various applications ranging from computer vision tasks to physics simulations by solving partial differential equations. Among existing INR-based works, multi-layer perceptrons with sinusoidal activation functions find widespread applications and are also frequently treated as a baseline for the development of better activation functions for INR applications. Recent investigations claim that the use of sinusoidal activation functions could be sub-optimal due to their limited supported frequency set as well as their tendency to generate over-smoothed solutions. We provide a simple solution to mitigate such an issue by changing the activation function at the first layer from $\sin(x)$ to $\sin(\sinh(2x))$. We demonstrate H-SIREN in various computer vision and fluid flow problems, where it surpasses the performance of several state-of-the-art INRs.
翻訳日:2024-11-02 02:27:38 公開日:2024-10-07
# ACDC:拡散補正を用いた自己回帰コヒーレント多モード生成

ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction ( http://arxiv.org/abs/2410.04721v1 )

ライセンス: Link先を確認
Hyungjin Chung, Dohun Lee, Jong Chul Ye, (参考訳) 自己回帰モデル(英語版)(ARM)と拡散モデル(英語版)(DM)は、生成モデリングにおいて2つの主要なパラダイムを表現し、それぞれ異なる領域で優れている。 しかし、ARMは長いシーケンスで指数関数的なエラーの蓄積に悩まされ、物理的に予測不可能な結果となり、DMは局所的なコンテキスト生成能力によって制限される。 本研究では,自動回帰コヒーレント多モード生成と拡散補正(Diffusion Correction, ACDC)を導入する。 ACDCはARMをグローバルなコンテキスト生成とメモリ条件のDMに利用し、生成したマルチモーダルトークンのアーティファクトを補正することで高品質な出力を確保する。 特に,大言語モデル(LLM)に基づくメモリモジュールを提案し,DMの条件文を動的に調整し,重要なグローバルコンテキスト情報を保存する。 コーヒーレントなマルチフレームストーリー生成や自己回帰ビデオ生成を含むマルチモーダルタスクの実験では、ACDCがエラーの蓄積を効果的に軽減し、生成した出力の品質を大幅に向上し、特定のARMやDMアーキテクチャに非依存なまま、優れた性能を実現していることを示す。 プロジェクトページ: https://acdc2025.github.io/

Autoregressive models (ARMs) and diffusion models (DMs) represent two leading paradigms in generative modeling, each excelling in distinct areas: ARMs in global context modeling and long-sequence generation, and DMs in generating high-quality local contexts, especially for continuous data such as images and short videos. However, ARMs often suffer from exponential error accumulation over long sequences, leading to physically implausible results, while DMs are limited by their local context generation capabilities. In this work, we introduce Autoregressive Coherent multimodal generation with Diffusion Correction (ACDC), a zero-shot approach that combines the strengths of both ARMs and DMs at the inference stage without the need for additional fine-tuning. ACDC leverages ARMs for global context generation and memory-conditioned DMs for local correction, ensuring high-quality outputs by correcting artifacts in generated multimodal tokens. In particular, we propose a memory module based on large language models (LLMs) that dynamically adjusts the conditioning texts for the DMs, preserving crucial global context information. Our experiments on multimodal tasks, including coherent multi-frame story generation and autoregressive video generation, demonstrate that ACDC effectively mitigates the accumulation of errors and significantly enhances the quality of generated outputs, achieving superior performance while remaining agnostic to specific ARM and DM architectures. Project page: https://acdc2025.github.io/
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# ディープニューラルネットワークにおけるラベルアライメントの一手法

A Strategy for Label Alignment in Deep Neural Networks ( http://arxiv.org/abs/2410.04722v1 )

ライセンス: Link先を確認
Xuanrui Zeng, (参考訳) ある最近の研究では、線形回帰設定における教師なし領域適応へのラベルアライメント特性の適用が成功したことが示されている。 表現学習を領域不変に正規化する代わりに、対象領域からのデータ行列の頂点特異ベクトルと整合するように線形回帰モデルを正規化する研究が提案された。 本研究では、このアイデアを拡張し、ディープラーニングのケースに一般化し、ディープニューラルネットワークに適したラベルアライメントを利用したオリジナル適応アルゴリズムの代替的な定式化を導出する。 また,本手法は,より安定な収束性を持ちながら,主流の教師なしドメイン適応法に匹敵する性能を発揮することを示す実験を行った。 私たちの作業におけるすべての実験と実装は、以下のコードベースで確認できます。

One recent research demonstrated successful application of the label alignment property for unsupervised domain adaptation in a linear regression settings. Instead of regularizing representation learning to be domain invariant, the research proposed to regularize the linear regression model to align with the top singular vectors of the data matrix from the target domain. In this work we expand upon this idea and generalize it to the case of deep learning, where we derive an alternative formulation of the original adaptation algorithm exploiting label alignment suitable for deep neural network. We also perform experiments to demonstrate that our approach achieves comparable performance to mainstream unsupervised domain adaptation methods while having stabler convergence. All experiments and implementations in our work can be found at the following codebase: \url{https://github.com/xuanrui-work/DeepLabelAlignment}.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# ProtoNAM:Deep Tabular Learningのための原型ニューラル付加モデル

ProtoNAM: Prototypical Neural Additive Models for Interpretable Deep Tabular Learning ( http://arxiv.org/abs/2410.04723v1 )

ライセンス: Link先を確認
Guangzhi Xiong, Sanchit Sinha, Aidong Zhang, (参考訳) 一般化加法モデル (GAMs) は長年、表データの知的な分析のための強力なホワイトボックスツールであり、各特徴がモデル予測に与える影響を明らかにしてきた。 さまざまなドメインでのニューラルネットワーク(NN)の成功にもかかわらず、グラフデータ分析におけるNNベースのGAMとしての応用は、ツリーベースのものに比べて最適以下であり、NN-GAMにおけるエンコーダの不透明さは、ネットワークが機能をどのように学習するかを理解することを妨げている。 本稿では,GAMのフレームワークにおいて,ニューラルネットワークにプロトタイプを導入するプロトタイプ型ニューラルアダプティブモデル(Prototypeal Neural Additive Model, ProtoNAM)を新たに提案する。 プロトタイプベースの機能アクティベーションの導入により、ProtoNAMは最終的な予測の可否を維持しつつ、表特徴から出力への不規則なマッピングを柔軟にモデル化することができる。 また、複雑な特徴パターンの発見を容易にし、各ネットワーク層の学習プロセスに透明性をもたらす、勾配ブースティングにインスパイアされた階層型形状関数モデリング手法を提案する。 実験により,ProtoNAMは既存のNNベースGAMよりも優れており,各機能で学習した形状関数についてさらなる知見が得られた。 ProtoNAMのソースコードは \url{https://github.com/Teddy-XiongGZ/ProtoNAM} で公開されている。

Generalized additive models (GAMs) have long been a powerful white-box tool for the intelligible analysis of tabular data, revealing the influence of each feature on the model predictions. Despite the success of neural networks (NNs) in various domains, their application as NN-based GAMs in tabular data analysis remains suboptimal compared to tree-based ones, and the opacity of encoders in NN-GAMs also prevents users from understanding how networks learn the functions. In this work, we propose a new deep tabular learning method, termed Prototypical Neural Additive Model (ProtoNAM), which introduces prototypes into neural networks in the framework of GAMs. With the introduced prototype-based feature activation, ProtoNAM can flexibly model the irregular mapping from tabular features to the outputs while maintaining the explainability of the final prediction. We also propose a gradient-boosting inspired hierarchical shape function modeling method, facilitating the discovery of complex feature patterns and bringing transparency into the learning process of each network layer. Our empirical evaluations demonstrate that ProtoNAM outperforms all existing NN-based GAMs, while providing additional insights into the shape function learned for each feature. The source code of ProtoNAM is available at \url{https://github.com/Teddy-XiongGZ/ProtoNAM}.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# 留置曲線:長文モデルにおける記憶能力評価のための信頼性の高い方法

Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models ( http://arxiv.org/abs/2410.04727v1 )

ライセンス: Link先を確認
Xinyu Liu, Runsong Zhao, Pengcheng Huang, Chunyang Xiao, Bei Li, Jingang Wang, Tong Xiao, Jingbo Zhu, (参考訳) 最近の多くの研究は、言語モデルと様々な方法、タスク、ベンチマークのための効果的な文脈長を拡張することを目的としており、モデルの効果的な記憶長を測定するために存在している。 しかし、徹底的な調査により、モデル記憶能力に関する現在ある評価の限界が見つかった。 本稿では,本研究の限界について広範囲にわたる調査を行い,長文モデルの記憶能力を測定するための「忘れ曲線」という新しい手法を提案する。 テストしたコーパスや実験的な設定に頑健であり,プロンプトに頼らず,任意のモデルサイズに適用できるという利点があることを示す。 本稿では,変換器とRNN/SSMアーキテクチャの両方を含む多種多様なモデルに適用する。 本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。 また、既存のベンチマークと、様々なモデルの一般的な測定値との差についても検討する。 私たちのコードと結果はhttps://github.com/1azybug/ForgettingCurve.comで確認できます。

Numerous recent works target to extend effective context length for language models and various methods, tasks and benchmarks exist to measure model's effective memorization length. However, through thorough investigations, we find limitations for currently existing evaluations on model's memorization capability. We provide an extensive survey for limitations in this work and propose a new method called forgetting curve to measure the memorization capability of long-context models. We show that forgetting curve has the advantage of being robust to the tested corpus and the experimental settings, of not relying on prompts and can be applied to any model size. We apply our forgetting curve to a large variety of models involving both transformer and RNN/SSM based architectures. Our measurement provides empirical evidence for the effectiveness of transformer extension techniques while raises questions for the effective length of RNN/SSM based models. We also examine the difference between our measurement and existing benchmarks as well as popular metrics for various models. Our code and results can be found at https://github.com/1azybug/ForgettingCurve.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# 言語モデルのための強化位置埋め込みを用いた効率的な変圧器

Efficient transformer with reinforced position embedding for language models ( http://arxiv.org/abs/2410.04731v1 )

ライセンス: Link先を確認
Yen-Che Hsiao, Abhishek Dutta, (参考訳) 本稿では, エンコーダデコーダの層数の半分の高性能化を実現するために, 強化位置埋め込みを用いた効率的なトランスフォーマアーキテクチャを提案する。 学習可能なトークン埋め込みとの結合,トークン埋め込みマトリックス内のカラムの正規化,および注目層の値として正規化トークン埋め込みマトリックスを用いることで,ポルトガル語翻訳タスク用エンコーダ・デコーダ・トランスフォーマモデルにおいて,10時間ないし12時間の訓練を施したトレーニングとトレーニング時間の短縮が図られた。 本手法は, 平均トレーニング損失1.21, 平均バリデーション損失1.51, 平均トレーニング時間1352.27秒であり, 平均トレーニング損失1.96, 平均トレーニング時間2.18, 平均トレーニング時間4297.79秒である。 さらに、提案したアーキテクチャと、TensorFlowから14の多様な翻訳データセットにまたがるベースラインを評価した。 その結果,本手法は,学習効率の向上を示唆し,より低あるいは同等のトレーニングと検証の損失を連続的に達成できることが示唆された。

In this paper, we propose an efficient transformer architecture that uses reinforced positional embedding to obtain superior performance with half the number of encoder decoder layers. We demonstrate that concatenating positional encoding with trainable token embeddings, normalizing columns in the token embedding matrix, and using the normalized token embedding matrix as the value of the attention layer improve the training and validation loss and the training time in an encoder-decoder Transformer model for a Portuguese-English translation task with 10 epochs or 12 hours of training across 10 trials. Our method, with roughly a threefold parameter reduction compared to the baseline model, yields a mean training loss of 1.21, a mean validation loss of 1.51, and an average training time of 1352.27 seconds per epoch, surpassing the baseline model with the same embedding dimension that employs addition of positional encoding and token embeddings, which achieves a mean training loss of 1.96, a validation loss of 2.18, and an average training time of 4297.79 seconds per epoch. Additionally, we evaluated our proposed architecture and the baseline across 14 diverse translation datasets from TensorFlow. The results indicate that our method consistently achieves lower or comparable training and validation losses, suggesting enhanced learning efficiency.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# TLDR:大規模視覚言語モデルのためのトークンレベル検出リワードモデル

TLDR: Token-Level Detective Reward Model for Large Vision Language Models ( http://arxiv.org/abs/2410.04734v1 )

ライセンス: Link先を確認
Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen, (参考訳) 報酬モデルはマルチモーダルな大言語モデルの改善に成功しているが、報酬モデル自体は残酷であり、最小限の情報を含んでいる。 特に、既存の報酬モデルは、テキストがどれだけ長くても、任意のテキストに1つのバイナリフィードバックだけを割り当てることによって、人間のアノテーションを模倣するだけである。 画像とテキストの両方を処理するためにモデルを必要とするマルチモーダル言語モデルの領域では、単純報酬モデルがテキストに対する暗黙の偏見を学習し、画像の基盤を狭めることができる。 本稿では、各テキストトークンに詳細なアノテーションを提供するために、$\textbf{T}$oken-$\textbf{L}$evel $\textbf{D}$etective $\textbf{R}$eward Model$\textbf{TLDR}$)を提案する。 まず,TLDRモデルのトレーニングを行うために,合成ハードネガティブとそのトークンレベルラベルを生成する摂動に基づく手法を提案する。 そこで本論文では,TLDRモデルの有用性について述べるとともに,自己修正モデルと幻覚評価ツールとしての有用性について述べる。 最後に,TLDRモデルにより人間のアノテーションを3倍に高速化し,高品質な視覚言語データが得られることを示す。

Although reward models have been successful in improving multimodal large language models, the reward models themselves remain brutal and contain minimal information. Notably, existing reward models only mimic human annotations by assigning only one binary feedback to any text, no matter how long the text is. In the realm of multimodal language models, where models are required to process both images and texts, a naive reward model may learn implicit biases toward texts and become less grounded in images. In this paper, we propose a $\textbf{T}$oken-$\textbf{L}$evel $\textbf{D}$etective $\textbf{R}$eward Model ($\textbf{TLDR}$) to provide fine-grained annotations to each text token. We first introduce a perturbation-based method to generate synthetic hard negatives and their token-level labels to train TLDR models. Then we show the rich usefulness of TLDR models both in assisting off-the-shelf models to self-correct their generations, and in serving as a hallucination evaluation tool. Finally, we show that TLDR models can significantly speed up human annotation by 3 times to acquire a broader range of high-quality vision language data.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# 量子ホール効果におけるエノンを記述するテンソル圏と伝導の量子化

Tensor category describing anyons in the quantum Hall effect and quantization of conductance ( http://arxiv.org/abs/2410.04736v1 )

ライセンス: Link先を確認
Sven Bachmann, Matthew Corbelli, Martin Fraas, Yoshiko Ogata, (参考訳) 本研究では,無限平面幾何学におけるホールコンダクタンスの量子化について検討する。 我々は、純無限体積基底状態の電荷保存システムを考える。 このシナリオではホールコンダクタンス(英語版)はよく定義されているが、その量子化の証明は存在しない。 任意の励起を記述したブレイド$C^*$-テンソル圏を構成するために必要な条件が満たされると仮定すると、テンソル圏が有限であるという仮定の下でホールのコンダクタンスは有理であることを示す。

In this study, we examine the quantization of Hall conductance in an infinite plane geometry. We consider a charge-conserving system with a pure, gapped infinite-volume ground state. While Hall conductance is well-defined in this scenario, there is no existing proof of its quantization. Assuming that the conditions necessary to construct the braided $C^*$-tensor category which describes anyonic excitations are satisfied, we demonstrate that the Hall conductance is rational under the assumption that the tensor category is finite.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# TableRAG: 言語モデルによる数百万のテーブル理解

TableRAG: Million-Token Table Understanding with Language Models ( http://arxiv.org/abs/2410.04739v1 )

ライセンス: Link先を確認
Si-An Chen, Lesly Miculicich, Julian Martin Eisenschlos, Zifeng Wang, Zilong Wang, Yanfei Chen, Yasuhisa Fujii, Hsuan-Tien Lin, Chen-Yu Lee, Tomas Pfister, (参考訳) 近年の言語モデル(LM)の進歩は、主にテーブルを操作・解析するプログラム支援機構を通じて、表型データによる推論能力を高めている。 しかし、これらの手法は入力としてテーブル全体を必要とすることが多く、位置バイアスやコンテキスト長の制約によるスケーラビリティ上の問題を引き起こす。 これらの課題に対応するために、我々は、LMベースのテーブル理解のために特別に設計されたRetrieval-Augmented Generation (RAG)フレームワークであるTableRAGを紹介した。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。 これにより、より効率的なデータエンコーディングと正確な検索が可能になり、プロンプトの長さを大幅に削減し、情報損失を軽減できる。 我々はArcadeとBIRD-SQLのデータセットから新たに2つのベンチマークを作成し、TableRAGの有効性を徹底的に評価した。 この結果から,TableRAGの検索設計は検索精度が最も高く,大規模テーブル理解における最先端性能が向上することが示唆された。

Recent advancements in language models (LMs) have notably enhanced their ability to reason with tabular data, primarily through program-aided mechanisms that manipulate and analyze tables. However, these methods often require the entire table as input, leading to scalability challenges due to the positional bias or context length constraints. In response to these challenges, we introduce TableRAG, a Retrieval-Augmented Generation (RAG) framework specifically designed for LM-based table understanding. TableRAG leverages query expansion combined with schema and cell retrieval to pinpoint crucial information before providing it to the LMs. This enables more efficient data encoding and precise retrieval, significantly reducing prompt lengths and mitigating information loss. We have developed two new million-token benchmarks from the Arcade and BIRD-SQL datasets to thoroughly evaluate TableRAG's effectiveness at scale. Our results demonstrate that TableRAG's retrieval design achieves the highest retrieval quality, leading to the new state-of-the-art performance on large-scale table understanding.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# スマートエネルギー管理:プロセス構造に基づくハイブリッドニューラルネットワークによる統合システムにおける最適スケジューリングと経済予測制御

Smart energy management: process structure-based hybrid neural networks for optimal scheduling and economic predictive control in integrated systems ( http://arxiv.org/abs/2410.04743v1 )

ライセンス: Link先を確認
Long Wu, Xunyuan Yin, Lei Pan, Jinfeng Liu, (参考訳) 統合エネルギーシステム(IES)は、複数のドメインにまたがる多様な操作ユニットからなる複雑なシステムである。 その運用上の課題に対処するため,複数時間スケールにわたるISSの動的性能を予測するために,物理インフォームドハイブリッド時系列ニューラルネットワーク(NN)サロゲートを提案する。 このニューラルネットワークベースのモデリングアプローチは、演算ユニットのための時系列多層パーセプトロン(MLP)を開発し、システム構造と基本力学に関する事前のプロセス知識と統合する。 この統合は、複数の時間スケールにわたるシステム全体のダイナミクスを予測する3つのハイブリッドNN(長期、遅く、高速なMLP)を形成する。 これらのMLPを活用することで、NNベースのスケジューラとNNベースの経済モデル予測制御(NEMPC)フレームワークを設計し、グローバルな運用要件を満たす。 提案するデイアヘッドスケジューラは,長期的観点からの広い条件下でのIES性能を効果的に表現するReLUネットワークベースMPPを用いて定式化されている。 スケジューラは、効率的に評価するために、正確に混合整数線形プログラミング問題に再キャストされる。 リアルタイムNEMPCは、低速かつ高速なMLPに基づく2つの逐次分散制御エージェントからなる: 冷却支配サブシステム用の低速NEMPCと、より高速な応答を持つ電力支配サブシステムのための高速NEMPCである。 大規模なシミュレーションにより、開発したスケジューラとNEMPCは、それぞれのベンチマークスケジューラとコントローラを約25%、40%上回った。 同時に、ベンチマークアプローチと比較してシステム全体のパフォーマンスを70%以上向上させる。

Integrated energy systems (IESs) are complex systems consisting of diverse operating units spanning multiple domains. To address its operational challenges, we propose a physics-informed hybrid time-series neural network (NN) surrogate to predict the dynamic performance of IESs across multiple time scales. This neural network-based modeling approach develops time-series multi-layer perceptrons (MLPs) for the operating units and integrates them with prior process knowledge about system structure and fundamental dynamics. This integration forms three hybrid NNs (long-term, slow, and fast MLPs) that predict the entire system dynamics across multiple time scales. Leveraging these MLPs, we design an NN-based scheduler and an NN-based economic model predictive control (NEMPC) framework to meet global operational requirements: rapid electrical power responsiveness to operators requests, adequate cooling supply to customers, and increased system profitability, while addressing the dynamic time-scale multiplicity present in IESs. The proposed day-ahead scheduler is formulated using the ReLU network-based MLP, which effectively represents IES performance under a broad range of conditions from a long-term perspective. The scheduler is then exactly recast into a mixed-integer linear programming problem for efficient evaluation. The real-time NEMPC, based on slow and fast MLPs, comprises two sequential distributed control agents: a slow NEMPC for the cooling-dominant subsystem with slower transient responses and a fast NEMPC for the power-dominant subsystem with faster responses. Extensive simulations demonstrate that the developed scheduler and NEMPC schemes outperform their respective benchmark scheduler and controller by about 25% and 40%. Together, they enhance overall system performance by over 70% compared to benchmark approaches.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-07
# PSA: 大規模データにおけるセキュアで協調的な分析のためのプライベートセットアライメント

PSA: Private Set Alignment for Secure and Collaborative Analytics on Large-Scale Data ( http://arxiv.org/abs/2410.04746v1 )

ライセンス: Link先を確認
Jiabo Wang, Elmo Xuyun Huang, Pu Duan, Huaxiong Wang, Kwok-Yan Lam, (参考訳) プライバシー規制の実施は、協調的なデータ分析に不可欠である。 この作業では、データインサイトを最大化するために、両社が共通の顧客に対して、安全にデータセットに参加することを期待するシナリオに対処する。 生データの必要な保護は別として、一般の顧客の身元や属性の保護は、参加者が誰であるかを知らずに、一般の顧客に関連する記録を整列させる必要があるため、より困難になる。 我々は,このシナリオに対してPSAと呼ばれるソリューションを提案し,パブリッシャーと小売業者の双方のデータを用いて広告変換を評価するなど,現実のユースケースに効果的に適用した。 この作品の貢献は3つあります。 1. 2段階のプライバシ保護と,効率的な対称鍵演算とオフラインプリ計算を活用してオンラインランニング時間を節約する改良型オブリバストスイッチングネットワークに基づく,新しいPSAプロトコルの提案により,PSAの概念を定義した。 2 Mbpsのネットワーク帯域を持つ単一スレッド上で,それぞれ100万レコード規模の2つのデータセットを35.5秒で結合することにより,提案プロトコルを異なるネットワーク条件で実装し,ベンチマークを行った。 3)本論文では,既存と異なる目的の置換を実現するために,不明瞭なスイッチングネットワークを構築する準線形複雑性のアルゴリズムを新たに提案する。

Enforcement of privacy regulation is essential for collaborative data analytics. In this work, we address a scenario in which two companies expect to securely join their datasets with respect to their common customers to maximize data insights. Apart from the necessary protection of raw data, it becomes more challenging to protect the identities and attributes of common customers, as it requires participants to align their records associated with common customers without knowing who they are. We proposed a solution, dubbed PSA, for this scenario, which is effectively applicable to real-world use cases, such as evaluating advertising conversion using data from both publishers and merchants. The contributions of this work are threefold: 1. We defined the notion of PSA with two levels of privacy protection and proposed novel PSA protocols based on the modified oblivious switching network, which leverages efficient symmetric key operations and offline precomputation to save online run time. 2. We implemented and benchmarked the proposed protocols in different network conditions by joining two datasets, each at the scale of one million records, in 35.5 sec on a single thread with a network bandwidth of 500 Mbps, resulting in an X100 improvement over the existing Homomorphic based protocols. 3. We give new proof for an algorithm of quasi-linear complexity that constructs an oblivious switching network to achieve a target permutation distinct from the existing one in the literature.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# LLaVAはさらなる知識を必要としている: 胸部病理の解説のための知識グラフ付き検索用自然言語生成

LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies ( http://arxiv.org/abs/2410.04749v1 )

ライセンス: Link先を確認
Ameer Hamza, Abdullah, Yong Hyun Ahn, Sungyoung Lee, Seong Tae Kim, (参考訳) 医学画像、特に胸部病理像のモデル予測のための自然言語説明(NLE)の生成は、依然として重要かつ困難な課題である。 既存の方法論は、一般的なモデルでは不十分なドメイン固有の医療知識と、検索ベースの拡張技術に関連するプライバシーに関する懸念のために、しばしば苦労する。 これらの問題に対処するため、我々は知識グラフ(KG)ベースのデータストアを付加した新しいビジョン・ランゲージ・フレームワークを提案する。 本フレームワークでは,生成した説明の精度を向上するだけでなく,直接データ検索を回避してデータのプライバシーを保護できるKGベースの検索機構を採用している。 KG データストアはプラグアンドプレイモジュールとして設計されており、様々なモデルアーキテクチャとのシームレスな統合を可能にする。 KG-LLaVAは学習済みのLLaVAモデルとKG-RAGを統合し,Med-XPTはトランスフォーマーベースのプロジェクタであるMedCLIPとGPT-2を組み合わせたカスタムフレームワーク,Bio-LLaVAはバイオ-ViT-Lビジョンモデルを取り入れてLLaVAに適応する。 これらのフレームワークはMIMIC-NLEデータセットで検証され、胸椎疾患に対する高品質NLEの生成におけるKG増強の有効性を裏付ける。

Generating Natural Language Explanations (NLEs) for model predictions on medical images, particularly those depicting thoracic pathologies, remains a critical and challenging task. Existing methodologies often struggle due to general models' insufficient domain-specific medical knowledge and privacy concerns associated with retrieval-based augmentation techniques. To address these issues, we propose a novel Vision-Language framework augmented with a Knowledge Graph (KG)-based datastore, which enhances the model's understanding by incorporating additional domain-specific medical knowledge essential for generating accurate and informative NLEs. Our framework employs a KG-based retrieval mechanism that not only improves the precision of the generated explanations but also preserves data privacy by avoiding direct data retrieval. The KG datastore is designed as a plug-and-play module, allowing for seamless integration with various model architectures. We introduce and evaluate three distinct frameworks within this paradigm: KG-LLaVA, which integrates the pre-trained LLaVA model with KG-RAG; Med-XPT, a custom framework combining MedCLIP, a transformer-based projector, and GPT-2; and Bio-LLaVA, which adapts LLaVA by incorporating the Bio-ViT-L vision model. These frameworks are validated on the MIMIC-NLE dataset, where they achieve state-of-the-art results, underscoring the effectiveness of KG augmentation in generating high-quality NLEs for thoracic pathologies.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 大規模言語の特徴と視覚モデル

Intriguing Properties of Large Language and Vision Models ( http://arxiv.org/abs/2410.04751v1 )

ライセンス: Link先を確認
Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi, (参考訳) 近年,大規模言語と視覚モデル (LLVM) は,認知能力や認知能力を必要とする幅広いタスクにまたがって,顕著な一般化性能のため,注目と開発努力が集まっている。 成功の鍵となる要因は、ビジョンエンコーダ、プロジェクタ、および大きな言語モデル(LLM)で構成される、シンプルなアーキテクチャである。 高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスク(例えば、MMVP)のパフォーマンスは驚くほど低いままである。 この矛盾は、LLVMがどのようにしてイメージを認識でき、ビジョンエンコーダの利点を利用するのかという疑問を提起する。 この問題に対処するために,10評価ベンチマークで最も一般的なLLVMファミリー(LLaVA)を評価することにより,置換不変性,堅牢性,数学推論,アライメント保存,重要度など,いくつかの側面でこの問題を体系的に検討する。 1) 視覚的パッチシーケンスの順序がランダムに置換された場合でも、内部で画像を内部的に処理し、(2) 詳細な数値情報を十分に認識せずに数学の問題を解くことができること、(3) クロスモーダルアライメントが複雑な推論タスクに過度に適合していること、(3) 視覚エンコーダの本来の知覚能力を失うこと、(4) 下位層での表現空間(25%) は、性能の決定と視覚的理解の強化に重要な役割を果たすこと、などである。 最後に、上記の知見に基づいて、より優れたLLVMを構築し、より困難な評価ベンチマークを構築するための潜在的な今後の方向性を提案する。

Recently, large language and vision models (LLVMs) have received significant attention and development efforts due to their remarkable generalization performance across a wide range of tasks requiring perception and cognitive abilities. A key factor behind their success is their simple architecture, which consists of a vision encoder, a projector, and a large language model (LLM). Despite their achievements in advanced reasoning tasks, their performance on fundamental perception-related tasks (e.g., MMVP) remains surprisingly low. This discrepancy raises the question of how LLVMs truly perceive images and exploit the advantages of the vision encoder. To address this, we systematically investigate this question regarding several aspects: permutation invariance, robustness, math reasoning, alignment preserving and importance, by evaluating the most common LLVM's families (i.e., LLaVA) across 10 evaluation benchmarks. Our extensive experiments reveal several intriguing properties of current LLVMs: (1) they internally process the image in a global manner, even when the order of visual patch sequences is randomly permuted; (2) they are sometimes able to solve math problems without fully perceiving detailed numerical information; (3) the cross-modal alignment is overfitted to complex reasoning tasks, thereby, causing them to lose some of the original perceptual capabilities of their vision encoder; (4) the representation space in the lower layers (<25%) plays a crucial role in determining performance and enhancing visual understanding. Lastly, based on the above observations, we suggest potential future directions for building better LLVMs and constructing more challenging evaluation benchmarks.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 知識誘導二元質問応答を用いた文書レベルの因果関係抽出

Document-level Causal Relation Extraction with Knowledge-guided Binary Question Answering ( http://arxiv.org/abs/2410.04752v1 )

ライセンス: Link先を確認
Zimu Wang, Lei Xia, Wei Wang, Xinya Du, (参考訳) イベント因果関係抽出(英: Event-Event Causal Relation extract, ECRE)は、情報抽出(IE)において重要な課題である。 しかし、ECREに関する既存の研究は、文書レベルのモデリングと因果幻覚の欠如を含む2つの重要な課題を強調している。 本稿では,イベント構造構築と二項質問解答の2段階からなるイベント構造を持つ知識誘導二項質問解答法(KnowQA)を提案する。 我々は,MECIデータセットとMAVEN-EREデータセット上で,大規模言語モデル(LLM)を用いて,ゼロショットおよび微調整設定の両方で広範な実験を行う。 実験結果から,文書レベルECREにおけるイベント構造の有用性と,MECIデータセットの最先端化によるKnowQAの有効性が示された。 本手法の有効性だけでなく,本手法の高一般化性と低整合性,特にモデル微調整後のイベント構造が完全である場合も観察する。

As an essential task in information extraction (IE), Event-Event Causal Relation Extraction (ECRE) aims to identify and classify the causal relationships between event mentions in natural language texts. However, existing research on ECRE has highlighted two critical challenges, including the lack of document-level modeling and causal hallucinations. In this paper, we propose a Knowledge-guided binary Question Answering (KnowQA) method with event structures for ECRE, consisting of two stages: Event Structure Construction and Binary Question Answering. We conduct extensive experiments under both zero-shot and fine-tuning settings with large language models (LLMs) on the MECI and MAVEN-ERE datasets. Experimental results demonstrate the usefulness of event structures on document-level ECRE and the effectiveness of KnowQA by achieving state-of-the-art on the MECI dataset. We observe not only the effectiveness but also the high generalizability and low inconsistency of our method, particularly when with complete event structures after fine-tuning the models.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# ImProver: エージェントベースの自動証明最適化

ImProver: Agent-Based Automated Proof Optimization ( http://arxiv.org/abs/2410.04753v1 )

ライセンス: Link先を確認
Riyaz Ahuja, Jeremy Avigad, Prasad Tetali, Sean Welleck, (参考訳) 大規模言語モデル (LLMs) は、リーンのような証明アシスタントで数学的定理の形式的証明を生成するために使われてきた。 しかし、ダウンストリームの使用によっては、様々な基準に関して形式的な証明を最適化したい場合が多い。 例えば、あるスタイルに固執する、あるいは読みやすく、簡潔で、モジュール的に構造化された証明が欲しいかもしれません。 適切に最適化された証明を持つことは、特に人間による証明がその目的に最適でないため、学習タスクにおいても重要である。 そこで本研究では,自動証明最適化の新たな課題として,正しい証明を書き換え,長さや可読性などの任意の基準に最適化する手法を提案する。 自動証明最適化の第一の方法として、リーンの任意のユーザ定義メトリクスを最適化するために証明を書き換える大規模な言語モデルエージェントであるImProverを紹介します。 また,新しいChain-of-States手法における象徴的リーンコンテキストの利用,エラー訂正と検索など,ImProverに様々な改良を加えている。 我々はImProverを現実世界の学部生、競争者、研究レベルの数学の定理の書き換えでテストし、ImProverは証明を書き換える能力があり、より短く、よりモジュール化され、より可読性が高いことを発見した。

Large language models (LLMs) have been used to generate formal proofs of mathematical theorems in proofs assistants such as Lean. However, we often want to optimize a formal proof with respect to various criteria, depending on its downstream use. For example, we may want a proof to adhere to a certain style, or to be readable, concise, or modularly structured. Having suitably optimized proofs is also important for learning tasks, especially since human-written proofs may not optimal for that purpose. To this end, we study a new problem of automated proof optimization: rewriting a proof so that it is correct and optimizes for an arbitrary criterion, such as length or readability. As a first method for automated proof optimization, we present ImProver, a large-language-model agent that rewrites proofs to optimize arbitrary user-defined metrics in Lean. We find that naively applying LLMs to proof optimization falls short, and we incorporate various improvements into ImProver, such as the use of symbolic Lean context in a novel Chain-of-States technique, as well as error-correction and retrieval. We test ImProver on rewriting real-world undergraduate, competition, and research-level mathematics theorems, finding that ImProver is capable of rewriting proofs so that they are substantially shorter, more modular, and more readable.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# プライバシー政策のGDPR指向分析に関する総合的研究--分類学・コーパス・GDPR概念分類

A Comprehensive Study on GDPR-Oriented Analysis of Privacy Policies: Taxonomy, Corpus and GDPR Concept Classifiers ( http://arxiv.org/abs/2410.04754v1 )

ライセンス: Link先を確認
Peng Tang, Xin Li, Yuxin Chen, Weidong Qiu, Haochen Mei, Allison Holmes, Fenghua Li, Shujun Li, (参考訳) プライバシポリシを入力として、関連する概念を予測するマシンラーニングベースの分類器は、EU GDPRの要件に対する(半自動コンプライアンス分析のような)異なるアプリケーションで有用である。 過去のすべての研究において、これらの分類器はセグメント毎の概念ラベル(例:文または段落)を作成し、それらの性能は、所属するプライバシポリシーを考慮せずにラベル付きセグメントのデータセットを用いて評価された。 しかし、そのようなアプローチは、新しいプライバシーポリシーのすべてのセグメントが見えないように、現実世界の環境でのパフォーマンスを過大評価する可能性がある。 さらに、より完全なGDPR分類の欠如や、プライバシーポリシーにおける階層的な情報の考慮の欠如など、他の研究のギャップも観察した。 このような研究ギャップを埋めるため、我々はより完全なGDPR分類法を開発し、階層的な情報を持つラベル付きプライバシポリシーの最初のコーパスを作成し、プライバシポリシーのためのGDPR概念分類器の最も包括的なパフォーマンス評価を行った。 本研究は, セグメントレベルでのトレーニングとテストセットの分割が適切でないこと, 階層的情報を考慮したことのメリット, 「一つのサイズがすべてに適合する」アプローチの限界, クロスコーパスの汎用性をテストすることの意義など, 新たな発見を導く。

Machine learning based classifiers that take a privacy policy as the input and predict relevant concepts are useful in different applications such as (semi-)automated compliance analysis against requirements of the EU GDPR. In all past studies, such classifiers produce a concept label per segment (e.g., sentence or paragraph) and their performances were evaluated by using a dataset of labeled segments without considering the privacy policy they belong to. However, such an approach could overestimate the performance in real-world settings, where all segments in a new privacy policy are supposed to be unseen. Additionally, we also observed other research gaps, including the lack of a more complete GDPR taxonomy and the less consideration of hierarchical information in privacy policies. To fill such research gaps, we developed a more complete GDPR taxonomy, created the first corpus of labeled privacy policies with hierarchical information, and conducted the most comprehensive performance evaluation of GDPR concept classifiers for privacy policies. Our work leads to multiple novel findings, including the confirmed inappropriateness of splitting training and test sets at the segment level, the benefits of considering hierarchical information, and the limitations of the "one size fits all" approach, and the significance of testing cross-corpus generalizability.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# セッションベースレコメンデーションのためのアイテムクラスタ対応プロンプト学習

Item Cluster-aware Prompt Learning for Session-based Recommendation ( http://arxiv.org/abs/2410.04756v1 )

ライセンス: Link先を確認
Wooseong Yang, Chen Wang, Zihe Song, Weizhi Zhang, Philip S. Yu, (参考訳) セッションベースのレコメンデーション(SBR)は、個々のセッション内のアイテムシーケンスを分析することによって、動的なユーザの好みをキャプチャすることを目的としている。 しかし、既存のほとんどのアプローチは、セッション内のアイテム間の関係(セッション間関係)を無視し、複雑なアイテム間のインタラクションを完全に捉える能力を制限することに重点を置いている。 セッション間情報を含む手法もあるが、しばしば高い計算コストに悩まされ、訓練時間が長くなり効率が低下する。 これらの課題に対処するため,CLIP-SBR(Cluster-aware Item Prompt Learning for Session-Based Recommendation)フレームワークを提案する。 CLIP-SBRは2つのモジュールから構成されています。 1)グローバルグラフを構築して,セッション内関係とセッション間関係を効果的にモデル化する項目関係採鉱モジュール 2) SBRモデルにこれらの関係を効率的に組み込むためにソフトプロンプトを利用するアイテムクラスタ対応プロンプト学習モジュール。 8つのSBRモデルと3つのベンチマークデータセットでCLIP-SBRを評価し、改善された推奨性能を一貫して証明し、セッションベースレコメンデーションタスクの堅牢なソリューションとしてCLIP-SBRを確立する。

Session-based recommendation (SBR) aims to capture dynamic user preferences by analyzing item sequences within individual sessions. However, most existing approaches focus mainly on intra-session item relationships, neglecting the connections between items across different sessions (inter-session relationships), which limits their ability to fully capture complex item interactions. While some methods incorporate inter-session information, they often suffer from high computational costs, leading to longer training times and reduced efficiency. To address these challenges, we propose the CLIP-SBR (Cluster-aware Item Prompt learning for Session-Based Recommendation) framework. CLIP-SBR is composed of two modules: 1) an item relationship mining module that builds a global graph to effectively model both intra- and inter-session relationships, and 2) an item cluster-aware prompt learning module that uses soft prompts to integrate these relationships into SBR models efficiently. We evaluate CLIP-SBR across eight SBR models and three benchmark datasets, consistently demonstrating improved recommendation performance and establishing CLIP-SBR as a robust solution for session-based recommendation tasks.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 規制付き運転:LLMによる検索強化推論による自律走行車両の解釈可能な意思決定

Driving with Regulation: Interpretable Decision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM ( http://arxiv.org/abs/2410.04759v1 )

ライセンス: Link先を確認
Tianhui Cai, Yifan Liu, Zewei Zhou, Haoxuan Ma, Seth Z. Zhao, Zhiwen Wu, Jiaqi Ma, (参考訳) 本研究は、交通規制、基準、安全ガイドラインを包括的に統合し、異なる地域へのシームレスな適応を可能にする自動運転車のための解釈可能な意思決定フレームワークを提案する。 従来のルールベースの手法では,交通規則の全範囲を組み込むのに苦労する一方で,交通規制検索エージェント(TRR)を開発し,車両の状況に基づいた規制文書や関連する記録から,関連する交通規則やガイドラインを自動的に検索する。 検索したルールの意味的な複雑さを考慮し、これらのルールを解釈し、必須規則と安全ガイドラインを区別し、法的コンプライアンスと安全に関する行動を評価するために、LLM(Large Language Model)を利用した推論モジュールを設計する。 さらに、推論は解釈可能で、透明性と信頼性の両方を向上するように設計されている。 このフレームワークは、さまざまなシナリオにまたがる仮説と現実の両方のケースで堅牢なパフォーマンスを示し、異なるリージョンに容易に適応できる能力を示している。

This work presents an interpretable decision-making framework for autonomous vehicles that integrates traffic regulations, norms, and safety guidelines comprehensively and enables seamless adaptation to different regions. While traditional rule-based methods struggle to incorporate the full scope of traffic rules, we develop a Traffic Regulation Retrieval (TRR) Agent based on Retrieval-Augmented Generation (RAG) to automatically retrieve relevant traffic rules and guidelines from extensive regulation documents and relevant records based on the ego vehicle's situation. Given the semantic complexity of the retrieved rules, we also design a reasoning module powered by a Large Language Model (LLM) to interpret these rules, differentiate between mandatory rules and safety guidelines, and assess actions on legal compliance and safety. Additionally, the reasoning is designed to be interpretable, enhancing both transparency and reliability. The framework demonstrates robust performance on both hypothesized and real-world cases across diverse scenarios, along with the ability to adapt to different regions with ease.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 確率的ルンゲ・クッタ法:拡散モデルの確率的加速

Stochastic Runge-Kutta Methods: Provable Acceleration of Diffusion Models ( http://arxiv.org/abs/2410.04760v1 )

ライセンス: Link先を確認
Yuchen Wu, Yuxin Chen, Yuting Wei, (参考訳) 拡散モデルは同時代の生成モデルにおいて重要な役割を担い、様々な領域で最先端のパフォーマンスを主張する。 DDPMのような主流拡散に基づく確率的サンプリング器は、優れたサンプル品質にもかかわらず、多くのスコア関数評価を必要とすることが多く、生成逆数ネットワークのような単一ステップのジェネレータに比べて計算コストがかなり高い。 実際にいくつかの加速法が提案されているが、拡散モデルの加速に関する理論的基礎は未解明のままである。 本稿では,確率的ルンゲ・クッタ法に基づいて,SDE型拡散サンプリング器の学習自由加速アルゴリズムを提案し,解析する。 提案したサンプリング器は、$\widetilde O(d^{3/2} / \varepsilon)$スコア関数の評価(十分に小さな$\varepsilon$の場合)を使用して、KLの発散で測定された$\varepsilon^2$エラーを確実に達成し、次元依存性の観点から$\widetilde O(d^{3} / \varepsilon)$の保証を保証します。 提案手法の有効性を数値実験により検証した。

Diffusion models play a pivotal role in contemporary generative modeling, claiming state-of-the-art performance across various domains. Despite their superior sample quality, mainstream diffusion-based stochastic samplers like DDPM often require a large number of score function evaluations, incurring considerably higher computational cost compared to single-step generators like generative adversarial networks. While several acceleration methods have been proposed in practice, the theoretical foundations for accelerating diffusion models remain underexplored. In this paper, we propose and analyze a training-free acceleration algorithm for SDE-style diffusion samplers, based on the stochastic Runge-Kutta method. The proposed sampler provably attains $\varepsilon^2$ error -- measured in KL divergence -- using $\widetilde O(d^{3/2} / \varepsilon)$ score function evaluations (for sufficiently small $\varepsilon$), strengthening the state-of-the-art guarantees $\widetilde O(d^{3} / \varepsilon)$ in terms of dimensional dependency. Numerical experiments validate the efficiency of the proposed method.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# WTCL-Dehaze:ウェーブレット変換とコントラスト学習による実世界のイメージデハジングの再考

WTCL-Dehaze: Rethinking Real-world Image Dehazing via Wavelet Transform and Contrastive Learning ( http://arxiv.org/abs/2410.04762v1 )

ライセンス: Link先を確認
Divine Joseph Appiah, Donghai Guan, Abdul Nasser Kasule, Mingqiang Wei, (参考訳) 乱雑な屋外環境で撮影された画像は、しばしば色歪み、低コントラスト、ディテールの喪失に悩まされ、ハイレベルな視覚タスクを損なう。 画像の鮮明さの回復を目的とした、自律運転や監視などのアプリケーションには、シングルイメージのデハジングが不可欠である。 本研究では、コントラシブロスと離散ウェーブレット変換(DWT)を統合した半教師付きデハズネットワークWTCL-Dehazeを提案する。 コントラッシブな正規化を取り入れて,鮮明な画像対と鮮明な画像対を対比することで特徴表現を強化する。 さらに、DWTをマルチスケールの特徴抽出に利用し、高周波の詳細やグローバルな構造を効果的に把握する。 提案手法では,ラベル付きデータと非ラベル付きデータの両方を利用して,領域ギャップを緩和し,一般化を改善する。 このモデルは、合成データセットと実世界のデータセットの組み合わせに基づいてトレーニングされており、さまざまなシナリオで堅牢なパフォーマンスを保証する。 大規模な実験により,提案アルゴリズムは,ベンチマークデータセットと実世界の両方の画像に対して,最先端の単一画像デハージング手法と比較して,優れた性能と堅牢性を実現していることが示された。

Images captured in hazy outdoor conditions often suffer from colour distortion, low contrast, and loss of detail, which impair high-level vision tasks. Single image dehazing is essential for applications such as autonomous driving and surveillance, with the aim of restoring image clarity. In this work, we propose WTCL-Dehaze an enhanced semi-supervised dehazing network that integrates Contrastive Loss and Discrete Wavelet Transform (DWT). We incorporate contrastive regularization to enhance feature representation by contrasting hazy and clear image pairs. Additionally, we utilize DWT for multi-scale feature extraction, effectively capturing high-frequency details and global structures. Our approach leverages both labelled and unlabelled data to mitigate the domain gap and improve generalization. The model is trained on a combination of synthetic and real-world datasets, ensuring robust performance across different scenarios. Extensive experiments demonstrate that our proposed algorithm achieves superior performance and improved robustness compared to state-of-the-art single image dehazing methods on both benchmark datasets and real-world images.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# ゲーム理論深層学習モデルのための二重Oracleニューラルアーキテクチャ探索

Double Oracle Neural Architecture Search for Game Theoretic Deep Learning Models ( http://arxiv.org/abs/2410.04764v1 )

ライセンス: Link先を確認
Aye Phyu Phyu Aung, Xinrun Wang, Ruiyu Wang, Hau Chan, Bo An, Xiaoli Li, J. Senthilnath, (参考訳) 本稿では,GAN(Generative Adversarial Networks)やAT(Adversarial Training)といったゲーム理論の概念を用いたディープラーニングモデルのトレーニング手法を提案する。 GANは基本的にジェネレータとディスクリミネーターの間の2プレイヤーゼロサムゲームである。 同じ概念を攻撃者と分類器をプレイヤーとしてATにも適用することができる。 これらのモデルのトレーニングは、純粋なナッシュ均衡が存在しない可能性があるため、GANとATのトレーニングアルゴリズムが大規模戦略空間を持つため、混合ナッシュ均衡を見つけることさえ困難である。 予備モデル DO-GAN を拡張して,2次オラクル・フレームワークの概念をGAN (Adversarial Neural Architecture Search) およびAT (Adversarial Training) アルゴリズムに適用する手法を提案する。 まず, プレイヤーの戦略を, 最適応答オラクルからのジェネレータと判別器の訓練モデルとして一般化する。 次に,線形プログラムを用いてメタストラテジーを計算する。 最適な応答の複数のネットワークモデルがメモリに格納されるフレームワークのスケーラビリティについては、オーラクルの難易度を抑えるために、弱い支配のプレイヤーの戦略を熟考する。 最後に,DONAS-GANのためのMNIST,CIFAR-10,TinyImageNetについて実験を行った。 また,DONAS-ATに対するCIFAR-10,SVHN,TinyImageNetに対するFGSMおよびPGD攻撃によるロバスト性の評価を行った。 主観的質的評価と定量化の両面で,我々の変種は,それぞれの基本アーキテクチャと比較して有意な改善が見られた。

In this paper, we propose a new approach to train deep learning models using game theory concepts including Generative Adversarial Networks (GANs) and Adversarial Training (AT) where we deploy a double-oracle framework using best response oracles. GAN is essentially a two-player zero-sum game between the generator and the discriminator. The same concept can be applied to AT with attacker and classifier as players. Training these models is challenging as a pure Nash equilibrium may not exist and even finding the mixed Nash equilibrium is difficult as training algorithms for both GAN and AT have a large-scale strategy space. Extending our preliminary model DO-GAN, we propose the methods to apply the double oracle framework concept to Adversarial Neural Architecture Search (NAS for GAN) and Adversarial Training (NAS for AT) algorithms. We first generalize the players' strategies as the trained models of generator and discriminator from the best response oracles. We then compute the meta-strategies using a linear program. For scalability of the framework where multiple network models of best responses are stored in the memory, we prune the weakly-dominated players' strategies to keep the oracles from becoming intractable. Finally, we conduct experiments on MNIST, CIFAR-10 and TinyImageNet for DONAS-GAN. We also evaluate the robustness under FGSM and PGD attacks on CIFAR-10, SVHN and TinyImageNet for DONAS-AT. We show that all our variants have significant improvements in both subjective qualitative evaluation and quantitative metrics, compared with their respective base architectures.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 高分子物性予測のための分子トポロジカル深層学習

Molecular topological deep learning for polymer property prediction ( http://arxiv.org/abs/2410.04765v1 )

ライセンス: Link先を確認
Cong Shen, Yipeng Zhang, Fei Han, Kelin Xia, (参考訳) ポリマー特性の高精度かつ効率的な予測は、高分子設計において重要な要素である。 高分子特性評価のための従来の実験ツールと密度関数理論(DFT)に基づくシミュレーションは高価かつ時間を要する。 近年, グラフに基づく分子モデルが大量に出現し, 分子データ解析において大きな可能性を実証している。 大きな進歩にもかかわらず、これらのモデルはデータ内の高次および多変量情報を無視する傾向にある。 本稿では,高分子物性解析のための分子トポロジカルディープラーニング(Mol-TDL)を開発した。 我々のMoll-TDLは、高次相互作用とマルチスケール特性の両方をトポロジ的深層学習アーキテクチャに組み込んでいる。 鍵となるアイデアは、高分子分子を異なるスケールの単純なコンプレックスのシリーズとして表現し、それに応じて単純化されたニューラルネットワークを構築することである。 異なるスケールからの集約された情報は、より正確なポリマー分子特性の予測を提供する。

Accurate and efficient prediction of polymer properties is of key importance for polymer design. Traditional experimental tools and density function theory (DFT)-based simulations for polymer property evaluation, are both expensive and time-consuming. Recently, a gigantic amount of graph-based molecular models have emerged and demonstrated huge potential in molecular data analysis. Even with the great progresses, these models tend to ignore the high-order and mutliscale information within the data. In this paper, we develop molecular topological deep learning (Mol-TDL) for polymer property analysis. Our Mol-TDL incorporates both high-order interactions and multiscale properties into topological deep learning architecture. The key idea is to represent polymer molecules as a series of simplicial complices at different scales and build up simplical neural networks accordingly. The aggregated information from different scales provides a more accurate prediction of polymer molecular properties.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 透明性から説明責任へ:AI監査におけるアクセスとエビデンスに関する考察

From Transparency to Accountability and Back: A Discussion of Access and Evidence in AI Auditing ( http://arxiv.org/abs/2410.04772v1 )

ライセンス: Link先を確認
Sarah H. Cen, Rohan Alur, (参考訳) 人工知能(AI)は私たちの生活にますます介入しており、意図しない、宣言されていない副作用について広く懸念されている。 これらの開発は、AIシステムの体系的評価と分析、その開発、および所定の基準のセットに対するその挙動という、AI監査の問題に注意を向けている。 監査には、デプロイ前のリスクアセスメント、進行中の監視、コンプライアンステストなど、さまざまな形式が必要になる。 開発者からエンドユーザまで、さまざまなAI利害関係者に保証を提供する上で、これは重要な役割を果たす。 例えば、監査人は、アルゴリズムが法律に準拠し、業界標準と整合し、開発者の要求する仕様に適合していることを確認するために使用することができる。 しかし、その実装を複雑にするAI監査には、多くの運用上の課題がある。 本研究では,AI監査における重要な運用上の問題として,意味のある監査を行う上で,AIシステムへのどのようなアクセスが必要なのかを検討する。 この問題に対処するには、AI監査ガイドラインと要件を通知できるため、直接的な政策関連性がある。 まず、適切なアクセスの種類を決定する際に監査人がバランスをとる要因について議論し、4種類のアクセスの利点と欠点を解き放つことから始めます。 我々は、最低でもブラックボックスアクセス -- 内部実装を公開せずにモデルへのクエリアクセスを提供する -- は、営業秘密、データプライバシ、監査標準化、監査効率に関する懸念のバランスをとるため、監査者に与えられるべきであると結論付けている。 次に、監査人を許可するための(ブラックボックスアクセスに加えて)どの程度のアクセスを行うかを決定するためのフレームワークを提案する。 我々は, 監査を自然な仮説テストとして, 並列仮説テストと法的な手順で行うことを示し, このフレーミングは, 監査実施に関する明確かつ解釈可能なガイダンスを提供すると主張している。

Artificial intelligence (AI) is increasingly intervening in our lives, raising widespread concern about its unintended and undeclared side effects. These developments have brought attention to the problem of AI auditing: the systematic evaluation and analysis of an AI system, its development, and its behavior relative to a set of predetermined criteria. Auditing can take many forms, including pre-deployment risk assessments, ongoing monitoring, and compliance testing. It plays a critical role in providing assurances to various AI stakeholders, from developers to end users. Audits may, for instance, be used to verify that an algorithm complies with the law, is consistent with industry standards, and meets the developer's claimed specifications. However, there are many operational challenges to AI auditing that complicate its implementation. In this work, we examine a key operational issue in AI auditing: what type of access to an AI system is needed to perform a meaningful audit? Addressing this question has direct policy relevance, as it can inform AI audit guidelines and requirements. We begin by discussing the factors that auditors balance when determining the appropriate type of access, and unpack the benefits and drawbacks of four types of access. We conclude that, at minimum, black-box access -- providing query access to a model without exposing its internal implementation -- should be granted to auditors, as it balances concerns related to trade secrets, data privacy, audit standardization, and audit efficiency. We then suggest a framework for determining how much further access (in addition to black-box access) to grant auditors. We show that auditing can be cast as a natural hypothesis test, draw parallels hypothesis testing and legal procedure, and argue that this framing provides clear and interpretable guidance on audit implementation.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# グラニュラーボールツイン支持ベクトルマシン

Granular Ball Twin Support Vector Machine ( http://arxiv.org/abs/2410.04774v1 )

ライセンス: Link先を確認
A. Quadir, M. Sajid, M. Tanveer, (参考訳) 混合モデルにおける非パラメトリック最大等式推定器の効率的かつスケーラブルな計算について Twin Support vector machine (TSVM)は、分類および回帰作業に多目的に適用可能な、新興機械学習モデルである。 それでもTSVMは注目すべき課題に直面している。 (i)$$ 行列逆転の命令的要求は、その効率性と大規模データセットへの適用性に対する重大な障害を示す。 (二)構造的リスク最小化(SRM)原則の廃止により、リスクの過度な適合に対する脆弱性を高める。 (iii)TSVMはノイズや外れ値に対する高い感受性を示し、また再サンプリングを受けると不安定を示す。 上記の課題を考察し,GBTSVM(グラニュラーボールツインサポートベクトルマシン)を提案する。 GBTSVMは、個々のデータポイントではなく粒度の球を入力として取り、分類器を構築する。 これらの粒状体は、粗い粒状度を特徴とし、再サンプリングに対する堅牢性を示し、ノイズや外周の影響に対する感受性を低下させる。 また,LS-GBTSVM を新たに提案する。 LS-GBTSVMの最適化の定式化により、2つの重要な面が保証される。 (i)$は、LS-GBTSVMの計算効率を合理化する行列逆変換の必要性をなくし、$ (ii)正則化項を組み込むことでSRMの原則を取り入れ、オーバーフィッティングの問題に効果的に対処する。 提案したLS-GBTSVMは、効率性、大規模なデータセットのスケーラビリティ、ノイズや外れ値に対する堅牢性を示している。 UCI,KEEL,NDCデータセットのベンチマークデータセットを用いて,GBTSVMおよびLS-GBTSVMモデルの総合評価を行う。 実験結果と統計的解析により,提案したGBTSVMおよびLS-GBTSVMモデルの優れた一般化技術が確認された。

On Efficient and Scalable Computation of the Nonparametric Maximum Likelihood Estimator in Mixture ModelsTwin support vector machine (TSVM) is an emerging machine learning model with versatile applicability in classification and regression endeavors. Nevertheless, TSVM confronts noteworthy challenges: $(i)$ the imperative demand for matrix inversions presents formidable obstacles to its efficiency and applicability on large-scale datasets; $(ii)$ the omission of the structural risk minimization (SRM) principle in its primal formulation heightens the vulnerability to overfitting risks; and $(iii)$ the TSVM exhibits a high susceptibility to noise and outliers, and also demonstrates instability when subjected to resampling. In view of the aforementioned challenges, we propose the granular ball twin support vector machine (GBTSVM). GBTSVM takes granular balls, rather than individual data points, as inputs to construct a classifier. These granular balls, characterized by their coarser granularity, exhibit robustness to resampling and reduced susceptibility to the impact of noise and outliers. We further propose a novel large-scale granular ball twin support vector machine (LS-GBTSVM). LS-GBTSVM's optimization formulation ensures two critical facets: $(i)$ it eliminates the need for matrix inversions, streamlining the LS-GBTSVM's computational efficiency, and $(ii)$ it incorporates the SRM principle through the incorporation of regularization terms, effectively addressing the issue of overfitting. The proposed LS-GBTSVM exemplifies efficiency, scalability for large datasets, and robustness against noise and outliers. We conduct a comprehensive evaluation of the GBTSVM and LS-GBTSVM models on benchmark datasets from UCI, KEEL, and NDC datasets. Our experimental findings and statistical analyses affirm the superior generalization prowess of the proposed GBTSVM and LS-GBTSVM models.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# OmniBuds: 高度なバイオセンシングとオンデバイス機械学習のための知覚可能なプラットフォーム

OmniBuds: A Sensory Earable Platform for Advanced Bio-Sensing and On-Device Machine Learning ( http://arxiv.org/abs/2410.04775v1 )

ライセンス: Link先を確認
Alessandro Montanari, Ashok Thangarajan, Khaldoon Al-Naimi, Andrea Ferlini, Yang Liu, Ananta Narayanan Balaji, Fahim Kawsar, (参考訳) 感覚ウェアラブルは、基本的なオーディオ拡張デバイスから、臨床レベルの健康モニタリングと健康管理のための高度なプラットフォームへと進化してきた。 本稿では,複数のバイオセンサと,機械学習アクセラレーションによって駆動されるオンボード計算を,すべてリアルタイムオペレーティングシステム(RTOS)内で統合した,先進的な知覚可能なプラットフォームであるOmniBudsを紹介する。 このプラットフォームは、正確に位置決めされた運動、音響、光学、熱センサーを備えており、高精度でリアルタイムな生理的評価を可能にする。 外部データ処理に依存する従来のイヤフォンとは異なり、OmniBudsはリアルタイムのオンボード計算を利用してシステム効率を大幅に向上し、レイテンシを低減し、データをローカルに処理することでプライバシを保護する。 この機能には、デバイス上で複雑な機械学習モデルを直接実行することが含まれる。 我々は,OmniBudsの設計,ハードウェア,ソフトウェアアーキテクチャを包括的に分析し,多機能アプリケーションの能力,生理的パラメータの正確かつ堅牢な追跡,高度な人間とコンピュータの相互作用を示す。

Sensory earables have evolved from basic audio enhancement devices into sophisticated platforms for clinical-grade health monitoring and wellbeing management. This paper introduces OmniBuds, an advanced sensory earable platform integrating multiple biosensors and onboard computation powered by a machine learning accelerator, all within a real-time operating system (RTOS). The platform's dual-ear symmetric design, equipped with precisely positioned kinetic, acoustic, optical, and thermal sensors, enables highly accurate and real-time physiological assessments. Unlike conventional earables that rely on external data processing, OmniBuds leverage real-time onboard computation to significantly enhance system efficiency, reduce latency, and safeguard privacy by processing data locally. This capability includes executing complex machine learning models directly on the device. We provide a comprehensive analysis of OmniBuds' design, hardware and software architecture demonstrating its capacity for multi-functional applications, accurate and robust tracking of physiological parameters, and advanced human-computer interaction.
翻訳日:2024-11-02 02:07:46 公開日:2024-10-07
# 量子グループアクション

Quantum Group Actions ( http://arxiv.org/abs/2410.04777v1 )

ライセンス: Link先を確認
Tomoyuki Morimae, Keita Xagawa, (参考訳) 量子暗号では、暗号が可能であるが一方的関数(OWF)が存在しない新しい世界であるMicrocryptが存在する可能性がある。 多くの基本的なプリミティブと有用なアプリケーションがMicrocryptで発見されているが、それらがベースとする具体的な硬さの仮定は '`OWFs-free'' を欠いている。 古典暗号では、離散対数問題 (DL) や有限体や楕円曲線に関連する具体的な群構造上の決定的ディフィー・ヘルマン問題 (DDH) など、具体的な数学的問題に対する多くの硬さの仮定が導入された。 それらは群作用に対するDLやDDHの仮定のような一般的な硬さの仮定に抽象化される。 最後に、これらの一般的な仮定に基づいて、プリミティブとアプリケーションを構築します。 本研究の目的は、具体的な数学的硬さの仮定と応用を結びつけることができる、抽象化された汎用硬さの仮定をマイクロクリプトに導入することである。 我々の仮定は群作用の量子アナログに基づいている。 グループアクションは、グループ$G$のタプル$(G,S,\star)$、セット$S$、オペレーション$\star:G\times S\to S$である。 ここでは、量子群作用 (QGA) と呼び、$G$ はユニタリ作用素の集合、$S$ は状態の集合、$\star$ は状態へのユニタリの応用である。 妥当な硬さの仮定をQGAに与えることで、決定的ディフィー・ヘルマン(DDH)仮定と擬ランダム群作用の自然な量子アナログを導入する。 これらの仮定に基づき、古典的な擬似乱数関数型状態発生器(PRFSG)を構築する。 古典的な群作用は多くの具体的な数学的硬さの仮定でインスタンス化されるので、我々のQGAはいくつかの(OWFを含まない)インスタンス化を持つこともできる。

In quantum cryptography, there could be a new world, Microcrypt, where cryptography is possible but one-way functions (OWFs) do not exist. Although many fundamental primitives and useful applications have been found in Microcrypt, they lack ``OWFs-free'' concrete hardness assumptions on which they are based. In classical cryptography, many hardness assumptions on concrete mathematical problems have been introduced, such as the discrete logarithm (DL) problems or the decisional Diffie-Hellman (DDH) problems on concrete group structures related to finite fields or elliptic curves. They are then abstracted to generic hardness assumptions such as the DL and DDH assumptions over group actions. Finally, based on these generic assumptions, primitives and applications are constructed. The goal of the present paper is to introduce several abstracted generic hardness assumptions in Microcrypt, which could connect the concrete mathematical hardness assumptions with applications. Our assumptions are based on a quantum analogue of group actions. A group action is a tuple $(G,S,\star)$ of a group $G$, a set $S$, and an operation $\star:G\times S\to S$. We introduce a quantum analogue of group actions, which we call quantum group actions (QGAs), where $G$ is a set of unitary operators, $S$ is a set of states, and $\star$ is the application of a unitary on a state. By endowing QGAs with some reasonable hardness assumptions, we introduce a natural quantum analogue of the decisional Diffie-Hellman (DDH) assumption and pseudorandom group actions. Based on these assumptions, we construct classical-query pseudorandom function-like state generators (PRFSGs). Because classical group actions are instantiated with many concrete mathematical hardness assumptions, our QGAs could also have some concrete (even OWFs-free) instantiations.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# MM-R$^3$:マルチモーダル大言語モデル(MLLM)の一貫性について

MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) ( http://arxiv.org/abs/2410.04778v1 )

ライセンス: Link先を確認
Shih-Han Chou, Shivam Chandhok, James J. Little, Leonid Sigal, (参考訳) LLM(Large Language Models)とマルチモーダル(Visio-lingual) LLM(Multimodal(Multimodal)(Multimodal) LLM)の出現により、さまざまなタスクでそのようなモデルの性能を解析する研究が盛んになった。 多くの研究は、タスク精度(例えば、視覚的質問回答、グラウンドリング)を通じて、最先端(SoTA)MLLMモデルの能力を評価することに重点を置いているが、我々の研究は、一貫性の関連性と相補的な側面、つまり、意味論的に類似したクエリに対して、MLLMモデルが意味論的に類似または同一の応答を生成する能力について検討している。 整合性はMLLMの堅牢性と信頼性の基本的な前提条件である(必要だが十分でない)ことに留意する。 特に人間は、応答において高度に一貫性(必ずしも正確ではないとしても)があることが知られており、一貫性は本質的にAIシステムから期待されている。 この観点から, MM-R$^3$ベンチマークを提案する。このベンチマークは, SoTA MLLMの一貫性と精度を, 問合せ, 画像復元, コンテキスト推論の3つのタスクで解析する。 我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。 さらに,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。 提案手法により,BLIP-2 や LLaVa 1.5M などの広く使用されているMLLMにおいて,既存のMLLMに比べて平均5.7% と 12.5% の絶対的な改善が達成できる。

With the advent of Large Language Models (LLMs) and Multimodal (Visio-lingual) LLMs, a flurry of research has emerged, analyzing the performance of such models across a diverse array of tasks. While most studies focus on evaluating the capabilities of state-of-the-art (SoTA) MLLM models through task accuracy (e.g., Visual Question Answering, grounding) across various datasets, our work explores the related but complementary aspect of consistency - the ability of an MLLM model to produce semantically similar or identical responses to semantically similar queries. We note that consistency is a fundamental prerequisite (necessary but not sufficient condition) for robustness and trust in MLLMs. Humans, in particular, are known to be highly consistent (even if not always accurate) in their responses, and consistency is inherently expected from AI systems. Armed with this perspective, we propose the MM-R$^3$ benchmark, which analyses the performance in terms of consistency and accuracy in SoTA MLLMs with three tasks: Question Rephrasing, Image Restyling, and Context Reasoning. Our analysis reveals that consistency does not always align with accuracy, indicating that models with higher accuracy are not necessarily more consistent, and vice versa. Furthermore, we propose a simple yet effective mitigation strategy in the form of an adapter module trained to minimize inconsistency across prompts. With our proposed strategy, we are able to achieve absolute improvements of 5.7% and 12.5%, on average on widely used MLLMs such as BLIP-2 and LLaVa 1.5M in terms of consistency over their existing counterparts.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# スケーリング初期化による正弦波神経場の高速訓練

Fast Training of Sinusoidal Neural Fields via Scaling Initialization ( http://arxiv.org/abs/2410.04779v1 )

ライセンス: Link先を確認
Taesun Yeom, Sangyoon Lee, Jaeho Lee, (参考訳) ニューラルネットワークは、データをニューラルネットワークによってパラメータ化された連続関数として表現する新興パラダイムである。 多くの利点があるにもかかわらず、ニューラルネットワークはトレーニングコストが高いため、広く採用されないことが多い。 本稿では,sinusoidal Neural Field (SNFs) と呼ばれる一般的なニューラルネットワーク群に着目し,トレーニング速度を最大化するためにどのように初期化すべきかを検討する。 SNFの標準初期化方式は信号伝搬原理に基づいて設計されており、準最適であることがわかった。 特に、各重み(最後の層を除く)を定数で乗算することで、SNFトレーニングを10$\times$で加速できることを示す。 このメソッドは$\textit{weight scaling}$と呼ばれ、一貫して様々なデータドメインに対する大幅なスピードアップを提供しており、SNFはより最近提案されたアーキテクチャよりも高速にトレーニングすることができる。 重みスケーリングがうまく機能する理由を理解するため、重みスケーリングがスペクトルバイアスを効果的に解決するだけでなく、十分に条件の整った最適化軌道を享受することを示す、広範な理論的および経験的な分析を行う。

Neural fields are an emerging paradigm that represent data as continuous functions parameterized by neural networks. Despite many advantages, neural fields often have a high training cost, which prevents a broader adoption. In this paper, we focus on a popular family of neural fields, called sinusoidal neural fields (SNFs), and study how it should be initialized to maximize the training speed. We find that the standard initialization scheme for SNFs -- designed based on the signal propagation principle -- is suboptimal. In particular, we show that by simply multiplying each weight (except for the last layer) by a constant, we can accelerate SNF training by 10$\times$. This method, coined $\textit{weight scaling}$, consistently provides a significant speedup over various data domains, allowing the SNFs to train faster than more recently proposed architectures. To understand why the weight scaling works well, we conduct extensive theoretical and empirical analyses which reveal that the weight scaling not only resolves the spectral bias quite effectively but also enjoys a well-conditioned optimization trajectory.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# 意図因果関係の解読による多モーダル大言語モデルにおけるモダリティ優先の幻覚の緩和

Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality ( http://arxiv.org/abs/2410.04780v1 )

ライセンス: Link先を確認
Guanyu Zhou, Yibo Yan, Xin Zou, Kun Wang, Aiwei Liu, Xuming Hu, (参考訳) MLLM(Multimodal Large Language Models)は、産業とアカデミックの両方において中心的な焦点として登場したが、視覚や言語に先立って導入された偏見に悩まされ、多モーダル幻覚に繋がることが多い。 これらのバイアスは、視覚エンコーダとLarge Language Model (LLM)のバックボーンから生じ、マルチモーダル入力の整合に関与する注意機構に影響を与える。 既存のデコードに基づく緩和法は、統計的相関に焦点をあて、注意機構とモデル出力の因果関係を見落とし、それらのバイアスに対処する効果を制限する。 本稿では,MLLMに構造因果モデリングを適用した因果推論フレームワークCausalMMを提案する。 具体的には,視覚的および言語的注意のレベルでのバックドア調整と対実的推論を用いることで,従来の手法に比べて6VLind-Benchインジケータで65.3%,MME Benchmarkで164ポイント,MLLMのインプットとアウトプットのアライメントが向上する。 大規模な実験により,プラグアンドプレイソリューションとしてのアプローチの有効性が検証された。 私たちのコードは、https://github.com/The-Martyr/CausalMMで利用可能です。

Multimodal Large Language Models (MLLMs) have emerged as a central focus in both industry and academia, but often suffer from biases introduced by visual and language priors, which can lead to multimodal hallucination. These biases arise from the visual encoder and the Large Language Model (LLM) backbone, affecting the attention mechanism responsible for aligning multimodal inputs. Existing decoding-based mitigation methods focus on statistical correlations and overlook the causal relationships between attention mechanisms and model output, limiting their effectiveness in addressing these biases. To tackle this issue, we propose a causal inference framework termed CausalMM that applies structural causal modeling to MLLMs, treating modality priors as a confounder between attention mechanisms and output. Specifically, by employing backdoor adjustment and counterfactual reasoning at both the visual and language attention levels, our method mitigates the negative effects of modality priors and enhances the alignment of MLLM's inputs and outputs, with a maximum score improvement of 65.3% on 6 VLind-Bench indicators and 164 points on MME Benchmark compared to conventional methods. Extensive experiments validate the effectiveness of our approach while being a plug-and-play solution. Our code is available at: https://github.com/The-Martyr/CausalMM
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# 形式性は好まれる:知識の衝突を伴うデータに基づく大規模言語モデルの学習選好の解明

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge ( http://arxiv.org/abs/2410.04784v1 )

ライセンス: Link先を確認
Jiahuan Li, Yiqing Cao, Shujian Huang, Jiajun Chen, (参考訳) 大規模な事前学習データに基づいて訓練された大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。 しかし、事前学習データには誤解を招く情報や矛盾する情報も含まれているため、LLMがこれらのノイズの多いデータをトレーニング中にどのように扱うのかを理解するのは興味深い。 本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。 事前学習されたLLMは、人間と類似した学習嗜好、すなわち、スペルエラーが少ない形式的なテキストやテキストへの嗜好を確立し、結果として、矛盾に直面した場合に、データ内の知識をより早く、より好ましい扱いをする。 この発見はモデルや言語にまたがって一般化可能であり、より大きなモデルではより明らかである。 詳細な分析によると、LLMはデータの大部分との整合性を示す特徴を持つデータを信頼する傾向にあり、多数データとの整合性の程度を操作することによって、新しい好みを注入し、古いものを削除することが可能である。

Having been trained on massive pretraining data, large language models have shown excellent performance on many knowledge-intensive tasks. However, pretraining data tends to contain misleading and even conflicting information, and it is intriguing to understand how LLMs handle these noisy data during training. In this study, we systematically analyze LLMs' learning preferences for data with conflicting knowledge. We find that pretrained LLMs establish learning preferences similar to humans, i.e., preferences towards formal texts and texts with fewer spelling errors, resulting in faster learning and more favorable treatment of knowledge in data with such features when facing conflicts. This finding is generalizable across models and languages and is more evident in larger models. An in-depth analysis reveals that LLMs tend to trust data with features that signify consistency with the majority of data, and it is possible to instill new preferences and erase old ones by manipulating the degree of consistency with the majority data.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# 弱教師付き学習によるアニメーションフィルム中のハイブリッド組成の解析

Analysis of Hybrid Compositions in Animation Film with Weakly Supervised Learning ( http://arxiv.org/abs/2410.04789v1 )

ライセンス: Link先を確認
Mónica Apellaniz Portos, Roberto Labadie-Tamayo, Claudius Stemmler, Erwin Feyersinger, Andreas Babic, Franziska Bruckner, Vrääth Öhner, Matthias Zeppelzauer, (参考訳) 短命フィルムの領域におけるアニメーションにおけるハイブリッド視覚構成の分析手法を提案する。 半教師付き学習と弱教師付き学習のアイデアを組み合わせて、事前にラベル付けされたセグメンテーションマスクを必要とせずにハイブリッド合成をセグメント化できるモデルを訓練する。 我々は,13のフィルムアーカイブから得られた短命フィルムに対するアプローチを評価した。 その結果,提案手法が完全に教師付きベースラインに近い性能が得られることがわかった。 質的なレベルでは、実行された分析はアニメーションフィルムのハイブリッド組成に関する興味深い洞察を与える。

We present an approach for the analysis of hybrid visual compositions in animation in the domain of ephemeral film. We combine ideas from semi-supervised and weakly supervised learning to train a model that can segment hybrid compositions without requiring pre-labeled segmentation masks. We evaluate our approach on a set of ephemeral films from 13 film archives. Results demonstrate that the proposed learning strategy yields a performance close to a fully supervised baseline. On a qualitative level the performed analysis provides interesting insights on hybrid compositions in animation film.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# GARLIC: 長期文書QAのための階層重みグラフを用いたLLM誘導動的プログレス制御

GARLIC: LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph for Long Document QA ( http://arxiv.org/abs/2410.04790v1 )

ライセンス: Link先を確認
Xinyu Wang, Yanzheng Xiang, Lin Gui, Yulan He, (参考訳) 過去には、Retrieval-Augmented Generation (RAG)メソッドがテキストをチャンクに分割して、長いドキュメントを扱う言語モデルを実現していた。 近年のツリーベースRAG法では,グローバルなコンテキストを保ちながら詳細な情報を取得することができる。 しかし、Llama 3.1のようなより強力なLLMが出現し、より理解し、より長い入力をサポートするようになり、最近のツリーベースRAG手法でさえ、文書全体をLlama 3.1に直接供給するよりもパフォーマンスが悪くなっていることがわかったが、RAG法は計算コストの削減に依然として有利である。 本稿では,Llama 3.1を含む従来の最先端のベースラインよりも高い性能を示すとともに,RAG手法の計算効率を保ちながら,LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph (GARLIC) と呼ばれる新たな検索手法を提案する。 本手法では,(1)木構造を用いるのではなく,多対多の要約による階層的重み付き非巡回グラフを構築し,グラフエッジは注目機構から導出され,各ノードは単一のイベントやごく少数のイベントに注目する。 2) 密埋め込み類似性ではなく,LLMの注意重みを利用した新しい検索手法を提案する。 提案手法では,複数の経路に沿ってグラフを探索し,任意の深さで終了することができる。 (3) LLM を用いて検索プロセスを制御し、異なるクエリに対して検索された情報量と深さを動的に調整する。 実験の結果,従来のRAG法と類似した計算複雑性を維持しつつ,Llama 3.1を含む従来の技術ベースラインを2つの単一ドキュメントと2つのマルチドキュメントQAデータセットで上回る結果が得られた。

In the past, Retrieval-Augmented Generation (RAG) methods split text into chunks to enable language models to handle long documents. Recent tree-based RAG methods are able to retrieve detailed information while preserving global context. However, with the advent of more powerful LLMs, such as Llama 3.1, which offer better comprehension and support for longer inputs, we found that even recent tree-based RAG methods perform worse than directly feeding the entire document into Llama 3.1, although RAG methods still hold an advantage in reducing computational costs. In this paper, we propose a new retrieval method, called LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph (GARLIC), which outperforms previous state-of-the-art baselines, including Llama 3.1, while retaining the computational efficiency of RAG methods. Our method introduces several improvements: (1) Rather than using a tree structure, we construct a Hierarchical Weighted Directed Acyclic Graph with many-to-many summarization, where the graph edges are derived from attention mechanisms, and each node focuses on a single event or very few events. (2) We introduce a novel retrieval method that leverages the attention weights of LLMs rather than dense embedding similarity. Our method allows for searching the graph along multiple paths and can terminate at any depth. (3) We use the LLM to control the retrieval process, enabling it to dynamically adjust the amount and depth of information retrieved for different queries. Experimental results show that our method outperforms previous state-of-the-art baselines, including Llama 3.1, on two single-document and two multi-document QA datasets, while maintaining similar computational complexity to traditional RAG methods.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-07
# 量子ビットを用いた高速・高精度・局所温度制御

Fast, Accurate, and Local Temperature Control Using Qubits ( http://arxiv.org/abs/2410.04796v1 )

ライセンス: Link先を確認
Riya Baruah, Pedro Portugal, Joachim Wabnig, Christian Flindt, (参考訳) 量子コンピュータ、量子熱エンジン、量子センサーを含む多くの量子技術は、サブケルビン状態の動作条件に依存している。 したがって、ナノスケール量子系の温度を正確に制御するための実用的なツールや方法を開発することが望ましい。 本稿では,量子系と熱環境の間の熱の流れを調節する量子ビットを用いた高速,高精度,局所的な温度制御の提案を行う。 クビットは、クビットと環境の間のエネルギー分割と熱の流れを変化させることで、クビット上で行う作業間の相互作用で制御される温度で熱状態に保たれる。 数量子ビットしか使用せず、別の量子系の熱環境を制御でき、量子ビットによって加熱または冷却することができる。 例えば、サブケルビン温度の量子系がナノ秒の時間スケールで著しく正確に冷却されることを示す。 提案手法は,超伝導束量子ビット,電荷量子ビット,スピン量子ビットを用いて実現可能である。

Many quantum technologies, including quantum computers, quantum heat engines, and quantum sensors, rely on operating conditions in the subkelvin regime. It is therefore desirable to develop practical tools and methods for the precise control of the temperature in nanoscale quantum systems. Here, we present a proposal for fast, accurate, and local temperature control using qubits, which regulate the flow of heat between a quantum system and its thermal environment. The qubits are kept in a thermal state with a temperature that is controlled in an interplay between work done on the qubits by changing their energy splittings and the flow of heat between the qubits and the environment. Using only a few qubits, it is possible to control the thermal environment of another quantum system, which can be heated or cooled by the qubits. As an example, we show how a quantum system at subkelvin temperatures can be significantly and accurately cooled on a nanosecond timescale. Our proposal can potentially be realized with superconducting flux qubits, charge qubits, or spin qubits, which can now be fabricated and manipulated with exquisite control.
翻訳日:2024-11-02 01:58:00 公開日:2024-10-07
# 変色色:新しい画像色化法

Transforming Color: A Novel Image Colorization Method ( http://arxiv.org/abs/2410.04799v1 )

ライセンス: Link先を確認
Hamza Shafiq, Bumshik Lee, (参考訳) 本稿では,色変換器とGAN(Generative Adversarial Network)を用いた画像カラー化手法を提案する。 従来のアプローチは、しばしば長距離依存を捉え、現実的な着色を生み出すことに苦労する。 提案手法は,グローバルな情報を取得するためのトランスフォーマーアーキテクチャと,視覚的品質を改善するためのGANフレームワークを統合する。 本研究では,ランダムな正規分布を用いて色特徴を生成するカラーエンコーダを適用した。 これらの機能は、画像全体の表現を強化するため、グレースケールの画像機能と統合される。 提案手法は, 長距離依存を捕捉し, GANのリアルなカラー化を生成するトランスフォーマーのキャパシティを利用して, 既存手法と比較して優れた性能を示す。 実験の結果,提案するネットワークは,他の最先端のカラー化技術よりも優れており,画像のカラー化の可能性を強調している。 本研究は,デジタル復元や歴史的画像解析などの領域において,正確かつ視覚的に説得力のある画像カラー化の新たな可能性を開く。

This paper introduces a novel method for image colorization that utilizes a color transformer and generative adversarial networks (GANs) to address the challenge of generating visually appealing colorized images. Conventional approaches often struggle with capturing long-range dependencies and producing realistic colorizations. The proposed method integrates a transformer architecture to capture global information and a GAN framework to improve visual quality. In this study, a color encoder that utilizes a random normal distribution to generate color features is applied. These features are then integrated with grayscale image features to enhance the overall representation of the images. Our method demonstrates superior performance compared with existing approaches by utilizing the capacity of the transformer, which can capture long-range dependencies and generate a realistic colorization of the GAN. Experimental results show that the proposed network significantly outperforms other state-of-the-art colorization techniques, highlighting its potential for image colorization. This research opens new possibilities for precise and visually compelling image colorization in domains such as digital restoration and historical image analysis.
翻訳日:2024-11-02 01:58:00 公開日:2024-10-07
# 推論時間アテンションエンジニアリングによるアーチファクト減衰による画像クラスタリングの改善

Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering ( http://arxiv.org/abs/2410.04801v1 )

ライセンス: Link先を確認
Kazumoto Nakamura, Yuji Nozawa, Yu-Chieh Lin, Kengo Nakata, Youyang Ng, (参考訳) 本研究の目的は、画像クラスタリングタスクにおいて、トレーニング済みビジョントランス (ViT) モデル、特にDINOv2の性能を、再トレーニングや微調整を必要とせずに改善することである。 モデルのサイズが大きくなるにつれて、マルチヘッドアテンションのパッチにハイノームアーティファクトが異常に現れる。 この異常はゼロショット画像クラスタリングの精度を低下させる。 これらのアーティファクトは、他のパッチトークンと比較して、アテンションマップにおける不均等に大きな値によって特徴づけられる。 これらの成果物に対処するため,推論中に注意関数を操作するITAE (Inference-Time Attention Engineering) という手法を提案する。 具体的には、クエリキーバリュー(QKV)パッチの1つをマルチヘッドで調査し、事前訓練されたモデル内で対応するアテンション値を減衰させることにより、アーティファクトを識別する。 ITAEは、複数のデータセットのクラスタリング精度を改善し、潜在空間でより表現力のある機能を示す。 この結果から,事前学習したViTモデルのアーティファクトを削減し,クラスタリングタスクにおけるモデル性能を向上させるための実用的なソリューションとして,ITAEの可能性を浮き彫りにした。

The goal of this paper is to improve the performance of pretrained Vision Transformer (ViT) models, particularly DINOv2, in image clustering task without requiring re-training or fine-tuning. As model size increases, high-norm artifacts anomaly appears in the patches of multi-head attention. We observe that this anomaly leads to reduced accuracy in zero-shot image clustering. These artifacts are characterized by disproportionately large values in the attention map compared to other patch tokens. To address these artifacts, we propose an approach called Inference-Time Attention Engineering (ITAE), which manipulates attention function during inference. Specifically, we identify the artifacts by investigating one of the Query-Key-Value (QKV) patches in the multi-head attention and attenuate their corresponding attention values inside the pretrained models. ITAE shows improved clustering accuracy on multiple datasets by exhibiting more expressive features in latent space. Our findings highlight the potential of ITAE as a practical solution for reducing artifacts in pretrained ViT models and improving model performance in clustering tasks without the need for re-training or fine-tuning.
翻訳日:2024-11-02 01:58:00 公開日:2024-10-07
# 衝突帯における建物被害評価:地空間サブメートル分解能データを用いた深層学習手法

Building Damage Assessment in Conflict Zones: A Deep Learning Approach Using Geospatial Sub-Meter Resolution Data ( http://arxiv.org/abs/2410.04802v1 )

ライセンス: Link先を確認
Matteo Risso, Alessia Goffi, Beatrice Alessandra Motetti, Alessio Burrello, Jean Baptiste Bove, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari, Giuseppe Maffeis, (参考訳) 超高解像度(VHR)地理空間画像解析は、自然災害と人為的危機の両方において人道支援に不可欠である。 それでも、大規模な領域を手動で検査するのは時間がかかり、ドメインの専門知識が必要です。 その正確性、一般化機能、高度に並列化可能なワークロードのおかげで、Deep Neural Networks(DNN)は、このタスクを自動化する優れた方法を提供します。 それにもかかわらず、紛争状況に関連するVHRデータが不足しており、その結果、これらのシナリオにおけるDNNの有効性についての研究が行われている。 そこで本研究では,戦時シナリオにおける自然災害被害評価のために開発された,最先端の畳み込みニューラルネットワーク(CNN)の適用性について検討した。 この目的のために、我々はウクライナのマリプオール市の、事前および紛争後の画像を含む注釈付きデータセットを構築した。 次に、ゼロショットと学習シナリオの両方でCNNモデルの転送可能性を検討し、その可能性と限界を実証する。 我々の知る限りでは、これは戦闘地帯の建物被害を評価するためにサブメーター解像度画像を使用した最初の研究である。

Very High Resolution (VHR) geospatial image analysis is crucial for humanitarian assistance in both natural and anthropogenic crises, as it allows to rapidly identify the most critical areas that need support. Nonetheless, manually inspecting large areas is time-consuming and requires domain expertise. Thanks to their accuracy, generalization capabilities, and highly parallelizable workload, Deep Neural Networks (DNNs) provide an excellent way to automate this task. Nevertheless, there is a scarcity of VHR data pertaining to conflict situations, and consequently, of studies on the effectiveness of DNNs in those scenarios. Motivated by this, our work extensively studies the applicability of a collection of state-of-the-art Convolutional Neural Networks (CNNs) originally developed for natural disasters damage assessment in a war scenario. To this end, we build an annotated dataset with pre- and post-conflict images of the Ukrainian city of Mariupol. We then explore the transferability of the CNN models in both zero-shot and learning scenarios, demonstrating their potential and limitations. To the best of our knowledge, this is the first study to use sub-meter resolution imagery to assess building damage in combat zones.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# Timer-XL: 統合時系列予測のためのLong-Context Transformer

Timer-XL: Long-Context Transformers for Unified Time Series Forecasting ( http://arxiv.org/abs/2410.04803v1 )

ライセンス: Link先を確認
Yong Liu, Guo Qin, Xiangdong Huang, Jianmin Wang, Mingsheng Long, (参考訳) 我々は時系列の統一予測のための生成変換器Timer-XLを提案する。 1Dおよび2D時系列を均一に予測するために、主に1Dシーケンスの因果生成に採用された次のトークン予測を一般化し、次のトークン予測を多変量化する。 提案手法は,長文生成問題として様々な予測シナリオを均一に定式化する。 非定常性, 複雑な動的および相関を持つ多変量時系列, 内因性および外因性の両方を含む共変量インフォームド・コンテクストを特徴とする一変量系列の統一予測を実装する。 本稿では,時系列における生成トランスフォーマーの高速化を目的としたTimeAttentionを提案する。これは,フラット化された時系列トークン(パッチ)の細粒度内および系列間依存性を効果的に把握し,時間次元と変動次元の両方に位置埋め込みを組み込むことにより,さらに強化される。 Timer-XLは、統一されたアプローチにより、挑戦的な予測ベンチマークで最先端のパフォーマンスを達成する。 大規模時系列モデルとして、大規模事前訓練による顕著なモデル転送性、およびトークン長の文脈的柔軟性を示し、一対一の予測器として位置づける。

We present Timer-XL, a generative Transformer for unified time series forecasting. To uniformly predict 1D and 2D time series, we generalize next token prediction, predominantly adopted for causal generation of 1D sequences, to multivariate next token prediction. The proposed paradigm uniformly formulates various forecasting scenarios as a long-context generation problem. We opt for the generative Transformer, which can capture global-range and causal dependencies while providing contextual flexibility, to implement unified forecasting on univariate series characterized by non-stationarity, multivariate time series with complicated dynamics and correlations, and covariate-informed contexts that include both endogenous and exogenous variables. Technically, we propose a universal TimeAttention to facilitate generative Transformers on time series, which can effectively capture fine-grained intra- and inter-series dependencies of flattened time series tokens (patches) and is further strengthened by position embeddings in both temporal and variable dimensions. Timer-XL achieves state-of-the-art performance across challenging forecasting benchmarks through a unified approach. As a large time series model, it demonstrates notable model transferability by large-scale pre-training, as well as contextual flexibility in token lengths, positioning it as a one-for-all forecaster.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# HF-NTT:数理論変換のためのハザードフリーデータフロー加速器

HF-NTT: Hazard-Free Dataflow Accelerator for Number Theoretic Transform ( http://arxiv.org/abs/2410.04805v1 )

ライセンス: Link先を確認
Xiangchen Meng, Zijun Jiang, Yangdi Lyu, (参考訳) 多項式乗算は、完全同型暗号(FHE)など、多くのアプリケーションにおける基本的な演算の1つである。 しかし、多くの大きなビット係数を持つ多項式から生じる計算の非効率性は、FHEの実践的な実装に重大な課題をもたらす。 Number Theoretic Transform (NTT)は多項式乗算の強化に有効なツールであるが、NTT加速器を高速かつ適応的に生成する方法が欠如している。 本稿では,新しいNTTアクセラレータであるHF-NTTを紹介する。 HF-NTTは、様々な次数とモジュラーの多項式を効率的に処理し、処理要素数(PE)を調整することで、性能とハードウェアリソースのバランスをとることができる。 一方、ビット反転操作の必要性を排除し、異なるハザードを解消し、クロックサイクルを削減するデータ移動戦略を導入する。 さらに,我々のアクセラレータには,ハードウェアフレンドリなモジュラー乗算設計と,データパスを適応可能な構成可能なPEが含まれており,普遍的なアーキテクチャが実現されている。 我々は、Vivado 2022.2を用いてプロトタイプを合成、実装し、Xilinx Virtex-7 FPGAプラットフォーム上で評価した。 その結果, 面積時間生産(ATP)の大幅な改善と, 多項式次数に対する処理速度が向上した。 多重モジュラー多項式乗算を含むシナリオでは、ATPおよびレイテンシの指標において、我々のプロトタイプは、他の設計よりも一貫して優れています。

Polynomial multiplication is one of the fundamental operations in many applications, such as fully homomorphic encryption (FHE). However, the computational inefficiency stemming from polynomials with many large-bit coefficients poses a significant challenge for the practical implementation of FHE. The Number Theoretic Transform (NTT) has proven an effective tool in enhancing polynomial multiplication, but a fast and adaptable method for generating NTT accelerators is lacking. In this paper, we introduce HF-NTT, a novel NTT accelerator. HF-NTT efficiently handles polynomials of varying degrees and moduli, allowing for a balance between performance and hardware resources by adjusting the number of Processing Elements (PEs). Meanwhile, we introduce a data movement strategy that eliminates the need for bit-reversal operations, resolves different hazards, and reduces the clock cycles. Furthermore, Our accelerator includes a hardware-friendly modular multiplication design and a configurable PE capable of adapting its data path, resulting in a universal architecture. We synthesized and implemented prototype using Vivado 2022.2, and evaluated it on the Xilinx Virtex-7 FPGA platform. The results demonstrate significant improvements in Area-Time-Product (ATP) and processing speed for different polynomial degrees. In scenarios involving multi-modulus polynomial multiplication, our prototype consistently outperforms other designs in both ATP and latency metrics.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# LPZero:ゼロからゼロコストプロキシ検索を行う言語モデル

LPZero: Language Model Zero-cost Proxy Search from Zero ( http://arxiv.org/abs/2410.04808v1 )

ライセンス: Link先を確認
Peijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu, (参考訳) 優れた性能にもかかわらず、ニューラルネットワークサーチ(NAS)は大規模計算で批判されている。 近年,Zero-shot NASはZero Cost (ZC) プロキシを活用することで,計算要求を大幅に削減する有望なアプローチとして浮上している。 それにもかかわらず、既存のZCプロキシは専門家の知識に大きく依存し、大規模な試行錯誤コストを発生させている。 特にNLPタスクでは、既存のZCプロキシは単純なベースラインのパフォーマンスを上回りません。 これらの課題に対処するために,ZCプロキシを自動設計する新しいフレームワークである‘textbf{LPZero} を導入する。 具体的には、ZCプロキシを記号方程式としてモデル化し、既定の数学的記号からなる既存のZCプロキシを含む統一されたプロキシ探索空間を組み込む。 最高のZCプロキシをヒューリスティックに検索するために、LPZeroは遺伝的プログラミングを取り入れ、最適なシンボル構成を見つける。 本稿では, プリミティブなプロキシをプリエンプティブに排除し, プロキシ劣化のリスクを軽減するために, PRS (textit{Rule-based Pruning Strategy) を提案する。 FlexiBERT, GPT-2, LLaMA-7B の大規模な実験では、LPZero の下流タスクにおけるランク付け能力と性能が現在のアプローチと比較して優れていることが示されている。

In spite of the outstanding performance, Neural Architecture Search (NAS) is criticized for massive computation. Recently, Zero-shot NAS has emerged as a promising approach by exploiting Zero-cost (ZC) proxies, which markedly reduce computational demands. Despite this, existing ZC proxies heavily rely on expert knowledge and incur significant trial-and-error costs. Particularly in NLP tasks, most existing ZC proxies fail to surpass the performance of the naive baseline. To address these challenges, we introduce a novel framework, \textbf{LPZero}, which is the first to automatically design ZC proxies for various tasks, achieving higher ranking consistency than human-designed proxies. Specifically, we model the ZC proxy as a symbolic equation and incorporate a unified proxy search space that encompasses existing ZC proxies, which are composed of a predefined set of mathematical symbols. To heuristically search for the best ZC proxy, LPZero incorporates genetic programming to find the optimal symbolic composition. We propose a \textit{Rule-based Pruning Strategy (RPS),} which preemptively eliminates unpromising proxies, thereby mitigating the risk of proxy degradation. Extensive experiments on FlexiBERT, GPT-2, and LLaMA-7B demonstrate LPZero's superior ranking ability and performance on downstream tasks compared to current approaches.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# FedBiP:パーソナライズされた潜在拡散モデルによる不均一なワンショットフェデレーション学習

FedBiP: Heterogeneous One-Shot Federated Learning with Personalized Latent Diffusion Models ( http://arxiv.org/abs/2410.04810v1 )

ライセンス: Link先を確認
Haokun Chen, Hang Li, Yao Zhang, Gengyuan Zhang, Jinhe Bi, Philip Torr, Jindong Gu, Denis Krompass, Volker Tresp, (参考訳) 特別な分散機械学習パラダイムであるOne-Shot Federated Learning (OSFL)が最近注目を集めている。 OSFLは1ラウンドのクライアントデータやモデルアップロードしか必要とせず、通信コストを削減し、従来のFLと比較してプライバシー上の脅威を軽減する。 これらの有望な期待にもかかわらず、既存の手法は、現実世界のOSFLシステムに適用する場合、クライアントデータの均一性とデータ量に制限があるため、課題に直面している。 近年、Latent Diffusion Models (LDM) は、大規模データセットの事前学習を通じて高品質な画像の合成において顕著な進歩を見せており、これらの問題を克服するための潜在的な解決策が提示されている。 しかし, 事前学習したLDMを異種OSFLに直接適用すると, 合成データの分布が著しく変化し, それらのデータに基づいてトレーニングした分類モデルの性能が低下する。 この問題は、医学的画像のようなまれな領域で特に顕著であり、LCMの事前訓練データでは不足している。 この課題に対処するため,FedBiP(Federated Bi-Level Personalization)を提案する。 これにより、FedBiPは、プライバシ規制を妥協することなく、クライアントのローカルデータ配信に続くイメージを合成する。 FedBiPはまた、OSFLにおける特徴空間の不均一性とクライアントデータの不足に同時に対処する最初のアプローチである。 提案手法は,特徴空間の不均一性を持つ3つのOSFLベンチマークと,ラベル不均一性を持つ医用・衛星画像データセットを用いた広範囲な実験により検証された。 その結果,他のOSFL法よりも優れたFedBiPの有効性が示された。

One-Shot Federated Learning (OSFL), a special decentralized machine learning paradigm, has recently gained significant attention. OSFL requires only a single round of client data or model upload, which reduces communication costs and mitigates privacy threats compared to traditional FL. Despite these promising prospects, existing methods face challenges due to client data heterogeneity and limited data quantity when applied to real-world OSFL systems. Recently, Latent Diffusion Models (LDM) have shown remarkable advancements in synthesizing high-quality images through pretraining on large-scale datasets, thereby presenting a potential solution to overcome these issues. However, directly applying pretrained LDM to heterogeneous OSFL results in significant distribution shifts in synthetic data, leading to performance degradation in classification models trained on such data. This issue is particularly pronounced in rare domains, such as medical imaging, which are underrepresented in LDM's pretraining data. To address this challenge, we propose Federated Bi-Level Personalization (FedBiP), which personalizes the pretrained LDM at both instance-level and concept-level. Hereby, FedBiP synthesizes images following the client's local data distribution without compromising the privacy regulations. FedBiP is also the first approach to simultaneously address feature space heterogeneity and client data scarcity in OSFL. Our method is validated through extensive experiments on three OSFL benchmarks with feature space heterogeneity, as well as on challenging medical and satellite image datasets with label heterogeneity. The results demonstrate the effectiveness of FedBiP, which substantially outperforms other OSFL methods.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 微分方程式に基づく画像復元のための学習効率と効果的な軌跡

Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration ( http://arxiv.org/abs/2410.04811v1 )

ライセンス: Link先を確認
Zhiyu Zhu, Jinhui Hou, Hui Liu, Huanqiang Zeng, Junhui Hou, (参考訳) 微分方程式に基づく画像復元手法は,高品質な画像とトラクタブルな画像,例えば低品質な画像,ガウス分布を接続する学習可能な軌跡を確立することを目的としている。 本稿では, この手法の軌道最適化を改良し, 復元品質と効率の両立に焦点をあてる。 当初、我々は強化学習プロセスを通じて効果的な修復経路をナビゲートし、より正確な選択肢に向けて徐々に潜在的な軌道を操る。 さらに,反復サンプリングに伴うかなりの計算負担を軽減するため,複雑な経路を適応可能なサイズで複数の管理可能なステップに合理化するためのコスト対応トラジェクトリー蒸留を提案する。 さらに,このアルゴリズムを用いて基礎拡散モデル (FLUX) を12Bパラメータで微調整し,7種類の画像復元タスクを処理するための統一的な枠組みを構築した。 広汎な実験により提案手法の有意な優位性を示し,2.1dBのPSNR改善を実現するとともに,視覚の知覚品質を大幅に向上させた。 プロジェクトページ: \url{https://zhu-zhiyu.github.io/FLUX-IR/}。

The differential equation-based image restoration approach aims to establish learnable trajectories connecting high-quality images to a tractable distribution, e.g., low-quality images or a Gaussian distribution. In this paper, we reformulate the trajectory optimization of this kind of method, focusing on enhancing both reconstruction quality and efficiency. Initially, we navigate effective restoration paths through a reinforcement learning process, gradually steering potential trajectories toward the most precise options. Additionally, to mitigate the considerable computational burden associated with iterative sampling, we propose cost-aware trajectory distillation to streamline complex paths into several manageable steps with adaptable sizes. Moreover, we fine-tune a foundational diffusion model (FLUX) with 12B parameters by using our algorithms, producing a unified framework for handling 7 kinds of image restoration tasks. Extensive experiments showcase the significant superiority of the proposed method, achieving a maximum PSNR improvement of 2.1 dB over state-of-the-art methods, while also greatly enhancing visual perceptual quality. Project page: \url{https://zhu-zhiyu.github.io/FLUX-IR/}.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 2次元非エルミートなSu-Schrieffer-Heegerモデル

Two-dimensional non-Hermitian Su-Schrieffer-Heeger Model ( http://arxiv.org/abs/2410.04812v1 )

ライセンス: Link先を確認
Udai Prakash Tyagi, Partha Goswami, (参考訳) 粒子ホール対称性で保護された2次元非エルミタンSu-Schrieffer-Heeger (SSH) モデルについて検討した。 このバージョンは、複雑なオンサイトポテンシャルによって表されるゲイン項や損失項を含めることで、通常のエルミート版と異なる。 例外的な点は、次元のないポテンシャル等級とホッピング振幅がユニティに近づくと、固有値と非自明な固有ベクトル退化の合体につながる。 さらに、ベクトルZak位相量子化が得られ、トポエレクティブRCC回路が解析された。 実験的に(フォトニック結晶と音響結晶において)実現されると、量子化はバルク境界対応を拡大すると予想される。

A particle-hole symmetry protected 2D non-Hermitian Su-Schrieffer-Heeger (SSH) model is investigated. This version differs from the usual Hermitian version by the inclusion of gain and/or loss terms which are represented by complex on-site potentials. The exceptional points occur, when the dimensionless potential magnitude and the hopping amplitudes become close to unity, leading to the coalescence of eigenvalues and nontrivial eigenvector degeneracies. Furthermore, the vectored Zak phase quantization has been obtained and a topolectric RLC circuit has been analysed. If realized experimentally (in photonic and acoustic crystals), the quantization is expected to lead to an extended bulk-boundary correspondence.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 時系列データから解釈可能な階層型力学系モデルの学習

Learning Interpretable Hierarchical Dynamical Systems Models from Time Series Data ( http://arxiv.org/abs/2410.04814v1 )

ライセンス: Link先を確認
Manuel Brenner, Elias Weber, Georgia Koppe, Daniel Durstewitz, (参考訳) 科学では、観測された時系列から基礎となるシステムダイナミクスの生成モデルを得ることにしばしば関心がある。 単一のドメインからデータを得る際には、動的システム再構築(DSR)のための強力な手法が存在するが、複数の動的状態からデータを最もうまく統合し、一般化するためにそれを活用する方法は、依然として未解決の問題である。 これは、個々の時系列が短いときに特に重要になり、グループレベルの情報が単一ドメインデータのギャップを埋めるのに役立つ。 同時に、平均化はDSRではオプションではなく、重要な動的特性(例えば、あるドメインにおけるサイクルの制限と別のドメインにおけるカオス)を排除します。 したがって,グループレベルの情報(マルチドメイン)を効率よく収集し,単一ドメインの動的特性をすべて保持できるフレームワークが必要である。 ここでは、そのような階層的なアプローチを提供し、人気のあるDSRベンチマークや、神経科学および医学の時系列で紹介する。 本手法では, 個々の動的状態の忠実な再構築に加えて, 類似の動的クラスタを持つデータセットに共通する低次元特徴空間を探索する。 これらの空間にまたがる特徴は、より動的に高度に解釈可能であり、下層のシステムの力学を管理する制御パラメータとしばしば線形な関係にある。 最後に、移動学習と新しいパラメータ体系への一般化について説明する。

In science, we are often interested in obtaining a generative model of the underlying system dynamics from observed time series. While powerful methods for dynamical systems reconstruction (DSR) exist when data come from a single domain, how to best integrate data from multiple dynamical regimes and leverage it for generalization is still an open question. This becomes particularly important when individual time series are short, and group-level information may help to fill in for gaps in single-domain data. At the same time, averaging is not an option in DSR, as it will wipe out crucial dynamical properties (e.g., limit cycles in one domain vs. chaos in another). Hence, a framework is needed that enables to efficiently harvest group-level (multi-domain) information while retaining all single-domain dynamical characteristics. Here we provide such a hierarchical approach and showcase it on popular DSR benchmarks, as well as on neuroscientific and medical time series. In addition to faithful reconstruction of all individual dynamical regimes, our unsupervised methodology discovers common low-dimensional feature spaces in which datasets with similar dynamics cluster. The features spanning these spaces were further dynamically highly interpretable, surprisingly in often linear relation to control parameters that govern the dynamics of the underlying system. Finally, we illustrate transfer learning and generalization to new parameter regimes.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 人工知能を用いた生物軌道構築の概観--優先順位,方法,応用,動向

A Review of Artificial Intelligence based Biological-Tree Construction: Priorities, Methods, Applications and Trends ( http://arxiv.org/abs/2410.04815v1 )

ライセンス: Link先を確認
Zelin Zang, Yongjie Xu, Chenrui Duan, Jinlin Wu, Stan Z. Li, Zhen Lei, (参考訳) 生物学的ツリー分析は、生物、遺伝子、細胞間の進化的および分化的関係を明らかにする重要なツールとなる。 その応用分野は系統学、発達生物学、生態学、医学など多岐にわたる。 従来の木推論手法は、初期の研究に基礎を置いているが、現代の高スループット技術によって生成される大規模で複雑なデータセットの処理において、限界が増大している。 ディープラーニングの最近の進歩は有望なソリューションを提供し、データ処理とパターン認識機能を提供する。 しかし、課題は、特に自然に離散的で非ユークリッド的な生物学的木の性質を正確に表現することにある。 本総説では, 系統解析および分化木解析の基礎となる生物的前提を概説し, 深層学習研究者と生物学者の間での学際的理解を深める。 次に、一般的に使われているデータ形式とデータベースを体系的に検討し、モデルテストと開発のための包括的なリソースとして機能する。 従来の木生成手法を批判的に分析し,その基礎となる生物学的仮定,技術的特徴,限界について考察する。 ディープラーニングに基づくツリー生成の現況を概観し、最近の進歩と既存の課題を取り上げている。 さらに,様々な生物ドメインにまたがる生物木の多様な応用について論じる。 最後に,生物木研究に深層学習を活用するための将来的な方向性と動向を提案し,この分野のさらなる探索と革新を導くことを目的とする。

Biological tree analysis serves as a pivotal tool in uncovering the evolutionary and differentiation relationships among organisms, genes, and cells. Its applications span diverse fields including phylogenetics, developmental biology, ecology, and medicine. Traditional tree inference methods, while foundational in early studies, face increasing limitations in processing the large-scale, complex datasets generated by modern high-throughput technologies. Recent advances in deep learning offer promising solutions, providing enhanced data processing and pattern recognition capabilities. However, challenges remain, particularly in accurately representing the inherently discrete and non-Euclidean nature of biological trees. In this review, we first outline the key biological priors fundamental to phylogenetic and differentiation tree analyses, facilitating a deeper interdisciplinary understanding between deep learning researchers and biologists. We then systematically examine the commonly used data formats and databases, serving as a comprehensive resource for model testing and development. We provide a critical analysis of traditional tree generation methods, exploring their underlying biological assumptions, technical characteristics, and limitations. Current developments in deep learning-based tree generation are reviewed, highlighting both recent advancements and existing challenges. Furthermore, we discuss the diverse applications of biological trees across various biological domains. Finally, we propose potential future directions and trends in leveraging deep learning for biological tree research, aiming to guide further exploration and innovation in this field.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 資源効率の良いマルチビュー知覚:マスクオートエンコーダによる意味的マスキングの統合

Resource-Efficient Multiview Perception: Integrating Semantic Masking with Masked Autoencoders ( http://arxiv.org/abs/2410.04817v1 )

ライセンス: Link先を確認
Kosta Dakic, Kanchana Thilakarathna, Rodrigo N. Calheiros, Teng Joon Lim, (参考訳) マルチビューシステムは現代のコンピュータビジョンにおいて重要な技術となり、シーン理解と分析の高度な機能を提供している。 しかし、これらのシステムは、特にドローンのようなリソース制限されたカメラノードにおいて、帯域幅制限と計算上の制約において重要な課題に直面している。 本稿では,マスク付きオートエンコーダ(MAE)を用いた通信効率の高い分散マルチビュー検出と追跡のための新しい手法を提案する。 本稿では,事前訓練されたセグメンテーションモデルと調整可能なパワー関数を利用して,情報領域の優先順位付けを行う意味誘導型マスキング手法を提案する。 このアプローチは、MAEと組み合わせることで、重要な視覚情報を保持しながら通信オーバーヘッドを低減する。 提案手法を仮想・実世界のマルチビューデータセットで評価し,高いマスキング比であっても,最先端技術と比較して,検出・追跡性能の指標として同等の性能を示す。 我々の選択マスキングアルゴリズムは、マスキング比が増加するにつれて、ランダムマスキングよりも優れ、精度と精度が向上する。 さらに,本手法は,ベースライン法に比べて伝送データ量を大幅に削減し,マルチビュートラッキング性能と通信効率のバランスをとる。

Multiview systems have become a key technology in modern computer vision, offering advanced capabilities in scene understanding and analysis. However, these systems face critical challenges in bandwidth limitations and computational constraints, particularly for resource-limited camera nodes like drones. This paper presents a novel approach for communication-efficient distributed multiview detection and tracking using masked autoencoders (MAEs). We introduce a semantic-guided masking strategy that leverages pre-trained segmentation models and a tunable power function to prioritize informative image regions. This approach, combined with an MAE, reduces communication overhead while preserving essential visual information. We evaluate our method on both virtual and real-world multiview datasets, demonstrating comparable performance in terms of detection and tracking performance metrics compared to state-of-the-art techniques, even at high masking ratios. Our selective masking algorithm outperforms random masking, maintaining higher accuracy and precision as the masking ratio increases. Furthermore, our approach achieves a significant reduction in transmission data volume compared to baseline methods, thereby balancing multiview tracking performance with communication efficiency.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 非線形制約最適化のための物理インフォーマルGNN:PINCOによる交流最適電力流の解法

Physics-Informed GNN for non-linear constrained optimization: PINCO a solver for the AC-optimal power flow ( http://arxiv.org/abs/2410.04818v1 )

ライセンス: Link先を確認
Anna Varbella, Damien Briens, Blazhe Gjorgiev, Giuseppe Alessio D'Inverno, Giovanni Sansavini, (参考訳) エネルギー遷移は、電力グリッドにおける断続的な電力源の大規模な共有を駆動している。 そのため、AC最適電力フロー(AC-OPF)に対処することがますます重要になっている。 電力系統の基本最適化問題であるAC-OPFは、電力系統の安全で費用対効果の高い運転を保証するために、より頻繁に解決されなければならない。 非線形の性質のため、AC-OPFは本質的に不正確なにもかかわらず、しばしば線形化された形で解決される。 内部点法のような非線形解法は通常、完全なOPF問題を解決するために用いられる。 しかし、これらの反復的手法は大規模システムに収束せず、大域的最適性は保証されない。 この研究は、AC-OPFを解くために物理インフォームドグラフニューラルネットワーク、PINCOを探索する。 本手法は, 確立された非線形プログラミング解法と比較して, 計算時間のごく一部で正確な解が得られることを示す。 興味深いことに、PINCOは電力系統における様々な負荷条件を効果的に一般化する。 我々は,不等式制約に違反することなくAC-OPFを解くことができることを示す。 さらに、解法としてもハイブリッドユニバーサル関数近似器としても機能する。 さらに、このアプローチは、各バスに複数のジェネレータを備えたシステムを含む、ハイパーパラメータに最小限の調整を施した異なるパワーシステムに容易に適応できる。 全体として、この研究はエネルギー遷移の課題に取り組むための電力系統最適化の分野の進歩を示している。 本論文で使用されるコードとデータはhttps://anonymous.4open.science/r/opf_pinn_iclr-B83E/で公開されている。

The energy transition is driving the integration of large shares of intermittent power sources in the electric power grid. Therefore, addressing the AC optimal power flow (AC-OPF) effectively becomes increasingly essential. The AC-OPF, which is a fundamental optimization problem in power systems, must be solved more frequently to ensure the safe and cost-effective operation of power systems. Due to its non-linear nature, AC-OPF is often solved in its linearized form, despite inherent inaccuracies. Non-linear solvers, such as the interior point method, are typically employed to solve the full OPF problem. However, these iterative methods may not converge for large systems and do not guarantee global optimality. This work explores a physics-informed graph neural network, PINCO, to solve the AC-OPF. We demonstrate that this method provides accurate solutions in a fraction of the computational time when compared to the established non-linear programming solvers. Remarkably, PINCO generalizes effectively across a diverse set of loading conditions in the power system. We show that our method can solve the AC-OPF without violating inequality constraints. Furthermore, it can function both as a solver and as a hybrid universal function approximator. Moreover, the approach can be easily adapted to different power systems with minimal adjustments to the hyperparameters, including systems with multiple generators at each bus. Overall, this work demonstrates an advancement in the field of power system optimization to tackle the challenges of the energy transition. The code and data utilized in this paper are available at https://anonymous.4open.science/r/opf_pinn_iclr-B83E/.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# MINER:マルチモーダル大言語モデルにおけるモード特異的ニューロンの下位パターンのマイニング

MINER: Mining the Underlying Pattern of Modality-Specific Neurons in Multimodal Large Language Models ( http://arxiv.org/abs/2410.04819v1 )

ライセンス: Link先を確認
Kaichen Huang, Jiahao Huo, Yibo Yan, Kun Wang, Yutao Yue, Xuming Hu, (参考訳) 近年,マルチモーダル大規模言語モデル (MLLM) が大幅に進歩し,多様なアプリケーションにモダリティが組み込まれている。 しかしながら、説明責任の欠如は、意思決定の透明性を必要とするシナリオで使用する上で、依然として大きな障壁である。 現在のニューロンレベルの説明パラダイムは、主に知識のローカライゼーションや言語、ドメイン固有の分析に重点を置いており、多要素性の探索は、ほとんど適応していない。 これらの課題に対処するため,我々は,(1)モダリティ分離,(2)重要スコア算出,(3)重要スコア集計,(4)モダリティ特異的ニューロン選択の4段階からなるMLLMにおいて,モダリティ特異的ニューロン(MSN)をマイニングするための伝達可能なフレームワークであるMINERを提案する。 6つのベンチマークと2つの代表的なMLLMによる大規模な実験の結果、(I) OnLY 2%のMSNはMLLMの性能を著しく低下させる(Qwen2-VLは0.56から0.24、Qwen2-Audioは0.69から0.31)。 ソースコードはこのURLで確認できる。

In recent years, multimodal large language models (MLLMs) have significantly advanced, integrating more modalities into diverse applications. However, the lack of explainability remains a major barrier to their use in scenarios requiring decision transparency. Current neuron-level explanation paradigms mainly focus on knowledge localization or language- and domain-specific analyses, leaving the exploration of multimodality largely unaddressed. To tackle these challenges, we propose MINER, a transferable framework for mining modality-specific neurons (MSNs) in MLLMs, which comprises four stages: (1) modality separation, (2) importance score calculation, (3) importance score aggregation, (4) modality-specific neuron selection. Extensive experiments across six benchmarks and two representative MLLMs show that (I) deactivating ONLY 2% of MSNs significantly reduces MLLMs performance (0.56 to 0.24 for Qwen2-VL, 0.69 to 0.31 for Qwen2-Audio), (II) different modalities mainly converge in the lower layers, (III) MSNs influence how key information from various modalities converges to the last token, (IV) two intriguing phenomena worth further investigation, i.e., semantic probing and semantic telomeres. The source code is available at this URL.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# CAT:コンセプトボトルネックモデルのためのコンセプトレベルのバックドアアタック

CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models ( http://arxiv.org/abs/2410.04823v1 )

ライセンス: Link先を確認
Songning Lai, Jiayu Yang, Yu Huang, Lijie Hu, Tianlang Xue, Zhangyi Hu, Jiaxu Li, Haicheng Liao, Yutao Yue, (参考訳) 複数のドメインにわたるディープラーニングの変革的な影響にもかかわらず、これらのモデルの本質的な不透明さは、説明可能な人工知能(XAI)の開発を促した。 これらの取り組みの中で、高レベルの意味情報を活用することで解釈可能性を改善するための重要なアプローチとして、Concept Bottleneck Models (CBM) が登場している。 しかし、他の機械学習モデルと同様、CBMはセキュリティの脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。 我々はCAT(Concept-level Backdoor ATtacks)を導入し、CBM内の概念表現を活用してトレーニング中にトリガを埋め、推論時にモデル予測の制御を可能にする方法論を紹介します。 強化された攻撃パターンであるCAT+は相関関数を導入し、最も効果的でステルス的な概念トリガーを体系的に選択することで、攻撃の影響を最適化する。 包括的評価フレームワークは攻撃成功率とステルスネスの両方を評価し、CATとCAT+がクリーンデータ上で高いパフォーマンスを維持しつつ、バックドアデータセットに重要なターゲット効果を達成していることを示した。 この研究は、CBMに関連する潜在的なセキュリティリスクを強調し、将来のセキュリティアセスメントのための堅牢なテスト方法論を提供する。

Despite the transformative impact of deep learning across multiple domains, the inherent opacity of these models has driven the development of Explainable Artificial Intelligence (XAI). Among these efforts, Concept Bottleneck Models (CBMs) have emerged as a key approach to improve interpretability by leveraging high-level semantic information. However, CBMs, like other machine learning models, are susceptible to security threats, particularly backdoor attacks, which can covertly manipulate model behaviors. Understanding that the community has not yet studied the concept level backdoor attack of CBM, because of "Better the devil you know than the devil you don't know.", we introduce CAT (Concept-level Backdoor ATtacks), a methodology that leverages the conceptual representations within CBMs to embed triggers during training, enabling controlled manipulation of model predictions at inference time. An enhanced attack pattern, CAT+, incorporates a correlation function to systematically select the most effective and stealthy concept triggers, thereby optimizing the attack's impact. Our comprehensive evaluation framework assesses both the attack success rate and stealthiness, demonstrating that CAT and CAT+ maintain high performance on clean data while achieving significant targeted effects on backdoored datasets. This work underscores the potential security risks associated with CBMs and provides a robust testing methodology for future security assessments.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# グラフニューラルネットワークにおける過平滑化と拡張のモデリング

Taming Gradient Oversmoothing and Expansion in Graph Neural Networks ( http://arxiv.org/abs/2410.04824v1 )

ライセンス: Link先を確認
MoonJeong Park, Dongwoo Kim, (参考訳) オーバースムーシングは多層グラフニューラルネットワーク(GNN)の主要なボトルネックとして主張されている。 複数の分析で、過剰なスムージングの発生の理由と原因が調査されている。 しかし、以前の研究は、過度にスムースな体制下での最適化の方法に言及しなかった。 In this work, we show the presence of $\textit{gradient oversmoothing}$ prevent optimization during training。 さらに, 深層構造における勾配流を支援するよく知られた解である残差接続を持つGNNが, 様々な方向の勾配爆発現象である$\textit{gradient expansion}$を導入している。 したがって、残余接続を追加することは、GNNを深くする解決策にはならない。 解析の結果,各層のリプシッツ境界の制約は勾配拡大を中和できることがわかった。 この目的のために、勾配拡大を防止するための単純で効果的な正規化法を提供する。 実験的な研究により、数百の層を持つ残差GNNは、性能を損なうことなく、提案した正規化で効率的に訓練できることが示された。 さらなる研究により、経験的観察が我々の理論分析を裏付けることが明らかとなった。

Oversmoothing has been claimed as a primary bottleneck for multi-layered graph neural networks (GNNs). Multiple analyses have examined how and why oversmoothing occurs. However, none of the prior work addressed how optimization is performed under the oversmoothing regime. In this work, we show the presence of $\textit{gradient oversmoothing}$ preventing optimization during training. We further analyze that GNNs with residual connections, a well-known solution to help gradient flow in deep architecture, introduce $\textit{gradient expansion}$, a phenomenon of the gradient explosion in diverse directions. Therefore, adding residual connections cannot be a solution for making a GNN deep. Our analysis reveals that constraining the Lipschitz bound of each layer can neutralize the gradient expansion. To this end, we provide a simple yet effective normalization method to prevent the gradient expansion. An empirical study shows that the residual GNNs with hundreds of layers can be efficiently trained with the proposed normalization without compromising performance. Additional studies show that the empirical observations corroborate our theoretical analysis.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# パンデミック後における障害者と障害者のインターネットアクセス

The divide between us: Internet access among people with and without disabilities in the post-pandemic era ( http://arxiv.org/abs/2410.04825v1 )

ライセンス: Link先を確認
Edgar Pacheco, Hannah Burgess, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、リモートワークやオンライン教育、医療サービス、ソーシャル接続など、生活のさまざまな側面におけるインターネットアクセスの重要性を強調した。 パンデミック後の時代へと移行するにつれ、インターネットアクセスの多面的な性質に対する理解を更新する必要性が強まる。 この研究は、最初の試みの1つです。 ニュージーランドの成人インターネットユーザーの調査データ(n=960)を用いて、インターネット接続タイプ、家庭におけるインターネット利用頻度、ソーシャルメディア利用、障害者と障害者の間のオンラインリスクに関する懸念を比較する。 その結果、障害のある人は、ファイバーアクセスを制限し、無線ブロードバンド(接続タイプがずっと遅い)を高くしていることがわかった。 障害者は、ソーシャルメディアプラットフォームの使用を減らし、特定のオンラインリスクを心配している。 この発見は、パンデミック後の障害のある人々に対するインターネットアクセスの絶え間ない格差を浮き彫りにした。 本研究の意義について論じる。

The COVID-19 pandemic highlighted the importance of internet access across various aspects of life, from remote work and online education to healthcare services and social connections. As we transition to a post-pandemic era, a pressing need arises to update our understanding of the multifaceted nature of internet access. This study is one of the first attempts to do so. Using survey data from New Zealand adult internet users (n=960), it compares internet connection types, frequency of internet use at home, social media use, and concerns about online risk between people with and without disabilities. Results show people with disabilities have restricted fibre access and higher wireless broadband (a much slower connection type). People with disabilities use social media platforms less and are more concerned about certain online risks. The findings highlight persistent disparities in internet access for people with disabilities in the post-pandemic era. Implications of the study are discussed.
翻訳日:2024-11-02 01:47:52 公開日:2024-10-07
# 超電導デュアルレールビット用STIRAP誘導ロバストゲート

STIRAP-Inspired Robust Gates for a Superconducting Dual-Rail Qubit ( http://arxiv.org/abs/2410.04828v1 )

ライセンス: Link先を確認
Ujjawal Singhal, Harsh Vardhan Upadhyay, Irshad Ahmad, Vibhor Singh, (参考訳) STImulated Raman Adiabatic Passage (STIRAP) は量子システムにおける堅牢な状態伝達機能のための強力な技術である。 しかし、この方法は初期状態に対する感度のため、qubit-subspaceのゲートとして実装する上での課題に直面する。 プロトコルに単一光子デチューニングを組み込むことで、初期状態に対する感受性を効果的に緩和し、STIRAPをゲートとして動作させることができる。 本研究では、2つの強く結合された固定周波数トランスモン量子ビットによって形成されるデュアルレール量子ビットにおけるロバスト$\pi$と$\pi$/2回転の実装を実験的に実証した。 このような回転を用いて0.98以上で状態調製の忠実性を達成した。 分析の結果,これらのゲートは誤差に対して大きな回復力を示すことがわかった。 さらに, 数値計算により, これらのゲートは0.999以上の忠実度を達成できることを確認した。 この研究は、パルスやシステムパラメータの小さなドリフトに対して堅牢な量子ゲートを実現する方法を提案する。

STImulated Raman Adiabatic Passage (STIRAP) is a powerful technique for robust state transfer capabilities in quantum systems. This method, however encounters challenges for its implementation as a gate in qubit-subspace due to its sensitivity to initial states. By incorporating single-photon detuning into the protocol, the sensitivity to the initial state can effectively be mitigated, enabling STIRAP to operate as a gate. In this study, we experimentally demonstrate the implementation of robust $\pi$ and $\pi$/2 rotations in a dual-rail qubit formed by two strongly coupled fixed-frequency transmon qubits. We achieve state preparation fidelity in excess of 0.98 using such rotations. Our analysis reveals these gates exhibit significant resilience to errors. Furthermore, our numerical calculations confirm that these gates can achieve fidelity levels in excess of 0.999. This work suggest a way for realizing quantum gates which are robust against minor drifts in pulse or system parameters.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# 生物物理景観特徴のマッピングのためのマルチモーダル核融合戦略

Multimodal Fusion Strategies for Mapping Biophysical Landscape Features ( http://arxiv.org/abs/2410.04833v1 )

ライセンス: Link先を確認
Lucia Gordon, Nico Lang, Catherine Ressijac, Andrew Davies, (参考訳) マルチモーダル空中データは自然システムを監視するために使用され、機械学習はこれらの画像内の景観の特徴の分類を著しく加速させ、生態学と保全に役立てることができる。 しかし、これらの複数のモダリティが深層学習モデルでどのように融合されるべきなのかは、まだ解明されていない。 このギャップを埋めるためのステップとして、これらの3つのモードにおける空間整列整列のデータセットを用いて、熱、RGB、LiDAR画像の融合のための3つの戦略(Early fusion, Late fusion, Mixture of Experts)について検討する。 特に,アフリカのサバンナ生態系における3つの生態学的生態学的景観の特徴(サイ,シロアリマウンド,水)を地図化することを目的としている。 3つの融合戦略は、モダリティが早期または後期に融合されるか、モデルが各クラスのモダリティ毎の固定重みを学習するか、または入力に基づいて各クラスの重みを適応的に生成するかで異なる。 全体としては、後期核融合は0.698のAUCを達成するが、初期核融合はミッドデンと水で最高のリコールを達成し、エキスパートの混合はマウンドで最高のリコールを達成している。

Multimodal aerial data are used to monitor natural systems, and machine learning can significantly accelerate the classification of landscape features within such imagery to benefit ecology and conservation. It remains under-explored, however, how these multiple modalities ought to be fused in a deep learning model. As a step towards filling this gap, we study three strategies (Early fusion, Late fusion, and Mixture of Experts) for fusing thermal, RGB, and LiDAR imagery using a dataset of spatially-aligned orthomosaics in these three modalities. In particular, we aim to map three ecologically-relevant biophysical landscape features in African savanna ecosystems: rhino middens, termite mounds, and water. The three fusion strategies differ in whether the modalities are fused early or late, and if late, whether the model learns fixed weights per modality for each class or generates weights for each class adaptively, based on the input. Overall, the three methods have similar macro-averaged performance with Late fusion achieving an AUC of 0.698, but their per-class performance varies strongly, with Early fusion achieving the best recall for middens and water and Mixture of Experts achieving the best recall for mounds.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# 可溶性に基づく量子位相推定:パラメータ化固有値の推定に向けて

Resolvent-based quantum phase estimation: Towards estimation of parametrized eigenvalues ( http://arxiv.org/abs/2410.04837v1 )

ライセンス: Link先を確認
Abhijeet Alase, Salini Karuvade, (参考訳) 位相推定アルゴリズムを含む行列の固有値を推定する量子アルゴリズムは、量子化学や量子機械学習を含む幅広い量子アルゴリズムのコアサブルーチンとして機能する。 標準量子固有値(位相)推定では、対応する実固有値(固有位相)をアンシラリーレジスタに推定し、コヒーレントに記録する目的で、エルミート行列とその固有状態の未知の重ね合わせにおける状態が提供される。 非正規行列の固有値の推定は、固有値が複素平面上の至る所にあるため、ユニークな問題を示す。 さらに、固有ベクトルの非直交性や一般化固有ベクトルの存在は、行列函数の実装を複雑にする。 本研究では,行列分解形式に基づく非正規行列の固有値の推定手法を提案する。 与えられた非単項行列の単位ノルム固有値の位相を推定するための最初の効率的なアルゴリズムを構築する。 次に、与えられた非エルミート行列の実固有値を推定する効率的なアルゴリズムを構築し、スペクトルの非実数部分に対して著しく緩和された仮定の下で、最もよく知られた結果に一致する複雑さを実現する。 また, パラメータ化された複素曲線上に存在する固有値を, 明示的に記述された条件下で推定し, パラメトリックな固有値推定の新しいパラダイムへの道を開いた。

Quantum algorithms for estimating the eigenvalues of matrices, including the phase estimation algorithm, serve as core subroutines in a wide range of quantum algorithms, including those in quantum chemistry and quantum machine learning. In standard quantum eigenvalue (phase) estimation, a Hermitian (unitary) matrix and a state in an unknown superposition of its eigenstates are provided, with the objective of estimating and coherently recording the corresponding real eigenvalues (eigenphases) in an ancillary register. Estimating eigenvalues of non-normal matrices presents unique challenges, as the eigenvalues may lie anywhere on the complex plane. Furthermore, the non-orthogonality of eigenvectors and the existence of generalized eigenvectors complicate the implementation of matrix functions. In this work, we propose a novel approach for estimating the eigenvalues of non-normal matrices based on the matrix resolvent formalism. We construct the first efficient algorithm for estimating the phases of the unit-norm eigenvalues of a given non-unitary matrix. We then construct an efficient algorithm for estimating the real eigenvalues of a given non-Hermitian matrix, achieving complexities that match the best known results while operating under significantly relaxed assumptions on the non-real part of the spectrum. The resolvent-based approach that we introduce also extends to estimating eigenvalues that lie on a parametrized complex curve, subject to explicitly stated conditions, thereby paving the way for a new paradigm of parametric eigenvalue estimation.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# PostEdit: 効率的なゼロショット画像編集のための後方サンプリング

PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing ( http://arxiv.org/abs/2410.04844v1 )

ライセンス: Link先を確認
Feng Tian, Yixuan Li, Yichao Yan, Shanyan Guan, Yanhao Ge, Xiaokang Yang, (参考訳) 画像編集の分野では、コントロール可能性、背景保存、効率性の3つの主要な課題が続いている。 インバージョンベースの手法は、初期画像の特徴を保存するために時間を要する最適化に頼っている。 逆に、inversion-freeメソッドには背景類似性の理論的サポートがない。 その結果、これらの手法はいずれも高効率とバックグラウンドの整合性を達成できない。 この課題に対処するために,拡散サンプリングプロセスを管理するために,後続のスキームを組み込んだPostEditを導入する。 具体的には、初期特徴とランゲヴィンダイナミクスの両方に関連する対応する測定項を導入し、所定の目標プロンプトによって生成された推定画像を最適化する。 実験結果から,提案したPostEditは,未編集領域を正確に保存しつつ,最先端の編集性能を達成できることが示唆された。 さらに、この方法はインバージョンフリーとトレーニングフリーの両方で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。

In the field of image editing, three core challenges persist: controllability, background preservation, and efficiency. Inversion-based methods rely on time-consuming optimization to preserve the features of the initial images, which results in low efficiency due to the requirement for extensive network inference. Conversely, inversion-free methods lack theoretical support for background similarity, as they circumvent the issue of maintaining initial features to achieve efficiency. As a consequence, none of these methods can achieve both high efficiency and background consistency. To tackle the challenges and the aforementioned disadvantages, we introduce PostEdit, a method that incorporates a posterior scheme to govern the diffusion sampling process. Specifically, a corresponding measurement term related to both the initial features and Langevin dynamics is introduced to optimize the estimated image generated by the given target prompt. Extensive experimental results indicate that the proposed PostEdit achieves state-of-the-art editing performance while accurately preserving unedited regions. Furthermore, the method is both inversion- and training-free, necessitating approximately 1.5 seconds and 18 GB of GPU memory to generate high-quality results.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# 学習画像圧縮のための因果文脈調整損失

Causal Context Adjustment Loss for Learned Image Compression ( http://arxiv.org/abs/2410.04847v1 )

ライセンス: Link先を確認
Minghao Han, Shiyin Jiang, Shengxi Li, Xin Deng, Mai Xu, Ce Zhu, Shuhang Gu, (参考訳) 近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。 現在学習されているほとんどの技術は、自己回帰エントロピーモデルを備えたVAEベースであり、デコードされた因果コンテキストを利用してRD性能を向上する。 しかし、既存の手法は固定された手作りの因果関係に大きく依存している。 自己回帰エントロピーモデルに対して、より効果的な因果関係の利点を生み出すために、オートエンコーダをどのように誘導するかは、調査する価値がある。 本稿では,提案した因果文脈調整損失(Causal Context Adjustment Los, CCA-loss)を用いて因果文脈を明示的に調整する方法を初めて検討する。 CCA-ロスを付与することにより、ニューラルネットワークは自己回帰エントロピーモデルの初期段階において、重要な情報を自然に調整することができる。 さらに、トランス技術が著しく発展するにつれて、多くのSOTA(State-of-the-art lic)技術が採用されている。 既存の計算装置は、アテンション機構の計算にうまく適応していないため、計算量や推論遅延に負担がかかる。 そこで我々は,畳み込みニューラルネットワーク (CNN) 画像圧縮モデルを構築し,その不均一なチャネルワイド戦略を高効率に活用する。 最終的に、私たちのCausal Context Adjustment損失でトレーニングされたCNNベースのlicネットワークは、推論レイテンシとレート歪み性能の間に大きなトレードオフをもたらす。

In recent years, learned image compression (LIC) technologies have surpassed conventional methods notably in terms of rate-distortion (RD) performance. Most present learned techniques are VAE-based with an autoregressive entropy model, which obviously promotes the RD performance by utilizing the decoded causal context. However, extant methods are highly dependent on the fixed hand-crafted causal context. The question of how to guide the auto-encoder to generate a more effective causal context benefit for the autoregressive entropy models is worth exploring. In this paper, we make the first attempt in investigating the way to explicitly adjust the causal context with our proposed Causal Context Adjustment loss (CCA-loss). By imposing the CCA-loss, we enable the neural network to spontaneously adjust important information into the early stage of the autoregressive entropy model. Furthermore, as transformer technology develops remarkably, variants of which have been adopted by many state-of-the-art (SOTA) LIC techniques. The existing computing devices have not adapted the calculation of the attention mechanism well, which leads to a burden on computation quantity and inference latency. To overcome it, we establish a convolutional neural network (CNN) image compression model and adopt the unevenly channel-wise grouped strategy for high efficiency. Ultimately, the proposed CNN-based LIC network trained with our Causal Context Adjustment loss attains a great trade-off between inference latency and rate-distortion performance.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# TimeCNN: 時系列予測のための時間点における異種インタラクションの精製

TimeCNN: Refining Cross-Variable Interaction on Time Point for Time Series Forecasting ( http://arxiv.org/abs/2410.04853v1 )

ライセンス: Link先を確認
Ao Hu, Dongkai Wang, Yong Dai, Shiyi Qi, Liangjian Wen, Jun Wang, Zhi Chen, Xun Zhou, Zenglin Xu, Jiang Duan, (参考訳) 時系列予測は様々な領域で広く適用されている。 トランスフォーマーベースのモデルは、クロスタイムとクロス変数の相互作用をモデル化する上で大きなポテンシャルを示す。 しかし,多変量時系列のクロス変数相関は,既存のトランスフォーマーモデルではよく捉えられていない多面的(正および負の相関)と時間経過の動的進行を示す。 この問題に対処するために、時系列予測を強化するために、異種間相互作用を洗練するためのTimeCNNモデルを提案する。 主要な革新は、各タイムポイントが独立した畳み込みカーネルを持ち、各タイムポイントが変数間の関係をキャプチャする独立したモデルを持つことである。 このアプローチは、正と負の相関を効果的に扱い、時間とともに変化する変数関係の性質に適応する。 12の実世界のデータセットで実施された大規模な実験は、TimeCNNが一貫して最先端のモデルを上回っていることを示している。 特に、我々のモデルは、ベンチマークiTransformerモデルよりも3倍から4倍高速な推論速度を提供しながら、計算要求(約60.46%)とパラメータ数(約57.50%)の大幅な削減を実現している。

Time series forecasting is extensively applied across diverse domains. Transformer-based models demonstrate significant potential in modeling cross-time and cross-variable interaction. However, we notice that the cross-variable correlation of multivariate time series demonstrates multifaceted (positive and negative correlations) and dynamic progression over time, which is not well captured by existing Transformer-based models. To address this issue, we propose a TimeCNN model to refine cross-variable interactions to enhance time series forecasting. Its key innovation is timepoint-independent, where each time point has an independent convolution kernel, allowing each time point to have its independent model to capture relationships among variables. This approach effectively handles both positive and negative correlations and adapts to the evolving nature of variable relationships over time. Extensive experiments conducted on 12 real-world datasets demonstrate that TimeCNN consistently outperforms state-of-the-art models. Notably, our model achieves significant reductions in computational requirements (approximately 60.46%) and parameter count (about 57.50%), while delivering inference speeds 3 to 4 times faster than the benchmark iTransformer model
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# 自動タスク生成によるロボットマニピュレーションのための教師なしスキル発見

Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation ( http://arxiv.org/abs/2410.04855v1 )

ライセンス: Link先を確認
Paul Jansonnie, Bingbing Wu, Julien Perez, Jan Peters, (参考訳) オブジェクトと対話する学習スキルは、ロボット操作において重要である。 これらのスキルは、様々な操作タスクを解決するための、効果的な事前処理として機能する。 本稿では,多種多様な自律的タスクを解くことで,構成可能な振る舞いを発見する新しいスキル学習手法を提案する。 本手法は,ロボットが環境内の物体と連続的かつ堅牢に対話することを可能にするスキルを学習する。 発見された振る舞いは、階層的強化学習(Hierarchical Reinforcement Learning)と組み合わせて、目に見えない操作タスクを解決するプリミティブに埋め込まれる。 特に、非対称なセルフプレイを活用して行動を発見し、それらを組み込むための乗法的構成法を考案する。 我々は,本手法をスキル学習のベースラインと比較し,スキルがよりインタラクティブであることを確認する。 さらに、学習したスキルは、シミュレーションだけでなく、本物のロボットプラットフォーム上でも、目に見えない操作タスクのセットを解決するために使用することができる。

Learning skills that interact with objects is of major importance for robotic manipulation. These skills can indeed serve as an efficient prior for solving various manipulation tasks. We propose a novel Skill Learning approach that discovers composable behaviors by solving a large and diverse number of autonomously generated tasks. Our method learns skills allowing the robot to consistently and robustly interact with objects in its environment. The discovered behaviors are embedded in primitives which can be composed with Hierarchical Reinforcement Learning to solve unseen manipulation tasks. In particular, we leverage Asymmetric Self-Play to discover behaviors and Multiplicative Compositional Policies to embed them. We compare our method to Skill Learning baselines and find that our skills are more interactive. Furthermore, the learned skills can be used to solve a set of unseen manipulation tasks, in simulation as well as on a real robotic platform.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-07
# 検索なしで中国のチェスAI(Xiangqi)をマスターする

Mastering Chinese Chess AI (Xiangqi) Without Search ( http://arxiv.org/abs/2410.04865v1 )

ライセンス: Link先を確認
Yu Chen, Juntong Lin, Zhichao Shu, (参考訳) 我々は,検索アルゴリズムに頼らずに動作する高性能な中国チェスAIを開発した。 このAIは、人間のプレイヤーの上位0.1倍のレベルで競争する能力を示した。 このAIは、このようなシステムに典型的な検索プロセスを排除することにより、モンテカルロ木探索(MCTS)アルゴリズムに基づくシステムのクエリ/秒(QPS)レートを1000倍以上に上回り、AlphaBetaプルーニングアルゴリズムに基づくクエリを100倍以上に上回る。 AIトレーニングシステムは、教師付き学習と強化学習の2つの部分で構成される。 教師付き学習に基づく強化学習は、AI全体の強度を新たなレベルに引き上げる。 このトレーニングシステムに基づいて、十分なアブレーション実験を行い、それを発見した。 1.中国チェスのCNNよりも高い性能を有するトランスフォーマーアーキテクチャのパラメータ量。 2. 両面の特徴が訓練過程を大幅に改善する可能性があること。 3) 選択対戦プールは, 純粋な自己プレイトレーニングに比べ, より高速な改善曲線と高い強度限界が得られる。 4. カットオフ(VECT)を用いた値推定は,元のPPOアルゴリズムのトレーニングプロセスを改善し,その説明を行う。

We have developed a high-performance Chinese Chess AI that operates without reliance on search algorithms. This AI has demonstrated the capability to compete at a level commensurate with the top 0.1\% of human players. By eliminating the search process typically associated with such systems, this AI achieves a Queries Per Second (QPS) rate that exceeds those of systems based on the Monte Carlo Tree Search (MCTS) algorithm by over a thousandfold and surpasses those based on the AlphaBeta pruning algorithm by more than a hundredfold. The AI training system consists of two parts: supervised learning and reinforcement learning. Supervised learning provides an initial human-like Chinese chess AI, while reinforcement learning, based on supervised learning, elevates the strength of the entire AI to a new level. Based on this training system, we carried out enough ablation experiments and discovered that 1. The same parameter amount of Transformer architecture has a higher performance than CNN on Chinese chess; 2. Possible moves of both sides as features can greatly improve the training process; 3. Selective opponent pool, compared to pure self-play training, results in a faster improvement curve and a higher strength limit. 4. Value Estimation with Cutoff(VECT) improves the original PPO algorithm training process and we will give the explanation.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# Kolmogorov Arnoldと畳み込みニューラルネットワークを用いたアートフォージェリー検出

Art Forgery Detection using Kolmogorov Arnold and Convolutional Neural Networks ( http://arxiv.org/abs/2410.04866v1 )

ライセンス: Link先を確認
Sandro Boccuzzo, Deborah Desirée Meyer, Ludovica Schaerf, (参考訳) 美術認証は歴史的に、ある特定の芸術家の深い良心を必要とする課題として確立されてきた。 それでも、ヴォルフガング・ベルトラッキのような有名な美術の鍛冶師は、何十人もの美術専門家を騙すことができた。 近年、人工知能アルゴリズムは様々な画像処理タスクにうまく適用されている。 本研究では,AIの改良を生かして,偽のWolfgang Beltracchiを識別するための技術認証フレームワークを提案する。 AI支援アート認証に関する既存の文献とは違って、私たちは、アーティストではなく、フォーガーの特殊なモデルに焦点を当て、従来のAI手法のアプローチを反転させます。 我々は,Beltracchiが作成した既知のアーティストのデータセットと,EfficientNetに基づくマルチクラスの画像分類モデルをトレーニングするために,フォージェによる既知の作品のセットを慎重にコンパイルした。 我々はその結果をKAN(Kolmogorov Arnold Networks)と比較した。 これらの結果から, 視覚的分析を用いて, 偽造物としてフラグ付けされた美術品において, 異なるモデルの予測との間には, 一般的な一致があることが示唆された。

Art authentication has historically established itself as a task requiring profound connoisseurship of one particular artist. Nevertheless, famous art forgers such as Wolfgang Beltracchi were able to deceive dozens of art experts. In recent years Artificial Intelligence algorithms have been successfully applied to various image processing tasks. In this work, we leverage the growing improvements in AI to present an art authentication framework for the identification of the forger Wolfgang Beltracchi. Differently from existing literature on AI-aided art authentication, we focus on a specialized model of a forger, rather than an artist, flipping the approach of traditional AI methods. We use a carefully compiled dataset of known artists forged by Beltracchi and a set of known works by the forger to train a multiclass image classification model based on EfficientNet. We compare the results with Kolmogorov Arnold Networks (KAN) which, to the best of our knowledge, have never been tested in the art domain. The results show a general agreement between the different models' predictions on artworks flagged as forgeries, which are then closely studied using visual analysis.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# 符号勾配の緩やかな2層変圧器の最適化と一般化について

On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent ( http://arxiv.org/abs/2410.04870v1 )

ライセンス: Link先を確認
Bingrui Li, Wei Huang, Andi Han, Zhanpeng Zhou, Taiji Suzuki, Jun Zhu, Jianfei Chen, (参考訳) アダム・オプティマイザはトランスフォーマーの最適化に広く使われており、基礎となる最適化機構を理解することが重要な問題となっている。 しかし、アダムの複雑さのため、トランスフォーマーの最適化に関する理論的分析は依然として難しい課題である。 幸いなことに、Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートとして機能している。 その単純さにもかかわらず、SignGDがトランスフォーマーを最適化する方法に関する理論的理解はまだ遅れている。 本研究では、線形分離可能なノイズデータセットを用いて、SignGDが2層トランスフォーマー(訓練可能なクエリキーパラメータ化と線形層を含むソフトマックスアテンション層)をどのように最適化するかを検討する。 トレーニングダイナミクスの4つの段階を特定し,それぞれが興味深い行動を示す。 学習力学に基づいて,ノイズデータセット上で学習したトランスフォーマーの高速収束と低次一般化を証明した。 また、Adamはこの設定における最適化と一般化の両方の観点から、SignGDと同じような振る舞いを示す。 さらに,SignGDの一般化が不十分なのはデータノイズによるものではなく,SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。 最後に、合成および実世界のデータセットに関する実験は、我々の理論的結果を実証的に支援する。

The Adam optimizer is widely used for transformer optimization in practice, which makes understanding the underlying optimization mechanisms an important problem. However, due to the Adam's complexity, theoretical analysis of how it optimizes transformers remains a challenging task. Fortunately, Sign Gradient Descent (SignGD) serves as an effective surrogate for Adam. Despite its simplicity, theoretical understanding of how SignGD optimizes transformers still lags behind. In this work, we study how SignGD optimizes a two-layer transformer -- consisting of a softmax attention layer with trainable query-key parameterization followed by a linear layer -- on a linearly separable noisy dataset. We identify four stages in the training dynamics, each exhibiting intriguing behaviors. Based on the training dynamics, we prove the fast convergence but poor generalization of the learned transformer on the noisy dataset. We also show that Adam behaves similarly to SignGD in terms of both optimization and generalization in this setting. Additionally, we find that the poor generalization of SignGD is not solely due to data noise, suggesting that both SignGD and Adam requires high-quality data for real-world tasks. Finally, experiments on synthetic and real-world datasets empirically support our theoretical results.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# TeX-NeRF:擬似TeXビジョンからの神経放射場

TeX-NeRF: Neural Radiance Fields from Pseudo-TeX Vision ( http://arxiv.org/abs/2410.04873v1 )

ライセンス: Link先を確認
Chonghao Zhong, Chao Xu, (参考訳) 神経放射野(NeRF)はその異常な視覚効果で注目されている。 しかし、既存のNeRF法のほとんどは、可視光カメラで撮影したRGB画像から3Dシーンを再構成している。 暗黒、低照度、悪天候のような現実的なシナリオでは、可視光カメラは効果がない。 そこで,Pseudo-TeXビジョンを用いて,対象物質放射率を事前処理し,シーンの温度(T),放射率(e),テクスチャ(X)をそれぞれ飽和(S),色調(H),値(V)チャネルにマッピングする,赤外線画像のみを用いた3次元再構成手法TeX-NeRFを提案する。 処理した画像を用いた新しいビュー合成は優れた結果を得た。 さらに、赤外線画像とそれに対応する擬似TeX視覚画像からなる最初のデータセットである3D-TeXデータセットを導入する。 実験により,提案手法は高画質のRGB画像で達成したシーン再構成の質に適合するだけでなく,シーン内の物体の正確な温度推定も可能であることが示された。

Neural radiance fields (NeRF) has gained significant attention for its exceptional visual effects. However, most existing NeRF methods reconstruct 3D scenes from RGB images captured by visible light cameras. In practical scenarios like darkness, low light, or bad weather, visible light cameras become ineffective. Therefore, we propose TeX-NeRF, a 3D reconstruction method using only infrared images, which introduces the object material emissivity as a priori, preprocesses the infrared images using Pseudo-TeX vision, and maps the temperatures (T), emissivities (e), and textures (X) of the scene into the saturation (S), hue (H), and value (V) channels of the HSV color space, respectively. Novel view synthesis using the processed images has yielded excellent results. Additionally, we introduce 3D-TeX Datasets, the first dataset comprising infrared images and their corresponding Pseudo-TeX vision images. Experiments demonstrate that our method not only matches the quality of scene reconstruction achieved with high-quality RGB images but also provides accurate temperature estimations for objects in the scene.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# 言語理解と生成のための文法誘導の活用

Leveraging Grammar Induction for Language Understanding and Generation ( http://arxiv.org/abs/2410.04878v1 )

ライセンス: Link先を確認
Jushi Kai, Shengyuan Hou, Yusheng Huang, Zhouhan Lin, (参考訳) 近年,文法化の進展が顕著である。 しかし, 下流タスクにおいて, 帰納文法の適用が実践的性能を高めるのかは明らかになっていない。 本研究では,言語理解と生成のための教師なし文法誘導手法を提案する。 本研究では,構文アノテーションを付加せずに下流のタスクで同時に学習する文法解析器を構築し,構成構造と依存性関係を誘導する。 誘導文法機能はその後、自己注意を導くための構文マスクとしてTransformerに組み込まれる。 複数の機械翻訳タスクと自然言語理解タスクに本手法を適用・評価する。 提案手法は,外部パーサで拡張したトランスフォーマーや他のモデルと比較して,優れた性能を示す。 実験結果から,本手法はオフスクラッチとプレトレーニングシナリオの両方に有効であることが示唆された。 さらに、本研究では、ニューラルネットワークモデルに対するテキストの文法構造を明示的にモデル化することの貢献を強調した。

Grammar induction has made significant progress in recent years. However, it is not clear how the application of induced grammar could enhance practical performance in downstream tasks. In this work, we introduce an unsupervised grammar induction method for language understanding and generation. We construct a grammar parser to induce constituency structures and dependency relations, which is simultaneously trained on downstream tasks without additional syntax annotations. The induced grammar features are subsequently incorporated into Transformer as a syntactic mask to guide self-attention. We evaluate and apply our method to multiple machine translation tasks and natural language understanding tasks. Our method demonstrates superior performance compared to the original Transformer and other models enhanced with external parsers. Experimental results indicate that our method is effective in both from-scratch and pre-trained scenarios. Additionally, our research highlights the contribution of explicitly modeling the grammatical structure of texts to neural network models.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# BoxAL 能動学習による廃棄魚種の検出の改善

Improved detection of discarded fish species through BoxAL active learning ( http://arxiv.org/abs/2410.04880v1 )

ライセンス: Link先を確認
Maria Sokolova, Pieter M. Blok, Angelo Mencarelli, Arjan Vroegop, Aloysius van Helmond, Gert Kootstra, (参考訳) 近年,データ駆動型ディープラーニング技術が開発され,自動キャッチ登録に応用されている。 しかし、これらの手法はラベル付きデータに依存しており、それは時間がかかり、労働集約的であり、専門家の知識を集め、必要とするのに高価である。 本研究では,より高速なR-CNNオブジェクト検出モデルの認識精度を推定する,BoxALという能動的学習手法を提案する。 この方法では、未ラベルのプールから最も不確実なトレーニングイメージを選択し、オブジェクト検出モデルのトレーニングに使用することができる。 提案手法を評価するために,デマーサル種をターゲットとした商業トロール用専用画像取得システムを用いて得られたオープンソース画像データセットを用いた。 提案手法により,400個のラベル付き画像を用いたランダムサンプリングと同様の物体検出性能が得られることを示した。 さらに、前回のトレーニングでは平均APスコアが39.0&plusmn;1.6と34.8&plusmn;1.8と1100のトレーニングイメージで有意に高かった。 さらに,本モデルではまだ処理できない画像のサンプル化には,疫学的な確実性が適していることを示した。 また,本研究では,サンプル化した新データが,未ラベルデータよりもトレーニングに有用であることが確認された。 私たちのソフトウェアはhttps://github.com/pieterblok/boxal.comで利用可能です。

In recent years, powerful data-driven deep-learning techniques have been developed and applied for automated catch registration. However, these methods are dependent on the labelled data, which is time-consuming, labour-intensive, expensive to collect and need expert knowledge. In this study, we present an active learning technique, named BoxAL, which includes estimation of epistemic certainty of the Faster R-CNN object-detection model. The method allows selecting the most uncertain training images from an unlabeled pool, which are then used to train the object-detection model. To evaluate the method, we used an open-source image dataset obtained with a dedicated image-acquisition system developed for commercial trawlers targeting demersal species. We demonstrated, that our approach allows reaching the same object-detection performance as with the random sampling using 400 fewer labelled images. Besides, mean AP score was significantly higher at the last training iteration with 1100 training images, specifically, 39.0&plusmn;1.6 and 34.8&plusmn;1.8 for certainty-based sampling and random sampling, respectively. Additionally, we showed that epistemic certainty is a suitable method to sample images that the current iteration of the model cannot deal with yet. Our study additionally showed that the sampled new data is more valuable for training than the remaining unlabeled data. Our software is available on https://github.com/pieterblok/boxal.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# KernelSHAPにおけるサンプリング戦略の改善

Improving the Sampling Strategy in KernelSHAP ( http://arxiv.org/abs/2410.04883v1 )

ライセンス: Link先を確認
Lars Henry Berge Olsen, Martin Jullum, (参考訳) シェープ値は、複雑な機械学習モデルによる予測を説明するための、一般的なモデルに依存しない説明フレームワークである。 このフレームワークは、予測された応答をまとめた機能コントリビューションスコアを提供し、各機能の重要性を表す。 正確なShapley値の計算は、指数的な量の非自明な条件予測を推定するため、計算コストがかかる。 KernelSHAPフレームワークは、重み付き条件付き期待値のサンプルサブセットを用いて、Shapley値の近似を可能にする。 本稿では,現在最先端戦略における重みの分散を低減するための安定化手法,サンプルサブセットに基づいてShapleyカーネル重みを補正する新しい重み付け方式,および重要なサブセットを包含して修正されたShapleyカーネル重みと統合する簡単な戦略を提案する。 我々はこれらの新しい近似戦略を既存手法と比較し,そのShapley値の精度をサブセット数の関数として評価する。 以上の結果から,本手法はShapley値の精度を著しく向上し,実用上より信頼性が向上することが示唆された。 この研究は、Shapleyの価値に基づくモデルの説明可能性の実装を目指す研究者や実践者に対して、貴重な洞察と実践的なレコメンデーションを提供する。

Shapley values are a popular model-agnostic explanation framework for explaining predictions made by complex machine learning models. The framework provides feature contribution scores that sum to the predicted response and represent each feature's importance. The computation of exact Shapley values is computationally expensive due to estimating an exponential amount of non-trivial conditional expectations. The KernelSHAP framework enables us to approximate the Shapley values using a sampled subset of weighted conditional expectations. We propose three main novel contributions: a stabilizing technique to reduce the variance of the weights in the current state-of-the-art strategy, a novel weighing scheme that corrects the Shapley kernel weights based on sampled subsets, and a straightforward strategy that includes the important subsets and integrates them with the corrected Shapley kernel weights. We compare these new approximation strategies against existing ones by evaluating their Shapley value accuracy as a function of the number of subsets. The results demonstrate that our sampling strategies significantly enhance the accuracy of the approximated Shapley value explanations, making them more reliable in practical applications. This work provides valuable insights and practical recommendations for researchers and practitioners seeking to implement Shapley value-based explainability of their models.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models

Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models ( http://arxiv.org/abs/2410.04884v1 )

ライセンス: Link先を確認
Dehong Kong, Siyuan Liang, Xiaopeng Zhu, Yuansheng Zhong, Wenqi Ren, (参考訳) 視覚言語事前訓練(VLP)モデルは、様々な領域で大きな成功を収めてきたが、敵の攻撃に弱いままである。 これらの敵対的脆弱性に対処することは、マルチモーダル学習におけるセキュリティ向上に不可欠である。 伝統的に、VLPモデルをターゲットにした敵対的手法は、画像とテキストを同時に摂動させる。 しかし、このアプローチは顕著な課題に直面している: 第一に、敵の摂動は、しばしば実世界のシナリオに効果的に翻訳できない;第二に、テキストへの直接的な修正は目立って見える。 これらの制限を克服するために,画像パッチのみを攻撃に用い,原文の整合性を維持する新しい戦略を提案する。 本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。 さらに,パッチ配置を最適化し,攻撃の有効性を向上させるために,戦略的なパッチ配置を導くために,アテンションマップを生成することでモーダル間相互作用をカプセル化するクロスアテンション機構を利用する。 画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。 さらに、テキスト・ツー・イメージ構成を含む転送タスクのパフォーマンスも向上する。

Visual language pre-training (VLP) models have demonstrated significant success across various domains, yet they remain vulnerable to adversarial attacks. Addressing these adversarial vulnerabilities is crucial for enhancing security in multimodal learning. Traditionally, adversarial methods targeting VLP models involve simultaneously perturbing images and text. However, this approach faces notable challenges: first, adversarial perturbations often fail to translate effectively into real-world scenarios; second, direct modifications to the text are conspicuously visible. To overcome these limitations, we propose a novel strategy that exclusively employs image patches for attacks, thus preserving the integrity of the original text. Our method leverages prior knowledge from diffusion models to enhance the authenticity and naturalness of the perturbations. Moreover, to optimize patch placement and improve the efficacy of our attacks, we utilize the cross-attention mechanism, which encapsulates intermodal interactions by generating attention maps to guide strategic patch placements. Comprehensive experiments conducted in a white-box setting for image-to-text scenarios reveal that our proposed method significantly outperforms existing techniques, achieving a 100% attack success rate. Additionally, it demonstrates commendable performance in transfer tasks involving text-to-image configurations.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# 重み付き学習した広帯域ニューラルネットワークによる神経崩壊の防止

Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse ( http://arxiv.org/abs/2410.04887v1 )

ライセンス: Link先を確認
Arthur Jacot, Peter Súkeník, Zihan Wang, Marco Mondelli, (参考訳) 収束時のディープニューラルネットワーク(DNN)は、神経崩壊と呼ばれる高度に対称な幾何学構造を通して、最終層のトレーニングデータを一貫して表現している。 この実証的な証拠は、神経崩壊の出現を証明するための一連の理論研究を刺激し、主に制約のない特徴モデルに焦点を当てた。 ここでは、入出力層の特徴は自由変数であり、モデルがデータに依存しないため、DNNトレーニングをキャプチャする能力に疑問を呈する。 我々の研究は問題に対処し、制約のない機能から離れ、少なくとも2つの線形層で終わるDNNを研究する。 私たちはまず、神経崩壊を仮定する一般的な保証を証明します。 一 線形層の低トレーニング誤差及びバランス性(内部変動性崩壊のための)及び (II) 線形部分前の特徴の有界条件付け(クラス平均の直交性、および重み行列との整合性)。 すると、そのような仮定が重み減衰を伴う勾配降下訓練に成り立つことを示す。 (i) 広い第1層を有するネットワークの場合、トレーニングエラーやバランス性の低いことが証明され、 (ii) 学習速度が大きい場合, ほぼ最適あるいは安定な解に対しては, 有界条件も証明する。 まとめると、DNNのエンドツーエンドトレーニングにおいて、私たちの結果は初めて神経衰弱を示します。

Deep neural networks (DNNs) at convergence consistently represent the training data in the last layer via a highly symmetric geometric structure referred to as neural collapse. This empirical evidence has spurred a line of theoretical research aimed at proving the emergence of neural collapse, mostly focusing on the unconstrained features model. Here, the features of the penultimate layer are free variables, which makes the model data-agnostic and, hence, puts into question its ability to capture DNN training. Our work addresses the issue, moving away from unconstrained features and studying DNNs that end with at least two linear layers. We first prove generic guarantees on neural collapse that assume (i) low training error and balancedness of the linear layers (for within-class variability collapse), and (ii) bounded conditioning of the features before the linear part (for orthogonality of class-means, as well as their alignment with weight matrices). We then show that such assumptions hold for gradient descent training with weight decay: (i) for networks with a wide first layer, we prove low training error and balancedness, and (ii) for solutions that are either nearly optimal or stable under large learning rates, we additionally prove the bounded conditioning. Taken together, our results are the first to show neural collapse in the end-to-end training of DNNs.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# D-PoSE:3次元人間の姿勢と形状推定のための中間表現としての深さ

D-PoSE: Depth as an Intermediate Representation for 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2410.04889v1 )

ライセンス: Link先を確認
Nikolaos Vasilikopoulos, Drosakis Drosakis, Antonis Argyros, (参考訳) D-PoSE (Depth as a Intermediate Representation for 3D Human Pose and Shape Estimation) は1枚のRGB画像から人間のポーズとSMPL-X形状パラメータを推定する1段階の手法である。 最近の研究は、人間のポーズと形状(HPS)ベンチマークの精度を改善するために、トランスフォーマーバックボーンとデコーダを備えたより大きなモデルを使用している。 D-PoSEは、推定された人間の深度マップをHPSの中間表現として使用し、合成データによるトレーニングと、トレーニング中の深度監視のためにそれらを備えた地上深度マップを利用する視覚ベースのアプローチを提案する。 合成データセットでトレーニングされているにもかかわらず、D-PoSEは実世界のベンチマークデータセットEMDBと3DPWで最先端のパフォーマンスを達成する。 シンプルな軽量な設計とCNNのバックボーンにもかかわらず、ViTベースのモデルよりも優れている。 D-PoSEコードは、https://github.com/nvasilik/D-PoSEで利用可能である。

We present D-PoSE (Depth as an Intermediate Representation for 3D Human Pose and Shape Estimation), a one-stage method that estimates human pose and SMPL-X shape parameters from a single RGB image. Recent works use larger models with transformer backbones and decoders to improve the accuracy in human pose and shape (HPS) benchmarks. D-PoSE proposes a vision based approach that uses the estimated human depth-maps as an intermediate representation for HPS and leverages training with synthetic data and the ground-truth depth-maps provided with them for depth supervision during training. Although trained on synthetic datasets, D-PoSE achieves state-of-the-art performance on the real-world benchmark datasets, EMDB and 3DPW. Despite its simple lightweight design and the CNN backbone, it outperforms ViT-based models that have a number of parameters that is larger by almost an order of magnitude. D-PoSE code is available at: https://github.com/nvasilik/D-PoSE
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# 拡散モデルの低ランク連続パーソナライズ

Low-Rank Continual Personalization of Diffusion Models ( http://arxiv.org/abs/2410.04891v1 )

ライセンス: Link先を確認
Łukasz Staniszewski, Katarzyna Zaleska, Kamil Deja, (参考訳) 近年のDreamboothのような拡散モデルのパーソナライズ手法では、微調整された事前学習モデルによって新しい概念が生成される。 しかし、いくつかの新しいオブジェクトやスタイルを含むように、これらのテクニックを複数のタスクに適用すると、アダプタ間の相互干渉が発生する。 近年の研究では、微調整後のタスク間で訓練されたアダプタを組み合わせることでこの問題を緩和しようとしているが、より厳密な体制を採用し、継続的な学習シナリオの下で大きな拡散モデルのパーソナライズについて検討している。 この目的のために、我々は、カスタマイズされたモデルの「連続的な微調整」を評価し、この手法を、連続的なアダプタの訓練のための3つの方法と比較した。 実験では, 提案手法は, na\" アプローチと比較して, 忘れを緩和することを示した。

Recent personalization methods for diffusion models, such as Dreambooth, allow fine-tuning pre-trained models to generate new concepts. However, applying these techniques across multiple tasks in order to include, e.g., several new objects or styles, leads to mutual interference between their adapters. While recent studies attempt to mitigate this issue by combining trained adapters across tasks after fine-tuning, we adopt a more rigorous regime and investigate the personalization of large diffusion models under a continual learning scenario, where such interference leads to catastrophic forgetting of previous knowledge. To that end, we evaluate the na\"ive continual fine-tuning of customized models and compare this approach with three methods for consecutive adapters' training: sequentially merging new adapters, merging orthogonally initialized adapters, and updating only relevant parameters according to the task. In our experiments, we show that the proposed approaches mitigate forgetting when compared to the na\"ive approach.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# 2電子原子系 原子核近傍の基底状態の簡易計算法

Two-electron atomic systems. A simple method for calculating the ground state near the nucleus. Some applications ( http://arxiv.org/abs/2410.04900v1 )

ライセンス: Link先を確認
Evgeny Z. Liverts, (参考訳) 2電子原子/イオンの電子構造の簡単な変分計算法が提案されている。 この方法全体は一般化行列固有値方程式の標準的な解から成り、すべての行列要素は1次元積分の数値計算に還元される。 この手法の特異な特徴は以下のとおりである。 超球面半径$R$の対数の基底関数への包含は、フォック展開と同様である。 主角フォック係数を含む特別な基底関数を用いて、核近傍の波動関数の正しい挙動を提供する。 ヘリウム原子の性質を特徴づける主数値パラメータと核近傍のヘリウム様イオンを計算し、表に示す。 例えば、Fock展開の特定の係数$a_{21}$は、核の近くで正しい振舞いを持つ波動関数を用いてのみ計算できるものであり、表とグラフで表される。

A simple method of variational calculations of the electronic structure of a two-electron atom/ion, primarily near the nucleus, is proposed. The method as a whole consists of a standard solution of a generalized matrix eigenvalue equation, all matrix elements of which are reduced to a numerical calculation of one-dimensional integrals. Distinctive features of the method are: The use of the hyperspherical coordinate system. The inclusion of logarithms of the hyperspherical radius $R$ in the basis functions, similar to the Fock expansion. Using a special basis function including the leading angular Fock coefficients to provide the correct behavior of the wave function near the nucleus. The main numerical parameters characterizing the properties of the helium atom and a number of helium-like ions near the nucleus are calculated and presented in tables. Among others, the specific coefficients $a_{21}$ of the Fock expansion, which can only be calculated using a wave function with the correct behavior near the nucleus, are presented in table and graphs.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# Art2Mus: クロスモーダル・ジェネレーションによるビジュアルアートと音楽のブリッジ

Art2Mus: Bridging Visual Arts and Music through Cross-Modal Generation ( http://arxiv.org/abs/2410.04906v1 )

ライセンス: Link先を確認
Ivan Rinaldi, Nicola Fanelli, Giovanna Castellano, Gennaro Vessio, (参考訳) 人工知能と生成モデルは音楽の創造に革命をもたらし、多くのモデルは指導のためにテキストまたは視覚的プロンプトを活用する。 しかし、既存の画像から音楽へのモデルは単純な画像に限られており、複雑なデジタルアートワークから音楽を生成する能力が欠如している。 このギャップに対処するために、デジタル化されたアートワークやテキスト入力から音楽を作成するように設計された新しいモデルである$\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$を紹介します。 $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$ extends the AudioLDM~2 architecture, a text-to-audio model, and using our new curated datasets, created by ImageBind。 実験結果は、$\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$が入力刺激に共鳴する音楽を生成することを示す。 これらの発見は、マルチメディアアート、インタラクティブなインスタレーション、AI駆動のクリエイティブツールにおける有望な応用を示唆している。

Artificial Intelligence and generative models have revolutionized music creation, with many models leveraging textual or visual prompts for guidance. However, existing image-to-music models are limited to simple images, lacking the capability to generate music from complex digitized artworks. To address this gap, we introduce $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$, a novel model designed to create music from digitized artworks or text inputs. $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$ extends the AudioLDM~2 architecture, a text-to-audio model, and employs our newly curated datasets, created via ImageBind, which pair digitized artworks with music. Experimental results demonstrate that $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$ can generate music that resonates with the input stimuli. These findings suggest promising applications in multimedia art, interactive installations, and AI-driven creative tools.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# 線形関数の分解多面体

Decomposition Polyhedra of Piecewise Linear Functions ( http://arxiv.org/abs/2410.04907v1 )

ライセンス: Link先を確認
Marie-Charlotte Brandenburg, Moritz Grillo, Christoph Hertrich, (参考訳) 本稿では,連続ピースワイド線形関数(CPWL)を2つの凸CPWL関数の差分に分解する方法について,よく研究されている問題に寄与する。 すべてのCPWL関数は無限に多くの分解を持つが、最適化やニューラルネットワーク理論の応用においては、できるだけ少数の線形部分で分解を見つけることが重要である。 これは、トランとワンによる最近提案されたアプローチ(熱帯有理関数の最小表現,代数統計学,15(1):27-59,2024)を否定することで、非常に難しい問題である。 問題をより難解にするために、非線形性の可能性の軌跡を決定する基礎となる多面体複体を固定することを提案する。 この仮定の下では、分解の集合が2つの翻訳された円錐の交叉として生じる多面体を形成することを証明している。 我々は、既約分解がこの多面体の有界面に対応することを証明し、最小解は頂点でなければならない。 次に、一意の最小分解を持つケースを特定し、劣モジュラ函数の理論において我々の洞察がどのように結果をもたらすかを説明する。 最後に、与えられた凸CPWL関数に対するニューラルネットワークの以前の構成を改善し、このフレームワークを適用して非凸の場合の結果を得る。

In this paper we contribute to the frequently studied question of how to decompose a continuous piecewise linear (CPWL) function into a difference of two convex CPWL functions. Every CPWL function has infinitely many such decompositions, but for applications in optimization and neural network theory, it is crucial to find decompositions with as few linear pieces as possible. This is a highly challenging problem, as we further demonstrate by disproving a recently proposed approach by Tran and Wang [Minimal representations of tropical rational functions. Algebraic Statistics, 15(1):27-59, 2024]. To make the problem more tractable, we propose to fix an underlying polyhedral complex determining the possible locus of nonlinearity. Under this assumption, we prove that the set of decompositions forms a polyhedron that arises as intersection of two translated cones. We prove that irreducible decompositions correspond to the bounded faces of this polyhedron and minimal solutions must be vertices. We then identify cases with a unique minimal decomposition, and illustrate how our insights have consequences in the theory of submodular functions. Finally, we improve upon previous constructions of neural networks for a given convex CPWL function and apply our framework to obtain results in the nonconvex case.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-07
# ディフェンス・アズ・ア・サービス: バックドアグラフモデルに対するブラックボックス・シールド

Defense-as-a-Service: Black-box Shielding against Backdoored Graph Models ( http://arxiv.org/abs/2410.04916v1 )

ライセンス: Link先を確認
Xiao Yang, Kai Zhou, Yuni Lai, Gaolei Li, (参考訳) 大規模なグラフ学習モデルのトレンドにより、ビジネスオーナーは、サードパーティが提供するモデルを使用して、ユーザにビジネスサービスを提供する傾向があります。 しかし、これらのモデルはバックドア化され、悪意のあるユーザはトリガーが埋め込まれた入力を送信してモデル予測を操作することができる。 現在のグラフバックドア防御にはいくつかの制限がある。 1) モデルに関する詳細による。 2)追加のモデル微調整が必要で、 3) 厳格なプライバシーポリシーの下では、これらすべては実現不可能である、余分な説明可能性ツールに依存している。 このような制限に対処するため、GNNベースのグラフ分類器に対するバックドア攻撃を避けるために、リソース制約のあるビジネスオーナーがサードパーティに依存することができるGraphProtを提案する。 GraphProtはモデルに依存しず、入力グラフのみに依存します。 重要な洞察は、予測にサブグラフ情報を活用することで、トリガーによって引き起こされるバックドア効果を緩和することである。 GraphProtはクラスタリングベースのトリガ除去と堅牢なサブグラフアンサンブルという2つのコンポーネントで構成されている。 具体的には、まず、異常な部分グラフ(トリガー)の大部分を削除することを目的とした特徴トポロジクラスタリングを提案する。 さらに,特徴トポロジクラスタリングに基づく部分グラフサンプリング戦略を設計し,多数決によるロバストな分類器を構築する。 3つのバックドア攻撃と6つのベンチマークデータセットによる実験結果から、GraphProtは通常のグラフ分類タスクのモデル精度を維持しながら、バックドア攻撃の成功率を著しく低減することが示された。

With the trend of large graph learning models, business owners tend to employ a model provided by a third party to deliver business services to users. However, these models might be backdoored, and malicious users can submit trigger-embedded inputs to manipulate the model predictions. Current graph backdoor defenses have several limitations: 1) depending on model-related details, 2) requiring additional model fine-tuning, and 3) relying upon extra explainability tools, all of which are infeasible under stringent privacy policies. To address those limitations, we propose GraphProt, which allows resource-constrained business owners to rely on third parties to avoid backdoor attacks on GNN-based graph classifiers. Our GraphProt is model-agnostic and only relies on the input graph. The key insight is to leverage subgraph information for prediction, thereby mitigating backdoor effects induced by triggers. GraphProt comprises two components: clustering-based trigger elimination and robust subgraph ensemble. Specifically, we first propose feature-topology clustering that aims to remove most of the anomalous subgraphs (triggers). Moreover, we design subgraph sampling strategies based on feature-topology clustering to build a robust classifier via majority vote. Experimental results across three backdoor attacks and six benchmark datasets demonstrate that GraphProt significantly reduces the backdoor attack success rate while preserving the model accuracy on regular graph classification tasks.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# N量子ビット系におけるランダム二分割による量子エネルギーテレポーテーション

Quantum energy teleportation via random bi-partitioning in N-qubit systems ( http://arxiv.org/abs/2410.04919v1 )

ライセンス: Link先を確認
Zhirong Xun, Changliang Ren, (参考訳) 本研究では, 量子エネルギーテレポーテーション (QET) の確率的二分割法を用いて, 量子エネルギーテレポーテーション(QET)について検討した。 このプロトコルでは、外部エネルギー注入時に、$(N - m)$ qubitsでプロジェクト計測を行い、$N-$qubitの基底状態の量子揺らぎ情報をキャプチャする。 重要なことに、情報はエネルギー拡散よりも早く残りの$m$ qubitsの部位に到達し、局所的な操作を通じて基底状態エネルギーを抽出することができる。 以上の結果から,量子ビット数の増加はQETの利用可能なエネルギーを増大させ,(N - 1)$ qubitsが入力であり,一方が出力である場合に効率がピークとなることを示す。 また,エネルギー伝達効率と基底状態の絡み合いとの間には強い相関関係が認められた。 パラメータ $\frac{k}{h}$ は高原に到達するまで効率と絡み合いを改善します。 全体として、より多くの量子ビットはより高いエネルギー伝達効率と絡み合いをもたらし、QET性能における彼らの重要な役割を強調している。

This study investigates quantum energy teleportation (QET) using stochastic bi-partitioning in an $N-$body Hamiltonian system. In this protocol, project measurements are performed on $(N - m)$ qubits to capture quantum fluctuation information of the $N-$qubit ground state during external energy injection. Significantly, the information reaches the sites of the remaining $m$ qubits faster than the energy diffuses, allowing for extracting the ground state energy through local operations. Our results show that increasing the number of qubits $N$ enhances the available energy for QET, with efficiency peaking when $(N - 1)$ qubits are inputs and one is an output. We also find a strong correlation between energy transfer efficiency and ground-state entanglement. Increasing the parameter $\frac{k}{h}$ improves both efficiency and entanglement until reaching a plateau. Overall, more qubits lead to higher energy transfer efficiency and entanglement, highlighting their critical roles in QET performance.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# 楽曲からメタバースまで

Music-triggered fashion design: from songs to the metaverse ( http://arxiv.org/abs/2410.04921v1 )

ライセンス: Link先を確認
Martina Delgado, Marta Llopart, Eva Sarabia, Sandra Taboada, Pol Vierge, Fernando Vilariño, Joan Moya Kohler, Julieta Grimberg Golijov, Matías Bilkis, (参考訳) バーチャル現実の出現は、異なる社会に前例のない機会と挑戦をもたらす。 アーティスト集団は例外ではなく、私たちはミュージシャンに特別な注意を向けることを目指しています。 作曲、歌詞、さらにはショー広告も、アーティストが現実について伝えるメッセージの構成要素である。 そのため、芸術的な創造物は究極的には感情と結びついており、美学は芸術家の意図を伝える上で重要な役割を担っている。 本稿では,音刺激にインスパイアされたダイナミックなファッションデザインレコメンデーションシステムを開発することにより,ミュージシャンが観客と橋渡しする機会を広げる上で,仮想現実がいかに役立つかを分析する。 我々はメタバースにおける音楽体験を再定義する第一歩を提示し、潜在的に幅広い方法でアーティストがリアルとバーチャルの両方の機械学習エージェント(\textit{e g })と接続する機会を開放する。

The advent of increasingly-growing virtual realities poses unprecedented opportunities and challenges to different societies. Artistic collectives are not an exception, and we here aim to put special attention into musicians. Compositions, lyrics and even show-advertisements are constituents of a message that artists transmit about their reality. As such, artistic creations are ultimately linked to feelings and emotions, with aesthetics playing a crucial role when it comes to transmit artist's intentions. In this context, we here analyze how virtual realities can help to broaden the opportunities for musicians to bridge with their audiences, by devising a dynamical fashion-design recommendation system inspired by sound stimulus. We present our first steps towards re-defining musical experiences in the metaverse, opening up alternative opportunities for artists to connect both with real and virtual (\textit{e.g.} machine-learning agents operating in the metaverse) in potentially broader ways.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# ランダム射影アンサンブル次元の縮小

Random-projection ensemble dimension reduction ( http://arxiv.org/abs/2410.04922v1 )

ライセンス: Link先を確認
Wenxing Zhou, Timothy I. Cannings, (参考訳) 本稿では,高次元回帰の文脈における次元削減のための新しい枠組みを提案する。 提案手法は,共変量に適用された経験的回帰性能に基づいて慎重に選択されたランダムなプロジェクションのアンサンブルを集約することである。 より正確には、独立なランダムプロジェクションの解離群を考察し、各プロジェクションの後に基本回帰法を適用し、経験的性能に基づいて各グループにプロジェクションを保持する。 実験平均の特異値を分解して選択された射影を集約し、先頭の特異ベクトルを出力する。 このアプローチの特に魅力的な側面は、特異値が対応する射影方向の相対的重要性の尺度を提供することである。 本稿では,予測分布や基本回帰法,使用する乱射影の数など,一般的なフレームワークのさまざまな側面について詳細に検討(および既定の推奨)する。 さらに、初期アプリケーションで推奨される射影次元が大きすぎる場合に、我々のアルゴリズムを2回適用することで、さらに寸法を縮小する可能性について検討する。 理論的結果から,投影数の増加に伴ってアルゴリズムの誤差が安定化されることが示唆された。 シミュレーションおよび実データを用いた大規模数値実験において,提案手法の優れた実証性能を示す。

We introduce a new framework for dimension reduction in the context of high-dimensional regression. Our proposal is to aggregate an ensemble of random projections, which have been carefully chosen based on the empirical regression performance after being applied to the covariates. More precisely, we consider disjoint groups of independent random projections, apply a base regression method after each projection, and retain the projection in each group based on the empirical performance. We aggregate the selected projections by taking the singular value decomposition of their empirical average and then output the leading order singular vectors. A particularly appealing aspect of our approach is that the singular values provide a measure of the relative importance of the corresponding projection directions, which can be used to select the final projection dimension. We investigate in detail (and provide default recommendations for) various aspects of our general framework, including the projection distribution and the base regression method, as well as the number of random projections used. Additionally, we investigate the possibility of further reducing the dimension by applying our algorithm twice in cases where projection dimension recommended in the initial application is too large. Our theoretical results show that the error of our algorithm stabilises as the number of groups of projections increases. We demonstrate the excellent empirical performance of our proposal in a large numerical study using simulated and real data.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# 統合的・分別的?Reddit上でのクロスパーティインタラクションによるユーザ行動の変化

Integrated or Segregated? User Behavior Change after Cross-Party Interactions on Reddit ( http://arxiv.org/abs/2410.04923v1 )

ライセンス: Link先を確認
Yan Xia, Corrado Monti, Barbara Keller, Mikko Kivelä, (参考訳) ソーシャルメディアが同種のユーザーのエコーチャンバーを強化し、政治的分極を悪化させるという懸念が広く共有されている。 パーティーライン間のインタラクションを育むことは、エコーチャンバーを壊す重要な戦略として認識されているが、実際のソーシャルメディアプラットフォーム上で、ユーザが実際に統合されるか、より分離されるかという実証的な証拠は欠如している。 このギャップを埋めるために、Redditの米国政治討論会で、クロスプラットフォームの返信を受け取り、ユーザーがコミュニティのエンゲージメントをどのように変えるかを調べる。 具体的には、野党のコミュニティや自党のコミュニティでの活動を増加させるかどうかを検討する。 我々は、非党派の議論空間におけるコメントに対する当事者間の返信は、コメント自体がすでに他のコメントに対する返信でない限り、外部からのサブレディット活動の増加に大きく関連していないことを発見した。 一方、サードパーティからの返信の受信は、サードパーティ内のサブレディット活動の増加と大きく関連している。 以上の結果から,外部コミュニティの活動を刺激する相互の相互作用にともなう条件付き脱分極効果が指摘され,これはフィードバック・ブーステッド・エンゲージメントのより一般的なダイナミクスの一部と考えられる。

It has been a widely shared concern that social media reinforces echo chambers of like-minded users and exacerbate political polarization. While fostering interactions across party lines is recognized as an important strategy to break echo chambers, there is a lack of empirical evidence on whether users will actually become more integrated or instead more segregated following such interactions on real social media platforms. We fill this gap by inspecting how users change their community engagement after receiving a cross-party reply in the U.S. politics discussion on Reddit. More specifically, we investigate if they increase their activity in communities of the opposing party, or in communities of their own party. We find that receiving a cross-party reply to a comment in a non-partisan discussion space is not significantly associated with increased out-party subreddit activity, unless the comment itself is already a reply to another comment. Meanwhile, receiving a cross-party reply is significantly associated with increased in-party subreddit activity, but the effect is comparable to that of receiving a same-party reply. Our results reveal a highly conditional depolarization effect following cross-party interactions in spurring activity in out-party communities, which is likely part of a more general dynamic of feedback-boosted engagement.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# 複数のマーク付き頂点を持つ完全多部グラフの量子ウォーク探索

Quantum Walk Search on Complete Multipartite Graph with Multiple Marked Vertices ( http://arxiv.org/abs/2410.04924v1 )

ライセンス: Link先を確認
Ningxiang Chen, Meng Li, Xiaoming Sun, (参考訳) 量子ウォークは量子アルゴリズムを構築するための強力な技術である。 本稿では,複数頂点を持つ完全多部グラフ上での量子ウォーク探索アルゴリズムについて検討する。 この論文では、完全多部グラフの2つの特定のケースを探索し、どちらの場合も、各セットは等しい数の頂点からなる。 我々は、量子ウォークモデルを用いて、マークされた頂点を見つける確率を一定の確率で2次高速化する。 さらに、2つのケースのロバストな量子ウォークについて検討し、無数のマークされた頂点であっても、古典的アルゴリズムと比較して二次的なスピードアップを達成でき、成功確率は1に近い小さな範囲で振動することを示した。 この研究は、完全多部グラフ上の量子ウォーク探索アルゴリズムにおけるオーバークッキング問題に対処する。 また、量子アルゴリズムの数値シミュレーションと回路実装も提供する。

Quantum walk is a potent technique for building quantum algorithms. This paper examines the quantum walk search algorithm on complete multipartite graphs with multiple marked vertices, which has not been explored before. Two specific cases of complete multipartite graphs are probed in this paper, and in both cases, each set consists of an equal number of vertices. We employ the coined quantum walk model and achieve quadratic speedup with a constant probability of finding a marked vertex. Furthermore, we investigate the robust quantum walk of two cases and demonstrate that even with an unknown number of marked vertices, it is still possible to achieve a quadratic speedup compared to classical algorithms and the success probability oscillates within a small range close to 1. This work addresses the overcooking problem in quantum walk search algorithms on some complete multipartite graphs. We also provide the numerical simulation and circuit implementation of our quantum algorithm.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# LLMファインチューニングによるバンクチャットボットのインテント分類

Intent Classification for Bank Chatbots through LLM Fine-Tuning ( http://arxiv.org/abs/2410.04925v1 )

ライセンス: Link先を確認
Bibiána Lajčinová, Patrik Valábek, Michal Spišiak, (参考訳) 本研究では,大規模言語モデル(LLM)をチャットボット内の意図的分類に適用し,銀行業界Webサイト向けに所定の応答を設計した。 具体的には、Llama 8bインストラクションやGemma 7bインストラクションのような多言語生成モデルを用いた場合と比較して、事前訓練と微調整の両方で、微調整BarberTの有効性を検証した。 その結果,BarberTは顕微鏡内精度とスコープ外偽陽性率で他のモデルよりも優れており,このアプリケーションのベンチマークとして確立されている。

This study evaluates the application of large language models (LLMs) for intent classification within a chatbot with predetermined responses designed for banking industry websites. Specifically, the research examines the effectiveness of fine-tuning SlovakBERT compared to employing multilingual generative models, such as Llama 8b instruct and Gemma 7b instruct, in both their pre-trained and fine-tuned versions. The findings indicate that SlovakBERT outperforms the other models in terms of in-scope accuracy and out-of-scope false positive rate, establishing it as the benchmark for this application.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# AIの相互接続後監視における政府の役割

The Role of Governments in Increasing Interconnected Post-Deployment Monitoring of AI ( http://arxiv.org/abs/2410.04931v1 )

ライセンス: Link先を確認
Merlin Stein, Jamie Bernardi, Connor Dunlop, (参考訳) 言語ベースのAIシステムは社会に拡散し、肯定的および否定的な影響をもたらす。 ネガティブな影響の軽減は、AIの使用と影響の間の因果関係を作る実証的な証拠ベースから引き出された、正確な影響評価に依存する。 相互接続されたデプロイ後監視は、モデル統合と使用、アプリケーション利用、インシデントと影響に関する情報を組み合わせる。 例えば、チェーンオブ思考推論の推論時間モニタリングと、セクターAI拡散、影響、インシデントの長期的な監視を組み合わせることができる。 他の産業における情報共有メカニズムに基づいて、我々は、政府がAIリスク管理に通知するために収集できるデータソースと特定のデータポイントの例を強調します。

Language-based AI systems are diffusing into society, bringing positive and negative impacts. Mitigating negative impacts depends on accurate impact assessments, drawn from an empirical evidence base that makes causal connections between AI usage and impacts. Interconnected post-deployment monitoring combines information about model integration and use, application use, and incidents and impacts. For example, inference time monitoring of chain-of-thought reasoning can be combined with long-term monitoring of sectoral AI diffusion, impacts and incidents. Drawing on information sharing mechanisms in other industries, we highlight example data sources and specific data points that governments could collect to inform AI risk management.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# OmniBooth:マルチモーダルインストラクションによる画像合成のための遅延制御学習

OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction ( http://arxiv.org/abs/2410.04932v1 )

ライセンス: Link先を確認
Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen, (参考訳) 我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。 すべてのインスタンスに対して、マルチモーダル命令はテキストプロンプトや画像参照を通じて記述することができる。 ユーザ定義マスクのセットと関連するテキストや画像のガイダンスから,複数のオブジェクトが指定された座標に配置され,その属性が対応するガイダンスと正確に一致した画像を生成することが目的である。 このアプローチは、テキスト・画像生成の範囲を大きく拡大し、制御性においてより汎用的で実践的な次元にまで拡大する。 本稿では,空間的,テキスト的,画像的条件をシームレスに統合する統一表現を提供する高次元空間的特徴である潜在制御信号のコアコントリビューションについて述べる。 テキスト条件はControlNetを拡張し、インスタンスレベルのオープン語彙生成を提供する。 画像条件はさらに、パーソナライズされたアイデンティティによるきめ細かい制御を可能にする。 実際に本手法は,テキストや画像から複数モード条件を選択することができるため,制御可能な生成の柔軟性を向上する。 さらに、画像合成の忠実度向上と、タスクやデータセット間のアライメントに関する詳細な実験を行った。 プロジェクトページ:https://len-li.github.io/omnibooth-web/

We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# ルール強化強化学習を用いた大規模FPSゲームマップにおける対話エージェントの訓練

Training Interactive Agent in Large FPS Game Map with Rule-enhanced Reinforcement Learning ( http://arxiv.org/abs/2410.04936v1 )

ライセンス: Link先を確認
Chen Zhang, Huan Hu, Yuan Zhou, Qiyang Cao, Ruochen Liu, Wenya Wei, Elvis S. Liu, (参考訳) 競争ゲームの世界では、3Dファーストパーソンシューティングゲーム(FPS)が大人気となり、ゲームAIシステムの開発がゲームプレイの強化に拍車をかけた。 しかし、現実的なシナリオにゲームAIをデプロイすることは、特に大規模で複雑なFPSゲームにおいて、依然として課題を提起している。 本稿ではTencent Gamesが開発したオンラインマルチプレイヤー競争型3D FPSゲームであるArena BreakoutにおけるゲームAIの実践的展開に焦点を当てる。 筆者らは,大規模なゲームマップ内で対話可能であり,周辺地形の戦術的優位性を生かしながら,プレイヤーと戦うことのできる,新しいゲームAIシステムPMCAを提案する。 現代の3D FPSゲームにおけるナビゲーションと戦闘の課題に対処するために,ナビゲーションメッシュ(Navmesh)とシューティングルールと深層強化学習(NSRL)を組み合わせた手法を提案する。 Navmeshの統合により、エージェントのグローバルナビゲーション能力が向上し、シューティング動作はルールベースの方法で制御され、制御性を保証する。 NSRLはDRLモデルを使用して、ナビゲーションメッシュを有効にするタイミングを予測する。 また、PMCAの行動と人間プレイヤーの行動とを合わせるために、人間のような行動に対するカスタマイズされた報酬が用いられる。

In the realm of competitive gaming, 3D first-person shooter (FPS) games have gained immense popularity, prompting the development of game AI systems to enhance gameplay. However, deploying game AI in practical scenarios still poses challenges, particularly in large-scale and complex FPS games. In this paper, we focus on the practical deployment of game AI in the online multiplayer competitive 3D FPS game called Arena Breakout, developed by Tencent Games. We propose a novel gaming AI system named Private Military Company Agent (PMCA), which is interactable within a large game map and engages in combat with players while utilizing tactical advantages provided by the surrounding terrain. To address the challenges of navigation and combat in modern 3D FPS games, we introduce a method that combines navigation mesh (Navmesh) and shooting-rule with deep reinforcement learning (NSRL). The integration of Navmesh enhances the agent's global navigation capabilities while shooting behavior is controlled using rule-based methods to ensure controllability. NSRL employs a DRL model to predict when to enable the navigation mesh, resulting in a diverse range of behaviors for the game AI. Customized rewards for human-like behaviors are also employed to align PMCA's behavior with that of human players.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# 量子ファイバーのリーマン幾何学的一般化とビュール=ヴァッサーシュタイン距離

Riemannian-geometric generalizations of quantum fidelities and Bures-Wasserstein distance ( http://arxiv.org/abs/2410.04937v1 )

ライセンス: Link先を確認
A. Afham, Chris Ferrie, (参考訳) 我々は、バーレス・ヴァッサーシュタイン多様体のリーマン幾何学に基づいて、一般化された忠実性(英語版)( generalized fidelity)と呼ばれるフィデリティの族を導入する。 このファジリティの族は、Uhlamnn-, Holevo-, Matsumoto fidelity などの標準量子フィディリティを一般化し、類似の有望な性質を満たすことを示す。 一般化された忠実性は、バーズ=ヴァッサーシュタイン多様体の線型化から得られる自然な距離である一般化されたバーズ距離から自然に生じる。 我々は、線型化点が測地線関連経路に沿って移動するとき、一般化された忠実性の様々な不変性と共分散性を証明した。 また、ブロック行列のキャラクタリゼーションを提供し、ウルマン様の定理を証明し、多変量設定と量子レニーの分岐をさらに拡張し、ペッツ-、サンドウィッチ-、リバースサンドイッチ-、幾何レニーの次数$\alpha$の発散を一般化する。

We introduce a family of fidelities based on the Riemannian geometry of the Bures-Wasserstein manifold we call the generalized fidelity. We show that this family of fidelities generalizes standard quantum fidelities such as Uhlamnn-, Holevo-, and Matsumoto fidelity and demonstrate that it satisfies analogous celebrated properties. The generalized fidelity naturally arises from a generalized Bures distance, the natural distance obtained from the linearization of the Bures-Wasserstein manifold. We prove various invariance and covariance properties of generalized fidelity as the point of linearization moves along geodesic-related paths. We also provide a Block-matrix characterization and prove an Uhlmann-like theorem, as well as provide further extensions to the multivariate setting and quantum Renyi divergences, generalizing Petz-, Sandwich-, Reverse sandwich-, and Geometric Renyi divergences of order $\alpha$.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# PRFusion:画像と点雲融合による効果的かつロバストなマルチモーダル位置認識を目指して

PRFusion: Toward Effective and Robust Multi-Modal Place Recognition with Image and Point Cloud Fusion ( http://arxiv.org/abs/2410.04939v1 )

ライセンス: Link先を確認
Sijie Wang, Qiyu Kang, Rui She, Kai Zhao, Yang Song, Wee Peng Tay, (参考訳) 位置認識はロボット工学やコンピュータビジョンの分野において重要な役割を担い、自律運転、マッピング、ローカライゼーションといった分野の応用を見出す。 場所認識は、クエリセンサーデータと既知のデータベースを使用して場所を特定する。 主な課題の1つは、環境変動に頑健でありながら正確な結果を提供できるモデルを開発することである。 本稿では,PRFusionとPRFusion++という2つのマルチモーダル位置認識モデルを提案する。 PRFusionは、大域融合と多様体距離の注意を生かし、カメラ-LiDAR外部キャリブレーションを必要とせず、特徴間の効果的な相互作用を可能にする。 対照的にPRFusion++は、外部キャリブレーションの可用性を前提として、ピクセルポイント対応を活用して、ローカルウィンドウの機能学習を強化する。 さらに、どちらのモデルにも神経拡散層が組み込まれており、困難な環境でも信頼性の高い操作が可能である。 3つの大規模ベンチマークで両モデルの最先端性能を検証する。 特に、要求されるBoreasデータセットにおいて、既存のモデルを+3.0 AR@1のかなりのマージンで上回る。 さらに,提案手法の有効性を検証するためにアブレーション研究を行っている。 コードは、https://github.com/sijieaaa/PRFusion.comで入手できる。

Place recognition plays a crucial role in the fields of robotics and computer vision, finding applications in areas such as autonomous driving, mapping, and localization. Place recognition identifies a place using query sensor data and a known database. One of the main challenges is to develop a model that can deliver accurate results while being robust to environmental variations. We propose two multi-modal place recognition models, namely PRFusion and PRFusion++. PRFusion utilizes global fusion with manifold metric attention, enabling effective interaction between features without requiring camera-LiDAR extrinsic calibrations. In contrast, PRFusion++ assumes the availability of extrinsic calibrations and leverages pixel-point correspondences to enhance feature learning on local windows. Additionally, both models incorporate neural diffusion layers, which enable reliable operation even in challenging environments. We verify the state-of-the-art performance of both models on three large-scale benchmarks. Notably, they outperform existing models by a substantial margin of +3.0 AR@1 on the demanding Boreas dataset. Furthermore, we conduct ablation studies to validate the effectiveness of our proposed methods. The codes are available at: https://github.com/sijieaaa/PRFusion
翻訳日:2024-11-02 01:18:10 公開日:2024-10-07
# 次の状態予測は、オブジェクトの絡み合った、しかし構成的な表現を引き起こす

Next state prediction gives rise to entangled, yet compositional representations of objects ( http://arxiv.org/abs/2410.04940v1 )

ライセンス: Link先を確認
Tankred Saanum, Luca M. Schulze Buschoff, Peter Dayan, Eric Schulz, (参考訳) 構成表現は、人間が組み合わさった広大な状態空間をまたいで一般化できると考えられている。 学習可能なオブジェクトスロットを持つモデルは、別個の潜在コードでオブジェクトに関する情報を符号化し、この種の一般化を約束するが、強いアーキテクチャ上の前提に依存している。 一方、分散表現を持つモデルは重複し、潜在的に絡み合ったニューラルネットワークを使用し、構成一般化をサポートする能力はいまだ研究されていない。 本稿では,オブジェクト間相互作用のビデオの教師なしトレーニングを通じて,分散モデルが,スロット付きモデルのようなオブジェクトの線形分離可能な表現を開発できるかどうかを検討する。 意外なことに、分散表現を持つモデルは、下流の予測タスクにおいてオブジェクトスロットでモデルにマッチするか、より優れています。 さらに,次状態予測などの補助的目的が重要な役割を担っているため,対象中心の先行を伴わずに,線形分離可能なオブジェクト表現が出現することを発見した。 最後に、分散モデルのオブジェクト表現は、たとえ線形分離可能であっても、完全には絡み合っていないことを観察する: 線形分類器で高い分離性を維持しつつ、部分的に重なり合う神経集団を通して複数のオブジェクトを符号化することができる。 部分的に共有されたコードを維持することで、分散モデルによりオブジェクトの動的性をよりよく圧縮し、一般化を促進できるという仮説を立てる。

Compositional representations are thought to enable humans to generalize across combinatorially vast state spaces. Models with learnable object slots, which encode information about objects in separate latent codes, have shown promise for this type of generalization but rely on strong architectural priors. Models with distributed representations, on the other hand, use overlapping, potentially entangled neural codes, and their ability to support compositional generalization remains underexplored. In this paper we examine whether distributed models can develop linearly separable representations of objects, like slotted models, through unsupervised training on videos of object interactions. We show that, surprisingly, models with distributed representations often match or outperform models with object slots in downstream prediction tasks. Furthermore, we find that linearly separable object representations can emerge without object-centric priors, with auxiliary objectives like next-state prediction playing a key role. Finally, we observe that distributed models' object representations are never fully disentangled, even if they are linearly separable: Multiple objects can be encoded through partially overlapping neural populations while still being highly separable with a linear classifier. We hypothesize that maintaining partially shared codes enables distributed models to better compress object dynamics, potentially enhancing generalization.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# コンパクトでポータブルな共焦点顕微鏡による個々の窒素空孔中心の調和

Harnessing individual nitrogen-vacancy centers with a compact and portable confocal microscope ( http://arxiv.org/abs/2410.04942v1 )

ライセンス: Link先を確認
Ivan Panadero, Jose Carlos Guerra, Eva Caravaca, Fernando Julio Hidalgo, Pablo Acedo, Cristina de Dios, Erik Torrontegui, (参考訳) 量子技術の最近の進歩は、ダイヤモンドの窒素空孔(NV)中心の可能性を強調している。 しかし、この可能性を完全に実現するには、NVセンター操作に使用される現在の光学系のサイズ、複雑さ、コストに関連する課題に対処する必要がある。 本研究では,単一NV中心の効率的な検出と制御を目的としたコンパクトでポータブルな共焦点装置を提案する。 本システムにより、個々のNV中心の発光信号の光初期化と読み出しが容易となり、コヒーレントスピン制御とナノスケール磁場センシングが可能となる。

Recent advancements in quantum technology have highlighted the potential of nitrogen-vacancy (NV) centers in diamond. However, fully realizing this potential requires addressing challenges related to the size, complexity, and cost of current optical systems used for NV center manipulation. In this work, we present a compact and portable confocal setup specifically designed for the efficient detection and control of single NV centers. Our system facilitates optical initialization and readout of individual NV center photoluminescence signals, enabling coherent spin control and nanoscale-resolution magnetic field sensing.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# リアルタイム船舶認識とジオレファレンスによる海上状況認識の改善

Real-time Ship Recognition and Georeferencing for the Improvement of Maritime Situational Awareness ( http://arxiv.org/abs/2410.04946v1 )

ライセンス: Link先を確認
Borja Carrillo Perez, (参考訳) 海上インフラが不可欠である時代には、高度な状況認識ソリューションがますます重要になっている。 光カメラシステムを使用することで、海上映像のリアルタイム利用が可能になる。 本論文は, 深層学習とコンピュータビジョンを活用して, 船舶のリアルタイム認識とジオレファレンスを, 海上状況認識の向上に役立てるものである。 3,505枚の画像と11,625枚の船体マスクを備えた新しいデータセットであるShipSGが導入された。 最先端の研究の後、カスタムリアルタイムセグメンテーションアーキテクチャであるScatYOLOv8+CBAMがNVIDIA Jetson AGX Xavier組み込みシステム向けに設計された。 このアーキテクチャは2D散乱変換と注目機構をYOLOv8に追加し、75.46%のmAPと1フレームあたり25.3msを実現し、最先端の手法を5%以上上回った。 組込みシステムの高分解能画像における小型・遠距離の船舶認識を改善するため, 改良されたスライシング機構を導入し, mAPを8%から11%改善した。 また,400mから1200mまでの船舶では最大18m,400mから1200mまでの船舶では44mの測位誤差を達成できるジオレファレンス法が提案されている。 この知見は, 船の異常な挙動の検出, カメラの完全性評価, 3次元再構成など, 現実のシナリオにも応用される。 この論文のアプローチは既存の手法より優れており、認識およびジオレファレンスされた船舶をリアルタイムシステムに統合し、海洋利害関係者の運用効率と意思決定を向上する枠組みを提供する。 この論文は、船舶のセグメンテーションとジオレファレンス研究のベンチマークを確立し、リアルタイム海洋モニタリングのためのディープラーニングに基づく認識とジオレファレンス手法の可能性を実証することによって、海洋コンピュータビジョン分野に寄与する。

In an era where maritime infrastructures are crucial, advanced situational awareness solutions are increasingly important. The use of optical camera systems can allow real-time usage of maritime footage. This thesis presents an investigation into leveraging deep learning and computer vision to advance real-time ship recognition and georeferencing for the improvement of maritime situational awareness. A novel dataset, ShipSG, is introduced, containing 3,505 images and 11,625 ship masks with corresponding class and geographic position. After an exploration of state-of-the-art, a custom real-time segmentation architecture, ScatYOLOv8+CBAM, is designed for the NVIDIA Jetson AGX Xavier embedded system. This architecture adds the 2D scattering transform and attention mechanisms to YOLOv8, achieving an mAP of 75.46% and an 25.3 ms per frame, outperforming state-of-the-art methods by over 5%. To improve small and distant ship recognition in high-resolution images on embedded systems, an enhanced slicing mechanism is introduced, improving mAP by 8% to 11%. Additionally, a georeferencing method is proposed, achieving positioning errors of 18 m for ships up to 400 m away and 44 m for ships between 400 m and 1200 m. The findings are also applied in real-world scenarios, such as the detection of abnormal ship behaviour, camera integrity assessment and 3D reconstruction. The approach of this thesis outperforms existing methods and provides a framework for integrating recognized and georeferenced ships into real-time systems, enhancing operational effectiveness and decision-making for maritime stakeholders. This thesis contributes to the maritime computer vision field by establishing a benchmark for ship segmentation and georeferencing research, demonstrating the viability of deep-learning-based recognition and georeferencing methods for real-time maritime monitoring.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# 論文推薦のための知識グラフと大規模言語モデル--中国刑事法を事例として

Leverage Knowledge Graph and Large Language Model for Law Article Recommendation: A Case Study of Chinese Criminal Law ( http://arxiv.org/abs/2410.04949v1 )

ライセンス: Link先を確認
Yongming Chen, Miner Chen, Ye Zhu, Juan Pei, Siyu Chen, Yu Zhou, Yi Wang, Yifan Zhou, Hao Li, Songan Zhang, (参考訳) 社会の安定には裁判所の効率が不可欠である。 しかし、世界中のほとんどの国では、草の根裁判所は、司法職員の認知労働に大きく依存し、効率を改善するためのインテリジェントなツールが欠如している、ケースバックログに直面している。 本稿では,知識グラフ (KG) と大規模言語モデル (LLM) を用いた効率的な法論文推薦手法を提案する。 まず,CLAKG(Case-Enhanced Law Article Knowledge Graph)を,現行法規,歴史的事件情報,法律記事と歴史的事件の対応を格納するデータベースとして提案する。 さらに,LLMに基づく自動CLAKG構築手法を提案する。 そこで本研究では,閉ループ法論文レコメンデーション手法を提案する。 最後に,「中国判決オンライン」の判断文書を用いた一連の実験により,0.549件から0.694件の事例において,法論文推薦の精度を向上し,提案手法がベースラインアプローチを著しく上回ることを示す。

Court efficiency is vital for social stability. However, in most countries around the world, the grassroots courts face case backlogs, with decisions relying heavily on judicial personnel's cognitive labor, lacking intelligent tools to improve efficiency. To address this issue, we propose an efficient law article recommendation approach utilizing a Knowledge Graph (KG) and a Large Language Model (LLM). Firstly, we propose a Case-Enhanced Law Article Knowledge Graph (CLAKG) as a database to store current law statutes, historical case information, and correspondence between law articles and historical cases. Additionally, we introduce an automated CLAKG construction method based on LLM. On this basis, we propose a closed-loop law article recommendation method. Finally, through a series of experiments using judgment documents from the website "China Judgements Online", we have improved the accuracy of law article recommendation in cases from 0.549 to 0.694, demonstrating that our proposed method significantly outperforms baseline approaches.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# 正方格子上の$p$波北エフ鎖における準マヨラモード

Quasi-Majorana modes in the $p$-wave Kitaev chains on a square lattice ( http://arxiv.org/abs/2410.04955v1 )

ライセンス: Link先を確認
S. Srinidhi, Aayushi Agrawal, Jayendra N. Bandyopadhyay, (参考訳) 隣り合う方形格子と隣り合う隣り合う方形格子上の$p$波北エフ鎖のトポロジー特性について検討した。 ギャップレス完全ゼロエネルギーモードの他に、このモデルは位相的ギャップレス位相ホスティングエッジモードを示すが、ゼロエネルギーでは厳密には存在しない。 しかし、これらのモードはバルク状態と区別することができる。 これらの状態は擬似または準マヨラナモード(qMM)として知られている。 この系のバルクスペクトルとベリー曲率の探索により、ブリルアンゾーン内の特異点と磁束を輸送する渦が明らかになった。 これらの渦は、2つの縮退したバンドから生じる4倍のディラック点の存在を示す。 円筒幾何学の下でハミルトニアンを調べることは、位相的エッジモードの存在を証明し、エッジ特性を明らかにする。 これらのモードは、系のディラック半金属特性の直接的なトポロジカルな結果である。 システムはオープン境界条件下で解析され、複数のMZMとqMMを区別する。 この分析には、正規化された部位依存の状態の局所密度の研究が含まれており、これは局所化されたエッジ状態の存在を示唆している。 さらに、数値的な証拠は、障害摂動に対するエッジモードの堅牢性を示している。 チャーン数ゼロのトポロジカルエッジ状態とディラック点の出現は、このモデルが弱いトポロジカル超伝導体であることを示唆している。

The topological characteristics of the $p$-wave Kitaev chains on a square lattice with nearest-neighbor and next-nearest-neighbor inter-chains hopping and pairing are investigated. Besides gapless exact zero-energy modes, this model exhibits topological gapless phase hosting edge modes, which do not reside strictly at zero energy. However, these modes can be distinguished from the bulk states. These states are known as pseudo- or quasi-Majorana Modes (qMMs). The exploration of this system's bulk spectrum and Berry curvature reveals singularities and flux-carrying vortices within its Brillouin zone. These vortices indicate the presence of four-fold Dirac points arising from two-fold degenerate bands. Examining the Hamiltonian under a cylindrical geometry uncovers the edge properties, demonstrating the existence of topological edge modes. These modes are a direct topological consequence of the Dirac semimetal characteristics of the system. The system is analyzed under open boundary conditions to distinguish the multiple MZMs and qMMs. This analysis includes a study of the normalized site-dependent local density of states, which pinpoints the presence of localized edge states. Additionally, numerical evidence confirms the robustness of the edge modes against disorder perturbations. The emergence of topological edge states and Dirac points with zero Chern number indicates that this model is a weak topological superconductor.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# 分解型暗号における量子アニール攻撃の実用的達成可能性の最大化

Maximizing the practical achievability of quantum annealing attacks on factorization-based cryptography ( http://arxiv.org/abs/2410.04956v1 )

ライセンス: Link先を確認
Olgierd Żołnierczyk, (参考訳) 本研究は、整数分解問題と離散対数問題に基づくスキームの暗号解析のための量子的手法に焦点を当てる。 我々は、量子計算と古典計算を組み合わせたアプローチを改良し、最も一般に公開されている特殊級量子コンピュータである量子アニールを用いて、分解問題の最大の事例を現実的に解決する方法を実証する。 我々は、29ビットの量子アニールを用いて、これまでに発表された因子化問題の最大の事例を解くことで、新しい計算実験を行った。 改良されたアプローチの中核となる考え方は、既知のサブ指数古典的手法を利用して、問題を多くの小さな計算に分解し、量子コンピュータ上で最も重要な計算を実行することである。 このアプローチは複雑性クラスを減らすのではなく、攻撃者の実用能力を評価する。 これはまた、実際には純粋に量子計算よりも早く効率の点で古典的手法を超越するかもしれないハイブリッド手法の開発における一歩である。

This work focuses on quantum methods for cryptanalysis of schemes based on the integer factorization problem and the discrete logarithm problem. We demonstrate how to practically solve the largest instances of the factorization problem by improving an approach that combines quantum and classical computations, assuming the use of the best publicly available special-class quantum computer: the quantum annealer. We achieve new computational experiment results by solving the largest instance of the factorization problem ever announced as solved using quantum annealing, with a size of 29 bits. The core idea of the improved approach is to leverage known sub-exponential classical method to break the problem down into many smaller computations and perform the most critical ones on a quantum computer. This approach does not reduce the complexity class, but it assesses the pragmatic capabilities of an attacker. It also marks a step forward in the development of hybrid methods, which in practice may surpass classical methods in terms of efficiency sooner than purely quantum computations will.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# 言語モデルのステアリングと解釈のためのアクティベーションスケーリング

Activation Scaling for Steering and Interpreting Language Models ( http://arxiv.org/abs/2410.04962v1 )

ライセンス: Link先を確認
Niklas Stoehr, Kevin Du, Vésteinn Snæbjarnarson, Robert West, Ryan Cotterell, Aaron Schein, (参考訳) Rome is in"というプロンプトがあれば、スカラーでいくつかのアクティベーションベクトルを乗算するだけで、誤ったトークン"France"の予測を正しいトークン"Italy"に戻すことができるでしょうか? モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。 具体的には、成功した介入は、間違ったトークンで正しいことを反転させ、その逆(有効性)を正し、他のトークンは影響を受けていない(偽り)が、すべて軽視されている(最小性)。 アクティベーションスケーリングは、アクティベーションベクトルの符号付き大小を修正するだけで、モデルに符号化された操舵方向を強化、弱め、あるいは反転させる。 合成タスクにおいて、この介入は、有効性と忠実性の観点から、ステアリングベクターと相容れないほどに機能するが、より最小限のモデル成分を特定できる。 我々は、異なる角度からのアクティベーションスケーリングを評価し、異なるデータセットのパフォーマンスを比較し、アクティベーションスカラーをアクティベーションベクトル自体の学習可能な関数とし、様々な長さのプロンプトに一般化する。

Given the prompt "Rome is in", can we steer a language model to flip its prediction of an incorrect token "France" to a correct token "Italy" by only multiplying a few relevant activation vectors with scalars? We argue that successfully intervening on a model is a prerequisite for interpreting its internal workings. Concretely, we establish a three-term objective: a successful intervention should flip the correct with the wrong token and vice versa (effectiveness), and leave other tokens unaffected (faithfulness), all while being sparse (minimality). Using gradient-based optimization, this objective lets us learn (and later evaluate) a specific kind of efficient and interpretable intervention: activation scaling only modifies the signed magnitude of activation vectors to strengthen, weaken, or reverse the steering directions already encoded in the model. On synthetic tasks, this intervention performs comparably with steering vectors in terms of effectiveness and faithfulness, but is much more minimal allowing us to pinpoint interpretable model components. We evaluate activation scaling from different angles, compare performance on different datasets, and make activation scalars a learnable function of the activation vectors themselves to generalize to varying-length prompts.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-07
# テキスト誘導型3次元顔編集における表示方向の検討

Revealing Directions for Text-guided 3D Face Editing ( http://arxiv.org/abs/2410.04965v1 )

ライセンス: Link先を確認
Zhuo Chen, Yichao Yan, Sehngqi Liu, Yuhao Cheng, Weiming Zhao, Lincheng Li, Mengxiao Bi, Xiaokang Yang, (参考訳) 3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。 3D-Aware GANの成功により、2Dシングルビュー画像のみから学習した表現力のある3Dモデルが提供される。 しかし、従来の手法は品質、効率、一般化のバランスをとる上で困難に直面していた。 そこで本研究では,3次元GANに拡散モデルの強度を導入する可能性について検討する。 本稿では,任意の属性記述に基づいて3次元顔を生成し操作するための,高速で汎用的なアプローチであるFace Clanを提案する。 本稿では,2つの逆のプロンプトの下で潜伏空間上で拡散し,潜伏符号に対する関心領域を示すマスクを推定することを提案する。 マスクに基づいて,マスク付き潜伏符号にデノベーションを適用し,編集方向を明らかにする。 本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。 種々の事前学習型GANに対するフェイスクランの有効性と一般化について実験を行った。 テキスト誘導による顔編集のための直感的で幅広いアプリケーションを提供し、マルチメディアコンテンツ作成の展望に寄与する。

3D face editing is a significant task in multimedia, aimed at the manipulation of 3D face models across various control signals. The success of 3D-aware GAN provides expressive 3D models learned from 2D single-view images only, encouraging researchers to discover semantic editing directions in its latent space. However, previous methods face challenges in balancing quality, efficiency, and generalization. To solve the problem, we explore the possibility of introducing the strength of diffusion model into 3D-aware GANs. In this paper, we present Face Clan, a fast and text-general approach for generating and manipulating 3D faces based on arbitrary attribute descriptions. To achieve disentangled editing, we propose to diffuse on the latent space under a pair of opposite prompts to estimate the mask indicating the region of interest on latent codes. Based on the mask, we then apply denoising to the masked latent codes to reveal the editing direction. Our method offers a precisely controllable manipulation method, allowing users to intuitively customize regions of interest with the text description. Experiments demonstrate the effectiveness and generalization of our Face Clan for various pre-trained GANs. It offers an intuitive and wide application for text-guided face editing that contributes to the landscape of multimedia content creation.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 協調! ルーティング問題に対するロバストなニューラル手法に向けて

Collaboration! Towards Robust Neural Methods for Routing Problems ( http://arxiv.org/abs/2410.04968v1 )

ライセンス: Link先を確認
Jianan Zhou, Yaoxin Wu, Zhiguang Cao, Wen Song, Jie Zhang, Zhiqi Shen, (参考訳) 望ましい効率性とドメインの専門知識への依存の低減にもかかわらず、既存の車両ルーティング問題(VRP)のニューラルネットワークは、厳しい堅牢性の問題に悩まされている。 強靭性を高めるために,本論文では重要でない神経VRP法の防衛を目的とした,アンサンブルに基づく協調型ニューラルネットワーク(CNF)を提案する。 ニューラルVRP法により、クリーンなインスタンスの標準的な一般化を向上しつつ、複数のモデルを協調的にトレーニングし、攻撃に対する堅牢性を相乗的に促進する。 ニューラルルータは、モデルのトレーニングインスタンスを十分に分散し、全体的なロードバランシングと協調的有効性を向上させるように設計されている。 広範囲な実験により、CNFが様々な神経性VRPメソッドをまたいで様々な攻撃を防御する効果と汎用性を検証する。 特に,本手法は,ベンチマークインスタンス上での分布外一般化も実現している。

Despite enjoying desirable efficiency and reduced reliance on domain expertise, existing neural methods for vehicle routing problems (VRPs) suffer from severe robustness issues -- their performance significantly deteriorates on clean instances with crafted perturbations. To enhance robustness, we propose an ensemble-based Collaborative Neural Framework (CNF) w.r.t. the defense of neural VRP methods, which is crucial yet underexplored in the literature. Given a neural VRP method, we adversarially train multiple models in a collaborative manner to synergistically promote robustness against attacks, while boosting standard generalization on clean instances. A neural router is designed to adeptly distribute training instances among models, enhancing overall load balancing and collaborative efficacy. Extensive experiments verify the effectiveness and versatility of CNF in defending against various attacks across different neural VRP methods. Notably, our approach also achieves impressive out-of-distribution generalization on benchmark instances.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# L-C4:Creative and Consistent Colorのための言語ベースのビデオカラー化

L-C4: Language-Based Video Colorization for Creative and Consistent Color ( http://arxiv.org/abs/2410.04972v1 )

ライセンス: Link先を確認
Zheng Chang, Shuchen Weng, Huan Ouyang, Yu Li, Si Li, Boxin Shi, (参考訳) 各モノクロフレームには複数のカラー候補が存在するため、ビデオの自動着色は本質的に不適切な問題である。 従来型のビデオカラー化手法では,精巧な検索プロセスによるユーザの想像力を制限していた。 あるいは、条件付き画像のカラー化手法と後処理アルゴリズムを組み合わせることで、時間的一貫性を維持するのに依然として苦労している。 これらの問題に対処するために、ユーザが提供する言語記述を用いて色付けプロセスのガイドを行うために、L-C4(Language-based video Colorization for Creative and Consistent Colors)を提案する。 我々のモデルは、その包括的言語理解とロバストな色表現能力を活用して、事前訓練されたクロスモダリティ生成モデルに基づいて構築されている。 我々は、インスタンス対応のテキスト埋め込みを生成するために、クロスモダリティプリフュージョンモジュールを導入し、クリエイティブカラーの適用を可能にした。 さらに,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期の色の整合性を維持するためにクロスクリップ融合を提案する。 大規模な実験の結果、L-C4は関連する手法より優れており、意味的に正確な色、制約のない創造的対応、時間的に堅牢な一貫性を実現している。

Automatic video colorization is inherently an ill-posed problem because each monochrome frame has multiple optional color candidates. Previous exemplar-based video colorization methods restrict the user's imagination due to the elaborate retrieval process. Alternatively, conditional image colorization methods combined with post-processing algorithms still struggle to maintain temporal consistency. To address these issues, we present Language-based video Colorization for Creative and Consistent Colors (L-C4) to guide the colorization process using user-provided language descriptions. Our model is built upon a pre-trained cross-modality generative model, leveraging its comprehensive language understanding and robust color representation abilities. We introduce the cross-modality pre-fusion module to generate instance-aware text embeddings, enabling the application of creative colors. Additionally, we propose temporally deformable attention to prevent flickering or color shifts, and cross-clip fusion to maintain long-term color consistency. Extensive experimental results demonstrate that L-C4 outperforms relevant methods, achieving semantically accurate colors, unrestricted creative correspondence, and temporally robust consistency.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 乳児ポーズ推定のためのマーカーレス2次元画像ベース手法の比較

Comparison of marker-less 2D image-based methods for infant pose estimation ( http://arxiv.org/abs/2410.04980v1 )

ライセンス: Link先を確認
Lennart Jahn, Sarah Flügge, Dajie Zhang, Luise Poustka, Sven Bölte, Florentin Wörgötter, Peter B Marschik, Tomas Kulvicius, (参考訳) 発達障害の早期診断のための臨床手法の自動化への取り組みが活発化しており、乳幼児運動機能分類のためのビデオベースツールであるGeneral Movement Assessment (GMA) もその1つとなっている。 最適ポーズ推定は、自動化されたGMAの重要な部分である。 本研究は,一般用および幼児用推定器の性能と,GMAとトップダウン・ビューで使用される従来の対角線ビューの最適記録における視角の選択を比較した。 本研究は,乳児の自発運動の75回記録から4500本のビデオフレームを4週間から26週間使用した。 乳幼児のポーズ推定方法とカメラアングルをGMA関連設定で決定するために、人的アノテーションと正しいキーポイント(PCK)の比率を計算して比較した。 以上の結果から,成人のViTPoseを訓練する上で,最も優れた行動モデルが幼児の行動に有効であることが示唆された。 乳児データセット上の一般的なポーズ推定値に対して、乳幼児の目的推定値を使用することによる改善は見つからない。 しかし、データ上でジェネリックモデルを再トレーニングする場合、ポーズ推定精度が大幅に向上する。 トップダウンビューから得られるポーズ推定精度は、特にヒップキーポイントの検出において、対角ビューから得られたポーズ推定精度よりも著しく優れている。 また,乳児のポーズ推定装置を選択して,訓練を受けていない幼児のデータセットに使用する場合には,乳幼児のポーズ推定器を他の幼児のデータセットに限定した一般化能力が示唆される。 標準GMA法は対角ビューを用いて評価を行うが、ポーズ推定精度はトップダウンビューを用いて大幅に向上する。 これは、自動GMA研究のための記録設定にトップダウンビューを含めるべきであることを示唆している。

There are increasing efforts to automate clinical methods for early diagnosis of developmental disorders, among them the General Movement Assessment (GMA), a video-based tool to classify infant motor functioning. Optimal pose estimation is a crucial part of the automated GMA. In this study we compare the performance of available generic- and infant-pose estimators, and the choice of viewing angle for optimal recordings, i.e., conventional diagonal view used in GMA vs. top-down view. For this study, we used 4500 annotated video-frames from 75 recordings of infant spontaneous motor functions from 4 to 26 weeks. To determine which available pose estimation method and camera angle yield the best pose estimation accuracy on infants in a GMA related setting, the distance to human annotations as well as the percentage of correct key-points (PCK) were computed and compared. The results show that the best performing generic model trained on adults, ViTPose, also performs best on infants. We see no improvement from using specialized infant-pose estimators over the generic pose estimators on our own infant dataset. However, when retraining a generic model on our data, there is a significant improvement in pose estimation accuracy. The pose estimation accuracy obtained from the top-down view is significantly better than that obtained from the diagonal view, especially for the detection of the hip key-points. The results also indicate only limited generalization capabilities of infant-pose estimators to other infant datasets, which hints that one should be careful when choosing infant pose estimators and using them on infant datasets which they were not trained on. While the standard GMA method uses a diagonal view for assessment, pose estimation accuracy significantly improves using a top-down view. This suggests that a top-down view should be included in recording setups for automated GMA research.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 科学書記の厳格さについて : 基準・分析・洞察

On the Rigour of Scientific Writing: Criteria, Analysis, and Insights ( http://arxiv.org/abs/2410.04981v1 )

ライセンス: Link先を確認
Joseph James, Chenghao Xiao, Yucheng Li, Chenghua Lin, (参考訳) リグールは、結果と結果の再現性と妥当性を保証するため、科学的研究に不可欠である。 その重要性にもかかわらず、厳密さを計算的にモデル化する研究はほとんどなく、これらの基準が実際行われている科学論文の厳密さを効果的にシグナルや測定できるかどうかについての分析は不十分である。 本稿では,厳密な基準を自動的に識別し,定義し,科学的執筆におけるそれらの妥当性を評価するボトムアップ型データ駆動型フレームワークを提案する。 フレームワークには、厳密なキーワード抽出、詳細な厳密な定義生成、健全な基準識別が含まれる。 さらに,本フレームワークはドメインに依存しないため,異なる分野の科学的厳密さの評価に適合し,各分野の異なる塩分濃度を調節することができる。 我々は、機械学習とNLP(ICLRとACL)の2つのハイインパクトな会場から収集したデータセットに基づいて包括的な実験を行い、厳密なモデリングにおける我々のフレームワークの有効性を実証した。 さらに,厳密さの言語的パターンを分析し,フレーミング確実性は科学的厳密さの知覚を高める上で不可欠であり,確実性や確率不確実性は低下することを示した。

Rigour is crucial for scientific research as it ensures the reproducibility and validity of results and findings. Despite its importance, little work exists on modelling rigour computationally, and there is a lack of analysis on whether these criteria can effectively signal or measure the rigour of scientific papers in practice. In this paper, we introduce a bottom-up, data-driven framework to automatically identify and define rigour criteria and assess their relevance in scientific writing. Our framework includes rigour keyword extraction, detailed rigour definition generation, and salient criteria identification. Furthermore, our framework is domain-agnostic and can be tailored to the evaluation of scientific rigour for different areas, accommodating the distinct salient criteria across fields. We conducted comprehensive experiments based on datasets collected from two high impact venues for Machine Learning and NLP (i.e., ICLR and ACL) to demonstrate the effectiveness of our framework in modelling rigour. In addition, we analyse linguistic patterns of rigour, revealing that framing certainty is crucial for enhancing the perception of scientific rigour, while suggestion certainty and probability uncertainty diminish it.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# モデル予測制御の安全な学習に基づく最適化:電池の高速充電への応用

Safe Learning-Based Optimization of Model Predictive Control: Application to Battery Fast-Charging ( http://arxiv.org/abs/2410.04982v1 )

ライセンス: Link先を確認
Sebastian Hirt, Andreas Höhl, Johannes Pohlodek, Joachim Schaeffer, Maik Pfefferkorn, Richard D. Braatz, Rolf Findeisen, (参考訳) モデル予測制御(MPC)は制約の下で複雑な非線形システムを制御するための強力なツールであるが、しばしばモデルの不確実性や適切なコスト関数の設計に悩まされる。 これらの課題に対処するために,モデル-プラントミスマッチに拘わらず,MPCを安全なベイズ最適化と統合して長期閉ループ性能を最適化する手法について議論する。 放射状基底関数ネットワークを用いてMPCステージコスト関数をパラメータ化することにより、ベイズ最適化を多相学習戦略として利用し、正確なシステムモデルに頼ることなくコントローラをチューニングする。 本手法は, MPCコスト関数における過度に慎重なソフト制約による保守性を緩和し, 学習中の確率論的安全性を確保し, 安全クリティカルな制約が高い確率で満たされることを保証する。 本手法をリチウムイオン電池の高速充電に応用し, 複雑な電池力学と厳密な安全性要件により, リアルタイムに実装可能であることを前提とした課題である。 シミュレーションの結果, モデルプラントミスマッチの文脈では, 安全性を維持しつつ, 従来のMPC法に比べて充電時間を短縮できることがわかった。 本研究は, 閉ループ制約満足度を強調し, モデル不確実性と安全性が重要な問題となるシステムの性能向上に期待できるソリューションを提供する。

Model predictive control (MPC) is a powerful tool for controlling complex nonlinear systems under constraints, but often struggles with model uncertainties and the design of suitable cost functions. To address these challenges, we discuss an approach that integrates MPC with safe Bayesian optimization to optimize long-term closed-loop performance despite significant model-plant mismatches. By parameterizing the MPC stage cost function using a radial basis function network, we employ Bayesian optimization as a multi-episode learning strategy to tune the controller without relying on precise system models. This method mitigates conservativeness introduced by overly cautious soft constraints in the MPC cost function and provides probabilistic safety guarantees during learning, ensuring that safety-critical constraints are met with high probability. As a practical application, we apply our approach to fast charging of lithium-ion batteries, a challenging task due to the complicated battery dynamics and strict safety requirements, subject to the requirement to be implementable in real time. Simulation results demonstrate that, in the context of model-plant mismatch, our method reduces charging times compared to traditional MPC methods while maintaining safety. This work extends previous research by emphasizing closed-loop constraint satisfaction and offers a promising solution for enhancing performance in systems where model uncertainties and safety are critical concerns.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 量子暗号のメタ複雑性評価

A Meta-Complexity Characterization of Quantum Cryptography ( http://arxiv.org/abs/2410.04984v1 )

ライセンス: Link先を確認
Bruno P. Cavalar, Eli Goldin, Matthew Gray, Peter Hall, (参考訳) 量子暗号プリミティブの最初のメタ複雑性のキャラクタリゼーションを証明した。 片方向パズルが存在することは、カルモゴロフ複雑性を近似することが困難であるような二進弦の量子サンプリング可能な分布が存在する場合に限る。 そこで,計算不能な問題の平均ケース硬さによって一方向パズルを特徴づける。 これは、LiuとPassによって始められたメタ複雑問題の平均ケース硬さで古典暗号を特徴づける最近の研究の行に量子設定をもたらす。 さらに、古典的に多項式時間サンプリング可能な分布上のコルモゴロフ複雑性の平均ケース硬さは片道関数を特徴づけるので、この結果は片道関数を量子設定に自然に一般化するものとして片道パズルを表わす。 さらに、我々の同値性は確率推定を通し、確率推定が難しい量子サンプリング可能な分布が存在する場合に限り、一方のパズルが存在するという追加の同値性を与える。 また、Kretschmerらによって定義されたオラクルの世界は、NPやQMAの問題の硬さによる片道パズルの相対的特徴付けを除外しているため、現在の手法では別のメタ複雑性問題で片道パズルを特徴づけることができない可能性がある。

We prove the first meta-complexity characterization of a quantum cryptographic primitive. We show that one-way puzzles exist if and only if there is some quantum samplable distribution of binary strings over which it is hard to approximate Kolmogorov complexity. Therefore, we characterize one-way puzzles by the average-case hardness of a uncomputable problem. This brings to the quantum setting a recent line of work that characterizes classical cryptography with the average-case hardness of a meta-complexity problem, initiated by Liu and Pass. Moreover, since the average-case hardness of Kolmogorov complexity over classically polynomial-time samplable distributions characterizes one-way functions, this result poses one-way puzzles as a natural generalization of one-way functions to the quantum setting. Furthermore, our equivalence goes through probability estimation, giving us the additional equivalence that one-way puzzles exist if and only if there is a quantum samplable distribution over which probability estimation is hard. We also observe that the oracle worlds of defined by Kretschmer et. al. rule out any relativizing characterization of one-way puzzles by the hardness of a problem in NP or QMA, which means that it may not be possible with current techniques to characterize one-way puzzles with another meta-complexity problem.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 合成プロキシプログラムのレンズによるAI対応制御システムの安全性違反の発見

Finding Safety Violations of AI-Enabled Control Systems through the Lens of Synthesized Proxy Programs ( http://arxiv.org/abs/2410.04986v1 )

ライセンス: Link先を確認
Jieke Shi, Zhou Yang, Junda He, Bowen Xu, Dongsun Kim, DongGyun Han, David Lo, (参考訳) 現代のAI対応制御システムの採用が増加する中、その安全性と信頼性がソフトウェアテストにおいて重要な課題となっている。 これは、最適化アルゴリズムを用いて制御システムが正式な安全仕様に違反する原因となる入力信号を見つけることを目的としている。 しかし、AI対応制御システムにファルシフィケーションを適用することには、2つの重要な課題がある:(1) - 多くのパラメータを持つAIモデルを持つシステムにおいて、多くの候補テストインプットを実行するためにシステムが必要であり、(2) - 複数の安全性要件は典型的には共役仕様として定義され、既存のファルシフィケーションアプローチが包括的にカバーすることが困難である。 本稿では,AI対応制御システムに適したファルシフィケーションフレームワークであるSynthifyを紹介する。 我々の手法は2相プロセスでファルシフィケーションを行う。 Synthifyは最初、AIコントローラのプロキシとして機能する1つまたは数つのリニアコントローラを実装するプログラムを合成する。 このプロキシプログラムはAIコントローラの機能を模倣するが、計算効率は向上する。 次に、Synthifyは$\epsilon$-greedy戦略を使用して、接続安全仕様から有望なサブ仕様をサンプリングする。 次に、シミュレートされたアニーリングベースのファルシフィケーションアルゴリズムを使用して、制御システムのサンプル化されたサブ仕様の違反を検出する。 Synthifyを評価するために,PSY-TaLiRoと比較した。 Synthifyは、falsificationの予算と同じPSY-TaLiRoと比較して、平均83.5%の成功率を達成した。 Synthifyが発見した安全違反もPSY-TaLiRoのものよりも多様であり、サブタイプが137.7%多い。

Given the increasing adoption of modern AI-enabled control systems, ensuring their safety and reliability has become a critical task in software testing. One prevalent approach to testing control systems is falsification, which aims to find an input signal that causes the control system to violate a formal safety specification using optimization algorithms. However, applying falsification to AI-enabled control systems poses two significant challenges: (1)~it requires the system to execute numerous candidate test inputs, which can be time-consuming, particularly for systems with AI models that have many parameters, and (2)~multiple safety requirements are typically defined as a conjunctive specification, which is difficult for existing falsification approaches to comprehensively cover. This paper introduces Synthify, a falsification framework tailored for AI-enabled control systems. Our approach performs falsification in a two-phase process. At the start, Synthify synthesizes a program that implements one or a few linear controllers to serve as a proxy for the AI controller. This proxy program mimics the AI controller's functionality but is computationally more efficient. Then, Synthify employs the $\epsilon$-greedy strategy to sample a promising sub-specification from the conjunctive safety specification. It then uses a Simulated Annealing-based falsification algorithm to find violations of the sampled sub-specification for the control system. To evaluate Synthify, we compare it to PSY-TaLiRo, a state-of-the-art and industrial-strength falsification tool, on 8 publicly available control systems. On average, Synthify achieves a 83.5% higher success rate in falsification compared to PSY-TaLiRo with the same budget of falsification trials. The safety violations found by Synthify are also more diverse than those found by PSY-TaLiRo, covering 137.7% more sub-specifications.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 最適トンプソンサンプリングによる効率的なモデルベース強化学習

Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling ( http://arxiv.org/abs/2410.04988v1 )

ライセンス: Link先を確認
Jasmine Bayrooti, Carl Henrik Ek, Amanda Prorok, (参考訳) 環境との相互作用を通じて複雑なロボットの振る舞いを学ぶには、原則的な探索が必要である。 効果的な戦略は、報酬を最大化する国家行動空間の探索を優先すべきであり、楽観的な探索は、この考えに沿う有望な方向として現れ、サンプル効率の強化学習を可能にする。 しかし、既存の手法は、報酬と国家を結び付ける信念によって、楽観主義が知らされる必要性という重要な側面を見落としている。 そこで本研究では,トンプソンサンプリングに基づく楽観的な探索手法を提案する。 我々のモデル構造は、遷移や報酬に対する共同不確実性について推論できる最初のものである。 提案手法を, MuJoCo と VMAS の連続制御タスクのセットに適用する。 実験の結果、楽観的な探索は、少ない報奨、行動罰、発見困難な地域を含む環境における学習を著しく加速することが示された。 さらに、最適化がいつ有用かについての洞察を提供し、探索を導く上でのモデル不確実性の重要性を強調します。

Learning complex robot behavior through interactions with the environment necessitates principled exploration. Effective strategies should prioritize exploring regions of the state-action space that maximize rewards, with optimistic exploration emerging as a promising direction aligned with this idea and enabling sample-efficient reinforcement learning. However, existing methods overlook a crucial aspect: the need for optimism to be informed by a belief connecting the reward and state. To address this, we propose a practical, theoretically grounded approach to optimistic exploration based on Thompson sampling. Our model structure is the first that allows for reasoning about joint uncertainty over transitions and rewards. We apply our method on a set of MuJoCo and VMAS continuous control tasks. Our experiments demonstrate that optimistic exploration significantly accelerates learning in environments with sparse rewards, action penalties, and difficult-to-explore regions. Furthermore, we provide insights into when optimism is beneficial and emphasize the critical role of model uncertainty in guiding exploration.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 確率的姿勢回帰のための条件変分オートエンコーダ

Conditional Variational Autoencoders for Probabilistic Pose Regression ( http://arxiv.org/abs/2410.04989v1 )

ライセンス: Link先を確認
Fereidoon Zangeneh, Leonard Bruns, Amit Dekel, Alessandro Pieropan, Patric Jensfelt, (参考訳) ロボットは、トラックを失ったときにカメラ画像からポーズを推定するために、視覚的再ローカライズに依存する。 視覚的再局在化の課題の1つは、ロボットの動作環境における繰り返し構造である。 これは、ロボットのポーズのための複数の仮説をサポートする確率的手法を要求する。 本研究では,観測画像からカメラポーズの後方分布を予測するための確率的手法を提案する。 提案したトレーニング戦略は,画像が与えられたカメラポーズの生成モデルとなり,ポーズ後部分布からサンプルを抽出することができる。 提案手法は理論上は合理化され, あいまいさの存在下での局所化において, 従来の手法よりも優れていた。

Robots rely on visual relocalization to estimate their pose from camera images when they lose track. One of the challenges in visual relocalization is repetitive structures in the operation environment of the robot. This calls for probabilistic methods that support multiple hypotheses for robot's pose. We propose such a probabilistic method to predict the posterior distribution of camera poses given an observed image. Our proposed training strategy results in a generative model of camera poses given an image, which can be used to draw samples from the pose posterior distribution. Our method is streamlined and well-founded in theory and outperforms existing methods on localization in presence of ambiguities.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# ステージワイズと事前認識型ニューラル音声位相予測

Stage-Wise and Prior-Aware Neural Speech Phase Prediction ( http://arxiv.org/abs/2410.04990v1 )

ライセンス: Link先を確認
Fei Liu, Yang Ai, Hui-Peng Du, Ye-Xin Lu, Rui-Chen Zheng, Zhen-Hua Ling, (参考訳) 本稿では,入力振幅スペクトルからの位相スペクトルを2段階ニューラルネットワークで予測するSP-NSPP(Stage-wise and Prior-Aware Neural Speech Phase Prediction)モデルを提案する。 初期事前構成段階では、振幅スペクトルから粗い前相スペクトルを予め予測する。 その後の精細化段階は、振幅スペクトルを前相に条件付き精製された高品質の位相スペクトルに変換する。 両段階のネットワークは、ConvNeXt v2ブロックをバックボーンとして使用し、位相スペクトル判別器(PSD)を革新的に導入して敵の訓練を採用する。 改良相の連続性をさらに向上するため, 改良段階において時間周波数積分差(TFID)損失を取り入れた。 実験結果から, ニューラルネットワークを用いた非優先位相予測法と比較して, 粗い位相先行と多様なトレーニング基準を導入することにより, 提案したSP-NSPPの位相予測精度が向上することが確認された。 繰り返し位相推定アルゴリズムと比較して,提案するSP-NSPPは複数ラウンドの繰り返しを必要とせず,生成効率が向上する。

This paper proposes a novel Stage-wise and Prior-aware Neural Speech Phase Prediction (SP-NSPP) model, which predicts the phase spectrum from input amplitude spectrum by two-stage neural networks. In the initial prior-construction stage, we preliminarily predict a rough prior phase spectrum from the amplitude spectrum. The subsequent refinement stage transforms the amplitude spectrum into a refined high-quality phase spectrum conditioned on the prior phase. Networks in both stages use ConvNeXt v2 blocks as the backbone and adopt adversarial training by innovatively introducing a phase spectrum discriminator (PSD). To further improve the continuity of the refined phase, we also incorporate a time-frequency integrated difference (TFID) loss in the refinement stage. Experimental results confirm that, compared to neural network-based no-prior phase prediction methods, the proposed SP-NSPP achieves higher phase prediction accuracy, thanks to introducing the coarse phase priors and diverse training criteria. Compared to iterative phase estimation algorithms, our proposed SP-NSPP does not require multiple rounds of staged iterations, resulting in higher generation efficiency.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-07
# 負の制御結果を持つ推定-負の独立後推論

Assumption-Lean Post-Integrated Inference with Negative Control Outcomes ( http://arxiv.org/abs/2410.04996v1 )

ライセンス: Link先を確認
Jin-Hong Du, Kathryn Roeder, Larry Wasserman, (参考訳) データ統合は、複数の異種データセットの整列において、ますます一般的になっている。 高次元結果により、データ統合法は、異なるソースから収集されたデータに固有のバッチ効果や測定されていない共変量などの不要な変動を取り除くために、観測の低次元埋め込みを抽出することを目的としている。 しかし、データ統合後の複数の仮説テストは、データ依存の統合プロセスのためにかなり偏りがある。 この課題に対処するために、負の制御結果を用いて潜時不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。 因果解釈を利用することで、我々のPIIアプローチの基礎となる非パラメトリック識別条件を導出する。 我々の仮定リーン半パラメトリック推論手法は、仲介者、共同設立者、モデレーターを考慮に入れた予測された直接効果推定に頑健さと一般性を広げる。 これらの推定値は、モデルミススペクテーションやエラーを起こしやすい埋め込みの下で統計的に有意なままである。 推定埋め込みにより誘導される対象推定値のバイアスと,すべての結果に対する残差に一様濃度境界を持つ推定値の有限サンプル線形展開を決定論的に定量化する。 提案した二重頑健な推定器は最小限の仮定の下で一貫性があり、機械学習アルゴリズムによるデータ適応推定を容易にする。 ランダムな森林を用いて,シミュレーションにおける経験的統計的誤差を評価し,未測定の共同設立者による単一セルCRISPR摂動データセットの解析を行った。

Data integration has become increasingly common in aligning multiple heterogeneous datasets. With high-dimensional outcomes, data integration methods aim to extract low-dimensional embeddings of observations to remove unwanted variations, such as batch effects and unmeasured covariates, inherent in data collected from different sources. However, multiple hypothesis testing after data integration can be substantially biased due to the data-dependent integration processes. To address this challenge, we introduce a robust post-integrated inference (PII) method that adjusts for latent heterogeneity using negative control outcomes. By leveraging causal interpretations, we derive nonparametric identification conditions that form the basis of our PII approach. Our assumption-lean semiparametric inference method extends robustness and generality to projected direct effect estimands that account for mediators, confounders, and moderators. These estimands remain statistically meaningful under model misspecifications and with error-prone embeddings. We provide deterministic quantifications of the bias of target estimands induced by estimated embeddings and finite-sample linear expansions of the estimators with uniform concentration bounds on the residuals for all outcomes. The proposed doubly robust estimators are consistent and efficient under minimal assumptions, facilitating data-adaptive estimation with machine learning algorithms. Using random forests, we evaluate empirical statistical errors in simulations and analyze single-cell CRISPR perturbed datasets with potential unmeasured confounders.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# スパース指向グラフにおける量子特性試験

Quantum property testing in sparse directed graphs ( http://arxiv.org/abs/2410.05001v1 )

ライセンス: Link先を確認
Simon Apers, Frédéric Magniez, Sayantan Sen, Dániel Szabó, (参考訳) 我々は、スパース指向グラフにおける量子特性試験の研究を始め、特に一方向モデルにおいて、アルゴリズムは頂点の外縁のみを問うことができる。 古典的な一方向モデルでは、$k$-star-freeness、より一般に$k$-source-subgraph-freenessをテストするという問題は、大きめの$k$にとってほとんど極端に難しい。 我々は、この問題が量子環境においてほぼ2次的な優位性を持っていることを証明した。 さらに、この利点は、以前に研究されなかった$k$-collision問題の新しい特性試験バージョンに対して、中間問題に対する双対多項式法を用いて量子下界を示すことにより、ほぼ緊密であることを示す。 グラフ特性検定におけるすべての問題がそのような量子スピードアップを許容するわけではないことを示すために、グラフが現在無向化されているとき、関連する無向有界次数モデルにおける3$-colorabilityの問題を考察する。 この問題は古典的なテストが極端に困難であり、量子的にも線形なクエリ数を必要とすることを示す。

We initiate the study of quantum property testing in sparse directed graphs, and more particularly in the unidirectional model, where the algorithm is allowed to query only the outgoing edges of a vertex. In the classical unidirectional model the problem of testing $k$-star-freeness, and more generally $k$-source-subgraph-freeness, is almost maximally hard for large $k$. We prove that this problem has almost quadratic advantage in the quantum setting. Moreover, we prove that this advantage is nearly tight, by showing a quantum lower bound using the method of dual polynomials on an intermediate problem for a new, property testing version of the $k$-collision problem that was not studied before. To illustrate that not all problems in graph property testing admit such a quantum speedup, we consider the problem of $3$-colorability in the related undirected bounded-degree model, when graphs are now undirected. This problem is maximally hard to test classically, and we show that also quantumly it requires a linear number of queries.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# パラヤコビ多項式に基づく三角Darboux-Pöschl-Tellerポテンシャルの$m$-step有理拡大

$m$-step rational extensions of the trigonometric Darboux-Pöschl-Teller potential based on para-Jacobi polynomials ( http://arxiv.org/abs/2410.05003v1 )

ライセンス: Link先を確認
Yves Grandati, Christiane Quesne, (参考訳) カロジェロとYiのパラヤコビ多項式に付随するシード関数を用いて1ステップのダルブックス変換によって得られる三角度ダルブックス-P\"oschl-Tellerポテンシャルの正則な有理拡大を、m$ステップダルブックス変換を考えることによって一般化する。 その結果、$m$離散パラメータと$m$連続実数 $\lambda_1$, $\lambda_2$, \ldots, $\lambda_m$ に依存する例外直交多項式の族が得られた。 有理拡張正則性条件によるこれらのパラメータに課される制限を詳細に研究する。

A previous construction of regular rational extensions of the trigonometric Darboux-P\"oschl-Teller potential, obtained by one-step Darboux transformations using seed functions associated with the para-Jacobi polynomials of Calogero and Yi, is generalized by considering $m$-step Darboux transformations. As a result, some novel families of exceptional orthogonal polynomials depending on $m$ discrete parameters, as well as $m$ continuous real ones $\lambda_1$, $\lambda_2$, \ldots, $\lambda_m$, are obtained. The restrictions imposed on these parameters by the rational extensions regularity conditions are studied in detail.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# SkillMatch: スキル関連性の自己教師型学習の評価

SkillMatch: Evaluating Self-supervised Learning of Skill Relatedness ( http://arxiv.org/abs/2410.05006v1 )

ライセンス: Link先を確認
Jens-Joris Decorte, Jeroen Van Hautte, Thomas Demeester, Chris Develder, (参考訳) スキル間の関係を正確にモデル化することは、採用や従業員育成といった人的資源プロセスの重要な部分である。 しかし、そのような手法を直接評価するベンチマークは存在しない。 我々は、数百万の求人広告から専門知識のマイニングに基づいて、スキル関連性タスクのベンチマークであるSkillMatchを構築し、リリースする。 また,求人広告におけるスキル共起に基づくSentence-BERTモデルを適応するための,スケーラブルな自己教師型学習手法を提案する。 この新しい手法は、SkillMatchで測定された従来のスキル関連モデルを大幅に上回る。 SkillMatchを一般公開することで,スキルベースレコメンデーションシステムの精度向上と透明性向上に向けた研究の基盤となることを目指しています。

Accurately modeling the relationships between skills is a crucial part of human resources processes such as recruitment and employee development. Yet, no benchmarks exist to evaluate such methods directly. We construct and release SkillMatch, a benchmark for the task of skill relatedness, based on expert knowledge mining from millions of job ads. Additionally, we propose a scalable self-supervised learning technique to adapt a Sentence-BERT model based on skill co-occurrence in job ads. This new method greatly surpasses traditional models for skill relatedness as measured on SkillMatch. By releasing SkillMatch publicly, we aim to contribute a foundation for research towards increased accuracy and transparency of skill-based recommendation systems.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# T-JEPA: タブラルデータのための拡張不要な自己教師付き学習

T-JEPA: Augmentation-Free Self-Supervised Learning for Tabular Data ( http://arxiv.org/abs/2410.05016v1 )

ライセンス: Link先を確認
Hugo Thimonier, José Lucas De Melo Costa, Fabrice Popineau, Arpad Rimmel, Bich-Liên Doan, (参考訳) セルフスーパービジョンは、しばしば、サンプルの有意義な表現を構築することによって、下流タスクのパフォーマンスを高めるための事前トレーニングに使用される。 自己教師付き学習(SSL)は一般的に同じサンプルの異なるビューを生成するため、表データの構築が困難なデータ拡張が必要である。 これは構造化データに対する自己監督の主要な課題の1つである。 本研究では,表データに対する拡張不要なSSL方式を提案する。 我々のアプローチであるT-JEPAは、JEPA(Joint Embedding Predictive Architecture)に依存しており、潜伏した空間における再構築のマスクに似ている。 これは、同じサンプル内の異なるサブセットの潜在表現から、ある機能の潜在表現を予測することを含み、拡張なしでリッチな表現を学ぶ。 提案手法を事前学習手法として使用し,得られた表現に基づいて深層分類器を訓練する。 実験の結果,分類タスクと回帰タスクの両方において,元のデータ空間のサンプルで直接訓練されたモデルよりも大幅に向上した。 さらに、T-JEPAは、いくつかのメソッドがGradient Boosted Decision Treesのような従来のメソッドのパフォーマンスを一貫して上回る、あるいは一致させることができる。 そこで我々は,得られた表現を広範囲に特徴付け,T-JEPAがラベルにアクセスすることなく,下流タスクに関連する特徴を効果的に識別することを示す。 さらに、構造化データ上でJEPAベースのモデルのトレーニングに不可欠な新しい正規化手法である正規化トークンを導入する。

Self-supervision is often used for pre-training to foster performance on a downstream task by constructing meaningful representations of samples. Self-supervised learning (SSL) generally involves generating different views of the same sample and thus requires data augmentations that are challenging to construct for tabular data. This constitutes one of the main challenges of self-supervision for structured data. In the present work, we propose a novel augmentation-free SSL method for tabular data. Our approach, T-JEPA, relies on a Joint Embedding Predictive Architecture (JEPA) and is akin to mask reconstruction in the latent space. It involves predicting the latent representation of one subset of features from the latent representation of a different subset within the same sample, thereby learning rich representations without augmentations. We use our method as a pre-training technique and train several deep classifiers on the obtained representation. Our experimental results demonstrate a substantial improvement in both classification and regression tasks, outperforming models trained directly on samples in their original data space. Moreover, T-JEPA enables some methods to consistently outperform or match the performance of traditional methods likes Gradient Boosted Decision Trees. To understand why, we extensively characterize the obtained representations and show that T-JEPA effectively identifies relevant features for downstream tasks without access to the labels. Additionally, we introduce regularization tokens, a novel regularization method critical for training of JEPA-based models on structured data.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# エキスパート発見システムのバイアス評価について

On the Biased Assessment of Expert Finding Systems ( http://arxiv.org/abs/2410.05018v1 )

ライセンス: Link先を確認
Jens-Joris Decorte, Jeroen Van Hautte, Chris Develder, Thomas Demeester, (参考訳) 大きな組織では、特定のトピックについて専門家を特定することが、チームや部門にまたがる内部知識を活用する上で非常に重要です。 いわゆる企業専門家検索システムは、従業員とその作業に関する大量の異種データに基づいて、従業員の専門知識を自動的に発見し、構成する。 これらのシステムを評価するには、総合的な真理の専門家アノテーションが必要であるが、入手は困難である。 したがって、アノテーションのプロセスは一般的に、検証するために知識領域の自動化レコメンデーションに依存します。 このケーススタディでは、これらのレコメンデーションが専門家発見システムの評価に与える影響について分析する。 我々は、システム検証アノテーションが従来の用語ベースの検索モデルの性能過大評価につながり、より最近のニューラルメソッドとの比較を無効にする、という一般的なベンチマークを実証する。 また,同義語を用いた知識領域を拡大し,その構成語に対するリテラル言及に対する強い偏見を明らかにする。 最後に、これらのバイアス評価を防止するためにアノテーションプロセスに対する制約を提案し、高ユーティリティのアノテーション提案がまだ可能であることを示す。 これらの知見は,有意義な手法比較を保証するために,専門家発見のためのベンチマーク作成や選択を行う必要がある。

In large organisations, identifying experts on a given topic is crucial in leveraging the internal knowledge spread across teams and departments. So-called enterprise expert retrieval systems automatically discover and structure employees' expertise based on the vast amount of heterogeneous data available about them and the work they perform. Evaluating these systems requires comprehensive ground truth expert annotations, which are hard to obtain. Therefore, the annotation process typically relies on automated recommendations of knowledge areas to validate. This case study provides an analysis of how these recommendations can impact the evaluation of expert finding systems. We demonstrate on a popular benchmark that system-validated annotations lead to overestimated performance of traditional term-based retrieval models and even invalidate comparisons with more recent neural methods. We also augment knowledge areas with synonyms to uncover a strong bias towards literal mentions of their constituent words. Finally, we propose constraints to the annotation process to prevent these biased evaluations, and show that this still allows annotation suggestions of high utility. These findings should inform benchmark creation or selection for expert finding, to guarantee meaningful comparison of methods.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# RelUNet:マルチチャネル音声強調のための相対チャネル融合U-Net

RelUNet: Relative Channel Fusion U-Net for Multichannel Speech Enhancement ( http://arxiv.org/abs/2410.05019v1 )

ライセンス: Link先を確認
Ibrahim Aldarmaki, Thamar Solorio, Bhiksha Raj, Hanan Aldarmaki, (参考訳) ニューラルマルチチャネル音声強調モデル、特にU-Netアーキテクチャに基づくモデルは、有望な性能と一般化の可能性を示す。 これらのモデルは通常、入力チャネルを独立にエンコードし、ネットワークの後半段階でチャネルを統合する。 本稿では,各チャネルが参照チャネルと連動してスタック化処理される,アウトセットからの相対情報を組み込むことにより,これらのモデルに新たな変更を加えることを提案する。 この入力戦略は、比較差を利用してチャネル間の情報を適応的に融合し、重要な空間情報を捕捉し、全体的な性能を向上させる。 CHiME-3データセットで行った実験は、様々なアーキテクチャにおける音声強調指標の改善を実証している。

Neural multi-channel speech enhancement models, in particular those based on the U-Net architecture, demonstrate promising performance and generalization potential. These models typically encode input channels independently, and integrate the channels during later stages of the network. In this paper, we propose a novel modification of these models by incorporating relative information from the outset, where each channel is processed in conjunction with a reference channel through stacking. This input strategy exploits comparative differences to adaptively fuse information between channels, thereby capturing crucial spatial information and enhancing the overall performance. The experiments conducted on the CHiME-3 dataset demonstrate improvements in speech enhancement metrics across various architectures.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# FRIDA:プライバシ攻撃を用いたフリーライダー検出

FRIDA: Free-Rider Detection using Privacy Attacks ( http://arxiv.org/abs/2410.05020v1 )

ライセンス: Link先を確認
Pol G. Recasens, Ádám Horváth, Alberto Gutierrez-Torre, Jordi Torres, Josep Ll. Berral, Balázs Pejó, (参考訳) フェデレーション学習は、限られたデータセットとリソースを持つ複数のパーティが、高性能な機械学習モデルを協調的にトレーニングできるようにすることで、ますます人気が高まっている。 しかし、他のコラボレーティブシステムと同様に、フェデレートされた学習はフリーライダーに対して脆弱である。 フリーライダーは学習プロセスの完全性を損なうだけでなく、グローバルモデルの収束を遅くする。 この課題に対処するために、プライバシ攻撃を用いたフリーライダー検出(FRIDA:free-rider detection)を提案する。 フリーライディングの暗黙的な効果のみをキャプチャする従来の方法とは異なり、FRIDAは基礎となるトレーニングデータセットの詳細を直接推論し、フリーライダの振る舞いを示す特徴を明らかにする。 広範な実験を通じて,この目的のために,メンバシップとプロパティ推論攻撃が有効であることを示す。 評価の結果,FRIDAは最先端の手法,特に非IID環境では優れていた。

Federated learning is increasingly popular as it enables multiple parties with limited datasets and resources to train a high-performing machine learning model collaboratively. However, similarly to other collaborative systems, federated learning is vulnerable to free-riders -- participants who do not contribute to the training but still benefit from the shared model. Free-riders not only compromise the integrity of the learning process but also slow down the convergence of the global model, resulting in increased costs for the honest participants. To address this challenge, we propose FRIDA: free-rider detection using privacy attacks, a framework that leverages inference attacks to detect free-riders. Unlike traditional methods that only capture the implicit effects of free-riding, FRIDA directly infers details of the underlying training datasets, revealing characteristics that indicate free-rider behaviour. Through extensive experiments, we demonstrate that membership and property inference attacks are effective for this purpose. Our evaluation shows that FRIDA outperforms state-of-the-art methods, especially in non-IID settings.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# 行列分解とそれ以外における部分微分鎖則について

On subdifferential chain rule of matrix factorization and beyond ( http://arxiv.org/abs/2410.05022v1 )

ライセンス: Link先を確認
Jiewen Guan, Anthony Man-Cho So, (参考訳) 本稿では,行列分解および分解機械の等式型クラーク偏差鎖則について検討する。 具体的には、潜在次元が問題サイズ(すなわち、わずかに過度なパラメータ化)の複数よりも大きいことを仮定したこれらの問題に対して、損失関数は局所リプシッツであり、その部分微分連鎖規則は至る所で成り立つ。 さらに、いくつかの興味深い構成を通して解析の厳密さを検証し、最適化の観点から重要な観察を行い、例えば、このような全ての問題に対して、定常点の計算は自明であることを示す。 テンソル一般化や神経拡張も議論されているが、それらはほとんど開である。

In this paper, we study equality-type Clarke subdifferential chain rules of matrix factorization and factorization machine. Specifically, we show for these problems that provided the latent dimension is larger than some multiple of the problem size (i.e., slightly overparameterized) and the loss function is locally Lipschitz, the subdifferential chain rules hold everywhere. In addition, we examine the tightness of the analysis through some interesting constructions and make some important observations from the perspective of optimization; e.g., we show that for all this type of problems, computing a stationary point is trivial. Some tensor generalizations and neural extensions are also discussed, albeit they remain mostly open.
翻訳日:2024-11-02 00:48:04 公開日:2024-10-07
# $\ell_1$-norm rank-one symmetric matrix factorization は突発的な二階定常点を持たない

$\ell_1$-norm rank-one symmetric matrix factorization has no spurious second-order stationary points ( http://arxiv.org/abs/2410.05025v1 )

ライセンス: Link先を確認
Jiewen Guan, Anthony Man-Cho So, (参考訳) 本稿では,2次変分解析のツールを用いた$\ell_1$-normランク1対称行列分解問題の非滑らかな最適化状況について検討する。 具体的には、本論文の主な発見として、問題の2階定常点(および、したがって局所最小化器)は、実際には地球規模で最適であることを示す。 さらに、固定点の集合の完全な特徴づけなど、問題の風景に関する他の結果も開発され、これは彼ら自身の権利において興味深いものとなる。 さらに, 上記の理論により, 非滑らかな最適化のための単純なアルゴリズムの汎用的最小化動作について, 既存の結果を再検討し, 問題への応用の可能性を示す。 我々の手法は、ロバストな低ランク行列回復など、より洗練された非滑らかな学習問題の最適化状況の分析に応用できる可能性がある。

This paper studies the nonsmooth optimization landscape of the $\ell_1$-norm rank-one symmetric matrix factorization problem using tools from second-order variational analysis. Specifically, as the main finding of this paper, we show that any second-order stationary point (and thus local minimizer) of the problem is actually globally optimal. Besides, some other results concerning the landscape of the problem, such as a complete characterization of the set of stationary points, are also developed, which should be interesting in their own rights. Furthermore, with the above theories, we revisit existing results on the generic minimizing behavior of simple algorithms for nonsmooth optimization and showcase the potential risk of their applications to our problem through several examples. Our techniques can potentially be applied to analyze the optimization landscapes of a variety of other more sophisticated nonsmooth learning problems, such as robust low-rank matrix recovery.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# 一般政策のアクティブ微調整

Active Fine-Tuning of Generalist Policies ( http://arxiv.org/abs/2410.05026v1 )

ライセンス: Link先を確認
Marco Bagatella, Jonas Hübotter, Georg Martius, Andreas Krause, (参考訳) 事前訓練されたジェネラリスト政策は、新しいドメイン内タスクへの迅速な適応を約束するロボット学習において、急速に関連性を高めている。 この適応はしばしば、特定の興味のあるタスクに対する新しいデモンストレーションの収集と、行動クローニングのような模倣学習アルゴリズムの適用に依存している。 しかしながら、いくつかのタスクを学習する必要があるとすぐに、どのタスクを実演するか、どれくらいの頻度で実施するかを決めなければなりません。 このマルチタスク問題を考察し、エージェントが示すタスクを適応的に選択する対話型フレームワークを探索する。 本稿では,AMF (Active Multi-task Fine-tuning) を提案する。AMF(Active Multi-task Fine-tuning) は,専門家の方針に最も大きな情報を得る実演を収集することにより,限られた実証予算下でのマルチタスクポリシー性能を最大化するアルゴリズムである。 我々はAMFの性能保証を正則性仮定で導き、複雑で高次元の環境で効率的に微調整されたニューラルポリシーを実現するための実証的な効果を実証する。

Pre-trained generalist policies are rapidly gaining relevance in robot learning due to their promise of fast adaptation to novel, in-domain tasks. This adaptation often relies on collecting new demonstrations for a specific task of interest and applying imitation learning algorithms, such as behavioral cloning. However, as soon as several tasks need to be learned, we must decide which tasks should be demonstrated and how often? We study this multi-task problem and explore an interactive framework in which the agent adaptively selects the tasks to be demonstrated. We propose AMF (Active Multi-task Fine-tuning), an algorithm to maximize multi-task policy performance under a limited demonstration budget by collecting demonstrations yielding the largest information gain on the expert policy. We derive performance guarantees for AMF under regularity assumptions and demonstrate its empirical effectiveness to efficiently fine-tune neural policies in complex and high-dimensional environments.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# 野生動物研究の教訓を取り入れた屋外家畜モニタリングへのビジョンベースアプローチの体系的文献レビュー

Systematic Literature Review of Vision-Based Approaches to Outdoor Livestock Monitoring with Lessons from Wildlife Studies ( http://arxiv.org/abs/2410.05041v1 )

ライセンス: Link先を確認
Stacey D. Scott, Zayn J. Abbas, Feerass Ellid, Eli-Henry Dykhne, Muhammad Muhaiminul Islam, Weam Ayad, Kristina Kacmorova, Dan Tulpan, Minglun Gong, (参考訳) 精密家畜農業(PLF)は、先進技術を用いて家畜の健康と福祉と農業成果を改善することを目的としている。 コンピュータビジョンは、機械学習とディープラーニング人工知能アプローチの最近の進歩と組み合わさって、動物の健康と福祉の問題を早期に検出するのに役立つ24/7の家畜モニタリングという、PLFの理想の解決策を提供する。 しかし、多くの家畜種が大規模な屋外の生息地で育てられ、コンピュータビジョンのアプローチに技術的課題をもたらす。 本総説では,屋外動物モニタリングにおけるコンピュータビジョン手法とオープン課題について概観する。 我々は,多くの家畜や野生動物の外見,行動,生息環境の類似性から,家畜と野生生物の両方の研究をレビューに含めている。 我々は,牛,馬,鹿,ヤギ,羊,コアラ,キリン,ゾウなどの大型地球性哺乳類に焦点をあてる。 私たちは、イメージ処理パイプラインを使用して、議論をフレーム化し、現在の機能を強調し、パイプラインの各ステージにおける技術的な課題をオープンにしています。 このレビューでは、動物検出、計数、多種分類にディープラーニングアプローチを採用する傾向が明らかとなった。 我々は,現在の視覚に基づく手法がPLFの文脈に適用可能であること,今後の研究に期待できる方向性について詳細に論じる。

Precision livestock farming (PLF) aims to improve the health and welfare of livestock animals and farming outcomes through the use of advanced technologies. Computer vision, combined with recent advances in machine learning and deep learning artificial intelligence approaches, offers a possible solution to the PLF ideal of 24/7 livestock monitoring that helps facilitate early detection of animal health and welfare issues. However, a significant number of livestock species are raised in large outdoor habitats that pose technological challenges for computer vision approaches. This review provides a comprehensive overview of computer vision methods and open challenges in outdoor animal monitoring. We include research from both the livestock and wildlife fields in the review because of the similarities in appearance, behaviour, and habitat for many livestock and wildlife. We focus on large terrestrial mammals, such as cattle, horses, deer, goats, sheep, koalas, giraffes, and elephants. We use an image processing pipeline to frame our discussion and highlight the current capabilities and open technical challenges at each stage of the pipeline. The review found a clear trend towards the use of deep learning approaches for animal detection, counting, and multi-species classification. We discuss in detail the applicability of current vision-based methods to PLF contexts and promising directions for future research.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# PhotoReg:3Dガウス模型の撮影記録

PhotoReg: Photometrically Registering 3D Gaussian Splatting Models ( http://arxiv.org/abs/2410.05044v1 )

ライセンス: Link先を確認
Ziwen Yuan, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi, (参考訳) 環境の正確な表現を構築することは、インテリジェントなロボットがデプロイメント中に決定を下す上で非常に重要です。 フォトリアリスティック環境モデルの進歩により、ロボットは人間の検査に直感的な画像を生成することができる超現実的再構成を開発できるようになった。 特に、数百万の原始楕円体を持つシーンを記述した最近導入された \ac{3DGS} は、リアルタイムでレンダリングできる。 \ac{3DGS} は急速に有名になった。 しかし、重要な未解決問題は、どのようにして複数の \ac{3DGS} を単一のコヒーレントモデルに融合できるのか? この問題を解決することで、ロボットチームは周囲の \ac{3DGS} モデルを共同で構築できる。 この研究の重要な洞察は、3D構造から現実的な2D画像をレンダリングするフォトリアリスティックな再構成と、画像ペアから3D構造を予測する「emph{3D foundation model}」の間の「二重性」を活用することである。 この目的のために,3次元基礎モデルを用いた複数のフォトリアリスティック \ac{3DGS} モデルを登録するフレームワークである PhotoReg を開発した。 \ac{3DGS} モデルは一般に単眼カメラ画像から構築されるため、それらは \emph{arbitrary scale} を持つ。 これを解決するためにPhotoRegは、これらのモデル内の深さ推定を考慮し、異なる \ac{3DGS} モデルのスケール一貫性を積極的に強化する。 次に、アライメントは微細な光度損失で反復的に洗練され、高品質な融合 \ac{3DGS} モデルを生成する。 2つの四足歩行ロボットを含む、標準ベンチマークデータセットとカスタムコンパイルデータセットの両方で、PhotoRegを厳格に評価しています。 コードは \url{ziweny11.github.io/photoreg} でリリースされる。

Building accurate representations of the environment is critical for intelligent robots to make decisions during deployment. Advances in photorealistic environment models have enabled robots to develop hyper-realistic reconstructions, which can be used to generate images that are intuitive for human inspection. In particular, the recently introduced \ac{3DGS}, which describes the scene with up to millions of primitive ellipsoids, can be rendered in real time. \ac{3DGS} has rapidly gained prominence. However, a critical unsolved problem persists: how can we fuse multiple \ac{3DGS} into a single coherent model? Solving this problem will enable robot teams to jointly build \ac{3DGS} models of their surroundings. A key insight of this work is to leverage the {duality} between photorealistic reconstructions, which render realistic 2D images from 3D structure, and \emph{3D foundation models}, which predict 3D structure from image pairs. To this end, we develop PhotoReg, a framework to register multiple photorealistic \ac{3DGS} models with 3D foundation models. As \ac{3DGS} models are generally built from monocular camera images, they have \emph{arbitrary scale}. To resolve this, PhotoReg actively enforces scale consistency among the different \ac{3DGS} models by considering depth estimates within these models. Then, the alignment is iteratively refined with fine-grained photometric losses to produce high-quality fused \ac{3DGS} models. We rigorously evaluate PhotoReg on both standard benchmark datasets and our custom-collected datasets, including with two quadruped robots. The code is released at \url{ziweny11.github.io/photoreg}.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# LLMは解決者からのヒントを付加して経路を計画できるか?

Can LLMs plan paths with extra hints from solvers? ( http://arxiv.org/abs/2410.05045v1 )

ライセンス: Link先を確認
Erik Wu, Sayan Mitra, (参考訳) 大規模言語モデル(LLM)は、自然言語処理、数学的問題解決、プログラム合成に関連するタスクにおいて顕著な能力を示している。 しかしながら、長期計画や高次推論におけるそれらの効果は限定的で脆弱であることが指摘されている。 本稿では,従来のロボット計画課題の解決において,解法生成フィードバックを統合することでLCM性能を向上させる手法について検討する。 視覚的フィードバックを含むフィードバックを提供するための4つの異なる戦略について検討し、微調整を利用し、10の標準と100以上のランダムに生成された計画問題の3つの異なるLCMの性能を評価する。 以上の結果から, 解答器が生成したフィードバックは, LLMの適度な難解な問題を解く能力を向上させるが, 難解な問題はまだ到達できないことが示唆された。 この研究は、異なるヒント戦略の効果と評価されたLSMの異なる計画傾向を詳細に分析する。

Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, mathematical problem solving, and tasks related to program synthesis. However, their effectiveness in long-term planning and higher-order reasoning has been noted to be limited and fragile. This paper explores an approach for enhancing LLM performance in solving a classical robotic planning task by integrating solver-generated feedback. We explore four different strategies for providing feedback, including visual feedback, we utilize fine-tuning, and we evaluate the performance of three different LLMs across a 10 standard and 100 more randomly generated planning problems. Our results suggest that the solver-generated feedback improves the LLM's ability to solve the moderately difficult problems, but the harder problems still remain out of reach. The study provides detailed analysis of the effects of the different hinting strategies and the different planning tendencies of the evaluated LLMs.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# Named Clinical Entity Recognition Benchmark

Named Clinical Entity Recognition Benchmark ( http://arxiv.org/abs/2410.05046v1 )

ライセンス: Link先を確認
Wadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Clément Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan, (参考訳) 本技術報告では,医療における言語モデル評価のための名前付き臨床エンティティ認識ベンチマークを導入し,臨床物語から構造化された情報を抽出し,自動コーディング,臨床治験コホート識別,臨床意思決定支援などのアプリケーションを支援する,重要な自然言語処理(NLP)タスクに対処する。 リーダーボードは、エンコーダやデコーダアーキテクチャを含む多様な言語モデルを評価するための標準化されたプラットフォームを提供する。 公開可能な臨床データセットのキュレートされたコレクションが利用され、疾患、症状、薬物、処置、実験室の測定などのエンティティを含む。 重要なのは、これらのエンティティは、観測医療成果パートナーシップ(OMOP)共通データモデルに従って標準化され、さまざまな医療システムやデータセット間の一貫性と相互運用性が保証され、モデルパフォーマンスの包括的な評価が行われます。 モデルの性能は、主にF1スコアを用いて評価され、モデル性能に関する総合的な洞察を提供するために、様々な評価モードによって補完される。 レポートには、これまでに評価されたモデルの簡単な分析も含まれており、観察されたトレンドと制限を強調している。 このベンチマークフレームワークを確立することにより、医療NLPにおける堅牢な評価方法の必要性に対処し、透明性を促進し、比較分析を促進し、臨床エンティティ認識タスクの革新を促進することを目指している。

This technical report introduces a Named Clinical Entity Recognition Benchmark for evaluating language models in healthcare, addressing the crucial natural language processing (NLP) task of extracting structured information from clinical narratives to support applications like automated coding, clinical trial cohort identification, and clinical decision support. The leaderboard provides a standardized platform for assessing diverse language models, including encoder and decoder architectures, on their ability to identify and classify clinical entities across multiple medical domains. A curated collection of openly available clinical datasets is utilized, encompassing entities such as diseases, symptoms, medications, procedures, and laboratory measurements. Importantly, these entities are standardized according to the Observational Medical Outcomes Partnership (OMOP) Common Data Model, ensuring consistency and interoperability across different healthcare systems and datasets, and a comprehensive evaluation of model performance. Performance of models is primarily assessed using the F1-score, and it is complemented by various assessment modes to provide comprehensive insights into model performance. The report also includes a brief analysis of models evaluated to date, highlighting observed trends and limitations. By establishing this benchmarking framework, the leaderboard aims to promote transparency, facilitate comparative analyses, and drive innovation in clinical entity recognition tasks, addressing the need for robust evaluation methods in healthcare NLP.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# LLMを用いた機械翻訳におけるプロンプトインジェクション攻撃の一テストスイート

A test suite of prompt injection attacks for LLM-based machine translation ( http://arxiv.org/abs/2410.05047v1 )

ライセンス: Link先を確認
Antonio Valerio Miceli-Barone, Zhifan Sun, (参考訳) LLMベースのNLPシステムは典型的には、入力データを命令を含むプロンプトテンプレートに埋め込み、LLMに送信されたクエリを生成し、LLM応答を解析してシステム出力を生成する。 プロンプト・インジェクション・アタック(英: Prompt Injection Attacks、PIAs)は、悪意のあるユーザーがプロンプトテンプレートに干渉する特別な入力を制作し、LLMがシステムデザイナの意図しない方法で応答するシステムである。 最近、Sun と Miceli-Barone は LLM ベースの機械翻訳に対して PIA のクラスを提案した。 具体的には、質問に対して相手のプロンプトが事前調整されるTrathfulQAテストスイートから質問を翻訳し、代わりに翻訳命令を無視して質問に答えるようにシステムに指示する。 このテストスイートでは、WMT 2024 General Machine Translationタスクの全ての言語対にこのアプローチを拡張します。 さらに、当初研究された攻撃フォーマットに加えて、追加の攻撃フォーマットも含んでいます。

LLM-based NLP systems typically work by embedding their input data into prompt templates which contain instructions and/or in-context examples, creating queries which are submitted to a LLM, and then parsing the LLM response in order to generate the system outputs. Prompt Injection Attacks (PIAs) are a type of subversion of these systems where a malicious user crafts special inputs which interfere with the prompt templates, causing the LLM to respond in ways unintended by the system designer. Recently, Sun and Miceli-Barone proposed a class of PIAs against LLM-based machine translation. Specifically, the task is to translate questions from the TruthfulQA test suite, where an adversarial prompt is prepended to the questions, instructing the system to ignore the translation instruction and answer the questions instead. In this test suite, we extend this approach to all the language pairs of the WMT 2024 General Machine Translation task. Moreover, we include additional attack formats in addition to the one originally studied.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# HE-Drive:視覚言語モデルによる人間のようなエンド・ツー・エンドの運転

HE-Drive: Human-Like End-to-End Driving with Vision Language Models ( http://arxiv.org/abs/2410.05051v1 )

ライセンス: Link先を確認
Junming Wang, Xingyu Zhang, Zebin Xing, Songen Gu, Xiaoyang Guo, Yang Hu, Ziying Song, Qian Zhang, Xiaoxiao Long, Wei Yin, (参考訳) 本稿では,時間的整合性と快適性を両立するトラジェクトリを生成する,人類初のエンド・ツー・エンド自動運転システムであるHE-Driveを提案する。 近年の研究では、模倣学習に基づくプランナーと学習に基づく軌道スコアラーが、専門家のデモンストレーションを忠実に模倣する精度の軌跡を効果的に生成し、選択できることが示されている。 しかし、そのような軌道プランナーや得点者は、時間的に矛盾し、不快な軌道を生成するジレンマに直面している。 上記の問題を解決するため,我々のHE-Driveは,まずスパース認識を用いてキー3次元空間表現を抽出し,条件付き拡散確率モデル(DDPM)に基づく運動プランナの条件入力として機能し,時間的整合性を持つマルチモーダル軌道を生成する。 VLM(Vision-Language Models)誘導軌道スコアラは、これらの候補から最も快適な軌道を選択して車両を制御し、人間のようなエンドツーエンドの運転を保証する。 実験によると、HE-Driveは最先端のパフォーマンス(つまり、平均衝突速度をVADより71%削減する)と効率(SparseDriveより1.9倍速い)を、挑戦的なnuSceneとOpenSceneデータセット上で達成するだけでなく、現実世界のデータ上で最も快適な運転体験を提供する。

In this paper, we propose HE-Drive: the first human-like-centric end-to-end autonomous driving system to generate trajectories that are both temporally consistent and comfortable. Recent studies have shown that imitation learning-based planners and learning-based trajectory scorers can effectively generate and select accuracy trajectories that closely mimic expert demonstrations. However, such trajectory planners and scorers face the dilemma of generating temporally inconsistent and uncomfortable trajectories. To solve the above problems, Our HE-Drive first extracts key 3D spatial representations through sparse perception, which then serves as conditional inputs for a Conditional Denoising Diffusion Probabilistic Models (DDPMs)-based motion planner to generate temporal consistency multi-modal trajectories. A Vision-Language Models (VLMs)-guided trajectory scorer subsequently selects the most comfortable trajectory from these candidates to control the vehicle, ensuring human-like end-to-end driving. Experiments show that HE-Drive not only achieves state-of-the-art performance (i.e., reduces the average collision rate by 71% than VAD) and efficiency (i.e., 1.9X faster than SparseDrive) on the challenging nuScenes and OpenScene datasets but also provides the most comfortable driving experience on real-world data.For more information, visit the project website: https://jmwang0117.github.io/HE-Drive/.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# 損失スパイク軽減のためのパラメータ化による大規模言語モデルの初期化

Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes ( http://arxiv.org/abs/2410.05052v1 )

ライセンス: Link先を確認
Kosuke Nishida, Kyosuke Nishida, Kuniko Saito, (参考訳) ロススパイク(ロススパイク)は、損失値が突然分岐する現象であり、大きな言語モデルの事前学習における根本的な問題である。 本稿では、パラメータのノルムの不均一性が損失スパイクの原因の1つであると仮定する。 ここでは、ニューラルネットワークのトレーニングでは、勾配の消失と爆発を避けるために、階層全体で勾配のスケールを一定に保つ必要がある。 しかし、トランスフォーマーモデルにおけるこれらの要件を満たすためには、モデルパラメータのノルムは非一様でなければならないため、ノルムが小さいパラメータはパラメータの更新に対してより敏感である。 この問題に対処するために,リパラメトリゼーション(WeSaR)としてのウェイトスケーリングという新しい手法を提案する。 WeSaRはパラメータ行列ごとにゲートパラメータを導入し、要求を満たす値に調整する。 ゲートパラメータのため、WeSaRは元のパラメータのノルムを均一に設定し、安定したトレーニングを行う。 1億3000万、13億、13億のパラメータからなるTransformerデコーダによる実験の結果、WeSaRはトレーニングを安定させ、加速し、一般的な初期化手法を含む比較手法よりも優れていた。

Loss spikes, a phenomenon in which the loss value diverges suddenly, is a fundamental issue in the pre-training of large language models. This paper supposes that the non-uniformity of the norm of the parameters is one of the causes of loss spikes. Here, in training of neural networks, the scale of the gradients is required to be kept constant throughout the layers to avoid the vanishing and exploding gradients problem. However, to meet these requirements in the Transformer model, the norm of the model parameters must be non-uniform, and thus, parameters whose norm is smaller are more sensitive to the parameter update. To address this issue, we propose a novel technique, weight scaling as reparameterization (WeSaR). WeSaR introduces a gate parameter per parameter matrix and adjusts it to the value satisfying the requirements. Because of the gate parameter, WeSaR sets the norm of the original parameters uniformly, which results in stable training. Experimental results with the Transformer decoders consisting of 130 million, 1.3 billion, and 13 billion parameters showed that WeSaR stabilizes and accelerates training and that it outperformed compared methods including popular initialization methods.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# SELECT:画像分類のための大規模データキュレーション戦略ベンチマーク

SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification ( http://arxiv.org/abs/2410.05057v1 )

ライセンス: Link先を確認
Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde, (参考訳) データキュレーションは、効率的な学習をサポートするデータセットにサンプルを収集、整理する方法の問題である。 タスクの中心性にもかかわらず、様々なキュレーション手法を大規模かつ体系的に比較する作業はほとんど行われていない。 本研究では、データキュレーション戦略の正式な評価に向けて一歩踏み出し、画像分類のためのキュレーション戦略の大規模なベンチマークであるSELECTを紹介する。 SELECTベンチマークのベースラインメソッドを生成するために、これまでで最大のImageNet-1Kスーパーセットを構成する新しいデータセットであるImageNet++を作成します。 データセットはImageNetを5つの新しいトレーニングデータシフトで拡張しています。 データキュレーションのベースラインを2つの方法で評価します。 (i)各トレーニングデータシフトを用いて同一画像分類モデルをスクラッチから訓練する (ii) 事前訓練された自己教師型表現にデータ自体を適合させる。 以上の結果から,CLIP埋め込みに基づく合成データ生成や検索などの最近のデータキュレーション手法に関する興味深い傾向が示唆された。 これらの戦略は特定のタスクに対して非常に競争力があるものの、元のImageNet-1Kデータセットを組み立てるのに使用されるキュレーション戦略がゴールドスタンダードのままであることを示す。 我々は,我々のベンチマークが新たな方法の道筋を照らし,ギャップをさらに減らすことを期待する。 私たちは、チェックポイント、コード、ドキュメント、データセットへのリンクをhttps://github.com/jimmyxu123/SELECTでリリースしています。

Data curation is the problem of how to collect and organize samples into a dataset that supports efficient learning. Despite the centrality of the task, little work has been devoted towards a large-scale, systematic comparison of various curation methods. In this work, we take steps towards a formal evaluation of data curation strategies and introduce SELECT, the first large-scale benchmark of curation strategies for image classification. In order to generate baseline methods for the SELECT benchmark, we create a new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K to date. Our dataset extends ImageNet with 5 new training-data shifts, each approximately the size of ImageNet-1K itself, and each assembled using a distinct curation strategy. We evaluate our data curation baselines in two ways: (i) using each training-data shift to train identical image classification models from scratch (ii) using the data itself to fit a pretrained self-supervised representation. Our findings show interesting trends, particularly pertaining to recent methods for data curation such as synthetic data generation and lookup based on CLIP embeddings. We show that although these strategies are highly competitive for certain tasks, the curation strategy used to assemble the original ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark can illuminate the path for new methods to further reduce the gap. We release our checkpoints, code, documentation, and a link to our dataset at https://github.com/jimmyxu123/SELECT.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-07
# ランダム浅層ReLUネットワークによる関数勾配近似と制御応用

Function Gradient Approximation with Random Shallow ReLU Networks with Control Applications ( http://arxiv.org/abs/2410.05071v1 )

ライセンス: Link先を確認
Andrew Lamperski, Siddharth Salapaka, (参考訳) ニューラルネットワークは、制御における未知の関数を近似するために広く使われている。 一般的なニューラルネットワークアーキテクチャでは、入力パラメータを事前に固定し、出力パラメータのみをトレーニングする単一の隠蔽層(すなわち浅いネットワーク)を使用する。 典型的な形式解析では、未知の関数を十分な精度で近似するために出力パラメータが存在する場合、所望の制御性能が達成できると主張している。 長期にわたる理論的なギャップは、固定された入力パラメータに対して、出力パラメータをトレーニングすることで必要な精度が得られることを保証できる条件が存在しないことである。 我々の最近の研究は、入力パラメータがランダムに選択された場合、十分に滑らかな関数に対して、高い確率で出力パラメータが存在し、結果として$O((1/m)^{1/2})$近似誤差が生じ、$m$がニューロンの数であることを示すことで、このギャップを部分的に閉じている。 しかし、いくつかのアプリケーション、特に連続時間値関数近似は、ネットワークが未知の関数とその勾配の両方を十分な精度で近似することを要求している。 本稿では、ランダムに生成された入力パラメータとトレーニングされた出力パラメータが、$O((\log(m)/m)^{1/2})$の勾配誤差をもたらし、さらに、これまでの作業から定数を改善することを示す。 政策評価問題に結果をどう適用するかを示す。

Neural networks are widely used to approximate unknown functions in control. A common neural network architecture uses a single hidden layer (i.e. a shallow network), in which the input parameters are fixed in advance and only the output parameters are trained. The typical formal analysis asserts that if output parameters exist to approximate the unknown function with sufficient accuracy, then desired control performance can be achieved. A long-standing theoretical gap was that no conditions existed to guarantee that, for the fixed input parameters, required accuracy could be obtained by training the output parameters. Our recent work has partially closed this gap by demonstrating that if input parameters are chosen randomly, then for any sufficiently smooth function, with high-probability there are output parameters resulting in $O((1/m)^{1/2})$ approximation errors, where $m$ is the number of neurons. However, some applications, notably continuous-time value function approximation, require that the network approximates the both the unknown function and its gradient with sufficient accuracy. In this paper, we show that randomly generated input parameters and trained output parameters result in gradient errors of $O((\log(m)/m)^{1/2})$, and additionally, improve the constants from our prior work. We show how to apply the result to policy evaluation problems.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# xLSTM-FER:拡張視覚長短期記憶ネットワークによる生徒表現認識の強化

xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network ( http://arxiv.org/abs/2410.05074v1 )

ライセンス: Link先を確認
Qionghao Huang, Jili Chen, (参考訳) 学生の表情認識は、学習経験や感情状態を評価する上で欠かせないツールとなっている。 本稿では,xLSTM-FERを提案する。xLSTM(Extended Long Short-Term Memory)は,学生の表情認識のための高度なシーケンス処理機能を通じて,表現認識の精度と効率を高めるために設計された,拡張長短期記憶(exended Long Short-Term Memory, xLSTM)から派生した新しいアーキテクチャである。 xLSTM-FERは入力画像を一連のパッチに分割して処理し、これらのパッチを処理するためにxLSTMブロックのスタックを活用する。 xLSTM-FERは実世界の学生の表情の微妙な変化を捉え、シーケンス内の空間的・時間的関係を学習することで認識精度を向上させることができる。 CK+、RAF-DF、FERplusの実験は、表現認識タスクにおけるxLSTM-FERの可能性を示し、標準データセットの最先端手法よりも優れた性能を示している。 xLSTM-FERの線形計算とメモリの複雑さは、高解像度画像の処理に特に適している。 さらに、xLSTM-FERの設計により、余分な計算なしで画像などの非逐次入力を効率的に処理できる。

Student expression recognition has become an essential tool for assessing learning experiences and emotional states. This paper introduces xLSTM-FER, a novel architecture derived from the Extended Long Short-Term Memory (xLSTM), designed to enhance the accuracy and efficiency of expression recognition through advanced sequence processing capabilities for student facial expression recognition. xLSTM-FER processes input images by segmenting them into a series of patches and leveraging a stack of xLSTM blocks to handle these patches. xLSTM-FER can capture subtle changes in real-world students' facial expressions and improve recognition accuracy by learning spatial-temporal relationships within the sequence. Experiments on CK+, RAF-DF, and FERplus demonstrate the potential of xLSTM-FER in expression recognition tasks, showing better performance compared to state-of-the-art methods on standard datasets. The linear computational and memory complexity of xLSTM-FER make it particularly suitable for handling high-resolution images. Moreover, the design of xLSTM-FER allows for efficient processing of non-sequential inputs such as images without additional computation.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# 量子カオスのない二次系における局在化遷移

Localization transitions in quadratic systems without quantum chaos ( http://arxiv.org/abs/2410.05075v1 )

ライセンス: Link先を確認
Mateusz Lisiecki, Lev Vidmar, Patrycja Łydżba, (参考訳) 非局在化から局所化された固有状態への遷移は二次モデルと相互作用モデルの両方で広く研究されている。 非局在化された状態は通常拡散と量子カオスを示し、その性質はランダム行列理論(RMT)の予測に従う。 しかし、ある種の二次モデルでは、位置空間の非局在化は単一粒子量子カオスを伴わないことが知られている。 ここでは、準モジュム空間(弾道輸送を支持する)の局在化から非標準熱力学極限における位置空間(輸送を伴わない)の局在化への固有状態遷移を示す1次元アンダーソンおよびワニエ・スタークモデルについて検討し、モデルパラメータをシステムサイズで再スケーリングすることを仮定する。 遷移点がヤヌス型の非伝統的な性質を示すこと、すなわち、遷移点において RMT のような普遍性が現れることを示唆する測度や、それから離れる測度があることが示される。 例えば、固有状態の絡み合いエントロピーは、二分法により、ハール・ランダム・ガウス状態の値に近づいたり、より低い非ユニバーサル値に収束する体積法則の振る舞いを示すことができる。 この結果から,最大絡み合っていない二次系における容積法則固有状態絡み合エントロピーの多様性が示唆された。

Transitions from delocalized to localized eigenstates have been extensively studied in both quadratic and interacting models. The delocalized regime typically exhibits diffusion and quantum chaos, and its properties comply with the random matrix theory (RMT) predictions. However, it is also known that in certain quadratic models, the delocalization in position space is not accompanied by the single-particle quantum chaos. Here, we study the one-dimensional Anderson and Wannier-Stark models that exhibit eigenstate transitions from localization in quasimomentum space (supporting ballistic transport) to localization in position space (with no transport) in a nonstandard thermodynamic limit, which assumes rescaling the model parameters with the system size. We show that the transition point may exhibit an unconventional character of Janus type, i.e., some measures hint at the RMT-like universality emerging at the transition point, while others depart from it. For example, the eigenstate entanglement entropies may exhibit, depending on the bipartition, a volume-law behavior that either approaches the value of Haar-random Gaussian states, or converges to a lower, non-universal value. Our results hint at rich diversity of volume-law eigenstate entanglement entropies in quadratic systems that are not maximally entangled.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# TidalDecode: 位置パース注意による高速かつ高精度なLCMデコーディング

TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention ( http://arxiv.org/abs/2410.05076v1 )

ライセンス: Link先を確認
Lijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる大幅な進歩を導いており、長いコンテキストモデルでは、拡張された入力を扱うことで優位性を高めている。 しかし、Transformerアーキテクチャが要求するキー値(KV)キャッシュサイズの拡大は、特にデコードフェーズにおいてメモリ制約を増大させ、重大なボトルネックを生み出す。 このボトルネックに対処するために設計された既存のスパースアテンション機構には、2つの制限がある:(1) 注意すべき最も関連性の高いトークンを確実に識別できないこと、(2) 連続したトランスフォーマー層間のトークン選択の空間的コヒーレンスを見落として、パフォーマンスの低下とトークン選択のかなりのオーバーヘッドにつながる。 本稿では,高速かつ高精度なLLM復号システムであるTidalDecodeを紹介する。 TidalDecodeは、既存のスパースアテンションメソッドによって選択されたトークンの空間的コヒーレンスを活用し、トークンを最大限のアテンションスコアで識別するトークン選択層を導入している。 この設計により、TidalDecodeは、生成された結果の品質を犠牲にすることなく、スパースアテンションのためのトークン選択のオーバーヘッドを大幅に削減できる。 多様なLCMとタスクの評価は、TidalDecodeがフルアテンションメソッドの生成性能と密に一致し、LCM復号遅延を最大2.1倍に削減していることを示している。

Large language models (LLMs) have driven significant advancements across diverse NLP tasks, with long-context models gaining prominence for handling extended inputs. However, the expanding key-value (KV) cache size required by Transformer architectures intensifies the memory constraints, particularly during the decoding phase, creating a significant bottleneck. Existing sparse attention mechanisms designed to address this bottleneck have two limitations: (1) they often fail to reliably identify the most relevant tokens for attention, and (2) they overlook the spatial coherence of token selection across consecutive Transformer layers, which can lead to performance degradation and substantial overhead in token selection. This paper introduces TidalDecode, a simple yet effective algorithm and system for fast and accurate LLM decoding through position persistent sparse attention. TidalDecode leverages the spatial coherence of tokens selected by existing sparse attention methods and introduces a few token selection layers that perform full attention to identify the tokens with the highest attention scores, while all other layers perform sparse attention with the pre-selected tokens. This design enables TidalDecode to substantially reduce the overhead of token selection for sparse attention without sacrificing the quality of the generated results. Evaluation on a diverse set of LLMs and tasks shows that TidalDecode closely matches the generative performance of full attention methods while reducing the LLM decoding latency by up to 2.1x.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# ZEBRA: ゼロショット事例に基づくコモンセンス質問回答のための検索強化

ZEBRA: Zero-Shot Example-Based Retrieval Augmentation for Commonsense Question Answering ( http://arxiv.org/abs/2410.05077v1 )

ライセンス: Link先を確認
Francesco Maria Molfese, Simone Conia, Riccardo Orlando, Roberto Navigli, (参考訳) 現在のLarge Language Models (LLMs) は、コモンセンスな質問応答ベンチマークにおいて強力な推論能力を示しているが、その成功の根底にあるプロセスはほとんど不透明である。 その結果、近年のLLMには知識検索、推論、イントロスペクションのメカニズムが組み込まれており、その能力の向上だけでなく、出力の解釈可能性の向上にも寄与している。 しかし、これらの手法には追加の訓練、手作りのテンプレート、人間による説明が必要である。 これらの問題に対処するために,検索,ケースベース推論,イントロスペクションを組み合わせたゼロショット質問応答フレームワークであるZEBRAを導入する。 入力質問が与えられた場合、ZEBRAは関連する質問知識ペアを知識ベースから検索し、これらのペアの関係性について推論することで新しい知識を生成する。 この生成された知識は入力された質問に答え、モデルの性能と解釈可能性を改善するために使用される。 提案手法は,8つのよく確立されたコモンセンス推論ベンチマークを用いて評価し,ZEBRAが強いLLMと従来の知識統合アプローチを一貫して上回り,最大4.5ポイントの精度向上を実現していることを示す。

Current Large Language Models (LLMs) have shown strong reasoning capabilities in commonsense question answering benchmarks, but the process underlying their success remains largely opaque. As a consequence, recent approaches have equipped LLMs with mechanisms for knowledge retrieval, reasoning and introspection, not only to improve their capabilities but also to enhance the interpretability of their outputs. However, these methods require additional training, hand-crafted templates or human-written explanations. To address these issues, we introduce ZEBRA, a zero-shot question answering framework that combines retrieval, case-based reasoning and introspection and dispenses with the need for additional training of the LLM. Given an input question, ZEBRA retrieves relevant question-knowledge pairs from a knowledge base and generates new knowledge by reasoning over the relationships in these pairs. This generated knowledge is then used to answer the input question, improving the model's performance and interpretability. We evaluate our approach across 8 well-established commonsense reasoning benchmarks, demonstrating that ZEBRA consistently outperforms strong LLMs and previous knowledge integration approaches, achieving an average accuracy improvement of up to 4.5 points.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# 事前学習型変換器による圧縮:バイトレベルマルチモーダルデータの検討

Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data ( http://arxiv.org/abs/2410.05078v1 )

ライセンス: Link先を確認
David Heurtel-Depeiges, Anian Ruoss, Joel Veness, Tim Genewein, (参考訳) ファンデーションモデルは、最近、強力なデータ圧縮機であることが示されている。 しかし、過剰なパラメータ数を考慮すると、その圧縮比は標準圧縮アルゴリズムに劣る。 さらに、パラメータの数を過度に削減することは、予測が悪化し、圧縮が弱くなるため、必ずしも役に立たない。 本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかどうかを,大規模な実証実験により検討する。 この目的のために、テキスト、画像、オーディオデータの165GBの生のバイトシーケンス(および3つの可能な組み合わせ)上でモデルのファミリーを訓練し、各モードから1GBのアウト・オブ・ディストリビューション(OOD)データを圧縮する。 比較的小さなモデル(つまり数百万のパラメータ)は、標準汎用圧縮アルゴリズム(gzip, LZMA2)やドメイン固有圧縮器(PNG, JPEG 2000, FLAC)よりも優れている。 我々は,OOD音声データ(FLACは0.54)の最低圧縮比0.49を達成する。 モデルとデータセットのスケールが与える影響について検討するため,広範にわたるアブレーションとハイパーパラメータスイープを行い,単調なトレーニングとマルチモーダルトレーニングの効果について検討した。 たとえ小さなモデルであっても、複数のモダリティでうまく機能するように訓練できるが、大規模な基礎モデルで報告された結果とは対照的に、目に見えないモダリティへの移動は一般的に弱い。

Foundation models have recently been shown to be strong data compressors. However, when accounting for their excessive parameter count, their compression ratios are actually inferior to standard compression algorithms. Moreover, naively reducing the number of parameters may not necessarily help as it leads to worse predictions and thus weaker compression. In this paper, we conduct a large-scale empirical study to investigate whether there is a sweet spot where competitive compression ratios with pre-trained vanilla transformers are possible. To this end, we train families of models on 165GB of raw byte sequences of either text, image, or audio data (and all possible combinations of the three) and then compress 1GB of out-of-distribution (OOD) data from each modality. We find that relatively small models (i.e., millions of parameters) can outperform standard general-purpose compression algorithms (gzip, LZMA2) and even domain-specific compressors (PNG, JPEG 2000, FLAC) - even when factoring in parameter count. We achieve, e.g., the lowest compression ratio of 0.49 on OOD audio data (vs. 0.54 for FLAC). To study the impact of model- and dataset scale, we conduct extensive ablations and hyperparameter sweeps, and we investigate the effect of unimodal versus multimodal training. We find that even small models can be trained to perform well on multiple modalities, but, in contrast to previously reported results with large-scale foundation models, transfer to unseen modalities is generally weak.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# 大規模言語モデルのランダム性に対する説明感度--ジャーナリズムテキスト分類の場合

Explanation sensitivity to the randomness of large language models: the case of journalistic text classification ( http://arxiv.org/abs/2410.05085v1 )

ライセンス: Link先を確認
Jeremie Bogaert, Marie-Catherine de Marneffe, Antonin Descampe, Louis Escouflaire, Cedrick Fairon, Francois-Xavier Standaert, (参考訳) 大規模言語モデル(LLM)は、いくつかの自然言語処理タスクで非常によく機能するが、説明可能性の問題を引き起こす。 本稿では,LLMの学習におけるランダム要素の影響について,その予測可能性について検討する。 私たちはフランス語で意見のあるジャーナリストのテキスト分類のタスクでそうします。 微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。 したがって, LLM の説明可能性には, 説明の統計的分布を特徴付ける必要がある。 次に、安定な説明を提供するが精度が低いテキスト機能に基づくより単純なモデルについて検討する。 したがって、この単純なモデルは精度と説明可能性の異なるトレードオフに対応する。 CamemBERTの説明から派生した機能を挿入することで改善可能であることを示す。 結果から示唆される新たな研究方向,特にトレーニングランダムネスで観測された感度の起源について論じる。

Large language models (LLMs) perform very well in several natural language processing tasks but raise explainability challenges. In this paper, we examine the effect of random elements in the training of LLMs on the explainability of their predictions. We do so on a task of opinionated journalistic text classification in French. Using a fine-tuned CamemBERT model and an explanation method based on relevance propagation, we find that training with different random seeds produces models with similar accuracy but variable explanations. We therefore claim that characterizing the explanations' statistical distribution is needed for the explainability of LLMs. We then explore a simpler model based on textual features which offers stable explanations but is less accurate. Hence, this simpler model corresponds to a different tradeoff between accuracy and explainability. We show that it can be improved by inserting features derived from CamemBERT's explanations. We finally discuss new research directions suggested by our results, in particular regarding the origin of the sensitivity observed in the training randomness.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# HyperINF: データ影響推定のためのSchulzのメソッドのハイパーパワーを開放する

HyperINF: Unleashing the HyperPower of the Schulz's Method for Data Influence Estimation ( http://arxiv.org/abs/2410.05090v1 )

ライセンス: Link先を確認
Xinyu Zhou, Simin Fan, Martin Jaggi, (参考訳) 影響関数は、個別のトレーニングサンプルの特定の目標への貢献を評価するための原則的な方法を提供する。 しかし、計算コストが高いため、大規模モデルやデータセットへの適用は制限される。 影響関数近似のための既存の手法は計算オーバーヘッドを著しく減らした。 しかし、アルゴリズムからの強い収束保証が欠如しているため、主に不正確な推定に苦しむ。 超パワーの手法の族は、行列逆近似の厳密な収束を保証することで有名であるが、行列乗算演算は、大規模モデルにおいて難解なメモリと計算コストを伴うことがある。 本稿では,超パワー法,特にシュルツの反復アルゴリズムを利用した効率よく正確な影響関数近似法であるHyperINFを提案する。 計算集約的行列乗算に対処するため、一般化された漁師情報(GFIM)をヘッセン行列の低ランク近似として組み込んだ。 まず, 行列逆変換の合成収束シミュレーションにより, 他のベースラインと比較して, \method の精度と安定性を示す。 LLM や VLM の微調整における誤ラベル付きデータ検出やデータ選択など,大規模な実世界のデータ属性タスクによる \method の有効性をさらに検証する。 LoRAをチューニングしたモデルでは、HyperINFはメモリと計算オーバーヘッドを最小限に抑えながら、ダウンストリームのパフォーマンスを向上する一方、他のベースラインは大幅に劣化する。 私たちのコードベースはhttps://github.com/Blackzxy/HyperINF.orgで公開されています。

Influence functions provide a principled method to assess the contribution of individual training samples to a specific target. Yet, their high computational costs limit their applications on large-scale models and datasets. Existing methods proposed for influence function approximation have significantly reduced the computational overheads. However, they mostly suffer from inaccurate estimation due to the lack of strong convergence guarantees from the algorithm. The family of hyperpower methods are well-known for their rigorous convergence guarantees on matrix inverse approximation, while the matrix multiplication operation can involve intractable memory and computation costs on large-scale models. We propose HyperINF, an efficient and accurate influence function approximation method which leverages the hyperpower method, specifically Schulz's iterative algorithm. To deal with the computation-intensive matrix multiplication, we incorporate the generalized fisher information (GFIM) as a low-rank approximation of the Hessian matrix, which reduces the memory and computation overheads to constant costs independent of ranks on LoRA-tuned models. We first demonstrate the superior accuracy and stability of \method compared to other baselines through a synthetic convergence simulation for matrix inversion. We further validate the efficacy of \method through extensive real-world data attribution tasks, including mislabeled data detection and data selection for LLM and VLM fine-tuning. On LoRA-tuned models, HyperINF achieves superior downstream performance with minimal memory and computational overhead, while other baselines suffer from significant degradation. Our codebase is available at https://github.com/Blackzxy/HyperINF.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# ゲームプロヴァンスの構造とその応用について

On the Structure of Game Provenance and its Applications ( http://arxiv.org/abs/2410.05094v1 )

ライセンス: Link先を確認
Shawn Bowers, Yilin Xia, Bertram Ludäscher, (参考訳) データベースの出現は、肯定的および再帰的なクエリのために徹底的に研究され、その後、一階述語(FO)クエリ、すなわち、否定するが再帰しないクエリに対して研究されている。 クエリ評価は、タプルがクエリ応答に含まれるかどうかを議論する2人プレイヤゲームとして理解することができる。 このゲーム理論のアプローチは、FOクエリの自然なプロファイランスモデルをもたらし、どのようにして、なぜプロファイランスではないのかを統一する。 本稿では,ゲーム前駆体の微細粒構造について検討する。 ゲーム $G=(V, E)$ は、位置 $V$ と移動 $E$ で構成され、単一で不安定な規則の確立したモデルを計算することで解決できる: \[ \text{win}(X) \leftarrow \text{move}(X, Y) \neg \, \text{win}(Y) 。 解決されたゲーム $G^{\lambda}$ では、位置 $x\,{\in}\,V$ の値は、勝ち、負け、引き分けのいずれかである。 この値は前置詞 $\mathscr{P}$(x) で説明され、すなわち、ある(注釈付き)エッジが$x$から到達可能である。 我々は、新しい種類の証明をもたらす7つのエッジタイプ、すなわちポテンシャル、現実、プライマリを識別し、「すべての動きが等しくなるわけではない」ことを示す。 本稿では,新しい証明型について述べるとともに,ゲーム解決時にどのように計算可能かを示し,抽象的な議論フレームワークのためのアプリケーション,例えばアプリケーションについて議論する。

Provenance in databases has been thoroughly studied for positive and for recursive queries, then for first-order (FO) queries, i.e., having negation but no recursion. Query evaluation can be understood as a two-player game where the opponents argue whether or not a tuple is in the query answer. This game-theoretic approach yields a natural provenance model for FO queries, unifying how and why-not provenance. Here, we study the fine-grain structure of game provenance. A game $G=(V,E)$ consists of positions $V$ and moves $E$ and can be solved by computing the well-founded model of a single, unstratifiable rule: \[ \text{win}(X) \leftarrow \text{move}(X, Y), \neg \, \text{win}(Y). \] In the solved game $G^{\lambda}$, the value of a position $x\,{\in}\,V$ is either won, lost, or drawn. This value is explained by the provenance $\mathscr{P}$(x), i.e., certain (annotated) edges reachable from $x$. We identify seven edge types that give rise to new kinds of provenance, i.e., potential, actual, and primary, and demonstrate that "not all moves are created equal". We describe the new provenance types, show how they can be computed while solving games, and discuss applications, e.g., for abstract argumentation frameworks.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# 動的ロボットシミュレーションのための現代軽量レンダリングエンジンを目指して

Towards a Modern and Lightweight Rendering Engine for Dynamic Robotic Simulations ( http://arxiv.org/abs/2410.05095v1 )

ライセンス: Link先を確認
Christopher John Allison, Haoying Zhou, Adnan Munawar, Peter Kazanzides, Juan Antonio Barragan, (参考訳) インタラクティブ・ダイナミック・シミュレーターは、人間とロボットを含む新しいロボット制御アルゴリズムと複雑なシステムを開発するためのアクセラレーターである。 ユーザトレーニングおよび合成データ生成アプリケーションでは、シミュレーションの高忠実度可視化が不可欠である。 視覚的忠実度は、シミュレーションシーンのレンダリングに使用されるコンピュータグラフィックスアルゴリズムの品質に依存する。 さらに、レンダリングアルゴリズムはグラフィックス処理ユニット(GPU)に実装され、リアルタイムのパフォーマンスを実現し、グラフィックスアプリケーションプログラミングインタフェース(API)を使用する必要がある。 本稿では,VulkanグラフィックスAPIをサポートするパフォーマンス重視の軽量レンダリングエンジンを提案する。 このエンジンはAMBF(Asynchronous Multi-Body Framework)のレガシーレンダリングパイプラインを近代化するように設計されている。 この新しいレンダリングエンジンは、物理ベースレンダリング(PBR)、アンチエイリアス、レイトレーシングシャドーなどのグラフィカルな機能を実装し、ABBFの画質を大幅に向上させる。 計算実験により、エンジンは2ミリ秒以内のGPU計算時間を維持しながら、700万以上の三角形でシミュレーションされたシーンをレンダリングできることが示されている。

Interactive dynamic simulators are an accelerator for developing novel robotic control algorithms and complex systems involving humans and robots. In user training and synthetic data generation applications, a high-fidelity visualization of the simulation is essential. Visual fidelity is dependent on the quality of the computer graphics algorithms used to render the simulated scene. Furthermore, the rendering algorithms must be implemented on the graphics processing unit (GPU) to achieve real-time performance, requiring the use of a graphics application programming interface (API). This paper presents a performance-focused and lightweight rendering engine supporting the Vulkan graphics API. The engine is designed to modernize the legacy rendering pipeline of Asynchronous Multi-Body Framework (AMBF), a dynamic simulation framework used extensively for interactive robotics simulation development. This new rendering engine implements graphical features such as physically based rendering (PBR), anti-aliasing, and ray-traced shadows, significantly improving the image quality of AMBF. Computational experiments show that the engine can render a simulated scene with over seven million triangles while maintaining GPU computation times within two milliseconds.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-07
# 交通信号検出のためのループ内人間推論:Yoloとビデオラバの協調的アプローチ

Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava ( http://arxiv.org/abs/2410.05096v1 )

ライセンス: Link先を確認
Mehdi Azarafza, Fatima Idrees, Ali Ehteshami Bejnordi, Charles Steinmetz, Stefan Henkler, Achim Rettberg, (参考訳) 交通信号認識(TSR)検出は自動運転車の重要な構成要素である。 You Only Look Once(YOLO)は、リアルタイムオブジェクト検出アルゴリズムとして人気があるが、トレーニングデータの品質や悪天候(大雨など)などの要因は、検出に失敗する可能性がある。 これらの故障は、より高速な制限標識のために30km/hの標識を誤るなど、物体間の視覚的類似性が存在する場合、特に危険である。 本稿では,映像解析と推論を組み合わせる手法を提案し,特に半現実的条件下での道路速度制限信号の検出におけるYOLOの精度向上を図る。 ビデオラバの誘導と推論能力により,YOLOの信号検出能力が向上する可能性が示唆された。 この仮説は、CARLAカーシミュレータから記録されたビデオのデータセット内の人間の注釈付き精度測定値に基づく評価によって支持される。 その結果, YOLO と Video-LLava の併用と推論を併用することで, YOLO 検出能力を阻害する豪雨やオーバーキャストといった困難な状況に効果的に対処できることが示唆された。

Traffic Sign Recognition (TSR) detection is a crucial component of autonomous vehicles. While You Only Look Once (YOLO) is a popular real-time object detection algorithm, factors like training data quality and adverse weather conditions (e.g., heavy rain) can lead to detection failures. These failures can be particularly dangerous when visual similarities between objects exist, such as mistaking a 30 km/h sign for a higher speed limit sign. This paper proposes a method that combines video analysis and reasoning, prompting with a human-in-the-loop guide large vision model to improve YOLOs accuracy in detecting road speed limit signs, especially in semi-real-world conditions. It is hypothesized that the guided prompting and reasoning abilities of Video-LLava can enhance YOLOs traffic sign detection capabilities. This hypothesis is supported by an evaluation based on human-annotated accuracy metrics within a dataset of recorded videos from the CARLA car simulator. The results demonstrate that a collaborative approach combining YOLO with Video-LLava and reasoning can effectively address challenging situations such as heavy rain and overcast conditions that hinder YOLOs detection capabilities.
翻訳日:2024-11-02 00:18:33 公開日:2024-10-07
# DreamSat: 宇宙物体の新しい視点合成のための汎用3次元モデルを目指して

DreamSat: Towards a General 3D Model for Novel View Synthesis of Space Objects ( http://arxiv.org/abs/2410.05097v1 )

ライセンス: Link先を確認
Nidhi Mathihalli, Audrey Wei, Giovanni Lavezzi, Peng Mun Siew, Victor Rodriguez-Fernandez, Hodei Urrutxua, Richard Linares, (参考訳) 新しいビュー合成(NVS)により、シーンの新しい画像を生成したり、2D画像のセットを包括的な3Dモデルに変換することができる。 Space Domain Awarenessの文脈では、宇宙はますます混雑しているので、NVSは宇宙オブジェクトとデブリを正確にマッピングし、宇宙運用の安全性と効率を向上させることができる。 同様に、Rendezvous と Proximity Operations のミッションでは、3Dモデルは対象のオブジェクトの形状、大きさ、方向に関する詳細を提供することができ、ターゲットの振る舞いをよりよく計画し予測することができる。 本研究は,高画質の190個の宇宙船モデルを用いて,現状の単一視点再構成モデルであるZero123 XLを微調整し,DreamGaussianフレームワークに組み込むことにより,新たな3次元宇宙船再構成への新たなアプローチを提示することによって,各シーンの再訓練の必要性を回避することを目的として,これらの再構築技術の一般化能力について検討する。 コントラスト言語-画像事前学習(CLIP)スコア(+0.33%)、ピーク信号-雑音比(PSNR)(+2.53%)、構造的類似度指数(SSIM)(+2.38%)、学習された知覚的画像パッチ類似度(LPIPS)(+0.16%)など、複数の指標における再現性の向上を実証した。 本研究では,最先端拡散モデルと3次元ガウススプラッティング技術を活用することで,宇宙産業におけるドメイン固有3次元再構成ツールの欠如に対処する。 このアプローチは、DreamGaussianフレームワークの効率を維持しながら、宇宙船の復元の精度と詳細を向上する。 この作業のコードはGitHubでアクセスできる(https://github.com/ARCLab-MIT/space-nvs)。

Novel view synthesis (NVS) enables to generate new images of a scene or convert a set of 2D images into a comprehensive 3D model. In the context of Space Domain Awareness, since space is becoming increasingly congested, NVS can accurately map space objects and debris, improving the safety and efficiency of space operations. Similarly, in Rendezvous and Proximity Operations missions, 3D models can provide details about a target object's shape, size, and orientation, allowing for better planning and prediction of the target's behavior. In this work, we explore the generalization abilities of these reconstruction techniques, aiming to avoid the necessity of retraining for each new scene, by presenting a novel approach to 3D spacecraft reconstruction from single-view images, DreamSat, by fine-tuning the Zero123 XL, a state-of-the-art single-view reconstruction model, on a high-quality dataset of 190 high-quality spacecraft models and integrating it into the DreamGaussian framework. We demonstrate consistent improvements in reconstruction quality across multiple metrics, including Contrastive Language-Image Pretraining (CLIP) score (+0.33%), Peak Signal-to-Noise Ratio (PSNR) (+2.53%), Structural Similarity Index (SSIM) (+2.38%), and Learned Perceptual Image Patch Similarity (LPIPS) (+0.16%) on a test set of 30 previously unseen spacecraft images. Our method addresses the lack of domain-specific 3D reconstruction tools in the space industry by leveraging state-of-the-art diffusion models and 3D Gaussian splatting techniques. This approach maintains the efficiency of the DreamGaussian framework while enhancing the accuracy and detail of spacecraft reconstructions. The code for this work can be accessed on GitHub (https://github.com/ARCLab-MIT/space-nvs).
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# 書き起こされた雑音音声の文法的音声文抽出における大規模言語モデルの検討

Investigating large language models for their competence in extracting grammatically sound sentences from transcribed noisy utterances ( http://arxiv.org/abs/2410.05099v1 )

ライセンス: Link先を確認
Alina Wróblewska, (参考訳) 音声固有の要素を効果的に無視しながら、ノイズの多い発話を選択的に処理することは、言語固有のノイズ(すなわち、ポーズ、拡散、再起動)から意味的に重要なコンテンツを分離する顕著な認知能力を示すため、人間にとって大きな課題にはならない。 これらの能力は、発話内の抽象構文・意味構造を構成する獲得された文法規則に基づくメカニズムによって駆動される。 構文的意味や意味的意味を持たないセグメントは、これらの構造において一貫して無視される。 これらの構造は、レキシスと接して、言語理解を弱め、効果的なコミュニケーションを促進する。 本研究では,言語的に動機づけた実験を基礎として,大言語モデル(LLM)がアナログ音声理解タスクを効果的に行うことができるかどうかを検討する。 特に,雑音対話の文字起こしから,LLMが適切に構造化された発話を抽出する能力について検討した。 ポーランド語のシナリオで2つの評価実験を行い、データ汚染のリスクを軽減するために、LLMになじみのないデータセットを用いた。 以上の結果から,全発話が正しく構成されているわけではなく,LLMが構文・意味的規則を完全に習得していないか,あるいはそれらの規則を効果的に適用できないことが示唆された。 我々は,LLMが雑音発声を理解する能力は,人間の処理能力と比較しても比較的表面的であると結論づけた。

Selectively processing noisy utterances while effectively disregarding speech-specific elements poses no considerable challenge for humans, as they exhibit remarkable cognitive abilities to separate semantically significant content from speech-specific noise (i.e. filled pauses, disfluencies, and restarts). These abilities may be driven by mechanisms based on acquired grammatical rules that compose abstract syntactic-semantic structures within utterances. Segments without syntactic and semantic significance are consistently disregarded in these structures. The structures, in tandem with lexis, likely underpin language comprehension and thus facilitate effective communication. In our study, grounded in linguistically motivated experiments, we investigate whether large language models (LLMs) can effectively perform analogical speech comprehension tasks. In particular, we examine the ability of LLMs to extract well-structured utterances from transcriptions of noisy dialogues. We conduct two evaluation experiments in the Polish language scenario, using a~dataset presumably unfamiliar to LLMs to mitigate the risk of data contamination. Our results show that not all extracted utterances are correctly structured, indicating that either LLMs do not fully acquire syntactic-semantic rules or they acquire them but cannot apply them effectively. We conclude that the ability of LLMs to comprehend noisy utterances is still relatively superficial compared to human proficiency in processing them.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# ハイパースペクトル画像分類のためのIGroupSS-Mamba-Interval Group Space-Spectral Mamba

IGroupSS-Mamba: Interval Group Spatial-Spectral Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2410.05100v1 )

ライセンス: Link先を確認
Yan He, Bing Tu, Puzhao Jiang, Bo Liu, Jun Li, Antonio Plaza, (参考訳) ハイパースペクトル画像(HSI)分類はリモートセンシング分野において大きな注目を集めている。 S6(Selective State Space Models)上に構築された最近のMambaアーキテクチャは、長距離シーケンスモデリングにおいて大きな可能性を示している。 しかし、高スペクトルデータと情報冗長性の高次元性は、準最適性能と計算効率に苦しむHSI分類におけるMambaの適用に困難をもたらす。 そこで本稿では,HSI分類のための軽量な空間スペクトルマンバフレームワーク(IGroupSS-Mamba)について検討する。 技術的には、インターバルグループS6メカニズム(IGSM)がコアコンポーネントとして開発され、高次元特徴を間隔で複数の非重複グループに分割し、各グループのための一方向S6を特定の走査方向に統合し、非冗長シーケンスモデリングを実現する。 従来の全バンドに対する多方向走査法と比較して、このグループ化戦略は、計算コストを低減しつつ、異なる走査方向の相補的な強度を利用する。 空間スペクトル情報を適切に取得するために、IGSMに基づく2つの空間スペクトル演算子をカスケードして、空間次元とスペクトル次元に沿った大域的空間スペクトル関係を特徴付けるIGSSB(Interval Group Spatial-Spectral Block)を導入する。 IGroupSS-Mambaは、複数のIGSSBブロックを積み重ねた階層構造として構築され、浅層から深層までの多スケール空間スペクトル意味学習のための画素集約に基づくダウンサンプリング戦略を統合する。 大規模な実験により、IGroupSS-Mambaは最先端の手法よりも優れていることが示された。

Hyperspectral image (HSI) classification has garnered substantial attention in remote sensing fields. Recent Mamba architectures built upon the Selective State Space Models (S6) have demonstrated enormous potential in long-range sequence modeling. However, the high dimensionality of hyperspectral data and information redundancy pose challenges to the application of Mamba in HSI classification, suffering from suboptimal performance and computational efficiency. In light of this, this paper investigates a lightweight Interval Group Spatial-Spectral Mamba framework (IGroupSS-Mamba) for HSI classification, which allows for multi-directional and multi-scale global spatial-spectral information extraction in a grouping and hierarchical manner. Technically, an Interval Group S6 Mechanism (IGSM) is developed as the core component, which partitions high-dimensional features into multiple non-overlapping groups at intervals, and then integrates a unidirectional S6 for each group with a specific scanning direction to achieve non-redundant sequence modeling. Compared to conventional applying multi-directional scanning to all bands, this grouping strategy leverages the complementary strengths of different scanning directions while decreasing computational costs. To adequately capture the spatial-spectral contextual information, an Interval Group Spatial-Spectral Block (IGSSB) is introduced, in which two IGSM-based spatial and spectral operators are cascaded to characterize the global spatial-spectral relationship along the spatial and spectral dimensions, respectively. IGroupSS-Mamba is constructed as a hierarchical structure stacked by multiple IGSSB blocks, integrating a pixel aggregation-based downsampling strategy for multiscale spatial-spectral semantic learning from shallow to deep stages. Extensive experiments demonstrate that IGroupSS-Mamba outperforms the state-of-the-art methods.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# MetaDD: ニューラルネットワークアーキテクチャ-不変一般化によるデータセット蒸留の促進

MetaDD: Boosting Dataset Distillation with Neural Network Architecture-Invariant Generalization ( http://arxiv.org/abs/2410.05103v1 )

ライセンス: Link先を確認
Yunlong Zhao, Xiaoheng Deng, Xiu Su, Hongyan Xu, Xiuxing Li, Yijing Liu, Shan You, (参考訳) データセット蒸留(DD)は、大規模なデータセットから洗練された、コンパクトな蒸留データセットを作成し、効率的なトレーニングを容易にする。 DDにおける重要な課題は、蒸留データセットと使用するニューラルネットワーク(NN)アーキテクチャの依存関係である。 特定のアーキテクチャを用いて蒸留したデータセットで異なるNNアーキテクチャをトレーニングすると、他のアーキテクチャのトレーニング性能が低下する。 本稿では,様々なNNアーキテクチャにおけるDDの一般化性を高めるために,MetaDDを提案する。 特にMetaDDは、蒸留したデータをメタ機能(すなわち、異なるNNアーキテクチャ間で一貫性のあるデータの共通特性)と異種機能(すなわち、各NNアーキテクチャに特有のデータの特徴)に分割する。 そこでMetaDDでは,マルチアーキテクチャ機能アライメントにアーキテクチャ不変の損失関数を導入し,メタ機能の向上と蒸留データの不均一な特徴の低減を実現している。 低メモリ消費コンポーネントとして、MetaDDはどんなDD方法論にもシームレスに統合できます。 実験の結果,MetaDDは様々なDDメソッドで性能を著しく向上することがわかった。 Sre2L(50 IPC)を用いた蒸留Tiny-Imagenetでは、MetaDDは最大30.1\%のクロスアーキテクチャNN精度を達成し、第2ベット法(GLaD)を1.7\%上回る。

Dataset distillation (DD) entails creating a refined, compact distilled dataset from a large-scale dataset to facilitate efficient training. A significant challenge in DD is the dependency between the distilled dataset and the neural network (NN) architecture used. Training a different NN architecture with a distilled dataset distilled using a specific architecture often results in diminished trainning performance for other architectures. This paper introduces MetaDD, designed to enhance the generalizability of DD across various NN architectures. Specifically, MetaDD partitions distilled data into meta features (i.e., the data's common characteristics that remain consistent across different NN architectures) and heterogeneous features (i.e., the data's unique feature to each NN architecture). Then, MetaDD employs an architecture-invariant loss function for multi-architecture feature alignment, which increases meta features and reduces heterogeneous features in distilled data. As a low-memory consumption component, MetaDD can be seamlessly integrated into any DD methodology. Experimental results demonstrate that MetaDD significantly improves performance across various DD methods. On the Distilled Tiny-Imagenet with Sre2L (50 IPC), MetaDD achieves cross-architecture NN accuracy of up to 30.1\%, surpassing the second-best method (GLaD) by 1.7\%.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# AIによる倫理的ハッキング:Linuxを使った実験

AI-Enhanced Ethical Hacking: A Linux-Focused Experiment ( http://arxiv.org/abs/2410.05105v1 )

ライセンス: Link先を確認
Haitham S. Al-Sinani, Chris J. Mitchell, (参考訳) 本技術報告では、総合的な実験研究と概念分析を通じて、生成AI(GenAI)、特にChatGPTを倫理的ハッキングの実践に統合する。 制御された仮想環境で実行されるこの研究は、仮想ローカルエリアネットワーク(LAN)内で動作しているLinuxベースのターゲットマシン上での侵入テストの重要段階におけるGenAIの有効性を評価し、偵察、スキャン、列挙、アクセスの獲得、アクセスの維持、トラックのカバーを含む。 その結果、GenAIは、人間の入力を完全に置き換えるよりも、バランスのとれた人間とAIのコラボレーションの重要性を強調しつつ、倫理的ハッキングプロセスを大幅に強化し、合理化することができることが確認された。 報告書はまた、誤用、データ偏見、幻覚、AIへの過度信頼といった潜在的なリスクについても批判的に検討している。 この研究は、サイバーセキュリティにおけるAIの倫理的利用に関する継続的な議論に貢献し、セキュリティ防衛を強化するための継続的なイノベーションの必要性を強調している。

This technical report investigates the integration of generative AI (GenAI), specifically ChatGPT, into the practice of ethical hacking through a comprehensive experimental study and conceptual analysis. Conducted in a controlled virtual environment, the study evaluates GenAI's effectiveness across the key stages of penetration testing on Linux-based target machines operating within a virtual local area network (LAN), including reconnaissance, scanning and enumeration, gaining access, maintaining access, and covering tracks. The findings confirm that GenAI can significantly enhance and streamline the ethical hacking process while underscoring the importance of balanced human-AI collaboration rather than the complete replacement of human input. The report also critically examines potential risks such as misuse, data biases, hallucination, and over-reliance on AI. This research contributes to the ongoing discussion on the ethical use of AI in cybersecurity and highlights the need for continued innovation to strengthen security defences.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# Richardson-Romberg外挿法による確率勾配の漸近解析

Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation ( http://arxiv.org/abs/2410.05106v1 )

ライセンス: Link先を確認
Marina Sheshukova, Denis Belomestny, Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov, (参考訳) 本稿では,確率勾配勾配勾配法(SGD)アルゴリズムを一定のステップサイズで解くことで,強い凸と滑らかな最小化問題を解く問題に対処する。 従来の研究は、ポリアク・ルパート平均化法とリチャードソン・ロンバーグ外挿法を組み合わせることで、分散の緩やかな増大を犠牲にしてSGDの漸近バイアスを低減することを示唆していた。 得られた推定子の平均二乗誤差を反復数$n$に対して拡張することにより、以前の結果を著しく拡張する。 より正確には、平均二乗誤差は次の2つの項の和に分解できる: 次数 $\mathcal{O}(n^{-1/2})$ が極小最大最適漸近共分散行列に明示的に依存する、および次数 $\mathcal{O}(n^{-3/4})$ の次数 $\mathcal{O}(n^{-3/4})$ の2次項。 また、この結果は、$n$に関して残りを最適にスケーリングし続ける$p$-第1モーメントまで拡張する。 我々の分析は、時相マルコフ連鎖と見なされるSGD反復体の性質に依存している。 特に、この鎖は、適切に定義された重み付きワッサーシュタイン半計量に関して幾何学的にエルゴード的であることを示す。

We address the problem of solving strongly convex and smooth minimization problems using stochastic gradient descent (SGD) algorithm with a constant step size. Previous works suggested to combine the Polyak-Ruppert averaging procedure with the Richardson-Romberg extrapolation technique to reduce the asymptotic bias of SGD at the expense of a mild increase of the variance. We significantly extend previous results by providing an expansion of the mean-squared error of the resulting estimator with respect to the number of iterations $n$. More precisely, we show that the mean-squared error can be decomposed into the sum of two terms: a leading one of order $\mathcal{O}(n^{-1/2})$ with explicit dependence on a minimax-optimal asymptotic covariance matrix, and a second-order term of order $\mathcal{O}(n^{-3/4})$ where the power $3/4$ can not be improved in general. We also extend this result to the $p$-th moment bound keeping optimal scaling of the remainders with respect to $n$. Our analysis relies on the properties of the SGD iterates viewed as a time-homogeneous Markov chain. In particular, we establish that this chain is geometrically ergodic with respect to a suitably defined weighted Wasserstein semimetric.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# ハイパー表現:ニューラルネットワークの人口から学ぶ

Hyper-Representations: Learning from Populations of Neural Networks ( http://arxiv.org/abs/2410.05107v1 )

ライセンス: Link先を確認
Konstantin Schürholt, (参考訳) この論文は、学習した情報をカプセル化し、モデルの振る舞いを決定する重みという、最も基本的なコンポーネントのレンズを通してニューラルネットワークを理解するという課題に対処する。 ニューラルネットワークモデルの集団から一般的なタスクに依存しない表現を学べるだろうか? この問いに答えるための重要な貢献は超表現であり、NN重みの表現を学習するための自己指導的な方法である。 この論文では、トレーニングされたNNモデルが、重み空間における意味のある構造を実際に占めており、学習と使用が可能であることを発見した。 広範な実験を通じて、この論文はハイパー表現が、その性能、トレーニング状態、ハイパーパラメータなどのモデル特性を明らかにすることを実証している。 さらに、超表現空間における特定の性質を持つ領域の同定により、対象特性を持つモデル重みのサンプリングと生成が可能となる。 この論文は、微調整や転向学習の応用を大いに成功に導くものである。 最後に、ハイパー表現がモデルのサイズ、アーキテクチャ、タスクを超えて一般化できるようにする方法を示す。 ニューラルネットワークの基盤モデルへの扉を開くことで、モデルやアーキテクチャにまたがる知識を集約し、インスタンス化するのだ。 最終的に、この論文はニューラルネットワークのより深い理解に寄与し、その重みの中の構造を調べ、より解釈可能で効率的で適応可能なモデルを生み出す。 NN重みの表現学習の基礎を築き,ニューラルネットワークの開発,解析,利用の方法を変える可能性を実証した。

This thesis addresses the challenge of understanding Neural Networks through the lens of their most fundamental component: the weights, which encapsulate the learned information and determine the model behavior. At the core of this thesis is a fundamental question: Can we learn general, task-agnostic representations from populations of Neural Network models? The key contribution of this thesis to answer that question are hyper-representations, a self-supervised method to learn representations of NN weights. Work in this thesis finds that trained NN models indeed occupy meaningful structures in the weight space, that can be learned and used. Through extensive experiments, this thesis demonstrates that hyper-representations uncover model properties, such as their performance, state of training, or hyperparameters. Moreover, the identification of regions with specific properties in hyper-representation space allows to sample and generate model weights with targeted properties. This thesis demonstrates applications for fine-tuning, and transfer learning to great success. Lastly, it presents methods that allow hyper-representations to generalize beyond model sizes, architectures, and tasks. The practical implications of that are profound, as it opens the door to foundation models of Neural Networks, which aggregate and instantiate their knowledge across models and architectures. Ultimately, this thesis contributes to the deeper understanding of Neural Networks by investigating structures in their weights which leads to more interpretable, efficient, and adaptable models. By laying the groundwork for representation learning of NN weights, this research demonstrates the potential to change the way Neural Networks are developed, analyzed, and used.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# LiDAR-GS:Gaussian Splattingを用いたリアルタイムLiDAR再シミュレーション

LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting ( http://arxiv.org/abs/2410.05111v1 )

ライセンス: Link先を確認
Qifeng Chen, Sheng Yang, Sicong Du, Tao Tang, Peng Chen, Yuchi Huo, (参考訳) LiDARシミュレーションは、自動運転におけるクローズドループシミュレーションにおいて重要な役割を果たす。 再構成メッシュやNeRF(Neural Radiance Fields)などの最近の進歩は、LiDARの物理特性のシミュレーションに進展しているが、これらの手法は良好なフレームレートとレンダリング品質を達成するのに苦労している。 これらの制約に対処するため,都市景観におけるLiDARセンサスキャンをリアルタイムに再現するために,最初のLiDARガウス法であるLiDAR-GSを提案する。 カメラモデル用に設計されたバニラ・ガウシアン・スプレイティングは、LiDARの再シミュレーションには直接適用できない。 受動カメラとアクティブLiDARのギャップを埋めるために、我々のLiDAR-GSはLiDARレンジビューモデルに接地した微分可能なレーザービームスプラッティングを設計した。 この革新により、レーザーをマイクロ断面に投射し、局所的なアフィン近似に関連するアーティファクトを効果的に除去することで、正確な表面スプラッティングが可能になる。 さらに、LiDAR-GSは、入射角と外部要因に影響される重要なLiDAR特性を表現するために、ビュー依存の手がかりをさらに統合するNeural Gaussian Fieldsを利用している。 これらのプラクティスと、動的インスタンスの分解といったいくつかの重要な適応を組み合わせることで、私たちのアプローチは、深度、強度、およびレイドロップチャネルを同時に再現し、公開可能な大規模なシーンデータセット上でのフレームレートと品質の両方のレンダリング結果を達成することができました。 私たちのソースコードは公開されます。

LiDAR simulation plays a crucial role in closed-loop simulation for autonomous driving. Although recent advancements, such as the use of reconstructed mesh and Neural Radiance Fields (NeRF), have made progress in simulating the physical properties of LiDAR, these methods have struggled to achieve satisfactory frame rates and rendering quality. To address these limitations, we present LiDAR-GS, the first LiDAR Gaussian Splatting method, for real-time high-fidelity re-simulation of LiDAR sensor scans in public urban road scenes. The vanilla Gaussian Splatting, designed for camera models, cannot be directly applied to LiDAR re-simulation. To bridge the gap between passive camera and active LiDAR, our LiDAR-GS designs a differentiable laser beam splatting, grounded in the LiDAR range view model. This innovation allows for precise surface splatting by projecting lasers onto micro cross-sections, effectively eliminating artifacts associated with local affine approximations. Additionally, LiDAR-GS leverages Neural Gaussian Fields, which further integrate view-dependent clues, to represent key LiDAR properties that are influenced by the incident angle and external factors. Combining these practices with some essential adaptations, e.g., dynamic instances decomposition, our approach succeeds in simultaneously re-simulating depth, intensity, and ray-drop channels, achieving state-of-the-art results in both rendering frame rate and quality on publically available large scene datasets. Our source code will be made publicly available.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-07
# GANとクローズドフォルムファクトリゼーションを用いた皮膚内視鏡画像の合成生成

Synthetic Generation of Dermatoscopic Images with GAN and Closed-Form Factorization ( http://arxiv.org/abs/2410.05114v1 )

ライセンス: Link先を確認
Rohan Reddy Mekala, Frederik Pahde, Simon Baur, Sneha Chandrashekar, Madeline Diep, Markus Wenzel, Eric L. Wisotzky, Galip Ümit Yolcu, Sebastian Lapuschkin, Jackie Ma, Peter Eisert, Mikael Lindvall, Adam Porter, Wojciech Samek, (参考訳) 皮膚科領域では、皮膚内視鏡的および顕微鏡的皮膚病変画像の解析が様々な医学的状況の正確かつ早期検出に重要であるため、多彩で高品質な注釈付きデータセットの作成に伴うコストは、機械学習モデルの精度と一般化性を妨げている。 本稿では,GAN(Generative Adversarial Network, GAN)をベースとしたモデルとそれに関連する手法を応用し, 皮膚内視鏡画像における半自動的な意味変化を制御して生成する,革新的な非教師なし拡張ソリューションを提案する。 セマンティックなバリエーションを取り入れた合成画像を作成し、これらの画像でトレーニングデータを拡張した。 このアプローチにより、機械学習モデルの性能を高め、HAM10000データセット上の皮膚病変分類における非アンサンブルベースモデルに新しいベンチマークを設定しました。

In the realm of dermatological diagnoses, where the analysis of dermatoscopic and microscopic skin lesion images is pivotal for the accurate and early detection of various medical conditions, the costs associated with creating diverse and high-quality annotated datasets have hampered the accuracy and generalizability of machine learning models. We propose an innovative unsupervised augmentation solution that harnesses Generative Adversarial Network (GAN) based models and associated techniques over their latent space to generate controlled semiautomatically-discovered semantic variations in dermatoscopic images. We created synthetic images to incorporate the semantic variations and augmented the training data with these images. With this approach, we were able to increase the performance of machine learning models and set a new benchmark amongst non-ensemble based models in skin lesion classification on the HAM10000 dataset; and used the observed analytics and generated models for detailed studies on model explainability, affirming the effectiveness of our solution.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# AlphaRouter:強化学習と木探索による量子回路ルーティング

AlphaRouter: Quantum Circuit Routing with Reinforcement Learning and Tree Search ( http://arxiv.org/abs/2410.05115v1 )

ライセンス: Link先を確認
Wei Tang, Yiheng Duan, Yaroslav Kharkov, Rasool Fakoor, Eric Kessler, Yunong Shi, (参考訳) 量子コンピュータは、最適化や数分解といった重要なタスクにおいて、古典的コンピュータより優れている可能性がある。 量子演算を実行するには、量子ビットと呼ばれる計算ビットをプログラム実行中の特定の場所にルーティングする必要がある。 伝統的に、ルーティングオーバーヘッドを最小限に抑えるNPハード最適化問題は、コスト関数設計に固有の人間のバイアスが埋め込まれた準最適ルールベースのルーティング技術によって解決されてきた。 本稿では,モンテカルロ木探索(MCTS)と強化学習(RL)を統合するソリューションを提案する。 我々のRLベースのルータであるAlphaRouterは、現在の最先端のルーティング手法より優れており、最大20\%のルーティングオーバーヘッドで量子プログラムを生成し、量子コンピューティングの全体的な効率と実現可能性を大幅に向上させる。

Quantum computers have the potential to outperform classical computers in important tasks such as optimization and number factoring. They are characterized by limited connectivity, which necessitates the routing of their computational bits, known as qubits, to specific locations during program execution to carry out quantum operations. Traditionally, the NP-hard optimization problem of minimizing the routing overhead has been addressed through sub-optimal rule-based routing techniques with inherent human biases embedded within the cost function design. This paper introduces a solution that integrates Monte Carlo Tree Search (MCTS) with Reinforcement Learning (RL). Our RL-based router, called AlphaRouter, outperforms the current state-of-the-art routing methods and generates quantum programs with up to $20\%$ less routing overhead, thus significantly enhancing the overall efficiency and feasibility of quantum computing.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# オンライン拡散モデルファインタニングのためのヒューマンフィードバック効率的な強化学習

Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning ( http://arxiv.org/abs/2410.05116v1 )

ライセンス: Link先を確認
Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji, (参考訳) 安定拡散(SD)ファインチューニングによる制御可能な生成は、人間の指示に忠実さ、安全性、整合性を改善することを目的としている。 人間のフィードバック手法から既存の強化学習は、通常、定義済みのヒューリスティック報酬関数や、大規模データセット上に構築された事前訓練された報酬モデルに依存しており、そのようなデータ収集が高価または困難であるシナリオに適用性を制限する。 人的フィードバックを効果的かつ効率的に活用するために,モデル学習中に収集したオンライン人的フィードバックを活用するフレームワークHEROを開発した。 具体的には,(1)人間のフィードバックを捉え,微調整のための情報学習信号を提供するオンライン学習手法であるフィードバック適応表現学習と,(2)SDの精巧な初期化サンプルから画像を生成するフィードバックガイド画像生成の2つのメカニズムを特徴とする。 HEROは,既存手法と比較して,身体部分異常補正のオンラインフィードバックにおいて4倍効率が高いことを示す。 さらに、HEROは推論、カウント、パーソナライズ、NSFWコンテンツの削減といったタスクを0.5Kのオンラインフィードバックで効果的に処理できることが実験によって示されている。

Controllable generation through Stable Diffusion (SD) fine-tuning aims to improve fidelity, safety, and alignment with human guidance. Existing reinforcement learning from human feedback methods usually rely on predefined heuristic reward functions or pretrained reward models built on large-scale datasets, limiting their applicability to scenarios where collecting such data is costly or difficult. To effectively and efficiently utilize human feedback, we develop a framework, HERO, which leverages online human feedback collected on the fly during model learning. Specifically, HERO features two key mechanisms: (1) Feedback-Aligned Representation Learning, an online training method that captures human feedback and provides informative learning signals for fine-tuning, and (2) Feedback-Guided Image Generation, which involves generating images from SD's refined initialization samples, enabling faster convergence towards the evaluator's intent. We demonstrate that HERO is 4x more efficient in online feedback for body part anomaly correction compared to the best existing method. Additionally, experiments show that HERO can effectively handle tasks like reasoning, counting, personalization, and reducing NSFW content with only 0.5K online feedback.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# Assouad, Fano, Le Cam with Interaction: An Unification Lower Bound Framework and Characterization for Bandit Learnability (特集:ヒューマンコミュニケーション)

Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit Learnability ( http://arxiv.org/abs/2410.05117v1 )

ライセンス: Link先を確認
Fan Chen, Dylan J. Foster, Yanjun Han, Jian Qian, Alexander Rakhlin, Yunbei Xu, (参考訳) 本稿では,統計的推定と対話的意思決定における下界手法の統一的枠組みを開発する。 ファノの不等式、ル・カムの方法、アスーアの補題のような古典的な下界の手法は、統計的推定におけるミニマックスリスクの研究の中心であるが、データを対話的に収集する手法の分析には不十分である。 最近のDEC(Decision-Estimation Coefficient)による対話的意思決定の最小限境界は、古典的手法と真に異なるようである。 一般的なアルゴリズム的下界法を用いて,これらの異なる手法の統一的なビューを提案する。 さらに、インタラクティブな意思決定のための新しい下位境界の導出を容易にする、新しい複雑性尺度、決定次元を導入する。 特に、決定次元は任意の構造化バンディットモデルクラスに対するバンディット学習可能性の特徴を与える。 さらに,Foster et al (2021, 2023) における上界と下界の残りのギャップに対処し, 決定次元の多項式ギャップまで学習凸モデルクラスのサンプル複雑性を特徴付ける。

In this paper, we develop a unified framework for lower bound methods in statistical estimation and interactive decision making. Classical lower bound techniques -- such as Fano's inequality, Le Cam's method, and Assouad's lemma -- have been central to the study of minimax risk in statistical estimation, yet they are insufficient for the analysis of methods that collect data in an interactive manner. The recent minimax lower bounds for interactive decision making via the Decision-Estimation Coefficient (DEC) appear to be genuinely different from the classical methods. We propose a unified view of these distinct methodologies through a general algorithmic lower bound method. We further introduce a novel complexity measure, decision dimension, which facilitates the derivation of new lower bounds for interactive decision making. In particular, decision dimension provides a characterization of bandit learnability for any structured bandit model class. Further, we characterize the sample complexity of learning convex model class up to a polynomial gap with the decision dimension, addressing the remaining gap between upper and lower bounds in Foster et al. (2021, 2023).
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# LLMに基づくマルチエージェントによるスケーラブルかつ正確なグラフ推論

Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents ( http://arxiv.org/abs/2410.05130v1 )

ライセンス: Link先を確認
Yuwei Hu, Runlin Lei, Xinyi Huang, Zhewei Wei, Yongchao Liu, (参考訳) 最近の研究は、複雑なグラフ推論タスクにLarge Language Models(LLMs)を使うことについて検討している。 しかし、グラフ構造が複雑であり、長いテキストを扱うのに LLM 固有の制限があるため、現在のアプローチは小さなグラフや単純なタスクであっても、満足のいく精度を達成できないことが多い。 このような課題に対処するため,グラフ推論のためのマルチエージェント協調戦略を利用する,微調整不要なフレームワークであるGraphAgent-Reasonerを紹介した。 分散グラフ計算理論にインスパイアされた我々のフレームワークは、グラフ問題を複数のエージェント間で分散される小さなノード中心のタスクに分解する。 エージェントは全体の問題を解決するために協力し、単一のLSMで処理される情報量や複雑さを著しく低減し、グラフ推論の精度を向上する。 エージェントの数を増やすだけで、GraphAgent-Reasonerは効率的にスケールして1,000以上のノードを持つ大きなグラフに対応できる。 グラフインストラクタデータセットを用いて,多項式時間グラフ推論タスクにおけるほぼ完全な精度を示し,クローズドソースおよびファインチューニングのオープンソースモデルにおいて,最も優れたモデルよりも優れていた。 また,本フレームワークは,Webページ重要度分析などの実世界のグラフ推論アプリケーションを扱う能力を示す。

Recent research has explored the use of Large Language Models (LLMs) for tackling complex graph reasoning tasks. However, due to the intricacies of graph structures and the inherent limitations of LLMs in handling long text, current approaches often fail to deliver satisfactory accuracy, even on small-scale graphs and simple tasks. To address these challenges, we introduce GraphAgent-Reasoner, a fine-tuning-free framework that utilizes a multi-agent collaboration strategy for explicit and precise graph reasoning. Inspired by distributed graph computation theory, our framework decomposes graph problems into smaller, node-centric tasks that are distributed among multiple agents. The agents collaborate to solve the overall problem, significantly reducing the amount of information and complexity handled by a single LLM, thus enhancing the accuracy of graph reasoning. By simply increasing the number of agents, GraphAgent-Reasoner can efficiently scale to accommodate larger graphs with over 1,000 nodes. Evaluated on the GraphInstruct dataset, our framework demonstrates near-perfect accuracy on polynomial-time graph reasoning tasks, significantly outperforming the best available models, both closed-source and fine-tuned open-source variants. Our framework also demonstrates the capability to handle real-world graph reasoning applications such as webpage importance analysis.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# エクサスケールにおける液体冷却スーパーコンピュータのディジタルツインフレームワーク

A Digital Twin Framework for Liquid-cooled Supercomputers as Demonstrated at Exascale ( http://arxiv.org/abs/2410.05133v1 )

ライセンス: Link先を確認
Wesley Brewer, Matthias Maiterth, Vineet Kumar, Rafal Wojda, Sedrick Bouknight, Jesse Hines, Woong Shin, Scott Greenwood, David Grant, Wesley Williams, Feiyi Wang, (参考訳) 本稿では,液体冷却スーパーコンピュータの総合的デジタルツインを開発するためのオープンソースフレームワークであるExaDigiTを紹介する。 1)資源アロケータと電力シミュレータ、(2)過渡的な熱流体冷却モデル、(3)スーパーコンピュータと中央エネルギープラントの拡張現実モデルである。 このフレームワークは、将来のシステムの"What-if"シナリオ、システムの最適化、仮想プロトタイピングの研究を可能にする。 Frontierをケーススタディとして、システムテレメトリの6ヶ月をシステム検証と検証のために再生することで、フレームワークの能力を実証する。 このような液体冷却されたエクサスケールスーパーコンピュータの包括的な分析は、この種の最初のものである。 ExaDigiTは複雑な過渡冷却システムの力学を解明し、合成または実際のワークロードを実行し、整流と電圧変換によるエネルギー損失を予測する。 本稿では,HPC実践者が同様のデジタル双生児を開発するために学んだ教訓を紹介する。 われわれは、デジタルツインが持続可能なエネルギー効率の高いスーパーコンピュータの鍵となると期待している。

We present ExaDigiT, an open-source framework for developing comprehensive digital twins of liquid-cooled supercomputers. It integrates three main modules: (1) a resource allocator and power simulator, (2) a transient thermo-fluidic cooling model, and (3) an augmented reality model of the supercomputer and central energy plant. The framework enables the study of "what-if" scenarios, system optimizations, and virtual prototyping of future systems. Using Frontier as a case study, we demonstrate the framework's capabilities by replaying six months of system telemetry for systematic verification and validation. Such a comprehensive analysis of a liquid-cooled exascale supercomputer is the first of its kind. ExaDigiT elucidates complex transient cooling system dynamics, runs synthetic or real workloads, and predicts energy losses due to rectification and voltage conversion. Throughout our paper, we present lessons learned to benefit HPC practitioners developing similar digital twins. We envision the digital twin will be a key enabler for sustainable, energy-efficient supercomputing.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# LOTOS:ロバストアンサンブルのレイヤーワイド直交化

LOTOS: Layer-wise Orthogonalization for Training Robust Ensembles ( http://arxiv.org/abs/2410.05136v1 )

ライセンス: Link先を確認
Ali Ebrahimpour-Boroojeny, Hari Sundaram, Varun Chandrasekaran, (参考訳) 逆例の転送性は、ブラックボックスクエリを通してのみアクセス可能なものであっても、すべての分類モデルを危険にさらす、よく知られた特性である。 以前の研究は、モデルのアンサンブルが転送可能性に対してより弾力性があることを示しており、敵の例がアンサンブルのほとんどのモデルに対して有効である確率は低い。 したがって、ほとんどの研究はアンサンブルの多様性を改善することに焦点を当てている。 別の以前の研究で、モデルのリプシッツ連続性は、モデルの出力が小さな入力摂動でどのように変化するかを制限するため、モデルをより堅牢にすることができることが示されている。 本稿では,リプシッツ連続性が伝達率に及ぼす影響について検討する。 より低いリプシッツ定数は単一モデルのロバスト性を高めるが、アンサンブル内のモデル間の逆例の移動率を高めるほど、ロバストアンサンブルの訓練には有益ではないことを示す。 そこで本研究では,この悪影響に対処する新たなアンサンブル訓練パラダイムであるLOTOSを紹介する。 これは、アンサンブル内の任意の一対のモデルの対応するアフィン層の変換の上位$k$部分空間の直交性を促進することによって行われる。 理論的には、$k$ は畳み込み層に対して大きすぎる必要はなく、計算オーバーヘッドを無視できることを示す。 様々な実験を通して、LOTOSはCIFAR-10に対するブラックボックス攻撃に対して、ResNet-18モデルのアンサンブルの堅牢な精度を6ドルパーセンテージポイント(p.p)で向上させることを示した。 また、ロバストアンサンブルを訓練するための従来の最先端の手法の頑丈さと組み合わせて、ロバスト精度を10.7ドルのp.pで向上させることができる。

Transferability of adversarial examples is a well-known property that endangers all classification models, even those that are only accessible through black-box queries. Prior work has shown that an ensemble of models is more resilient to transferability: the probability that an adversarial example is effective against most models of the ensemble is low. Thus, most ongoing research focuses on improving ensemble diversity. Another line of prior work has shown that Lipschitz continuity of the models can make models more robust since it limits how a model's output changes with small input perturbations. In this paper, we study the effect of Lipschitz continuity on transferability rates. We show that although a lower Lipschitz constant increases the robustness of a single model, it is not as beneficial in training robust ensembles as it increases the transferability rate of adversarial examples across models in the ensemble. Therefore, we introduce LOTOS, a new training paradigm for ensembles, which counteracts this adverse effect. It does so by promoting orthogonality among the top-$k$ sub-spaces of the transformations of the corresponding affine layers of any pair of models in the ensemble. We theoretically show that $k$ does not need to be large for convolutional layers, which makes the computational overhead negligible. Through various experiments, we show LOTOS increases the robust accuracy of ensembles of ResNet-18 models by $6$ percentage points (p.p) against black-box attacks on CIFAR-10. It is also capable of combining with the robustness of prior state-of-the-art methods for training robust ensembles to enhance their robust accuracy by $10.7$ p.p.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-07
# 金属表面から散乱する分子の非断熱量子ダイナミクス

Nonadiabatic Quantum Dynamics of Molecules Scattering from Metal Surfaces ( http://arxiv.org/abs/2410.05142v1 )

ライセンス: Link先を確認
Riley J. Preston, Yaling Ke, Samuel L. Rudge, Nils Hertl, Raffaele Borrelli, Reinhard J. Maurer, Michael Thoss, (参考訳) 電子と金属表面の分子運動の間の非断熱的結合は、化学表面のダイナミックスにおけるエネルギー散逸と動的ステアリング効果をもたらす。 我々は、金属表面から分子を散乱させる理論的アプローチを提案し、金属中の電子に分子の自由度が結合するため、すべての非断熱的および量子核効果を包含する。 これは、階層的な運動方程式(HEOM)アプローチと双対空間における行列積状態表現を組み合わせることで達成される。 この方法は、Au(111)からの一酸化窒素の散乱に応用され、散乱中の強非線形エネルギー損失が実験的に観察され、重要な理論的課題が提示されている。 HEOMアプローチは分子と表面のカップリングを正確に扱うため、非断熱効果と量子核効果の相互作用を捉える。 最後に、HEOM法により得られたデータは、様々な混合量子古典的手法を評価するための厳密なベンチマークとして使用され、そこからエネルギー散逸のメカニズムと各手法の適切な作業条件に関する洞察を導き出す。

Nonadiabatic coupling between electrons and molecular motion at metal surfaces leads to energy dissipation and dynamical steering effects during chemical surface dynamics. We present a theoretical approach to the scattering of molecules from metal surfaces that incorporates all nonadiabatic and quantum nuclear effects due to the coupling of the molecular degrees of freedom to the electrons in the metal. This is achieved with the hierarchical equations of motion (HEOM) approach combined with a matrix product state representation in twin space. The method is applied to the scattering of nitric oxide from Au(111), for which strongly nonadiabatic energy loss during scattering has been experimentally observed, thus presenting a significant theoretical challenge. Since the HEOM approach treats the molecule-surface coupling exactly, it captures the interplay between nonadiabatic and quantum nuclear effects. Finally, the data obtained by the HEOM approach is used as a rigorous benchmark to assess various mixed quantum-classical methods, from which we derive insights into the mechanisms of energy dissipation and the suitable working regimes of each method.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-07
# マルチモーダル拡散モデルによるサイド情報によるイメージングの高速化

Leveraging Multimodal Diffusion Models to Accelerate Imaging with Side Information ( http://arxiv.org/abs/2410.05143v1 )

ライセンス: Link先を確認
Timofey Efimov, Harry Dong, Megna Shah, Jeff Simmons, Sean Donegan, Yuejie Chi, (参考訳) 拡散モデルは、逆問題を解決するための表現力のある先行要因として現象的成功を見出したが、自然画像からより構造化された科学領域への拡張は依然として限られている。 材料科学の応用により、我々は、高価な画像モダリティから必要な測定数を減らし、より安価に得られる補助モダリティから側情報を活用することを目的としている。 フォワードモデルの非微分可能・ブラックボックスの性質に対処するため,ブラックボックスフォワードモデルの逆問題を単純な線形塗装問題に変換することで,ジョイントモダリティ上のマルチモーダル拡散モデルを訓練する枠組みを提案する。 数値解析により,材料画像データに対するトレーニング拡散モデルの有効性を実証し,利用可能な側情報を活用することにより,高額な顕微鏡モダリティから得られるデータ量を大幅に削減し,優れた画像再構成を実現することを示す。

Diffusion models have found phenomenal success as expressive priors for solving inverse problems, but their extension beyond natural images to more structured scientific domains remains limited. Motivated by applications in materials science, we aim to reduce the number of measurements required from an expensive imaging modality of interest, by leveraging side information from an auxiliary modality that is much cheaper to obtain. To deal with the non-differentiable and black-box nature of the forward model, we propose a framework to train a multimodal diffusion model over the joint modalities, turning inverse problems with black-box forward models into simple linear inpainting problems. Numerically, we demonstrate the feasibility of training diffusion models over materials imagery data, and show that our approach achieves superior image reconstruction by leveraging the available side information, requiring significantly less amount of data from the expensive microscopy modality.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-07
# 量子エラー伝播

Quantum Error Propagation ( http://arxiv.org/abs/2410.05145v1 )

ライセンス: Link先を確認
Eldar Sultanow, Fation Selimllari, Siddhant Dutta, Barry D. Reese, Madjid Tehrani, William J Buchanan, (参考訳) 機械学習モデルに対するデータ中毒攻撃は、訓練されたモデルが攻撃者の好意によって振る舞うように、モデルトレーニングに使用されるデータを操作することを目的としている。 ディープニューラルネットワークのような古典的なモデルでは、ドット生成物の大きな連鎖は、攻撃者が注入したエラーを伝播または蓄積させる。 しかし、量子モデルはどうだろう? 我々の仮説は、量子機械学習において、エラーの伝播は2つの理由で制限されているというものである。 まず、量子コンピューティングにおけるデータは、ブロッホ球に制限された量子ビットで符号化される。 第二に、量子情報処理はノルム保存であるユニタリ演算子の応用によって行われる。 この仮説を検証し, 広範囲なエラー伝播と有害な攻撃が量子機械学習に与える影響について検討する。

Data poisoning attacks on machine learning models aim to manipulate the data used for model training such that the trained model behaves in the attacker's favor. In classical models such as deep neural networks, large chains of dot products do indeed cause errors injected by an attacker to propagate or to accumulate. But what about quantum models? Our hypothesis is that, in quantum machine learning, error propagation is limited for two reasons. First of all, data, which in quantum computing is encoded in terms of qubits which are confined to the Bloch sphere. Second of all, quantum information processing happens via the application of unitary operators which are norm-preserving. Testing this hypothesis, we investigate how extensive error propagation and thus poisoning attacks affect quantum machine learning.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-07
# CTC-GMM: 高速かつ高精度なストリーミング音声翻訳のためのCTCガイド付きモダリティマッチング

CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation ( http://arxiv.org/abs/2410.05146v1 )

ライセンス: Link先を確認
Rui Zhao, Jinyu Li, Ruchao Fan, Matt Post, (参考訳) ストリーム音声翻訳(ST)モデルは、ソース言語で大量のペア音声とターゲット言語で書かれたテキストで開発された場合、高い精度と低レイテンシを実現することができる。 しかし、これらのテキストラベルは、手動STデータラベルの禁止コストのため、しばしば擬似ラベルである。 本稿では,広範囲な機械翻訳(MT)テキストデータを活用することで,ストリーミングSTモデルを改善するCTC-GMM (Connectionist Temporal Classification Guided modality matching) という手法を提案する。 この手法はCTCを用いて、対応するテキストシーケンスにマッチするコンパクトな埋め込みシーケンスに音声シーケンスを圧縮し、MTコーパスからマッチした {source-target} 言語テキストペアを使用してストリーミングSTモデルを更に洗練する。 FLEURS と CoVoST2 を用いて評価した結果,CTC-GMM による変換精度は,それぞれ 13.9% と 6.4% 向上し,デコード速度は 59.7% 向上した。

Models for streaming speech translation (ST) can achieve high accuracy and low latency if they're developed with vast amounts of paired audio in the source language and written text in the target language. Yet, these text labels for the target language are often pseudo labels due to the prohibitive cost of manual ST data labeling. In this paper, we introduce a methodology named Connectionist Temporal Classification guided modality matching (CTC-GMM) that enhances the streaming ST model by leveraging extensive machine translation (MT) text data. This technique employs CTC to compress the speech sequence into a compact embedding sequence that matches the corresponding text sequence, allowing us to utilize matched {source-target} language text pairs from the MT corpora to refine the streaming ST model further. Our evaluations with FLEURS and CoVoST2 show that the CTC-GMM approach can increase translation accuracy relatively by 13.9% and 6.4% respectively, while also boosting decoding speed by 59.7% on GPU.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-07
# Retrieval-augmented Language Modelにおけるパラメトリックメモリと非パラメトリックメモリの相互作用の解読

Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models ( http://arxiv.org/abs/2410.05162v1 )

ライセンス: Link先を確認
Mehrdad Farahani, Richard Johansson, (参考訳) 生成言語モデルは、しばしば専門的またはあまり議論されていない知識に苦しむ。 潜在的な解決策は、応答を生成する前に情報を取得するように振る舞うRetrieval-Augmented Generation (RAG)モデルに見られる。 本研究では、RAGモデルであるtextsc{Atlas} アプローチが、すでに知っているもの(パラメトリック)と取り出すもの(非パラメトリック)をどう判断するかを検討する。 我々は、因果媒介分析と制御実験を用いて、内部表現が情報処理にどのように影響するかを調べる。 本研究は,パラメトリック知識と検索コンテキストの影響を解消するものである。 彼らは、モデルが両方の種類の情報(パラメトリックとノンパラメトリック)を選択できる場合、パラメトリックの知識よりもコンテキストに依存していることを示している。 さらに、分析は、モデルがコンテキストから情報を使用する場合のemph{how}に関する計算を調査する。 その結果,複数のメカニズムがモデル内でアクティブに動作し,仲介分析によって検出できることが判明した。第1に,コンテキストが関係するかどうかの判断,第2に,エンコーダが出力表現を計算して,関連性のあるコピーをサポートする方法である。

Generative language models often struggle with specialized or less-discussed knowledge. A potential solution is found in Retrieval-Augmented Generation (RAG) models which act like retrieving information before generating responses. In this study, we explore how the \textsc{Atlas} approach, a RAG model, decides between what it already knows (parametric) and what it retrieves (non-parametric). We use causal mediation analysis and controlled experiments to examine how internal representations influence information processing. Our findings disentangle the effects of parametric knowledge and the retrieved context. They indicate that in cases where the model can choose between both types of information (parametric and non-parametric), it relies more on the context than the parametric knowledge. Furthermore, the analysis investigates the computations involved in \emph{how} the model uses the information from the context. We find that multiple mechanisms are active within the model and can be detected with mediation analysis: first, the decision of \emph{whether the context is relevant}, and second, how the encoder computes output representations to support copying when relevant.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-07
# Presto! - 音楽生成の高速化のためのステップとレイヤー

Presto! Distilling Steps and Layers for Accelerating Music Generation ( http://arxiv.org/abs/2410.05167v1 )

ライセンス: Link先を確認
Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan, (参考訳) 拡散に基づくテキスト・ツー・ミュージック(TTM)手法の進歩にもかかわらず、効率的で高品質な生成は依然として課題である。 サンプリングステップと1ステップあたりのコストの両方を削減し,スコアベース拡散変圧器の推論高速化手法であるPresto!を導入する。 そこで我々は, 拡散モデルのEDM-ファミリーのための新しいスコアベース分散マッチング蒸留法 (DMD) を開発した。 工程当たりのコストを削減するため, 隠れ状態の分散をよく保ち, 学習を改善するため, 最近の層蒸留法を改良した。 最後に, 段差蒸留法と層差蒸留法を併用し, 二重面法を提案する。 ステップおよび層蒸留法を独立に評価し,各収率の最高性能を示す。 混合蒸留法により, 高品質のTTMを10-18x(32秒のモノ/ステレオ44.1kHzで230/435msレイテンシ, 同等のSOTAより15倍高速)で生成できる。 音の例はhttps://presto-music.github.io/web/.com/にある。

Despite advances in diffusion-based text-to-music (TTM) methods, efficient, high-quality generation remains a challenge. We introduce Presto!, an approach to inference acceleration for score-based diffusion transformers via reducing both sampling steps and cost per step. To reduce steps, we develop a new score-based distribution matching distillation (DMD) method for the EDM-family of diffusion models, the first GAN-based distillation method for TTM. To reduce the cost per step, we develop a simple, but powerful improvement to a recent layer distillation method that improves learning via better preserving hidden state variance. Finally, we combine our step and layer distillation methods together for a dual-faceted approach. We evaluate our step and layer distillation methods independently and show each yield best-in-class performance. Our combined distillation method can generate high-quality outputs with improved diversity, accelerating our base model by 10-18x (230/435ms latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) -- the fastest high-quality TTM to our knowledge. Sound examples can be found at https://presto-music.github.io/web/.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# ReasoningRank: Reasoning-based Knowledge Distillation による学生のランク付け指導

ReasoningRank: Teaching Student Models to Rank through Reasoning-Based Knowledge Distillation ( http://arxiv.org/abs/2410.05168v1 )

ライセンス: Link先を確認
Yuelyu Ji, Zhuochun Li, Rui Meng, Daqing He, (参考訳) 情報検索において、所定のクエリとの関連性に基づくドキュメントのランク付けが重要となる。 従来のランク付け手法は、最初のランク付けを改善することに重点を置いていることが多いが、透明性が欠如している。 本稿では,文書が問合せにどう対処するかを記述した明示的推論と,他の文書との関連性を正当化する比較推論という,2つのタイプの推論を生成することによって,明確性を高める新しい評価手法であるReasoningRankを紹介する。 我々は、大きな言語モデル(LLM)を教師モデルとして活用し、これらの説明を生成し、これらの知識をより小さく、よりリソース効率の良い学生モデルに抽出する。 学生モデルはLSMを高速で上回るものではないが、リソースを少なくすることで計算負担を大幅に減らし、大規模または資源制約のある設定に適している。 これらの学生モデルは、有意義な推論と再帰的なドキュメントを生成するように訓練されており、MSMARCOやBRIGHTなど、複数のデータセットで競合するパフォーマンスを達成する。 実験では、ReasoningRankがリランク精度を改善し、意思決定プロセスに関する貴重な洞察を提供し、リランクタスクのための構造化され解釈可能なソリューションを提供する。

Reranking documents based on their relevance to a given query is critical in information retrieval. Traditional reranking methods often focus on improving the initial rankings but lack transparency, failing to explain why one document is ranked higher. In this paper, we introduce ReasoningRank, a novel reranking approach that enhances clarity by generating two types of reasoning: explicit reasoning, which explains how a document addresses the query, and comparison reasoning, which justifies the relevance of one document over another. We leverage large language models (LLMs) as teacher models to generate these explanations and distill this knowledge into smaller, more resource-efficient student models. While the student models may not outperform LLMs in speed, they significantly reduce the computational burden by requiring fewer resources, making them more suitable for large-scale or resource-constrained settings. These student models are trained to both generate meaningful reasoning and rerank documents, achieving competitive performance across multiple datasets, including MSMARCO and BRIGHT. Experiments demonstrate that ReasoningRank improves reranking accuracy and provides valuable insights into the decision-making process, offering a structured and interpretable solution for reranking tasks.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# 次元ジャンプによるハイパーグラフ製品符号の単発作成

Single-shot preparation of hypergraph product codes via dimension jump ( http://arxiv.org/abs/2410.05171v1 )

ライセンス: Link先を確認
Yifan Hong, (参考訳) 量子誤り訂正は、フォールトトレラント量子コンピューティングの基本的なプリミティブである。 しかし、エラー訂正が進むためには、まず、下層のエラー訂正コードのコード空間を準備しなければならない。 量子低密度パリティチェック符号を符号化する一般的な方法は、製品状態から開始し、安定化器発生器のセットを測定するトランスバーサル初期化(Transversal initialization)である。 しかし、測定誤差の存在下では、この手順は一般にフォールトトレラントではないため、通常、測定を何度も繰り返す必要があるため、深い初期化回路となる。 本稿では,定数レートのハイパーグラフ製品のコード空間を$O(\sqrt{n})$空間オーバーヘッドで一定深さで生成するプロトコルを提案する。 我々の構成はトポロジカルコードにおける次元跳躍にインスパイアされ、コードのホモロジー積から生じる2つの特性を利用する。 我々は,空間的オーバーヘッドを低減し,フォールトトレラントアーキテクチャへの応用について議論する。

Quantum error correction is a fundamental primitive of fault-tolerant quantum computing. But in order for error correction to proceed, one must first prepare the codespace of the underlying error-correcting code. A popular method for encoding quantum low-density parity-check codes is transversal initialization, where one begins in a product state and measures a set of stabilizer generators. In the presence of measurement errors however, this procedure is generically not fault-tolerant, and so one typically needs to repeat the measurements many times, resulting in a deep initialization circuit. We present a protocol that prepares the codespace of constant-rate hypergraph product codes in constant depth with $O(\sqrt{n})$ spatial overhead, and we show that the protocol is robust even in the presence of measurement errors. Our construction is inspired by dimension-jumping in topological codes and leverages two properties that arise from the homological product of codes. We provide some improvements to lower the spatial overhead and discuss applications to fault-tolerant architectures.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# マルチトリートメントシナリオ下での最適レコメンデーションのための因果効果推定は十分か?

Are causal effect estimations enough for optimal recommendations under multitreatment scenarios? ( http://arxiv.org/abs/2410.05177v1 )

ライセンス: Link先を確認
Sherly Alfonso-Sánchez, Kristina P. Sendova, Cristián Bravo, (参考訳) 治療選択決定を行う際には、異なる治療や制御下での潜在的な結果を比較するための因果効果推定分析を含め、最適な選択を支援することが不可欠である。 しかし、個々の治療効果を単に見積もるだけでは、真に最適な判断には十分ではないかもしれない。 本研究は、ポートフォリオや保険管理において一般的に用いられる条件付きリスクによって測定される評価の不確実性などの追加基準を組み込むことで、この問題に対処する。 治療前後で観察可能な連続的な結果に対しては,特定の予測条件を取り入れた。 我々は, 治療効果が最適であり, 治療後結果がプレトリートレベルよりも望ましい治療を優先し, 後者の条件を予測基準と呼ぶ。 これらの観点から,多処理選択のための包括的方法論を提案する。 提案手法は,従来の因果モデルを採用する前の予備段階として,確率スコアモデルをトレーニングすることで,治療群と対照群の比較に不可欠な重なり合う仮定の満足度を確保する。 本手法の実用化を実証するために,クレジットカード制限調整問題に適用した。 フィンテック企業の履歴データを分析したところ、偽造予測のみに頼ることは、適切な信用線修正には不十分であることがわかりました。 提案した追加基準を組み込むことで、政策性能が大幅に向上した。

When making treatment selection decisions, it is essential to include a causal effect estimation analysis to compare potential outcomes under different treatments or controls, assisting in optimal selection. However, merely estimating individual treatment effects may not suffice for truly optimal decisions. Our study addressed this issue by incorporating additional criteria, such as the estimations' uncertainty, measured by the conditional value-at-risk, commonly used in portfolio and insurance management. For continuous outcomes observable before and after treatment, we incorporated a specific prediction condition. We prioritized treatments that could yield optimal treatment effect results and lead to post-treatment outcomes more desirable than pretreatment levels, with the latter condition being called the prediction criterion. With these considerations, we propose a comprehensive methodology for multitreatment selection. Our approach ensures satisfaction of the overlap assumption, crucial for comparing outcomes for treated and control groups, by training propensity score models as a preliminary step before employing traditional causal models. To illustrate a practical application of our methodology, we applied it to the credit card limit adjustment problem. Analyzing a fintech company's historical data, we found that relying solely on counterfactual predictions was inadequate for appropriate credit line modifications. Incorporating our proposed additional criteria significantly enhanced policy performance.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# 量子カオスによる古典から量子ランダムへの最適変換

Optimal Conversion from Classical to Quantum Randomness via Quantum Chaos ( http://arxiv.org/abs/2410.05181v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Tobias Haug, Adam L. Shaw, Manuel Endres, John Preskill, (参考訳) 量子多体システムは、カオス、ランダム性、複雑さの間の豊富な相互作用を探索するためのユニークなプラットフォームを提供する。 近年提案された「深熱化」パラダイムでは、システムAのランダム量子状態は、ABに協調して作用するカオスハミルトニアン進化の後、システムBの射影測定を行うことによって生成される。 このスキームでは、投影された状態アンサンブルのランダム性は、Bの測定時の結果の固有のランダム性から生じる。 ここでは、プロトコル中に古典的ランダム性を量子カオスによって量子ランダムに変換し、結果として生じる状態アンサンブルの量子ランダム性に変換する修正スキームを提案する。 一般的なカオスシステムにおいて、この変換は古典エントロピーの各ビットがBに余分な量子ビットを加えるのと同じくらい多くの量子ランダム性を生成するのに最適であることを示す。 提案手法は典型的なアナログ量子シミュレータ上で容易に実装でき、多くのアプリケーションに有用な量子ランダム性を生成するためのよりスケーラブルな経路を提供する。 特に,シャドウトモグラフィープロトコルの精度を大幅に向上できることを示す。

Quantum many-body systems provide a unique platform for exploring the rich interplay between chaos, randomness, and complexity. In a recently proposed paradigm known as deep thermalization, random quantum states of system A are generated by performing projective measurements on system B following chaotic Hamiltonian evolution acting jointly on AB. In this scheme, the randomness of the projected state ensemble arises from the intrinsic randomness of the outcomes when B is measured. Here we propose a modified scheme, in which classical randomness injected during the protocol is converted by quantum chaos into quantum randomness of the resulting state ensemble. We show that for generic chaotic systems this conversion is optimal in that each bit of injected classical entropy generates as much additional quantum randomness as adding an extra qubit to B. This significantly enhances the randomness of the projected ensemble without imposing additional demands on the quantum hardware. Our scheme can be easily implemented on typical analog quantum simulators, providing a more scalable route for generating quantum randomness valuable for many applications. In particular, we demonstrate that the accuracy of a shadow tomography protocol can be substantially improved.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# MAR:マルチビューアテンション規則化による空間地形の特徴認識

MARs: Multi-view Attention Regularizations for Patch-based Feature Recognition of Space Terrain ( http://arxiv.org/abs/2410.05182v1 )

ライセンス: Link先を確認
Timothy Chase Jr, Karthik Dantu, (参考訳) 地表地形の視覚的な検出と追跡は、宇宙船が安全に着陸したり、天体に近づいたりするのに必要である。 現在のアプローチは、事前に収集したパッチベースの機能とテンプレートマッチングに依存している。 近年の文献では、ナビゲーションと運用の自律性を高めるためのin-situ検出方法に焦点が当てられているが、ロバストな記述は依然として必要である。 本研究では,距離学習を軽量な特徴記述機構として検討し,現在の解がクラス間類似性や多視点観測幾何学に対処できないことを明らかにする。 我々はこれをビュー無意識の注意機構に起因し、マルチビュー注意規則化(MAR)を導入し、チャンネルと空間的注意を複数の特徴ビューにわたって制限し、何とどこに注意が集中しているかを規則化する。 我々は,MARの有無にかかわらず,多くの近代的な計量学習損失を徹底的に分析し,地形特徴認識性能を85%以上向上させた。 さらに、月面のクレーターのランドマークと、NASAのミッションデータからの参照ナビゲーションフレームで構成されたLuna-1データセットを導入し、この困難なタスクにおける将来の研究を支援する。 Luna-1とソースコードはhttps://droneslab.github.io/mars/で公開されている。

The visual detection and tracking of surface terrain is required for spacecraft to safely land on or navigate within close proximity to celestial objects. Current approaches rely on template matching with pre-gathered patch-based features, which are expensive to obtain and a limiting factor in perceptual capability. While recent literature has focused on in-situ detection methods to enhance navigation and operational autonomy, robust description is still needed. In this work, we explore metric learning as the lightweight feature description mechanism and find that current solutions fail to address inter-class similarity and multi-view observational geometry. We attribute this to the view-unaware attention mechanism and introduce Multi-view Attention Regularizations (MARs) to constrain the channel and spatial attention across multiple feature views, regularizing the what and where of attention focus. We thoroughly analyze many modern metric learning losses with and without MARs and demonstrate improved terrain-feature recognition performance by upwards of 85%. We additionally introduce the Luna-1 dataset, consisting of Moon crater landmarks and reference navigation frames from NASA mission data to support future research in this difficult task. Luna-1 and source code are publicly available at https://droneslab.github.io/mars/.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# 相関を超えて:機械翻訳メトリクスの解釈可能な評価

Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics ( http://arxiv.org/abs/2410.05183v1 )

ライセンス: Link先を確認
Stefano Perrella, Lorenzo Proietti, Pere-Lluís Huguet Cabot, Edoardo Barba, Roberto Navigli, (参考訳) 機械翻訳(MT)評価指標は自動的に翻訳品質を評価する。 近年、データフィルタリングや翻訳の再ランク付けなど、さまざまな新しいユースケースにMTメトリクスが採用されている。 しかし、ほとんどのMTメトリクスは、解釈が難しいスカラースコアとして評価を返却し、インフォームドデザインの選択に挑戦する。 さらに、MTメトリクスの能力は、人間の判断と相関して歴史的に評価されてきたが、その有効性にもかかわらず、特に新しいメートル法ユースケースの観点から、メートル法のパフォーマンスに関する直感的な洞察を与えていない。 これらの問題に対処するために、MTメトリクスの解釈可能な評価フレームワークを導入する。 このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。 さらに、精度、リコール、Fスコアを用いてMT測定値のパフォーマンスを測定することにより、人間の判断と相関するよりも、その能力に対するより明確な洞察を提供する。 最後に、直接評価+Scalar Quality Metrics(DA+SQM)ガイドラインに従って、手作業によるキュレートデータの信頼性に関する懸念を提起し、特にMultidimensional Quality Metrics(MQM)アノテーションとの合意が低いことを報告した。

Machine Translation (MT) evaluation metrics assess translation quality automatically. Recently, researchers have employed MT metrics for various new use cases, such as data filtering and translation re-ranking. However, most MT metrics return assessments as scalar scores that are difficult to interpret, posing a challenge to making informed design choices. Moreover, MT metrics' capabilities have historically been evaluated using correlation with human judgment, which, despite its efficacy, falls short of providing intuitive insights into metric performance, especially in terms of new metric use cases. To address these issues, we introduce an interpretable evaluation framework for MT metrics. Within this framework, we evaluate metrics in two scenarios that serve as proxies for the data filtering and translation re-ranking use cases. Furthermore, by measuring the performance of MT metrics using Precision, Recall, and F-score, we offer clearer insights into their capabilities than correlation with human judgments. Finally, we raise concerns regarding the reliability of manually curated data following the Direct Assessments+Scalar Quality Metrics (DA+SQM) guidelines, reporting a notably low agreement with Multidimensional Quality Metrics (MQM) annotations.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# 量子近似最適化アルゴリズムの解析:アンセーゼ、対称性、リー代数

Analyzing the quantum approximate optimization algorithm: ansätze, symmetries, and Lie algebras ( http://arxiv.org/abs/2410.05187v1 )

ライセンス: Link先を確認
Sujay Kazi, Martín Larocca, Marco Farinati, Patrick J. Coles, M. Cerezo, Robert Zeier, (参考訳) 組合せ最適化タスクの近似解を求める方法として,量子近似最適化アルゴリズム (QAOA) が提案されている。 本研究では,連結グラフ上の最大カット(最大カット)問題に対する3つのQAOA ans\atzeの代数的性質について検討し,生成リー代数と不変部分空間に着目した。 具体的には、標準QAOAアンサッツと軌道と多角アンサッツを解析する。 任意の連結グラフに対して、多角アンザッツのリー代数を完全に特徴づけることができ、それらは6つの族のうちの1つにしかならない。 サイクルとパスグラフの他に、全てのグラフの次元はシステムサイズにおいて指数関数的に大きいため、多角 ans\" はバレン高原を示すのに非常に困難である。その後、回路が特定のパリティ選択作用素と考慮されたグラフのすべての自己同型から自然に生じるもの以外の「隠れた」対称性を示すため、回路は、準グラフ非依存のリー代数的特徴付けをマルチ角 ansatz 以外の類似の「隠れた」対称性を阻害する。「隠れた」対称性を無視して、軌道と標準リー代数の次元と関連する部分空間の次元は明示的な式によって決定される。 結論として、(ほとんどのグラフに対して)標準リー代数は指数的であるか、あるいは少なくとも系のサイズで多項式的に成長する成分しか持たないと推測する。 これはQAOAが不規則な台地か古典的にシミュレート可能であることを示している。

The Quantum Approximate Optimization Algorithm (QAOA) has been proposed as a method to obtain approximate solutions for combinatorial optimization tasks. In this work, we study the underlying algebraic properties of three QAOA ans\"atze for the maximum-cut (maxcut) problem on connected graphs, while focusing on the generated Lie algebras as well as their invariant subspaces. Specifically, we analyze the standard QAOA ansatz as well as the orbit and the multi-angle ans\"atze. We are able to fully characterize the Lie algebras of the multi-angle ansatz for arbitrary connected graphs, finding that they only fall into one of just six families. Besides the cycle and the path graphs, dimensions of every graph are exponentially large in the system size, meaning that multi-angle ans\"atze are extremely prone to exhibiting barren plateaus. Then, a similar quasi-graph-independent Lie-algebraic characterization beyond the multi-angle ansatz is impeded as the circuit exhibits additional "hidden" symmetries besides those naturally arising from a certain parity-superselection operator and all automorphisms of the considered graph. Disregarding the "hidden" symmetries, we can upper bound the dimensions of the orbit and the standard Lie algebras, and the dimensions of the associated invariant subspaces are determined via explicit character formulas. To finish, we conjecture that (for most graphs) the standard Lie algebras have only components that are either exponential or that grow, at most, polynomially with the system size. This would imply that the QAOA is either prone to barren plateaus, or classically simulable.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# 多次元力学モデリングのための行列重み付きネットワーク

Matrix-weighted networks for modeling multidimensional dynamics ( http://arxiv.org/abs/2410.05188v1 )

ライセンス: Link先を確認
Yu Tian, Sadamori Kojaku, Hiroki Sayama, Renaud Lambiotte, (参考訳) ネットワークは複雑なシステムにおける相互作用をモデリングするための強力なツールである。 従来のネットワークはスカラーエッジウェイトを使用するが、多くの実世界のシステムは多次元相互作用を含んでいる。 例えば、ソーシャルネットワークでは、個人は複数の相互接続された意見を持ち、他人の異なる意見に影響を与え、行列によってよりよく特徴づけられる。 本稿では,行列重み付きネットワーク(MWN)という,多次元相互作用力学をモデル化するための新しい汎用フレームワークを提案する。 MWNの数学的基礎を概説し、この文脈におけるコンセンサス力学とランダムウォークを考察する。 この結果から,MWNのコヒーレンスにより,従来のネットワークにおけるコミュニティの概念と構造的バランスを一般化する,非自明な定常状態が生まれることが明らかとなった。

Networks are powerful tools for modeling interactions in complex systems. While traditional networks use scalar edge weights, many real-world systems involve multidimensional interactions. For example, in social networks, individuals often have multiple interconnected opinions that can affect different opinions of other individuals, which can be better characterized by matrices. We propose a novel, general framework for modeling such multidimensional interacting dynamics: matrix-weighted networks (MWNs). We present the mathematical foundations of MWNs and examine consensus dynamics and random walks within this context. Our results reveal that the coherence of MWNs gives rise to non-trivial steady states that generalize the notions of communities and structural balance in traditional networks.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# LADEV:ロボットマニピュレーションにおける視覚言語モデルのための言語駆動テストと評価プラットフォーム

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation ( http://arxiv.org/abs/2410.05191v1 )

ライセンス: Link先を確認
Zhijie Wang, Zhehua Zhou, Jiayang Song, Yuheng Huang, Zhan Shu, Lei Ma, (参考訳) LLM(Large Language Models)とVLM(Vision Language Models)の進歩に基づく最近の研究は、ロボット操作タスクの統合ソリューションとしてVision-Language-Action(VLA)モデルを導入した。 これらのモデルは、カメライメージと自然言語タスク命令を入力として、ロボットが特定のタスクを実行するための制御アクションを直接生成し、意思決定能力と人間のユーザとのインタラクションを大幅に改善する。 しかしながら、VLAモデルのデータ駆動性は、解釈可能性の欠如と相まって、その有効性と堅牢性を保証することが困難な課題である。 これは信頼性の高いテストと評価プラットフォームの必要性を強調している。 そこで本研究では,VLAモデルの評価に特化して設計された,包括的で効率的なプラットフォームであるLADEVを提案する。 まず、自然言語入力からシミュレーション環境を自動的に生成し、手動調整の必要性を軽減し、テスト効率を大幅に改善する言語駆動型アプローチを提案する。 そして、VLAモデルに対する言語入力の影響をさらに評価するために、様々な自然言語タスク命令を生成するパラフレーズ機構を実装した。 最後に,評価プロセスの迅速化を目的として,VLAモデルの大規模テストを行うバッチ方式を提案する。 LADEVを用いていくつかの最先端VLAモデルの実験を行い、それらのモデルを評価するためのツールとしての有効性を実証した。 この結果から,LADEVはテスト効率の向上だけでなく,VLAモデル評価のための強固なベースラインを確立し,よりインテリジェントで高度なロボットシステムの開発への道を開いた。

Building on the advancements of Large Language Models (LLMs) and Vision Language Models (VLMs), recent research has introduced Vision-Language-Action (VLA) models as an integrated solution for robotic manipulation tasks. These models take camera images and natural language task instructions as input and directly generate control actions for robots to perform specified tasks, greatly improving both decision-making capabilities and interaction with human users. However, the data-driven nature of VLA models, combined with their lack of interpretability, makes the assurance of their effectiveness and robustness a challenging task. This highlights the need for a reliable testing and evaluation platform. For this purpose, in this work, we propose LADEV, a comprehensive and efficient platform specifically designed for evaluating VLA models. We first present a language-driven approach that automatically generates simulation environments from natural language inputs, mitigating the need for manual adjustments and significantly improving testing efficiency. Then, to further assess the influence of language input on the VLA models, we implement a paraphrase mechanism that produces diverse natural language task instructions for testing. Finally, to expedite the evaluation process, we introduce a batch-style method for conducting large-scale testing of VLA models. Using LADEV, we conducted experiments on several state-of-the-art VLA models, demonstrating its effectiveness as a tool for evaluating these models. Our results showed that LADEV not only enhances testing efficiency but also establishes a solid baseline for evaluating VLA models, paving the way for the development of more intelligent and advanced robotic systems.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-07
# RevisEval: 応答適応参照によるLCM-as-a-Judgeの改善

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References ( http://arxiv.org/abs/2410.05193v1 )

ライセンス: Link先を確認
Qiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma, (参考訳) 近年の研究において, LLM-as-a-Judge は, テキスト生成品質を幅広いタスクで評価する上で, 人的評価の代替として費用対効果の高いものとなっている。 しかし, LLM-as-a-Judgeと人的評価との間には信頼性のギャップが残っている。 重要な理由の1つは、評価プロセスにおけるガイド付きオラクルの欠如である。 古典的テキスト評価において広く使われている参照の役割を動機として,応答適応参照を用いた新たなテキスト生成評価パラダイムであるRevisEvalを紹介した。 RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。 具体的には、大規模な言語モデル(LLM)のテキストリビジョン機能を活用して、応答を適応的に修正し、その後の評価のために、修正されたテキストを参照(レスポンス適応参照)として扱う。 広範にわたる実験により、RevisEvalは、NLGタスクとオープンエンド命令フォロータスクにLLM-as-a-Judgeを使用する従来の基準フリーおよび基準ベース評価パラダイムよりも優れていることが示された。 さらに重要なのは、従来の参照よりも古典的なテキストメトリクス(例えば、BLEU、BERTScore)が向上し、LLM-as-a-Judgeと競合することです。 また,RevisEvalのバイアス低減効果,推論コストの影響,参照関連性について,詳細な分析を行った。

With significant efforts in recent studies, LLM-as-a-Judge has become a cost-effective alternative to human evaluation for assessing the text generation quality in a wide range of tasks. However, there still remains a reliability gap between LLM-as-a-Judge and human evaluation. One important reason is the lack of guided oracles in the evaluation process. Motivated by the role of reference pervasively used in classic text evaluation, we introduce RevisEval, a novel text generation evaluation paradigm via the response-adapted references. RevisEval is driven by the key observation that an ideal reference should maintain the necessary relevance to the response to be evaluated. Specifically, RevisEval leverages the text revision capabilities of large language models (LLMs) to adaptively revise the response, then treat the revised text as the reference (response-adapted reference) for the subsequent evaluation. Extensive experiments demonstrate that RevisEval outperforms traditional reference-free and reference-based evaluation paradigms that use LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks. More importantly, our response-adapted references can further boost the classical text metrics, e.g., BLEU and BERTScore, compared to traditional references and even rival the LLM-as-a-Judge. A detailed analysis is also conducted to confirm RevisEval's effectiveness in bias reduction, the impact of inference cost, and reference relevance.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# 超伝導量子ビットを用いたリアルタイム・低レイテンシ量子誤り訂正の実証

Demonstrating real-time and low-latency quantum error correction with superconducting qubits ( http://arxiv.org/abs/2410.05202v1 )

ライセンス: Link先を確認
Laura Caune, Luka Skoric, Nick S. Blunt, Archibald Ruban, Jimmy McDaniel, Joseph A. Valery, Andrew D. Patterson, Alexander V. Gramolin, Joonas Majaniemi, Kenton M. Barnes, Tomasz Bialas, Okan Buğdaycı, Ophelia Crawford, György P. Gehér, Hari Krovi, Elisha Matekole, Canberk Topal, Stefano Poletto, Michael Bryant, Kalan Snyder, Neil I. Gillespie, Glenn Jones, Kauser Johar, Earl T. Campbell, Alexander D. Hill, (参考訳) 量子エラー補正(QEC)は、量子コンピュータが潜在能力を実現するのに必要な精度を達成するために不可欠である。 この分野はQECとリアルタイム復号化実験のデモで有望な進歩を見せている。 量子コンピュータが普遍的なフォールトトレラント論理ゲートセットの実証に向けて進むにつれ、拡張性と低レイテンシのリアルタイムデコードを実装することは、バックログの問題を防止し、指数的なスローダウンを回避し、高速な論理クロックレートを維持するために重要である。 本稿では,超伝導量子プロセッサの制御系に組み込まれたスケーラブルFPGAデコーダを用いて低遅延フィードバックを示す。 最大25ドルの復号ラウンドと1ラウンドあたりの平均復号時間は1ドル${\mu}s$以下である8ビット安定実験を行い、最も厳しい速度要件の超伝導ハードウェアでさえもバックログの問題を避けることを示した。 復号ラウンド数が増加するにつれて、論理誤差の抑制が観察される。 我々はまた、合計9ドルの計測ラウンドに対して9.6ドル${\mu}s$のデコードレスポンスタイムを実証する高速フィードバック実験を実践し、時間をかけて実施する。 この作業でデコーダのスループットとレイテンシが発展し、継続的なデバイス改良と相まって、論理量子ビットを生かし、格子手術やマジックステートテレポーテーションのようなフォールトトレラントな計算の構成要素を実証する次の世代の実験がアンロックされた。

Quantum error correction (QEC) will be essential to achieve the accuracy needed for quantum computers to realise their full potential. The field has seen promising progress with demonstrations of early QEC and real-time decoded experiments. As quantum computers advance towards demonstrating a universal fault-tolerant logical gate set, implementing scalable and low-latency real-time decoding will be crucial to prevent the backlog problem, avoiding an exponential slowdown and maintaining a fast logical clock rate. Here, we demonstrate low-latency feedback with a scalable FPGA decoder integrated into the control system of a superconducting quantum processor. We perform an 8-qubit stability experiment with up to $25$ decoding rounds and a mean decoding time per round below $1$ ${\mu}s$, showing that we avoid the backlog problem even on superconducting hardware with the strictest speed requirements. We observe logical error suppression as the number of decoding rounds is increased. We also implement and time a fast-feedback experiment demonstrating a decoding response time of $9.6$ ${\mu}s$ for a total of $9$ measurement rounds. The decoder throughput and latency developed in this work, combined with continued device improvements, unlock the next generation of experiments that go beyond purely keeping logical qubits alive and into demonstrating building blocks of fault-tolerant computation, such as lattice surgery and magic state teleportation.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# 手話理解モデルにおけるバイアスの学習と緩和

Studying and Mitigating Biases in Sign Language Understanding Models ( http://arxiv.org/abs/2410.05206v1 )

ライセンス: Link先を確認
Katherine Atwell, Danielle Bragg, Malihe Alikhani, (参考訳) 手話技術の利点がすべてのコミュニティメンバーに公平に分配されることを保証することが重要である。 したがって、これらのリソースの設計や使用から生じる可能性のある潜在的なバイアスや不等式に対処することが重要である。 ASL Citizenデータセットのようなクラウドソースの手話データセットは、アクセシビリティを改善し、言語的な多様性を維持するための優れたリソースであるが、既存のバイアスの強化を避けるために、慎重に使用する必要がある。 本研究では,ASL市民データセットに存在する参加者の人口統計と語彙的特徴に関する豊富な情報を利用して,クラウドソースのサインデータセットでトレーニングされたモデルから生じるバイアスを研究・記録する。 さらに,モデルトレーニング中に複数のバイアス緩和手法を適用し,これらの手法が精度を低下させることなく性能格差を低減することを発見した。 本研究の公開に伴い,ASL市民データセットの参加者に関する人口統計情報を公開し,今後の偏見緩和作業を促進する。

Ensuring that the benefits of sign language technologies are distributed equitably among all community members is crucial. Thus, it is important to address potential biases and inequities that may arise from the design or use of these resources. Crowd-sourced sign language datasets, such as the ASL Citizen dataset, are great resources for improving accessibility and preserving linguistic diversity, but they must be used thoughtfully to avoid reinforcing existing biases. In this work, we utilize the rich information about participant demographics and lexical features present in the ASL Citizen dataset to study and document the biases that may result from models trained on crowd-sourced sign datasets. Further, we apply several bias mitigation techniques during model training, and find that these techniques reduce performance disparities without decreasing accuracy. With the publication of this work, we release the demographic information about the participants in the ASL Citizen dataset to encourage future bias mitigation work in this space.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# 視覚言語的構成性向上のための事前訓練VLMの多モード機能保存

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality ( http://arxiv.org/abs/2410.05210v1 )

ライセンス: Link先を確認
Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim, (参考訳) 本稿では,ゼロショットマルチモーダルタスクの性能を犠牲にすることなく,事前学習された視覚と言語モデル(VLM)の構成的理解を高める手法を提案する。 従来の微調整アプローチは、画像やテキストのグローバル表現とは対照的なグローバルハードネガティブ(HN)損失を用いることによって、多モード能力を劣化させるコストで構成推論を改善することが多い。 このグローバルなHN損失は、元のテキストと非常によく似たHNテキストをプッシュし、モデルのマルチモーダル表現を損なう。 この制限を克服するために,局所的負の損失と選択的校正正規化を統合した細粒度選択校正CLIP(FSC-CLIP)を提案する。 これらの革新は、モデルの表現整合性を維持しながら、きめ細かい否定的な監督を提供する。 構成性およびマルチモーダルタスクの多種多様なベンチマークにおいて, FSC-CLIPは, 現状のモデルと同等に構成性を達成できるだけでなく, 強力なマルチモーダル能力も維持できることを示す。 コードは、https://github.com/ytaek-oh/fsc-clip.comで入手できる。

In this paper, we propose a new method to enhance compositional understanding in pre-trained vision and language models (VLMs) without sacrificing performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches often improve compositional reasoning at the cost of degrading multi-modal capabilities, primarily due to the use of global hard negative (HN) loss, which contrasts global representations of images and texts. This global HN loss pushes HN texts that are highly similar to the original ones, damaging the model's multi-modal representations. To overcome this limitation, we propose Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard negative loss and selective calibrated regularization. These innovations provide fine-grained negative supervision while preserving the model's representational integrity. Our extensive evaluations across diverse benchmarks for both compositionality and multi-modal tasks show that FSC-CLIP not only achieves compositionality on par with state-of-the-art models but also retains strong multi-modal capabilities. Code is available at: https://github.com/ytaek-oh/fsc-clip.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# 遺伝的研究における高速群可変選択とFDR制御のためのインフォームド弾性ネット

The Informed Elastic Net for Fast Grouped Variable Selection and FDR Control in Genomics Research ( http://arxiv.org/abs/2410.05211v1 )

ライセンス: Link先を確認
Jasin Machkour, Michael Muma, Daniel P. Palomar, (参考訳) 現代のゲノミクスの研究はゲノムワイド・アソシエーション研究(GWAS)に頼り、興味のある病気に関連付けられた潜在的数百万の遺伝的変異を同定している。 集団の再現可能な発見のみが、複雑なポリジェニック疾患の理解を改善し、新しい薬物やパーソナライズド医薬品の開発を可能にします。 したがって、偽発見率(FDR)を制御しつつ、高い真正率(TPR)を有する高速多変量変数選択法が重要である。 近年,T-Rex+GVSセレクタとして弾性ネット(EN)をベースセレクタとして用いてグループ化可変選挙を行うT-Rex+GVSセレクタが提案されている。 シミュレーションされたGWASのTPRはオリジナルのT-Rexに比べて大幅に向上したが、計算コストの制限は相容れないほど高いスケーラビリティであった。 そこで本研究では,グループ化変数選択特性を維持しながら計算時間を著しく短縮する新しいベースセレクタであるインフォメーション・弾性ネット(IEN)を提案する。 我々は、そのグループ化効果を定量化し、その定式化をラッソ型最適化問題として導出する。 数値シミュレーションとGWASによる研究により、提案したT-Rex+GVS(IEN)が所望のグルーピング効果を示し、計算時間を短縮し、T-Rex+GVS(EN)と同じTPRを実現するが、FDRが低いため、大規模GWASにとって有望な方法であることが示された。

Modern genomics research relies on genome-wide association studies (GWAS) to identify the few genetic variants among potentially millions that are associated with diseases of interest. Only reproducible discoveries of groups of associations improve our understanding of complex polygenic diseases and enable the development of new drugs and personalized medicine. Thus, fast multivariate variable selection methods that have a high true positive rate (TPR) while controlling the false discovery rate (FDR) are crucial. Recently, the T-Rex+GVS selector, a version of the T-Rex selector that uses the elastic net (EN) as a base selector to perform grouped variable election, was proposed. Although it significantly increased the TPR in simulated GWAS compared to the original T-Rex, its comparably high computational cost limits scalability. Therefore, we propose the informed elastic net (IEN), a new base selector that significantly reduces computation time while retaining the grouped variable selection property. We quantify its grouping effect and derive its formulation as a Lasso-type optimization problem, which is solved efficiently within the T-Rex framework by the terminated LARS algorithm. Numerical simulations and a GWAS study demonstrate that the proposed T-Rex+GVS (IEN) exhibits the desired grouping effect, reduces computation time, and achieves the same TPR as T-Rex+GVS (EN) but with lower FDR, which makes it a promising method for large-scale GWAS.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# わずかな観測しか持たない高精度モデルベンチマーク

Precise Model Benchmarking with Only a Few Observations ( http://arxiv.org/abs/2410.05222v1 )

ライセンス: Link先を確認
Riccardo Fogliato, Pratik Patil, Nil-Jana Akpinar, Mathew Monfort, (参考訳) 大規模問合せデータセット内の特定のトピックに属する質問に対して,大規模言語モデル(LLM)の精度を正確に見積もるには,どうすればよいのか? 各部分群における質問に対するモデルの精度を平均化する標準直接推定器は、小さなサンプルサイズを持つ部分群(トピック)に対して高い分散を示すことができる。 他のトピックに関する質問に対してモデルの正確性を活用する合成回帰モデリングは、大きなサブグループでは信頼できない偏りのある推定値を得ることができる。 実験的ベイズ(EB)推定器は各サブグループの直接推定と回帰推定を個別にバランスさせ、モデル性能のサブグループレベル推定の精度を向上させる。 複数のデータセットに対する実験により,本手法は直接的および回帰的手法と比較してLLM性能の精度が向上し,平均二乗誤差の大幅な低減を実現していることがわかった。 EB推定値の信頼区間もほぼ最小であり、直接推定値よりも狭い。 図表および視覚データに関する追加実験は、このEBアプローチの利点を検証する。

How can we precisely estimate a large language model's (LLM) accuracy on questions belonging to a specific topic within a larger question-answering dataset? The standard direct estimator, which averages the model's accuracy on the questions in each subgroup, may exhibit high variance for subgroups (topics) with small sample sizes. Synthetic regression modeling, which leverages the model's accuracy on questions about other topics, may yield biased estimates that are too unreliable for large subgroups. We prescribe a simple yet effective solution: an empirical Bayes (EB) estimator that balances direct and regression estimates for each subgroup separately, improving the precision of subgroup-level estimates of model performance. Our experiments on multiple datasets show that this approach consistently provides more precise estimates of the LLM performance compared to the direct and regression approaches, achieving substantial reductions in the mean squared error. Confidence intervals for EB estimates also have near-nominal coverage and are narrower compared to those for the direct estimator. Additional experiments on tabular and vision data validate the benefits of this EB approach.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# Cookbook: プログラムデータ生成テンプレートによるLCM生成能力向上のためのフレームワーク

Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates ( http://arxiv.org/abs/2410.05224v1 )

ライセンス: Link先を確認
Avanika Narayan, Mayee F. Chen, Kush Bhatia, Christopher Ré, (参考訳) 命令データセット上での微調整大型言語モデル(LLM)は、その生成能力を改善するための一般的な方法である。 しかし、命令データセットは手作業でキュレートするのに高価で時間がかかる可能性があり、LLM生成データは労働集約度が低いが、ユーザーのプライバシー契約やLLMプロバイダのサービス規約に違反している可能性がある。 そこで我々は,人間やLLMが生成しないが,LLM生成能力を向上させるサンプルを用いて,命令データセットを構築する方法を模索している。 本研究では,ランダムトークン上の単純なパターンからなるトレーニングデータをプログラムで生成するフレームワークであるCookbookを紹介する。 まず、Cookbookはテンプレート(データ生成Python関数)を使用して、モデルに望ましいタスクに対応する明示的なパターンベースのルールを学ぶように促すトレーニングデータを生成する。 クックブック生成したデータの微調整により、対応するタスクの性能を52.7の精度で向上できることがわかった。 第二に、命令データセットは複数の下流タスクのパフォーマンスを同時に改善するので、Cookbookはアルゴリズム的に、さまざまなテンプレートからのデータを混ぜて、複数のタスクのパフォーマンスを最適化する方法を学ぶ。 標準的なマルチタスク GPT4ALL 評価スイートでは,Cookbook 生成データセットを用いて微調整した Mistral-7B が,他の 7B パラメータの命令調整モデルと比較して平均で最高の精度を達成し,8つのタスクのうち3つで最高のパフォーマンスモデルである。 最後に、Cookbookがいつ、なぜパフォーマンスを改善したのかを分析し、その改善がテンプレートルールに忠実なモデル世代によって主に説明されていることを確認するためのメトリクスを提示します。

Fine-tuning large language models (LLMs) on instruction datasets is a common way to improve their generative capabilities. However, instruction datasets can be expensive and time-consuming to manually curate, and while LLM-generated data is less labor-intensive, it may violate user privacy agreements or terms of service of LLM providers. Therefore, we seek a way of constructing instruction datasets with samples that are not generated by humans or LLMs but still improve LLM generative capabilities. In this work, we introduce Cookbook, a framework that programmatically generates training data consisting of simple patterns over random tokens, resulting in a scalable, cost-effective approach that avoids legal and privacy issues. First, Cookbook uses a template -- a data generating Python function -- to produce training data that encourages the model to learn an explicit pattern-based rule that corresponds to a desired task. We find that fine-tuning on Cookbook-generated data is able to improve performance on its corresponding task by up to 52.7 accuracy points. Second, since instruction datasets improve performance on multiple downstream tasks simultaneously, Cookbook algorithmically learns how to mix data from various templates to optimize performance on multiple tasks. On the standard multi-task GPT4ALL evaluation suite, Mistral-7B fine-tuned using a Cookbook-generated dataset attains the best accuracy on average compared to other 7B parameter instruction-tuned models and is the best performing model on 3 out of 8 tasks. Finally, we analyze when and why Cookbook improves performance and present a metric that allows us to verify that the improvement is largely explained by the model's generations adhering better to template rules.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# ETGL-DDPG:スパースリワード連続制御のための決定論的ポリシー勾配アルゴリズム

ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control ( http://arxiv.org/abs/2410.05225v1 )

ライセンス: Link先を確認
Ehsan Futuhi, Shayan Karimi, Chao Gao, Martin Müller, (参考訳) 本研究は, 厳密な報酬を伴う強化学習の文脈において, DDPG(Deep Deterministic Policy gradient)を考察する。 探索を強化するために,探索手順であるemph{${\epsilon}{t}$-greedy}を導入する。 我々は、$\epsilon t$-greedy を用いた探索が、穏やかな MDP 仮定の下で多項式サンプルの複雑さを持つことを証明した。 報酬付き遷移によって提供される情報をより効率的に利用するために、新しいデュアルエクスペリエンス再生バッファフレームワークである \emph{GDRB} を開発し、また \emph{longest n-step return} を実装した。 結果として得られるアルゴリズムである \emph{ETGL-DDPG} は、以下の3つのテクニックを全て統合する: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, \textbf{L}ongest $n$-step, DDPG。 標準ベンチマークでETGL-DDPGを評価し,テスト対象のスパース・リワード連続環境においてDDPGおよび他の最先端手法よりも優れた性能を示す。 アブレーション研究は、各戦略がDDPGの性能を個別に向上する方法をさらに強調する。

We consider deep deterministic policy gradient (DDPG) in the context of reinforcement learning with sparse rewards. To enhance exploration, we introduce a search procedure, \emph{${\epsilon}{t}$-greedy}, which generates exploratory options for exploring less-visited states. We prove that search using $\epsilon t$-greedy has polynomial sample complexity under mild MDP assumptions. To more efficiently use the information provided by rewarded transitions, we develop a new dual experience replay buffer framework, \emph{GDRB}, and implement \emph{longest n-step returns}. The resulting algorithm, \emph{ETGL-DDPG}, integrates all three techniques: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, and \textbf{L}ongest $n$-step, into DDPG. We evaluate ETGL-DDPG on standard benchmarks and demonstrate that it outperforms DDPG, as well as other state-of-the-art methods, across all tested sparse-reward continuous environments. Ablation studies further highlight how each strategy individually enhances the performance of DDPG in this setting.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-07
# GSM-シンボリック:大規模言語モデルにおける数学的推論の限界を理解する

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ( http://arxiv.org/abs/2410.05229v1 )

ライセンス: Link先を確認
Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特に数学において、その形式的推論能力への関心を喚起している。 GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM8KにおけるLCMの性能は近年著しく改善されているが、その数学的推論能力が真に進歩したかどうかは不明であり、報告された指標の信頼性に関する疑問が提起されている。 これらの問題に対処するため、我々はいくつかのSOTAオープンおよびクローズドモデルについて大規模な研究を行う。 既存の評価の限界を克服するために,シンボルテンプレートから生成された改良されたベンチマークであるGSM-Symbolicを導入する。 GSM-Symbolicはより制御可能な評価を可能にし、モデルの推論能力を測定するための重要な洞察と信頼性の高い指標を提供する。 具体的には、GSM-Symbolicベンチマークにおいて、問題の数値だけを変更すると、全てのモデルの性能が低下する。 さらに,これらのモデルにおける数学的推論の脆弱性について検討し,質問の節数が増加するにつれてその性能が著しく低下することを示す。 この減少は、現在のLLMが真の論理的推論を実行できないためであり、トレーニングデータから推論ステップを複製するためである、という仮説を立てる。 問題に関連する1つの節を追加すると、最終回答に必要な推論チェーンに寄与しないにもかかわらず、すべての最先端モデルのパフォーマンスが大幅に低下する(最大65%)。 全体として、我々の研究は数学的推論におけるLLMの能力と限界についてより微妙な理解を提供する。

Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# SymmetryLens: 局所性と等価性による教師なし対称性学習のための新しい候補パラダイム

SymmetryLens: A new candidate paradigm for unsupervised symmetry learning via locality and equivariance ( http://arxiv.org/abs/2410.05232v1 )

ライセンス: Link先を確認
Onur Efe, Arkadas Ozakin, (参考訳) 我々は、生データから始まる新しい教師なし対称性学習法を開発し、そのデータに対称性同変表現とともに、基礎となるリー群の最小(離散)生成子を与える。 この方法は、近似翻訳対称性しか持たないデータセットから画素変換演算子を学習することができ、肉眼では見えない全く異なるタイプの対称性を学べる。 この方法は、与えられた候補対称性の下でデータセットが対称な度合いを測る情報理論損失関数の定式化と、この対称性に関するデータセットのサンプルの局所性の度合いに基づく。 この対称性と局所性の間の結合が,エントロピー推定のために開発された特別な最適化手法とともに,再現可能な結果を与える高度に安定なシステムをもたらすことを示す。 私たちが考える対称性の作用は群表現であるが、このアプローチは非可換リー群のより一般的な非線形作用に一般化される可能性があると信じている。

We develop a new, unsupervised symmetry learning method that starts with raw data, and gives the minimal (discrete) generator of an underlying Lie group of symmetries, together with a symmetry equivariant representation of the data. The method is able to learn the pixel translation operator from a dataset with only an approximate translation symmetry, and can learn quite different types of symmetries which are not apparent to the naked eye, equally well. The method is based on the formulation of an information-theoretic loss function that measures both the degree to which the dataset is symmetric under a given candidate symmetry, and also, the degree of locality of the samples in the dataset with respect to this symmetry. We demonstrate that this coupling between symmetry and locality, together with a special optimization technique developed for entropy estimation, results in a highly stable system that gives reproducible results. The symmetry actions we consider are group representations, however, we believe the approach has the potential to be generalized to more general, nonlinear actions of non-commutative Lie groups.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# SimO Loss: 微粒な教師付きコントラスト学習のためのアンカーフリーコントラスト損失

SimO Loss: Anchor-Free Contrastive Loss for Fine-Grained Supervised Contrastive Learning ( http://arxiv.org/abs/2410.05233v1 )

ライセンス: Link先を確認
Taha Bouhsine, Imad El Aaroussi, Atik Faysal, Wang Huaxia, (参考訳) 提案した類似性-直交性(SimO)損失を利用した新しいアンカーフリーコントラスト学習(AFCL)手法を提案する。 提案手法は, 類似入力の埋め込み間距離と直交度を最大化し, 異なる入力に対してこれらの指標を最大化し, よりきめ細かなコントラスト学習を容易にする, 2つの主要な目的を同時に最適化する半計量識別的損失関数を最小化する。 シモ損失を動力とするAFCL法は、埋め込み空間に繊維束位相構造を生成し、クラス固有で内部結合性のある直交近傍を形成する。 提案手法の有効性をCIFAR-10データセットで検証し,SimO損失が埋め込み空間に与える影響を可視化した。 本研究は,クラス分離とクラス内変動性とのバランスを保ちながら,クラス分割を適切に構成した埋め込みを創出する手法の能力を示すものである。 この研究は、様々な機械学習タスクにおいて学習された表現の幾何学的性質を理解し、活用するための新しい道を開く。

We introduce a novel anchor-free contrastive learning (AFCL) method leveraging our proposed Similarity-Orthogonality (SimO) loss. Our approach minimizes a semi-metric discriminative loss function that simultaneously optimizes two key objectives: reducing the distance and orthogonality between embeddings of similar inputs while maximizing these metrics for dissimilar inputs, facilitating more fine-grained contrastive learning. The AFCL method, powered by SimO loss, creates a fiber bundle topological structure in the embedding space, forming class-specific, internally cohesive yet orthogonal neighborhoods. We validate the efficacy of our method on the CIFAR-10 dataset, providing visualizations that demonstrate the impact of SimO loss on the embedding space. Our results illustrate the formation of distinct, orthogonal class neighborhoods, showcasing the method's ability to create well-structured embeddings that balance class separation with intra-class variability. This work opens new avenues for understanding and leveraging the geometric properties of learned representations in various machine learning tasks.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# DiffuseReg: 教師なし変形画像登録における変形場検出のための拡散モデル

DiffuseReg: Denoising Diffusion Model for Obtaining Deformation Fields in Unsupervised Deformable Image Registration ( http://arxiv.org/abs/2410.05234v1 )

ライセンス: Link先を確認
Yongtai Zhuo, Yiqing Shen, (参考訳) 変形可能な画像登録は、異なるモダリティや時間から医療画像を正確に整列することを目的としている。 従来のディープラーニング手法は、効果的な一方で、多くの場合、解釈可能性、リアルタイム観測可能性、および登録推論時の調整能力が欠如している。 拡散モデルのデノイングは、反復的なイメージデノイングとして登録を変更することで代替となる。 しかし、既存の拡散登録手法は、推論中に連続的な可観測性を可能にする臨界サンプリングフェーズを無視して、機能を完全に活用していない。 そこでDiffuseRegは,画像の代わりに変形場を識別し,透過性を向上する革新的な拡散法である。 また,Swin Transformerに基づく新しいデノナイジングネットワークを提案し,このデノナイジングプロセスを通じて,動画像と固定画像とを拡散時間ステップでよりよく統合する。 さらに,新たな類似性整合正則化による復調登録プロセスの制御も強化する。 ACDCデータセットの実験では、DiffuseRegはDiceスコアにおいて既存の拡散登録方法よりも1.32向上している。 DiffuseRegのサンプリングプロセスは、従来のディープモデルにマッチしないリアルタイム出力の可観測性と調整を可能にする。

Deformable image registration aims to precisely align medical images from different modalities or times. Traditional deep learning methods, while effective, often lack interpretability, real-time observability and adjustment capacity during registration inference. Denoising diffusion models present an alternative by reformulating registration as iterative image denoising. However, existing diffusion registration approaches do not fully harness capabilities, neglecting the critical sampling phase that enables continuous observability during the inference. Hence, we introduce DiffuseReg, an innovative diffusion-based method that denoises deformation fields instead of images for improved transparency. We also propose a novel denoising network upon Swin Transformer, which better integrates moving and fixed images with diffusion time step throughout the denoising process. Furthermore, we enhance control over the denoising registration process with a novel similarity consistency regularization. Experiments on ACDC datasets demonstrate DiffuseReg outperforms existing diffusion registration methods by 1.32 in Dice score. The sampling process in DiffuseReg enables real-time output observability and adjustment unmatched by previous deep models.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# 単純差分法行列の二重対数深さブロック符号化

Double-Logarithmic Depth Block-Encodings of Simple Finite Difference Method's Matrices ( http://arxiv.org/abs/2410.05241v1 )

ライセンス: Link先を確認
Sunheang Ty, Renaud Vilmart, Axel TahmasebiMoradi, Chetra Mang, (参考訳) 微分方程式の解法は、古典コンピューティングにおいて最も計算コストがかかる問題の1つであり、科学と工学の様々な分野における実践的な応用に費やされる高性能な計算資源の大部分を占有している。 量子コンピューティングと量子アルゴリズムの分野で最近の進歩にもかかわらず、実用的実現に向けたエンドツーエンドの応用はいまだに達成不可能である。 本稿では,この目的に対する主要な障害の一つ,特に有限差分法により導出される行列の符号化を,単純な境界値問題におけるポアソン偏微分方程式の解法として扱う。 そこで本研究では,これらの行列を量子回路のユニタリ演算子内でブロックエンコードする手法であるブロック対角化法を提案する。 これらの回路の深さは行列サイズにおいて二重対数的であり、これは既存の量子法よりも指数関数的に改善され、既存の古典法よりも超指数的に改善されている。 これらの改善は、キュービット数とゲート数に一定の乗法的オーバーヘッドが伴う。 量子線形解法アルゴリズムと組み合わせて、これらの量子回路を用いて、ポアソン偏微分方程式とその境界値問題に対する解の量子状態表現を生成することができる。

Solving differential equations is one of the most computationally expensive problems in classical computing, occupying the vast majority of high-performance computing resources devoted towards practical applications in various fields of science and engineering. Despite recent progress made in the field of quantum computing and quantum algorithms, its end-to-end application towards practical realization still remains unattainable. In this article, we tackle one of the primary obstacles towards this ultimate objective, specifically the encoding of matrices derived via finite difference method solving Poisson partial differential equations in simple boundary-value problems. To that end, we propose a novel methodology called block-diagonalization, which provides a common decomposition form for our matrices, and similarly a common procedure for block-encoding these matrices inside a unitary operator of a quantum circuit. The depth of these circuits is double-logarithmic in the matrix size, which is an exponential improvement over existing quantum methods and a superexponential improvement over existing classical methods. These improvements come at the price of a constant multiplicative overhead on the number of qubits and the number of gates. Combined with quantum linear solver algorithms, we can utilize these quantum circuits to produce a quantum state representation of the solution to the Poisson partial differential equations and their boundary-value problems.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# 人間としてのデジタル世界をナビゲートする:GUIエージェントのためのユニバーサルビジュアルグラウンド

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents ( http://arxiv.org/abs/2410.05243v1 )

ライセンス: Link先を確認
Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su, (参考訳) マルチモーダル・大規模言語モデル(MLLM)はグラフィカルユーザインタフェース(GUI)エージェントの能力を変換し、制御されたシミュレーションから様々なプラットフォームにまたがる複雑な実世界のアプリケーションへの移行を促進する。 しかし、これらのエージェントの効用は、接地能力の堅牢性に左右される。 現在のGUIエージェントは、HTMLやアクセシビリティツリーのようなテキストベースの表現を主に利用している。 本稿では,GUI 上でのピクセルレベルの操作を直接的かつ視覚的に知覚する,GUI エージェントのためのヒューマンライクなエボディメントを提案する。 鍵となるのは、GUI要素の様々な参照表現を異なるプラットフォームにわたるGUI上の座標に正確にマッピングできる、ビジュアルグラウンドモデルである。 ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。 これまでに10MのGUI要素とその参照表現を1.3Mのスクリーンショット上に収めたGUIビジュアルグラウンドのための最大のデータセットを収集し、GUIエージェントのための強力なユニバーサルビジュアルグラウンドモデルであるUGroundのトレーニングに利用した。 3つのカテゴリ(グラウンド、オフラインエージェント、オンラインエージェント)にまたがる6つのベンチマークの実証結果からは、そのことが分かる。 1)UGroundは、GUIエージェントの既存の視覚的グラウンドモデルを大幅に上回り、最大20%の絶対性を達成している。 2)UGroundのエージェントは、既存のエージェントが追加のテキストベースの入力を使用するのに対して、私たちのエージェントは視覚的認識のみを使用するにもかかわらず、最先端のエージェントよりも優れています。 これらの結果は、人間がするデジタル世界をナビゲートするGUIエージェントの実現可能性と約束を強く支持する。

Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly take pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# SFTMix:Mixup Recipeを使った言語モデルのインストラクションチューニング

SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe ( http://arxiv.org/abs/2410.05248v1 )

ライセンス: Link先を確認
Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao, (参考訳) 対話駆動タスクのための大規模言語モデル(LLM)において望ましい振る舞いを誘導するために、命令チューニング段階は、通常、次のトーケン予測(NTP)損失を用いて命令応答ペア上でLSMを訓練する。 命令チューニングのパフォーマンス向上を目的としたこれまでの作業は、通常、プロプライエタリなLLMによる高価なデータフィルタリングや、人間のアノテータによる労働集約データ生成を含む、高品質な教師付き微調整(SFT)データセットの必要性を強調していた。 しかし、これらの手法はデータセットの固有の特性を完全に活用していないため、計算と労力のコストが高くなり、スケーラビリティと性能の向上が制限される。 本稿では,従来の NTP パラダイムを超えて命令チューニング性能を高める新しいレシピである SFTMix を提案する。 LLMが意味表現空間全体にわたって不均一な信頼を示すのを見て、異なる信頼度を持つ例は、命令調整過程において異なる役割を担わなければならないと論じる。 この知見に基づいて、SFTMixはトレーニングのダイナミクスを活用して、様々な信頼性レベルを持つサンプルを識別し、その後、Mixupベースの正規化を適用して、信頼性の高いサンプルに過度な適合を緩和するとともに、監督シグナルを伝播させ、比較的信頼できないものの学習を改善する。 このアプローチにより、SFTMixは、幅広い命令フォローと医療ドメイン固有のSFTタスクでNTPを大幅に上回り、多様なLLMファミリーへの適応性と、任意のサイズのデータセットへのスケーラビリティを実証することができる。 包括的アブレーション研究はSFTMixの設計選択の堅牢性をさらに検証し、より広範な自然言語処理アプリケーションにおいて、異なるLLMとデータセットをまたいだパフォーマンスを一貫して向上する汎用性を強調している。

To induce desired behaviors in large language models (LLMs) for interaction-driven tasks, the instruction-tuning stage typically trains LLMs on instruction-response pairs using the next-token prediction (NTP) loss. Previous work aiming to improve instruction-tuning performance often emphasizes the need for higher-quality supervised fine-tuning (SFT) datasets, which typically involves expensive data filtering with proprietary LLMs or labor-intensive data generation by human annotators. However, these approaches do not fully leverage the datasets' intrinsic properties, resulting in high computational and labor costs, thereby limiting scalability and performance gains. In this paper, we propose SFTMix, a novel recipe that elevates instruction-tuning performance beyond the conventional NTP paradigm, without the need for well-curated datasets. Observing that LLMs exhibit uneven confidence across the semantic representation space, we argue that examples with different confidence levels should play distinct roles during the instruction-tuning process. Based on this insight, SFTMix leverages training dynamics to identify examples with varying confidence levels, then applies a Mixup-based regularization to mitigate overfitting on confident examples while propagating supervision signals to improve learning on relatively unconfident ones. This approach enables SFTMix to significantly outperform NTP across a wide range of instruction-following and healthcare domain-specific SFT tasks, demonstrating its adaptability to diverse LLM families and scalability to datasets of any size. Comprehensive ablation studies further verify the robustness of SFTMix's design choices, underscoring its versatility in consistently enhancing performance across different LLMs and datasets in broader natural language processing applications.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-07
# Block MedCare: ブロックチェーン統合によるヘルスケアの強化

Block MedCare: Advancing healthcare through blockchain integration ( http://arxiv.org/abs/2410.05251v1 )

ライセンス: Link先を確認
Oliver Simonoski, Dijana Capeska Bogatinoska, (参考訳) 情報交換によって駆動される時代において、透明性とセキュリティは、特にデータの完全性と機密性が最重要である医療業界において、重要な重要性を持っている。 本稿では、Electronic Health Records(EHR)の管理とデータ共有に革命をもたらす可能性に注目し、医療におけるブロックチェーン技術の統合について検討する。 Ethereumベースのブロックチェーン実装とスマートコントラクトを活用することで、患者が医療データを安全に保存し管理することを可能にする新しいシステムを提案する。 私たちの研究は、スケーラビリティ、ユーザのプライバシ、規制コンプライアンスなど、ヘルスケアにブロックチェーンを実装する上で重要な課題に対処しています。 本稿では,デジタルシグネチャとロールベースアクセス制御と,セキュリティを強化し,制御されたアクセスを確保するための多層アーキテクチャを組み合わせたソリューションを提案する。 ユーザ登録、データ追加、データ検索を含むシステムの重要な機能は、スマートコントラクトを通じて容易であり、健康情報を管理するためのセキュアで効率的なメカニズムを提供する。 このアプローチを検証するために、ブロックチェーンベースのヘルスケアソリューションの実践的な実装を実証する分散アプリケーション(dApp)を開発しました。 dAppには、患者、医師、管理者のためのユーザフレンドリーなインターフェースが含まれており、データのセキュリティと整合性を維持しながら、医療プロセスを合理化するシステムの可能性を示している。 さらに、ヘルスケアにおけるブロックチェーン導入のメリットと課題に対する洞察を得るために、調査を実施しました。 結果は、医療専門家やIT専門家の間で強い関心を示している一方で、統合コストと技術的な複雑さに関する懸念も浮き彫りにしている。 私たちの発見は...

In an era driven by information exchange, transparency and security hold crucial importance, particularly within the healthcare industry, where data integrity and confidentiality are paramount. This paper investigates the integration of blockchain technology in healthcare, focusing on its potential to revolutionize Electronic Health Records (EHR) management and data sharing. By leveraging Ethereum-based blockchain implementations and smart contracts, we propose a novel system that empowers patients to securely store and manage their medical data. Our research addresses critical challenges in implementing blockchain in healthcare, including scalability, user privacy, and regulatory compliance. We propose a solution that combines digital signatures, Role-Based Access Control, and a multi-layered architecture to enhance security and ensure controlled access. The system's key functions, including user registration, data append, and data retrieval, are facilitated through smart contracts, providing a secure and efficient mechanism for managing health information. To validate our approach, we developed a decentralized application (dApp) that demonstrates the practical implementation of our blockchain-based healthcare solution. The dApp incorporates user-friendly interfaces for patients, doctors, and administrators, showcasing the system's potential to streamline healthcare processes while maintaining data security and integrity. Additionally, we conducted a survey to gain insights into the perceived benefits and challenges of blockchain adoption in healthcare. The results indicate strong interest among healthcare professionals and IT experts, while also highlighting concerns about integration costs and technological complexity. Our findings...
翻訳日:2024-11-01 19:57:24 公開日:2024-10-07
# Causal Micro-Narratives

Causal Micro-Narratives ( http://arxiv.org/abs/2410.05252v1 )

ライセンス: Link先を確認
Mourad Heddaya, Qingcheng Zeng, Chenhao Tan, Rob Voigt, Alexander Zentefis, (参考訳) テキストから因果マイクロナラティブを分類する新しい手法を提案する。 これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。 本手法は,原因と効果の主題固有のオントロジーのみを必要とし,インフレーション・ナラティブ(インフレーション・ナラティブ)への応用を実証する。 歴史的および現代アメリカのニュース記事にまたがる人間の注釈付きデータセットを用いて、このマルチラベル分類タスクにおいて、複数の大きな言語モデル(LLM)を評価する。 最高のパフォーマンスモデル - 微調整のLlama 3.1 8B - 物語検出ではF1スコアが0.87、物語分類では0.71スコア。 包括的エラー分析は、言語的曖昧さから生じる課題を明らかにし、モデルエラーが人間のアノテータの不一致をどのように反映しているかを強調している。 本研究では,実世界のデータから因果マイクロナラティブを抽出する枠組みを確立し,社会科学研究に広く応用する。

We present a novel approach to classify causal micro-narratives from text. These narratives are sentence-level explanations of the cause(s) and/or effect(s) of a target subject. The approach requires only a subject-specific ontology of causes and effects, and we demonstrate it with an application to inflation narratives. Using a human-annotated dataset spanning historical and contemporary US news articles for training, we evaluate several large language models (LLMs) on this multi-label classification task. The best-performing model--a fine-tuned Llama 3.1 8B--achieves F1 scores of 0.87 on narrative detection and 0.71 on narrative classification. Comprehensive error analysis reveals challenges arising from linguistic ambiguity and highlights how model errors often mirror human annotator disagreements. This research establishes a framework for extracting causal micro-narratives from real-world data, with wide-ranging applications to social science research.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# GLEE: 言語ベースの経済環境のための統一フレームワークとベンチマーク

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments ( http://arxiv.org/abs/2410.05254v1 )

ライセンス: Link先を確認
Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz, (参考訳) 大規模言語モデル(LLM)は、自然言語によるコミュニケーションが頻繁に普及する経済と戦略的相互作用において、大きな可能性を示す。 LLMは合理的に振る舞うのか? 人間の行動を模倣できるのか? 効率的で公平な結果に達する傾向がありますか? 戦略的相互作用における自然言語の役割とは何か? 経済環境の特性はこれらのダイナミクスにどのように影響するのか? これらの疑問は、オンライン小売プラットフォームやレコメンデーターシステムといった現実的なデータ駆動システムにLLMベースのエージェントを統合することの経済的および社会的意味について重要なものとなっている。 MLコミュニティは、このようなマルチエージェント環境でLLMの可能性を探求してきたが、様々な仮定、設計選択、評価基準によって、堅牢で有意義な結論を導き出すことは困難である。 そこで,本稿では,2プレイヤー,シーケンシャル,言語ベースのゲームの研究を標準化するためのベンチマークを紹介する。 経済文献に触発されて、エージェントのパフォーマンス(自己獲得)を評価するために、一貫したパラメータ化、自由度、経済対策の3つの基本ファミリーと、ゲーム結果(効率性と公正性)を定義した。 我々は,対話シミュレーションと解析のためのオープンソースフレームワークを開発し,多数のゲーム構成にまたがるLLM対LLMインタラクションのデータセットと,人間対LLMインタラクションのデータセットを収集する。 大規模な実験を通じて、我々のフレームワークとデータセットがどのように使われるかを示します。 i) LLMをベースとしたエージェントの行動と,様々な経済状況における人間選手の行動を比較する。 二 個人的及び集団的パフォーマンス対策における代理人の評価及び 三 環境の経済特性がエージェントの行動に及ぼす影響を定量化する。

Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents' performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# SePPO:拡散アライメントのための半ポリケーション優先最適化

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment ( http://arxiv.org/abs/2410.05255v1 )

ライセンス: Link先を確認
Daoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao, Xiaoman Pan, Hongming Zhang, Mingxiao Li, Pengcheng Chen, Yu Dong, Christopher Brinton, Jiebo Luo, (参考訳) 人間のフィードバック(RLHF)法による強化学習は、視覚生成のための微調整拡散モデル(DM)の方法として現れつつある。 しかし、一般的に使われているオンライン戦略は報酬モデルの一般化能力によって制限されるが、非政治的アプローチでは、特に視覚的生成タスクにおいて、大量の困難なペア・アノテートされたデータを必要とする。 オン・アンド・オフ・ポリティクスRLHFの制約に対処するため、報酬モデルやペアの人間注記データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。 具体的には,Semi-Policy Preference Optimization (SePPO)法を提案する。 SePPOは、以前のチェックポイントを参照モデルとして利用し、それを使用して、プライオリティペアの"ロッシングイメージ"を置き換える、オンデマンドの参照サンプルを生成する。 このアプローチにより、オフポリティックな「勝利した画像」のみを使用して最適化できる。 さらに、政策分野における探索を拡大する参照モデル選択のための戦略を設計する。 特に、単に参照サンプルを学習のネガティブな例として扱うわけではない。 その代わりに、参照サンプルが画像に勝つかどうかを評価するアンカーベースの基準を設計し、生成された参照サンプルからモデルが選択的に学習できるようにする。 このアプローチは、基準試料の品質の不確実性に起因する性能劣化を緩和する。 テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。 SePPOは、テキスト・ツー・イメージのベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオのベンチマークでは優れたパフォーマンスを示している。 コードはhttps://github.com/DwanZhang-AI/SePPOでリリースされる。

Reinforcement learning from human feedback (RLHF) methods are emerging as a way to fine-tune diffusion models (DMs) for visual generation. However, commonly used on-policy strategies are limited by the generalization capability of the reward model, while off-policy approaches require large amounts of difficult-to-obtain paired human-annotated data, particularly in visual generation tasks. To address the limitations of both on- and off-policy RLHF, we propose a preference optimization method that aligns DMs with preferences without relying on reward models or paired human-annotated data. Specifically, we introduce a Semi-Policy Preference Optimization (SePPO) method. SePPO leverages previous checkpoints as reference models while using them to generate on-policy reference samples, which replace "losing images" in preference pairs. This approach allows us to optimize using only off-policy "winning images." Furthermore, we design a strategy for reference model selection that expands the exploration in the policy space. Notably, we do not simply treat reference samples as negative examples for learning. Instead, we design an anchor-based criterion to assess whether the reference samples are likely to be winning or losing images, allowing the model to selectively learn from the generated reference samples. This approach mitigates performance degradation caused by the uncertainty in reference sample quality. We validate SePPO across both text-to-image and text-to-video benchmarks. SePPO surpasses all previous approaches on the text-to-image benchmarks and also demonstrates outstanding performance on the text-to-video benchmarks. Code will be released in https://github.com/DwanZhang-AI/SePPO.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# 微分変換器

Differential Transformer ( http://arxiv.org/abs/2410.05258v1 )

ライセンス: Link先を確認
Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei, (参考訳) トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 本稿では,ノイズをキャンセルしながら,関連するコンテキストに注意を向けるDiff Transformerを提案する。 具体的には、2つの異なるソフトマックスアテンションマップの差分として、差分アテンションスコアを算出する。 サブトラクションはノイズをキャンセルし、スパースアテンションパターンの出現を促進する。 言語モデリングの実験結果から,Diff Transformerはモデルサイズをスケールアップし,トークンをトレーニングすることで,Transformerよりも優れていた。 より興味深いことに、ロングコンテキストモデリング、キー情報検索、幻覚の緩和、インコンテキスト学習、アクティベーションアウトリアの削減など、実用的な応用において顕著な利点がある。 無関係な文脈に気を取られないようにすることで、Diff Transformerは質問応答とテキスト要約における幻覚を軽減することができる。 文脈内学習では、Diff Transformerは精度を向上するだけでなく、順順の順列化にも頑健である。 その結果、Diff Transformerは大規模言語モデルを進化させるために非常に効果的で有望なアーキテクチャとして位置づけられた。

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# DART:リアルタイムテキスト駆動動作制御のための拡散型自己回帰運動モデル

DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control ( http://arxiv.org/abs/2410.05260v1 )

ライセンス: Link先を確認
Kaifeng Zhao, Gen Li, Siyu Tang, (参考訳) 自然言語によるユーザインタラクションを可能にするテキスト条件のヒューマンモーション生成は,ますます人気が高まっている。 既存の手法は通常、1つの入力文に基づいて短い孤立した動きを生成する。 しかしながら、人間の動きは連続しており、豊かな意味論を持ち、長期間にわたって拡張することができる。 テキスト記述のストリームに正確に反応する、長く複雑なモーションを生成することは、特にオンラインとリアルタイムの環境では、依然として大きな課題だ。 さらに、テキスト条件付きモーション生成に空間的制約を組み込むことは、テキスト記述によって規定される動作意味と、ゴール位置や3次元シーン幾何学といった幾何学的情報との整合性を必要とするため、さらなる課題が生じる。 これらの制約に対処するため、DARTはリアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。 我々のモデルであるDARTは、潜在拡散モデルを用いて、動作履歴とテキスト入力を共同で条件付けしたコンパクトな動き原始空間を効果的に学習する。 DARTは、前回の履歴と現在のテキスト入力に基づいて、自動回帰的にモーションプリミティブを生成することにより、自然言語記述によって駆動されるリアルタイム、シーケンシャルなモーション生成を可能にする。 さらに、学習された動き原始空間は、遅延雑音最適化問題または強化学習によって対処されるマルコフ決定過程として定式化される、正確な空間運動制御を可能にする。 動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。 実験により,本手法は動作リアリズム,効率,制御性において,既存のベースラインよりも優れていた。 ビデオはプロジェクトのページで公開されている。

Text-conditioned human motion generation, which allows for user interaction through natural language, has become increasingly popular. Existing methods typically generate short, isolated motions based on a single input sentence. However, human motions are continuous and can extend over long periods, carrying rich semantics. Creating long, complex motions that precisely respond to streams of text descriptions, particularly in an online and real-time setting, remains a significant challenge. Furthermore, incorporating spatial constraints into text-conditioned motion generation presents additional challenges, as it requires aligning the motion semantics specified by text descriptions with geometric information, such as goal locations and 3D scene geometry. To address these limitations, we propose DART, a Diffusion-based Autoregressive motion primitive model for Real-time Text-driven motion control. Our model, DART, effectively learns a compact motion primitive space jointly conditioned on motion history and text inputs using latent diffusion models. By autoregressively generating motion primitives based on the preceding history and current text input, DART enables real-time, sequential motion generation driven by natural language descriptions. Additionally, the learned motion primitive space allows for precise spatial motion control, which we formulate either as a latent noise optimization problem or as a Markov decision process addressed through reinforcement learning. We present effective algorithms for both approaches, demonstrating our model's versatility and superior performance in various motion synthesis tasks. Experiments show our method outperforms existing baselines in motion realism, efficiency, and controllability. Video results are available on the project page: https://zkf1997.github.io/DART/.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# TextHawk2: バイリンガルOCRと16倍低額のグラウンドリングのための大型ビジョンランゲージモデルExcel

TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens ( http://arxiv.org/abs/2410.05261v1 )

ライセンス: Link先を確認
Ya-Qi Yu, Minghui Liao, Jiwen Zhang, Jihao Wu, (参考訳) 高度なジョブを扱うLVLM(Large Vision-Language Models)には,高密度テキストの読み込みと画像内のオブジェクトの配置が基本的機能である。 GPT-4oのような優れたプロプライエタリなモデルを含む以前のLVLMは、両方のタスクを同時にこなすのに苦労した。 さらに、よりきめ細かい知覚を持つ以前のLVLMでは、画像ごとに数千のトークンが費やされ、リソース集約化されていた。 汎用, OCR, 接地作業において, 画像トークンの16倍の精度で, きめ細かな認識と, 最先端の性能を示すバイリンガルLVLMであるTextHawk2を提案する。 1)Token Compression: 前者の効率的なアーキテクチャに基づいて構築されたTextHawk2は、画像毎のトークン数を16倍に削減し、最小限のリソースでTextHawkシリーズのトレーニングとデプロイを容易にする。 2) 視覚エンコーダ強化:LVLMコトレーニングによる視覚エンコーダの強化,中国のOCRや接地といった未確認タスクの可能性を解き放つ。 (3) データ多様性: トレーニング済みデータのソースを多様化しながら、1億のサンプルと同等のスケールを維持します。 我々は、複数のベンチマークでTextHawk2を評価し、OCRBenchで78.4%の精度、ChartQAで81.4%の精度、DocVQAで89.6%のANLS、RefCOCOg-testで88.1%の精度@0.5といった、同様のスケールのクローズドソースモデルに対して、パフォーマンスとパフォーマンスを一貫して向上させる。

Reading dense text and locating objects within images are fundamental abilities for Large Vision-Language Models (LVLMs) tasked with advanced jobs. Previous LVLMs, including superior proprietary models like GPT-4o, have struggled to excel in both tasks simultaneously. Moreover, previous LVLMs with fine-grained perception cost thousands of tokens per image, making them resource-intensive. We present TextHawk2, a bilingual LVLM featuring efficient fine-grained perception and demonstrating cutting-edge performance across general-purpose, OCR, and grounding tasks with 16 times fewer image tokens. Critical improvements include: (1) Token Compression: Building on the efficient architecture of its predecessor, TextHawk2 significantly reduces the number of tokens per image by 16 times, facilitating training and deployment of the TextHawk series with minimal resources. (2) Visual Encoder Reinforcement: We enhance the visual encoder through LVLM co-training, unlocking its potential for previously unseen tasks like Chinese OCR and grounding. (3) Data Diversity: We maintain a comparable scale of 100 million samples while diversifying the sources of pre-training data. We assess TextHawk2 across multiple benchmarks, where it consistently delivers superior performance and outperforms closed-source models of similar scale, such as achieving 78.4% accuracy on OCRBench, 81.4% accuracy on ChartQA, 89.6% ANLS on DocVQA, and 88.1% accuracy@0.5 on RefCOCOg-test.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# TurtleBench: 現実世界のYes/No Puzzlesによるトップ言語モデルの評価

TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles ( http://arxiv.org/abs/2410.05262v1 )

ライセンス: Link先を確認
Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li, (参考訳) LLM(Large Language Models)の適用が拡大するにつれて、信頼性の高い評価に対する需要が増大する。 既存のLCM評価ベンチマークは主に静的データセットに依存しており、ユーザとの動的インタラクションにおけるモデルパフォーマンスの評価が困難である。 さらに、これらのベンチマークは、しばしば特定の背景知識に依存し、モデルの論理的推論能力の測定を複雑にする。 強力なモデルや手作業に基づく他の動的評価手法は、バイアスを導入し、高いコストと時間的要求を発生させ、大規模アプリケーションを妨げる可能性がある。 これらの問題に対処するため、TurtleBenchを提案する。 TurtleBenchは、私たちが開発したオンラインTurtle Soup Puzzleプラットフォームから、実際のユーザ推測を収集します。 このアプローチは、比較的ダイナミックな評価データセットの生成を可能にし、モデルの不正行為のリスクを軽減すると同時に、推論能力に対する真のユーザニーズとより緊密にアセスメントを調整し、評価の信頼性を高める。 TurtleBenchには1,532のユーザ推測とアノテーション後の推測の正確性が含まれている。 このデータセットを用いて、現在利用可能な最も先進的なLCMのうち9つを徹底的に評価した。 特に、OpenAI o1シリーズはこれらの評価において主要な結果を得ることができなかった。 本研究は,「o1の潜在的推論は,自明なChain-of-Thought(CoT)技術を利用する」,「CoT長の増大は推論の利点を提供するだけでなく,ノイズコストを発生させる」など,さらなる研究のための仮説を提案する。

As the application of Large Language Models (LLMs) expands, the demand for reliable evaluations increases. Existing LLM evaluation benchmarks primarily rely on static datasets, making it challenging to assess model performance in dynamic interactions with users. Moreover, these benchmarks often depend on specific background knowledge, complicating the measurement of a model's logical reasoning capabilities. Other dynamic evaluation methods based on strong models or manual efforts may introduce biases and incur high costs and time demands, hindering large-scale application. To address these issues, we propose TurtleBench. TurtleBench collects real user guesses from our online Turtle Soup Puzzle platform that we developed. This approach allows for the relatively dynamic generation of evaluation datasets, mitigating the risk of model cheating while aligning assessments more closely with genuine user needs for reasoning capabilities, thus enhancing the reliability of evaluations. TurtleBench includes 1,532 user guesses along with the correctness of guesses after annotation. Using this dataset, we thoroughly evaluated nine of the most advanced LLMs available today. Notably, the OpenAI o1 series models did not achieve leading results in these evaluations. We propose several hypotheses for further research, such as "the latent reasoning of o1 utilizes trivial Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides reasoning benefits but also incurs noise costs."
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# バイアス下における回帰コンフォーマル予測

Regression Conformal Prediction under Bias ( http://arxiv.org/abs/2410.05263v1 )

ライセンス: Link先を確認
Matt Y. Cheung, Tucker J. Netherton, Laurence E. Court, Ashok Veeraraghavan, Guha Balakrishnan, (参考訳) 不確かさの定量化は、高インパクトアプリケーションのための機械学習アルゴリズムの不完全な予測を考慮に入れるために不可欠である。 コンフォーマル予測(CP)は、キャリブレーションされた予測間隔を有効なカバレッジで生成する不確実性定量化のための強力なフレームワークである。 本研究では,CP間隔が,実世界の多くの応用でよく見られる現象である偏差(基底真理値からの予測の体系的偏差)の影響について検討する。 本研究では,2種類の調整の間隔長に対するバイアスの影響について検討する。対称的調整,区間の両辺を等しく調整する従来の方法,非対称的調整,すなわち区間を正あるいは負の方向に不等に調整するより柔軟な方法である。 回帰タスクにおけるCP間隔の「高さ」に対称的・非対称的な調整がどう影響するかを理論的・経験的分析により明らかにした。 具体的には、絶対残差および量子的非整合性スコアについて、次のように証明する。 1) 対称的に調整された間隔長の上界は2|b|$で増加し、b$はバイアスを表す世界的なスカラー値である。 2)非対称に調整された間隔の長さはバイアスの影響を受けず、 3)非対称的に調整された間隔長が対称長よりも小さいことが保証された場合。 解析の結果, 予測値が地中真理値から有意なドリフトを示したとしても, 非対称的に調整された間隔は, ドリフトが起こらなかったような時間間隔の厳密さと有効性を維持することができる一方で, 対称的間隔は長さを著しく増大させることがわかった。 我々は,2つの実世界の予測タスク,スパース・ビュー・コンピュート・トモグラフィー(CT)再構成と時系列天気予報の理論的結果を実証した。 私たちの研究は、よりバイアスのかかる機械学習システムへの道を開くものです。

Uncertainty quantification is crucial to account for the imperfect predictions of machine learning algorithms for high-impact applications. Conformal prediction (CP) is a powerful framework for uncertainty quantification that generates calibrated prediction intervals with valid coverage. In this work, we study how CP intervals are affected by bias - the systematic deviation of a prediction from ground truth values - a phenomenon prevalent in many real-world applications. We investigate the influence of bias on interval lengths of two different types of adjustments -- symmetric adjustments, the conventional method where both sides of the interval are adjusted equally, and asymmetric adjustments, a more flexible method where the interval can be adjusted unequally in positive or negative directions. We present theoretical and empirical analyses characterizing how symmetric and asymmetric adjustments impact the "tightness" of CP intervals for regression tasks. Specifically for absolute residual and quantile-based non-conformity scores, we prove: 1) the upper bound of symmetrically adjusted interval lengths increases by $2|b|$ where $b$ is a globally applied scalar value representing bias, 2) asymmetrically adjusted interval lengths are not affected by bias, and 3) conditions when asymmetrically adjusted interval lengths are guaranteed to be smaller than symmetric ones. Our analyses suggest that even if predictions exhibit significant drift from ground truth values, asymmetrically adjusted intervals are still able to maintain the same tightness and validity of intervals as if the drift had never happened, while symmetric ones significantly inflate the lengths. We demonstrate our theoretical results with two real-world prediction tasks: sparse-view computed tomography (CT) reconstruction and time-series weather forecasting. Our work paves the way for more bias-robust machine learning systems.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# 非エルミート密度行列に対するモジュラースプレッド複素性の一般化

Generalization of Modular Spread Complexity for Non-Hermitian Density Matrices ( http://arxiv.org/abs/2410.05264v1 )

ライセンス: Link先を確認
Aneek Jana, Maitri Ganguli, (参考訳) この研究において、モジュラー拡散複雑性の概念を、還元密度行列が非エルミート的である場合に一般化する。 この複雑性の概念と関連するランツォス係数は擬エントロピーよりも豊富な情報を含み、これが最初のランツォス係数の1つであることが判明した。 また、エンタングルメントの容量を一般化する擬似容量を定義し、擬似モジュラー複雑性の初期モジュラー時間測度に対応する。 擬似モジュラー複雑性をわずかに修正したバイランチョスアルゴリズムを用いて計算する方法を述べる。 あるいは、(複素)ランツォス係数は擬R'enyiエントロピーの解析式から得ることができ、擬モジュラー拡散複雑性を計算するのに使うことができる。 2レベルシステムと4-量子ビットモデルの解析計算を行い、(擬)モジュラー拡散複雑性の観点から、横場Isingモデルの量子相転移の数値的研究を行う。 最後の例として、ウィルソンループを持つ3d$チャーン・サイモンゲージ理論を考え、モジュラー複雑性における位相の役割を理解する。 ここで導入された擬モジュラー複雑性の概念は、量子多体系、量子場理論、ホログラフィーにおける相転移と相転移を理解するのに役立つ。

In this work we generalize the concept of modular spread complexity to the cases where the reduced density matrix is non-Hermitian. This notion of complexity and associated Lanczos coefficients contain richer information than the pseudo-entropy, which turns out to be one of the first Lanczos coefficients. We also define the quantity pseudo-capacity which generalizes capacity of entanglement, and corresponds to the early modular-time measure of pseudo-modular complexity. We describe how pseudo-modular complexity can be calculated using a slightly modified bi-Lanczos algorithm. Alternatively, the (complex) Lanczos coefficients can also be obtained from the analytic expression of the pseudo-R\'enyi entropy, which can then be used to calculate the pseudo-modular spread complexity. We show some analytical calculations for 2-level systems and 4-qubit models and then do numerical investigations on the quantum phase transition of transverse field Ising model, from the (pseudo) modular spread complexity perspective. As the final example, we consider the $3d$ Chern-Simon gauge theory with Wilson loops to understand the role of topology on modular complexity. The concept of pseudo-modular complexity introduced here can be a useful tool for understanding phases and phase transitions in quantum many body systems, quantum field theories and holography.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# PrefixQuant: 静的量子化は、LLMのプリフィックスアウトリーチを介して動的に動く

PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs ( http://arxiv.org/abs/2410.05265v1 )

ライセンス: Link先を確認
Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo, (参考訳) 量子化は、メモリ効率と推論速度を向上させることで、LLM(Large Language Models)の展開に不可欠である。 既存のアクティベーション量子化法は主にチャネルワイドの外れ値に対処し、トークンワイドの外れ値を無視し、コストのかかる動的量子化に依存する。 この問題に対処するために、私たちはPrefixQuantを紹介します。これは、再トレーニングせずに、オフに外れ値トークンを分離する新しいテクニックです。 具体的には、PrefixQuantは高周波のoutlierトークンを特定し、それをKVキャッシュにプレフィックスすることで、推論中のoutlierトークンの生成を防止し、量子化を単純化する。 私たちの知る限り、PrefixQuantは、テンソル毎の静的量子化を効率よく実現し、高価な動的量子化よりも優れています。 例えば、W4A4KV4 (4-bit weight, 4-bit activation, 4-bit KV cache) では、Llama-3-8B, PrefixQuant with per-tensor static Quantization は、7.43 WikiText2 perplexity と 71.08% の平均精度を5つの常識推論タスクで達成し、QuaRot のような従来の1-token の動的量子化手法よりも 0.98 perplexity の改善と +5.98 の精度で上回っている。 さらに、PrefixQuantを用いたW4A4量子化モデルの推論速度はFP16モデルよりも1.60倍から2.81倍速く、QuaRotモデルよりも1.2倍から1.3倍速い。 私たちのコードは \url{https://github.com/ChenMnZ/PrefixQuant} で利用可能です。

Quantization is essential for deploying Large Language Models (LLMs) by enhancing memory efficiency and inference speed. Existing methods for activation quantization mainly address channel-wise outliers, often neglecting token-wise outliers, leading to reliance on costly per-token dynamic quantization. To address this, we introduce PrefixQuant, a novel technique that isolates outlier tokens offline without re-training. Specifically, PrefixQuant identifies high-frequency outlier tokens and prefixes them in the KV cache, preventing the generation of outlier tokens during inference and simplifying quantization. To our knowledge, PrefixQuant is the first to enable efficient per-tensor static quantization to outperform expensive per-token dynamic quantization. For instance, in W4A4KV4 (4- bit weight, 4-bit activation, and 4-bit KV cache) Llama-3-8B, PrefixQuant with per-tensor static quantization achieves a 7.43 WikiText2 perplexity and 71.08% average accuracy on 5 common-sense reasoning tasks, outperforming previous per-token dynamic quantization methods like QuaRot with 0.98 perplexity improvement and +5.98 points accuracy. Additionally, the inference speed of W4A4 quantized models using PrefixQuant is 1.60x to 2.81x faster than FP16 models and exceeds QuaRot models by 1.2x to 1.3x. Our code is available at \url{https://github.com/ChenMnZ/PrefixQuant}.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# 感覚特徴を用いた脳マッピング:視覚変換器を用いた自然画像における皮質意味選択性

Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers ( http://arxiv.org/abs/2410.05266v1 )

ライセンス: Link先を確認
Andrew F. Luo, Jacob Yeung, Rushikesh Zawar, Shaurya Dewan, Margaret M. Henderson, Leila Wehbe, Michael J. Tarr, (参考訳) 大規模人工ニューラルネットワークの進歩は、脳の機能的トポロジーに関する新たな洞察を促している。 ここでは、この手法を利用して、人間の視覚野において意味圏がどのように組織化されているかを研究する。 自然画像における複数のカテゴリの共起による課題を克服するために、画像内の特定の神経活性化視覚概念を分離するBrainSAIL(Semantic Attribution and Image Localization)を紹介する。 BrainSAILは、事前に訓練された視覚モデルから意味的に一貫した密集した空間的特徴を活用し、神経活動の堅牢な予測能力の上に構築する。 この方法は、追加の訓練を必要とせず、クリーンで空間的に密着した埋め込みを導き、ランダムな拡張の下で画像のセマンティック一貫性を活用する新しい認知プロセスを用いる。 画像全体の埋め込みと濃密な視覚特徴の空間を統一し、これらの特徴にボクセルエンコーディングモデルを適用することにより、高次視覚野の異なる領域における選択パターンを駆動する各画像の特定部分領域の同定を可能にする。 脳SAILを、カテゴリ選択性が知られている皮質領域で検証し、その選択性を正確に局所化し、多様な視覚概念に分解する能力を示す。 次に,BrainSAILのシーン特性と,深度,輝度,飽和といった低レベルの視覚特徴を特徴付ける能力を示し,複雑な視覚情報の符号化に関する洞察を提供する。 最後に、BrainSAILを用いて、視覚野への関心の異なる領域にわたる異なる脳エンコーディングモデルの特徴選択性を直接比較する。 我々の革新的な方法は、人間の脳における高レベルな視覚表現のマッピングと分解において、大きな進歩の道を開く。

Advances in large-scale artificial neural networks have facilitated novel insights into the functional topology of the brain. Here, we leverage this approach to study how semantic categories are organized in the human visual cortex. To overcome the challenge presented by the co-occurrence of multiple categories in natural images, we introduce BrainSAIL (Semantic Attribution and Image Localization), a method for isolating specific neurally-activating visual concepts in images. BrainSAIL exploits semantically consistent, dense spatial features from pre-trained vision models, building upon their demonstrated ability to robustly predict neural activity. This method derives clean, spatially dense embeddings without requiring any additional training, and employs a novel denoising process that leverages the semantic consistency of images under random augmentations. By unifying the space of whole-image embeddings and dense visual features and then applying voxel-wise encoding models to these features, we enable the identification of specific subregions of each image which drive selectivity patterns in different areas of the higher visual cortex. We validate BrainSAIL on cortical regions with known category selectivity, demonstrating its ability to accurately localize and disentangle selectivity to diverse visual concepts. Next, we demonstrate BrainSAIL's ability to characterize high-level visual selectivity to scene properties and low-level visual features such as depth, luminance, and saturation, providing insights into the encoding of complex visual information. Finally, we use BrainSAIL to directly compare the feature selectivity of different brain encoding models across different regions of interest in visual cortex. Our innovative method paves the way for significant advances in mapping and decomposing high-level visual representations in the human brain.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# マルチモーダルデータにおける部分決定事象のグラウンド化

Grounding Partially-Defined Events in Multimodal Data ( http://arxiv.org/abs/2410.05267v1 )

ライセンス: Link先を確認
Kate Sanders, Reno Kriz, David Etter, Hannah Recknor, Alexander Martin, Cameron Carpenter, Jingyang Lin, Benjamin Van Durme, (参考訳) ビデオの短いスニペットから、複雑な現在のイベントをどうやって学ぶことができるのか? 自然言語は、未特定で部分的に観測可能な事象を表現できるが、視覚データは類似した手法を助長せず、結果としてイベント理解に固有の課題をもたらす。 ビジョン対応AIエージェントの普及に伴い、これらのシステムは、構造化されていないビデオデータのコレクションからイベントをモデル化できなければならない。 マルチモーダル・セッティングにおけるロバストなイベント・モデリングに取り組むために,部分定義イベントに対するマルチモーダル・フォーミュレーションを導入し,これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。 このタスクに対応するベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む14.5時間毎の濃密な注釈付き現在のイベントビデオと1,168のテキストドキュメントからなる。 本稿では,マルチモーダルイベント解析の課題に対するLLM駆動型アプローチのコレクションを提案し,それらをMultiVENT-G上で評価する。 結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。

How are we able to learn about complex current events just from short snippets of video? While natural language enables straightforward ways to represent under-specified, partially observable events, visual data does not facilitate analogous methods and, consequently, introduces unique challenges in event understanding. With the growing prevalence of vision-capable AI agents, these systems must be able to model events from collections of unstructured video data. To tackle robust event modeling in multimodal settings, we introduce a multimodal formulation for partially-defined events and cast the extraction of these events as a three-stage span retrieval task. We propose a corresponding benchmark for this task, MultiVENT-G, that consists of 14.5 hours of densely annotated current event videos and 1,168 text documents, containing 22.8K labeled event-centric entities. We propose a collection of LLM-driven approaches to the task of multimodal event analysis, and evaluate them on MultiVENT-G. Results illustrate the challenges that abstract event understanding poses and demonstrates promise in event-centric video-language systems.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# データアドバイザ:大規模言語モデルの安全アライメントのための動的データキュレーション

Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models ( http://arxiv.org/abs/2410.05269v1 )

ライセンス: Link先を確認
Fei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan, (参考訳) データは、大規模言語モデル(LLM)のアライメントにおいて重要な要素である。 近年,LLMを用いた効率的なデータ収集法が研究されている。 しかし、LLMの生成したデータは、表現不足や欠落、低品質のデータポイントなど、品質上の問題に悩まされることが多い。 これらの問題に対処するため,所望のデータセットの特性を考慮したLLMに基づくデータ生成手法であるData Advisorを提案する。 事前に定義された原則のセットから始めて、Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、それに従ってデータ生成の次のイテレーションをアドバイスする。 Data Advisorは、データ品質とカバレッジを向上させるために、既存のデータ生成メソッドに簡単に統合できる。 3つの代表的なLCM(Mistral、Llama2、Falcon)の安全性アライメント実験は、モデルユーティリティを犠牲にすることなく、様々なきめ細かい安全問題に対するモデル安全性を高める上で、データアドバイザの有効性を実証している。

Data is a crucial element in large language model (LLM) alignment. Recent studies have explored using LLMs for efficient data collection. However, LLM-generated data often suffers from quality issues, with underrepresented or absent aspects and low-quality datapoints. To address these problems, we propose Data Advisor, an enhanced LLM-based method for generating data that takes into account the characteristics of the desired dataset. Starting from a set of pre-defined principles in hand, Data Advisor monitors the status of the generated data, identifies weaknesses in the current dataset, and advises the next iteration of data generation accordingly. Data Advisor can be easily integrated into existing data generation methods to enhance data quality and coverage. Experiments on safety alignment of three representative LLMs (i.e., Mistral, Llama2, and Falcon) demonstrate the effectiveness of Data Advisor in enhancing model safety against various fine-grained safety issues without sacrificing model utility.
翻訳日:2024-11-01 19:57:23 公開日:2024-10-07
# 最後のビジュアルプロジェクター「Fun-Tuning CLIP」

Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia ( http://arxiv.org/abs/2410.05270v1 )

ライセンス: Link先を確認
Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette, (参考訳) 我々は,CLIP (Radford et al , 2021) のような対照的に事前訓練された視覚言語モデルを,数発の分類に適用する問題を考える。 既存の文献では、凍結した視覚特徴の線形分類器を学習し、単語の埋め込みを最適化し、外部特徴適応器を学習することでこの問題に対処している。 本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。 視覚エンコーダの最後のプロジェクション行列を微調整するだけで,既存のベースラインと比較して高い性能が得られることがわかった。 さらに、微調整された行列と事前訓練された行列の間隔でトレーニングを規則化することで、この層を通したCLIPの適応の信頼性が向上することを示した。 意外なことに、このアプローチはProLIPと呼ばれ、11のいくつかのショット分類ベンチマーク、少数ショットドメインの一般化、クロスデータセット転送、テスト時間適応の最先端よりもパフォーマンスが良い。 コードはhttps://github.com/astra-vision/ProLIPで公開される。

We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The existing literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. This paper introduces an alternative way for CLIP adaptation without adding 'external' parameters to optimize. We find that simply fine-tuning the last projection matrix of the vision encoder leads to strong performance compared to the existing baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP through this layer. Perhaps surprisingly, this approach, coined ProLIP, yields performances on par or better than state of the art on 11 few-shot classification benchmarks, few-shot domain generalization, cross-dataset transfer and test-time adaptation. Code will be made available at https://github.com/astra-vision/ProLIP .
翻訳日:2024-11-01 19:47:38 公開日:2024-10-07
# 3次元設計のための視覚言語モデルを用いたCADコード生成

Generating CAD Code with Vision-Language Models for 3D Designs ( http://arxiv.org/abs/2410.05340v1 )

ライセンス: Link先を確認
Kamel Alrashedy, Pradyumna Tambwekar, Zulfiqar Zaidi, Megan Langwasser, Wei Xu, Matthew Gombolay, (参考訳) ジェネレーティブAIは、3Dオブジェクトの生成と修正のための効率的で自動化された方法を提供することで、デザインと製造の分野を変革した。 1つのアプローチは、Large Language Models(LLM)を使用してCAD(Computer-Aided Design)スクリプティングコードを生成することである。 CAD生成コードの正確性をテストするのは、コードでは不可能な3Dオブジェクト(例えば、形状、表面、寸法)の複雑さと構造のためである。 本稿ではCADコードから生成された3Dオブジェクトを反復的に検証・改善するCADCodeVerifyを提案する。 提案手法は,視覚言語モデル(VLM)に一連の検証質問を生成・回答させ,生成したオブジェクトを検証し,VLMに逸脱の修正を促すことで改善的なフィードバックを生成する。 CADCodeVerifyを評価するために,CADコード生成のための最初のベンチマークであるCADPromptを紹介した。 その結果,CADCodeVerifyは視覚的フィードバックの提供,3Dオブジェクトの構造の向上,コンパイルプログラムの成功率の向上などにより,VLMの性能向上を実現していることがわかった。 GPT-4に適用した場合、CADCodeVerifyはポイントクラウド距離を7.30%削減し、以前の作業と比べて5.0%改善した。

Generative AI has transformed the fields of Design and Manufacturing by providing efficient and automated methods for generating and modifying 3D objects. One approach involves using Large Language Models (LLMs) to generate Computer- Aided Design (CAD) scripting code, which can then be executed to render a 3D object; however, the resulting 3D object may not meet the specified requirements. Testing the correctness of CAD generated code is challenging due to the complexity and structure of 3D objects (e.g., shapes, surfaces, and dimensions) that are not feasible in code. In this paper, we introduce CADCodeVerify, a novel approach to iteratively verify and improve 3D objects generated from CAD code. Our approach works by producing ameliorative feedback by prompting a Vision-Language Model (VLM) to generate and answer a set of validation questions to verify the generated object and prompt the VLM to correct deviations. To evaluate CADCodeVerify, we introduce, CADPrompt, the first benchmark for CAD code generation, consisting of 200 natural language prompts paired with expert-annotated scripting code for 3D objects to benchmark progress. Our findings show that CADCodeVerify improves VLM performance by providing visual feedback, enhancing the structure of the 3D objects, and increasing the success rate of the compiled program. When applied to GPT-4, CADCodeVerify achieved a 7.30% reduction in Point Cloud distance and a 5.0% improvement in success rate compared to prior work
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# NeuroBOLT:多次元特徴マッピングを用いた静止状態脳波-fMRI合成

NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping ( http://arxiv.org/abs/2410.05341v1 )

ライセンス: Link先を確認
Yamin Li, Ange Lou, Ziyuan Xu, Shengchao Zhang, Shiyu Wang, Dario J. Englot, Soheil Kolouri, Daniel Moyer, Roza G. Bayrak, Catie Chang, (参考訳) 機能的磁気共鳴イメージング(fMRI)は、現代の神経科学において必須のツールであり、ミリスケール空間分解能において脳全体のダイナミックスに非侵襲的な窓を提供する。 しかし、fMRIは、高い演算コストや運動能力といった問題によって制約されている。 クロスモダリティ合成と脳のデコーディングの急速な進歩により、ディープニューラルネットワークは脳波(EEG)から直接、より広くアクセス可能でポータブルなニューロイメージングのモダリティを推定するための有望な解決策として登場した。 それでも、神経活動からfMRIへの複雑な投射と脳波の空間的あいまいさは、モデリングと解釈可能性の両方において重大な課題を生んでいる。 比較的少数の研究が脳波-fMRI翻訳のアプローチを開発しており、それらは大きな進歩を遂げているが、与えられた研究におけるfMRI信号の推測は、少数の脳領域と単一の状態(つまり、静止状態または特定のタスク)に限られている。 他の脳領域におけるfMRI信号の予測能力や、条件をまたいだ一般化能力は、この分野において重要なギャップを保っている。 これらの課題に対処するために、ニューロボルト(Neuro-to-BOLD Transformer)という、時間的、空間的、スペクトル的な領域から多次元の表現学習を活用して、生の脳波データを脳内の対応するfMRI活動信号に翻訳する新しい一般化可能なフレームワークを導入する。 実験の結果,NeuroBOLTは一次感覚野,高次認知領域,深部皮質脳野から静止状態のfMRI信号を効果的に再構成し,最先端の精度を達成し,これらの2つのモードの統合を著しく促進することがわかった。

Functional magnetic resonance imaging (fMRI) is an indispensable tool in modern neuroscience, providing a non-invasive window into whole-brain dynamics at millimeter-scale spatial resolution. However, fMRI is constrained by issues such as high operation costs and immobility. With the rapid advancements in cross-modality synthesis and brain decoding, the use of deep neural networks has emerged as a promising solution for inferring whole-brain, high-resolution fMRI features directly from electroencephalography (EEG), a more widely accessible and portable neuroimaging modality. Nonetheless, the complex projection from neural activity to fMRI hemodynamic responses and the spatial ambiguity of EEG pose substantial challenges both in modeling and interpretability. Relatively few studies to date have developed approaches for EEG-fMRI translation, and although they have made significant strides, the inference of fMRI signals in a given study has been limited to a small set of brain areas and to a single condition (i.e., either resting-state or a specific task). The capability to predict fMRI signals in other brain areas, as well as to generalize across conditions, remain critical gaps in the field. To tackle these challenges, we introduce a novel and generalizable framework: NeuroBOLT, i.e., Neuro-to-BOLD Transformer, which leverages multi-dimensional representation learning from temporal, spatial, and spectral domains to translate raw EEG data to the corresponding fMRI activity signals across the brain. Our experiments demonstrate that NeuroBOLT effectively reconstructs resting-state fMRI signals from primary sensory, high-level cognitive areas, and deep subcortical brain regions, achieving state-of-the-art accuracy and significantly advancing the integration of these two modalities.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# fMRI解析のための多段階グラフ学習による神経発達障害の診断

Multi-Stage Graph Learning for fMRI Analysis to Diagnose Neuro-Developmental Disorders ( http://arxiv.org/abs/2410.05342v1 )

ライセンス: Link先を確認
Wenjing Gao, Yuanyuan Yang, Jianrui Wei, Xuntao Yin, Xinhan Di, (参考訳) 脳疾患の診断のための深い教師付きモデルの性能を制限するのに十分な監督が不十分である。 限られたデータでより多くの情報を収集し、監督が不十分な学習フレームワークを開発することが重要である。 これらの問題をある程度拡張して解決するために,我々は多段階グラフ学習フレームワークを提案する。 1)事前訓練段階 : fmriデータの不十分な監視に関する自己教師付きグラフ学習 2)ファインチューンステージ : 脳疾患診断のための教師付きグラフ学習 AAL1を用いたAutism Brain Imaging Data Exchange ABIDE I, ABIDE II, ADHDの3つのデータセットの実験結果から, 提案したフレームワークの優位性と一般化性を, モデルの現状と比較した。 (0.7330→0.9321,0.7209→0.9021,0.6338→0.6699)

The insufficient supervision limit the performance of the deep supervised models for brain disease diagnosis. It is important to develop a learning framework that can capture more information in limited data and insufficient supervision. To address these issues at some extend, we propose a multi-stage graph learning framework which incorporates 1) pretrain stage : self-supervised graph learning on insufficient supervision of the fmri data 2) fine-tune stage : supervised graph learning for brain disorder diagnosis. Experiment results on three datasets, Autism Brain Imaging Data Exchange ABIDE I, ABIDE II and ADHD with AAL1,demonstrating the superiority and generalizability of the proposed framework compared to the state of art of models.(ranging from 0.7330 to 0.9321,0.7209 to 0.9021,0.6338 to 0.6699)
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# EgoOops: 手続き的テキストを用いたエゴセントリックビデオからの誤検出用データセット

EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts ( http://arxiv.org/abs/2410.05343v1 )

ライセンス: Link先を確認
Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori, (参考訳) エゴセントリックなビデオからの誤検出は、労働者のエラーを検出しフィードバックを提供するインテリジェントなアーカイブの開発に不可欠である。 これまでの研究は特定のドメインに限られており、手続き的なテキストを使わずにビデオから間違いを検出することに集中し、アクションが間違いであるかどうかを分析してきた。 本稿では,エゴセントリックなビデオ,手続き的テキスト,ビデオテキストアライメント,誤りラベル,ミス記述の3種類のアノテーションを含むEgoOopsデータセットを提案する。 EgoOopsは5つの手続きドメインをカバーし、50のエゴセントリックなビデオを含んでいる。 ビデオテキストアライメントにより、ビデオと手続き的テキストの両方に基づいてミスを検出することができる。 誤りラベルと説明は、現実世界の誤りの詳細な分析を可能にする。 EgoOopsに基づいて、ビデオテキストアライメントと誤り検出という2つのタスクに取り組む。 ビデオテキストアライメントのためには、直近のStepFormerモデルを拡張します。 このアライメント結果に基づいて,誤りラベルを予測するマルチモーダル分類器を提案する。 本実験では,提案手法はベースラインよりも高い性能を実現する。 さらに,本研究では,ビデオとテキストの組み合わせの有効性について検討した。 データセットとコードを公開時にリリースします。

Mistake action detection from egocentric videos is crucial for developing intelligent archives that detect workers' errors and provide feedback. Previous studies have been limited to specific domains, focused on detecting mistakes from videos without procedural texts, and analyzed whether actions are mistakes. To address these limitations, in this paper, we propose the EgoOops dataset, which includes egocentric videos, procedural texts, and three types of annotations: video-text alignment, mistake labels, and descriptions for mistakes. EgoOops covers five procedural domains and includes 50 egocentric videos. The video-text alignment allows the model to detect mistakes based on both videos and procedural texts. The mistake labels and descriptions enable detailed analysis of real-world mistakes. Based on EgoOops, we tackle two tasks: video-text alignment and mistake detection. For video-text alignment, we enhance the recent StepFormer model with an additional loss for fine-tuning. Based on the alignment results, we propose a multi-modal classifier to predict mistake labels. In our experiments, the proposed methods achieve higher performance than the baselines. In addition, our ablation study demonstrates the effectiveness of combining videos and texts. We will release the dataset and codes upon publication.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# トレーニングされたモデルがグループアノテーションを使わずに暗黙の相関にロバストにする方法を教えてくれる

Trained Models Tell Us How to Make Them Robust to Spurious Correlation without Group Annotation ( http://arxiv.org/abs/2410.05345v1 )

ライセンス: Link先を確認
Mahdi Ghaznavi, Hesam Asadollahzadeh, Fahimeh Hosseini Noohdani, Soroush Vafaie Tabar, Hosein Hasani, Taha Akbari Alvanagh, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah, (参考訳) 経験的リスク最小化(Empirical Risk Minimization, ERM)で訓練された分類器は、目標と高い相関関係を持つ属性に依存する傾向にある。 これにより、これらの属性を欠く表現不足群(または「マイノリティ」)のパフォーマンスを低下させ、分布外一般化と公正目的の両方に重大な課題を生じさせる。 多くの研究は、刺激的な相関に頑健性を高めることを目的としているが、訓練のためのグループアノテーションに依存することもある。 さらに、過去の研究で共通する制限は、モデル選択のためのグループアノテーション付き検証データセットに依存することである。 これにより、スプリアス相関の性質が分かっていない状況や、特定のスプリアス属性に対するグループラベルが利用できない状況において、それらの適用性が制限される。 グループアノテーションの仮定を最小化してモデルロバスト性を高めるため,環境に基づく検証と損失に基づくサンプリング(EVaLS)を提案する。 ERM訓練モデルによる損失を利用して、高損失と低損失のサンプルのバランスの取れたデータセットを構築し、データのグループ不均衡を緩和する。 これにより、単純なトレーニング後の最終層再トレーニングを備えた場合、グループシフトに対するロバスト性が大幅に向上する。 環境推論手法を用いて相関シフトを伴う多様な環境を作成することにより、EVaLSは検証データにおけるグループアノテーションの必要性を排除できる可能性がある。 この文脈において、最悪の環境精度は、ハイパーパラメータをチューニングし、多様なグループシフトでうまく機能するモデルを見つけるためのトレーニングプロセスを通して信頼できる代理として機能する。 EVaLSは有効にグループロバスト性を実現し、検証にもグループアノテーションは必要ないことを示す。 これは高速で単純で効果的なアプローチであり、グループアノテーションを必要とせず、最適に近いグループ精度に達する。

Classifiers trained with Empirical Risk Minimization (ERM) tend to rely on attributes that have high spurious correlation with the target. This can degrade the performance on underrepresented (or 'minority') groups that lack these attributes, posing significant challenges for both out-of-distribution generalization and fairness objectives. Many studies aim to enhance robustness to spurious correlation, but they sometimes depend on group annotations for training. Additionally, a common limitation in previous research is the reliance on group-annotated validation datasets for model selection. This constrains their applicability in situations where the nature of the spurious correlation is not known, or when group labels for certain spurious attributes are not available. To enhance model robustness with minimal group annotation assumptions, we propose Environment-based Validation and Loss-based Sampling (EVaLS). It uses the losses from an ERM-trained model to construct a balanced dataset of high-loss and low-loss samples, mitigating group imbalance in data. This significantly enhances robustness to group shifts when equipped with a simple post-training last layer retraining. By using environment inference methods to create diverse environments with correlation shifts, EVaLS can potentially eliminate the need for group annotation in validation data. In this context, the worst environment accuracy acts as a reliable surrogate throughout the retraining process for tuning hyperparameters and finding a model that performs well across diverse group shifts. EVaLS effectively achieves group robustness, showing that group annotation is not necessary even for validation. It is a fast, straightforward, and effective approach that reaches near-optimal worst group accuracy without needing group annotations, marking a new chapter in the robustness of trained models against spurious correlation.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# AnyAttack: 視覚・言語モデルを対象とした大規模自己監督型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型

AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models ( http://arxiv.org/abs/2410.05346v1 )

ライセンス: Link先を確認
Jiaming Zhang, Junhong Ye, Xingjun Ma, Yige Li, Yunfan Yang, Jitao Sang, Dit-Yan Yeung, (参考訳) マルチモーダルな機能のため、VLM(Vision-Language Models)は現実世界のシナリオで多くの影響のあるアプリケーションを発見している。 しかし、最近の研究では、VLMは画像ベースの敵攻撃、特に敵が特定する有害なコンテンツを生成するためにモデルを操作するターゲットの敵画像に対して脆弱であることが明らかになっている。 現在の攻撃方法は、目標とする敵攻撃を生成するために事前に定義された目標ラベルに依存しており、大規模なロバストネス評価に対するスケーラビリティと適用性を制限している。 本稿では,ラベル管理なしでVLMの標的画像を生成する自己教師型フレームワークであるAnyAttackを提案する。 ラベル管理を必要とする既存の手法の制限に対処するため,大規模未ラベル画像データセットであるLAION-400Mデータセット上で生成者を訓練し,対象とする対向雑音を発生させるコントラスト損失を導入する。 この大規模事前学習は,VLMの広い範囲にわたる強力な伝達性を実現する。 5つの主要なオープンソースVLM(CLIP, BLIP, BLIP2, InstructBLIP, MiniGPT-4)の多モーダルタスク(画像テキスト検索, マルチモーダル分類, 画像キャプション)に対する大規模な実験により, 攻撃の有効性が示された。 さらに、AnyAttackをGoogleのGemini、ClaudeのSonnet、MicrosoftのCopilotなど、複数の商用VLMに転送することに成功しました。 これらの結果は、VLMに対する前例のないリスクを明らかにし、効果的な対策の必要性を浮き彫りにした。

Due to their multimodal capabilities, Vision-Language Models (VLMs) have found numerous impactful applications in real-world scenarios. However, recent studies have revealed that VLMs are vulnerable to image-based adversarial attacks, particularly targeted adversarial images that manipulate the model to generate harmful content specified by the adversary. Current attack methods rely on predefined target labels to create targeted adversarial attacks, which limits their scalability and applicability for large-scale robustness evaluations. In this paper, we propose AnyAttack, a self-supervised framework that generates targeted adversarial images for VLMs without label supervision, allowing any image to serve as a target for the attack. To address the limitation of existing methods that require label supervision, we introduce a contrastive loss that trains a generator on a large-scale unlabeled image dataset, LAION-400M dataset, for generating targeted adversarial noise. This large-scale pre-training endows our method with powerful transferability across a wide range of VLMs. Extensive experiments on five mainstream open-source VLMs (CLIP, BLIP, BLIP2, InstructBLIP, and MiniGPT-4) across three multimodal tasks (image-text retrieval, multimodal classification, and image captioning) demonstrate the effectiveness of our attack. Additionally, we successfully transfer AnyAttack to multiple commercial VLMs, including Google's Gemini, Claude's Sonnet, and Microsoft's Copilot. These results reveal an unprecedented risk to VLMs, highlighting the need for effective countermeasures.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# ResTNet: コンピュータ囲碁におけるトランスフォーマーによる敵対的政策に対する防御

ResTNet: Defense against Adversarial Policies via Transformer in Computer Go ( http://arxiv.org/abs/2410.05347v1 )

ライセンス: Link先を確認
Tai-Lin Wu, Ti-Rong Wu, Chung-Chin Shih, Yan-Ru Ju, I-Chen Wu, (参考訳) AlphaZeroはGoで超人的レベルを達成したが、最近の研究では、ボード全体のより包括的な理解を必要とする特定の状況における脆弱性を強調している。 この課題に対処するために,残余ネットワークとトランスフォーマーをインターリーブするネットワークであるResTNetを紹介する。 我々の実証実験はResTNetの利点を実証している。 第一に、演奏力を向上させるだけでなく、グローバルな情報も強化する。 第2に、AlphaZeroアルゴリズムを攻撃するために作られたサイクリックアドバイザリーと呼ばれるGoプログラムを防御し、攻撃される確率を70.44%から23.91%に大幅に下げる。 第三に、Go AIにとって難しいパターンの1つであるはしごパターンを正しく認識することで、59.15%から80.01%に精度を向上する。 最後に、ResTNetは意思決定プロセスの潜在的な説明を提供し、Hexのような他のゲームにも適用することができる。 我々の知る限り、ResTNetはAlphaZeroのボードゲームにおける残余ネットワークとTransformerを初めて統合し、AlphaZeroのグローバルな理解を高めるための有望な方向性を示唆している。

Although AlphaZero has achieved superhuman levels in Go, recent research has highlighted its vulnerability in particular situations requiring a more comprehensive understanding of the entire board. To address this challenge, this paper introduces ResTNet, a network that interleaves residual networks and Transformer. Our empirical experiments demonstrate several advantages of using ResTNet. First, it not only improves playing strength but also enhances the ability of global information. Second, it defends against an adversary Go program, called cyclic-adversary, tailor-made for attacking AlphaZero algorithms, significantly reducing the average probability of being attacked rate from 70.44% to 23.91%. Third, it improves the accuracy from 59.15% to 80.01% in correctly recognizing ladder patterns, which are one of the challenging patterns for Go AIs. Finally, ResTNet offers a potential explanation of the decision-making process and can also be applied to other games like Hex. To the best of our knowledge, ResTNet is the first to integrate residual networks and Transformer in the context of AlphaZero for board games, suggesting a promising direction for enhancing AlphaZero's global understanding.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# SoK: Edge AIのセキュリティと安全性を目指して

SoK: Towards Security and Safety of Edge AI ( http://arxiv.org/abs/2410.05349v1 )

ライセンス: Link先を確認
Tatjana Wingarz, Anne Lauscher, Janick Edinger, Dominik Kaaser, Stefan Schulte, Mathias Fischer, (参考訳) 集中管理型大規模言語モデル(LLM)として、高度なAIアプリケーションが広く利用できるようになった。 このような中央集権化はリスクとパフォーマンスのボトルネックの両方であり、Edge AIはこれらの問題の解決策になると約束している。 しかし、その分散型アプローチは、セキュリティと安全性に関するさらなる課題を提起する。 本稿では、これら2つの側面がEdge AIにとって重要であり、さらにその統合性についても論じる。 具体的には、セキュリティと安全性の脅威を調査し、既存の対策を要約し、この分野のさらなる研究を促すためにオープンな課題を収集する。

Advanced AI applications have become increasingly available to a broad audience, e.g., as centrally managed large language models (LLMs). Such centralization is both a risk and a performance bottleneck - Edge AI promises to be a solution to these problems. However, its decentralized approach raises additional challenges regarding security and safety. In this paper, we argue that both of these aspects are critical for Edge AI, and even more so, their integration. Concretely, we survey security and safety threats, summarize existing countermeasures, and collect open challenges as a call for more research in this area.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# GRU-DによるMIMIC-IVの経時的欠失の特徴

GRU-D Characterizes Age-Specific Temporal Missingness in MIMIC-IV ( http://arxiv.org/abs/2410.05350v1 )

ライセンス: Link先を確認
Niklas Giesa, Mert Akgül, Sebastian Daniel Boie, Felix Balzer, (参考訳) 時系列における観測されていないパターンとして定義される時間的欠如とその予測ポテンシャルは、臨床機械学習における新たな領域を表している。 高齢者と若年者の二分分類において,GRU-Dと呼ばれる崩壊機構を持つゲートリカレントユニットを訓練した。 モデル入力としてMIMIC-IVから5つのバイタルサインの時系列を抽出した。 GRU-Dはブートストラップデータに対して0.780 AUROCと0.810 AUPRCを用いて評価された。 訓練されたモデルパラメータを解釈し,パラメータ化された隠れゲートユニットで学習した重要な予測因子として,血圧の欠如と呼吸速度の欠如が認められた。 我々はGRU-Dが時間的欠如のパターンを明らかにするのにどのように使えるのかを、新しい研究の方向性に基づいて示すことに成功している。

Temporal missingness, defined as unobserved patterns in time series, and its predictive potentials represent an emerging area in clinical machine learning. We trained a gated recurrent unit with decay mechanisms, called GRU-D, for a binary classification between elderly - and young patients. We extracted time series for 5 vital signs from MIMIC-IV as model inputs. GRU-D was evaluated with means of 0.780 AUROC and 0.810 AUPRC on bootstrapped data. Interpreting trained model parameters, we found differences in blood pressure missingness and respiratory rate missingness as important predictors learned by parameterized hidden gated units. We successfully showed how GRU-D can be used to reveal patterns in temporal missingness building the basis of novel research directions.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# 言語モデルを用いたサイバーセキュリティ脆弱性からの階層的攻撃モデルの生成に向けて

Towards the generation of hierarchical attack models from cybersecurity vulnerabilities using language models ( http://arxiv.org/abs/2410.05351v1 )

ライセンス: Link先を確認
Kacper Sowka, Vasile Palade, Xiaorui Jiang, Hesam Jadidbonab, (参考訳) 本稿では、テキストベースのサイバーセキュリティ脆弱性データ間の兄弟関係を識別するために、事前訓練された言語モデルとサイムズネットワークを用いて検討する。 本論文の究極的な目的は,あるシステムにおける潜在的な脆弱性を特徴付ける一連のテキスト記述に基づく階層的攻撃モデルの構築である。 データの性質と問題を提示する不確実性に敏感な環境のため、現実的に指向したソフトコンピューティングアプローチが必要である。 そこで本研究の焦点は,そのようなモデルの構築に向けた予測リンクの信頼性に関する実践的疑問を考察することであり,提案手法に関する概念的かつ実践的な課題と解決策を概説する。 そこで,本稿のコントリビューションは,サイバーセキュリティ脆弱性間の兄弟関係を予測するための事前学習言語モデルを用いたニューラルネットワークの構築に焦点をあて,階層的攻撃モデルの生成にこの能力を適用する方法について概説する。 さらに、データ複雑性に取り組むための2つのデータサンプリング機構と、偽陽性予測の量を減らすためのコンセンサス機構を概説する。 これらのアプローチはそれぞれ,3セットのサイバーセキュリティデータから得られた経験的結果を用いて比較および比較を行い,その有効性を決定する。

This paper investigates the use of a pre-trained language model and siamese network to discern sibling relationships between text-based cybersecurity vulnerability data. The ultimate purpose of the approach presented in this paper is towards the construction of hierarchical attack models based on a set of text descriptions characterising potential/observed vulnerabilities in a given system. Due to the nature of the data, and the uncertainty sensitive environment in which the problem is presented, a practically oriented soft computing approach is necessary. Therefore, a key focus of this work is to investigate practical questions surrounding the reliability of predicted links towards the construction of such models, to which end conceptual and practical challenges and solutions associated with the proposed approach are outlined, such as dataset complexity and stability of predictions. Accordingly, the contributions of this paper focus on producing neural networks using a pre-trained language model for predicting sibling relationships between cybersecurity vulnerabilities, then outlining how to apply this capability towards the generation of hierarchical attack models. In addition, two data sampling mechanisms for tackling data complexity, and a consensus mechanism for reducing the amount of false positive predictions are outlined. Each of these approaches is compared and contrasted using empirical results from three sets of cybersecurity data to determine their effectiveness.
翻訳日:2024-11-01 19:17:28 公開日:2024-10-07
# Falcon Mamba: 初の競争力のあるアテンションレス7B言語モデル

Falcon Mamba: The First Competitive Attention-free 7B Language Model ( http://arxiv.org/abs/2410.05355v1 )

ライセンス: Link先を確認
Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid, (参考訳) 本稿では,新しいMambaアーキテクチャに基づく新しいベースとなる大規模言語モデルであるFalcon Mamba 7Bを紹介する。 ファルコン・マンバ7Bは、5.8兆のトークンで慎重に選択されたデータ混合物で訓練されている。 純粋なマンバベースのモデルとして、Falcon Mamba 7BはMistral 7B、Llama3.1 8B、Falcon2 11Bといったトランスフォーマーをベースにした主要なオープンウェイトモデルを上回っている。 Gemma 7Bと同等であり、RecurrentGemma 9BやRWKV-v6 Finch 7B/14Bなど、異なるアーキテクチャ設計のモデルよりも優れている。 Open LLM Leaderboardによると、現在Falcon Mamba 7Bは、この規模で最高のパフォーマンスのMambaモデルであり、既存のMambaモデルとハイブリッドのMamba-Transformerモデルの両方を上回っている。 アーキテクチャ上、Falcon Mamba 7Bは推論が大幅に高速で、長いシーケンス生成にはかなり少ないメモリを必要とする。 近年の研究では、ハイブリッド型Mamba-Transformerモデルが純粋なアーキテクチャ設計より優れていることが示唆されているが、純粋なMamba設計でさえ、トランスフォーマーやハイブリッド設計と比較して、同様の、あるいは優れた結果が得られることを実証している。 我々はFalcon Mamba 7Bの実装の重みを、許容ライセンスの下でhttps://huggingface.co/tiiuae/falcon-mamba-7bで公開しています。

In this technical report, we present Falcon Mamba 7B, a new base large language model based on the novel Mamba architecture. Falcon Mamba 7B is trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par with Gemma 7B and outperforms models with different architecture designs, such as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is the best-performing Mamba model in the literature at this scale, surpassing both existing Mamba and hybrid Mamba-Transformer models, according to the Open LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly faster at inference and requires substantially less memory for long sequence generation. Despite recent studies suggesting that hybrid Mamba-Transformer models outperform pure architecture designs, we demonstrate that even the pure Mamba design can achieve similar, or even superior results compared to the Transformer and hybrid designs. We make the weights of our implementation of Falcon Mamba 7B publicly available on https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# BSG4Bot:Biased Heterogeneous Subgraphsに基づく効率的なボット検出

BSG4Bot: Efficient Bot Detection based on Biased Heterogeneous Subgraphs ( http://arxiv.org/abs/2410.05356v1 )

ライセンス: Link先を確認
Hao Miao, Zida Liu, Jun Gao, (参考訳) 悪意のあるソーシャルボットの検出は、偽情報の拡散や陰謀メッセージの促進など、ボットの展開や操作が簡単になるため、重要なタスクとなっている。 既存のアプローチのほとんどは、グラフニューラルネットワーク(GNN)を使用して、ユーザ確率と構造的特徴の両方をキャプチャし、有望な進歩を実現している。 しかし、大きな基盤となるグラフの高価なトレーニング、GNNに好まれる類似の近傍パターンの仮定が満たされていない場合のパフォーマンス低下、高度に対立する状況下でのボットの動的な特徴など、制限に直面している。 そこで本研究では,BSG4Botと名づけられたBSG4Botを提案する。 具体的には、BSG4Botは、ノードの類似性を定義するために、ノード上の分類器を効率的に事前訓練し、事前訓練された分類器とパーソナライズされたPageRank(PPRスコア)によって計算されるノードの重要度を組み合わせたバイアス付きサブグラフを構築する。 BSG4Botは、構築されたサブグラフ上に異質なGNNを導入し、ボットを効果的かつ効率的に検出する。 サンプルデータに対する予備検証後,コンテンツカテゴリや時間的活動機能などの比較的安定した特徴をBSG4Botに組み込んだ。 大規模な実験の結果、BSG4Botは最先端のボット検出方法よりも優れており、1/5のトレーニング時間しか必要としないことがわかった。

The detection of malicious social bots has become a crucial task, as bots can be easily deployed and manipulated to spread disinformation, promote conspiracy messages, and more. Most existing approaches utilize graph neural networks (GNNs)to capture both user profle and structural features,achieving promising progress. However, they still face limitations including the expensive training on large underlying graph, the performance degration when similar neighborhood patterns' assumption preferred by GNNs is not satisfied, and the dynamic features of bots in a highly adversarial context. Motivated by these limitations, this paper proposes a method named BSG4Bot with an intuition that GNNs training on Biased SubGraphs can improve both performance and time/space efficiency in bot detection. Specifically, BSG4Bot first pre-trains a classifier on node features efficiently to define the node similarities, and constructs biased subgraphs by combining the similarities computed by the pre-trained classifier and the node importances computed by Personalized PageRank (PPR scores). BSG4Bot then introduces a heterogeneous GNN over the constructed subgraphs to detect bots effectively and efficiently. The relatively stable features, including the content category and temporal activity features, are explored and incorporated into BSG4Bot after preliminary verification on sample data. The extensive experimental studies show that BSG4Bot outperforms the state-of-the-art bot detection methods, while only needing nearly 1/5 training time.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# Model-GLUE: 野生の大型動物のための民主化LSMスケーリング

Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild ( http://arxiv.org/abs/2410.05357v1 )

ライセンス: Link先を確認
Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen, (参考訳) LLM(Large Language Models)はタスクや特殊なドメインにまたがって拡張されているため、既存のモデルに基づくLLMのスケーリングは大きな注目を集めており、異なるモデルを組み合わせる際にパフォーマンスを低下させるという課題に直面している。 モデルマージ、Mixture-of-Experts、スタックリングなど、事前訓練されたLLMの集約のための様々な技術が提案されている。 それらの利点にもかかわらず、様々なモデル動物園に対する総合的な比較と相乗効果は、まだ適切に対処されていない。 この研究ギャップを考慮して,本論文では,LLMスケーリングガイドラインであるModel-GLUEを紹介する。 まず、既存のLLMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始めます。 ベンチマーク結果から得られた知見を利用して、異なるアーキテクチャと初期化を特徴付ける異種モデル動物園の選択と集約のための戦略を定式化する。 我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。 最後に,Llama-2をベースとしたモデル動物園を用いた実験により,モデルGLUEの平均性能向上率は5.61%で,追加のトレーニングを行なわずに達成された。 コードは、https://github.com/Model-GLUE/Model-GLUE.comで入手できる。

As Large Language Models (LLMs) excel across tasks and specialized domains, scaling LLMs based on existing models has garnered significant attention, which faces the challenge of decreasing performance when combining disparate models. Various techniques have been proposed for the aggregation of pre-trained LLMs, including model merging, Mixture-of-Experts, and stacking. Despite their merits, a comprehensive comparison and synergistic application of them to a diverse model zoo is yet to be adequately addressed. In light of this research gap, this paper introduces Model-GLUE, a holistic LLM scaling guideline. First, our work starts with a benchmarking of existing LLM scaling techniques, especially selective merging, and variants of mixture. Utilizing the insights from the benchmark results, we formulate an strategy for the selection and aggregation of a heterogeneous model zoo characterizing different architectures and initialization. Our methodology involves the clustering of mergeable models and optimal merging strategy selection, and the integration of clusters through a model mixture. Finally, evidenced by our experiments on a diverse Llama-2-based model zoo, Model-GLUE shows an average performance enhancement of 5.61%, achieved without additional training. Codes are available at: https://github.com/Model-GLUE/Model-GLUE.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# 時空間データを用いた都市移動量の予測と最適化

A Predictive and Optimization Approach for Enhanced Urban Mobility Using Spatiotemporal Data ( http://arxiv.org/abs/2410.05358v1 )

ライセンス: Link先を確認
Shambhavi Mishra, T. Satyanarayana Murthy, (参考訳) 現代の都市部では、交通渋滞や不整合が通勤者や物流業に大きな影響を及ぼすなど、効果的な交通管理が大きな課題となっている。 本研究では,機械学習アルゴリズムと実交通情報を組み合わせた都市移動性向上手法を提案する。 ニューヨーク市の黄色いタクシー旅行のデータを用いて,旅行時間と渋滞解析の予測モデルを開発した。 この研究は、トラフィックトレンドを特定するために時空間分析フレームワークを使用し、GraphHopper APIを使用してリアルタイム経路最適化を実装した。 このシステムは、交通の流れの変化に応じて、現在の状況に基づいて最も効率的な経路を決定する。 この手法では、予測モデリングにSpark MLlibを使用し、データをリアルタイムで処理するためにSpark Streamingを使用する。 過去のデータ分析を現在の交通情報と統合することにより、旅行時間予測と経路最適化の両方において顕著な改善が示され、主要都市部における適用の可能性を示している。 本研究は、高度データ駆動方式による都市渋滞の低減と交通効率の向上を目的とした継続的な取り組みに寄与する。

In modern urban centers, effective transportation management poses a significant challenge, with traffic jams and inconsistent travel durations greatly affecting commuters and logistics operations. This study introduces a novel method for enhancing urban mobility by combining machine learning algorithms with live traffic information. We developed predictive models for journey time and congestion analysis using data from New York City's yellow taxi trips. The research employed a spatiotemporal analysis framework to identify traffic trends and implemented real-time route optimization using the GraphHopper API. This system determines the most efficient paths based on current conditions, adapting to changes in traffic flow. The methodology utilizes Spark MLlib for predictive modeling and Spark Streaming for processing data in real-time. By integrating historical data analysis with current traffic inputs, our system shows notable enhancements in both travel time forecasts and route optimization, demonstrating its potential for widespread application in major urban areas. This research contributes to ongoing efforts aimed at reducing urban congestion and improving transportation efficiency through advanced data-driven methods.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# ベイジアングラフニューラルネットワークを用いた対話型イベントシフティング

Interactive Event Sifting using Bayesian Graph Neural Networks ( http://arxiv.org/abs/2410.05359v1 )

ライセンス: Link先を確認
José Nascimento, Nathan Jacobs, Anderson Rocha, (参考訳) 法医学アナリストは、しばしば重要な出来事を理解するためにソーシャルメディアの画像とテキストを使用する。 一番の課題は、無関係なポストを最初に切り捨てることです。 この研究は、衛生を自動化するイベント中心の学習ベースのマルチモーダル分類モデルをトレーニングするためのインタラクティブなプロセスを導入する。 ベイズグラフニューラルネットワーク(BGNN)に基づく手法を提案し、アクティブラーニングと擬似ラベルの定式化を評価し、分析者が手動でアノテートしなければならないポスト数を減少させる。 この結果から,BGNNは興味のある事象を調査するためのソーシャルメディアデータシフティングに有用であることが示唆された。

Forensic analysts often use social media imagery and texts to understand important events. A primary challenge is the initial sifting of irrelevant posts. This work introduces an interactive process for training an event-centric, learning-based multimodal classification model that automates sanitization. We propose a method based on Bayesian Graph Neural Networks (BGNNs) and evaluate active learning and pseudo-labeling formulations to reduce the number of posts the analyst must manually annotate. Our results indicate that BGNNs are useful for social-media data sifting for forensics investigations of events of interest, the value of active learning and pseudo-labeling varies based on the setting, and incorporating unlabelled data from other events improves performance.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# RespLLM:総合的呼吸健康予測のためのマルチモーダルLCMによる音声とテキストの統合

RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction ( http://arxiv.org/abs/2410.05361v1 )

ライセンス: Link先を確認
Yuwei Zhang, Tong Xia, Aaqib Saeed, Cecilia Mascolo, (参考訳) 呼吸器疾患の発症率と死亡率は早期スクリーニングの重要性を浮き彫りにしている。 機械学習モデルは、臨床相談や聴診を自動化することができ、この分野で重要なサポートを提供する。 しかし、人口統計、医療史、症状、呼吸音などを含むデータは異質で複雑である。 既存のアプローチは不十分であり、一般的に限られた訓練データ、基本的な融合技術、タスク固有のモデルに頼っているため、一般化性に欠ける。 本稿では,呼吸状態予測のためのテキストと音声の表現を統一する多モーダル大規模言語モデル(LLM)フレームワークであるRespLLMを提案する。 RespLLMは、事前訓練されたLLMの広範な事前知識を活用し、モーダルな注意を通して効果的な音声テキストの融合を可能にする。 インストラクションチューニングは、複数のソースからの多様なデータを統合するために使われ、モデルの一般化性と汎用性を保証する。 実世界の5つのデータセットの実験では、RespLLMはトレーニングされたタスクで平均4.6%、目に見えないデータセットで7.9%、新しいタスクでゼロショット予測を容易にする。 我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基盤を築き、スケーラブルな呼吸健康診断の道を開いた。

The high incidence and mortality rates associated with respiratory diseases underscores the importance of early screening. Machine learning models can automate clinical consultations and auscultation, offering vital support in this area. However, the data involved, spanning demographics, medical history, symptoms, and respiratory audio, are heterogeneous and complex. Existing approaches are insufficient and lack generalizability, as they typically rely on limited training data, basic fusion techniques, and task-specific models. In this paper, we propose RespLLM, a novel multimodal large language model (LLM) framework that unifies text and audio representations for respiratory health prediction. RespLLM leverages the extensive prior knowledge of pretrained LLMs and enables effective audio-text fusion through cross-modal attentions. Instruction tuning is employed to integrate diverse data from multiple sources, ensuring generalizability and versatility of the model. Experiments on five real-world datasets demonstrate that RespLLM outperforms leading baselines by an average of 4.6% on trained tasks, 7.9% on unseen datasets, and facilitates zero-shot predictions for new tasks. Our work lays the foundation for multimodal models that can perceive, listen to, and understand heterogeneous data, paving the way for scalable respiratory health diagnosis.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# LLMはコンテキスト強化学習者である

LLMs Are In-Context Reinforcement Learners ( http://arxiv.org/abs/2410.05362v1 )

ライセンス: Link先を確認
Giovanni Monea, Antoine Bosselut, Kianté Brantley, Yoav Artzi, (参考訳) 大規模言語モデル(LLM)は、コンテキスト内教師あり学習(ICL)を通じて新しいタスクを学習することができる。 この研究は、この能力が文脈内強化学習(ICRL)にまで拡張されるかどうかを研究する。 そこで本研究では, ICRLの根本原因を探索における根本欠損と同定し, 迅速なモデル変性をもたらすことを示す。 本稿では,テスト時間計算の増加と計算バウンド近似により,この問題に対処するアルゴリズムを提案する。 我々は、ICRLアルゴリズムが報酬のみから効果的な学習につながることを実証的に示すために、いくつかの挑戦的な分類タスクを使用し、この能力と方法の特徴を分析する。 総じて, LLMのICRL能力は顕著であった。

Large Language Models (LLMs) can learn new tasks through in-context supervised learning (i.e., ICL). This work studies if this ability extends to in-context reinforcement learning (ICRL), where models are not given gold labels in context, but only their past predictions and rewards. We show that a naive application of ICRL fails miserably, and identify the root cause as a fundamental deficiency at exploration, which leads to quick model degeneration. We propose an algorithm to address this deficiency by increasing test-time compute, as well as a compute-bound approximation. We use several challenging classification tasks to empirically show that our ICRL algorithms lead to effective learning from rewards alone, and analyze the characteristics of this ability and our methods. Overall, our results reveal remarkable ICRL abilities in LLMs.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# World Simulatorに向けて:ビデオ生成のための物理コモンセンスに基づくベンチマークの構築

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation ( http://arxiv.org/abs/2410.05363v1 )

ライセンス: Link先を確認
Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo, (参考訳) Soraのようなテキスト・ツー・ビデオ(T2V)モデルは、複雑なプロンプトの可視化に大きく貢献している。 認知心理学者は、この目標を達成するための基盤は直感的な物理学を理解する能力であると考えている。 しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。 このギャップを埋めるために、T2V 生成における物理コモンセンスの正しさを評価するために設計された包括的 \textbf{Phy}sics \textbf{Gen}eration \textbf{Ben}chmark である PhyGenBench を導入する。 PhyGenBenchは、27の異なる物理法則にまたがる160の注意深いプロンプトで構成されており、4つの基本的なドメインにまたがっており、モデルの物理的常識に対する理解を包括的に評価することができる。 PhyGenBenchとともに、PhyGenEvalと呼ばれる新しい評価フレームワークを提案する。 このフレームワークは、物理コモンセンスを評価するために、適切な高度な視覚言語モデルと大規模言語モデルを利用する階層的評価構造を用いる。 PhyGenBench と PhyGenEval を通じて、人間のフィードバックと密接に一致した物理コモンセンスに対する T2V モデルの理解を大規模に自動評価することができる。 評価結果と詳細な分析により、現在のモデルは、物理コモンセンスに準拠したビデオを生成するのに苦労していることが示された。 さらに、モデルのスケールアップや迅速なエンジニアリング技術を採用するだけでは、PhyGenBench(動的シナリオなど)の課題を完全に解決するには不十分です。 この研究は、エンターテイメントの応用を超えて、これらのモデルにおける物理的なコモンセンスの学習をコミュニティに優先させることを願っている。 https://github.com/OpenGVLab/PhyGenBenchでデータとコードを公開します。

Text-to-video (T2V) models like Sora have made significant strides in visualizing complex prompts, which is increasingly viewed as a promising path towards constructing the universal world simulator. Cognitive psychologists believe that the foundation for achieving this goal is the ability to understand intuitive physics. However, the capacity of these models to accurately represent intuitive physics remains largely unexplored. To bridge this gap, we introduce PhyGenBench, a comprehensive \textbf{Phy}sics \textbf{Gen}eration \textbf{Ben}chmark designed to evaluate physical commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully crafted prompts across 27 distinct physical laws, spanning four fundamental domains, which could comprehensively assesses models' understanding of physical commonsense. Alongside PhyGenBench, we propose a novel evaluation framework called PhyGenEval. This framework employs a hierarchical evaluation structure utilizing appropriate advanced vision-language models and large language models to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can conduct large-scale automated assessments of T2V models' understanding of physical commonsense, which align closely with human feedback. Our evaluation results and in-depth analysis demonstrate that current models struggle to generate videos that comply with physical commonsense. Moreover, simply scaling up models or employing prompt engineering techniques is insufficient to fully address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We hope this study will inspire the community to prioritize the learning of physical commonsense in these models beyond entertainment applications. We will release the data and codes at https://github.com/OpenGVLab/PhyGenBench
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# 拡散モデル予測制御

Diffusion Model Predictive Control ( http://arxiv.org/abs/2410.05364v1 )

ライセンス: Link先を確認
Guangyao Zhou, Sivaramakrishnan Swaminathan, Rajkumar Vasudeva Raju, J. Swaroop Guntupalli, Wolfgang Lehrach, Joseph Ortiz, Antoine Dedieu, Miguel Lázaro-Gredilla, Kevin Murphy, (参考訳) D-MPC(Diffusion Model Predictive Control:拡散モデル予測制御)は,多段階アクションモデルと多段階ダイナミックスモデルを学習し,これらをオンラインMPCで使用するために組み合わせた新しいMPC手法である。 人気のD4RLベンチマークでは、MPCを用いた既存のモデルベースオフライン計画手法よりもはるかに優れた性能を示し、最新技術(SOTA)モデルベースおよびモデルフリー強化学習手法と競合することを示す。 さらに、D-MPCが実行時に新しい報酬関数を最適化し、新しいダイナミクスに適応する能力についても説明し、既存の拡散ベースプランニングベースラインと比較してその利点を強調した。

We propose Diffusion Model Predictive Control (D-MPC), a novel MPC approach that learns a multi-step action proposal and a multi-step dynamics model, both using diffusion models, and combines them for use in online MPC. On the popular D4RL benchmark, we show performance that is significantly better than existing model-based offline planning methods using MPC and competitive with state-of-the-art (SOTA) model-based and model-free reinforcement learning methods. We additionally illustrate D-MPC's ability to optimize novel reward functions at run time and adapt to novel dynamics, and highlight its advantages compared to existing diffusion-based planning baselines.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-07
# 早期フォールトトレラント量子位相推定のための誤差緩和と回路分割

Error mitigation and circuit division for early fault-tolerant quantum phase estimation ( http://arxiv.org/abs/2410.05369v1 )

ライセンス: Link先を確認
Alicja Dutkiewicz, Stefano Polla, Maximilian Scheurer, Christian Gogolin, William J. Huggins, Thomas E. O'Brien, (参考訳) 有用な問題を解くことができる完全フォールトトレラントな量子コンピュータは将来的な目標であり、我々は、限られた誤り訂正を可能にする「早期フォールトトレランス」の時代を期待する。 本稿では,誤り訂正オーバヘッドと残差論理ノイズを交換して早期耐故障性アルゴリズムを設計するためのフレームワークを提案し,量子位相推定(QPE)に適用する。 量子フーリエ変換(QFT)に基づくQPE技術を開発した。 さらにデータ処理技術であるEUMLE(Explicitly Unbiased Maximum Likelihood Estimation)を開発し、QFTベースのQPEスキームにおける任意のエラーを、一貫した漸近的な方法で軽減する。 これにより、場のオープンな問題としてラベル付けされた期待値推定を超えた量子エラー軽減技術が拡張される。 このスキームを2次元ハバードモデルと様々な分子ハミルトニアンの基底状態問題に適用すると、約半分の物理量子ビットを$\sim10\times$ Wall-clock のオーバーヘッドで半分にすることができるが、さらに減少すると実行時間が急上昇する。 この研究は、早期耐故障コストの削減と時空トレードオフをエンドツーエンドで分析し、将来どの領域が改善できるかを特定する。

As fully fault-tolerant quantum computers capable of solving useful problems remain a future goal, we anticipate an era of "early fault tolerance" allowing for limited error correction. We propose a framework for designing early fault-tolerant algorithms by trading between error correction overhead and residual logical noise, and apply it to quantum phase estimation (QPE). We develop a quantum-Fourier-transform (QFT)-based QPE technique that is robust to global depolarising noise and outperforms the previous state of the art at low and moderate noise rates. We further develop a data processing technique, Explicitly Unbiased Maximum Likelihood Estimation (EUMLE), allowing us to mitigate arbitrary error on QFT-based QPE schemes in a consistent, asymptotically normal way. This extends quantum error mitigation techniques beyond expectation value estimation, which was labeled an open problem for the field. Applying this scheme to the ground state problem of the two-dimensional Hubbard model and various molecular Hamiltonians, we find we can roughly halve the number of physical qubits with a $\sim10\times$ wall-clock time overhead, but further reduction causes a steep runtime increase. This work provides an end-to-end analysis of early fault-tolerance cost reductions and space-time trade-offs, and identifies which areas can be improved in the future.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 長距離開量子イジング鎖における絡み合い、情報および非平衡相転移

Entanglement, information and non-equilibrium phase transitions in long-range open quantum Ising chains ( http://arxiv.org/abs/2410.05370v1 )

ライセンス: Link先を確認
Daniel A. Paz, Benjamin E. Maves, Naushad A. Kamar, Arghavan Safavi-Naini, Mohammad Maghrebi, (参考訳) 開量子系の非平衡相転移は、一般に古典的だが量子相関は変化しない。 いまだに絡み合い(後者の相関を特徴づける)は相転移に敏感である。 さらに, 相互情報, 総相関関係の境界は, 遷移において重要なスケーリングを示すべきである。 本研究は、スピンが自発放出されるような(指数$0\le \alpha \le 3$)正の相互作用を持つ開量子イジング鎖の定常状態におけるこれらの量について研究する。 本論文の大部分は、パラダイム的オープンディックモデルと密接な関係を持つ無限範囲モデル(\alpha=0$)の詳細な解析と数値解析に費やされている。 主な知見は, 絡み合いは有限であるが, ピークはピークであり, トランジションで普遍的な値を取るのに対して, 相互情報は遷移時だけでなく, 秩序相にも重要なスケーリングを示す。 対数ネガティビティ、量子フィッシャー情報、スピンスクイーズという3つの異なる絡み合いを考察する。 具体的には、量子フィッシャー情報を最大化する集合スピン演算子は相転移の \textit{gapless} モードと同一視でき、圧縮方向は \textit{gapped} モードであることを示す。 最後に, 位相遷移が期待されない場合(より大きい$\alpha$の場合)においても, スクイーズに匹敵する境界を求める行列積状態を用いたパワー・ロー相互作用モデルについて検討する。

Non-equilibrium phase transitions of open quantum systems generically exhibit diverging classical but not quantum correlations. Still entanglement -- characterizing the latter correlations -- can be sensitive to the phase transition. Furthermore, mutual information, bounding the total correlations, should exhibit critical scaling at the transition. In this work, we study these quantities in the steady state of open quantum Ising chains with power-law interactions (with the exponent $0\le \alpha \le 3$) where spins are subject to spontaneous emission. The bulk of this paper is dedicated to a detailed analytical as well as numerical analysis of the infinite-range model ($\alpha=0$), a model that is closely related to the paradigmatic open Dicke model. Our main findings are that the entanglement, while being finite, peaks, exhibits a kink and takes a universal value at the transition, while the mutual information exhibits critical scaling not only at the transition but well into the ordered phase, underscoring a hidden criticality that is not captured by (two-point) correlations. We consider three distinct entanglement measures: logarithmic negativity; quantum Fisher information; and, spin squeezing. Specifically, we show that the collective spin operator that maximizes the quantum Fisher information can be identified with the \textit{gapless} mode of the phase transition, while the squeezed direction is that of the \textit{gapped} mode. Finally, we investigate power-law interacting models using matrix product states where we find comparable bounds on squeezing even when no phase transition is expected (for larger $\alpha$), thus the connection to the phase transition does not appear to hold for shorter-range interactions.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 観測された無限領域相互作用系における測定誘起相転移

Measurement-induced phase transitions in monitored infinite-range interacting systems ( http://arxiv.org/abs/2410.05394v1 )

ライセンス: Link先を確認
Anna Delmonte, Zejian Li, Gianluca Passarelli, Eric Yilun Song, Diego Barberena, Ana Maria Rey, Rosario Fazio, (参考訳) 測定誘起相転移を観測する上で重要な課題は、選択後の障壁の緩和であり、測定読み出しの特定のシーケンスの再現性、すなわち軌道はシステムサイズにおいて指数関数的に小さくなる。 最近の研究では、監視された無限範囲系のクラスは、絡み合いの速い飽和を示すことによってこの問題を緩和し、結果として多項式選択後のオーバーヘッドのみが生じることが示唆されている。 本稿では,その基礎となる半古典力学により,この特徴が無限範囲系に固有のものであるか否かを問う。 本稿では,Tavis-Cummingsモデル,Superradianceモデル,Bose-Hubbardダイマーの3つの実験モデルについて考察する。 本研究では,これらのモデルにおける絡み合い相転移の発生について明らかにし,飽和時間が不安定領域の影響を強く受けており,また,選択後の障壁の緩和も防いでいることを示す。 最後に,これらのモデルの実験的実現を提案し,実験的な観点からのポストセレクションについて考察する。

A key challenge in observing measurement-induced phase transitions is the mitigation of the post-selection barrier, which causes the reproducibility of specific sequences of measurement readouts--the trajectory--to be exponentially small in system size. Recent studies suggest that some classes of monitored infinite-range systems alleviate this problem by exhibiting a fast saturation of entanglement, resulting in only a polynomial post-selection overhead. This paper answers whether this feature is inherent in infinite-range systems, due to their underlying semiclassical dynamics. We consider three experimentally relevant monitored models: a Tavis-Cummings model, a Superradiance model, and a Bose-Hubbard dimer, each exhibiting non-trivial monitored dynamics. We unveil the occurrence of entanglement phase transitions in these models, showing how the saturation time is strongly affected by bistability regions, which also prevent the mitigation of the post-selection barrier. Finally, we propose experimental realizations of these models, providing a discussion of post selection from an experimental perspective.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 多粒子状態における分離楕円体

Separable ellipsoids around multipartite states ( http://arxiv.org/abs/2410.05400v1 )

ライセンス: Link先を確認
Robin Y. Wen, Gilles Parez, William Witczak-Krempa, Achim Kempf, (参考訳) 有限次元において、任意の$m$-パーティイト積状態 $\rho_{\rm prod}=\rho_1\otimes ...\otimes\rho_m$ について、$\rho_{\rm prod}$ を中心とする分離状態の楕円体が存在することを示す。 この分離可能な楕円体の体積は、典型的には典型的な状態にある固有値の大きな階層のため、以前の研究で提案された分離可能な球の体積よりも指数関数的に大きい。 さらに、この楕円形規準をトレース式に洗練し、それを一般化して、すべての分離可能な状態を取り巻く分離可能な領域を特徴づけ、さらに両分離性について研究する。 我々の基準は、分離性を厳格に検出する数値的な手順に役立つだろう。 本研究では, 物理系の絡み合いを理解するための手法のパワーを示すために, 3量子X状態における分離性検出の手順と, 有限温度での1次元逆場イジングモデルを適用した。

We show that, in finite dimensions, around any $m$-partite product state $\rho_{\rm prod}=\rho_1\otimes...\otimes\rho_m$, there exists an ellipsoid of separable states centered around $\rho_{\rm prod}$. The volume of this separable ellipsoid is typically exponentially larger than that of the separable ball proposed in previous works, due to the large hierarchy of eigenvalues occurring in typical states. We further refine this ellipsoidal criterion to a trace formula, generalize it to characterize the separable region around all separable states, and further study biseparability. Our criterion will help numerical procedures to rigorously detect separability. We apply the procedure for separability detection on three-qubit X state in a dephasing environment, and the 1d transverse field Ising model at finite temperature to illustrate the power of our procedure for understanding entanglement in physical systems.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# LLMを用いたソーシャルメディア広告における気候マイクロターゲティングのポストホック研究:テーマとフェアネス評価

Post-hoc Study of Climate Microtargeting on Social Media Ads with LLMs: Thematic Insights and Fairness Evaluation ( http://arxiv.org/abs/2410.05401v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser, (参考訳) ソーシャルメディア上での気候変動コミュニケーションは、特定の人口集団に効果的にリーチし影響を及ぼすためのマイクロターゲット戦略をますます採用している。 本研究では,大規模言語モデル(LLM)を活用してFacebook広告を検証し,気候キャンペーンにおけるマイクロターゲットの実践に関するポストホック分析を行った。 我々の分析は、人口統計ターゲティングと公正性の2つの重要な側面に焦点を当てている。 性別や年齢などの対象とする人口目標を正確に予測し,全体の88.55%の精度を達成できるLCMの能力を評価する。 さらに, LLMに分類の説明を指示し, 各決定の裏側に透明な推論を与える。 これらの説明は、異なる階層的セグメントを扱うために使用される特定の主題的要素を明らかにし、様々なオーディエンスに適した異なる戦略を強調している。 以上の結果から,若年者は主に行動主義や環境意識を重視したメッセージを通じて対象とされ,女性は介護の役割や社会的アドボケーションに関するテーマに携わっていることが明らかとなった。 マイクロターゲットメッセージングの検出におけるLLMの有効性を評価することに加えて、モデル予測における潜在的なバイアスを特定するために、包括的な公正度分析を行う。 以上の結果から,LSMは概して良好に機能するが,特に高齢者と男性観客の分類において,特定のバイアスが存在することが示唆された。 目的とするコミュニケーション戦略の分断・説明におけるLCMの有効性を実証し,公正性の懸念を強調することによって,ソーシャルメディア主導型気候キャンペーンにおける透明性,説明責任,傾倒性の向上を目的とした今後の研究に有用な枠組みを提供する。

Climate change communication on social media increasingly employs microtargeting strategies to effectively reach and influence specific demographic groups. This study presents a post-hoc analysis of microtargeting practices within climate campaigns by leveraging large language models (LLMs) to examine Facebook advertisements. Our analysis focuses on two key aspects: demographic targeting and fairness. We evaluate the ability of LLMs to accurately predict the intended demographic targets, such as gender and age group, achieving an overall accuracy of 88.55%. Furthermore, we instruct the LLMs to generate explanations for their classifications, providing transparent reasoning behind each decision. These explanations reveal the specific thematic elements used to engage different demographic segments, highlighting distinct strategies tailored to various audiences. Our findings show that young adults are primarily targeted through messages emphasizing activism and environmental consciousness, while women are engaged through themes related to caregiving roles and social advocacy. In addition to evaluating the effectiveness of LLMs in detecting microtargeted messaging, we conduct a comprehensive fairness analysis to identify potential biases in model predictions. Our findings indicate that while LLMs perform well overall, certain biases exist, particularly in the classification of senior citizens and male audiences. By showcasing the efficacy of LLMs in dissecting and explaining targeted communication strategies and by highlighting fairness concerns, this study provides a valuable framework for future research aimed at enhancing transparency, accountability, and inclusivity in social media-driven climate campaigns.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 伝達学習を用いた限定データからの適応型デジタル双対フレームワーク内の深層学習に基づく視覚計測抽出

Deep learning-based Visual Measurement Extraction within an Adaptive Digital Twin Framework from Limited Data Using Transfer Learning ( http://arxiv.org/abs/2410.05403v1 )

ライセンス: Link先を確認
Mehrdad Shafiei Dizaji, (参考訳) Digital Twinsの技術は、モデルとシミュレーションをリアルタイムデータに統合することによって、科学的研究における意思決定に革命をもたらしている。 計算集約的なデジタル画像相関に頼り、リアルタイムデータ統合に制限がある従来の構造的健康モニタリング手法とは異なり、この研究は人工知能を用いた新しいアプローチを提案する。 具体的には、畳み込みニューラルネットワークを用いて、デジタル画像相関スペックルパターン画像と変形場とを関連づけることで、リアルタイムで構造的挙動を分析する。 最初は2次元のスペックルパターンに焦点をあて、立体対画像を用いて包括的な変形解析を行う3次元の応用に拡張した。 本手法は,畳み込みニューラルネットワークの学習に,合成したスペックルパターンと真正なスペックルパターンを併用することにより,計算上の課題を克服する。 モデルは堅牢で多用途に設計されており、従来の計測技術に代わる有望な代替手段を提供し、3次元モデリングにおける高度な応用の道を開く。 この進歩は、リアルタイムのシミュレーションと分析に人工知能の力を活用することによって、より効率的で動的な構造的健康モニタリングへのシフトを示す。

Digital Twins technology is revolutionizing decision-making in scientific research by integrating models and simulations with real-time data. Unlike traditional Structural Health Monitoring methods, which rely on computationally intensive Digital Image Correlation and have limitations in real-time data integration, this research proposes a novel approach using Artificial Intelligence. Specifically, Convolutional Neural Networks are employed to analyze structural behaviors in real-time by correlating Digital Image Correlation speckle pattern images with deformation fields. Initially focusing on two-dimensional speckle patterns, the research extends to three-dimensional applications using stereo-paired images for comprehensive deformation analysis. This method overcomes computational challenges by utilizing a mix of synthetically generated and authentic speckle pattern images for training the Convolutional Neural Networks. The models are designed to be robust and versatile, offering a promising alternative to traditional measurement techniques and paving the way for advanced applications in three-dimensional modeling. This advancement signifies a shift towards more efficient and dynamic structural health monitoring by leveraging the power of Artificial Intelligence for real-time simulation and analysis.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# マルチスフィア上のTQFTにおける誤り訂正符号

Error-Correcting Codes in TQFT on Multispheres ( http://arxiv.org/abs/2410.05404v1 )

ライセンス: Link先を確認
Rafael Chaves, Dmitry Melnikov, Marcos Neves, Luigy Pinto, Davide Poderini, (参考訳) 位相場理論 (TQFT) は空間の位相的特徴における量子相関を符号化する。 本研究では,TQFTにエンコードされた情報を,物理キャリアに影響を及ぼす局所的デコヒーレンスの存在下で格納し,検索する方法について検討する。 TQFTの固有の非局所性、冗長性、絡み合いは、これらを自然な誤り訂正符号として位置づけている。 情報回復プロトコルは、保護された情報をシステム全体に均一に分散し、空間接続性の観点から相関関係を解釈する必要があるという原則から導出可能であることを実証する。 具体的には,消去エラー訂正プロトコルを考案するためのトポロジカル・フレームワークを用いて,システムの一部が破損しても,情報が回復可能であることを示す。

Topological quantum field theories (TQFT) encode quantum correlations in topological features of spaces. In this work, we leverage this feature to explore how information encoded in TQFTs can be stored and retrieved in the presence of local decoherence affecting its physical carriers. TQFT states' inherent nonlocality, redundancy, and entanglement position them as natural error-correcting codes. We demonstrate that information recovery protocols can be derived from the principle that protected information must be uniformly distributed across the system and from interpreting correlations in terms of space connectivity. Specifically, we employ a topological framework to devise erasure error correction protocols, showing that information can be successfully recovered even when parts of the system are corrupted.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 大規模言語モデルガイド検索による解釈可能な制御ポリシーの合成

Synthesizing Interpretable Control Policies through Large Language Model Guided Search ( http://arxiv.org/abs/2410.05406v1 )

ライセンス: Link先を確認
Carlo Bosio, Mark W. Mueller, (参考訳) 大規模言語モデル(LLM)、体系的評価、進化的アルゴリズムの組み合わせは、組合せ最適化と科学的発見のブレークスルーを可能にした。 本稿では,この強力な組み合わせを動的システムの制御に拡張し,複雑な動作が可能な解釈可能な制御ポリシーを生成することを提案する。 提案手法では,Python などの標準言語における制御ポリシをプログラムとして表現する。 シミュレーションで候補コントローラを評価し,事前学習したLLMを用いてそれらを進化させる。 ブラックボックスニューラルネットワークを使って制御ポリシーを符号化する従来の学習ベースの制御技術とは異なり、我々のアプローチは透明性と解釈可能性を高める。 私たちは依然として、大規模なAIモデルのパワーを活用していますが、ポリシー設計フェーズでそれを活用し、すべてのシステムコンポーネントが実行時に解釈可能で容易に検証可能であることを保証しています。 さらに、標準プログラミング言語を使用することで、人間が専門知識と直感に基づいてコントローラーを微調整したり、適応したりすることができる。 本手法は,カップタスクにおける振り子の振り上げとボールの解釈可能な制御ポリシの合成への応用を通して述べる。 コードはhttps://github.com/muellerlab/synthesizing_interpretable_control_policies.gitで公開しています。

The combination of Large Language Models (LLMs), systematic evaluation, and evolutionary algorithms has enabled breakthroughs in combinatorial optimization and scientific discovery. We propose to extend this powerful combination to the control of dynamical systems, generating interpretable control policies capable of complex behaviors. With our novel method, we represent control policies as programs in standard languages like Python. We evaluate candidate controllers in simulation and evolve them using a pre-trained LLM. Unlike conventional learning-based control techniques, which rely on black box neural networks to encode control policies, our approach enhances transparency and interpretability. We still take advantage of the power of large AI models, but leverage it at the policy design phase, ensuring that all system components remain interpretable and easily verifiable at runtime. Additionally, the use of standard programming languages makes it straightforward for humans to finetune or adapt the controllers based on their expertise and intuition. We illustrate our method through its application to the synthesis of an interpretable control policy for the pendulum swing-up and the ball in cup tasks. We make the code available at https://github.com/muellerlab/synthesizing_interpretable_control_policies.git
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 選択的校正による予測信頼性の向上

Improving Predictor Reliability with Selective Recalibration ( http://arxiv.org/abs/2410.05407v1 )

ライセンス: Link先を確認
Thomas P. Zollo, Zhun Deng, Jake C. Snell, Toniann Pitassi, Richard Zemel, (参考訳) 信頼性の高いディープラーニングシステムは、キャリブレーションと呼ばれる品質の予測に関して、その信頼性を正確に表現できなければならない。 事前訓練されたモデルで信頼度を推定する最も効果的な方法の1つは、ポストホック校正法を適用することである。 温度スケーリングのような一般的なリカバリ手法は、典型的には少量のデータに適合し、より表現力のある特徴埋め込み空間とは対照的に、モデルの出力空間で機能する。 しかし、それらを適用する対象分布はしばしば複雑で、そのような関数に適合することが難しい。 この目的のために、選択モデルがデータのユーザ-コッサン比を下げることを学び、再校正者がそのようなモデルでうまく捉えられる入力空間の領域に焦点を合わせることができるようにする。 本稿では,アルゴリズムのモチベーションを理論的に分析し,難しい医用画像とゼロショット分類タスクに関する総合的な実験を通じて本手法を検証する。 以上の結果から,選択的再校正は幅広い選択基準と再校正基準よりも,キャリブレーション誤差が著しく低いことが示唆された。

A reliable deep learning system should be able to accurately express its confidence with respect to its predictions, a quality known as calibration. One of the most effective ways to produce reliable confidence estimates with a pre-trained model is by applying a post-hoc recalibration method. Popular recalibration methods like temperature scaling are typically fit on a small amount of data and work in the model's output space, as opposed to the more expressive feature embedding space, and thus usually have only one or a handful of parameters. However, the target distribution to which they are applied is often complex and difficult to fit well with such a function. To this end we propose \textit{selective recalibration}, where a selection model learns to reject some user-chosen proportion of the data in order to allow the recalibrator to focus on regions of the input space that can be well-captured by such a model. We provide theoretical analysis to motivate our algorithm, and test our method through comprehensive experiments on difficult medical imaging and zero-shot classification tasks. Our results show that selective recalibration consistently leads to significantly lower calibration error than a wide range of selection and recalibration baselines.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 現実の場面におけるミミケドアライメントによる超解像訓練の強化

Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes ( http://arxiv.org/abs/2410.05410v1 )

ライセンス: Link先を確認
Omar Elezabi, Zongwei Wu, Radu Timofte, (参考訳) 画像超解像法は、深層学習技術と十分なトレーニングデータで大きな進歩を遂げている。 しかし、現実のデータセットでは、低分解能(LR)と高分解能(HR)のペアが本質的に不整合しているため、問題に直面している。 本研究では、トレーニング中にLR入力とHR画像との整合により、これらの不整合を緩和する新しいプラグイン・アンド・プレイ・モジュールを提案する。 具体的には,従来のLR試料の劣化特性を保ちながらHRと整合する新しいLR試料を模倣する。 このモジュールは任意のSRモデルとシームレスに統合され、不整合に対する堅牢性を高める。 重要なことは、従来のSRモデルにパラメータを導入することなく、推論中に簡単に除去できる。 我々は,従来のCNNや最先端のトランスフォーマーなど,SRモデルのスペクトルにまたがって,合成および実世界のデータセットに対する本手法の有効性を包括的に評価した。 ソースコードはhttps://github.com/omarAlezaby/Mimicked_Ali で公開されます。

Image super-resolution methods have made significant strides with deep learning techniques and ample training data. However, they face challenges due to inherent misalignment between low-resolution (LR) and high-resolution (HR) pairs in real-world datasets. In this study, we propose a novel plug-and-play module designed to mitigate these misalignment issues by aligning LR inputs with HR images during training. Specifically, our approach involves mimicking a novel LR sample that aligns with HR while preserving the degradation characteristics of the original LR samples. This module seamlessly integrates with any SR model, enhancing robustness against misalignment. Importantly, it can be easily removed during inference, therefore without introducing any parameters on the conventional SR models. We comprehensively evaluate our method on synthetic and real-world datasets, demonstrating its effectiveness across a spectrum of SR models, including traditional CNNs and state-of-the-art Transformers. The source codes will be publicly made available at https://github.com/omarAlezaby/Mimicked_Ali .
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 正のバイアスがテンソル-ネットワーク収縮を誘引する

Positive bias makes tensor-network contraction tractable ( http://arxiv.org/abs/2410.05414v1 )

ライセンス: Link先を確認
Jiaqing Jiang, Jielun Chen, Norbert Schuch, Dominik Hangleiter, (参考訳) テンソルネットワークの収縮は、量子多体物理学、量子情報、量子化学における強力な計算ツールである。 テンソルネットワークの収縮の複雑さは、主にその絡み合いの性質に依存していると考えられており、これは二部分断のシュミット階数によって反映される。 ここでは、テンソル-ネットワークの収縮の複雑さが、量子性、すなわちそのエントリの符号構造の違いにどのように依存するかを研究する。 本稿では, 成分が正のバイアスを持つテンソルネットワークの複雑性を調べることによって, この問題に厳密に対処する。 中間結合次元 d>~n に対して、テンソル成分の小さな正平均値 >~1/d は、およそ収縮するランダムテンソルネットワークの計算複雑性を劇的に減少させ、任意の 1/poly(n) 乗算近似に対する準多項式時間アルゴリズムを可能にすることを示す。 同時に、そのようなテンソルネットワークを正確に収縮させることは、ゼロ平均の場合 [HHEG20] のように#Pハードのままである。 平均値1/dは[CJHS24]で観測された相転移点と一致する。 バルビノクの近似カウント法と統計力学モデルにランダムインスタンスをマッピングする手法を応用した。 さらに、全てのエントリが非負である正のテンソルネットワークの近似収縮の最悪の複雑さを考える。 まず、誤差が指数関数的に1に近い乗法近似が少なくともStoqMA-hardであることを示す簡単な証明を与える。 次に、行列 1-ノルムにおける加法的誤差を考えると、正のテンソルネットワークの収縮は BPP-Complete であることを示す。 この結果は、Arad と Landau の [AL10] の結果と比較し、一般的なテンソルネットワークでは、行列 2-ノルム加法誤差までの近似収縮は BQP-Complete であることを示す。

Tensor network contraction is a powerful computational tool in quantum many-body physics, quantum information and quantum chemistry. The complexity of contracting a tensor network is thought to mainly depend on its entanglement properties, as reflected by the Schmidt rank across bipartite cuts. Here, we study how the complexity of tensor-network contraction depends on a different notion of quantumness, namely, the sign structure of its entries. We tackle this question rigorously by investigating the complexity of contracting tensor networks whose entries have a positive bias. We show that for intermediate bond dimension d>~n, a small positive mean value >~1/d of the tensor entries already dramatically decreases the computational complexity of approximately contracting random tensor networks, enabling a quasi-polynomial time algorithm for arbitrary 1/poly(n) multiplicative approximation. At the same time exactly contracting such tensor networks remains #P-hard, like for the zero-mean case [HHEG20]. The mean value 1/d matches the phase transition point observed in [CJHS24]. Our proof makes use of Barvinok's method for approximate counting and the technique of mapping random instances to statistical mechanical models. We further consider the worst-case complexity of approximate contraction of positive tensor networks, where all entries are non-negative. We first give a simple proof showing that a multiplicative approximation with error exponentially close to one is at least StoqMA-hard. We then show that when considering additive error in the matrix 1-norm, the contraction of positive tensor network is BPP-Complete. This result compares to Arad and Landau's [AL10] result, which shows that for general tensor networks, approximate contraction up to matrix 2-norm additive error is BQP-Complete.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# Hasteが無駄に - グラフニューラルネットワークのスケールアップのためのシンプルなアプローチ

Haste Makes Waste: A Simple Approach for Scaling Graph Neural Networks ( http://arxiv.org/abs/2410.05416v1 )

ライセンス: Link先を確認
Rui Xue, Tong Zhao, Neil Shah, Xiaorui Liu, (参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めており、大規模グラフを持つアプリケーションにGNNをスケールするための様々なサンプリング手法が提案されている。 有望なGNNトレーニングアルゴリズムのクラスは、歴史的埋め込みを利用して、GNNのモデル表現性を維持しながら、計算とメモリコストを削減する。 しかし、古い特徴履歴のため、大きな計算バイアスが生じる。 本稿では,大規模問題に対する安定性と性能の低下を包括的に分析する。 我々の発見に触発されて、機能安定性を効果的に低減するシンプルな、かつ高効率なトレーニングアルゴリズム(REST)を提案し、それによって、さまざまなバッチサイズにおけるパフォーマンスと収束性を大幅に改善する。 提案アルゴリズムは、既存のソリューションとシームレスに統合され、実装が容易である一方、包括的な実験は、大規模ベンチマークにおいて優れた性能と効率性を示している。 具体的には, 従来の埋込法の改良により, ogbn-papers100Mおよびogbn-productsデータセットの2.7%および3.6%の性能向上が達成され, 顕著な収束が促進された。

Graph neural networks (GNNs) have demonstrated remarkable success in graph representation learning, and various sampling approaches have been proposed to scale GNNs to applications with large-scale graphs. A class of promising GNN training algorithms take advantage of historical embeddings to reduce the computation and memory cost while maintaining the model expressiveness of GNNs. However, they incur significant computation bias due to the stale feature history. In this paper, we provide a comprehensive analysis of their staleness and inferior performance on large-scale problems. Motivated by our discoveries, we propose a simple yet highly effective training algorithm (REST) to effectively reduce feature staleness, which leads to significantly improved performance and convergence across varying batch sizes. The proposed algorithm seamlessly integrates with existing solutions, boasting easy implementation, while comprehensive experiments underscore its superior performance and efficiency on large-scale benchmarks. Specifically, our improvements to state-of-the-art historical embedding methods result in a 2.7% and 3.6% performance enhancement on the ogbn-papers100M and ogbn-products dataset respectively, accompanied by notably accelerated convergence.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# STOP! 車両内IPネットワークによるカメラスポウティング

STOP! Camera Spoofing via the in-Vehicle IP Network ( http://arxiv.org/abs/2410.05417v1 )

ライセンス: Link先を確認
Dror Peri, Avishai Wool, (参考訳) 自律運転と高度運転支援システム(ADAS)は、運転を制御するためにカメラに依存している。 以前の多くのアプローチでは、車両を止めようとする攻撃者は、特殊で防御のよいCANバスでメッセージを送信する必要があった。 我々は、カメラとADASロジック間のIPベースのネットワーク通信を操作し、停止標識や赤信号の偽画像をビデオストリームに注入し、ADASを安全に停止させるという、より簡単な方法を提案する。 我々はGigE Visionプロトコルをうまく活用する攻撃ツールを開発した。 次に、プロトコルベースの検出器とビデオベースの検出器の2種類の受動異常検出器を分析して、そのような攻撃を識別する。 両クラスを複数実装し,テスト車両から収集したデータと公開BDDコーパスのデータに基づいて評価した。 以上の結果から, これらの検出器は, ナイーブな敵に対して有効であるが, 高度な敵は検出を回避できることがわかった。 最後に,映像伝送中にカメラパラメータをランダムに調整し,受信した画像が要求された調整に従うことを検証する,新しいアクティブディフェンス機構を提案する。 このクラス内では、各フレームの幅をランダムに変更する幅可変ディフェンスという、特定の実装に焦点を当てる。 異常検知器としての機能の他に、この防御は特定の攻撃に対する防御手段でもある:注入された画像パッチを歪めることで、ADASロジックによる認識を妨げている。 本研究では,理論解析による幅変化防御の有効性を実証し,広範囲の現実的な道路走行条件において,様々な種類の攻撃を広範囲に評価する。 この防御に対する攻撃が達成できた最善策は、0.2秒間停止標識を注入し、成功確率は0.2%であったが、車両の停止には2.5秒程度が必要であった。

Autonomous driving and advanced driver assistance systems (ADAS) rely on cameras to control the driving. In many prior approaches an attacker aiming to stop the vehicle had to send messages on the specialized and better-defended CAN bus. We suggest an easier alternative: manipulate the IP-based network communication between the camera and the ADAS logic, inject fake images of stop signs or red lights into the video stream, and let the ADAS stop the car safely. We created an attack tool that successfully exploits the GigE Vision protocol. Then we analyze two classes of passive anomaly detectors to identify such attacks: protocol-based detectors and video-based detectors. We implemented multiple detectors of both classes and evaluated them on data collected from our test vehicle and also on data from the public BDD corpus. Our results show that such detectors are effective against naive adversaries, but sophisticated adversaries can evade detection. Finally, we propose a novel class of active defense mechanisms that randomly adjust camera parameters during the video transmission, and verify that the received images obey the requested adjustments. Within this class we focus on a specific implementation, the width-varying defense, which randomly modifies the width of every frame. Beyond its function as an anomaly detector, this defense is also a protective measure against certain attacks: by distorting injected image patches it prevents their recognition by the ADAS logic. We demonstrate the effectiveness of the width-varying defense through theoretical analysis and by an extensive evaluation of several types of attack in a wide range of realistic road driving conditions. The best the attack was able to achieve against this defense was injecting a stop sign for a duration of 0.2 seconds, with a success probability of 0.2%, whereas stopping a vehicle requires about 2.5 seconds.
翻訳日:2024-11-01 18:57:16 公開日:2024-10-07
# 共分散インフォームドシェープによるファクトリファクト説明の修正 : 動作可能な最小化に向けて

Refining Counterfactual Explanations With Joint-Distribution-Informed Shapley Towards Actionable Minimality ( http://arxiv.org/abs/2410.05419v1 )

ライセンス: Link先を確認
Lei You, Yijun Bian, Lele Cao, (参考訳) 対実的説明(CE)は、観測データによく似ているが、異なる機械学習(ML)モデル出力を生成するデータポイントを特定し、モデル決定に重要な洞察を提供する。 さまざまなシナリオ、目標、タスクが調整されているにも関わらず、既存のCEメソッドは、ユーザやステークホルダに提示される説明に含まれる不要な機能変更のため、実行可能な効率性が欠如することが多い。 本稿では,モデルやCEアルゴリズムに制約を加えることなく,CEの有効性を維持しつつ,必要な特徴変化を最小限に抑える手法を提案する。 鍵となるイノベーションは、観測データと反ファクトデータの間の共同分散を計算し、それを活用してShapley値に特徴属性(FA)を知らせることである。 最適輸送(OT)はこの分布を効果的に導出することを示し,特にCE法では観測データと対実データとの整合が不明確である。 さらに、逆直観的な発見が発見され、FAを実行する際にCE生成機構によって定義される正確なアライメントに依存することが誤解を招く可能性がある。 提案手法は,複数のデータセットにわたる広範囲な実験で検証され,CEを改良する際の有効性を示す。

Counterfactual explanations (CE) identify data points that closely resemble the observed data but produce different machine learning (ML) model outputs, offering critical insights into model decisions. Despite the diverse scenarios, goals and tasks to which they are tailored, existing CE methods often lack actionable efficiency because of unnecessary feature changes included within the explanations that are presented to users and stakeholders. We address this problem by proposing a method that minimizes the required feature changes while maintaining the validity of CE, without imposing restrictions on models or CE algorithms, whether instance- or group-based. The key innovation lies in computing a joint distribution between observed and counterfactual data and leveraging it to inform Shapley values for feature attributions (FA). We demonstrate that optimal transport (OT) effectively derives this distribution, especially when the alignment between observed and counterfactual data is unclear in used CE methods. Additionally, a counterintuitive finding is uncovered: it may be misleading to rely on an exact alignment defined by the CE generation mechanism in conducting FA. Our proposed method is validated on extensive experiments across multiple datasets, showcasing its effectiveness in refining CE towards greater actionable efficiency.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# 対人環境における音声認識の改善による話者同一性支援の活用

Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments ( http://arxiv.org/abs/2410.05423v1 )

ライセンス: Link先を確認
Sagarika Alavilli, Annesya Banerjee, Gasser Elbanna, Annika Magaro, (参考訳) 現在の最先端音声認識モデルは、音響信号を語彙単位にマッピングするために訓練されている。 これらのモデルは優れた性能を示すが、背景雑音や音声の増大といったアウト・オブ・ディストリビューション条件に弱いままである。 本研究では,音声認識中に話者表現を組み込むことで,雑音に対するモデルロバスト性を高めることができるという仮説を立てる。 音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。 本モデルでは,Whisper の音声埋め込みと ECAPA-TDNN の話者埋め込みを利用して,両タスクを共同処理する。 クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。 特に、ジョイントモデルは8スピーカバブルバックグラウンドノイズなどの高雑音環境においてWhisperよりも優れています。 さらに,音波や雑音音声を含む高次音声の処理に優れた関節モデルを提案する。 これらの結果から,音声表現と音声認識を組み合わせることで,対向的条件下でより堅牢なモデルが得られる可能性が示唆された。

Current state-of-the-art speech recognition models are trained to map acoustic signals into sub-lexical units. While these models demonstrate superior performance, they remain vulnerable to out-of-distribution conditions such as background noise and speech augmentations. In this work, we hypothesize that incorporating speaker representations during speech recognition can enhance model robustness to noise. We developed a transformer-based model that jointly performs speech recognition and speaker identification. Our model utilizes speech embeddings from Whisper and speaker embeddings from ECAPA-TDNN, which are processed jointly to perform both tasks. We show that the joint model performs comparably to Whisper under clean conditions. Notably, the joint model outperforms Whisper in high-noise environments, such as with 8-speaker babble background noise. Furthermore, our joint model excels in handling highly augmented speech, including sine-wave and noise-vocoded speech. Overall, these results suggest that integrating voice representations with speech recognition can lead to more robust models under adversarial conditions.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# 観察からの拡散模倣

Diffusion Imitation from Observation ( http://arxiv.org/abs/2410.05429v1 )

ライセンス: Link先を確認
Bo-Ruei Huang, Chun-Kai Yang, Chun-Mao Lai, Dai-Jie Wu, Shao-Hua Sun, (参考訳) 観察から学ぶ(LfO)は、行動ラベルを必要とせず、州のみのデモンストレーションから学ぶことで専門家を模倣することを目的としている。 既存の敵の模倣学習アプローチは、エージェントを分類し、専門的な状態遷移を学習する判別器と区別できない状態遷移を生成するために、ジェネレータエージェントポリシーを学ぶ。 定式化の単純さにもかかわらず、これらの方法はしばしばハイパーパラメータに敏感であり、訓練に脆弱である。 生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。 具体的には、現在の状態から次の状態を生成することにより、専門家とエージェントの遷移を捉える拡散モデルを用いる。 そこで我々は,拡散モデルを二項分類器として訓練するために学習対象を再構成し,それを用いて政策学習に「現実性」の報酬を与える。 提案するフレームワークであるDiffusion Imitation from Observation (DIFO)は,ナビゲーション,移動,操作,ゲームなど,さまざまな連続制御領域において優れた性能を示す。 プロジェクトページ: https://nturobotlearninglab.github.io/DIFO

Learning from observation (LfO) aims to imitate experts by learning from state-only demonstrations without requiring action labels. Existing adversarial imitation learning approaches learn a generator agent policy to produce state transitions that are indistinguishable to a discriminator that learns to classify agent and expert state transitions. Despite its simplicity in formulation, these methods are often sensitive to hyperparameters and brittle to train. Motivated by the recent success of diffusion models in generative modeling, we propose to integrate a diffusion model into the adversarial imitation learning from observation framework. Specifically, we employ a diffusion model to capture expert and agent transitions by generating the next state, given the current state. Then, we reformulate the learning objective to train the diffusion model as a binary classifier and use it to provide "realness" rewards for policy learning. Our proposed framework, Diffusion Imitation from Observation (DIFO), demonstrates superior performance in various continuous control domains, including navigation, locomotion, manipulation, and games. Project page: https://nturobotlearninglab.github.io/DIFO
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# 拡散モデルによる連続アンサンブル天気予報

Continuous Ensemble Weather Forecasting with Diffusion models ( http://arxiv.org/abs/2410.05431v1 )

ライセンス: Link先を確認
Martin Andrae, Tomas Landelius, Joel Oskarsson, Fredrik Lindsten, (参考訳) 天気予報では、数値シミュレーションからデータ駆動システムへの方法が変化している。 この領域での初期の研究は決定論的予測に焦点を当てていたが、最近の研究は拡散モデルを用いて巧妙なアンサンブル予測を生み出している。 これらのモデルは、単一の予測ステップでトレーニングされ、自動回帰的にロールアウトされる。 しかし、これらは計算コストが高く、多くのロールアウトステップのために高時間分解能のためにエラーを蓄積する。 拡散モデルにおけるアンサンブル予測をサンプリングする,新しいフレキシブルな手法であるContinuous Ensemble Forecastingを用いて,これらの制限に対処する。 この方法は、自動回帰ステップなしで、時間的に一貫したアンサンブル軌道を完全に並列に生成することができる。 連続アンサンブル予測は自動回帰ロールアウトと組み合わせることで、精度を犠牲にすることなく任意の時間分解能で予測を行うことができる。 本手法は, 良好な確率特性を持つ大域的気象予報のための競合的な結果が得られることを実証する。

Weather forecasting has seen a shift in methods from numerical simulations to data-driven systems. While initial research in the area focused on deterministic forecasting, recent works have used diffusion models to produce skillful ensemble forecasts. These models are trained on a single forecasting step and rolled out autoregressively. However, they are computationally expensive and accumulate errors for high temporal resolution due to the many rollout steps. We address these limitations with Continuous Ensemble Forecasting, a novel and flexible method for sampling ensemble forecasts in diffusion models. The method can generate temporally consistent ensemble trajectories completely in parallel, with no autoregressive steps. Continuous Ensemble Forecasting can also be combined with autoregressive rollouts to yield forecasts at an arbitrary fine temporal resolution without sacrificing accuracy. We demonstrate that the method achieves competitive results for global weather forecasting with good probabilistic properties.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# 教師より優れた:AIの原始フィードバックから学ぶLLMエージェント

Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback ( http://arxiv.org/abs/2410.05434v1 )

ライセンス: Link先を確認
Sanjiban Choudhury, Paloma Sodhi, (参考訳) 大規模言語モデル(LLM)は優れた意思決定能力を示すが、現在の手法ではタスク実行中にエラーから自動的に自己改善するメカニズムが欠如している。 我々は,AIの専門家教師からのフィードバックを用いて,LLMエージェントを継続的に改善する反復的微調整フレームワークLEAPを提案する。 私たちの重要な洞察は、専門家の教師に特権のある状態 – トレーニング時に利用できるが、テスト時に隠蔽される情報 – を提供することです。 これにより、弱い専門家でさえ正確なガイダンスを提供し、テスト時に特権情報にアクセスすることなく、学生エージェントのパフォーマンスを著しく向上させることができる。 テキストベースのゲーム(ALFWorld)、Webナビゲーション(WebShop)、対話型コーディング(Intercode Bash)など、さまざまな意思決定ベンチマークでLEAPを評価した。 実験の結果,LEAP(1)は行動のクローン化に優れ,ReActベースライン(2)は弱い学生モデル(例えばLlama3-8B)が強い教師モデル(GPT4-o)を上回ることを可能とし,(3)弱いモデルでも特権バージョンを利用すれば自己改善できることがわかった。 また、LEAPの成功は、特権情報と学生の実現可能性のバランスにかかっていることを示す理論的分析を行い、それを実証的に検証した。 私たちのコードはhttps://leap-llm.github.ioで公開されています。

While large language models (LLMs) show impressive decision-making abilities, current methods lack a mechanism for automatic self-improvement from errors during task execution. We propose LEAP, an iterative fine-tuning framework that continually improves LLM agents using feedback from AI expert teachers. Our key insight is to equip the expert teachers with a privileged state -- information that is available during training but hidden at test time. This allows even weak experts to provide precise guidance, significantly improving the student agent's performance without access to privileged information at test time. We evaluate LEAP on diverse decision-making benchmarks, including text-based games (ALFWorld), web navigation (WebShop), and interactive coding (Intercode Bash). Our experiments show that LEAP (1) outperforms behavior cloning and ReAct baselines (2) enables weak student models (e.g., Llama3-8B) to exceed the performance of strong teacher models (GPT4-o), and (3) allows weak models to self-improve using privileged versions of themselves. We also provide a theoretical analysis showing that LEAP's success hinges on balancing privileged information with the student's realizability, which we empirically validate. Our code is available at https://leap-llm.github.io
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# 高性能探査のためのバイオメディカルデータセットの特徴的要素の発見

Discovering distinctive elements of biomedical datasets for high-performance exploration ( http://arxiv.org/abs/2410.05436v1 )

ライセンス: Link先を確認
Md Tauhidul Islam, Lei Xing, (参考訳) 人間の脳は小さな要素で物体を表し、要素の違いに基づいて2つの物体を区別する。 したがって、高次元データセットの特徴的な要素を明らかにすることは、多くの知覚駆動型生医学および臨床研究において重要である。 しかし,現在,高次元生医学・臨床データセットの特徴的要素を確実に抽出する方法は存在しない。 本稿では、データセットの高次元相関情報を用いて特徴データ要素を抽出する、教師なし深層学習手法であるDEAについて述べる。 DEAは最初、大量のデータを計算し、その後、独自のカーネル駆動のトリプル最適化ネットワークを用いることで、その部分をDEA要素にフィルタし、凝縮する。 DEAは、医学画像からの疾患検出、遺伝子ランキング、単一細胞RNA配列(scRNA-seq)データセットからの細胞認識など、従来の技術と比較して、精度を最大45%向上させることが知られている。 さらに、DEAは、中間計算プロセスのユーザガイドによる操作を可能にし、より優れた解釈性を備えた中間結果を提供する。

The human brain represents an object by small elements and distinguishes two objects based on the difference in elements. Discovering the distinctive elements of high-dimensional datasets is therefore critical in numerous perception-driven biomedical and clinical studies. However, currently there is no available method for reliable extraction of distinctive elements of high-dimensional biomedical and clinical datasets. Here we present an unsupervised deep learning technique namely distinctive element analysis (DEA), which extracts the distinctive data elements using high-dimensional correlative information of the datasets. DEA at first computes a large number of distinctive parts of the data, then filters and condenses the parts into DEA elements by employing a unique kernel-driven triple-optimization network. DEA has been found to improve the accuracy by up to 45% in comparison to the traditional techniques in applications such as disease detection from medical images, gene ranking and cell recognition from single cell RNA sequence (scRNA-seq) datasets. Moreover, DEA allows user-guided manipulation of the intermediate calculation process and thus offers intermediate results with better interpretability.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# ESPACE:モデル圧縮のためのアクティベーションの次元化

ESPACE: Dimensionality Reduction of Activations for Model Compression ( http://arxiv.org/abs/2410.05437v1 )

ライセンス: Link先を確認
Charbel Sakr, Brucek Khailany, (参考訳) 本研究では, アクティベーションの次元的低減に基づくLLM圧縮技術であるESPACEを提案する。 ウェイト中心テンソル分解に関する以前の研究とは異なり、ESPACEは主成分の事前校正セットに活性化を計画している。 このアプローチの活性化中央性は、表現力の損失のないLLMの再訓練を可能にし、推論では、重み分解は行列乗算連想性の副産物として得られる。 最適計算精度を持つ射影行列の構成に関する理論的結果を提供する。 実験により,ESPACEはGPT3,Llama2,Nemotron4モデルの50%の圧縮が可能であり,GPT3-22Bでは0.18パープレキシティが増大する。 ESPACEは20%から40%の圧縮速度でGPT3モデルを駆動し、GPT3-8Bのパープレキシティを最大0.38減少させる。 ESPACEはGEMMの実行時間を短縮し、既存のハードウェアで推論遅延をプリフィルする。 行列分解によるLlama2-7B圧縮に関する関連する研究と比較すると、ESPACEはLLMのテンソル分解圧縮における最先端化の第一歩である。

We propose ESPACE, an LLM compression technique based on dimensionality reduction of activations. Unlike prior works on weight-centric tensor decomposition, ESPACE projects activations onto a pre-calibrated set of principal components. The activation-centrality of the approach enables retraining LLMs with no loss of expressivity; while at inference, weight decomposition is obtained as a byproduct of matrix multiplication associativity. Theoretical results on the construction of projection matrices with optimal computational accuracy are provided. Experimentally, we find ESPACE enables 50% compression of GPT3, Llama2, and Nemotron4 models with small accuracy degradation, as low as a 0.18 perplexity increase on GPT3-22B. At lower compression rates of 20% to 40%, ESPACE drives GPT3 models to outperforming their baseline, by up to a 0.38 decrease in perplexity for GPT3-8B. ESPACE also reduces GEMM execution time and prefill inference latency on existing hardware. Comparison with related works on compressing Llama2-7B via matrix factorization shows that ESPACE is a first step in advancing the state-of-the-art in tensor decomposition compression of LLMs.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# DAAL:マルチモーダル深層学習のための密度認識型適応ラインマージン損失

DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning ( http://arxiv.org/abs/2410.05438v1 )

ライセンス: Link先を確認
Hadush Hailu Gebrerufael, Anil Kumar Tiwari, Gaurav Neupane, (参考訳) マルチモーダル・ディープ・メトリック・ラーニングは, 顔認証, きめ細かい物体認識, 製品検索などのタスクにおいて, 多様な表現を効果的に把握するために重要である。 距離やマージンの指標に基づいて、伝統的なメートル法学習のアプローチは、主にクラス分離を強調しており、しばしばマルチモーダルな特徴学習に不可欠なクラス内分布を見下ろしている。 本稿では,各クラスにおける適応サブクラスタの形成を奨励しつつ,組込みの密度分布を保ちつつ,各クラスにおける適応サブクラスタの形成を促進する,DAAL(Redentity-Aware Adaptive Margin Loss)と呼ばれる新たな損失関数を提案する。 アダプティブライン戦略を利用することで、DAALはクラス内の分散を高めるだけでなく、クラス間の堅牢な分離も保証し、効果的なマルチモーダル表現を容易にする。 ベンチマークのきめ細かいデータセットに関する総合的な実験は、DAALの優れた性能を示し、検索アプリケーションとマルチモーダルな深度学習の進歩の可能性を裏付けている。

Multi-modal deep metric learning is crucial for effectively capturing diverse representations in tasks such as face verification, fine-grained object recognition, and product search. Traditional approaches to metric learning, whether based on distance or margin metrics, primarily emphasize class separation, often overlooking the intra-class distribution essential for multi-modal feature learning. In this context, we propose a novel loss function called Density-Aware Adaptive Margin Loss(DAAL), which preserves the density distribution of embeddings while encouraging the formation of adaptive sub-clusters within each class. By employing an adaptive line strategy, DAAL not only enhances intra-class variance but also ensures robust inter-class separation, facilitating effective multi-modal representation. Comprehensive experiments on benchmark fine-grained datasets demonstrate the superior performance of DAAL, underscoring its potential in advancing retrieval applications and multi-modal deep metric learning.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# ThompsonがY Combinatorのバンドをサンプリング: 多項式レグレストとミスマッチしたサンプリングパラドックス

Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox ( http://arxiv.org/abs/2410.05441v1 )

ライセンス: Link先を確認
Raymond Zhang, Richard Combes, (参考訳) 我々は、線形組合せ半帯域と準ガウス報酬に対するトンプソンサンプリング(TS)を考える。 有限時間後悔が問題の次元と指数関数的にスケールしない最初の既知のTSを提案する。 さらに,「ミスマッチサンプリングパラドックス」について述べる: 正後分布から報奨分布やサンプルを知る学習者は,報奨を知らない学習者よりも指数関数的に悪い結果が得られる。 実験を生成するためのコードはhttps://github.com/RaymZhang/CTS-Mismatched-Paradoxで公開されている。

We consider Thompson Sampling (TS) for linear combinatorial semi-bandits and subgaussian rewards. We propose the first known TS whose finite-time regret does not scale exponentially with the dimension of the problem. We further show the "mismatched sampling paradox": A learner who knows the rewards distributions and samples from the correct posterior distribution can perform exponentially worse than a learner who does not know the rewards and simply samples from a well-chosen Gaussian posterior. The code used to generate the experiments is available at https://github.com/RaymZhang/CTS-Mismatched-Paradox
翻訳日:2024-11-01 18:47:31 公開日:2024-10-07
# 深層学習に基づくマングローブモニタリング

A Deep Learning-Based Approach for Mangrove Monitoring ( http://arxiv.org/abs/2410.05443v1 )

ライセンス: Link先を確認
Lucas José Velôso de Souza, Ingrid Valverde Reis Zreik, Adrien Salem-Sermanet, Nacéra Seghouani, Lionel Pourchier, (参考訳) マングローブは、環境の健康、経済の安定、気候の回復に不可欠な沿岸生態系である。 マングローブのモニタリングと保存は世界規模で重要であり、リモートセンシング技術はこれらの取り組みにおいて重要な役割を担っている。 最先端の人工知能と衛星データを統合することで、環境モニタリングのための新たな道が開かれ、自然資源の保護がこれまで以上に重要になったときに、保護戦略に革命をもたらす可能性がある。 本研究の目的は,マングローブセグメンテーションの課題における最近のディープラーニングモデルの包括的評価を提供することである。 我々はまず,Global Mangrove Watchのmangroveアノテーションと,世界中のmangrove位置からSentinel-2の衛星イメージを組み込んだ,オープンソースの新しいデータセットMagSet-2を紹介し,公開する。 次に、生成されたデータセットを使用して、3つのアーキテクチャグループ、すなわち畳み込み、トランスフォーマー、mambaモデルをベンチマークします。 実験の結果は、すべてのメトリクスにおいて他のアーキテクチャを上回るMambaモデルに対するディープラーニングコミュニティの関心をさらに裏付けるものだ。

Mangroves are dynamic coastal ecosystems that are crucial to environmental health, economic stability, and climate resilience. The monitoring and preservation of mangroves are of global importance, with remote sensing technologies playing a pivotal role in these efforts. The integration of cutting-edge artificial intelligence with satellite data opens new avenues for ecological monitoring, potentially revolutionizing conservation strategies at a time when the protection of natural resources is more crucial than ever. The objective of this work is to provide a comprehensive evaluation of recent deep-learning models on the task of mangrove segmentation. We first introduce and make available a novel open-source dataset, MagSet-2, incorporating mangrove annotations from the Global Mangrove Watch and satellite images from Sentinel-2, from mangrove positions all over the world. We then benchmark three architectural groups, namely convolutional, transformer, and mamba models, using the created dataset. The experimental outcomes further validate the deep learning community's interest in the Mamba model, which surpasses other architectures in all metrics.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# 保証カバレッジの共形予測を伴うオンラインスケーラブルガウス過程

Online scalable Gaussian processes with conformal prediction for guaranteed coverage ( http://arxiv.org/abs/2410.05444v1 )

ライセンス: Link先を確認
Jinwen Xu, Qin Lu, Georgios B. Giannakis, (参考訳) ガウス過程(英: Gaussian process、GP)は、ロボット工学、医療、監視など、多くの安全上重要な応用において、不確実な定量化(UQ)のために広く採用されているベイズ非パラメトリックパラダイムである。 しかし、結果として生じる不確実な値の整合性は、学習関数が滑らかさ、周期性などのGPモデルで定義された性質に従うという前提に基づいている。 このようなモデルの誤特定に対抗するため,データ交換可能性の唯一の前提の下で,有意に有効なカバレッジで予測セットを生成する分散自由な後処理フレームワークであるCPを用いてGPを織り込むことを提案する。 しかし、この仮定は通常、真のラベルを明らかにする前に予測セットを求めるオンライン設定で違反する。 長期間のカバレッジ保証を確保するため、真のラベルが予測セット内にあるかどうかのフィードバックに基づいて、キーしきい値パラメータを適応的に設定する。 計算結果から, GP-CP によるオンライン手法の利点を, 長期被覆性能において有意な比較を行った。

The Gaussian process (GP) is a Bayesian nonparametric paradigm that is widely adopted for uncertainty quantification (UQ) in a number of safety-critical applications, including robotics, healthcare, as well as surveillance. The consistency of the resulting uncertainty values however, hinges on the premise that the learning function conforms to the properties specified by the GP model, such as smoothness, periodicity and more, which may not be satisfied in practice, especially with data arriving on the fly. To combat against such model mis-specification, we propose to wed the GP with the prevailing conformal prediction (CP), a distribution-free post-processing framework that produces it prediction sets with a provably valid coverage under the sole assumption of data exchangeability. However, this assumption is usually violated in the online setting, where a prediction set is sought before revealing the true label. To ensure long-term coverage guarantee, we will adaptively set the key threshold parameter based on the feedback whether the true label falls inside the prediction set. Numerical results demonstrate the merits of the online GP-CP approach relative to existing alternatives in the long-term coverage performance.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# ニューラルデフレレーションによる軌道からの保存法則のデータの発見

Data-Driven Discovery of Conservation Laws from Trajectories via Neural Deflation ( http://arxiv.org/abs/2410.05445v1 )

ライセンス: Link先を確認
Shaoxuan Chen, Panayotis G. Kevrekidis, Hong-Kun Zhang, Wei Zhu, (参考訳) 現在の著者のサブセットによる以前の研究で、非線形力学系の機能的に独立な保存則の完全な集合を同定するために、いわゆるニューラルデフレレーション法が導入された。 ここでは、この提案を大幅に進める。 基礎となる運動方程式の明示的な知識を使う代わりに、系軌道から直接手法を開発する。 これは、システムの離散スナップショットを反映したデータのみが利用可能なシナリオにおいて、メソッドの実践的実装を強化するために不可欠である。 本稿では,1次元および2次元高調波発振器,Toda格子,Fermi-Pasta-Ulam-Tsingou格子,Calogero-Moser系などの多種多様な例で得られた法則について紹介する。

In an earlier work by a subset of the present authors, the method of the so-called neural deflation was introduced towards identifying a complete set of functionally independent conservation laws of a nonlinear dynamical system. Here, we extend by a significant step this proposal. Instead of using the explicit knowledge of the underlying equations of motion, we develop the method directly from system trajectories. This is crucial towards enhancing the practical implementation of the method in scenarios where solely data reflecting discrete snapshots of the system are available. We showcase the results of the method and the number of associated conservation laws obtained in a diverse range of examples including 1D and 2D harmonic oscillators, the Toda lattice, the Fermi-Pasta-Ulam-Tsingou lattice and the Calogero-Moser system.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# ソートに基づく埋め込みの安定性

Stability of sorting based embeddings ( http://arxiv.org/abs/2410.05446v1 )

ライセンス: Link先を確認
Radu Balan, Efstratios Tsoukanis, Matthias Wellershoff, (参考訳) 群 $G$ of order $M$ を実内積空間 $V$ 上でユニタリに作用する。 一般線型写像 $\alpha : \mathbb{R}^{M \times N} \to \mathbb{R}^D$ を不変写像 $\beta_\Phi : V \to \mathbb{R}^{M \times N}$ に施したソートベース埋め込みは、軌道を離すときのみ双リプシッツ条件を満たす。 さらに、任意の不変リプシッツ連続写像(ヒルベルト空間へ)がソートベース埋め込みを通し、任意の不変連続写像(局所凸空間へ)がソートベース埋め込みを通すことに注意する。

Consider a group $G$ of order $M$ acting unitarily on a real inner product space $V$. We show that the sorting based embedding obtained by applying a general linear map $\alpha : \mathbb{R}^{M \times N} \to \mathbb{R}^D$ to the invariant map $\beta_\Phi : V \to \mathbb{R}^{M \times N}$ given by sorting the coorbits $(\langle v, g \phi_i \rangle_V)_{g \in G}$, where $(\phi_i)_{i=1}^N \in V$, satisfies a bi-Lipschitz condition if and only if it separates orbits. Additionally, we note that any invariant Lipschitz continuous map (into a Hilbert space) factors through the sorting based embedding, and that any invariant continuous map (into a locally convex space) factors through the sorting based embedding as well.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# タスクの多様性がICL高原を短縮する

Task Diversity Shortens the ICL Plateau ( http://arxiv.org/abs/2410.05448v1 )

ライセンス: Link先を確認
Jaeyeon Kim, Sehyun Kwon, Joo Young Choi, Jongho Park, Jaewoong Cho, Jason D. Lee, Ernest K. Ryu, (参考訳) In-context Learning (ICL)は、一連の入力デモとその後のクエリに基づいて出力を生成する言語モデルの能力を記述する。 この際立った能力を理解するために、研究者らは単純化されたスタイル化されたモデルの研究を行った。 これらの研究は、長い損失高原を継続的に観察し、その間にモデルは最小限の改善を示し、そして急激な学習の急激な急激な増加をもたらした。 本研究では,多種多様なICLタスクのトレーニングを同時に短縮し,各タスクの学習を容易にすることを明らかにする。 この発見は、複数のICLタスクの複合的な複雑さが学習プロセスを短縮するのではなく短縮する、という自然な直観に矛盾するため、驚きである。 この結果から,近年の言語モデルの大規模学習の成功は,大規模データの豊かさだけでなく,自然言語学習データの多様性によって引き起こされる最適化(学習)の容易さに起因している可能性が示唆された。

In-context learning (ICL) describes a language model's ability to generate outputs based on a set of input demonstrations and a subsequent query. To understand this remarkable capability, researchers have studied simplified, stylized models. These studies have consistently observed long loss plateaus, during which models exhibit minimal improvement, followed by a sudden, rapid surge of learning. In this work, we reveal that training on multiple diverse ICL tasks simultaneously shortens the loss plateaus, making each task easier to learn. This finding is surprising as it contradicts the natural intuition that the combined complexity of multiple ICL tasks would lengthen the learning process, not shorten it. Our result suggests that the recent success in large-scale training of language models may be attributed not only to the richness of the data at scale but also to the easier optimization (training) induced by the diversity of natural language training data.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# 限られたデータを用いたAIによる早期メンタルヘルススクリーニング:妊娠中の女性の自撮りの分析

AI-Driven Early Mental Health Screening with Limited Data: Analyzing Selfies of Pregnant Women ( http://arxiv.org/abs/2410.05450v1 )

ライセンス: Link先を確認
Gustavo A. Basílio, Thiago B. Pereira, Alessandro L. Koerich, Ludmila Dias, Maria das Graças da S. Teixeira, Rafael T. Sousa, Wilian H. Hisatugu, Amanda S. Mota, Anilton S. Garcia, Marco Aurélio K. Galletta, Hermano Tavares, Thiago M. Paixão, (参考訳) うつ病や不安障害は世界中で何百万もの人に影響を与え、精神疾患の重荷に大きく貢献する。 早期スクリーニングは、精神疾患のタイムリーな同定が治療成績を大幅に改善するので、効果的な介入に不可欠である。 人工知能(AI)は、精神疾患のスクリーニングを改善し、早期介入とより良い治療結果を可能にするのに有用である。 AI駆動のスクリーニングは、デジタルイメージの顔機能を含む複数のデータソースの分析を活用することができる。 しかし、既存の手法はしばしば制御された環境や特殊な機器に依存しており、適用範囲は限られている。 本研究は、顔中心の自撮りを与えられたユビキタスな抑うつ不安スクリーニングのためのAIモデルの可能性について検討する。 この調査は、特に精神疾患に弱い高リスク妊婦に焦点を当てている。 臨床装置から得られた限られたトレーニングデータに対処するために, 顔表情認識用に設計された微調整畳み込みニューラルネットワーク(CNN)と, 顔表情のゼロショット解析に視覚言語モデル(VLM)の2つの異なるアプローチで, 事前訓練モデルを用いた。 実験の結果,提案手法はCNNの精度が77.6%,F1スコアが56.0%であった。 改善の余地は大きいが, この結果から, VLMはメンタルヘルススクリーニング, 特に限られたデータを持つシナリオにおいて, 有望なアプローチである可能性が示唆された。

Major Depressive Disorder and anxiety disorders affect millions globally, contributing significantly to the burden of mental health issues. Early screening is crucial for effective intervention, as timely identification of mental health issues can significantly improve treatment outcomes. Artificial intelligence (AI) can be valuable for improving the screening of mental disorders, enabling early intervention and better treatment outcomes. AI-driven screening can leverage the analysis of multiple data sources, including facial features in digital images. However, existing methods often rely on controlled environments or specialized equipment, limiting their broad applicability. This study explores the potential of AI models for ubiquitous depression-anxiety screening given face-centric selfies. The investigation focuses on high-risk pregnant patients, a population that is particularly vulnerable to mental health issues. To cope with limited training data resulting from our clinical setup, pre-trained models were utilized in two different approaches: fine-tuning convolutional neural networks (CNNs) originally designed for facial expression recognition and employing vision-language models (VLMs) for zero-shot analysis of facial expressions. Experimental results indicate that the proposed VLM-based method significantly outperforms CNNs, achieving an accuracy of 77.6% and an F1-score of 56.0%. Although there is significant room for improvement, the results suggest that VLMs can be a promising approach for mental health screening, especially in scenarios with limited data.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# プロンプト注入に対するLCMのロバスト化

Aligning LLMs to Be Robust Against Prompt Injection ( http://arxiv.org/abs/2410.05451v1 )

ライセンス: Link先を確認
Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, Chuan Guo, (参考訳) 大規模言語モデル(LLM)は、先進的な言語理解を必要とするタスクを支援するために、ユーザとインターネットの間に面した現代のソフトウェアシステムにおいて、ますます普及しつつある。 これらのタスクを達成するために、LLMはユーザー文書、Web検索、API呼び出しの結果などの外部データソースを使用することが多い。 これにより、攻撃者がプロンプトインジェクションを介してLLMを操作するための新たな道が開かれる。 相手のプロンプトを慎重に作成し、外部データソースに注入することで、ユーザの意図した命令をオーバーライドし、悪意のある命令を実行する。 プロンプト・インジェクション・アタック(英語版)はLLMのセキュリティにとって大きな脅威となり、最重要度の実用的対策の設計と実施を可能にした。 この結果から,LCMを即時注入に対してより堅牢にするために,アライメントが強力なツールであることが示唆された。 私たちのメソッド - SecAlign -- は、まず、プロンプトインジェクション攻撃をシミュレートし、望ましい応答と望ましくない応答のペアを構築することでアライメントデータセットを構築します。 そして、既存のアライメント技術を用いて、これらのシミュレーション攻撃に対して堅牢であるように、LLMを微調整する。 実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。 さらに、SecAlignの保護は訓練中に見えない強力な攻撃に一般化される。 具体的には,アライメントプロセス後のミストラル7Bにおいて,最先端のGCGベースのプロンプトインジェクションの成功率は56%から2%に低下した。 私たちのコードはhttps://github.com/facebookresearch/SecAlignでリリースされています。

Large language models (LLMs) are becoming increasingly prevalent in modern software systems, interfacing between the user and the internet to assist with tasks that require advanced language understanding. To accomplish these tasks, the LLM often uses external data sources such as user documents, web retrieval, results from API calls, etc. This opens up new avenues for attackers to manipulate the LLM via prompt injection. Adversarial prompts can be carefully crafted and injected into external data sources to override the user's intended instruction and instead execute a malicious instruction. Prompt injection attacks constitute a major threat to LLM security, making the design and implementation of practical countermeasures of paramount importance. To this end, we show that alignment can be a powerful tool to make LLMs more robust against prompt injection. Our method -- SecAlign -- first builds an alignment dataset by simulating prompt injection attacks and constructing pairs of desirable and undesirable responses. Then, we apply existing alignment techniques to fine-tune the LLM to be robust against these simulated attacks. Our experiments show that SecAlign robustifies the LLM substantially with a negligible hurt on model utility. Moreover, SecAlign's protection generalizes to strong attacks unseen in training. Specifically, the success rate of state-of-the-art GCG-based prompt injections drops from 56% to 2% in Mistral-7B after our alignment process. Our code is released at https://github.com/facebookresearch/SecAlign
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# ウェアラブルデータを用いたグループ学習活動の自動識別と可視化

Automatic Identification and Visualization of Group Training Activities Using Wearable Data ( http://arxiv.org/abs/2410.05452v1 )

ライセンス: Link先を確認
Barak Gahtan, Shany Funk, Einat Kodesh, Itay Ketko, Tsvi Kuflik, Alex M. Bronstein, (参考訳) Human Activity Recognition (HAR)は、スマートウォッチのようなウェアラブルデバイスによって収集された時系列データから日々のアクティビティを特定する。 モノのインターネット(IoT)、クラウドコンピューティング、低コストセンサーの最近の進歩は、医療、バイオメトリックス、スポーツ、パーソナルフィットネスといった分野にまたがってHARアプリケーションを拡大している。 しかし、これらのデバイスが生成する膨大なデータを効率的に処理し、事前定義されたアクティビティトレーニングセッションに頼ることなく、継続的な記録から幅広いアクティビティを正確に認識できるモデルを開発することは、依然として課題である。 本稿では,ウェアラブルデータからアクティビティを抽出,分析,識別するための包括的枠組みを提案する。 当社のアプローチは、Garmin 55スマートウォッチを6ヶ月にわたって装着した135人の兵士から収集されたデータに基づいています。 このフレームワークは複数のデータストリームを統合し、クロスドメインな統計手法を通じて欠落したデータを処理し、機械学習(ML)を使用して高精度なアクティビティを識別する。 さらに、統計的分析手法を用いて、グループ内の各個人のパフォーマンスを評価し、グループ内のそれぞれの位置に関する貴重な洞察を、理解し易い可視化で提供する。 これらの視覚化は、パフォーマンスメトリクスの理解を容易にし、グループ間の相互作用を強化し、個別のトレーニングプログラムを通知する。 従来のトレイン・スプリットとアウト・オブ・サンプルシナリオを通じてフレームワークを評価し,モデルの一般化機能に注目した。 さらに、MLに頼ることなく、睡眠データ計算に対処し、回復分析を改善した。 本研究は,グループ活動の正確な識別と,インテリジェントでデータ駆動型トレーニングソリューションへの道を開くためのウェアラブルデータの可能性を示すものである。

Human Activity Recognition (HAR) identifies daily activities from time-series data collected by wearable devices like smartwatches. Recent advancements in Internet of Things (IoT), cloud computing, and low-cost sensors have broadened HAR applications across fields like healthcare, biometrics, sports, and personal fitness. However, challenges remain in efficiently processing the vast amounts of data generated by these devices and developing models that can accurately recognize a wide range of activities from continuous recordings, without relying on predefined activity training sessions. This paper presents a comprehensive framework for imputing, analyzing, and identifying activities from wearable data, specifically targeting group training scenarios without explicit activity sessions. Our approach is based on data collected from 135 soldiers wearing Garmin 55 smartwatches over six months. The framework integrates multiple data streams, handles missing data through cross-domain statistical methods, and identifies activities with high accuracy using machine learning (ML). Additionally, we utilized statistical analysis techniques to evaluate the performance of each individual within the group, providing valuable insights into their respective positions in the group in an easy-to-understand visualization. These visualizations facilitate easy understanding of performance metrics, enhancing group interactions and informing individualized training programs. We evaluate our framework through traditional train-test splits and out-of-sample scenarios, focusing on the model's generalization capabilities. Additionally, we address sleep data imputation without relying on ML, improving recovery analysis. Our findings demonstrate the potential of wearable data for accurately identifying group activities, paving the way for intelligent, data-driven training solutions.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# 相互接続王国:複雑ネットワークを用いたメディア間の「氷と火の歌」適応の比較

Interconnected Kingdoms: Comparing 'A Song of Ice and Fire' Adaptations Across Media Using Complex Networks ( http://arxiv.org/abs/2410.05453v1 )

ライセンス: Link先を確認
Arthur Amalvy, Madeleine Janickyj, Shane Mannion, Pádraig MacCarron, Vincent Labatut, (参考訳) 本稿では,異なるメディア間で同じストーリーの適応を比較する手法を提案し,適用する。 このような適応を文字ネットワークを通じてモデル化することで,この問題に対処する。 ストーリーテリングの中核にある2つの概念、関係するキャラクタとストーリーのダイナミクスを活用して比較する。 本稿では,メディア間の文字をマッチングし,ネットワーク内のそれらの位置を比較する手法を提案し,プロットを構成する物語単位のシーケンスをマッチングする。 本稿では,G.R.R.マーティンの小説『氷と火の歌』とその漫画とテレビ番組の翻案にこれらの手法を適用した。 その結果,文字間の相互作用は適応間の個々の文字を適切に一致させるには不十分であるが,文字アフィリエイトや性別などの付加情報を用いることで性能が著しく向上することが示唆された。 それとは対照的に、キャラクターのインタラクションは物語マッチングを行うのに十分な情報を伝達し、オリジナル小説とテレビ番組の適応の相違を検出することができる。

In this article, we propose and apply a method to compare adaptations of the same story across different media. We tackle this task by modelling such adaptations through character networks. We compare them by leveraging two concepts at the core of storytelling: the characters involved, and the dynamics of the story. We propose several methods to match characters between media and compare their position in the networks; and perform narrative matching, i.e. match the sequences of narrative units that constitute the plots. We apply these methods to the novel series \textit{A Song of Ice and Fire}, by G.R.R. Martin, and its comics and TV show adaptations. Our results show that interactions between characters are not sufficient to properly match individual characters between adaptations, but that using some additional information such as character affiliation or gender significantly improves the performance. On the contrary, character interactions convey enough information to perform narrative matching, and allow us to detect the divergence between the original novels and its TV show adaptation.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# 統合型ニューラルネットワーク解析のためのメタ動的状態空間モデル

Meta-Dynamical State Space Models for Integrative Neural Data Analysis ( http://arxiv.org/abs/2410.05454v1 )

ライセンス: Link先を確認
Ayesha Vermani, Josue Nassar, Hyungju Jeon, Matthew Dowling, Il Memming Park, (参考訳) 環境間の共有構造を学習することは、ニューラルネットワークにおける迅速な学習と適応的な振る舞いを促進する。 これは機械学習において、新しい設定に一般化可能なモデルをトレーニングするために広く実証され、応用されている。 しかし、ニューラル記録から潜伏ダイナミクスを学習するのと同様のタスクにおいて、ニューラルアクティビティの共有構造を利用する作業は限られている。 既存のアプローチは、単一のデータセットからダイナミクスを推論するように設計されており、記録間の統計的不均一性を考慮するために容易に適応できない。 本研究は, 類似タスクが関連するソリューションのファミリーを持つことを仮定し, 訓練動物のタスク関連神経活動からこのソリューション空間をメタラーニングするための新しいアプローチを提案する。 具体的には、このダイナミクスの族を簡潔にパラメトリズする低次元多様体上の記録間の変動を捉え、新しい記録を与えられた潜在力学の素早い学習を容易にする。 人工力学系の数発再構成と予測に対するアプローチの有効性を実証し, 腕伸展作業時の運動野からの神経記録について検討した。

Learning shared structure across environments facilitates rapid learning and adaptive behavior in neural systems. This has been widely demonstrated and applied in machine learning to train models that are capable of generalizing to novel settings. However, there has been limited work exploiting the shared structure in neural activity during similar tasks for learning latent dynamics from neural recordings. Existing approaches are designed to infer dynamics from a single dataset and cannot be readily adapted to account for statistical heterogeneities across recordings. In this work, we hypothesize that similar tasks admit a corresponding family of related solutions and propose a novel approach for meta-learning this solution space from task-related neural activity of trained animals. Specifically, we capture the variabilities across recordings on a low-dimensional manifold which concisely parametrizes this family of dynamics, thereby facilitating rapid learning of latent dynamics given new recordings. We demonstrate the efficacy of our approach on few-shot reconstruction and forecasting of synthetic dynamical systems, and neural recordings from the motor cortex during different arm reaching tasks.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# Dynamic HumTrans: CNNと動的プログラミングを用いたハミング転写

Dynamic HumTrans: Humming Transcription Using CNNs and Dynamic Programming ( http://arxiv.org/abs/2410.05455v1 )

ライセンス: Link先を確認
Shubham Gupta, Isaac Neri Gomez-Sarmiento, Faez Amjed Mezdari, Mirco Ravanelli, Cem Subakan, (参考訳) 本稿では,最近導入されたHumTransデータセットを用いて,CNNベースのアーキテクチャと動的プログラミングに基づく後処理アルゴリズムを組み合わせた書き起こし手法を提案する。 我々は、これらのアノテーションを改善するためのヒューリスティックスを提供し、将来の研究に役立つ正確なアノテーションを持つデータセットを提供する、データセットのオフセットおよびオンセット基底真理に関する固有の問題を特定し、対処する。 さらに,本手法の転写精度を他のいくつかの方法と比較し,SOTA(State-of-the-art)の結果を示した。 コードと修正済みのデータセットはすべてhttps://github.com/shubham-gupta-30/humming_transcriptionで利用可能です。

We propose a novel approach for humming transcription that combines a CNN-based architecture with a dynamic programming-based post-processing algorithm, utilizing the recently introduced HumTrans dataset. We identify and address inherent problems with the offset and onset ground truth provided by the dataset, offering heuristics to improve these annotations, resulting in a dataset with precise annotations that will aid future research. Additionally, we compare the transcription accuracy of our method against several others, demonstrating state-of-the-art (SOTA) results. All our code and corrected dataset is available at https://github.com/shubham-gupta-30/humming_transcription
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# 回帰レンズによる公的・民間調査の信頼性試験

Testing Credibility of Public and Private Surveys through the Lens of Regression ( http://arxiv.org/abs/2410.05458v1 )

ライセンス: Link先を確認
Debabrota Basu, Sourav Chakraborty, Debarshi Chanda, Buddha Dev Das, Arijit Ghosh, Arnab Ray, (参考訳) サンプル調査が人口の信頼できる表現であるかどうかを調べることは、下流調査の有効性を確保する上で重要な問題である。 この問題には、一般に効率的な解決策がないが、タスクベースのアプローチを採り、あるデータ分析ツール、例えば線形回帰が、人口とサンプル調査の両方で同様の答えをもたらすかどうかを理解することを目指している。 本稿では,線形回帰の観点から,サンプル調査の信頼性を検証するためのアルゴリズムを設計する。 言い換えれば、線形回帰ツールを用いて行ったデータ解析の正確性を保証するのに十分なサンプル調査が十分かどうかを証明できるアルゴリズムを設計する。 今日では、データプライバシーに関する調査が自然に行われている。 そこで本研究では,個別に公開する調査の信頼性をさらに検証する。 具体的には、調査参加者がアグリゲータを信頼できない可能性のある調査において、プライバシを確保するための標準技術であるローカル微分プライバシ(LDP)に焦点を当てる。 LDPを用いたサーベイを用いてデータ解析を行った場合でも,我々のアルゴリズムは機能するように拡張する。 また,LDPで公表した調査において,線形回帰モデルを高い確率で学習するアルゴリズムを提案する。 また,このアルゴリズムは,任意の部分分布から発生する雑音で劣化したデータから線形回帰モデルを学習する機構としても機能する。 より広い関心を持つかもしれない線形回帰に対して,$\ell_1$の最適推定誤差を達成することを証明した。 我々は,我々のアルゴリズムの理論的正しさを証明し,公開調査とプライベートサーベイの両方において,サンプルの複雑さを減らそうとしている。 また、実データや合成データに対して、アルゴリズムの性能を数値的に示す。

Testing whether a sample survey is a credible representation of the population is an important question to ensure the validity of any downstream research. While this problem, in general, does not have an efficient solution, one might take a task-based approach and aim to understand whether a certain data analysis tool, like linear regression, would yield similar answers both on the population and the sample survey. In this paper, we design an algorithm to test the credibility of a sample survey in terms of linear regression. In other words, we design an algorithm that can certify if a sample survey is good enough to guarantee the correctness of data analysis done using linear regression tools. Nowadays, one is naturally concerned about data privacy in surveys. Thus, we further test the credibility of surveys published in a differentially private manner. Specifically, we focus on Local Differential Privacy (LDP), which is a standard technique to ensure privacy in surveys where the survey participants might not trust the aggregator. We extend our algorithm to work even when the data analysis has been done using surveys with LDP. In the process, we also propose an algorithm that learns with high probability the guarantees a linear regression model on a survey published with LDP. Our algorithm also serves as a mechanism to learn linear regression models from data corrupted with noise coming from any subexponential distribution. We prove that it achieves the optimal estimation error bound for $\ell_1$ linear regression, which might be of broader interest. We prove the theoretical correctness of our algorithms while trying to reduce the sample complexity for both public and private surveys. We also numerically demonstrate the performance of our algorithms on real and synthetic datasets.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# スパース依存からスパース注意へ - チェーン・オブ・ソートがトランスフォーマーのサンプル効率をいかに向上させるか-

From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency ( http://arxiv.org/abs/2410.05459v1 )

ライセンス: Link先を確認
Kaiyue Wen, Huaqing Zhang, Hongzhou Lin, Jingzhao Zhang, (参考訳) CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の推論性能を大幅に向上させる。 現在の理論的研究は、この改善を表現性や計算能力の向上にしばしば寄与するが、現在の大規模モデルは単純なタスクで失敗するので、表現性はLLM体制の第一の限界ではないと論じる。 パリティ学習装置を用いて,表現力が十分である場合でも,CoTはサンプル効率を大幅に向上させることができることを示した。 特にCoTでは、変換器は多項式サンプル内の関数を学習できるが、CoTがなければ、必要なサンプルサイズは指数関数的である。 さらに,CoTは入力トークン間の逐次依存関係をスパースに導入することで学習プロセスを単純化し,スパースかつ解釈可能な注意を喚起することを示す。 我々は,CoTにより誘導される改善の重要な要因として,注目層内の空間分布が重要であることを確認するために,合成および実世界の両方の実験による理論的解析を検証した。

Chain-of-thought (CoT) significantly enhances the reasoning performance of large language models (LLM). While current theoretical studies often attribute this improvement to increased expressiveness and computational capacity, we argue that expressiveness is not the primary limitation in the LLM regime, as current large models will fail on simple tasks. Using a parity-learning setup, we demonstrate that CoT can substantially improve sample efficiency even when the representation power is sufficient. Specifically, with CoT, a transformer can learn the function within polynomial samples, whereas without CoT, the required sample size is exponential. Additionally, we show that CoT simplifies the learning process by introducing sparse sequential dependencies among input tokens, and leads to a sparse and interpretable attention. We validate our theoretical analysis with both synthetic and real-world experiments, confirming that sparsity in attention layers is a key factor of the improvement induced by CoT.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# シリコンとゲルマニウムの交換専用スピン軌道量子

Exchange-Only Spin-Orbit Qubits in Silicon and Germanium ( http://arxiv.org/abs/2410.05461v1 )

ライセンス: Link先を確認
Stefano Bosco, Maximilian Rimbach-Russ, (参考訳) シリコンとゲルマニウムの量子ドットにおける強いスピン軌道相互作用は、単一スピンの完全なマイクロ波制御を可能にするが、大規模量子プロセッサのクロストークと加熱効果を抑制するためにスケーラブルな離散信号に依存するマルチスピン交換のみの量子ビットには適さない。 本稿では、スピン軌道相互作用を利用して量子ビットゲートを実装し、元の符号化の有益性を維持する交換専用スピン軌道量子ビットを提案する。 我々の符号化は、ホールスピン特性のかなりの局所変動に対して堅牢であり、2つの退化状態で動作するため、高速クロックの技術的制約や正確な信号キャリブレーションを回避し、回転フレームの必要性を排除している。 複雑なマルチステップシーケンスを必要とする現在の交換専用キュービットとは異なり、我々のキュービット設計では、スピンキュービットのスケーリングにおいて重要な課題に対処し、低遅延の2キュービットゲートを単一ステップで実現している。

The strong spin-orbit interaction in silicon and germanium hole quantum dots enables all-electric microwave control of single spins but is unsuited for multi-spin exchange-only qubits that rely on scalable discrete signals to suppress cross-talk and heating effects in large quantum processors. Here, we propose an exchange-only spin-orbit qubit that utilizes spin-orbit interactions to implement qubit gates and keeps the beneficial properties of the original encoding. Our encoding is robust to significant local variability in hole spin properties and, because it operates with two degenerate states, it eliminates the need for the rotating frame, avoiding the technologically demanding constraints of fast clocks and precise signal calibration. Unlike current exchange-only qubits, which require complex multi-step sequences prone to leakage, our qubit design enables low-leakage two-qubit gates in a single step, addressing critical challenges in scaling spin qubits.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# LevAttention: 重心注意のための時間、空間、ストリーミング効率のアルゴリズム

LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions ( http://arxiv.org/abs/2410.05462v1 )

ライセンス: Link先を確認
Ravindran Kannan, Chiranjib Bhattacharyya, Praneeth Kacham, David P. Woodruff, (参考訳) 2つの$n \times d$ matrices $Q$ と $K$ が与えられ、非負の関数 $f$ が定義される: (1) 関数 $f$ を $n \times n$ matrix $Q K^T$ の各エントリに適用し、(2) を正規化して$A$ の行和を 1$ に等しいものとする。 行列 $A$ は $O(n^2 d)$ time で計算でき、$f$ が定数時間で数に適用できると仮定できるが、長い文脈長に対応するアプリケーションでは $n$ に対する二次的依存は禁じられる。 例えば、少なくとも正の値である$A$のエントリを$n$(つまり、$n \cdot \textrm{poly}(d/\varepsilon)$)の線形依存に間に合わせると、$A$は$\varepsilon > 0$となる。 我々の関数のクラスは、最近トランスフォーマーモデルで調べられたように、$f(x) = |x|^p$ という形のすべての関数 $f$ を含む。 ランダム化された数値線型代数から最近開発されたツールを用いて、任意の$K$に対して、$U \subset [n]$が$n$とは独立な大きさであること、すなわち任意の$Q$と任意の行$i$に対して、大きな注意スコアが$A_{i,j}$の行$i$の$A$が$j \in U$であることを示す。 また、$U$ in $n \cdot \textrm{poly}(d/\varepsilon)$ time も見つける。 特に、(1)データに対する仮定を一切行わず、(2)ワークスペースは$n$で成長せず、(3)アルゴリズムはストリーミングと並列設定で計算できる。 我々は、普遍集合のキーのサブセットのみを LevAttention と呼びます。 我々は、視覚変換器のスキームの利点を実証的に示し、トレーニング中にユニバーサルセットを使用する新しいモデルをトレーニングする方法を示し、トレーニング中に「重要キー」を一貫して選択できることを示します。

A central problem related to transformers can be stated as follows: given two $n \times d$ matrices $Q$ and $K$, and a non-negative function $f$, define the matrix $A$ as follows: (1) apply the function $f$ to each entry of the $n \times n$ matrix $Q K^T$, and then (2) normalize each of the row sums of $A$ to be equal to $1$. The matrix $A$ can be computed in $O(n^2 d)$ time assuming $f$ can be applied to a number in constant time, but the quadratic dependence on $n$ is prohibitive in applications where it corresponds to long context lengths. For a large class of functions $f$, we show how to find all the ``large attention scores", i.e., entries of $A$ which are at least a positive value $\varepsilon$, in time with linear dependence on $n$ (i.e., $n \cdot \textrm{poly}(d/\varepsilon)$) for a positive parameter $\varepsilon > 0$. Our class of functions include all functions $f$ of the form $f(x) = |x|^p$, as explored recently in transformer models. Using recently developed tools from randomized numerical linear algebra, we prove that for any $K$, there is a ``universal set" $U \subset [n]$ of size independent of $n$, such that for any $Q$ and any row $i$, the large attention scores $A_{i,j}$ in row $i$ of $A$ all have $j \in U$. We also find $U$ in $n \cdot \textrm{poly}(d/\varepsilon)$ time. Notably, we (1) make no assumptions on the data, (2) our workspace does not grow with $n$, and (3) our algorithms can be computed in streaming and parallel settings. We call the attention mechanism that uses only the subset of keys in the universal set as LevAttention since our algorithm to identify the universal set $U$ is based on leverage scores. We empirically show the benefits of our scheme for vision transformers, showing how to train new models that use our universal set while training as well, showing that our model is able to consistently select ``important keys'' during training.
翻訳日:2024-11-01 18:37:46 公開日:2024-10-07
# 進行蒸留は暗黙のカリキュラムを誘導する

Progressive distillation induces an implicit curriculum ( http://arxiv.org/abs/2410.05464v1 )

ライセンス: Link先を確認
Abhishek Panigrahi, Bingbin Liu, Sadhika Malladi, Andrej Risteski, Surbhi Goel, (参考訳) 知識蒸留は教師モデルを活用して学生モデルの訓練を改善する。 永続的な課題は、より良い教師が常により良い生徒を産み出すとは限らないことである。 この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。 スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。 このカリキュラムは、中間チェックポイントを通してのみ利用可能であるが、最終的な収束点ではなく、経験的加速と証明可能なサンプル複雑さの恩恵を学生に与えている。 次に、確率論的文脈自由文法(PCFG)と実世界の事前学習データセット(Wikipediaとブックス)で訓練されたトランスフォーマーに調査を拡大する。 教師モデルを探索することで,モデルがより長い文脈を捉えた特徴を徐々に学習する類似の暗黙のカリキュラムを同定する。 より複雑な課題に関する経験的観察によって補足されたスパースパリティに関する理論的および実証的な知見は、セットアップ全体にわたる暗黙のカリキュラムによる漸進的蒸留の利点を浮き彫りにした。

Knowledge distillation leverages a teacher model to improve the training of a student model. A persistent challenge is that a better teacher does not always yield a better student, to which a common mitigation is to use additional supervision from several ``intermediate'' teachers. One empirically validated variant of this principle is progressive distillation, where the student learns from successive intermediate checkpoints of the teacher. Using sparse parity as a sandbox, we identify an implicit curriculum as one mechanism through which progressive distillation accelerates the student's learning. This curriculum is available only through the intermediate checkpoints but not the final converged one, and imparts both empirical acceleration and a provable sample complexity benefit to the student. We then extend our investigation to Transformers trained on probabilistic context-free grammars (PCFGs) and real-world pre-training datasets (Wikipedia and Books). Through probing the teacher model, we identify an analogous implicit curriculum where the model progressively learns features that capture longer context. Our theoretical and empirical findings on sparse parity, complemented by empirical observations on more complex tasks, highlight the benefit of progressive distillation via implicit curriculum across setups.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# 肥大化における遺伝性メンタリティ - 良い考えではない! ディープフェイク検出へのロバストな多段階アプローチ

Herd Mentality in Augmentation -- Not a Good Idea! A Robust Multi-stage Approach towards Deepfake Detection ( http://arxiv.org/abs/2410.05466v1 )

ライセンス: Link先を確認
Monu, Rohan Raju Dhanakshirur, (参考訳) ディープフェイク技術の急速な増加は、デジタルメディアの完全性に対する大きな懸念を引き起こしている。 ディープフェイクの検出はデジタルメディアの保護に不可欠である。 しかし、ほとんどの標準的な画像分類器は偽顔と実顔の区別に失敗した。 我々の分析によると、この失敗はモデルが一般的にディープフェイクでアーティファクトに明示的にフォーカスできないためである。 本稿では,GenConViTモデルに基づく拡張アーキテクチャを提案する。 このモデルでは、F1スコアが1.71%向上し、Celeb-DF v2データセットの精度が4.34%向上した。 我々のモデルのソースコードはhttps://github.com/Monu-Khicher-1/multi-stage-learningで入手できる。

The rapid increase in deepfake technology has raised significant concerns about digital media integrity. Detecting deepfakes is crucial for safeguarding digital media. However, most standard image classifiers fail to distinguish between fake and real faces. Our analysis reveals that this failure is due to the model's inability to explicitly focus on the artefacts typically in deepfakes. We propose an enhanced architecture based on the GenConViT model, which incorporates weighted loss and update augmentation techniques and includes masked eye pretraining. This proposed model improves the F1 score by 1.71% and the accuracy by 4.34% on the Celeb-DF v2 dataset. The source code for our model is available at https://github.com/Monu-Khicher-1/multi-stage-learning
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# クリーンノイズによる可制御再生による画像透かしの除去

Image Watermarks are Removable Using Controllable Regeneration from Clean Noise ( http://arxiv.org/abs/2410.05470v1 )

ライセンス: Link先を確認
Yepeng Liu, Yiren Song, Hai Ci, Yu Zhang, Haofan Wang, Mike Zheng Shou, Yuheng Bu, (参考訳) 画像透かし技術は、大規模な生成モデルの時代においてますます不可欠になっている、所有権の主張、誤用、およびトレースコンテンツソースの効果的な方法を提供する。 透かし技法の重要な特徴は、様々な操作に対する頑丈さである。 本稿では,最先端の透かし手法を効果的に無効化できる透かし除去手法を提案する。 本研究の主な知見は,透かし画像から抽出した意味的特徴と空間的特徴を利用した制御可能な拡散モデルを用いて,クリーンガウス雑音から始まる透かし画像の再生である。 セマンティック制御アダプタと空間制御ネットワークは、画像品質の確保と、浄化された画像と元の透かし画像との整合性向上のために、特定訓練される。 透かし除去性能と画像の整合性との円滑なトレードオフを実現するため,調整可能かつ制御可能な再生方式を提案する。 このスキームは、ウォーターマークされた画像の潜在表現に様々なノイズステップを追加し、その後、このノイズのある潜在表現から始まる制御された復調処理を行う。 ノイズステップの数が増えるにつれて、潜在表現は徐々にガウスノイズに近づき、所望のトレードオフを促進する。 透かし除去法を種々の透かし技術に適用し, 既存の再生手法と比較して, 透かし除去性能が向上し, 透かし除去性能が向上したことを示す。

Image watermark techniques provide an effective way to assert ownership, deter misuse, and trace content sources, which has become increasingly essential in the era of large generative models. A critical attribute of watermark techniques is their robustness against various manipulations. In this paper, we introduce a watermark removal approach capable of effectively nullifying the state of the art watermarking techniques. Our primary insight involves regenerating the watermarked image starting from a clean Gaussian noise via a controllable diffusion model, utilizing the extracted semantic and spatial features from the watermarked image. The semantic control adapter and the spatial control network are specifically trained to control the denoising process towards ensuring image quality and enhancing consistency between the cleaned image and the original watermarked image. To achieve a smooth trade-off between watermark removal performance and image consistency, we further propose an adjustable and controllable regeneration scheme. This scheme adds varying numbers of noise steps to the latent representation of the watermarked image, followed by a controlled denoising process starting from this noisy latent representation. As the number of noise steps increases, the latent representation progressively approaches clean Gaussian noise, facilitating the desired trade-off. We apply our watermark removal methods across various watermarking techniques, and the results demonstrate that our methods offer superior visual consistency/quality and enhanced watermark removal performance compared to existing regeneration approaches.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# レズギア語、ロシア語、アゼルバイジャン語に対するニューラル機械翻訳システム

Neural machine translation system for Lezgian, Russian and Azerbaijani languages ( http://arxiv.org/abs/2410.05472v1 )

ライセンス: Link先を確認
Alidar Asvarov, Andrey Grabovoy, (参考訳) 我々は、ロシア語、アゼルバイジャン語、および絶滅危惧言語間の翻訳のための最初のニューラルマシン翻訳システムをリリースした。 複数の実験により、トレーニング言語ペアとデータドメインの異なるセットが、結果の翻訳品質にどのように影響するかを特定する。 BLEUスコアは、レズビア・アゼルバイジャン語で26.14点、アゼルバイジャン・レズギア語で22.89点、レズビア・ロシア語で29.48点、ロシア・レズビア語で24.25点である。 ゼロショット翻訳の質はLarge Language Modelで評価され、レズジアン語では高い流布度を示している。 しかし、このモデルは翻訳を拒み、その無能さを正当化する。 並列コーパスと単言語コーパスと文エンコーダを併用した翻訳モデルを構築した。

We release the first neural machine translation system for translation between Russian, Azerbaijani and the endangered Lezgian languages, as well as monolingual and parallel datasets collected and aligned for training and evaluating the system. Multiple experiments are conducted to identify how different sets of training language pairs and data domains can influence the resulting translation quality. We achieve BLEU scores of 26.14 for Lezgian-Azerbaijani, 22.89 for Azerbaijani-Lezgian, 29.48 for Lezgian-Russian and 24.25 for Russian-Lezgian pairs. The quality of zero-shot translation is assessed on a Large Language Model, showing its high level of fluency in Lezgian. However, the model often refuses to translate, justifying itself with its incompetence. We contribute our translation model along with the collected parallel and monolingual corpora and sentence encoder for the Lezgian language.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# R-Bench: 大規模なマルチモーダルモデルは、現実世界の崩壊に頑丈か?

R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? ( http://arxiv.org/abs/2410.05474v1 )

ライセンス: Link先を確認
Chunyi Li, Jianbo Zhang, Zicheng Zhang, Haoning Wu, Yuan Tian, Wei Sun, Guo Lu, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai, (参考訳) 大規模マルチモーダルモデル(LMM)の卓越した性能は、視覚関連タスクに広く応用されている。 しかし、実世界の様々な汚職は、画像がシミュレーションほど理想的ではないことを意味し、LMMの実践的な応用には重大な課題が提示される。 この問題に対処するため、LMMの**実世界のロバストネスに焦点をあてたベンチマークであるR-Benchを紹介する。 具体的には (a) ユーザキャプチャーからLMMへの完全リンクをモデル化し、汚職シーケンスに応じた7ステップを含む33の汚職次元と、低レベル属性に基づく7つのグループからなる。 b) 人のラベル付き質問応答対2,970件を含む,腐敗の前後の参照・歪んだ画像データセットを収集すること。 (c) 絶対相対ロバスト性の評価とベンチマーク20の主流LMMを提案する。 その結果、LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定せず、人間の視覚システムと比較して、頑健さには大きなギャップがあることがわかった。 我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。 詳細はhttps://q-future.github.io/R-Benchを参照してください。

The outstanding performance of Large Multimodal Models (LMMs) has made them widely applied in vision-related tasks. However, various corruptions in the real world mean that images will not be as ideal as in simulations, presenting significant challenges for the practical application of LMMs. To address this issue, we introduce R-Bench, a benchmark focused on the **Real-world Robustness of LMMs**. Specifically, we: (a) model the complete link from user capture to LMMs reception, comprising 33 corruption dimensions, including 7 steps according to the corruption sequence, and 7 groups based on low-level attributes; (b) collect reference/distorted image dataset before/after corruption, including 2,970 question-answer pairs with human labeling; (c) propose comprehensive evaluation for absolute/relative robustness and benchmark 20 mainstream LMMs. Results show that while LMMs can correctly handle the original reference images, their performance is not stable when faced with distorted images, and there is a significant gap in robustness compared to the human visual system. We hope that R-Bench will inspire improving the robustness of LMMs, **extending them from experimental simulations to the real-world application**. Check https://q-future.github.io/R-Bench for details.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# 周期的不純物を持つフォトニック結晶における準バウンド状態の量子情報を格納する操作

Manipulating quasi-bound states in a photonic crystal with periodic impurities to store quantum information ( http://arxiv.org/abs/2410.05476v1 )

ライセンス: Link先を確認
Benjamin Rempfer, Gonzalo Ordonez, (参考訳) フォトニック結晶を表す周期的不純物を持つ一次元格子を第一原理から解析的にモデル化する。 次に、送信係数と反射係数を計算し、連続体における有界状態について検討する。 設計したシステムにより多くの不純物が存在する場合、粒子が本質的に閉じ込められる広い範囲の波数が存在することが判明した。 摂動に基づく説明は、この現象を定量的に検証するために示される。 このようなウェーブナンバーの窓から,パラメータの調整によって束縛される異なる形状のウェーブパケットを構築することで,量子情報をシステム内に符号化することができる。

We analytically model a one-dimensional lattice with periodic impurities representing a photonic crystal from first principles. We then investigate bound states in the continuum by computing the transmission and reflection coefficients. It turns out that when there are more impurities in our designed system then there exists a wider range of wavenumber where particles become essentially trapped. A perturbative-based explanation is shown to verify this phenomenon quantitatively. Due to this window of wavenumbers quantum information could be encoded in our system by constructing differently shaped wave packets that are bound by the tuning of parameters in our system.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# 保証:予測におけるてんかんの不確かさの軽減のための説明

Ensured: Explanations for Decreasing the Epistemic Uncertainty in Predictions ( http://arxiv.org/abs/2410.05479v1 )

ライセンス: Link先を確認
Helena Löfström, Tuwe Löfström, Johan Hallberg Szabadvary, (参考訳) 本稿では、モデル説明における認識の不確かさを解釈する必要性という、説明可能なAIの重大なギャップに対処する。 現在の手法は主に予測の説明に重点を置いているが、不確実性を含むいくつかのものは、これらの予測に固有の不確実性を減らすためのガイダンスを提供していない。 この課題を克服するために、我々は、特にてんかんの不確実性をターゲットにした、新しいタイプの説明を導入する。 これには、不確実性を減少させる機能修正を強調した確実な説明や、代替シナリオを探求する反ポテンシャル、半ポテンシャル、超ポテンシャルといった不確実な説明の分類が含まれる。 我々の研究は、てんかんの不確実性は、予測確率だけでなく不確実性低減にも基いて、品質の説明に重要な次元を付加することを強調している。 我々は、不確実性、確率、競合する代替説明の間のトレードオフをバランスさせることにより、ユーザが最も信頼性の高い説明を識別するのに役立つように設計された、確実にランク付けされた新しい指標を導入する。 さらに,特徴値の変化がてんかんの不確実性にどのように影響するかを可視化するツールを取り入れ,Calibrated Explanations法を拡張した。 この強化は、モデルの振る舞いに関する深い洞察を提供し、解釈可能性の向上と不確実な予測を含むシナリオに対する適切な信頼を促進する。

This paper addresses a significant gap in explainable AI: the necessity of interpreting epistemic uncertainty in model explanations. Although current methods mainly focus on explaining predictions, with some including uncertainty, they fail to provide guidance on how to reduce the inherent uncertainty in these predictions. To overcome this challenge, we introduce new types of explanations that specifically target epistemic uncertainty. These include ensured explanations, which highlight feature modifications that can reduce uncertainty, and categorisation of uncertain explanations counter-potential, semi-potential, and super-potential which explore alternative scenarios. Our work emphasises that epistemic uncertainty adds a crucial dimension to explanation quality, demanding evaluation based not only on prediction probability but also on uncertainty reduction. We introduce a new metric, ensured ranking, designed to help users identify the most reliable explanations by balancing trade-offs between uncertainty, probability, and competing alternative explanations. Furthermore, we extend the Calibrated Explanations method, incorporating tools that visualise how changes in feature values impact epistemic uncertainty. This enhancement provides deeper insights into model behaviour, promoting increased interpretability and appropriate trust in scenarios involving uncertain predictions.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# fPLSA:基礎モデルを用いた文書コレクションにおける意味構造学習

fPLSA: Learning Semantic Structures in Document Collections Using Foundation Models ( http://arxiv.org/abs/2410.05481v1 )

ライセンス: Link先を確認
Weijia Xu, Nebojsa Jojic, Nicolas Le Roux, (参考訳) 人間は、既存のソリューションから高いレベルの概念を推論し、それらの概念を生データの代わりに操作することで、新しいタスクを学ぶことができる。 基礎モデルを用いて文書コレクション内の潜在意味構造を導出することにより、このプロセスを自動化できるだろうか? 本稿では,基盤モデルに基づく確率的潜在意味分析(PLSA)手法であるfPLSAを紹介し,文書レベルのコンテキストに基づいて文書セグメントを反復的にクラスタ化しタグ付けする。 これらのタグは、与えられたドキュメントの構造をモデル化したり、新しいテキストの階層的なサンプリングに使用することができる。 ストーリーライティング、数学、多段階推論データセットに関する実験は、fPLSAタグが既存のタグ付け手法よりもオリジナルテキストの再構築に役立つことを示した。 さらに、階層的サンプリングに使用する場合、fPLSAは、従来のタグ付け手法による直接サンプリングや階層的サンプリングよりも、正しい回答を打つ確率の高い、より多様な出力を生成する。

Humans have the ability to learn new tasks by inferring high-level concepts from existing solution, then manipulating these concepts in lieu of the raw data. Can we automate this process by deriving latent semantic structures in a document collection using foundation models? We introduce fPLSA, a foundation-model-based Probabilistic Latent Semantic Analysis (PLSA) method that iteratively clusters and tags document segments based on document-level contexts. These tags can be used to model the structure of given documents and for hierarchical sampling of new texts. Our experiments on story writing, math, and multi-step reasoning datasets demonstrate that fPLSA tags help reconstruct the original texts better than existing tagging methods. Moreover, when used for hierarchical sampling, fPLSA produces more diverse outputs with a higher likelihood of hitting the correct answer than direct sampling and hierarchical sampling with existing tagging methods.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# ニューラルネットワークデコード:因果説明と推論によるニューラルネットワーク決定のターゲットとロバスト解析

Neural Networks Decoded: Targeted and Robust Analysis of Neural Network Decisions via Causal Explanations and Reasoning ( http://arxiv.org/abs/2410.05484v1 )

ライセンス: Link先を確認
Alec F. Diallo, Vaishak Belle, Paul Patras, (参考訳) 成功と広く採用されているにもかかわらず、ディープニューラルネットワーク(DNN)の不透明な性質は、特にクリティカルなアプリケーションにおいて、信頼を妨げ続けている。 現在の解釈可能性のソリューションは、しばしば矛盾または過度に単純化された説明をもたらすか、または性能を損なうモデル変更を必要とする。 本研究では,DNN決定を支える因果的ダイナミクスを,アーキテクチャを変更したり,性能を損なうことなく推定する手法であるTRACERを紹介する。 提案手法は入力特徴に系統的に介入し,特定の変化がネットワークを介してどのように伝播するかを観察し,内部の活性化と最終的な出力に影響を与える。 この分析に基づいて、個々の特徴の重要性を判定し、機能的に類似した層を結合型因果ノードにグループ化して高レベルの因果写像を構築し、ネットワークの異なる部分が決定にどのように影響するかを構造化して解釈可能な視点を提供する。 TRACERはさらに、モデルバイアスの可能性のある反ファクトを生成することで説明可能性を高め、誤分類に対する対照的な説明を提供する。 多様なデータセットの包括的評価を通じて、TRACERが既存の手法に対して有効であることを示し、高度に圧縮されながら正確なモデルを作成する可能性を示し、DNNの理解と最適化の両方においてその双対の汎用性を示す。

Despite their success and widespread adoption, the opaque nature of deep neural networks (DNNs) continues to hinder trust, especially in critical applications. Current interpretability solutions often yield inconsistent or oversimplified explanations, or require model changes that compromise performance. In this work, we introduce TRACER, a novel method grounded in causal inference theory designed to estimate the causal dynamics underpinning DNN decisions without altering their architecture or compromising their performance. Our approach systematically intervenes on input features to observe how specific changes propagate through the network, affecting internal activations and final outputs. Based on this analysis, we determine the importance of individual features, and construct a high-level causal map by grouping functionally similar layers into cohesive causal nodes, providing a structured and interpretable view of how different parts of the network influence the decisions. TRACER further enhances explainability by generating counterfactuals that reveal possible model biases and offer contrastive explanations for misclassifications. Through comprehensive evaluations across diverse datasets, we demonstrate TRACER's effectiveness over existing methods and show its potential for creating highly compressed yet accurate models, illustrating its dual versatility in both understanding and optimizing DNNs.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# 大規模言語モデルを用いたパターンからの保証事例の自動検証

Automatic Instantiation of Assurance Cases from Patterns Using Large Language Models ( http://arxiv.org/abs/2410.05488v1 )

ライセンス: Link先を確認
Oluwafemi Odu, Alvine B. Belle, Song Wang, Segla Kpodjedo, Timothy C. Lethbridge, Hadi Hemmati, (参考訳) アシュアランス・ケースは、システムの非機能要件(例えば、安全性、セキュリティ、信頼性)が正しく実装されていることを示す証拠によって支持される、構造化された議論の集合である。 アシュアランス・ケース・パターンは、以前の成功したアシュアランス・ケースから派生したテンプレートとして機能し、新しいアシュアランス・ケースの作成を容易にすることを目的としている。 これらのパターンを使用して保証ケースを生成するが、そのインスタンス化は、ドメインの専門知識に大きく依存する、手動でエラーを起こしやすいプロセスのままである。 したがって,自動インスタンス化を支援する技術を探究することが重要である。 本研究では,大規模言語モデル (LLM) が,特定のパターンに適合する保証ケースの自動生成において,その可能性を検討することを目的とする。 具体的には、述語に基づく規則を用いて保証ケースパターンを定式化し、次にLPM、すなわちGPT-4oとGPT-4 Turboを用いて、これらの形式化されたパターンから保証ケースを自動的にインスタンス化する。 以上の結果から, LLMは所定のパターンに適合する保証ケースを生成できる可能性が示唆された。 しかし、本研究では、LLMはパターン固有の関係に関するいくつかのニュアンスを理解するのに苦労する可能性があることも強調した。 LLMは保証ケースの自動生成の可能性を秘めているが、その能力は人間の専門家と比べても劣っている。 したがって、この時点では、半自動で保証ケースをインスタンス化するアプローチの方が実用的かもしれない。

An assurance case is a structured set of arguments supported by evidence, demonstrating that a system's non-functional requirements (e.g., safety, security, reliability) have been correctly implemented. Assurance case patterns serve as templates derived from previous successful assurance cases, aimed at facilitating the creation of new assurance cases. Despite the use of these patterns to generate assurance cases, their instantiation remains a largely manual and error-prone process that heavily relies on domain expertise. Thus, exploring techniques to support their automatic instantiation becomes crucial. This study aims to investigate the potential of Large Language Models (LLMs) in automating the generation of assurance cases that comply with specific patterns. Specifically, we formalize assurance case patterns using predicate-based rules and then utilize LLMs, i.e., GPT-4o and GPT-4 Turbo, to automatically instantiate assurance cases from these formalized patterns. Our findings suggest that LLMs can generate assurance cases that comply with the given patterns. However, this study also highlights that LLMs may struggle with understanding some nuances related to pattern-specific relationships. While LLMs exhibit potential in the automatic generation of assurance cases, their capabilities still fall short compared to human experts. Therefore, a semi-automatic approach to instantiating assurance cases may be more practical at this time.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# パーソナライズドディープラーニングを用いた前Ictal Seizure予測

Pre-Ictal Seizure Prediction Using Personalized Deep Learning ( http://arxiv.org/abs/2410.05491v1 )

ライセンス: Link先を確認
Shriya Jaddu, Sidh Jaddu, Camilo Gutierrez, Quincy K. Tran, (参考訳) 紹介:世界中で約2300万ないし30%のてんかん患者が薬剤耐性てんかん(DRE)を患っている。 発作発生の予測不可能さは、安全上の問題や社会的懸念を引き起こし、DRE患者のライフスタイルを制限している。 外科的ソリューションと脳波ベースのソリューションは非常に高価で、信頼性が低く、侵襲的で、実用的ではない。 本研究の目的は、患者の生理的データをてんかん化し、発症2時間前に発作を予測し、非侵襲的で安価なDRE患者の発作予測を可能にする技術と方法を使用することである。 方法: 本研究は1D Convolutional Neural Network-Based Bidirectional Long-Term Memory Networkを使用し, てんかん患者の生理的データをもとに, 発作を予測した。 移行学習は、特定の患者の予測をパーソナライズし、最適化するためにさらに活用された。 9例のてんかん患者に対して,約3~5日間の経過観察を行った。 生理的データには、54回の発作発生、心拍数、血流パルス、加速度計、体温、電球活動が含まれていた。 結果と結論: ランダムなサンプルデータを用いて生理データに基づいて訓練された一般的なディープラーニングモデルは、91.94%の精度を達成した。 しかし、このような一般化された深層学習モデルは、目に見えない患者のデータに基づいて様々な性能を示した。 一般モデルが患者固有のデータでパーソナライズされた場合、パーソナライズされたモデルは97%の精度で性能を向上した。 この予備研究は、患者固有のパーソナライゼーションが、DRE患者の生活の質を向上させるために、手頃な価格で非侵襲的な発作予測を実現するための、実行可能なアプローチであることを示している。

Introduction: Approximately 23 million or 30% of epilepsy patients worldwide suffer from drug-resistant epilepsy (DRE). The unpredictability of seizure occurrences, which causes safety issues as well as social concerns, restrict the lifestyles of DRE patients. Surgical solutions and EEG-based solutions are very expensive, unreliable, invasive or impractical. The goal of this research was to employ improved technologies and methods to epilepsy patient physiological data and predict seizures up to two hours before onset, enabling non-invasive, affordable seizure prediction for DRE patients. Methods: This research used a 1D Convolutional Neural Network-Based Bidirectional Long Short-Term Memory network that was trained on a diverse set of epileptic patient physiological data to predict seizures. Transfer learning was further utilized to personalize and optimize predictions for specific patients. Clinical data was retrospectively obtained for nine epilepsy patients via wearable devices over a period of about three to five days from a prospectively maintained database. The physiological data included 54 seizure occurrences and included heart rate, blood volume pulse, accelerometry, body temperature, and electrodermal activity. Results and Conclusion: A general deep-learning model trained on the physiological data with randomly sampled test data achieved an accuracy of 91.94%. However, such a generalized deep learning model had varied performances on data from unseen patients. When the general model was personalized (further trained) with patient-specific data, the personalized model achieved significantly improved performance with accuracies as high as 97%. This preliminary research shows that patient-specific personalization may be a viable approach to achieve affordable, non-invasive seizure prediction that can improve the quality of life for DRE patients.
翻訳日:2024-11-01 18:28:00 公開日:2024-10-07
# 変換器は可変次マルコフ連鎖を文脈で学習する

Transformers learn variable-order Markov chains in-context ( http://arxiv.org/abs/2410.05493v1 )

ライセンス: Link先を確認
Ruida Zhou, Chao Tian, Suhas Diggavi, (参考訳) 大規模言語モデルは、印象的なインコンテキスト学習(ICL)能力を示している。 しかし、基盤となるトランスフォーマーがどうやって実現したのか、特により複雑なシナリオではまだ不明である。 この目的に向けて、最近のいくつかの研究は、変換者が文脈において不定階マルコフ連鎖(FOMC)を学習する方法を研究しているが、自然言語は変数次マルコフ連鎖(VOMC)、すなわち文脈木(CT)によりより適切にモデル化されている。 本研究では,データ圧縮の形式として言語モデルを用いてVOMCのICLを調査し,小文字と低階VOMCに着目した。 この観点から、文脈木重み付け(CTW)や部分マッチング(PPM)アルゴリズムによる予測などの成熟した圧縮アルゴリズムをベースラインとして活用することができる。 私たちはいくつかの現象を経験的に観察します。 1) トランスフォーマーは、実際にVOMCをインコンテキストで圧縮することを学ぶことができるが、PPMは、かなり苦しむ。 2) 変圧器の性能は層数にはあまり敏感ではなく, 2層変圧器でさえ, 文脈内で十分に学習することができる。 3)CTW以前に訓練・試験したトランスフォーマーはCTWアルゴリズムよりも優れていた。 これらの現象を説明するために、トランスの注意マップを分析し、2つのメカニズムを抽出し、2つのトランス構造を提供する。 1)最大位$D$のCTに対してCTWアルゴリズムを正確に模倣できる$D+2$の層による構築 2) フィードフォワードネットワークを利用して確率ブレンディングを行う2層トランス。 FOMC設定との違いの1つは、カウント機構が重要な役割を果たすように見えることである。 我々はこれらの合成変圧器層を実装し、そのようなハイブリッド変圧器が変圧器のICL性能に適合できることを示す。

Large language models have demonstrated impressive in-context learning (ICL) capability. However, it is still unclear how the underlying transformers accomplish it, especially in more complex scenarios. Toward this goal, several recent works studied how transformers learn fixed-order Markov chains (FOMC) in context, yet natural languages are more suitably modeled by variable-order Markov chains (VOMC), i.e., context trees (CTs). In this work, we study the ICL of VOMC by viewing language modeling as a form of data compression and focus on small alphabets and low-order VOMCs. This perspective allows us to leverage mature compression algorithms, such as context-tree weighting (CTW) and prediction by partial matching (PPM) algorithms as baselines, the former of which is Bayesian optimal for a class of CTW priors. We empirically observe a few phenomena: 1) Transformers can indeed learn to compress VOMC in-context, while PPM suffers significantly; 2) The performance of transformers is not very sensitive to the number of layers, and even a two-layer transformer can learn in-context quite well; and 3) Transformers trained and tested on non-CTW priors can significantly outperform the CTW algorithm. To explain these phenomena, we analyze the attention map of the transformers and extract two mechanisms, on which we provide two transformer constructions: 1) A construction with $D+2$ layers that can mimic the CTW algorithm accurately for CTs of maximum order $D$, 2) A 2-layer transformer that utilizes the feed-forward network for probability blending. One distinction from the FOMC setting is that a counting mechanism appears to play an important role. We implement these synthetic transformer layers and show that such hybrid transformers can match the ICL performance of transformers, and more interestingly, some of them can perform even better despite the much-reduced parameter sets.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-07
# 自己合理化はLLMを微粒化判断器として改善する

Self-rationalization improves LLM as a fine-grained judge ( http://arxiv.org/abs/2410.05495v1 )

ライセンス: Link先を確認
Prapti Trivedi, Aditya Gulati, Oliver Molenschot, Meghana Arakkal Rajeev, Rajkumar Ramamurthy, Keith Stevens, Tanveesh Singh Chaudhery, Jahnavi Jambholkar, James Zou, Nazneen Rajani, (参考訳) LLM-as-a-judgeモデルは、人間とAIが生成したコンテンツの評価に使われ、特にスコアと合理性を提供してきた。 合理性は透明性の向上に加えて、モデルが判断を校正するのに役立つ。 したがって、モデルの合理性を高めることは、キャリブレーション能力を改善し、最終的にはコンテンツをスコアリングする能力を向上させることができる。 本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入し,任意の評価基準による微粒化可能な評価基準(例えば,任意の評価基準による等級評価)のスコアを改善する。 自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させ、自身の判断から選好ペアデータセットをキュレートし、DPOを介して判断を反復的に微調整することで機能する。 直感的に、このアプローチは、判断モデルが自身の理性から学習することで自己改善を可能にし、アライメントと評価の精度が向上する。 トレーニングセットの例に頼っただけで、たった2回のイテレーションで、人間の評価は、私たちの判断モデルがより高い品質の合理性を生み出すことを学習していることを示している。 この判定モデルは、BigGen BenchとReward Benchのスコアの精度も高く、SFTを使って訓練されたより大きなモデルよりも、合理的、自己整合性、あるいはベスト・オブ・N$サンプリングで3\%$から9\%$を上回ります。

LLM-as-a-judge models have been used for evaluating both human and AI generated content, specifically by providing scores and rationales. Rationales, in addition to increasing transparency, help models learn to calibrate its judgments. Enhancing a model's rationale can therefore improve its calibration abilities and ultimately the ability to score content. We introduce Self-Rationalization, an iterative process of improving the rationales for the judge models, which consequently improves the score for fine-grained customizable scoring criteria (i.e., likert-scale scoring with arbitrary evaluation criteria). Self-rationalization works by having the model generate multiple judgments with rationales for the same input, curating a preference pair dataset from its own judgements, and iteratively fine-tuning the judge via DPO. Intuitively, this approach allows the judge model to self-improve by learning from its own rationales, leading to better alignment and evaluation accuracy. After just two iterations -- while only relying on examples in the training set -- human evaluation shows that our judge model learns to produce higher quality rationales, with a win rate of $62\%$ on average compared to models just trained via SFT on rationale . This judge model also achieves high scoring accuracy on BigGen Bench and Reward Bench, outperforming even bigger sized models trained using SFT with rationale, self-consistency or best-of-$N$ sampling by $3\%$ to $9\%$.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-07
# 妥協の直観: 利他主義と契約主義

Intuitions of Compromise: Utilitarianism vs. Contractualism ( http://arxiv.org/abs/2410.05496v1 )

ライセンス: Link先を確認
Jared Moore, Yejin Choi, Sydney Levine, (参考訳) 異なる人々が異なるものを価値とみなす状況において、最良の妥協は何か? 行動科学、社会科学、意思決定理論、哲学、人工知能開発といった分野において、この問いに答える最も一般的な方法は、単に異なる選択肢に関連するユーティリティを追加し、最も大きな金額で解を選ぶことである。 この‘実用的’なアプローチは、問題にアプローチする明らかで理論中立的な方法のように見える。 しかし、重要な、しかししばしば無視される代替手段がある: '契約主義者' アプローチは、合意駆動による決定の方法を支持する。 興味深いことに、これらの2つのアプローチの直観的妥当性を直接比較した経験的証拠は存在しない。 本稿では,各アルゴリズムが提案する提案('Utilitarian Sum'と'Nash Product')を,社会的意思決定の文脈におけるグループ間の嗜好の集約にこれらのアルゴリズムを適用したパラダイムを用いて体系的に検討する。 現在まで、バリューアグリゲーションに対する支配的なアプローチは実用的だが、私たちは契約者アルゴリズムが推奨するアグリゲーションを強く好んでいることに気付きました。 最後に、大言語モデル(LLM)の判断を、我々の(人間)参加者の判断と比較し、モデルと人間の嗜好の間に重要な相違を見出した。

What is the best compromise in a situation where different people value different things? The most commonly accepted method for answering this question -- in fields across the behavioral and social sciences, decision theory, philosophy, and artificial intelligence development -- is simply to add up utilities associated with the different options and pick the solution with the largest sum. This ``utilitarian'' approach seems like the obvious, theory-neutral way of approaching the problem. But there is an important, though often-ignored, alternative: a ``contractualist'' approach, which advocates for an agreement-driven method of deciding. Remarkably, no research has presented empirical evidence directly comparing the intuitive plausibility of these two approaches. In this paper, we systematically explore the proposals suggested by each algorithm (the ``Utilitarian Sum'' and the contractualist ''Nash Product''), using a paradigm that applies those algorithms to aggregating preferences across groups in a social decision-making context. While the dominant approach to value aggregation up to now has been utilitarian, we find that people strongly prefer the aggregations recommended by the contractualist algorithm. Finally, we compare the judgments of large language models (LLMs) to that of our (human) participants, finding important misalignment between model and human preferences.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-07
# EgoQR:エゴセントリック設定での効率的なQRコード読み込み

EgoQR: Efficient QR Code Reading in Egocentric Settings ( http://arxiv.org/abs/2410.05497v1 )

ライセンス: Link先を確認
Mohsen Moslehpour, Yichao Lu, Pierce Chuang, Ashish Shenoy, Debojeet Chatterjee, Abhay Harpale, Srihari Jayakumar, Vikas Bhardwaj, Seonghyeon Nam, Anuj Kumar, (参考訳) QRコードは日常的にユビキタスになり、迅速な情報交換を可能にしている。 スマートウェアラブルデバイスの採用が増えるにつれ、Egoセントリックな視点から効率よく、摩擦のないQRコードを読み取る能力が求められている。 しかし、既存の電話ベースのQRコードリーダーをエゴセントリックなイメージに適応させることは、大きな課題となる。 エゴセントリック画像からのコード読み込みは、ユーザーが位置やフレーミングを調整できる携帯電話と比較して、視野の広さ、コードの歪み、視覚的フィードバックの欠如といった、ユニークな課題をもたらす。 さらに、ウェアラブルデバイスは、計算、電力、メモリなどのリソースに制約を課している。 これらの課題に対処するために、エゴセントリックな画像からQRコードを読み取る新しいシステムであるEgoQRを紹介し、ウェアラブルデバイスへの展開に適している。 当社のアプローチは2つの主要コンポーネントで構成されている。検出と復号化であり、最小消費電力で高解像度の画像をデバイス上で動作させるように設計されている。 検出コンポーネントは、画像内の潜在的なQRコードを効率よく検出し、強化された復号化コンポーネントは、符号化された情報を抽出し、解釈する。 我々は、様々な視点、広い視野、動きのぼやけなど、エゴセントリックなイメージの特定の課題に対処する革新的な手法を取り入れた。 我々は,エゴセントリックな画像のデータセットに対するアプローチを評価し,既存のQRコードリーダーと比較して,コードの読みやすさが34%向上したことを示す。

QR codes have become ubiquitous in daily life, enabling rapid information exchange. With the increasing adoption of smart wearable devices, there is a need for efficient, and friction-less QR code reading capabilities from Egocentric point-of-views. However, adapting existing phone-based QR code readers to egocentric images poses significant challenges. Code reading from egocentric images bring unique challenges such as wide field-of-view, code distortion and lack of visual feedback as compared to phones where users can adjust the position and framing. Furthermore, wearable devices impose constraints on resources like compute, power and memory. To address these challenges, we present EgoQR, a novel system for reading QR codes from egocentric images, and is well suited for deployment on wearable devices. Our approach consists of two primary components: detection and decoding, designed to operate on high-resolution images on the device with minimal power consumption and added latency. The detection component efficiently locates potential QR codes within the image, while our enhanced decoding component extracts and interprets the encoded information. We incorporate innovative techniques to handle the specific challenges of egocentric imagery, such as varying perspectives, wider field of view, and motion blur. We evaluate our approach on a dataset of egocentric images, demonstrating 34% improvement in reading the code compared to an existing state of the art QR code readers.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-07
# グラフと群に関する学習のためのユニタリ畳み込み

Unitary convolutions for learning on graphs and groups ( http://arxiv.org/abs/2410.05499v1 )

ライセンス: Link先を確認
Bobak T. Kiani, Lukas Fesser, Melanie Weber, (参考訳) 幾何学構造を持つデータは、グラフの置換不変性や画像の翻訳不変性といった領域の基本対称性から生じる機械学習においてユビキタスである。 群畳み込みアーキテクチャは、対称性を帰納バイアス(inductive bias)としてエンコードしているが、アプリケーションでは大きな成功を収めている。 例えば、グラフニューラルネットワークはノード表現(オーバー・スムース)の収束によって不安定さを経験する。 ここでは、訓練中により安定したより深いネットワークを可能にするユニタリグループ畳み込みを提案し、研究する。 論文の主な焦点はグラフニューラルネットワークであり、ユニタリグラフの畳み込みがオーバー・スムーシングを確実に回避していることを示す。 実験により,一元グラフ畳み込みネットワークは,最先端のグラフニューラルネットワークと比較して,ベンチマークデータセット上での競合性能を実現することを確認した。 グラフ領域の解析と一般ユニタリ畳み込みの研究を補完し、一般群畳み込みアーキテクチャにおける安定性向上におけるそれらの役割を分析する。

Data with geometric structure is ubiquitous in machine learning often arising from fundamental symmetries in a domain, such as permutation-invariance in graphs and translation-invariance in images. Group-convolutional architectures, which encode symmetries as inductive bias, have shown great success in applications, but can suffer from instabilities as their depth increases and often struggle to learn long range dependencies in data. For instance, graph neural networks experience instability due to the convergence of node representations (over-smoothing), which can occur after only a few iterations of message-passing, reducing their effectiveness in downstream tasks. Here, we propose and study unitary group convolutions, which allow for deeper networks that are more stable during training. The main focus of the paper are graph neural networks, where we show that unitary graph convolutions provably avoid over-smoothing. Our experimental results confirm that unitary graph convolutional networks achieve competitive performance on benchmark datasets compared to state-of-the-art graph neural networks. We complement our analysis of the graph domain with the study of general unitary convolutions and analyze their role in enhancing stability in general group convolutional architectures.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-07
# 深層学習のための残留コルモゴロフ・アルノルドネットワーク

Residual Kolmogorov-Arnold Network for Enhanced Deep Learning ( http://arxiv.org/abs/2410.05500v1 )

ライセンス: Link先を確認
Ray Congrui Yu, Sherry Wu, Jiang Gui, (参考訳) 多くのコンピュータビジョンタスクの強いパフォーマンスにもかかわらず、畳み込みニューラルネットワーク(CNN)は、ネットワークの深い層において、長い範囲の複雑な非線形依存を効率的に捉えるのに苦労することがある。 我々は、CNNフレームワークにKAN(Kolmogorov-Arnold Network)を組み込んだResidual Kanを導入することで、この制限に対処する。 提案手法では, 計算効率を維持しつつ, より表現的かつ適応的な特徴表現を可能にするkan畳み込みの基礎として, チェビシェフ多項式を用いる。 提案されたRKANブロックは、ResNetやDenseNetのような確立したアーキテクチャに統合されると、様々なよく知られたベンチマークのベースラインモデルに対して一貫した改善を提供する。 視覚データにおける深部CNNの能力を高めるためのRKANの可能性を示す。

Despite the strong performance in many computer vision tasks, Convolutional Neural Networks (CNNs) can sometimes struggle to efficiently capture long-range, complex non-linear dependencies in deeper layers of the network. We address this limitation by introducing Residual KAN, which incorporates the Kolmogorov-Arnold Network (KAN) within the CNN framework as a residual component. Our approach uses Chebyshev polynomials as the basis for KAN convolutions that enables more expressive and adaptive feature representations while maintaining computational efficiency. The proposed RKAN blocks, when integrated into established architectures such as ResNet and DenseNet, offer consistent improvements over the baseline models on various well-known benchmarks. Our results demonstrate the potential of RKAN to enhance the capabilities of deep CNNs in visual data.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-07
# マージナルスに基づく合成データのプライバシー脆弱性

Privacy Vulnerabilities in Marginals-based Synthetic Data ( http://arxiv.org/abs/2410.05506v1 )

ライセンス: Link先を確認
Steven Golob, Sikha Pentyala, Anuar Maratkhan, Martine De Cock, (参考訳) プライバシ向上技術として振る舞う場合、合成データ生成(SDG)は、個人識別可能な情報を除外しながら、実際のデータと類似性を維持することを目的としている。 多くのSDGアルゴリズムは、この目的に対して堅牢な差分プライバシー(DP)を保証する。 しかし、SDGアルゴリズムの最も強力なクラスである「textit{marginal probabilities}」や「類似統計」を、基礎となるデータから保存し、より効率的に回復できる個人に関する情報を抽出した。 MST,PrivBayes,Priv-GSDの3種類のDP SDGアルゴリズムに対して,MAMA-MIAという新たなメンバシップ推論攻撃を提示し,その評価を行った。 MAMA-MIAは、どのSDGアルゴリズムが使われたかの知識を活用し、隠れたデータに関する情報をより正確に学習し、他の主要な攻撃よりも高速に命令を処理できる。 既存のSDG脆弱性の洞察を得るためにMAMA-MIAを使用します。 当社のアプローチは、最初のSNAKE(SaNitization Algorithm under attacK ... $\varepsilon$)コンペに勝ちました。

When acting as a privacy-enhancing technology, synthetic data generation (SDG) aims to maintain a resemblance to the real data while excluding personally-identifiable information. Many SDG algorithms provide robust differential privacy (DP) guarantees to this end. However, we show that the strongest class of SDG algorithms--those that preserve \textit{marginal probabilities}, or similar statistics, from the underlying data--leak information about individuals that can be recovered more efficiently than previously understood. We demonstrate this by presenting a novel membership inference attack, MAMA-MIA, and evaluate it against three seminal DP SDG algorithms: MST, PrivBayes, and Private-GSD. MAMA-MIA leverages knowledge of which SDG algorithm was used, allowing it to learn information about the hidden data more accurately, and orders-of-magnitude faster, than other leading attacks. We use MAMA-MIA to lend insight into existing SDG vulnerabilities. Our approach went on to win the first SNAKE (SaNitization Algorithm under attacK ... $\varepsilon$) competition.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# 物理増進学習のための構造制約

Structural Constraints for Physics-augmented Learning ( http://arxiv.org/abs/2410.05507v1 )

ライセンス: Link先を確認
Simon Kuang, Xinfan Lin, (参考訳) 物理が間違っている場合、物理インフォームド・機械学習は物理ミスフォームド・機械学習となる。 強力なブラックボックスモデルは、誤解された物理を隠蔽することができない。 ハイブリッド(物理+ブラックボックス)モデルが整合性を主張するために使用できる2つの基準を提案する。 0) ブラックボックスモデルは物理モデルを複製することができず、 1) 任意の最適ハイブリッドモデルは、最良のスタンドアロン物理モデルと同じ物理パラメータを持つ。 小信号線形化により近似した非線形機械系のサンプルについて実演する。

When the physics is wrong, physics-informed machine learning becomes physics-misinformed machine learning. A powerful black-box model should not be able to conceal misconceived physics. We propose two criteria that can be used to assert integrity that a hybrid (physics plus black-box) model: 0) the black-box model should be unable to replicate the physical model, and 1) any best-fit hybrid model has the same physical parameter as a best-fit standalone physics model. We demonstrate them for a sample nonlinear mechanical system approximated by its small-signal linearization.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# リレーショナル・オブザーバブルをどのように観測するか?

How do we Observe Relational Observables? ( http://arxiv.org/abs/2410.05508v1 )

ライセンス: Link先を確認
Emily Adlam, (参考訳) 一般相対性理論や正準量子重力のような微分同相対称性を持つ理論では、経験的内容が関係可観測量にエンコードされることがしばしば提案される。 しかし、リレーショナルオブザーバブルは実際にどのように経験と接触するのか? この問題は、微分同相不変理論の文脈に相応しいオブザーバのスキーマ化を提供することによってのみ答えられると私は論じる。 私は、このことは意識の「受動的認知」概念からよりエージェント的な概念へ移行する必要があるかもしれないと提案する。 最後に、量子参照フレームを用いて時間の問題に対処する可能性について考察し、量子参照フレームの標準的な記述方法がモデルエージェンシーに十分なリソースを与えていないことを論じる。

In theories with a diffeomorphism symmetry, such as general relativity and canonical quantum gravity, it is often proposed that the empirical content is encoded in relational observables. But how do relational observables actually make contact with experience? I argue that this question can only be answered by providing a schematization of the observer which is appropriate for the context of a diffeomorphism-invariant theory. I suggest that this may require us to move away from a `passive awareness' conception of consciousness towards a more agential conception, because there is a clear sense in which an embodied agent must experience herself as localised at a time. Finally, I consider what this means for the prospects of using quantum reference frames to address the problem of time, arguing that the way in which quantum reference frames are standardly described does not give us adequate resources to model agency, so some other kind of internal reference frame may be required to fully explain how we observe relational observables in the quantum context.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# 3次元拡散プリミティブを用いたスパース視点からの汎用オブジェクトレベルのマッピングに向けて

Toward General Object-level Mapping from Sparse Views with 3D Diffusion Priors ( http://arxiv.org/abs/2410.05514v1 )

ライセンス: Link先を確認
Ziwei Liao, Binbin Xu, Steven L. Waslander, (参考訳) オブジェクトレベルのマッピングは、詳細な形状と多視点センサー観測によるポーズで、シーン内のオブジェクトの3Dマップを構築する。 従来の手法では、完全な形状を作るのに苦労し、部分閉塞とセンサノイズのために正確なポーズを推定する。 それらは全ての物体をカバーするために密集した観測を必要としており、ロボットの軌道で達成することは困難である。 最近の研究は、スパースビューからオブジェクトレベルのマッピングに先立つ生成的な形状を導入しているが、それは単一カテゴリオブジェクトに限定されている。 本研究では,3次元拡散モデルを用いた汎用オブジェクトレベルマッピングシステム GOM を提案し,シーン内の全てのオブジェクトのテクスチャと幾何学の両方に対してニューラルレージアンス場 (NeRF) を出力する。 GOMは、微細化せずにセンサ測定から余分な非線形制約で事前訓練された拡散モデルを導出する効果的な定式化を含む。 また,関節3次元物体のポーズと形状推定のための多視点センサ観測と拡散先行を融合させる確率的最適化法を開発した。 我々のGOMシステムはスパースビューから優れたマルチカテゴリマッピング性能を示し、実世界のベンチマークの最先端手法と比較してより正確なマッピング結果を得る。 コード https://github.com/TRAILab/GeneralObjectMapping.com/ を公開します。

Object-level mapping builds a 3D map of objects in a scene with detailed shapes and poses from multi-view sensor observations. Conventional methods struggle to build complete shapes and estimate accurate poses due to partial occlusions and sensor noise. They require dense observations to cover all objects, which is challenging to achieve in robotics trajectories. Recent work introduces generative shape priors for object-level mapping from sparse views, but is limited to single-category objects. In this work, we propose a General Object-level Mapping system, GOM, which leverages a 3D diffusion model as shape prior with multi-category support and outputs Neural Radiance Fields (NeRFs) for both texture and geometry for all objects in a scene. GOM includes an effective formulation to guide a pre-trained diffusion model with extra nonlinear constraints from sensor measurements without finetuning. We also develop a probabilistic optimization formulation to fuse multi-view sensor observations and diffusion priors for joint 3D object pose and shape estimation. Our GOM system demonstrates superior multi-category mapping performance from sparse views, and achieves more accurate mapping results compared to state-of-the-art methods on the real-world benchmarks. We will release our code: https://github.com/TRAILab/GeneralObjectMapping.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# ハードコアを有する多殻ナノ構造における有効粒子

Effective particles in a multishell nanostructure with hardcore ( http://arxiv.org/abs/2410.05518v1 )

ライセンス: Link先を確認
H. R. Christiansen, R. M. Lima, (参考訳) 多殻ヘテロ構造における位置依存質量を持つインジウム有効担体を解析的に研究した。 複数のvon Roos順序クラスに対する3次元有界固有状態の正確なスペクトルと散乱波動関数を得る。 多層型球面系の担体に連続的に変化する質量を割り当てることで、ナノメトリックヘテロ構造の吸収係数や屈折率などの光学特性を計算することができる。 GaAs/Al-GaAs合金の場合を詳細に解析し、これらの結果が運動ハミルトニアンの順序クラスに依存するかを示す。

In-medium effective carriers with position-dependent mass in a multishell heterostructure are analytically studied. We obtain the exact spectrum of three-dimensional bound eigenstates and the scattering wave-functions for several von Roos ordering classes. Ascribing a continuously varying mass to the carriers in a multilayer type spherical system we use our solutions to compute optical properties such as the absorption coefficients and refraction indices of a nanometric heterostructure. We analyze in detail the case of a GaAs/Al-GaAs alloy and show how these results depend on the ordering class of the kinetic Hamiltonian.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# 補間多解畳み込みニューラルネットワークを用いたメッシュ上のスカラー場予測

Scalar Field Prediction on Meshes Using Interpolated Multi-Resolution Convolutional Neural Networks ( http://arxiv.org/abs/2410.05522v1 )

ライセンス: Link先を確認
Kevin Ferguson, Andrew Gillman, James Hardin, Levent Burak Kara, (参考訳) 応力場や温度場のようなスカラー場は、しばしば工学における形状最適化や設計問題で計算される。 形状が様々な位相を持ち、パラメータ化できない複雑な問題に対して、データ駆動スカラー場予測は従来の有限要素法よりも高速である。 しかし、スカラーフィールドを予測する現在のデータ駆動技術は、任意のメッシュ構造ではなく、固定グリッドドメインに限られている。 本研究では,任意のメッシュ上のスカラー場を予測する手法を提案する。 畳み込みニューラルネットワークを使用し、複数の解像度で特徴マップをノード位置に補間した後、マルチ層パーセプトロンに入力し、メッシュノードでの偏微分方程式の解を予測する。 このモデルは有限要素von Mises応力場に基づいて訓練され、一度訓練すれば、任意の入力メッシュ上の各ノードの応力値を推定することができる。 2つの形状データセットを解析し、そのモデルが両面において強い性能を示し、中央値のR2乗値は0.91である。 また, 熱伝導問題における温度場のモデルも示しており, 予測値の中央値は0.99である。 本手法は,工学設計における有限要素解析の代替として,潜在的に柔軟な代替手段を提供する。 コードとデータセットはオンラインで入手できる。

Scalar fields, such as stress or temperature fields, are often calculated in shape optimization and design problems in engineering. For complex problems where shapes have varying topology and cannot be parametrized, data-driven scalar field prediction can be faster than traditional finite element methods. However, current data-driven techniques to predict scalar fields are limited to a fixed grid domain, instead of arbitrary mesh structures. In this work, we propose a method to predict scalar fields on arbitrary meshes. It uses a convolutional neural network whose feature maps at multiple resolutions are interpolated to node positions before being fed into a multilayer perceptron to predict solutions to partial differential equations at mesh nodes. The model is trained on finite element von Mises stress fields, and once trained it can estimate stress values at each node on any input mesh. Two shape datasets are investigated, and the model has strong performance on both, with a median R-squared value of 0.91. We also demonstrate the model on a temperature field in a heat conduction problem, where its predictions have a median R-squared value of 0.99. Our method provides a potential flexible alternative to finite element analysis in engineering design contexts. Code and datasets are available online.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# ランダム基準点を用いたS字型ユーティリティ最大化のためのディープラーニング手法

Deep Learning Methods for S Shaped Utility Maximisation with a Random Reference Point ( http://arxiv.org/abs/2410.05524v1 )

ライセンス: Link先を確認
Ashley Davey, Harry Zheng, (参考訳) 本稿では、端末関数が富とランダムなベンチマークプロセスの差に適用されるS字型ユーティリティであるポートフォリオ最適化問題を考察する。 深層学習法と双対解法を用いて問題を解くための数値解法を開発した。 深層学習法を用いて、原始問題と双対問題の両方に対して関連するハミルトン・ヤコビ・ベルマン方程式と、確率的最大原理から生じる随伴方程式を解く。 完全市場と不完全市場の両方において、この非凹凸問題の解を、ベンチマークに依存するランダム関数である定式化ユーティリティの解と比較する。 提案アルゴリズムの精度を示すために,電力・ログユーティリティの数値計算結果を示す。

We consider the portfolio optimisation problem where the terminal function is an S-shaped utility applied at the difference between the wealth and a random benchmark process. We develop several numerical methods for solving the problem using deep learning and duality methods. We use deep learning methods to solve the associated Hamilton-Jacobi-Bellman equation for both the primal and dual problems, and the adjoint equation arising from the stochastic maximum principle. We compare the solution of this non-concave problem to that of concavified utility, a random function depending on the benchmark, in both complete and incomplete markets. We give some numerical results for power and log utilities to show the accuracy of the suggested algorithms.
翻訳日:2024-11-01 18:18:04 公開日:2024-10-07
# 画像の陰影除去

Generative Portrait Shadow Removal ( http://arxiv.org/abs/2410.05525v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Zhixin Shu, Mengwei Ren, Xuaner Zhang, Yannick Hold-Geoffroy, Krishna Kumar Singh, He Zhang, (参考訳) 本研究では,その外観を乱す影やハイライト下で予測することにより,肖像画のイメージを効果的に向上する高忠実な肖像画影除去モデルを提案する。 ポートレートシャドウ除去は、単一の画像に基づいて複数の可視解が見つかるという、非常に不適切な問題である。 既存の研究は、局所的な影の分布を伝播できる外観残差を予測することによってこの問題を解決しているが、そのような手法はしばしば不完全であり、特に硬い影を持つ肖像画に対して不自然な予測をもたらす。 本研究では,既存の局所伝播手法の限界を,拡散モデルがスクラッチから人間の外観を大域的に再構築することを学習する生成タスクとして定式化することで克服する。 まず、背景調和データセットを用いて前景の照明と色を背景環境と調和させるために、事前訓練されたテキスト誘導画像生成モデルを微調整し、さらに微調整して、影対応データセットを介して、影のないポートレート画像を生成する。 遅延拡散モデルにおける細かな詳細の損失の限界を克服するため、入力画像から元の高周波の詳細(しわと点)を復元するガイドアップサンプリングネットワークを提案する。 コンポジショントレーニングフレームワークを実現するために,光ステージキャプチャシステムと合成グラフィックスシミュレーションを用いて,高忠実で大規模なデータセットを構築した。 生成フレームワークは,光の本来の分布と高周波の詳細を維持しつつ,自己および外部の閉塞による影を効果的に除去する。 また,本手法は,実環境で捕獲した多様な被験者に対して堅牢性を示す。

We introduce a high-fidelity portrait shadow removal model that can effectively enhance the image of a portrait by predicting its appearance under disturbing shadows and highlights. Portrait shadow removal is a highly ill-posed problem where multiple plausible solutions can be found based on a single image. While existing works have solved this problem by predicting the appearance residuals that can propagate local shadow distribution, such methods are often incomplete and lead to unnatural predictions, especially for portraits with hard shadows. We overcome the limitations of existing local propagation methods by formulating the removal problem as a generation task where a diffusion model learns to globally rebuild the human appearance from scratch as a condition of an input portrait image. For robust and natural shadow removal, we propose to train the diffusion model with a compositional repurposing framework: a pre-trained text-guided image generation model is first fine-tuned to harmonize the lighting and color of the foreground with a background scene by using a background harmonization dataset; and then the model is further fine-tuned to generate a shadow-free portrait image via a shadow-paired dataset. To overcome the limitation of losing fine details in the latent diffusion model, we propose a guided-upsampling network to restore the original high-frequency details (wrinkles and dots) from the input image. To enable our compositional training framework, we construct a high-fidelity and large-scale dataset using a lightstage capturing system and synthetic graphics simulation. Our generative framework effectively removes shadows caused by both self and external occlusions while maintaining original lighting distribution and high-frequency details. Our method also demonstrates robustness to diverse subjects captured in real environments.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# DOPL: 優先フィードバックによるレストレスバンドの直接オンライン選好学習

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback ( http://arxiv.org/abs/2410.05527v1 )

ライセンス: Link先を確認
Guojun Xiong, Ujwal Dinesha, Debajoy Mukherjee, Jian Li, Srinivas Shakkottai, (参考訳) レストレス・マルチアーム・バンディット(RMAB)は、マルコフ連鎖に従って各レストレスアームの状態が進化し、各状態遷移がスカラー報酬を生成するような制約付きシーケンシャルな意思決定問題をモデル化するために広く用いられている。 しかし、RMABの成功は報酬信号の可用性と品質に大きく依存している。 残念ながら、正確に報酬関数を実際に指定することは困難であり、不可能である。 本稿では,選択信号の存在下での新たなRMABモデルであるPref-RMABを紹介する。 しかし、選好フィードバックはスカラー報酬よりも情報が少ないため、Pref-RMABはより困難に思える。 この課題に対処するために、Pref-RMAB の直接オンライン嗜好学習(DOPL)アルゴリズムを提案し、未知の環境を効率的に探索し、オンライン形式で嗜好データを適応的に収集し、意思決定のための選好フィードバックを直接活用する。 DOPLがサブリニアな後悔をもたらすことを証明します。 我々の知る限り、このアルゴリズムはRMABが優先的なフィードバックで$\tilde{\mathcal{O}}(\sqrt{T\ln T})を後悔することを保証する最初のアルゴリズムである。 実験の結果,DOPLの有効性がさらに示された。

Restless multi-armed bandits (RMAB) has been widely used to model constrained sequential decision making problems, where the state of each restless arm evolves according to a Markov chain and each state transition generates a scalar reward. However, the success of RMAB crucially relies on the availability and quality of reward signals. Unfortunately, specifying an exact reward function in practice can be challenging and even infeasible. In this paper, we introduce Pref-RMAB, a new RMAB model in the presence of preference signals, where the decision maker only observes pairwise preference feedback rather than scalar reward from the activated arms at each decision epoch. Preference feedback, however, arguably contains less information than the scalar reward, which makes Pref-RMAB seemingly more difficult. To address this challenge, we present a direct online preference learning (DOPL) algorithm for Pref-RMAB to efficiently explore the unknown environments, adaptively collect preference data in an online manner, and directly leverage the preference feedback for decision-makings. We prove that DOPL yields a sublinear regret. To our best knowledge, this is the first algorithm to ensure $\tilde{\mathcal{O}}(\sqrt{T\ln T})$ regret for RMAB with preference feedback. Experimental results further demonstrate the effectiveness of DOPL.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# VisDiff: 可視化と認識のためのSDF誘導ポリゴン生成

VisDiff: SDF-Guided Polygon Generation for Visibility Reconstruction and Recognition ( http://arxiv.org/abs/2410.05530v1 )

ライセンス: Link先を確認
Rahul Moorthy, Volkan Isler, (参考訳) 潜在表現を学習する能力は、最近の機械学習手法の有効性において重要な役割を果たしている。 表現学習における活発なフロンティアは、よく存在する局所的近傍や距離関数を含まない組合せ構造に対する理解表現である。 例えば、ポリゴンの場合、わずかに摂動する頂点位置は結合構造に大きな変化をもたらす可能性があり、また、無効なポリゴンにつながることもある。 本稿では,ポリゴンの基底構造を捉えるための表現について検討する。 具体的には、可視性再構成のオープンな問題について検討する: 可視性グラフ G が与えられたとき、可視性グラフが G であるポリゴン P を構築する。 私たちは、与えられた可視性グラフ G からポリゴンを再構成するための新しい拡散に基づくアプローチである VisDiff を紹介します。 VisDiffを訓練するためには、(1)可視性を異なる方法で計算するための新しい損失要素を設計し、(2)慎重にキュレートされたデータセットを作成する。 このデータセットを用いて,本手法のベンチマークを行い,標準手法よりもF1スコアが21%向上した。 また、分布外多角形への効果的な一般化を実証し、生成モデルの学習により、与えられた可視グラフでポリゴンの集合をサンプリングできることを示す。 最後に,本手法を三角測量から再構成する組合せ問題に拡張する。 トライアングルエッジの95%の分類精度とチャムファー距離の4%改善を実現した。

The capability to learn latent representations plays a key role in the effectiveness of recent machine learning methods. An active frontier in representation learning is understanding representations for combinatorial structures which may not admit well-behaved local neighborhoods or distance functions. For example, for polygons, slightly perturbing vertex locations might lead to significant changes in their combinatorial structure and may even lead to invalid polygons. In this paper, we investigate representations to capture the underlying combinatorial structures of polygons. Specifically, we study the open problem of Visibility Reconstruction: Given a visibility graph G, construct a polygon P whose visibility graph is G. We introduce VisDiff, a novel diffusion-based approach to reconstruct a polygon from its given visibility graph G. Our method first estimates the signed distance function (SDF) of P from G. Afterwards, it extracts ordered vertex locations that have the pairwise visibility relationship given by the edges of G. Our main insight is that going through the SDF significantly improves learning for reconstruction. In order to train VisDiff, we make two main contributions: (1) We design novel loss components for computing the visibility in a differentiable manner and (2) create a carefully curated dataset. We use this dataset to benchmark our method and achieve 21% improvement in F1-Score over standard methods. We also demonstrate effective generalization to out-of-distribution polygon types and show that learning a generative model allows us to sample the set of polygons with a given visibility graph. Finally, we extend our method to the related combinatorial problem of reconstruction from a triangulation. We achieve 95% classification accuracy of triangulation edges and a 4% improvement in Chamfer distance compared to current architectures.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# 等式飽和を用いたテンソル計算グラフの最適化とモンテカルロ木探索

Optimizing Tensor Computation Graphs with Equality Saturation and Monte Carlo Tree Search ( http://arxiv.org/abs/2410.05534v1 )

ライセンス: Link先を確認
Jakob Hartmann, Guoliang He, Eiko Yoneki, (参考訳) ディープニューラルネットワークの現実的な有効性は、しばしばレイテンシに依存するため、モデルの性能を維持しながら推論時間を短縮できる最適化技術が必要である。 一般的なアプローチの1つは、個々のサブグラフを置き換えることで、入力計算グラフを等価だが高速に書き直すことである。 このアプローチは、ある書き換え規則の適用により、さらによい規則を適用する可能性を排除できるいわゆる位相順序付け問題を引き起こす。 近年の研究では、コンパイラ最適化の技法である等式飽和が、第2ステップで最適解を抽出する前に複数の最適化された入力プログラムを効率的に格納する中間表現(IR)を構築することにより、この問題を軽減することが示されている。 しかし、実際には、メモリの制約により、IRがすべての最適化されたバージョンをキャプチャできないため、建設段階での位相順序問題を再導入する。 本稿ではモンテカルロ木探索を用いて、最も有望な書き直し規則を同定し、優れたIRを構築するテンソルグラフ書き換え手法を提案する。 また、IRで表されるテンソルプログラムの高速かつ正確な実行時推定を提供する新しい抽出アルゴリズムを導入する。 提案手法は,既存の手法と比較して,ニューラルネットワークの推論速度を最大11%向上させる。

The real-world effectiveness of deep neural networks often depends on their latency, thereby necessitating optimization techniques that can reduce a model's inference time while preserving its performance. One popular approach is to sequentially rewrite the input computation graph into an equivalent but faster one by replacing individual subgraphs. This approach gives rise to the so-called phase-ordering problem in which the application of one rewrite rule can eliminate the possibility to apply an even better one later on. Recent work has shown that equality saturation, a technique from compiler optimization, can mitigate this issue by first building an intermediate representation (IR) that efficiently stores multiple optimized versions of the input program before extracting the best solution in a second step. In practice, however, memory constraints prevent the IR from capturing all optimized versions and thus reintroduce the phase-ordering problem in the construction phase. In this paper, we present a tensor graph rewriting approach that uses Monte Carlo tree search to build superior IRs by identifying the most promising rewrite rules. We also introduce a novel extraction algorithm that can provide fast and accurate runtime estimates of tensor programs represented in an IR. Our approach improves the inference speedup of neural networks by up to 11% compared to existing methods.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# 保存型電気自動車充電ステーションのオンライン動的価格設定

Online Dynamic Pricing for Electric Vehicle Charging Stations with Reservations ( http://arxiv.org/abs/2410.05538v1 )

ライセンス: Link先を確認
Jan Mrkos, Antonín Komenda, David Fiedler, Jiří Vokřínek, (参考訳) 電気自動車(EV)への移行と再生可能エネルギー源の台頭は、電力網に大きな影響を及ぼすだろう。 従来の燃料源とは異なり、EVの電力はグリッド容量、価格変動、長期のEV充電時間によって制約されており、需要と供給を管理するために新しい価格ソリューションが必要である。 本稿では,予約,駐車,充電を含む予約型EV充電サービスのオンライン動的価格設定モデルを提案する。 提案手法は,需要予測に基づく確率的需要モデルとオンライン動的価格モデルを用いて,各充電ステーションオペレータに焦点をあてる。 提案モデルでは,Markov Decision Process (MDP) を定式化して,セッション要求を課金するためのシーケンシャルな価格決定を最適化する。 重要な貢献は、MDPで使われるポアソン過程の離散化によって導入された離散化誤差の新たな定義と定量化である。 このモデルの生存性はモンテカルロ木探索に基づくヒューリスティックな解法を用いて実証され、実世界のアプリケーションに実行可能な経路を提供する。

The transition to electric vehicles (EVs), coupled with the rise of renewable energy sources, will significantly impact the electric grid. Unlike conventional fuel sources, electricity for EVs is constrained by grid capacity, price fluctuations, and long EV charging times, requiring new pricing solutions to manage demand and supply. This paper proposes a model for online dynamic pricing of reserved EV charging services, including reservation, parking, and charging as a bundled service priced as a whole. Our approach focuses on the individual charging station operator, employing a stochastic demand model and online dynamic pricing based on expected demand. The proposed model uses a Markov Decision Process (MDP) formulation to optimize sequential pricing decisions for charging session requests. A key contribution is the novel definition and quantification of discretization error introduced by the discretization of the Poisson process for use in the MDP. The model's viability is demonstrated with a heuristic solution method based on Monte-Carlo tree search, offering a viable path for real-world application.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# 局所摂動と相互類似情報によるフェデレーション学習におけるグローバル・コンバージェンス支援

Aiding Global Convergence in Federated Learning via Local Perturbation and Mutual Similarity Information ( http://arxiv.org/abs/2410.05545v1 )

ライセンス: Link先を確認
Emanuel Buttaci, Giuseppe Carlo Calafiore, (参考訳) フェデレーテッド・ラーニングは、機械学習モデルのトレーニングに関連する重い計算ニーズをサポートすることができるポータブルデバイスが急速に増えているため、分散最適化のパラダイムとして過去10年間に登場した。 フェデレート学習は、勾配に基づく最適化を利用して、参加エージェント間で共有される損失目標を最小限にする。 我々の知る限りでは、この文献はクライアント間の相互統計的類似性を利用して最適化手順を再設計するエレガントなソリューションをほとんど欠いている。 このギャップに対処するために、フェデレートされたネットワークを類似性グラフとして認識することにより、各クライアントが他の統計的にアフィンなクライアントに関する事前情報を活用した摂動勾配ステップを局所的に実行する、新しい修正フレームワークを提案する。 提案手法は,更新規則の適応が適当に導入されたことにより,一般的なアルゴリズムであるFedAvgやFedProxと比較して,強凸の場合の指数的収縮係数に関する定量的な高速化を実現していることを理論的に証明する。 最後に,CIFAR10 と FEMNIST のデータセットを用いた実験結果から,FedAvg に比較して,アルゴリズムの収束速度が 30 回まで向上し,不均一な環境下での未確認データの一般化が緩やかに改善されたことを示す。

Federated learning has emerged in the last decade as a distributed optimization paradigm due to the rapidly increasing number of portable devices able to support the heavy computational needs related to the training of machine learning models. Federated learning utilizes gradient-based optimization to minimize a loss objective shared across participating agents. To the best of our knowledge, the literature mostly lacks elegant solutions that naturally harness the reciprocal statistical similarity between clients to redesign the optimization procedure. To address this gap, by conceiving the federated network as a similarity graph, we propose a novel modified framework wherein each client locally performs a perturbed gradient step leveraging prior information about other statistically affine clients. We theoretically prove that our procedure, due to a suitably introduced adaptation in the update rule, achieves a quantifiable speedup concerning the exponential contraction factor in the strongly convex case compared with popular algorithms FedAvg and FedProx, here analyzed as baselines. Lastly, we legitimize our conclusions through experimental results on the CIFAR10 and FEMNIST datasets, where we show that our algorithm speeds convergence up to a margin of 30 global rounds compared with FedAvg while modestly improving generalization on unseen data in heterogeneous settings.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# ベイジアン多項ロジスティック-非線形動的線形モデルに対するスケーラブル推論

Scalable Inference for Bayesian Multinomial Logistic-Normal Dynamic Linear Models ( http://arxiv.org/abs/2410.05548v1 )

ライセンス: Link先を確認
Manan Saxena, Tinghua Chen, Justin D. Silverman, (参考訳) 多くの科学分野が縦数構成データを集めている。 それぞれの観測は多変量ベクトルであり、トータルカウントは任意であり、情報はカウントの相対周波数にある。 複数の著者がこれらのデータをモデル化するための柔軟なアプローチとしてベイズ多相ロジスティック非線形動的線形モデル(MLN-DLM)を提案している。 しかし、これらの手法の採用は計算上の問題によって制限されてきた。 この記事では、$\textit{Fenrir}$と呼ばれる、後続状態推定に対する効率的かつ正確なアプローチを開発します。 提案手法は,MAP推定のための新しいアルゴリズムと,モデルの後縁部分に対する正確な近似に依存する。 比較可能な等価な手法が存在しないため,MLN-DLMの最適化Stan実装も開発している。 実験の結果,FenrirはStanよりも3桁効率が良く,モデルハイパーパラメータの共振器推定のためのより大規模なサンプリングスキームに組み込むことが可能であることが示唆された。 当社のメソッドは,C++で記述されたユーザフレンドリなソフトウェアライブラリとして,Rインターフェースを備えたコミュニティで利用可能です。

Many scientific fields collect longitudinal count compositional data. Each observation is a multivariate count vector, where the total counts are arbitrary, and the information lies in the relative frequency of the counts. Multiple authors have proposed Bayesian Multinomial Logistic-Normal Dynamic Linear Models (MLN-DLMs) as a flexible approach to modeling these data. However, adoption of these methods has been limited by computational challenges. This article develops an efficient and accurate approach to posterior state estimation, called $\textit{Fenrir}$. Our approach relies on a novel algorithm for MAP estimation and an accurate approximation to a key posterior marginal of the model. As there are no equivalent methods against which we can compare, we also develop an optimized Stan implementation of MLN-DLMs. Our experiments suggest that Fenrir can be three orders of magnitude more efficient than Stan and can even be incorporated into larger sampling schemes for joint inference of model hyperparameters. Our methods are made available to the community as a user-friendly software library written in C++ with an R interface.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# QCDアキシオンと暗光子検出のための高励起電子サイクロトロン

Highly Excited Electron Cyclotron for QCD Axion and Dark-Photon Detection ( http://arxiv.org/abs/2410.05549v1 )

ライセンス: Link先を確認
Xing Fan, Gerald Gabrielse, Peter W. Graham, Harikrishnan Ramani, Samuel S. Y. Wong, Yawen Xiao, (参考訳) 我々は、捕捉された電子の高励起シクロトロン状態を用いて、MeVのアキシオンとダークフォトンダークマターを検出することを提案し、我々のこれまでの提案と実証 [Phys. Rev. Lett. 129, 261801] を大きく改善した。 アクシオン質量がサイクロトロン周波数$\omega_c$と一致するとき、サイクロトロン状態は共鳴的に励起され、遷移確率はその初期量子数$n_c$に比例する。 感度は$n_c \sim 10^6 \left( \frac{0.1~\text{meV}}{\omega_c} \right)^2$で向上する。 鍵となる実験パラメータを最適化することにより、サイクロトロン検出に必要な平均時間を $t_{\text{ave}} \sim 10^{-6} $ seconds に最小化し、崩壊前の高励起状態の検出を可能にする。 オープン・エンドキャップ・トラップの設計により、外部光子信号をトラップに向けることができ、BREAD提案のような大きな焦点を絞ったキャビティに背景のない検出器を適合させながら、強磁場に乗じることができる。 さらに、キャビティ内に屈折率の交互な誘電体層を組み込むことで、軸変換率をコヒーレントに向上させることができる。 これらの最適化により、予測されたQCD質量範囲のかなりの部分をカバーし、0.1 meVから2.3 meV (25-560 GHz)までQCD軸パラメータ空間を探索することができる。 この感度は、暗光子の運動的混合パラメータを$\epsilon \approx 2 \times 10^{-16}$とするものである。

We propose using highly excited cyclotron states of a trapped electron to detect meV axion and dark photon dark matter, marking a significant improvement over our previous proposal and demonstration [Phys. Rev. Lett. 129, 261801]. When the axion mass matches the cyclotron frequency $\omega_c$, the cyclotron state is resonantly excited, with a transition probability proportional to its initial quantum number, $n_c$. The sensitivity is enhanced by taking $n_c \sim 10^6 \left( \frac{0.1~\text{meV}}{\omega_c} \right)^2$. By optimizing key experimental parameters, we minimize the required averaging time for cyclotron detection to $t_{\text{ave}} \sim 10^{-6} $ seconds, permitting detection of such a highly excited state before its decay. An open-endcap trap design enables the external photon signal to be directed into the trap, rendering our background-free detector compatible with large focusing cavities, such as the BREAD proposal, while capitalizing on their strong magnetic fields. Furthermore, the axion conversion rate can be coherently enhanced by incorporating layers of dielectrics with alternating refractive indices within the cavity. Collectively, these optimizations enable us to probe the QCD axion parameter space from 0.1 meV to 2.3 meV (25-560 GHz), covering a substantial portion of the predicted post-inflationary QCD axion mass range. This sensitivity corresponds to probing the kinetic mixing parameter of the dark photon down to $\epsilon \approx 2 \times 10^{-16}$.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-07
# 命令型ニューラルネットワーク翻訳モデルについて

On Instruction-Finetuning Neural Machine Translation Models ( http://arxiv.org/abs/2410.05553v1 )

ライセンス: Link先を確認
Vikas Raunak, Roman Grundkiewicz, Marcin Junczys-Dowmunt, (参考訳) 本研究では,Large Language Models (LLMs) から命令追従能力を抽出したニューラル・マシン・トランスフォーメーション(NMT)モデルの命令微調整について述べる。 NMTモデルのための命令ファインタニングのレシピは、限定的だが異なる翻訳特化タスクのセットに対して、翻訳のカスタマイズを可能にする。 NMTモデルは複数の命令を同時に追従でき、命令のゼロショット合成の能力を示す。 また,命令微調整により,GPT-3.5-TurboなどのLLMに匹敵する性能レベルで,形式性制御された機械翻訳やマルチドメイン適応,マルチモーダル翻訳などの従来とは異なるタスクを単一命令微調整NMTモデルで共同で行うことができることを示す。 我々の知る限り、我々の研究は、従来のNTTモデルの命令追従能力を示す最初のものの一つであり、より速く、安価で、より効率的な翻訳提供を可能にします。

In this work, we introduce instruction finetuning for Neural Machine Translation (NMT) models, which distills instruction following capabilities from Large Language Models (LLMs) into orders-of-magnitude smaller NMT models. Our instruction-finetuning recipe for NMT models enables customization of translations for a limited but disparate set of translation-specific tasks. We show that NMT models are capable of following multiple instructions simultaneously and demonstrate capabilities of zero-shot composition of instructions. We also show that through instruction finetuning, traditionally disparate tasks such as formality-controlled machine translation, multi-domain adaptation as well as multi-modal translations can be tackled jointly by a single instruction finetuned NMT model, at a performance level comparable to LLMs such as GPT-3.5-Turbo. To the best of our knowledge, our work is among the first to demonstrate the instruction-following capabilities of traditional NMT models, which allows for faster, cheaper and more efficient serving of customized translations.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# ソースフリー領域適応物体検出における弱ストロング増大の再考

Rethinking Weak-to-Strong Augmentation in Source-Free Domain Adaptive Object Detection ( http://arxiv.org/abs/2410.05557v1 )

ライセンス: Link先を確認
Jiuzheng Yang, Song Tang, Yangkuiyi Zhang, Shuaifeng Li, Mao Ye, Jianwei Zhang, Xiatian Zhu, (参考訳) Source-Free Domain Adaptive Object Detection (SFOD) は、検出器(ソースドメインで事前訓練された)を新しい未実装のターゲットドメインに転送することを目的としている。 現在のSFODの手法は平均教師(Mean Teacher)の枠組みに従っており、弱強弱化は自己指導型学習において多様で鋭いコントラストを提供する。 しかし、この強化戦略は、決定的な意味的損失と呼ばれる固有の問題に悩まされる: ランダムで強い乱れのため、強い増強は、典型的な視覚的コンポーネントを失う傾向があり、ドメイン間の特徴抽出を妨げる。 そこで本研究では,この制限に対処するため,Wak-to-Strong Contrastive Learning (WSCoL) アプローチを提案する。 中心となる考え方は、弱い特徴(弱い/教師の枝から)の無意味な知識を蒸留して、強い特徴(強い/学生の枝から)の表現学習を導くことである。 これを実現するために,地図ネットワークを用いて元の特徴を共有空間に投影し,弱い特徴と強い特徴との偏りを低減させる。 一方、弱特徴誘導型コントラスト学習を弱強健な方法で行う。 具体的には、まず、弱い特徴に対して適応対応のプロトタイプ誘導クラスタリングを行い、提案手法により一致した強い特徴に対応する擬似ラベルを生成する。 擬似ラベルに基づいて正負のサンプルを同定し、不確実性推定器が適応的背景コントラストを奨励する強い特徴に基づいて、カテゴリ間コントラスト学習を行う。 大規模な実験では、WSCoLが新しい最先端のパフォーマンスをもたらし、従来の平均教師フレームワークにとって重要なセマンティクス損失を緩和するビルトインメカニズムを提供する。 コードとデータはまもなくリリースされる。

Source-Free domain adaptive Object Detection (SFOD) aims to transfer a detector (pre-trained on source domain) to new unlabelled target domains. Current SFOD methods typically follow the Mean Teacher framework, where weak-to-strong augmentation provides diverse and sharp contrast for self-supervised learning. However, this augmentation strategy suffers from an inherent problem called crucial semantics loss: Due to random, strong disturbance, strong augmentation is prone to losing typical visual components, hindering cross-domain feature extraction. To address this thus-far ignored limitation, this paper introduces a novel Weak-to-Strong Contrastive Learning (WSCoL) approach. The core idea is to distill semantics lossless knowledge in the weak features (from the weak/teacher branch) to guide the representation learning upon the strong features (from the strong/student branch). To achieve this, we project the original features into a shared space using a mapping network, thereby reducing the bias between the weak and strong features. Meanwhile, a weak features-guided contrastive learning is performed in a weak-to-strong manner alternatively. Specifically, we first conduct an adaptation-aware prototype-guided clustering on the weak features to generate pseudo labels for corresponding strong features matched through proposals. Sequentially, we identify positive-negative samples based on the pseudo labels and perform cross-category contrastive learning on the strong features where an uncertainty estimator encourages adaptive background contrast. Extensive experiments demonstrate that WSCoL yields new state-of-the-art performance, offering a built-in mechanism mitigating crucial semantics loss for traditional Mean Teacher framework. The code and data will be released soon.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# ナラティブ・オブ・ワウト:引用ナラティブによる大規模言語モデルの時間的推論の改善

Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives ( http://arxiv.org/abs/2410.05558v1 )

ライセンス: Link先を確認
Xinliang Frederick Zhang, Nick Beauchamp, Lu Wang, (参考訳) 時間と時間的関係についての推論は、人間の認知の不可欠な側面であり、世界を知覚し、経験をナビゲートするのに不可欠である。 大規模言語モデル(LLM)は多くの推論タスクにおいて顕著な性能を示したが、その固有の複雑さのために時間的推論は難しいままである。 本研究ではまず,LLMの本質的,グローバルな推論能力を明らかにするために,時間的推論(時間的グラフ生成)の本質的な課題について検討する。 この課題は, GPT-3.5/4 など, 最強の LLM においても大きな課題となる。 また,LLMを50%遅れる小モデル(10B)による性能差も顕著であった。 次に,モデル微調整を使わずに,予算制約,例えば,このギャップを埋める方法について検討する。 時間的推論に適した新しいプロンプト手法であるNarrative-of-Thought(NoT)を提案し、まず最初にPythonクラスに設定したイベントを変換し、その後、小さなモデルに時間的基底の物語を生成するように促し、時間的グラフの最終的な生成を導く。 大規模な実験では、様々な指標を改善するためのNoTの有効性が示されている。 特にNoTは、Schema-11評価セットで最高F1を獲得し、全体的なF1をGPT-3.5と同等に確保している。 NoTはまた、GPT-3.5/4と比較しても、ボード全体で最高の構造的類似性を実現している。 私たちのコードはhttps://github.com/ Launchnlp/NoT.comで利用可能です。

Reasoning about time and temporal relations is an integral aspect of human cognition, essential for perceiving the world and navigating our experiences. Though large language models (LLMs) have demonstrated impressive performance in many reasoning tasks, temporal reasoning remains challenging due to its intrinsic complexity. In this work, we first study an essential task of temporal reasoning -- temporal graph generation, to unveil LLMs' inherent, global reasoning capabilities. We show that this task presents great challenges even for the most powerful LLMs, such as GPT-3.5/4. We also notice a significant performance gap by small models (<10B) that lag behind LLMs by 50%. Next, we study how to close this gap with a budget constraint, e.g., not using model finetuning. We propose a new prompting technique tailored for temporal reasoning, Narrative-of-Thought (NoT), that first converts the events set to a Python class, then prompts a small model to generate a temporally grounded narrative, guiding the final generation of a temporal graph. Extensive experiments showcase the efficacy of NoT in improving various metrics. Notably, NoT attains the highest F1 on the Schema-11 evaluation set, while securing an overall F1 on par with GPT-3.5. NoT also achieves the best structural similarity across the board, even compared with GPT-3.5/4. Our code is available at https://github.com/launchnlp/NoT.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# 大規模言語モデルに対する属性制御による微調整:デトキシ化の事例研究

Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification ( http://arxiv.org/abs/2410.05559v1 )

ライセンス: Link先を確認
Tao Meng, Ninareh Mehrabi, Palash Goyal, Anil Ramakrishna, Aram Galstyan, Richard Zemel, Kai-Wei Chang, Rahul Gupta, Charith Peris, (参考訳) 本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。 モデル出力のシーケンスレベルの制約として定式化されたトレーニングコーパスと制御基準が与えられた場合、本手法は、その実用性と生成品質に最小限の影響を伴って制約満足度を高めつつ、トレーニングコーパス上のLCMを微調整する。 具体的には,制約を満たす所望の出力分布とLLMの後部とのKL分散をペナルティ化することにより,LLMトレーニングを規則化する。 この正規化項は、シーケンスレベルの制約をトークンレベルのガイダンスに分解するように訓練された補助モデルで近似することができ、クローズドフォームの定式化によってこの項を測定できる。 さらに効率を向上させるために,LLMと補助モデルの両方を並列に更新する並列スキームを設計する。 LLMのトレーニングにおける毒性の制御によるアプローチの実証的性能の評価を行った。 提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。

We propose a constraint learning schema for fine-tuning Large Language Models (LLMs) with attribute control. Given a training corpus and control criteria formulated as a sequence-level constraint on model outputs, our method fine-tunes the LLM on the training corpus while enhancing constraint satisfaction with minimal impact on its utility and generation quality. Specifically, our approach regularizes the LLM training by penalizing the KL divergence between the desired output distribution, which satisfies the constraints, and the LLM's posterior. This regularization term can be approximated by an auxiliary model trained to decompose the sequence-level constraints into token-level guidance, allowing the term to be measured by a closed-form formulation. To further improve efficiency, we design a parallel scheme for concurrently updating both the LLM and the auxiliary model. We evaluate the empirical performance of our approach by controlling the toxicity when training an LLM. We show that our approach leads to an LLM that produces fewer inappropriate responses while achieving competitive performance on benchmarks and a toxicity detection task.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# カナダ大統領選へのサイバー脅威-新たな脅威、評価、緩和戦略

Cyber Threats to Canadian Federal Election: Emerging Threats, Assessment, and Mitigation Strategies ( http://arxiv.org/abs/2410.05560v1 )

ライセンス: Link先を確認
Nazmul Islam, Soomin Kim, Mohammad Pirooz, Sasha Shvetsov, (参考訳) カナダは2025年の連邦選挙に備えており、サイバー脅威に対する選挙プロセスの整合性と安全性を確保することが不可欠である。 近年の選挙における外国の干渉は、技術的および人間の脆弱性を悪用する敵の高度化を全世界的に強調している。 このような脆弱性は、ITシステム、ベンダー、人員の複雑なネットワークに依存するカナダの選挙システムにも存在している。 これらの脆弱性を軽減するために、脅威評価は、出現する脅威を特定し、インシデント対応能力を開発し、サイバー脅威に対する公衆の信頼とレジリエンスを構築するために不可欠である。 そこで本稿では、NIST Special Publication 800-30フレームワークに従って、2025年のカナダ連邦選挙に対するサイバーセキュリティのリスクを特定し緩和することに焦点を当てた、包括的な国家サイバー脅威評価を提案する。 この研究は、誤情報、偽情報、不正情報(MDM)キャンペーン、重要なインフラと選挙支援システムへの攻撃、悪意あるアクターによるスパイの3つの主要な脅威を特定している。 詳細な分析を通じて、アセスメントはこれらの脅威の能力、意図、潜在的な影響に関する洞察を提供する。 また、新興技術とその選挙安全への影響についても論じ、選挙前のリスク軽減に向けた多面的アプローチを提案する。

As Canada prepares for the 2025 federal election, ensuring the integrity and security of the electoral process against cyber threats is crucial. Recent foreign interference in elections globally highlight the increasing sophistication of adversaries in exploiting technical and human vulnerabilities. Such vulnerabilities also exist in Canada's electoral system that relies on a complex network of IT systems, vendors, and personnel. To mitigate these vulnerabilities, a threat assessment is crucial to identify emerging threats, develop incident response capabilities, and build public trust and resilience against cyber threats. Therefore, this paper presents a comprehensive national cyber threat assessment, following the NIST Special Publication 800-30 framework, focusing on identifying and mitigating cybersecurity risks to the upcoming 2025 Canadian federal election. The research identifies three major threats: misinformation, disinformation, and malinformation (MDM) campaigns; attacks on critical infrastructure and election support systems; and espionage by malicious actors. Through detailed analysis, the assessment offers insights into the capabilities, intent, and potential impact of these threats. The paper also discusses emerging technologies and their influence on election security and proposes a multi-faceted approach to risk mitigation ahead of the election.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# 大規模言語モデルの合理的メタレゾン化

Rational Metareasoning for Large Language Models ( http://arxiv.org/abs/2410.05563v1 )

ライセンス: Link先を確認
C. Nicolò De Sabbata, Theodore R. Sumers, Thomas L. Griffiths, (参考訳) 大きな言語モデル(LLM)を使用するためのコアテクニックとして推論に関わるように促され、タスクパフォーマンスを改善するための推論時間計算が導入された。 しかし、LSMのサイズと採用の双方が増加するにつれて、推論コストは増加傾向にある。 では、どのようにして推論のコストパフォーマンストレードオフを最適化するか? 本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入し,必要なときにのみ中間推論ステップを選択的に活用するようにLCMを訓練する。 まず,不必要な推論をペナルティ化して計算値を含む報酬関数を開発し,この報酬関数をエキスパートイテレーションと組み合わせてLLMを訓練する。 数発のチェーン・オブ・シークレット・プロンプトやSTaRと比較して,提案手法は多様なデータセット間でタスク性能を維持しつつ,推論コストを著しく削減する(3つのモデルで生成されるトークンを20~37パーセント削減)。

Being prompted to engage in reasoning has emerged as a core technique for using large language models (LLMs), deploying additional inference-time compute to improve task performance. However, as LLMs increase in both size and adoption, inference costs are correspondingly becoming increasingly burdensome. How, then, might we optimize reasoning's cost-performance tradeoff? This work introduces a novel approach based on computational models of metareasoning used in cognitive science, training LLMs to selectively use intermediate reasoning steps only when necessary. We first develop a reward function that incorporates the Value of Computation by penalizing unnecessary reasoning, then use this reward function with Expert Iteration to train the LLM. Compared to few-shot chain-of-thought prompting and STaR, our method significantly reduces inference costs (20-37\% fewer tokens generated across three models) while maintaining task performance across diverse datasets.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# スパース変換解析による教師なし表現学習

Unsupervised Representation Learning from Sparse Transformation Analysis ( http://arxiv.org/abs/2410.05564v1 )

ライセンス: Link先を確認
Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling, (参考訳) 符号化効率、統計的独立性、因果性、制御可能性、対称性などの原則に基づく表現学習に関する膨大な文献がある。 本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習する。 入力データは、まず遅延アクティベーションの分布として符号化され、次に確率フローモデルを用いて変換され、その後、将来の入力状態を予測するためにデコードされる。 フローモデルは、複数の回転(分岐のない)ベクトル場と、多くのポテンシャルフロー(カールのない)フィールドに分解される。 我々のスパーシリティは、これらのフィールドのごく一部だけを任意の瞬間にアクティブにすることを奨励し、確率がこれらのフィールドに沿って流れる速度を推測する。 このモデルのトレーニングは、標準的な変分目的を用いて完全に教師なしであり、入力が独立した要因の組み合わせによって表現されるだけでなく、学習された流れ場によって与えられる独立した変換プリミティブの組み合わせによっても表現されるような、新しい形の非絡合表現をもたらす。 変換を対称性として見るとき、これをほぼ同変表現の学習と解釈することができる。 実験により、このモデルは、シーケンス変換からなるデータセット上で、データ可能性と教師なし近似等分散誤差の両方の観点から、最先端のモデルを実現することを実証した。

There is a vast literature on representation learning based on principles such as coding efficiency, statistical independence, causality, controllability, or symmetry. In this paper we propose to learn representations from sequence data by factorizing the transformations of the latent variables into sparse components. Input data are first encoded as distributions of latent activations and subsequently transformed using a probability flow model, before being decoded to predict a future input state. The flow model is decomposed into a number of rotational (divergence-free) vector fields and a number of potential flow (curl-free) fields. Our sparsity prior encourages only a small number of these fields to be active at any instant and infers the speed with which the probability flows along these fields. Training this model is completely unsupervised using a standard variational objective and results in a new form of disentangled representations where the input is not only represented by a combination of independent factors, but also by a combination of independent transformation primitives given by the learned flow fields. When viewing the transformations as symmetries one may interpret this as learning approximately equivariant representations. Empirically we demonstrate that this model achieves state of the art in terms of both data likelihood and unsupervised approximate equivariance errors on datasets composed of sequence transformations.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# 効率的なエンティティ追跡のための連鎖と因果注意

Chain and Causal Attention for Efficient Entity Tracking ( http://arxiv.org/abs/2410.05565v1 )

ライセンス: Link先を確認
Erwan Fagnou, Paul Caillon, Blaise Delattre, Alexandre Allauzen, (参考訳) 本稿では,大規模言語モデルにおけるエンティティ追跡タスクにおけるトランスフォーマーの限界について検討する。 我々は、少なくとも$\log_2 (n+1)$レイヤが、$n$状態変化を伴うエンティティトラッキングを処理するために必要であることを示す、理論的制約を識別する。 この問題に対処するため、我々は、より効率的な長期依存の管理を可能にする、標準的な注意機構の効率的かつ簡素な強化を提案する。 隣接行列として注意を向けることにより、我々のモデルは単一の層で実体状態を追跡することができる。 実験結果は、標準自然言語モデリングにおける競合性能を維持しながら、エンティティ追跡データセットの大幅な改善を示す。 修正された注意により、レイヤーを劇的に減らして同じパフォーマンスを達成することができます。 さらに,我々の強化されたメカニズムは,注意の構造化された内部表現を明らかにする。 おもちゃと複雑なデータセットに関する大規模な実験は、我々のアプローチを検証する。 私たちの貢献には、理論的洞察、注意機構の改善、実証的検証が含まれる。

This paper investigates the limitations of transformers for entity-tracking tasks in large language models. We identify a theoretical constraint, showing that transformers require at least $\log_2 (n+1)$ layers to handle entity tracking with $n$ state changes. To address this issue, we propose an efficient and frugal enhancement to the standard attention mechanism, enabling it to manage long-term dependencies more efficiently. By considering attention as an adjacency matrix, our model can track entity states with a single layer. Empirical results demonstrate significant improvements in entity tracking datasets while keeping competitive performance on standard natural language modeling. Our modified attention allows us to achieve the same performance with drastically fewer layers. Additionally, our enhanced mechanism reveals structured internal representations of attention. Extensive experiments on both toy and complex datasets validate our approach. Our contributions include theoretical insights, an improved attention mechanism, and empirical validation.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-07
# 言語間語彙アライメントの局所的測定:ドメインと単語レベルの観点から

Locally Measuring Cross-lingual Lexical Alignment: A Domain and Word Level Perspective ( http://arxiv.org/abs/2410.07239v1 )

ライセンス: Link先を確認
Taelin Karidi, Eitan Grossman, Omri Abend, (参考訳) 語彙表現空間を相互に整合させるNLP研究は、これまで言語空間全体を整合させることに重点を置いてきた。 しかし、認知科学は長い間、地域的な視点に重点を置いており、翻訳の同義語が真に同じ意味を共有しているか、文化や地域の影響が意味の変化をもたらす範囲を共有しているかどうかを調査してきた。 近年の技術進歩と利用可能なデータの量の増加により、言語間の語彙的アライメントという長年の問題は、よりデータ駆動的な方法でアプローチすることができる。 しかしながら、タスクのためのメトリクスの開発には、メトリクスの有効性を比較するための方法論が必要である。 このギャップに対処し、親族領域における語彙的ギャップを用いた合成検証と新しい自然主義的検証の両方を解析するための方法論を提案する。 さらに、コンテキスト化された埋め込みに基づいて、このタスクで探索されていない新しいメトリクスを提案する。 我々の分析は16の多様な言語にまたがっており、新しい言語モデルを使用することで改善の余地があることを実証している。 我々の研究は、より正確でニュアンスの高い言語間語彙アライメント手法と評価の道を開いた。

NLP research on aligning lexical representation spaces to one another has so far focused on aligning language spaces in their entirety. However, cognitive science has long focused on a local perspective, investigating whether translation equivalents truly share the same meaning or the extent that cultural and regional influences result in meaning variations. With recent technological advances and the increasing amounts of available data, the longstanding question of cross-lingual lexical alignment can now be approached in a more data-driven manner. However, developing metrics for the task requires some methodology for comparing metric efficacy. We address this gap and present a methodology for analyzing both synthetic validations and a novel naturalistic validation using lexical gaps in the kinship domain. We further propose new metrics, hitherto unexplored on this task, based on contextualized embeddings. Our analysis spans 16 diverse languages, demonstrating that there is substantial room for improvement with the use of newer language models. Our research paves the way for more accurate and nuanced cross-lingual lexical alignment methodologies and evaluation.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-07
# 未知のダイナミクス下での安全な自律性のための学習ベースシールド

Learning-Based Shielding for Safe Autonomy under Unknown Dynamics ( http://arxiv.org/abs/2410.07359v1 )

ライセンス: Link先を確認
Robert Reed, Morteza Lahijanian, (参考訳) シールドは、ニューラルネットワークコントローラのようなブラックボックスコントローラの下でのシステムの安全性を保証するための一般的な方法である。 既存の遮蔽法はマルコフ決定プロセス(MDP)による形式的検証に依存しており、既知のまたは有限状態のモデルと仮定して、未知の連続状態システムによるDRL設定の適用性を制限している。 本稿では,ブラックボックス制御下での未知システムの安全性を保証するデータ駆動遮蔽手法を提案することにより,これらの制約に対処する。 この手法はディープカーネル学習を利用して不確実性定量化によるシステムのワンステップ進化をモデル化し、インターバルMDP (IMDP) として有限状態抽象化を構築する。 安全線形時間論理(セーフLTL)で表される安全性特性に着目し,IMDP上の安全ポリシーの最大許容集合を計算し,安全でない状態を避けるアルゴリズムを開発した。 アルゴリズムの音質と計算の複雑さは、高次元の自律宇宙船シナリオを含む非線形システムの理論的証明と実験によって実証される。

Shielding is a common method used to guarantee the safety of a system under a black-box controller, such as a neural network controller from deep reinforcement learning (DRL), with simpler, verified controllers. Existing shielding methods rely on formal verification through Markov Decision Processes (MDPs), assuming either known or finite-state models, which limits their applicability to DRL settings with unknown, continuous-state systems. This paper addresses these limitations by proposing a data-driven shielding methodology that guarantees safety for unknown systems under black-box controllers. The approach leverages Deep Kernel Learning to model the systems' one-step evolution with uncertainty quantification and constructs a finite-state abstraction as an Interval MDP (IMDP). By focusing on safety properties expressed in safe linear temporal logic (safe LTL), we develop an algorithm that computes the maximally permissive set of safe policies on the IMDP, ensuring avoidance of unsafe states. The algorithms soundness and computational complexity are demonstrated through theoretical proofs and experiments on nonlinear systems, including a high-dimensional autonomous spacecraft scenario.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-07
# 繰り返しニューラルネットワークによる解答機検出問題の解法

A Recurrent Neural Network Approach to the Answering Machine Detection Problem ( http://arxiv.org/abs/2410.08235v1 )

ライセンス: Link先を確認
Kemal Altwlkany, Sead Delalic, Elmedin Selmanovic, Adis Alihodzic, Ivica Lovric, (参考訳) 通信とクラウド通信の分野では、人間か応答機かがアウトバウンドコールに応答したかどうかを正確にリアルタイムに検出することが最重要となる。 この問題は、正確な発信者識別を通じてサービス品質、効率、コスト削減を高めるため、キャンペーンにおいて特に重要である。 この分野の重要性にもかかわらず、既存の文献では不十分な調査が続けられている。 本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。 YAMNetアーキテクチャは、リカレントベースの分類器のトレーニングを容易にし、固定長の記録とは対照的に、オーディオストリームのリアルタイム処理を可能にする。 その結果,テストセットでは96%以上の精度が得られた。 さらに,誤分類サンプルの詳細な分析を行い,FFmpegなどのサイレント検出アルゴリズムを統合することにより,98%以上の精度が得られることを明らかにした。

In the field of telecommunications and cloud communications, accurately and in real-time detecting whether a human or an answering machine has answered an outbound call is of paramount importance. This problem is of particular significance during campaigns as it enhances service quality, efficiency and cost reduction through precise caller identification. Despite the significance of the field, it remains inadequately explored in the existing literature. This paper presents an innovative approach to answering machine detection that leverages transfer learning through the YAMNet model for feature extraction. The YAMNet architecture facilitates the training of a recurrent-based classifier, enabling real-time processing of audio streams, as opposed to fixed-length recordings. The results demonstrate an accuracy of over 96% on the test set. Furthermore, we conduct an in-depth analysis of misclassified samples and reveal that an accuracy exceeding 98% can be achieved with the integration of a silence detection algorithm, such as the one provided by FFmpeg.
翻訳日:2024-10-31 04:36:03 公開日:2024-10-07
# AI in Archival Science - システムレビュー

AI in Archival Science -- A Systematic Review ( http://arxiv.org/abs/2410.09086v1 )

ライセンス: Link先を確認
Gaurav Shinde, Tiana Kirstein, Souvick Ghosh, Patricia C. Franks, (参考訳) 記録の急速な拡大は、維持と処分、評価、組織など、管理における重大な課題を生み出している。 本研究は,人工知能(AI)を人工科学の広い領域に組み込むことのメリットを裏付けるものである。 本研究では、この領域におけるAIの現在の使用状況を理解し、課題に対処するためのテクニックを特定するために、徹底的な分析を行うことから始める。 その後、具体的な基準に従って、レビューの結果を文書化する。 我々の発見は、記録保存プロセスの合理化とデータ検索効率の向上を約束する重要なAI駆動戦略を強調した。 また、我々の方法論に関する透明性を確保するためのレビュープロセスも示しています。 さらに、このレビューは、アーカイブ科学とレコードマネジメントにおけるAIの現状を概説するだけでなく、アーカイブの実践を変革するための新しい技術を統合するための基礎を築き上げている。 本研究は,人工知能とアーカイブ科学の分野間の連携強化の必要性を強調している。

The rapid expansion of records creates significant challenges in management, including retention and disposition, appraisal, and organization. Our study underscores the benefits of integrating artificial intelligence (AI) within the broad realm of archival science. In this work, we start by performing a thorough analysis to understand the current use of AI in this area and identify the techniques employed to address challenges. Subsequently, we document the results of our review according to specific criteria. Our findings highlight key AI driven strategies that promise to streamline record-keeping processes and enhance data retrieval efficiency. We also demonstrate our review process to ensure transparency regarding our methodology. Furthermore, this review not only outlines the current state of AI in archival science and records management but also lays the groundwork for integrating new techniques to transform archival practices. Our research emphasizes the necessity for enhanced collaboration between the disciplines of artificial intelligence and archival science.
翻訳日:2024-10-30 16:48:15 公開日:2024-10-07
# メカニスティック?

Mechanistic? ( http://arxiv.org/abs/2410.09087v1 )

ライセンス: Link先を確認
Naomi Saphra, Sarah Wiegreffe, (参考訳) 機械的解釈可能性(mechanistic interpretability)という用語の台頭は、ニューラルモデル(特に言語モデル)の理解への関心の高まりにつながっている。しかし、この用語は「機械的(mechanistic)」という用語の4つの使い方を記述している。最も狭い技術的定義は因果性(corsality)の主張である一方、より広い技術的定義は、モデルの内部の探索を可能にする。しかし、この用語には、文化的な動きを記述した狭い文化的定義がある。この意味的な漂流を理解するために、NLP解釈性コミュニティの歴史と、別個の「機械的」解釈性コミュニティの形成を提示する。最後に、NLP解釈性(mechanistic)の分野全体を含む広範な文化的定義について論じる。 メカニスティック」の多義性は、解釈可能性コミュニティにおける重要な分断の産物であると主張する。

The rise of the term "mechanistic interpretability" has accompanied increasing interest in understanding neural models -- particularly language models. However, this jargon has also led to a fair amount of confusion. So, what does it mean to be "mechanistic"? We describe four uses of the term in interpretability research. The most narrow technical definition requires a claim of causality, while a broader technical definition allows for any exploration of a model's internals. However, the term also has a narrow cultural definition describing a cultural movement. To understand this semantic drift, we present a history of the NLP interpretability community and the formation of the separate, parallel "mechanistic" interpretability community. Finally, we discuss the broad cultural definition -- encompassing the entire field of interpretability -- and why the traditional NLP interpretability community has come to embrace it. We argue that the polysemy of "mechanistic" is the product of a critical divide within the interpretability community.
翻訳日:2024-10-30 16:48:15 公開日:2024-10-07