Fugu-MT 論文翻訳(概要): Physics-based phenomenological characterization of cross-modal bias in multimodal models

論文の概要: Physics-based phenomenological characterization of cross-modal bias in multimodal models

arxiv url: http://arxiv.org/abs/2602.20624v1
Date: Tue, 24 Feb 2026 07:21:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.641892
Title: Physics-based phenomenological characterization of cross-modal bias in multimodal models
Title（参考訳）: 物理に基づく多モードモデルにおけるクロスモーダルバイアスの現象論的評価
Authors: Hyeongmo Kim, Sohyun Kang, Yerin Choi, Seungyeon Ji, Junhyuk Woo, Hyunsuk Chung, Soyeon Caren Han, Kyungreem Han,
Abstract要約: マルチモーダルな大言語モデル(MLLM)は、マルチモーダルな理解、推論、生成において新たな基盤を打ち破っている。複雑なマルチモーダル相互作用のダイナミクスから生じる不明瞭な歪みは、体系的なバイアスを引き起こす可能性があると論じる。
参考スコア（独自算出の注目度）: 11.525886296936413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The term 'algorithmic fairness' is used to evaluate whether AI models operate fairly in both comparative (where fairness is understood as formal equality, such as "treat like cases as like") and non-comparative (where unfairness arises from the model's inaccuracy, arbitrariness, or inscrutability) contexts. Recent advances in multimodal large language models (MLLMs) are breaking new ground in multimodal understanding, reasoning, and generation; however, we argue that inconspicuous distortions arising from complex multimodal interaction dynamics can lead to systematic bias. The purpose of this position paper is twofold: first, it is intended to acquaint AI researchers with phenomenological explainable approaches that rely on the physical entities that the machine experiences during training/inference, as opposed to the traditional cognitivist symbolic account or metaphysical approaches; second, it is to state that this phenomenological doctrine will be practically useful for tackling algorithmic fairness issues in MLLMs. We develop a surrogate physics-based model that describes transformer dynamics (i.e., semantic network structure and self-/cross-attention) to analyze the dynamics of cross-modal bias in MLLM, which are not fully captured by conventional embedding- or representation-level analyses. We support this position through multi-input diagnostic experiments: 1) perturbation-based analyses of emotion classification using Qwen2.5-Omni and Gemma 3n, and 2) dynamical analysis of Lorenz chaotic time-series prediction through the physical surrogate. Across two architecturally distinct MLLMs, we show that multimodal inputs can reinforce modality dominance rather than mitigate it, as revealed by structured error-attractor patterns under systematic label perturbation, complemented by dynamical analysis.
Abstract（参考訳）: algorithmic fairness」という用語は、AIモデルが比較(フェアネスが「ケースのように扱われる」ような形式的平等であると理解されている場合)と非比較(モデルの不正確さ、仲裁性、または調査不可能性から生じる場合)の両方で公平に機能するかどうかを評価するために用いられる。マルチモーダル大規模言語モデル(MLLM)の最近の進歩は, マルチモーダル理解, 推論, 生成の新たな基盤を打破している。この位置紙の目的は2つある: 第一に、従来の認知主義的象徴的説明やメタ物理的アプローチとは対照的に、トレーニング/推論中に機械が経験する物理的実体に依存する現象論的説明可能なアプローチを持つAI研究者を知っており、第二に、この現象論的ドクトリンがMLLMのアルゴリズム的公正問題に取り組むのに実用的に有用であることを示すことである。本研究では,従来の埋め込みや表現レベルの解析では十分に捉えられていないMLLMのクロスモーダルバイアスのダイナミクスを解析するために,トランスフォーマダイナミクス(セマンティックネットワーク構造と自己/クロスアテンション)を記述したサロゲート物理モデルを開発する。マルチインプット診断実験を通してこの位置を支持する。 1)Qwen2.5-OmniとGemma 3nを用いた摂動に基づく感情分類の分析 2) 物理的サロゲートによるロレンツカオス時系列予測の動的解析アーキテクチャ的に異なる2つのMLLMに対して,マルチモーダル入力は,動的解析によって補完される系統的なラベル摂動の下で,構造的エラートラクタパターンによって明らかにされるように,モダリティ優位性を高めることができることを示す。

関連論文リスト

Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields [1.572216094651749]
機械学習力場(MLFF)は、分子動力学スケールでのアブ初期レベルの精度を実現することによって、計算材料科学を変革している。研究者たちは、スペシャリストモデルをスクラッチから訓練するか、ファウンデーショナリストのファンデーションモデルを使うべきか、ハイブリッドアプローチを使うべきか? 本稿では, 弾性バンドトラジェクトリを用いて診断プローブとして評価する, 欠陥マイグレーション経路を用いたベンチマークフレームワークを提案する。微調整モデルでは、運動特性に対するゼロショットおよびゼロショットのアプローチよりも大幅に優れるが、長距離物理学の部分的な損失を示す。
論文参考訳（メタデータ） (2025-08-27T13:24:41Z)
The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology [4.280045926995889]
本研究では,大規模言語モデルの内部表現空間に対して,逆入力が体系的にどう影響するかに着目した。アクティベーションの形状と神経情報の流れを定量化することにより、アーキテクチャに依存しない枠組みは、表現的変化の基本的な不変性を明らかにする。
論文参考訳（メタデータ） (2025-05-26T18:31:49Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs [0.0]
本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-03T09:14:24Z)
Cognitive Activation and Chaotic Dynamics in Large Language Models: A Quasi-Lyapunov Analysis of Reasoning Mechanisms [6.375329734462518]
本稿では,大規模言語モデルの推論機構の本質を明らかにする「認知活性化理論」を提案する。実験により、モデルの情報の蓄積は非線形指数法則に従っており、Multilayer Perceptron (MLP) は最終的な出力においてより高い割合を占めることが示された。本研究は, LLMの推論の解釈可能性に関するカオス理論の枠組みを提供し, モデル設計における創造性と信頼性のバランスをとるための潜在的経路を明らかにする。
論文参考訳（メタデータ） (2025-03-15T08:15:10Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Causal Intersectionality and Dual Form of Gradient Descent for Multimodal Analysis: a Case Study on Hateful Memes [0.9120312014267044]
モデル機構が証拠に基づく意思決定に因果的影響を明らかにする方法について検討する。この研究は、因果性とXAIに関する対話をさらに進める。
論文参考訳（メタデータ） (2023-08-19T13:14:15Z)
Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文参考訳（メタデータ） (2023-04-08T07:55:36Z)
Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文参考訳（メタデータ） (2022-10-13T10:00:30Z)
A comprehensive comparative evaluation and analysis of Distributional Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文参考訳（メタデータ） (2021-05-20T15:18:06Z)
The Role of Isomorphism Classes in Multi-Relational Datasets [6.419762264544509]
アイソモーフィックリークは,マルチリレーショナル推論の性能を過大評価することを示す。モデル評価のためのアイソモーフィック・アウェア・シンセサイティング・ベンチマークを提案する。また、同型類は単純な優先順位付けスキームによって利用することができることを示した。
論文参考訳（メタデータ） (2020-09-30T12:15:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。