論文の概要: Representation Potentials of Foundation Models for Multimodal Alignment: A Survey
- arxiv url: http://arxiv.org/abs/2510.05184v1
- Date: Sun, 05 Oct 2025 21:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.896147
- Title: Representation Potentials of Foundation Models for Multimodal Alignment: A Survey
- Title(参考訳): マルチモーダルアライメントのための基礎モデルの表現可能性:サーベイ
- Authors: Jianglin Lu, Hailing Wang, Yi Xu, Yizhou Wang, Kuo Yang, Yun Fu,
- Abstract要約: ファンデーションモデルは、多様なデータに基づいて大規模な事前学習を通じて、高度に転送可能な表現を学ぶ。
本研究では,タスク固有情報を取得するための学習表現の潜在能力として定義される基礎モデルの表現ポテンシャルについて検討する。
- 参考スコア(独自算出の注目度): 39.88306901879684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models learn highly transferable representations through large-scale pretraining on diverse data. An increasing body of research indicates that these representations exhibit a remarkable degree of similarity across architectures and modalities. In this survey, we investigate the representation potentials of foundation models, defined as the latent capacity of their learned representations to capture task-specific information within a single modality while also providing a transferable basis for alignment and unification across modalities. We begin by reviewing representative foundation models and the key metrics that make alignment measurable. We then synthesize empirical evidence of representation potentials from studies in vision, language, speech, multimodality, and neuroscience. The evidence suggests that foundation models often exhibit structural regularities and semantic consistencies in their representation spaces, positioning them as strong candidates for cross-modal transfer and alignment. We further analyze the key factors that foster representation potentials, discuss open questions, and highlight potential challenges.
- Abstract(参考訳): ファンデーションモデルは、多様なデータに基づいて大規模な事前学習を通じて、高度に転送可能な表現を学ぶ。
研究の活発化は、これらの表現がアーキテクチャやモダリティにまたがる顕著な類似性を示すことを示している。
本研究では,学習した表現の潜在能力として定義された基礎モデルの表現ポテンシャルについて検討し,単一のモダリティ内でタスク固有情報を捕捉すると同時に,モダリティ間のアライメントと統一のための伝達可能な基盤を提供する。
まずは、代表的な基盤モデルとアライメントを計測する重要な指標をレビューする。
次に、視覚、言語、スピーチ、多目的性、神経科学の研究から、表現ポテンシャルの実証的な証拠を合成する。
この証拠は、基礎モデルは、しばしばそれらの表現空間において構造的規則性と意味的相補性を示し、それらをクロスモーダル移動とアライメントの強い候補として位置づけていることを示唆している。
さらに、表現可能性を促進する重要な要因を分析し、オープンな質問を議論し、潜在的な課題を強調します。
関連論文リスト
- Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。
関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文 参考訳(メタデータ) (2025-06-11T17:23:41Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。
我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
両パラダイムの強みを活用するための,有望な道を見つける。
論文 参考訳(メタデータ) (2024-07-22T12:26:08Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。