論文の概要: Words That Make Language Models Perceive
- arxiv url: http://arxiv.org/abs/2510.02425v1
- Date: Thu, 02 Oct 2025 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.10723
- Title: Words That Make Language Models Perceive
- Title(参考訳): 言語モデルを知覚する単語
- Authors: Sophie L. Wang, Phillip Isola, Brian Cheung,
- Abstract要約: 大規模言語モデル(LLM)は、純粋にテキストに基づいて訓練され、直接知覚的な経験が欠けているが、その内部表現は、言語で符号化されたマルチモーダル正規性によって暗黙的に形作られる。
我々は、明示的な感覚刺激がこの潜伏構造を表面化し、テキストのみのLLMを専門的な視覚やオーディオエンコーダと密接な表現的アライメントをもたらすという仮説を検証した。
- 参考スコア(独自算出の注目度): 28.549408477623206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained purely on text ostensibly lack any direct perceptual experience, yet their internal representations are implicitly shaped by multimodal regularities encoded in language. We test the hypothesis that explicit sensory prompting can surface this latent structure, bringing a text-only LLM into closer representational alignment with specialist vision and audio encoders. When a sensory prompt tells the model to 'see' or 'hear', it cues the model to resolve its next-token predictions as if they were conditioned on latent visual or auditory evidence that is never actually supplied. Our findings reveal that lightweight prompt engineering can reliably activate modality-appropriate representations in purely text-trained LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、純粋にテキストに基づいて訓練され、直接知覚的な経験が欠けているが、その内部表現は、言語で符号化されたマルチモーダル正規性によって暗黙的に形作られる。
我々は、明示的な感覚刺激がこの潜伏構造を表面化し、テキストのみのLLMを専門的な視覚やオーディオエンコーダと密接な表現的アライメントをもたらすという仮説を検証した。
感覚がモデルに「見る」または「聞く」ように指示すると、実際には供給されない潜伏した視覚的または聴覚的証拠に条件づけられているかのように、次の注意すべき予測を解決するようモデルに指示する。
本研究により,軽量なプロンプトエンジニアリングにより,テキスト学習によるLLMのモダリティ適合表現を確実に活性化できることが明らかになった。
関連論文リスト
- Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens [43.43888632864549]
LVLM(Large Vision-Language Models)は、視覚とテキストの入力を共同で解釈することで、文脈的に関連する応答を生成する。
我々は,LVLMが画像中にテキスト概念が存在するかどうかを判断する内部能力を持っているかどうかを調査する。
入力トークンが視覚的に接地されているかどうかを系統的に分類する検出モジュールを開発する。
論文 参考訳(メタデータ) (2025-09-03T05:17:25Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。