論文の概要: Words That Make Language Models Perceive
- arxiv url: http://arxiv.org/abs/2510.02425v1
- Date: Thu, 02 Oct 2025 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.10723
- Title: Words That Make Language Models Perceive
- Title(参考訳): 言語モデルを知覚する単語
- Authors: Sophie L. Wang, Phillip Isola, Brian Cheung,
- Abstract要約: 大規模言語モデル(LLM)は、純粋にテキストに基づいて訓練され、直接知覚的な経験が欠けているが、その内部表現は、言語で符号化されたマルチモーダル正規性によって暗黙的に形作られる。
我々は、明示的な感覚刺激がこの潜伏構造を表面化し、テキストのみのLLMを専門的な視覚やオーディオエンコーダと密接な表現的アライメントをもたらすという仮説を検証した。
- 参考スコア(独自算出の注目度): 28.549408477623206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained purely on text ostensibly lack any direct perceptual experience, yet their internal representations are implicitly shaped by multimodal regularities encoded in language. We test the hypothesis that explicit sensory prompting can surface this latent structure, bringing a text-only LLM into closer representational alignment with specialist vision and audio encoders. When a sensory prompt tells the model to 'see' or 'hear', it cues the model to resolve its next-token predictions as if they were conditioned on latent visual or auditory evidence that is never actually supplied. Our findings reveal that lightweight prompt engineering can reliably activate modality-appropriate representations in purely text-trained LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、純粋にテキストに基づいて訓練され、直接知覚的な経験が欠けているが、その内部表現は、言語で符号化されたマルチモーダル正規性によって暗黙的に形作られる。
我々は、明示的な感覚刺激がこの潜伏構造を表面化し、テキストのみのLLMを専門的な視覚やオーディオエンコーダと密接な表現的アライメントをもたらすという仮説を検証した。
感覚がモデルに「見る」または「聞く」ように指示すると、実際には供給されない潜伏した視覚的または聴覚的証拠に条件づけられているかのように、次の注意すべき予測を解決するようモデルに指示する。
本研究により,軽量なプロンプトエンジニアリングにより,テキスト学習によるLLMのモダリティ適合表現を確実に活性化できることが明らかになった。
関連論文リスト
- TiCLS : Tightly Coupled Language Text Spotter [4.1628458422583785]
シーンテキストスポッティングは、インスタンスがしばしば短く、断片化され、視覚的に曖昧である実世界の画像中のテキストを検出し、認識することを目的としている。
文字レベルの事前学習言語モデルから外部言語知識を明示的に取り入れた,エンドツーエンドテキストスポッターTiを提案する。
Tiは、視覚的特徴と言語的特徴を融合させる言語デコーダを導入しているが、事前訓練された言語モデルによって誘導され、曖昧なテキストや断片化されたテキストの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2026-02-03T21:38:05Z) - LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs [40.11215282864732]
自然言語による記述に潜在表現をマッピングするための新しいアプローチであるLatentLensを紹介する。
本手法を10種類の視覚言語モデル(VLM)で評価する。
本研究では,LatentLensが生成した記述が意味論的に意味を持ち,人間に対してより微細な解釈を提供することを示す。
論文 参考訳(メタデータ) (2026-01-31T02:33:07Z) - Grounding or Guessing? Visual Signals for Detecting Hallucinations in Sign Language Translation [13.03365340564181]
幻覚は視覚言語モデルの重大な欠陥であり、手話翻訳において特に重要である。
本稿では,デコーダの視覚情報利用量を定量化するトークンレベルの信頼性尺度を提案する。
以上の結果から、信頼性は幻覚率を予測し、データセットやアーキテクチャをまたいで一般化し、視覚的劣化の下で低下することが示された。
論文 参考訳(メタデータ) (2025-10-21T09:13:46Z) - Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection [58.82268659497348]
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
論文 参考訳(メタデータ) (2025-09-29T20:59:19Z) - Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens [43.43888632864549]
LVLM(Large Vision-Language Models)は、視覚とテキストの入力を共同で解釈することで、文脈的に関連する応答を生成する。
我々は,LVLMが画像中にテキスト概念が存在するかどうかを判断する内部能力を持っているかどうかを調査する。
入力トークンが視覚的に接地されているかどうかを系統的に分類する検出モジュールを開発する。
論文 参考訳(メタデータ) (2025-09-03T05:17:25Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。