論文の概要: Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning
- arxiv url: http://arxiv.org/abs/2509.17552v2
- Date: Wed, 24 Sep 2025 05:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.836875
- Title: Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning
- Title(参考訳): トレーニングフリーマンにおけるLLMは非テキストモダリティに反するのか? : インテクスト表現学習を事例として
- Authors: Tianle Zhang, Wanlong Fang, Jonathan Woo, Paridhi Latawa, Deepak A. Subramanian, Alvin Chan,
- Abstract要約: そこで本研究では,LLMの非テキストモダリティ表現を適応的に活用するための概念実証として,ICRL(In-Context Representation Learning)を提案する。
従来のテキスト内学習とは異なり、ICRLはテキスト入力をFM表現に置き換え、LLMは微調整なしでマルチモーダル推論を行うことができる。
- 参考スコア(独自算出の注目度): 10.887230359930697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable performance of Large Language Models (LLMs) can be enhanced with test-time computation, which relies on external tools and even other deep learning models. However, existing approaches for integrating non-text modality representations into LLMs typically require additional costly supervised training, restricting on-the-fly adaptation to new domains and modalities. In this work, we explore the feasibility of integrating representations from non-text foundational models (FMs) into text-based LLMs in a training-free manner. We propose In-Context Representation Learning (ICRL) as a proof-of-concept to allow LLMs to adaptively utilize non-text modality representations with few-shot learning. Unlike traditional in-context learning, which incorporates text-label pairs, ICRL replaces text inputs with FM representations, enabling the LLM to perform multi-modal inference without fine-tuning. We evaluate ICRL on a suite of tasks in the molecular domain, investigating three core research questions: (i) how to map FM representations into LLMs in a training-free manner, (ii) what factors influence ICRL performance, and (iii) what mechanisms underlie the effectiveness of ICRL. To the best of our knowledge, ICRL is the first training-free framework for integrating non-text modality representations into text-based LLMs, presenting a promising direction for adaptable, multi-modal generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著なパフォーマンスは、外部ツールやその他のディープラーニングモデルに依存するテスト時間計算によって向上することができる。
しかしながら、LLMに非テキストモダリティ表現を統合する既存のアプローチは、通常、新しいドメインやモダリティへのオンザフライ適応を制限する、コストのかかる教師付きトレーニングを必要とする。
本研究では,非テキスト基礎モデル (FM) からテキストベース LLM への表現の学習自由な統合の実現可能性について検討する。
そこで本研究では,LLMの非テキストモダリティ表現を適応的に活用するための概念実証として,ICRL(In-Context Representation Learning)を提案する。
テキストラベルのペアを組み込んだ従来のテキスト内学習とは異なり、ICRLはテキスト入力をFM表現に置き換え、LLMは微調整なしでマルチモーダル推論を行うことができる。
ICRLを分子領域の一連のタスクで評価し、3つの中核的な研究課題を考察する。
一 FM表現をLLMに無訓練でマッピングする方法
(II)ICRL性能に影響を与える要因、及び
3) ICRLの有効性を裏付けるメカニズムは何か。
我々の知る限り、ICRLはテキストベースのLLMに非テキストモダリティ表現を統合するための最初のトレーニングフリーフレームワークであり、適応的でマルチモーダルな一般化のための有望な方向を示す。
関連論文リスト
- Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [33.822930522694406]
我々は,次世代大規模言語モデル(LLM)に不可欠なアプローチとして,有望な学習パラダイム,すなわちモジュール機械学習(MML)を概説する。
我々は,LLMの複雑な構造を,モジュール表現,モジュールモデル,モジュール推論の3つの相互依存成分に分解する,LLMのための統一MMLフレームワークを提案する。
最終的に、MLとLLMの統合は、統計的(深層)学習と形式的(論理的)推論のギャップを埋める可能性があると信じています。
論文 参考訳(メタデータ) (2025-04-28T17:42:02Z) - When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.263184207651072]
この調査は、大きな言語モデル(LLM)とテキスト埋め込みの相互作用に焦点を当てている。
様々な研究および応用分野からの貢献の、新しく体系的な概要を提供する。
この分析に基づいて,テキスト埋め込みの進化に向けた今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-12-12T10:50:26Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。