Fugu-MT 論文翻訳(概要): Beyond the Linear Separability Ceiling

論文の概要: Beyond the Linear Separability Ceiling

arxiv url: http://arxiv.org/abs/2507.07574v1
Date: Thu, 10 Jul 2025 09:23:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.337132
Title: Beyond the Linear Separability Ceiling
Title（参考訳）: 線形分離性シーリングを超えて
Authors: Enrico Vompa, Tanel Tammet, Mohit Vaishnav,
Abstract要約: 最先端のVisual-Language Models (VLM) は、抽象的推論タスクへの視覚埋め込みの線形分離によって制限されているように見える。本研究は,Linar Separability Ceiling (LSC)を導入して,この「線形推論ボトルネック」について検討する。このボトルネックは広く、認識力の低さからではなく、言語モデルの推論経路の失敗から来ています。
参考スコア（独自算出の注目度）: 2.867517731896504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.
Abstract（参考訳）: 多くの最先端のVisual-Language Models (VLM) は、抽象的推論タスクへの視覚埋め込みの線形分離によって制限されているように見える。本研究では, 線形分離性シーリング(LSC, Linear Separability Ceiling)を導入し, この「線形推論ボトルネック」をVLMの視覚的埋め込み上での単純な線形分類器の性能について検討する。このボトルネックは広く、認識力の低さからではなく、言語モデルの推論経路の失敗から来ています。これは解決可能なアライメントの問題です。しかし、必要な介入はタスク依存であり、既存の経路を活性化することは意味論的概念に十分であり、複雑な関係推論はコアモデルの重みに適応する必要がある。固定後調律を方法論的制御として用いて,VLM内での強力な休息的推論経路の強い証拠を見出した。しかし、より深い適応を必要とする複雑なリレーショナルタスクでは、表現品質が明示的に向上すると、埋め込みが十分に分離されているにもかかわらず、モデルは新しいプロンプトフォーマットで失敗する。最終的に、この研究はVLM分析のための新しいレンズを提供し、ロバスト推論は単に表現学習を改善するのではなく、目的のアライメントの問題であることを示した。

関連論文リスト

Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。 eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文参考訳（メタデータ） (2025-06-16T17:38:36Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [66.84770041828462]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。 AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。 PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文参考訳（メタデータ） (2025-06-03T07:24:00Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-09T02:51:22Z)
Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文参考訳（メタデータ） (2024-11-04T15:54:32Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文参考訳（メタデータ） (2024-02-20T08:41:23Z)
GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-18T03:12:59Z)
Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文参考訳（メタデータ） (2023-04-04T12:42:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。