論文の概要: State Design Matters: How Representations Shape Dynamic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.15858v1
- Date: Sun, 25 Jan 2026 17:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.65891
- Title: State Design Matters: How Representations Shape Dynamic Reasoning in Large Language Models
- Title(参考訳): 状態設計の課題:大規模言語モデルにおける表現の動的推論の形状
- Authors: Annie Wong, Aske Plaat, Thomas Bäck, Niki van Stein, Anna V. Kononova,
- Abstract要約: 状態を表すための設計選択は、情報そのものの可用性とは別として、パフォーマンスにおいて決定的な要素であることを示す。
しかし,従来のLLMとVLMは長い地平線上でも不安定であり続けている。
- 参考スコア(独自算出の注目度): 2.869209069091683
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) move from static reasoning tasks toward dynamic environments, their success depends on the ability to navigate and respond to an environment that changes as they interact at inference time. An underexplored factor in these settings is the representation of the state. Holding model parameters fixed, we systematically vary three key aspects: (1) state granularity (long form versus summary), (2) structure (natural language versus symbolic), and (3) spatial grounding (text-only versus images or textual map encodings) across sequential decision-making benchmarks. We find that trajectory summarisation improves performance by reducing noise and stabilising long-horizon reasoning. Second, natural language representations are the most robust across models, whereas structured encodings help mainly for models with strong code or structured output priors, such as JSON schemas. Third, while image-inputs show some benefit, text-based spatial encodings prove most effective. This advantage stems not from the spatial information itself, but from the act of construction, which compels the model to perform the spatial reasoning that static input does not elicit. Overall, we demonstrate that design choices for representing state are a decisive factor in performance, distinct from the availability of information itself. We note, however, that even with improved representations, current LLMs and VLMs remain brittle over long horizons, particularly when they must synthesise information to manage multiple subtasks to reach a goal.
- Abstract(参考訳): 大規模言語モデル(LLM)が静的推論タスクから動的環境へ移行するにつれて、その成功は推論時に相互作用する環境をナビゲートし、応答する能力に依存する。
これらの設定における探索されていない要素は状態の表現である。
モデルパラメータの固定は,(1)状態の粒度(長文と要約),(2)構造(自然言語と記号),(3)空間的接地(画像とテキストマップエンコーディング)の3つの重要な側面を系統的に変化させる。
トラジェクトリの要約は雑音を低減し、長距離推論を安定化することで性能を向上させる。
第二に、自然言語表現はモデル間で最も堅牢であるのに対して、構造化符号化は、主に強いコードやJSONスキーマのような構造化された出力先を持つモデルに役立つ。
第三に、画像入力はいくつかの利点を示すが、テキストベースの空間符号化は最も効果的である。
この利点は空間情報自体からではなく、静的入力が引き起こさないという空間的推論を実行するためにモデルを補完する構築の行為に由来する。
全体として、状態を表現するための設計選択は、情報そのものの可用性とは別として、パフォーマンスにおいて決定的な要素であることを示す。
しかし,現在のLLMやVLMは,表現が改良されても,長い水平線上でも不安定であり,特に複数のサブタスクを管理するために情報を合成する必要がある場合,特に注意が必要である。
関連論文リスト
- Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models [33.99822400076112]
チャンクに基づくスパースアテンションは、極端な長さの一般化のための有望なパラダイムとして現れている。
本稿では,これらのモデルを体系的に分解し,その性能を駆動するコアコンポーネントを同定する。
我々は、4KコンテキストでトレーニングされたモデルをRULERとBABILongで3200万トークンに一般化し、トレーニング不要な長さ外挿のための新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2025-10-20T06:17:57Z) - VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Coalescing Global and Local Information for Procedural Text
Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。
本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。
一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-26T19:16:32Z) - Generating Coherent Narratives by Learning Dynamic and Discrete Entity
States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。
2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T09:02:19Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Robust and Interpretable Grounding of Spatial References with Relation
Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。
近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。
我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文 参考訳(メタデータ) (2020-05-02T04:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。