論文の概要: When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks
- arxiv url: http://arxiv.org/abs/2604.27272v1
- Date: Wed, 29 Apr 2026 23:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.844045
- Title: When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks
- Title(参考訳): 2次元タスクが1次元シリアライズと出会う時--構造化タスクのシリアライズ摩擦について
- Authors: Chung-Hsiang Lo, Lu Li, Diji Yang, Tianyu Zhang, Yunkai Zhang, Yoshua Bengio, Yi Zhang,
- Abstract要約: 大規模言語モデルは構造化された入力を1Dトークンシーケンスとして処理する。
ロウカラムアライメントと局所地区は、入力で直接表現されなくなった。
我々は、シリアライズされた入力に対してテキストのみの言語経路と、視覚増強された経路を比較した。
- 参考スコア(独自算出の注目度): 49.84804136268971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) conventionally process structured inputs as 1D token sequences. While natural for prose, such linearization may introduce additional representational burden for tasks whose computation depends directly on explicit 2D structure, because row--column alignment and local neighborhoods are no longer directly expressed in the input. We study this setting, which we refer to as serialization friction, on a small diagnostic testbed of synthetic tasks with explicit 2D structure: matrix transpose, Conway's Game of Life, and LU decomposition. To examine this question, we compare a text-only language pathway over serialized inputs with a vision-augmented pathway, built on the same language backbone, that receives the same underlying content rendered in task-faithful 2D layout, yielding a system-level comparison between two end-to-end input pathways. Across the tasks and settings we study, the visual pathway consistently outperforms the textual pathway; the gap often widens at larger dimensions, and error patterns under serialization become increasingly spatially structured. These findings indicate that the relationship between input representation and model performance on such tasks warrants further investigation, and suggest that preserving task-relevant 2D layout is a promising direction for structured 2D tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、1Dトークンシーケンスとして構造化された入力を処理する。
このような線形化は、散文には自然であるが、行列アライメントや局所近傍が入力に直接表現されないため、計算が明示的な2次元構造に直接依存するタスクに対して、さらなる表現負担をもたらす可能性がある。
本研究では, 行列変換, コンウェイのゲーム・オブ・ライフ, LU分解といった2次元構造を持つ合成タスクの小さな診断テストベッド上で, 直列化摩擦(直列化摩擦)と呼ぶこの設定について検討する。
そこで本研究では, テキストのみの言語経路と, 同じ言語バックボーン上に構築された視覚拡張経路を比較し, タスク忠実な2次元レイアウトで描画された同じ基礎的コンテンツを受信し, 2つのエンドツーエンドの入力経路間のシステムレベルの比較を行う。
タスクや設定全体にわたって、視覚経路は一貫してテキストパスよりも優れており、ギャップはより大きな次元で拡大することが多く、シリアライゼーションの下でのエラーパターンはますます空間的に構造化される。
これらの結果から,これらのタスクにおける入力表現とモデル性能の関係がさらなる調査を保証し,タスク関連2次元レイアウトを保存することが,構造化された2次元タスクにとって有望な方向であることが示唆された。
関連論文リスト
- How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI [7.226300346775942]
ARC-AGIとARC-AGI-2は、小さな色量子格子上の一般化スルー合成を測定する。
最近の命令ファーストシステムは、グリッドを生成-実行-選択ループで実行される簡潔な自然言語またはDSLルールに変換する。
論文 参考訳(メタデータ) (2025-11-11T19:06:41Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior [23.536285325566013]
自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。
既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。
Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
論文 参考訳(メタデータ) (2024-07-10T12:13:39Z) - Explicitly Representing Syntax Improves Sentence-to-layout Prediction of Unexpected Situations [21.636786771793364]
文の構文を暗黙的にあるいは明示的にエンコードする言語表現から2次元空間レイアウトを予測することができることを示す。
本稿では,入力文の構文的構造をよりよく強制する構造的損失関数を提案する。
この損失は、木のような構造が条件付けのモダリティの下にある他の世代タスクで使われる可能性がある。
論文 参考訳(メタデータ) (2024-01-25T14:53:30Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。