論文の概要: Interaction Locality in Hierarchical Recursive Reasoning
- arxiv url: http://arxiv.org/abs/2605.20784v1
- Date: Wed, 20 May 2026 06:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.525041
- Title: Interaction Locality in Hierarchical Recursive Reasoning
- Title(参考訳): 階層的再帰推論における相互作用の局所性
- Authors: Yosuke Miyanishi, Tetsuro Morimura,
- Abstract要約: 空間推論は位置境界計算と位置不変構造の両方を必要とする。
本稿では,情報フローがセル内やセマンティックセグメント内に留まっているか,あるいはそれらを横断するかどうかを測定するためのフレームワークである相互作用局所性を提案する。
このフレームワークはスパースオートエンコーダの機能改善と有限ノイズアクティベーションパッチによってインスタンス化され、構造的ヤコビアンとアテンションチェックが付録に報告されている。
- 参考スコア(独自算出の注目度): 6.961253535504979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning requires both location-bound computation and location-invariant structure: agents must make local moves while preserving route, object, or constraint-level plans. We propose interaction locality, a task-geometry-aware framework for measuring whether information flow stays within nearby cells or semantic segments, or crosses them. We instantiate the framework with sparse-autoencoder feature ablations and finite-noise activation patching, with structural Jacobian and attention checks reported in the appendix, and apply it to HRM and TRM, two compact hierarchical and recursive reasoning models, on Maze-Hard, Sudoku Extreme, and ARC-AGI. Across these models, activation patching gives the clearest architectural fingerprint: high-level recurrent states tend to write information within nearby cells or same-segment units, while repeated recursive updates accumulate these local writes into broader solution structure. This pattern holds across maze paths, Sudoku constraints, and ARC-AGI object neighborhoods, with the strongest concentration in TRM. To test whether interaction locality extends beyond toy-yet-challenging grid benchmarks, we also apply it to MTU3D, a large-scale embodied 3D scene-grounding model. In this MTU3D setting, causal spatial locality appears primarily at the transition where visual scene features are handed to the downstream grounding module, rather than uniformly throughout the visual encoder. This contrast suggests that the local-to-global handoff observed in HRM and TRM is tied to explicit recursive reasoning dynamics, while embodied 3D models may concentrate causal spatial structure at module boundaries. Interaction locality turns the intuitive local-execution/global-planning story into a reproducible measurement framework for recursive and embodied spatial reasoning.
- Abstract(参考訳): 空間的推論は位置境界計算と位置不変構造の両方を必要とする:エージェントは経路、オブジェクト、制約レベルの計画を維持しながら局所的な移動をしなければならない。
本稿では,情報フローがセル内やセマンティックセグメント内に留まっているか,あるいはそれらを横断するかを計測するタスク・ジオメトリ・アウェア・フレームワークであるインタラクション・ローカリティを提案する。
本フレームワークは,スパルスオートエンコーダの機能改善と有限ノイズアクティベーションパッチ,それに付録で報告された構造的ジャコビアンと注意チェックを併用し,Maze-Hard,Sudoku Extreme,ARC-AGIの2つのコンパクトな階層的・再帰的推論モデルであるHRMとTRMに適用する。
これらのモデル全体で、アクティベーションパッチは最も明確なアーキテクチャ上の指紋を与える: 高レベルのリカレントステートは、近くのセルや同じセグメンテーションユニット内で情報を書き込む傾向があり、繰り返し再帰的な更新は、これらのローカル書き込みをより広範なソリューション構造に蓄積する。
このパターンは, 迷路経路, スドク制約, ARC-AGIオブジェクト近傍に存在し, TRMの濃度が最も高い。
また,対話の局所性がトイ・イット・チャレージング・グリッド・ベンチマークを超えて拡張されるかどうかを調べるため,大規模な3次元シーングラウンドモデルであるMTU3Dにも適用する。
このMTU3D設定において、因果的空間的局所性は主に、視覚的エンコーダ全体を通して一様ではなく、下流の接地モジュールに視覚的特徴が渡される遷移に現れる。
この対比は, HRM と TRM で観測される局所的-局所的ハンドオフが, モジュール境界における因果空間構造に集中する一方で, 明示的な再帰的推論ダイナミクスと結びついていることを示唆している。
相互作用の局所性は、直感的な局所実行/言語計画のストーリーを、再帰的および具体的空間推論のための再現可能な測定フレームワークに変える。
関連論文リスト
- Pair2Scene: Learning Local Object Relations for Procedural Scene Generation [10.247549170637418]
Pair2Sceneは、学習したローカルルールとシーン階層と物理ベースのアルゴリズムを統合する新しい手続き生成フレームワークである。
私たちのフレームワークは、トレーニングデータを超えた複雑な環境を生成する上で、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2026-04-13T17:59:55Z) - Multi-session Localization and Mapping Exploiting Topological Information [1.3316173544577008]
地図に基づくローカライゼーションに基づく新しいマルチセッションフレームワークを提案する。
提案手法にはトポロジインフォームドな不確実性を考慮した意思決定機構が組み込まれている。
提案手法は,データセットから重なり合う配列について検証し,実世界の鉱山のような環境での有効性を実証する。
論文 参考訳(メタデータ) (2026-02-19T10:17:46Z) - Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。