論文の概要: OrigamiBench: An Interactive Environment to Synthesize Flat-Foldable Origamis
- arxiv url: http://arxiv.org/abs/2603.13856v2
- Date: Tue, 17 Mar 2026 17:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 15:30:47.458255
- Title: OrigamiBench: An Interactive Environment to Synthesize Flat-Foldable Origamis
- Title(参考訳): 折り紙ベンチ:平板折り紙を合成するインタラクティブ環境
- Authors: Naaisha Agarwal, Yihan Wu, Yichang Jian, Yikuan Hu, Nishad Mansoor, Mohan Li, Yifei Peng, Wang-Zhou Dai, Yao-Xiang Ding, Emanuele Sansone,
- Abstract要約: 物理的な世界で計画し、行動し、創造できるAIシステムを構築するには、パターン認識以上のものが必要です。
このようなシステムは、シーケンシャルな決定を導くために、物理的プロセスを管理する因果的メカニズムや制約を理解する必要がある。
この能力は、内部言語モデルに類似した内部表現に依存しており、観察、行動、その結果の環境変化を関連づけている。
モデルが折り畳みを反復的に提案し,対象設定と物理的妥当性および類似性に関するフィードバックを受け取る,インタラクティブなベンチマークであるOrigamiBenchを紹介する。
- 参考スコア(独自算出の注目度): 28.493060188882314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building AI systems that can plan, act, and create in the physical world requires more than pattern recognition. Such systems must understand the causal mechanisms and constraints governing physical processes in order to guide sequential decisions. This capability relies on internal representations, analogous to an internal language model, that relate observations, actions, and resulting environmental changes. However, many existing benchmarks treat visual perception and programmatic reasoning as separate problems, focusing either on visual recognition or on symbolic tasks. The domain of origami provides a natural testbed that integrates these modalities. Constructing shapes through folding operations requires visual perception, reasoning about geometric and physical constraints, and sequential planning, while remaining sufficiently structured for systematic evaluation. We introduce OrigamiBench, an interactive benchmark in which models iteratively propose folds and receive feedback on physical validity and similarity to a target configuration. Experiments with modern vision-language models show that scaling model size alone does not reliably produce causal reasoning about physical transformations. Models fail to generate coherent multi-step folding strategies, suggesting that visual and language representations remain weakly integrated.
- Abstract(参考訳): 物理的な世界で計画し、行動し、創造できるAIシステムを構築するには、パターン認識以上のものが必要です。
このようなシステムは、シーケンシャルな決定を導くために、物理的プロセスを管理する因果的メカニズムや制約を理解する必要がある。
この能力は、内部言語モデルに類似した内部表現に依存しており、観察、行動、その結果の環境変化を関連づけている。
しかし、多くの既存のベンチマークでは、視覚認識とプログラム的推論を別の問題として扱い、視覚認識と記号的タスクに焦点を当てている。
折り紙の領域はこれらのモダリティを統合する自然なテストベッドを提供する。
折り畳み操作を通じて形状を構成するには、視覚的知覚、幾何学的および物理的制約の推論、逐次計画が必要であるが、体系的な評価には十分な構造が残っている。
モデルが折り畳みを反復的に提案し,対象設定と物理的妥当性および類似性に関するフィードバックを受け取る,インタラクティブなベンチマークであるOrigamiBenchを紹介する。
現代の視覚言語モデルによる実験では、スケールモデルのサイズだけでは物理的変換に関する因果推論を確実に生み出さないことが示されている。
モデルはコヒーレントな多段階の折り畳み戦略を生成することができず、視覚的表現と言語表現が弱い統合のままであることを示唆している。
関連論文リスト
- From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale [50.33952894976367]
我々は文脈自由文法を用いて、ウェブスケールテキストコーパスのための忠実で効率的なプロキシである合成コーパスを生成する。
設計したデータ生成プロセスにおいて,誘導ヘッド,関数ベクトル,ハイドラ効果という3つの力学現象の出現について検討する。
これらの現象の出現を説明する上で,データ生成プロセスの階層構造がX因子となることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T14:49:13Z) - Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - Large Language Models as Quasi-crystals: Coherence Without Repetition in Generative Text [0.0]
エッセイは大規模言語モデル(LLM)と準結晶の類似性を提案し、局所的な制約によって生成される周期的反復を伴わないグローバルコヒーレンスを示すシステムである。
準結晶の歴史に基づいて、生成言語における代替的なコヒーレンスモード、すなわち反復や象徴的意図を伴わない制約に基づく組織を強調している。
このエッセイは、既存のメソッドを拒絶するのではなく、意味論よりも構造に根ざした解釈の新たな軸を提案することによって、大きな言語モデルに関する現在の議論を再考することを目的としている。
論文 参考訳(メタデータ) (2025-04-16T11:27:47Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - The dynamics of belief: continuously monitoring and visualising complex
systems [0.0]
人間のコンテキストにおけるAIの台頭は、自動化されたシステムに対する新たな要求を透明で説明可能なものにします。
我々は、複雑な人間の文脈でデジタルシステムを考えるための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2022-08-11T11:51:35Z) - Modelling Compositionality and Structure Dependence in Natural Language [0.12183405753834563]
言語学と集合論に基づいて、これらの概念の形式化がこの論文の前半で述べられている。
言語処理を行う認知システムは,特定の機能的制約を持つ必要がある。
単語埋め込み技術の進歩を利用して、関係学習のモデルがシミュレートされる。
論文 参考訳(メタデータ) (2020-11-22T17:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。