論文の概要: Affordance Representation and Recognition for Autonomous Agents
- arxiv url: http://arxiv.org/abs/2510.24459v1
- Date: Tue, 28 Oct 2025 14:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.227806
- Title: Affordance Representation and Recognition for Autonomous Agents
- Title(参考訳): 自律エージェントのアフォーマンス表現と認識
- Authors: Habtom Kahsay Gidey, Niklas Huber, Alexander Lenz, Alois Knoll,
- Abstract要約: 本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。
DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。
Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
- 参考スコア(独自算出の注目度): 64.39018305018904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The autonomy of software agents is fundamentally dependent on their ability to construct an actionable internal world model from the structured data that defines their digital environment, such as the Document Object Model (DOM) of web pages and the semantic descriptions of web services. However, constructing this world model from raw structured data presents two critical challenges: the verbosity of raw HTML makes it computationally intractable for direct use by foundation models, while the static nature of hardcoded API integrations prevents agents from adapting to evolving services. This paper introduces a pattern language for world modeling from structured data, presenting two complementary architectural patterns. The DOM Transduction Pattern addresses the challenge of web page complexity by distilling} a verbose, raw DOM into a compact, task-relevant representation or world model optimized for an agent's reasoning core. Concurrently, the Hypermedia Affordances Recognition Pattern enables the agent to dynamically enrich its world model by parsing standardized semantic descriptions to discover and integrate the capabilities of unknown web services at runtime. Together, these patterns provide a robust framework for engineering agents that can efficiently construct and maintain an accurate world model, enabling scalable, adaptive, and interoperable automation across the web and its extended resources.
- Abstract(参考訳): ソフトウェアエージェントの自律性は、Webページのドキュメントオブジェクトモデル(DOM)やWebサービスのセマンティック記述など、彼らのデジタル環境を定義する構造化データから実行可能な内部世界モデルを構築する能力に基本的に依存しています。
しかし、生の構造化データからこの世界モデルを構築することには、2つの重要な課題がある: 生のHTMLの冗長性は、基礎モデルによって直接的に使用するために計算的に魅力を与え、一方、ハードコードされたAPI統合の静的な性質は、エージェントが進化するサービスに適応することを妨げている。
本稿では、構造化データから世界モデリングのためのパターン言語を導入し、2つの補完的なアーキテクチャパターンを提示する。
DOMトランスダクションパターンは、冗長な生のDOMを、エージェントの推論コアに最適化されたコンパクトなタスク関連表現または世界モデルに蒸留することで、Webページの複雑さの課題に対処する。
同時にHypermedia Affordances Recognition Patternは、標準化されたセマンティック記述を解析することで、エージェントが実行時に未知のWebサービスの機能を発見し統合することによって、その世界モデルを動的に強化することを可能にする。
これらのパターンを合わせると、エンジニアリングエージェントが正確な世界モデルを効率的に構築し、維持し、Webとその拡張リソース間でスケーラブルで適応的で相互運用可能な自動化を可能にする、堅牢なフレームワークを提供する。
関連論文リスト
- World Model Implanting for Test-time Adaptation of Embodied Agents [29.514831254621438]
具体的AIにおいて、永続的な課題は、エージェントが広範なデータ収集や再トレーニングを必要とせずに、新しいドメインへの堅牢な適応を可能にすることである。
本稿では、大規模言語モデルの推論能力と、独立に学習されたドメイン固有世界モデルを組み合わせた世界モデル埋め込みフレームワーク(WorMI)を提案する。
我々は、VirtualHomeとALFWorldのベンチマークでWorMIを評価し、いくつかのLSMベースのアプローチと比較して、ゼロショットと少数ショットのパフォーマンスが優れていることを示した。
論文 参考訳(メタデータ) (2025-09-04T07:32:16Z) - AI-assisted JSON Schema Creation and Mapping [0.0]
本稿では,大規模言語モデル(LLM)と決定論的手法を組み合わせて,ユーザによる自然言語入力に基づく生成,修正,スキーママッピングを実現するハイブリッドアプローチを提案する。
この作業は、非専門家のための構造化データモデリングとデータ統合に対する障壁を著しく減らします。
論文 参考訳(メタデータ) (2025-08-07T09:27:10Z) - WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization [68.46693401421923]
WebShaperは集合論を通してISタスクを体系的に定式化する。
WebShaperは、GAIAおよびWebWalkerQAベンチマーク上で、オープンソースISエージェントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-20T17:53:37Z) - WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis [34.998277998052444]
本稿では,軌道合成と学習のための新しいフレームワークであるWebSynthesisを提案する。
本稿では,WebSynthesis を用いて訓練したエージェントが,大規模実世界のデータに対してトレーニングしたモデルに匹敵する,あるいはそれ以上の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-07-06T12:31:10Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。