Fugu-MT 論文翻訳(概要): Adversarial construction as a potential solution to the experiment design problem in large task spaces

論文の概要: Adversarial construction as a potential solution to the experiment design problem in large task spaces

arxiv url: http://arxiv.org/abs/2602.03172v1
Date: Tue, 03 Feb 2026 06:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-04 18:37:15.288844
Title: Adversarial construction as a potential solution to the experiment design problem in large task spaces
Title（参考訳）: 大規模タスク空間における実験設計問題の潜在的な解としての逆構成
Authors: Prakhar Godara, Frederick Callaway, Marcelo G. Mattar,
Abstract要約: タスク空間に埋め込まれた全てのタスクの統一モデルを開発することを目的としている。タスクの空間は大きいので、空間全体の実験的探索は不可能である。この結果から, 環境のランダムサンプリングにおいて, 対角構造が著しく優れていることが示唆された。
参考スコア（独自算出の注目度）: 0.9558392439655014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite decades of work, we still lack a robust, task-general theory of human behavior even in the simplest domains. In this paper we tackle the generality problem head-on, by aiming to develop a unified model for all tasks embedded in a task-space. In particular we consider the space of binary sequence prediction tasks where the observations are generated by the space parameterized by hidden Markov models (HMM). As the space of tasks is large, experimental exploration of the entire space is infeasible. To solve this problem we propose the adversarial construction approach, which helps identify tasks that are most likely to elicit a qualitatively novel behavior. Our results suggest that adversarial construction significantly outperforms random sampling of environments and therefore could be used as a proxy for optimal experimental design in high-dimensional task spaces.
Abstract（参考訳）: 何十年にもわたる努力にもかかわらず、私たちは最も単純な領域でさえ、人間の行動に関する堅牢で一般的な理論をいまだに欠いている。本稿では,タスク空間に埋め込まれた全てのタスクの統一モデルを開発することを目的として,汎用性問題に正面から取り組む。特に、隠れマルコフモデル(HMM)によってパラメータ化された空間によって観測が生成されるバイナリシーケンス予測タスクの空間を考える。タスクの空間は大きいので、空間全体の実験的探索は不可能である。この問題を解決するために,定性的に新規な動作を誘発する可能性が最も高いタスクを識別する逆構築手法を提案する。この結果から,高次元タスク空間における最適設計のプロキシとして,環境のランダムサンプリングを著しく上回ることが示唆された。

関連論文リスト

What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文参考訳（メタデータ） (2026-01-14T14:09:11Z)
SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文参考訳（メタデータ） (2025-01-17T09:46:27Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文参考訳（メタデータ） (2023-06-08T18:10:37Z)
Inferring Versatile Behavior from Demonstrations by Matching Geometric Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文参考訳（メタデータ） (2022-10-17T16:42:59Z)
Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文参考訳（メタデータ） (2022-06-29T00:04:40Z)
Task-Optimal Exploration in Linear Dynamical Systems [29.552894877883883]
タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
論文参考訳（メタデータ） (2021-02-10T01:42:22Z)
Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文参考訳（メタデータ） (2020-04-06T17:50:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。