Fugu-MT 論文翻訳(概要): What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline

論文の概要: What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline

arxiv url: http://arxiv.org/abs/2603.16651v1
Date: Tue, 17 Mar 2026 15:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.367185
Title: What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline
Title（参考訳）: もしPinocchioが強化学習エージェントになったとしたら------------------------------------------------------------------------
Authors: Benoît Alcaraz,
Abstract要約: この論文では、標準に準拠したコンテキスト対応エージェントを開発する際の問題に対処するパイプラインを提案する。この研究は、強化学習エージェントが議論に基づく規範的アドバイザーによって監督されるハイブリッドモデルを紹介している。このパイプラインを運用するために、この論文は、アドバイザーの判断を下す引数と関係を自動的に抽出する新しいアルゴリズムも提示する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the past decade, artificial intelligence (AI) has developed quickly. With this rapid progression came the need for systems capable of complying with the rules and norms of our society so that they can be successfully and safely integrated into our daily lives. Inspired by the story of Pinocchio in ``Le avventure di Pinocchio - Storia di un burattino'', this thesis proposes a pipeline that addresses the problem of developing norm compliant and context-aware agents. Building on the AJAR, Jiminy, and NGRL architectures, the work introduces \pino, a hybrid model in which reinforcement learning agents are supervised by argumentation-based normative advisors. In order to make this pipeline operational, this thesis also presents a novel algorithm for automatically extracting the arguments and relationships that underlie the advisors' decisions. Finally, this thesis investigates the phenomenon of \textit{norm avoidance}, providing a definition and a mitigation strategy within the context of reinforcement learning agents. Each component of the pipeline is empirically evaluated. The thesis concludes with a discussion of related work, current limitations, and directions for future research.
Abstract（参考訳）: 過去10年間、人工知能(AI)は急速に発展してきた。この急激な進展により、社会の規則や規範に順応できるシステムの必要性が生まれ、社会の生活に成功し、安全に組み込めるようになった。 The story of Pinocchio in 'Le avventure di Pinocchio - Storia di un burattino', thisthesis propose to address the problem of the norm compliant and context-aware agent。 AJAR、Jiminy、NGRLアーキテクチャに基づいて構築されたこの研究は、強化学習エージェントが議論ベースの規範的アドバイザーによって監督されるハイブリッドモデルである \pinoを導入している。このパイプラインを運用するために、この論文は、アドバイザーの判断を下す引数と関係を自動的に抽出する新しいアルゴリズムも提示する。最後に、この論文は、強化学習エージェントの文脈における定義と緩和戦略を提供する「textit{norm avoidance}」の現象を考察する。パイプラインの各コンポーネントは、経験的に評価されます。論文は、関連する研究、現在の限界、将来の研究の方向性に関する議論で締めくくられる。

関連論文リスト

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists? [4.181639770490221]
本稿では,バイブ符号化に並列したAI時代のバイブ研究の概念を紹介する(Karpathy, 2025)。コーディフィビリティと暗黙の知識要求という2つの側面に沿って研究活動を分類する認知タスクフレームワークを開発する。 AIエージェントは、スピード、カバレッジ、方法論的な足場において優れているが、理論的な独創性と暗黙のフィールド知識に苦慮している、と私は主張する。
論文参考訳（メタデータ） (2026-02-25T20:52:14Z)
AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research [85.51475655916026]
AgentCPM-Reportは軽量だが高性能なローカルソリューションで、人間の記述プロセスを反映したフレームワークで構成されている。我々のフレームワークは、モデルがアウトラインを動的に修正できるWARP(Writeing As Reasoning Policy)を使用している。 DeepResearch Bench、DeepConsult、DeepResearch Gymの実験は、AgentCPM-Reportが主要なクローズドソースシステムより優れていることを示した。
論文参考訳（メタデータ） (2026-02-06T09:45:04Z)
OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions [66.84396313837765]
我々はOdysseyArenaを紹介した。OdysseyArenaは、長期的、活動的、誘導的相互作用におけるエージェント評価を再中心化する。エージェントの誘導効率と長期発見を測る120のタスクセットを提供する。また,OdysseyArena-Challengeを極端相互作用地平線上での応力-試験剤の安定性について紹介する。
論文参考訳（メタデータ） (2026-02-05T16:31:43Z)
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文参考訳（メタデータ） (2026-01-21T15:22:21Z)
Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning [41.461840578204956]
大言語モデル(LLM)ベースのエージェントは、破滅的な忘れをせずに新しいタスクを学習する。 Agent-Diceは指向性コンセンサス評価に基づくパラメータ融合フレームワークである。 GUIエージェントとツール使用エージェントドメインの実験は、Agent-Diceが優れた連続学習性能を示すことを示した。
論文参考訳（メタデータ） (2026-01-07T06:43:50Z)
Living the Novel: A System for Generating Self-Training Timeline-Aware Conversational Agents from Novels [50.43968216132018]
文芸作品が没入的で多文字の会話体験に変換されるエンド・ツー・エンドシステムを提案する。このシステムはLLM駆動文字の2つの基本的な課題を解決するために設計されている。
論文参考訳（メタデータ） (2025-12-08T11:57:46Z)
Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.209787026732972]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。この調査はエージェントAI構築におけるパラダイムシフトをトレースする。それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文参考訳（メタデータ） (2025-10-19T05:23:43Z)
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文参考訳（メタデータ） (2025-09-16T17:57:21Z)
CausalCity: Complex Simulations with Agency for Causal Discovery and Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文参考訳（メタデータ） (2021-06-25T00:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。