論文の概要: Self-evolving expertise in complex non-verifiable subject domains: dialogue as implicit meta-RL
- arxiv url: http://arxiv.org/abs/2510.15772v1
- Date: Fri, 17 Oct 2025 15:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.698873
- Title: Self-evolving expertise in complex non-verifiable subject domains: dialogue as implicit meta-RL
- Title(参考訳): 複雑な非検証対象領域における自己進化的専門知識--暗黙的メタRLとしての対話
- Authors: Richard M. Bailey,
- Abstract要約: いわゆる「邪悪な問題」は、複雑な多次元の設定、検証不可能な結果、不均一な影響、客観的に正しい答えの欠如など、歴史を通じて人類を悩ませてきた。
現状の人工知能システム(特にLarge Language Modelベースのエージェント)は、そのような問題を解決するために人間と共同で研究されている。
この研究は、Dialecticaとのギャップに対処する。これは、エージェントが定義されたトピックに関する構造化された対話に従事し、メモリによる拡張、自己回帰、ポリシーに制約のあるコンテキスト編集を行うフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: So-called `wicked problems', those involving complex multi-dimensional settings, non-verifiable outcomes, heterogeneous impacts and a lack of single objectively correct answers, have plagued humans throughout history. Modern examples include decisions over justice frameworks, solving environmental pollution, planning for pandemic resilience and food security. The use of state-of-the-art artificial intelligence systems (notably Large Language Model-based agents) collaborating with humans on solving such problems is being actively explored. While the abilities of LLMs can be improved by, for example, fine-tuning, hand-crafted system prompts and scaffolding with external tools, LLMs lack endogenous mechanisms to develop expertise through experience in such settings. This work address this gap with Dialectica, a framework where agents engage in structured dialogue on defined topics, augmented by memory, self-reflection, and policy-constrained context editing. Formally, discussion is viewed as an implicit meta-reinforcement learning process. The `dialogue-trained' agents are evaluated post-hoc using judged pairwise comparisons of elicited responses. Across two model architectures (locally run Qwen3:30b and OpenAI's o4-mini) results show that enabling reflection-based context editing during discussion produces agents which dominate their baseline counterparts on Elo scores, normalized Bradley-Terry-Davidson ability, and AlphaRank mass. The predicted signatures of learning are observed qualitatively in statement and reflection logs, where reflections identify weaknesses and reliably shape subsequent statements. Agreement between quantitative and qualitative evidence supports dialogue-driven context evolution as a practical path to targeted expertise amplification in open non-verifiable domains.
- Abstract(参考訳): いわゆる「邪悪な問題」は、複雑な多次元の設定、検証不可能な結果、不均一な影響、客観的に正しい答えの欠如など、歴史を通じて人類を悩ませてきた。
現代の例としては、司法の枠組みに関する決定、環境汚染の解決、パンデミックのレジリエンスの計画、食料安全保障などがある。
現状の人工知能システム(特にLarge Language Modelベースのエージェント)は、そのような問題を解決するために人間と共同で研究されている。
LLMの能力は、例えば、細調整、手作りのシステムプロンプト、外部ツールによる足場などによって改善できるが、そのような設定の経験を通じて専門知識を開発するための内在的なメカニズムは欠如している。
この研究は、Dialecticaとのギャップに対処する。これは、エージェントが定義されたトピックに関する構造化された対話に従事し、メモリによる拡張、自己回帰、ポリシーに制約のあるコンテキスト編集を行うフレームワークである。
形式的には、議論は暗黙のメタ強化学習プロセスと見なされる。
抽出された応答のペアワイズ比較を用いて, 「対話訓練」 エージェントをポストホックで評価する。
2つのモデルアーキテクチャ(ローカルでQwen3:30bとOpenAIのo4-mini)で、議論中のリフレクションベースのコンテキスト編集を可能にすると、Eloスコア、正規化されたBradley-Terry-Davidson機能、AlphaRankマスのベースラインを独占するエージェントが生成される。
予測された学習のシグネチャは、文とリフレクションログで質的に観察され、リフレクションは弱点を特定し、その後のステートメントを確実に形成する。
量的および質的な証拠の合意は、オープンな非検証可能な領域における専門知識の増幅に向けた実践的な経路として、対話駆動の文脈進化を支持している。
関連論文リスト
- The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。
目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。
5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-09T17:02:40Z) - Passing the Turing Test in Political Discourse: Fine-Tuning LLMs to Mimic Polarized Social Media Comments [0.0]
本研究では、微調整された大言語モデル(LLM)が、偏光言説を再現し増幅できる範囲について検討する。
Redditから抽出された政治的に課金された議論のキュレートされたデータセットを使用して、オープンソースのLCMを微調整して、コンテキスト認識とイデオロギー的に整合した応答を生成します。
結果は、パルチザンのデータに基づいてトレーニングすると、LLMは高い信頼性と挑発的なコメントを生成でき、しばしば人間によって書かれたものと区別できないことを示唆している。
論文 参考訳(メタデータ) (2025-06-17T15:41:26Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Fine-Grained Bias Detection in LLM: Enhancing detection mechanisms for nuanced biases [0.0]
本研究では,Large Language Models (LLMs) におけるニュアンスバイアス検出フレームワークを提案する。
このアプローチは、コンテキスト分析、注意機構による解釈可能性、および反ファクトデータ拡張を統合して、隠れたバイアスをキャプチャする。
その結果,従来の方法に比べて微妙な偏見の検出精度が向上した。
論文 参考訳(メタデータ) (2025-03-08T04:43:01Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。
提案手法は,複数の公開データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:13:27Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。