論文の概要: CentaurTA Studio: A Self-Improving Human-Agent Collaboration System for Thematic Analysis
- arxiv url: http://arxiv.org/abs/2604.18589v1
- Date: Wed, 18 Mar 2026 02:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.030069
- Title: CentaurTA Studio: A Self-Improving Human-Agent Collaboration System for Thematic Analysis
- Title(参考訳): CentaurTA Studio:テーマ分析のための自己改善型ヒューマンエージェントコラボレーションシステム
- Authors: Lei Wang, Min Huang, Eduard Dragut,
- Abstract要約: textbfCentaurTA Studioは、オープンコーディングとテーマ構築において、自己改善されたヒューマンエージェントコラボレーションのためのWebベースのシステムである。
CentaurTA は Open Coding と Theme Construction で最強のパフォーマンスを達成し、92.12% の精度に達した。
- 参考スコア(独自算出の注目度): 3.8837035821549475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thematic analysis is difficult to scale: manual workflows are labor-intensive, while fully automated pipelines often lack controllability and transparent evaluation. We present \textbf{CentaurTA Studio}, a web-based system for self-improving human--agent collaboration in open coding and theme construction. The system integrates (1) a two-stage human feedback pipeline separating simulator drafting and expert validation, (2) persistent prompt optimization that distills validated feedback into reusable alignment principles, and (3) rubric-based evaluation with early stopping for process control. Across three domains, CentaurTA achieves the strongest performance in both Open Coding and Theme Construction, reaching up to 92.12\% accuracy and consistently outperforming baseline systems. Agreement between the rubric-based LLM judge and human annotators reaches substantial reliability (average $κ= 0.68$). Ablation studies show that removing the feedback loop reduces performance from 90\% to 81\%, while eliminating the Critic or early stopping degrades accuracy or increases interaction cost. The full system reaches peak performance within 10 iterative rounds (about 25 minutes), demonstrating improved efficiency over expert-only refinement.
- Abstract(参考訳): 手動のワークフローは労働集約的であり、完全に自動化されたパイプラインは制御性や透過的な評価を欠いていることが多い。
我々は,オープンコーディングとテーマ構築において,自己改善を行うWebベースのシステムである‘textbf{CentaurTA Studio} を提示する。
本システムは,(1)シミュレータのドラフトと専門家による検証を分離した2段階のフィードバックパイプライン,(2)再利用可能なアライメント原理にフィードバックを蒸留する永続的なプロンプト最適化,(3)プロセス制御の早期停止を伴うルーリックに基づく評価を統合する。
3つの領域にまたがって、CentaurTAはオープンコーディングとテーマコンストラクションの両方で最強のパフォーマンスを達成し、92.12\%の精度に達し、ベースラインシステムより一貫して優れている。
ルーリックベースのLCMジャッジと人間のアノテータとの合意は、かなり信頼性に達する(平均$κ= 0.68$)。
アブレーション研究では、フィードバックループの除去は性能を90\%から81\%に低下させ、Criticや早期停止は精度を低下させるか、相互作用コストを増大させる。
システム全体の性能は10回の反復ラウンド(約25分)でピークに達し、専門家のみの洗練よりも効率が向上した。
関連論文リスト
- Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents [6.158612515104146]
エージェントフィードバックとレビュアーフィードバックのトレードオフを測定するために、ヘルプフルネス・ハームフルネスメトリクスを導入します。
我々はBFCLとTau2-Bench(マルチターンステートフルシナリオ)に対するアプローチを評価し、無関係検出では+5.5%、マルチターンタスクでは+7.1%を達成した。
GPT-4oでは,評価モデルo3-miniが3:1の利益率と2.1:1の利益率を達成した。
論文 参考訳(メタデータ) (2026-04-29T22:09:47Z) - Benchmarking Contextual Understanding for In-Car Conversational Systems [0.9437812993238097]
In-car Conversational Question Answering (ConvQA) システムは,シームレスな音声対話を実現することでユーザエクスペリエンスを著しく向上させる。
本稿では,Large Language Models (LLMs) と高度なプロンプト技術およびエージェントベース手法を用いて,ConvQAシステム応答がユーザの発話に適合する程度を評価する。
論文 参考訳(メタデータ) (2025-12-12T21:15:49Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。