論文の概要: Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality
- arxiv url: http://arxiv.org/abs/2603.09995v1
- Date: Sun, 15 Feb 2026 05:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.541471
- Title: Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality
- Title(参考訳): ヒューマン・イン・ザ・ループの計算性能に関する文脈 : 質問応答品質の反復的連鎖分析
- Authors: Kewen Zhu, Zixi Liu, Yanjing Li,
- Abstract要約: 大規模モデルを用いた行動面接評価は, 構造化評価, 現実的行動シミュレーション, 教育的価値を必要とする独特な課題を提示する。
我々は,50対の行動質問応答対を用いた2つの制御実験を通して,インタビュー回答の評価と改善を促す思考の連鎖について検討した。
- 参考スコア(独自算出の注目度): 10.17954336750661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral interview evaluation using large language models presents unique challenges that require structured assessment, realistic interviewer behavior simulation, and pedagogical value for candidate training. We investigate chain of thought prompting for interview answer evaluation and improvement through two controlled experiments with 50 behavioral interview question and answer pairs. Our contributions are threefold. First, we provide a quantitative comparison between human in the loop and automated chain of thought improvement. Using a within subject paired design with n equals 50, both approaches show positive rating improvements. The human in the loop approach provides significant training benefits. Confidence improves from 3.16 to 4.16 (p less than 0.001) and authenticity improves from 2.94 to 4.53 (p less than 0.001, Cohen's d is 3.21). The human in the loop method also requires five times fewer iterations (1.0 versus 5.0, p less than 0.001) and achieves full personal detail integration. Second, we analyze convergence behavior. Both methods converge rapidly with mean iterations below one, with the human in the loop approach achieving a 100 percent success rate compared to 84 percent for automated approaches among initially weak answers (Cohen's h is 0.82, large effect). Additional iterations provide diminishing returns, indicating that the primary limitation is context availability rather than computational resources. Third, we propose an adversarial challenging mechanism based on a negativity bias model, named bar raiser, to simulate realistic interviewer behavior, although quantitative validation remains future work. Our findings demonstrate that while chain of thought prompting provides a useful foundation for interview evaluation, domain specific enhancements and context aware approach selection are essential for realistic and pedagogically valuable results.
- Abstract(参考訳): 大規模言語モデルを用いた行動面接評価は、構造化された評価、現実的な面接者行動シミュレーション、および候補者訓練のための教育的価値を必要とする独特な課題を示す。
本研究では,50対の行動質問と回答ペアを用いた2つの制御実験を通して,質問応答の評価と改善を促す思考の連鎖について検討した。
私たちの貢献は3倍です。
まず、ループ内の人間と、思考改善の自動連鎖とを定量的に比較する。
n が 50 に等しい対象のペア設計を用いると、どちらのアプローチも肯定的な評価改善を示す。
ループアプローチの人間は、大きなトレーニング上のメリットを提供します。
信頼性は3.16から4.16(pは0.001未満)に向上し、信頼性は2.94から4.53(pは0.001未満、コーエンdは3.21)に向上する。
ループ法では、人間も5倍のイテレーション(1.0対5.0、pは0.001未満)を必要とし、完全な詳細統合を実現する。
次に,収束挙動を解析する。
どちらの手法も1つ以下の平均イテレーションと急速に収束し、ループアプローチの人間は、最初は弱い解(コーエンのhは0.82、大きな効果)の中で、自動化アプローチの84%と比べて100%の成功率を達成する。
追加の繰り返しは減少するリターンを提供し、主な制限は計算資源ではなくコンテキストアベイラビリティであることを示している。
第3に,現実的なインタビュアーの振る舞いをシミュレートするために,バーライザー(bar raiser)という負性バイアスモデルに基づく対向的挑戦機構を提案する。
本研究は,思考促進の連鎖がインタビュー評価に有用な基盤を提供する一方で,現実的かつ教育学的に価値のある結果を得るためには,ドメイン固有の拡張と文脈認識アプローチの選択が不可欠であることを示す。
関連論文リスト
- Using Learning Progressions to Guide AI Feedback for Science Learning [9.90590245204881]
生成人工知能(AI)は、フォーマティブフィードバックのスケーラブルなサポートを提供する。
効果的ではあるが、ルーリックオーサリングは時間がかかり、命令コンテキスト間のスケーラビリティが制限される。
本研究では、LP駆動のルーブリック生成パイプラインが、専門家によるタスクルーブリックによるフィードバックに匹敵する品質のAI生成フィードバックを生成できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-03-03T18:39:58Z) - LLMREI: Automating Requirements Elicitation Interviews with LLMs [47.032121951473435]
本研究では,人間の介入を最小限に抑えながら,要求適応面接を行うチャットボット LLMREI を紹介する。
我々は33回のシミュレート・ステークホルダー・インタビューでその性能を評価した。
以上の結果から,LLMREIは人間のインタビュアーと同じような誤りを犯し,要求の大部分を抽出し,文脈に依存した質問を生成できることが示唆された。
論文 参考訳(メタデータ) (2025-07-03T12:18:05Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。
また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。
本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文 参考訳(メタデータ) (2024-08-24T10:34:20Z) - It Is Not About What You Say, It Is About How You Say It: A Surprisingly Simple Approach for Improving Reading Comprehension [0.0]
3つのデータセットにまたがる9つの大きな言語モデルで実験した結果、質問の前にコンテキストを提示することで、モデルのパフォーマンスが向上することがわかった。
さらに、最良のメソッドは驚くほど単純で、入力にいくつかのトークンを連結するだけで、結果として最大36%の精度の改善が得られます。
論文 参考訳(メタデータ) (2024-06-24T16:43:11Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。