論文の概要: Single- vs. Dual-Prompt Dialogue Generation with LLMs for Job Interviews in Human Resources
- arxiv url: http://arxiv.org/abs/2502.18650v1
- Date: Tue, 25 Feb 2025 21:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:05.343844
- Title: Single- vs. Dual-Prompt Dialogue Generation with LLMs for Job Interviews in Human Resources
- Title(参考訳): LLMを用いた人事面接用シングル対デュアルプロンプト対話生成
- Authors: Joachim De Baer, A. Seza Doğruöz, Thomas Demeester, Chris Develder,
- Abstract要約: 人事面接における対話生成手法を2つ比較した。
両プロンプト法で生成されたインタビューは, 単プロンプト法で生成されたインタビューの最大10倍の勝利率が得られることがわかった。
GPT-4oかLlama 3.3 70Bかに関わらず、この差は一貫している。
- 参考スコア(独自算出の注目度): 11.083396379885478
- License:
- Abstract: Optimizing language models for use in conversational agents requires large quantities of example dialogues. Increasingly, these dialogues are synthetically generated by using powerful large language models (LLMs), especially in domains with challenges to obtain authentic human data. One such domain is human resources (HR). In this context, we compare two LLM-based dialogue generation methods for the use case of generating HR job interviews, and assess whether one method generates higher-quality dialogues that are more challenging to distinguish from genuine human discourse. The first method uses a single prompt to generate the complete interview dialog. The second method uses two agents that converse with each other. To evaluate dialogue quality under each method, we ask a judge LLM to determine whether AI was used for interview generation, using pairwise interview comparisons. We demonstrate that despite a sixfold increase in token cost, interviews generated with the dual-prompt method achieve a win rate up to ten times higher than those generated with the single-prompt method. This difference remains consistent regardless of whether GPT-4o or Llama 3.3 70B is used for either interview generation or judging quality.
- Abstract(参考訳): 対話エージェントで使用する言語モデルを最適化するには、大量のサンプル対話が必要である。
これらの対話は、強力な大規模言語モデル(LLM)を用いて合成的に生成され、特に、真の人的データを得るための課題のある領域において、ますます増加する。
そのような領域の1つは人的資源(HR)である。
この文脈では、人事面接作成のユースケースにおいて、2つのLLMベースの対話生成手法を比較し、実際の人間会話と区別することがより困難である高品質な対話を1つの方法が生成するかどうかを評価する。
最初の方法は、単一のプロンプトを使用して、完全なインタビューダイアログを生成する。
第2の方法は、互いに会話する2つのエージェントを使用する。
各手法で対話の質を評価するために,2対のインタビュー比較を用いて,AIがインタビュー生成に使用されたかどうかを判断するために,審査員にLLMを依頼する。
トークンコストの6倍の上昇にもかかわらず、デュアルプロンプト法で生成されたインタビューは、シングルプロンプト法で生成されたものよりも最大10倍高い勝利率を達成することを示した。
GPT-4oかLlama 3.3 70Bかに関わらず、この差は一貫している。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - GRASP: Guiding model with RelAtional Semantics using Prompt [3.1275060062551208]
本稿では Prompt (GRASP) を用いたRelAtional Semantics を用いた誘導モデルを提案する。
我々は、プロンプトベースの微調整アプローチを採用し、引数を意識したプロンプトマーカー戦略を用いて、ある対話における関係意味的手がかりをキャプチャする。
実験では、DialogREデータセット上でのF1とF1cのスコアの観点から、GRASPの最先端のパフォーマンスが評価された。
論文 参考訳(メタデータ) (2022-08-26T08:19:28Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。