論文の概要: Can LLMs Ask Good Questions?
- arxiv url: http://arxiv.org/abs/2501.03491v2
- Date: Tue, 17 Jun 2025 18:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.270649
- Title: Can LLMs Ask Good Questions?
- Title(参考訳): LLMは良い質問をできるか?
- Authors: Yueheng Zhang, Xiaoyuan Liu, Yiyou Sun, Atheer Alharbi, Hend Alzahrani, Tianneng Shi, Basel Alomair, Dawn Song,
- Abstract要約: 大規模言語モデル(LLM)が生成する質問を文脈から評価する。
質問タイプ,質問長,コンテキストカバレッジ,回答可能性,不共通性,必要な回答長の6つの次元にわたる人間による質問と比較した。
- 参考スコア(独自算出の注目度): 45.54763954234726
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We evaluate questions generated by large language models (LLMs) from context, comparing them to human-authored questions across six dimensions: question type, question length, context coverage, answerability, uncommonness, and required answer length. Our study spans two open-source and two proprietary state-of-the-art models. Results reveal that LLM-generated questions tend to demand longer descriptive answers and exhibit more evenly distributed context focus, in contrast to the positional bias often seen in QA tasks. These findings provide insights into the distinctive characteristics of LLM-generated questions and inform future work on question quality and downstream applications.
- Abstract(参考訳): 我々は,大言語モデル(LLM)が生成する質問を文脈から評価し,質問タイプ,質問長,コンテキストカバレッジ,応答性,不定性,要求回答長の6次元にわたる人間による質問と比較した。
我々の研究は、2つのオープンソースと2つのプロプライエタリな最先端モデルにまたがっている。
その結果、LLM生成した質問は、QAタスクでよく見られる位置バイアスとは対照的に、より長い記述的回答を要求され、より均等に分散された文脈焦点を示す傾向があることが明らかとなった。
これらの知見は, LLM生成した質問の特徴を考察し, 質問品質および下流アプリケーションに関する今後の研究を知らせるものである。
関連論文リスト
- LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions [10.783827859678892]
本稿では、複合質問合成(CQ-Syn)を導入し、複合QAベンチマークを作成する。
このベンチマークは、プロプライエタリな大規模言語モデルにアノテートされた既存のQAデータセットに由来する。
LLM能力は、理解、推論、知識を含む3次元の観点で評価する。
論文 参考訳(メタデータ) (2024-11-15T13:12:29Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。
本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - keqing: knowledge-based question answering is a nature chain-of-thought
mentor of LLM [27.76205400533089]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。
本稿では,知識グラフ上の質問関連構造化情報を取得するために,ChatGPTなどのLLMを支援する新しいフレームワークを提案する。
KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。
論文 参考訳(メタデータ) (2023-12-31T08:39:04Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。