Fugu-MT 論文翻訳(概要): Can LLMs Design Good Questions Based on Context?

論文の概要: Can LLMs Design Good Questions Based on Context?

arxiv url: http://arxiv.org/abs/2501.03491v1
Date: Tue, 07 Jan 2025 03:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.942132
Title: Can LLMs Design Good Questions Based on Context?
Title（参考訳）: LLMはコンテキストに基づいて良い質問を設計できるか?
Authors: Yueheng Zhang, Xiaoyuan Liu, Yiyou Sun, Atheer Alharbi, Hend Alzahrani, Basel Alomair, Dawn Song,
Abstract要約: 質問長,タイプ,コンテキストカバレッジ,応答性といった側面に着目したLCMに基づく自動評価手法を提案する。本研究は,LLM生成した質問の特徴を強調し,質問品質およびダウンストリームアプリケーションにおけるさらなる研究を支援するための洞察を提供する。
参考スコア（独自算出の注目度）: 47.50938576727846
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper evaluates questions generated by LLMs from context, comparing them to human-generated questions across six dimensions. We introduce an automated LLM-based evaluation method, focusing on aspects like question length, type, context coverage, and answerability. Our findings highlight unique characteristics of LLM-generated questions, contributing insights that can support further research in question quality and downstream applications.
Abstract（参考訳）: 本稿では,LLMが生成する質問を文脈から評価し,それらを6次元にわたる人間による質問と比較する。質問長,タイプ,コンテキストカバレッジ,応答性といった側面に着目したLCMに基づく自動評価手法を提案する。本研究は,LLM生成した質問の特徴を強調し,質問品質およびダウンストリームアプリケーションにおけるさらなる研究を支援するための洞察を提供する。

関連論文リスト

Requirements Elicitation Follow-Up Question Generation [0.5120567378386615]
大規模言語モデル(LLM)は、複数の自然言語処理タスクにおいて最先端のパフォーマンスを示す。本研究は,GPT-4oを要件適用時のフォローアップインタビューに応用することを検討した。
論文参考訳（メタデータ） (2025-07-03T17:59:04Z)
LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文参考訳（メタデータ） (2024-12-10T15:00:32Z)
Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions [10.783827859678892]
本稿では、複合質問合成(CQ-Syn)を導入し、複合QAベンチマークを作成する。このベンチマークは、プロプライエタリな大規模言語モデルにアノテートされた既存のQAデータセットに由来する。 LLM能力は、理解、推論、知識を含む3次元の観点で評価する。
論文参考訳（メタデータ） (2024-11-15T13:12:29Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。 DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文参考訳（メタデータ） (2024-08-02T17:54:34Z)
Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。 GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文参考訳（メタデータ） (2024-05-23T10:00:14Z)
Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文参考訳（メタデータ） (2024-04-16T21:33:05Z)
Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-ofDiscussionフレームワークを提案する。実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-26T05:31:34Z)
Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文参考訳（メタデータ） (2024-02-23T02:24:36Z)
keqing: knowledge-based question answering is a nature chain-of-thought mentor of LLM [27.76205400533089]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。本稿では,知識グラフ上の質問関連構造化情報を取得するために,ChatGPTなどのLLMを支援する新しいフレームワークを提案する。 KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。
論文参考訳（メタデータ） (2023-12-31T08:39:04Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文参考訳（メタデータ） (2023-09-15T07:22:56Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。