論文の概要: Beyond Factual QA: Mentorship-Oriented Question Answering over Long-Form Multilingual Content
- arxiv url: http://arxiv.org/abs/2601.17173v1
- Date: Fri, 23 Jan 2026 21:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.320467
- Title: Beyond Factual QA: Mentorship-Oriented Question Answering over Long-Form Multilingual Content
- Title(参考訳): Factual QAを超えて: 長期多言語コンテンツに関するメンターシップ指向質問応答
- Authors: Parth Bhalerao, Diola Dsouza, Ruiwen Guan, Oana Ignat,
- Abstract要約: 質問応答システムは事実的正当性に基づいて評価されるが、教育やキャリア指導-要求指導のような現実的な応用は多く存在する。
我々はメンターQA(MentorQA)を紹介した。MentorQAは、メンターシップに焦点を絞った長文ビデオからの質問応答のための、最初の多言語データセットと評価フレームワークである。
私たちは、事実の正確さを超えて、明確さ、アライメント、学習価値を捉えるメンターシップに焦点を当てた評価次元を定義します。
- 参考スコア(独自算出の注目度): 5.831342304669597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering systems are typically evaluated on factual correctness, yet many real-world applications-such as education and career guidance-require mentorship: responses that provide reflection and guidance. Existing QA benchmarks rarely capture this distinction, particularly in multilingual and long-form settings. We introduce MentorQA, the first multilingual dataset and evaluation framework for mentorship-focused question answering from long-form videos, comprising nearly 9,000 QA pairs from 180 hours of content across four languages. We define mentorship-focused evaluation dimensions that go beyond factual accuracy, capturing clarity, alignment, and learning value. Using MentorQA, we compare Single-Agent, Dual-Agent, RAG, and Multi-Agent QA architectures under controlled conditions. Multi-Agent pipelines consistently produce higher-quality mentorship responses, with especially strong gains for complex topics and lower-resource languages. We further analyze the reliability of automated LLM-based evaluation, observing substantial variation in alignment with human judgments. Overall, this work establishes mentorship-focused QA as a distinct research problem and provides a multilingual benchmark for studying agentic architectures and evaluation design in educational AI. The dataset and evaluation framework are released at https://github.com/AIM-SCU/MentorQA.
- Abstract(参考訳): 質問応答システムは、典型的には事実的正当性に基づいて評価されるが、教育やキャリア指導-要求指導(リフレクションとガイダンスを提供する応答)など、現実世界の多くの応用が評価される。
既存のQAベンチマークでは、特に多言語および長期設定において、この区別はまれである。
MentorQAは、4つの言語にまたがる180時間のコンテンツから約9000のQAペアから構成される、メンターシップに焦点を当てた質問応答のための最初の多言語データセットおよび評価フレームワークである。
私たちは、事実の正確さを超えて、明確さ、アライメント、学習価値を捉えるメンターシップに焦点を当てた評価次元を定義します。
MentorQAを用いて、制御条件下でのシングルエージェント、デュアルエージェント、RAG、マルチエージェントQAアーキテクチャを比較する。
マルチエージェントパイプラインは、特に複雑なトピックや低リソース言語において、高品質なメンターシップ応答を一貫して生成する。
さらに,LLMに基づく自動評価の信頼性を解析し,人的判断に適応してかなりの変動を観察する。
全体として、本研究は、個別の研究課題としてメンターシップに焦点を当てたQAを確立し、エージェントアーキテクチャと教育AIの評価設計を研究するための多言語ベンチマークを提供する。
データセットと評価フレームワークはhttps://github.com/AIM-SCU/MentorQA.comで公開されている。
関連論文リスト
- EduAgentQG: A Multi-Agent Workflow Framework for Personalized Question Generation [56.43882334582494]
高品質で多様なパーソナライズされた質問を生成するための多エージェント協調フレームワークであるEduAgentQGを提案する。
フレームワークは5つの特殊エージェントで構成され、反復的なフィードバックループを介して動作する。
EduAgentQGは、質問の多様性、ゴールの一貫性、全体的な品質の点で、既存のシングルエージェントとマルチエージェントの手法より優れている。
論文 参考訳(メタデータ) (2025-11-08T12:25:31Z) - Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment [76.77693558769934]
本稿では,新しい画像品質評価(IQA)タスクパラダイム**grounding-IQA*を紹介する。
このパラダイムはマルチモーダル参照とグラウンドをIQAと統合し、よりきめ細かい品質知覚を実現する。
我々は,GIQA-Benchというよく設計されたベンチマークを開発した。このベンチマークは,記述品質,VQA精度,グラウンド化精度の3点から,グラウンド化-IQA性能を評価する。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Improving Automatic VQA Evaluation Using Large Language Models [6.468405905503242]
本稿では,より優れたVQAメトリックを構築するために,命令調整型大規模言語モデルのコンテキスト内学習機能を活用することを提案する。
提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関性が高いことを示す。
論文 参考訳(メタデータ) (2023-10-04T03:59:57Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。
もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。
この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-14T16:49:58Z) - Towards Automatic Generation of Questions from Long Answers [11.198653485869935]
本稿では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。
既存のAQG法の性能は,回答の長さが大きくなるにつれて著しく低下することを示した。
トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。