論文の概要: RAGAPHENE: A RAG Annotation Platform with Human Enhancements and Edits
- arxiv url: http://arxiv.org/abs/2508.19272v1
- Date: Fri, 22 Aug 2025 20:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.333069
- Title: RAGAPHENE: A RAG Annotation Platform with Human Enhancements and Edits
- Title(参考訳): RAGAPHENE: 人力拡張と編集機能を備えたRAGアノテーションプラットフォーム
- Authors: Kshitij Fadnis, Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Marina Danilevsky,
- Abstract要約: RAGAPHENEはチャットベースのアノテーションプラットフォームで、アノテータが現実世界の会話をシミュレートできる。
RAGAPHENEは、約40のアノテータによって何千もの現実世界の会話の構築に成功している。
- 参考スコア(独自算出の注目度): 10.924939059010041
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval Augmented Generation (RAG) is an important aspect of conversing with Large Language Models (LLMs) when factually correct information is important. LLMs may provide answers that appear correct, but could contain hallucinated information. Thus, building benchmarks that can evaluate LLMs on multi-turn RAG conversations has become an increasingly important task. Simulating real-world conversations is vital for producing high quality evaluation benchmarks. We present RAGAPHENE, a chat-based annotation platform that enables annotators to simulate real-world conversations for benchmarking and evaluating LLMs. RAGAPHENE has been successfully used by approximately 40 annotators to build thousands of real-world conversations.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) は、現実的に正しい情報が重要である場合、Large Language Models (LLM) と会話する上で重要な側面である。
LLMは正しいように見える答えを提供するが、幻覚情報を含むこともある。
したがって、マルチターンRAG会話におけるLLMの評価が可能なベンチマークを構築することが、ますます重要な課題となっている。
実世界の会話をシミュレートすることは、高品質な評価ベンチマークを作成する上で不可欠である。
本稿では,チャットベースのアノテーションプラットフォームであるRAGAPHENEについて述べる。
RAGAPHENEは、約40のアノテータによって何千もの現実世界の会話の構築に成功している。
関連論文リスト
- ChatGPT or A Silent Everywhere Helper: A Survey of Large Language Models [0.0]
Chat Generative Pre-trained Transformer (ChatGPT)は、その高度な機能と広範なアプリケーションに対する顕著な例である。
この調査は、ChatGPTの包括的な分析を提供し、アーキテクチャ、トレーニングプロセス、機能について調査する。
論文 参考訳(メタデータ) (2025-03-19T22:55:08Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
外的検索機構は、しばしば対話における拡張世代の品質を高めるために使用される。
既存のベンチマークでは、マルチターン対話におけるLLMのチャット能力の評価や、シングルターン設定における拡張応答に対する検索の利用が評価されている。
検索後のマルチターン対話におけるLLMの能力を評価するためのベンチマークであるRAD-Benchを紹介する。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。