論文の概要: Advancing Academic Chatbots: Evaluation of Non Traditional Outputs
- arxiv url: http://arxiv.org/abs/2512.00991v1
- Date: Sun, 30 Nov 2025 17:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.53078
- Title: Advancing Academic Chatbots: Evaluation of Non Traditional Outputs
- Title(参考訳): アカデミックチャットボットの高度化:非伝統的なアウトプットの評価
- Authors: Nicole Favero, Francesca Salute, Daniel Hardt,
- Abstract要約: 本研究は、大規模言語モデルが高品質な非伝統的な学術出力を生成できるかどうかを評価することに焦点を当てる。
我々は,MetaのLLaMA 370BオープンウェイトとOpenAIのGPT 4o mini APIをベースとしたプロトタイプを実装した。
GPT 4o miniは再び最高のパフォーマンスを示したが、LLaMA 3は物語のコヒーレンスを約束していた。
- 参考スコア(独自算出の注目度): 3.0969191504482243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most evaluations of large language models focus on standard tasks such as factual question answering or short summarization. This research expands that scope in two directions: first, by comparing two retrieval strategies, Graph RAG, structured knowledge-graph based, and Advanced RAG, hybrid keyword-semantic search, for QA; and second, by evaluating whether LLMs can generate high quality non-traditional academic outputs, specifically slide decks and podcast scripts. We implemented a prototype combining Meta's LLaMA 3 70B open weight and OpenAI's GPT 4o mini API based. QA performance was evaluated using both human ratings across eleven quality dimensions and large language model judges for scalable cross validation. GPT 4o mini with Advanced RAG produced the most accurate responses. Graph RAG offered limited improvements and led to more hallucinations, partly due to its structural complexity and manual setup. Slide and podcast generation was tested with document grounded retrieval. GPT 4o mini again performed best, though LLaMA 3 showed promise in narrative coherence. Human reviewers were crucial for detecting layout and stylistic flaws, highlighting the need for combined human LLM evaluation in assessing emerging academic outputs.
- Abstract(参考訳): 大規模言語モデルのほとんどの評価は、事実質問応答や短い要約のような標準的なタスクに焦点を当てている。
本研究は,2つの検索戦略,グラフRAG,構造化知識グラフベース,アドバンストRAG,ハイブリッドキーワードセマンティック検索,QA,およびLLMが高品質な非学術的アウトプット,特にスライドデッキとポッドキャストスクリプトを生成できるかどうかを評価することによって,その範囲を拡大する。
我々は,MetaのLLaMA 370BオープンウェイトとOpenAIのGPT 4o mini APIを併用したプロトタイプを実装した。
QA性能は、11の品質次元にわたる人間の評価と、スケーラブルなクロスバリデーションのための大規模言語モデル判断の両方を用いて評価された。
アドバンストRAGを搭載した GPT 4o mini が最も正確な応答が得られた。
Graph RAGは限定的な改善を提供し、その構造的な複雑さと手作業によるセットアップのために、より幻覚を引き起こした。
スライドとポッドキャストの生成は文書検索を用いて行った。
GPT 4o miniは再び最高のパフォーマンスを示したが、LLaMA 3は物語のコヒーレンスを約束していた。
人間のレビュアーはレイアウトやスタイル上の欠陥を検出するのに不可欠であり、新たな学術的成果を評価する上で、人間のLLM評価の組み合わせの必要性を強調した。
関連論文リスト
- Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability [25.96556671801114]
本稿では,大規模言語モデル(LLM)の逐次推論能力を評価する新しいベンチマークであるAQA-Benchを紹介する。
AQA-Benchを2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築し,14種類のLLMの逐次推論能力を評価する。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。