論文の概要: Taming LLMs with Negative Samples: A Reference-Free Framework to Evaluate Presentation Content with Actionable Feedback
- arxiv url: http://arxiv.org/abs/2505.18240v1
- Date: Fri, 23 May 2025 14:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.257254
- Title: Taming LLMs with Negative Samples: A Reference-Free Framework to Evaluate Presentation Content with Actionable Feedback
- Title(参考訳): ネガティブサンプルを用いたLCMのモデリング:アクション可能なフィードバックによるプレゼンテーションコンテンツ評価のための参照フリーフレームワーク
- Authors: Ananth Muppidi, Tarak Das, Sambaran Bandyopadhyay, Tripti Shukla, Dharun D A,
- Abstract要約: 本稿では、文書を効果的に要約し、幅広い聴衆に概念を伝えることができるプレゼンテーションスライドにおけるマルチモーダルコンテンツの評価に焦点をあてる。
我々は、さまざまなトピックにまたがる人為的な高品質なプレゼンテーションからなるベンチマークデータセットRefSlidesを紹介した。
次に、プレゼンテーションの内容の固有の特性を特徴付けるためのメトリクスセットと、これらのメトリクスのスコアと動作可能なフィードバックを生成する評価手法であるREFLEXを提案する。
- 参考スコア(独自算出の注目度): 15.90651992769166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The generation of presentation slides automatically is an important problem in the era of generative AI. This paper focuses on evaluating multimodal content in presentation slides that can effectively summarize a document and convey concepts to a broad audience. We introduce a benchmark dataset, RefSlides, consisting of human-made high-quality presentations that span various topics. Next, we propose a set of metrics to characterize different intrinsic properties of the content of a presentation and present REFLEX, an evaluation approach that generates scores and actionable feedback for these metrics. We achieve this by generating negative presentation samples with different degrees of metric-specific perturbations and use them to fine-tune LLMs. This reference-free evaluation technique does not require ground truth presentations during inference. Our extensive automated and human experiments demonstrate that our evaluation approach outperforms classical heuristic-based and state-of-the-art large language model-based evaluations in generating scores and explanations.
- Abstract(参考訳): プレゼンテーションスライドの自動生成は、生成AIの時代において重要な問題である。
本稿では、文書を効果的に要約し、幅広い聴衆に概念を伝えることができるプレゼンテーションスライドにおけるマルチモーダルコンテンツの評価に焦点をあてる。
我々は、さまざまなトピックにまたがる人為的な高品質なプレゼンテーションからなるベンチマークデータセットRefSlidesを紹介した。
次に、プレゼンテーションの内容の固有の特性を特徴付けるためのメトリクスセットと、これらのメトリクスのスコアと動作可能なフィードバックを生成する評価手法であるREFLEXを提案する。
我々は、異なる度合いの計量特異的摂動を持つネガティブな提示サンプルを生成し、それらを微調整LDMに利用することで、これを実現する。
この基準フリー評価技術は、推論中に真実を提示する必要がない。
評価手法は,従来のヒューリスティックモデルや最先端の大規模言語モデルよりも,スコアや説明を生成する上で優れていた。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文 参考訳(メタデータ) (2024-02-03T14:28:55Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。