論文の概要: Fine-Tuning LLMs for Report Summarization: Analysis on Supervised and Unsupervised Data
- arxiv url: http://arxiv.org/abs/2503.10676v1
- Date: Mon, 10 Mar 2025 23:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:23.128462
- Title: Fine-Tuning LLMs for Report Summarization: Analysis on Supervised and Unsupervised Data
- Title(参考訳): レポート要約のための微調整LDM:監視データと教師なしデータの解析
- Authors: Swati Rallapalli, Shannon Gallagher, Andrew O. Mellinger, Jasmine Ratchford, Anusha Sinha, Tyler Brooks, William R. Nichols, Nick Winski, Bryan Brown,
- Abstract要約: 報告要約の特定のタスクに対する微調整大型言語モデル(LLM)の有効性について検討した。
2つの異なる微調整手法を並列に実験する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We study the efficacy of fine-tuning Large Language Models (LLMs) for the specific task of report (government archives, news, intelligence reports) summarization. While this topic is being very actively researched - our specific application set-up faces two challenges: (i) ground-truth summaries maybe unavailable (e.g., for government archives), and (ii) availability of limited compute power - the sensitive nature of the application requires that computation is performed on-premise and for most of our experiments we use one or two A100 GPU cards. Under this set-up we conduct experiments to answer the following questions. First, given that fine-tuning the LLMs can be resource intensive, is it feasible to fine-tune them for improved report summarization capabilities on-premise? Second, what are the metrics we could leverage to assess the quality of these summaries? We conduct experiments on two different fine-tuning approaches in parallel and our findings reveal interesting trends regarding the utility of fine-tuning LLMs. Specifically, we find that in many cases, fine-tuning helps improve summary quality and in other cases it helps by reducing the number of invalid or garbage summaries.
- Abstract(参考訳): 本研究では, 官公文書, ニュース, インテリジェンスレポート) の要約作業に対する微調整大言語モデル (LLM) の有効性について検討した。
このトピックは活発に研究されていますが、私たちの特定のアプリケーション設定には2つの課題があります。
(i)原文要約(例:官文書)、
(ii) 限られた計算能力の可用性 - アプリケーションの敏感な性質は、計算がオンプレミスで行われることを必要としており、実験の大部分では、1つまたは2つのA100 GPUカードを使用します。
このセットアップでは、以下の質問に答えるために実験を行います。
まず LLM の微調整が資源集約化可能であることを考えると、レポートの要約機能を改善するためにそれらを微調整することは可能か?
次に、これらの要約の品質を評価するのに利用できるメトリクスは何ですか?
我々は2つの異なる微調整アプローチを並列に実験し、微調整LDMの有用性に関する興味深い傾向を明らかにした。
具体的には、多くの場合、微調整は要約の質を向上させるのに役立ち、他のケースでは無効あるいはガベージコレクションの数を減らすのに役立ちます。
関連論文リスト
- GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文 参考訳(メタデータ) (2025-02-09T14:11:30Z) - Evaluating Small Language Models for News Summarization: Implications and Factors Influencing Performance [31.38160018745285]
小型言語モデル (SLM) は、大型言語モデル (LLM) の代替として、よりアクセスしやすいものを提供する。
本稿では,2000件のニュースサンプルを対象に,19件のSLMを包括的に評価した。
論文 参考訳(メタデータ) (2025-02-02T03:07:45Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example [3.102303947219617]
大規模言語モデル(LLM)は、自律エージェントを人工知能(AGI)に近づけた
そこで本研究では,エージェントが複数の制約を満たして正確な計画を生成する,現実的なベンチマークであるTravelPlannerを用いて検討を行った。
論文 参考訳(メタデータ) (2024-08-12T17:39:01Z) - Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。
実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。