論文の概要: LaMSUM: Amplifying Voices Against Harassment through LLM Guided Extractive Summarization of User Incident Reports
- arxiv url: http://arxiv.org/abs/2406.15809v3
- Date: Mon, 20 Jan 2025 14:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:02.574028
- Title: LaMSUM: Amplifying Voices Against Harassment through LLM Guided Extractive Summarization of User Incident Reports
- Title(参考訳): LaMSUM: LLMガイドによるユーザインシデントレポートの抽出要約によるハラスメントに対する声の増幅
- Authors: Garima Chhikara, Anurag Sharma, V. Gurucharan, Kripabandhu Ghosh, Abhijnan Chakraborty,
- Abstract要約: インドのセーフシティのような市民報告プラットフォームは、公衆や当局がセクシャルハラスメント事件について情報を提供し続けるのを助けている。
様々なインドのコード混在言語を処理・理解できる要約アルゴリズムが不可欠である。
セーフシティ・ポストのコレクションを抽出するための多層フレームワークであるLaMSUMを紹介した。
- 参考スコア(独自算出の注目度): 6.770555526416268
- License:
- Abstract: Citizen reporting platforms like Safe City in India help the public and authorities stay informed about sexual harassment incidents. However, the high volume of data shared on these platforms makes reviewing each individual case challenging. Therefore, a summarization algorithm capable of processing and understanding various Indian code-mixed languages is essential. In recent years, Large Language Models (LLMs) have shown exceptional performance in NLP tasks, including summarization. LLMs inherently produce abstractive summaries by paraphrasing the original text, while the generation of extractive summaries - selecting specific subsets from the original text - through LLMs remains largely unexplored. Moreover, LLMs have a limited context window size, restricting the amount of data that can be processed at once. We tackle these challenge by introducing LaMSUM, a novel multi-level framework designed to generate extractive summaries for large collections of Safe City posts using LLMs. LaMSUM integrates summarization with different voting methods to achieve robust summaries. Extensive evaluation using three popular LLMs (Llama, Mistral and GPT-4o) demonstrates that LaMSUM outperforms state-of-the-art extractive summarization methods for Safe City posts. Overall, this work represents one of the first attempts to achieve extractive summarization through LLMs, and is likely to support stakeholders by offering a comprehensive overview and enabling them to develop effective policies to minimize incidents of unwarranted harassment.
- Abstract(参考訳): インドのセーフシティのような市民報告プラットフォームは、公衆や当局がセクシャルハラスメント事件について情報を提供し続けるのを助けている。
しかし、これらのプラットフォームで共有される大量のデータは、個々のケースのレビューを困難にしている。
したがって、様々なインドのコード混在言語を処理・理解できる要約アルゴリズムが不可欠である。
近年、Large Language Models (LLM) は、要約を含むNLPタスクにおいて、例外的な性能を示している。
LLMは本来、原文を言い換えて抽象的な要約を生成するのに対して、原文から特定の部分集合を選択するという抽出的な要約の生成は、LLMを通してほとんど探索されていない。
さらに、LLMはコンテキストウィンドウのサイズが制限されており、一度に処理できるデータの量を制限する。
LLMを用いた安全な都市ポストのコレクションの抽出要約を生成するために設計された,新しいマルチレベルフレームワークであるLaMSUMを導入することで,これらの課題に対処する。
LaMSUMは、様々な投票方法と要約を統合して、堅牢な要約を実現する。
3つのLLM (Llama, Mistral, GPT-4o) を用いた大規模評価により, LaMSUMは安全都市ポストに対する最先端抽出法より優れていることが示された。
全体として、この研究はLLMを通じて抽出的要約を達成するための最初の試みの1つであり、包括的概要を提供し、不当なハラスメントのインシデントを最小限に抑える効果的な政策を開発することでステークホルダーを支援する可能性が高い。
関連論文リスト
- Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization [8.432813041805831]
低リソース抽出テキスト要約のためのMixSummを提案する。
具体的には、MixSummはオープンソースのLLMであるLLaMA-3-70bを推進し、複数のトピックから情報を混合するドキュメントを生成する。
ROUGEスコアとL-Eval(参照不要LLaMA-3に基づく評価法)を用いて,生成された要約の質を測定した。
論文 参考訳(メタデータ) (2024-07-10T03:25:47Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。