論文の概要: LaMSUM: Amplifying Voices Against Harassment through LLM Guided Extractive Summarization of User Incident Reports
- arxiv url: http://arxiv.org/abs/2406.15809v3
- Date: Mon, 20 Jan 2025 14:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:02.574028
- Title: LaMSUM: Amplifying Voices Against Harassment through LLM Guided Extractive Summarization of User Incident Reports
- Title(参考訳): LaMSUM: LLMガイドによるユーザインシデントレポートの抽出要約によるハラスメントに対する声の増幅
- Authors: Garima Chhikara, Anurag Sharma, V. Gurucharan, Kripabandhu Ghosh, Abhijnan Chakraborty,
- Abstract要約: インドのセーフシティのような市民報告プラットフォームは、公衆や当局がセクシャルハラスメント事件について情報を提供し続けるのを助けている。
様々なインドのコード混在言語を処理・理解できる要約アルゴリズムが不可欠である。
セーフシティ・ポストのコレクションを抽出するための多層フレームワークであるLaMSUMを紹介した。
- 参考スコア(独自算出の注目度): 6.770555526416268
- License:
- Abstract: Citizen reporting platforms like Safe City in India help the public and authorities stay informed about sexual harassment incidents. However, the high volume of data shared on these platforms makes reviewing each individual case challenging. Therefore, a summarization algorithm capable of processing and understanding various Indian code-mixed languages is essential. In recent years, Large Language Models (LLMs) have shown exceptional performance in NLP tasks, including summarization. LLMs inherently produce abstractive summaries by paraphrasing the original text, while the generation of extractive summaries - selecting specific subsets from the original text - through LLMs remains largely unexplored. Moreover, LLMs have a limited context window size, restricting the amount of data that can be processed at once. We tackle these challenge by introducing LaMSUM, a novel multi-level framework designed to generate extractive summaries for large collections of Safe City posts using LLMs. LaMSUM integrates summarization with different voting methods to achieve robust summaries. Extensive evaluation using three popular LLMs (Llama, Mistral and GPT-4o) demonstrates that LaMSUM outperforms state-of-the-art extractive summarization methods for Safe City posts. Overall, this work represents one of the first attempts to achieve extractive summarization through LLMs, and is likely to support stakeholders by offering a comprehensive overview and enabling them to develop effective policies to minimize incidents of unwarranted harassment.
- Abstract(参考訳): インドのセーフシティのような市民報告プラットフォームは、公衆や当局がセクシャルハラスメント事件について情報を提供し続けるのを助けている。
しかし、これらのプラットフォームで共有される大量のデータは、個々のケースのレビューを困難にしている。
したがって、様々なインドのコード混在言語を処理・理解できる要約アルゴリズムが不可欠である。
近年、Large Language Models (LLM) は、要約を含むNLPタスクにおいて、例外的な性能を示している。
LLMは本来、原文を言い換えて抽象的な要約を生成するのに対して、原文から特定の部分集合を選択するという抽出的な要約の生成は、LLMを通してほとんど探索されていない。
さらに、LLMはコンテキストウィンドウのサイズが制限されており、一度に処理できるデータの量を制限する。
LLMを用いた安全な都市ポストのコレクションの抽出要約を生成するために設計された,新しいマルチレベルフレームワークであるLaMSUMを導入することで,これらの課題に対処する。
LaMSUMは、様々な投票方法と要約を統合して、堅牢な要約を実現する。
3つのLLM (Llama, Mistral, GPT-4o) を用いた大規模評価により, LaMSUMは安全都市ポストに対する最先端抽出法より優れていることが示された。
全体として、この研究はLLMを通じて抽出的要約を達成するための最初の試みの1つであり、包括的概要を提供し、不当なハラスメントのインシデントを最小限に抑える効果的な政策を開発することでステークホルダーを支援する可能性が高い。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency [5.9858789096400224]
大型言語モデル(LLM)は幻覚と呼ばれる現実的な矛盾の問題に悩まされる。
本稿では,スライディングウィンドウと自己整合性を利用した新しい要約生成戦略,すなわちSliSumを提案する。
SliSumは、LLaMA-2、Claude-2、GPT-3.5を含む多種多様なLLMの短文要約および長文要約における忠実性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-31T08:48:48Z) - A Guide To Effectively Leveraging LLMs for Low-Resource Text Summarization: Data Augmentation and Semi-supervised Approaches [12.582774521907227]
低リソーステキスト要約のための既存のアプローチは、主に推論時に大きな言語モデル(LLM)を使用して要約を直接生成する。
低リソーステキスト要約に LLM を効果的に活用する2つの新しい手法を提案する: 1) LLM ベースのデータ拡張方式である MixSumm と、(2) PPSL は、サンプル効率の半教師付きテキスト要約のための即時的な擬似ラベル方式である。
論文 参考訳(メタデータ) (2024-07-10T03:25:47Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。