Fugu-MT 論文翻訳(概要): Comprehensive Evaluation of Large Language Models for Topic Modeling

論文の概要: Comprehensive Evaluation of Large Language Models for Topic Modeling

arxiv url: http://arxiv.org/abs/2406.00697v2
Date: Tue, 25 Jun 2024 08:42:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 19:39:42.359475
Title: Comprehensive Evaluation of Large Language Models for Topic Modeling
Title（参考訳）: トピックモデリングのための大規模言語モデルの包括的評価
Authors: Tomoki Doi, Masaru Isonuma, Hitomi Yanaka,
Abstract要約: トピックモデリングのための大規模言語モデル(LLM)を定量的に評価する。 LLMは幻覚の少ないコヒーレントで多様なトピックを識別できるが、文書の一部だけに着目してショートカットを行う可能性がある。
参考スコア（独自算出の注目度）: 18.317976368281716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work utilizes Large Language Models (LLMs) for topic modeling, generating comprehensible topic labels for given documents. However, their performance has mainly been evaluated qualitatively, and there remains room for quantitative investigation of their capabilities. In this paper, we quantitatively evaluate LLMs from multiple perspectives: the quality of topics, the impact of LLM-specific concerns, such as hallucination and shortcuts for limited documents, and LLMs' controllability of topic categories via prompts. Our findings show that LLMs can identify coherent and diverse topics with few hallucinations but may take shortcuts by focusing only on parts of documents. We also found that their controllability is limited.
Abstract（参考訳）: 最近の研究は、トピックモデリングにLarge Language Models(LLM)を使用し、与えられたドキュメントの理解可能なトピックラベルを生成する。しかし、その性能は主に質的に評価されており、その能力について定量的に調べる余地は残されている。本稿では,トピックの品質,限定文書の幻覚やショートカットなど,LLM固有の関心事の影響,トピックカテゴリのプロンプトによる制御性など,複数の観点からLLMを定量的に評価する。以上の結果から,LLMは幻覚の少ないコヒーレント・多種多様なトピックを識別できるが,文書の部分のみに着目してショートカットを行う可能性が示唆された。コントロール性も制限されていることもわかりました。

関連論文リスト

How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
OnionEval: An Unified Evaluation of Fact-conflicting Hallucination for Small-Large Language Models [6.727694415099734]
OnionEvalは、異なる文脈レベルにわたる小さなLLMの事実にかかわる幻覚傾向を評価するように設計されている。その結果,SLLM の重要な特徴は,事実分析に優れ,文脈推論による課題に直面していることがわかった。さらなる調査は、単純なChain-of-Thought戦略がこれらの制限を大幅に削減できることを示している。
論文参考訳（メタデータ） (2025-01-22T15:59:44Z)
LITA: An Efficient LLM-assisted Iterative Topic Augmentation Framework [0.0]
大きな言語モデル(LLM)は動的トピックの洗練と発見の可能性を秘めている。これらの課題に対処するため、LLM支援反復トピック拡張フレームワーク(LITA)を提案する。 LITAは、ユーザが提供するシードと埋め込みベースのクラスタリングと反復的な改良を統合している。
論文参考訳（メタデータ） (2024-12-17T01:43:44Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling [1.0345450222523374]
強力なゼロショットトピック抽出機能を備えた大規模言語モデル(LLM)は確率論的トピックモデリングに代わるものだ。本稿では,LLMに基づくトピックモデリングにおけるトピックの粒度と幻覚の問題に対処することに焦点を当てる。提案手法は, 従来の人間のアノテーションに頼らず, 生トピックの修正に再構築パイプラインを用いる。
論文参考訳（メタデータ） (2024-05-01T16:32:07Z)
Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling [0.9095496510579351]
広範テキストコーパス内の話題を明らかにする代替手段として,大規模言語モデル (LLM) の未解決の可能性について検討する。本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
論文参考訳（メタデータ） (2024-03-24T17:39:51Z)
Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。この制限に寄与できる4つの独立した要因を特定します。オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文参考訳（メタデータ） (2024-02-12T03:04:42Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? [19.814974042343028]
科学的な要約タスクにおける大規模言語モデル(LLM)の可制御性について検討する。 MuP レビュー生成タスクでは,非微調整 LLM が人間より優れていることが判明した。
論文参考訳（メタデータ） (2024-01-18T23:00:54Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。