論文の概要: Sentiment Analysis through LLM Negotiations
- arxiv url: http://arxiv.org/abs/2311.01876v1
- Date: Fri, 3 Nov 2023 12:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-06 14:07:11.237636
- Title: Sentiment Analysis through LLM Negotiations
- Title(参考訳): LLM交渉による感性分析
- Authors: Xiaofei Sun, Xiaoya Li, Shengyu Zhang, Shuhe Wang, Fei Wu, Jiwei Li,
Tianwei Zhang, Guoyin Wang
- Abstract要約: 感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.67939611291001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A standard paradigm for sentiment analysis is to rely on a singular LLM and
makes the decision in a single round under the framework of in-context
learning. This framework suffers the key disadvantage that the single-turn
output generated by a single LLM might not deliver the perfect decision, just
as humans sometimes need multiple attempts to get things right. This is
especially true for the task of sentiment analysis where deep reasoning is
required to address the complex linguistic phenomenon (e.g., clause
composition, irony, etc) in the input.
To address this issue, this paper introduces a multi-LLM negotiation
framework for sentiment analysis. The framework consists of a reasoning-infused
generator to provide decision along with rationale, a explanation-deriving
discriminator to evaluate the credibility of the generator. The generator and
the discriminator iterate until a consensus is reached. The proposed framework
naturally addressed the aforementioned challenge, as we are able to take the
complementary abilities of two LLMs, have them use rationale to persuade each
other for correction.
Experiments on a wide range of sentiment analysis benchmarks (SST-2, Movie
Review, Twitter, yelp, amazon, IMDB) demonstrate the effectiveness of proposed
approach: it consistently yields better performances than the ICL baseline
across all benchmarks, and even superior performances to supervised baselines
on the Twitter and movie review datasets.
- Abstract(参考訳): 感情分析の標準的なパラダイムは、単一のLLMに依存し、コンテキスト内学習の枠組みの下で1ラウンドで決定することである。
このフレームワークは、1つのLCMによって生成された1ターンの出力が完璧な決定を下さないという重要な欠点を被る。
これは、入力の複雑な言語的現象(例えば、節構成、皮肉など)に対処するために深い推論を必要とする感情分析のタスクに特に当てはまる。
本稿では,感情分析のためのマルチLLM交渉フレームワークを提案する。
このフレームワークは、意思決定を提供する推論操作型ジェネレータと、ジェネレータの信頼性を評価するための説明導出識別器で構成される。
発電機と識別器は合意に達するまで反復する。
提案手法は, 上記の課題に自然に対処し, 2つのLCMの相補的能力を利用して, 相互に合理性を利用して補正を行う。
幅広い感情分析ベンチマーク(SST-2、Movie Review、Twitter、yelp、amazon、IMDB)の実験では、提案されたアプローチの有効性が示されている。
関連論文リスト
- Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - What Has Been Lost with Synthetic Evaluation? [43.773053236733425]
大規模言語モデル(LLM)は、データ生成にますます使われている。
オーバーテキストベンチマークを生成することにより, LLM が要求を満たすことができるかどうかを検討する。
我々は、LLMが人間によって認可されたものよりも難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-05-28T20:12:32Z) - Are LLMs complicated ethical dilemma analyzers? [6.8995057589960895]
実世界の倫理的ジレンマと専門家の意見からなるベンチマークデータセットを導入する。
BLEU, Damerau-Levenshtein 距離, TF-IDF 類似度, Universal Sentence 類似度に基づく複合計量フレームワークを用いて, マルチフロンティア大言語モデル (LLM) の評価を行った。
GPT-4o-miniは全区間でほぼ一貫した性能を示し,LLMは語彙的,構造的アライメントにおいて非熟練人間よりも優れていた。
論文 参考訳(メタデータ) (2025-05-12T22:35:07Z) - Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - RVISA: Reasoning and Verification for Implicit Sentiment Analysis [18.836998294161834]
暗黙の感情分析(ISA)は、表現に有能なキュー語が欠如していることで大きな課題となる。
本研究では,DO LLMの生成能力とED LLMの推論能力を利用した2段階推論フレームワークであるRVISAを提案する。
論文 参考訳(メタデータ) (2024-07-02T15:07:54Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。