Fugu-MT 論文翻訳(概要): Multi-role Consensus through LLMs Discussions for Vulnerability Detection

論文の概要: Multi-role Consensus through LLMs Discussions for Vulnerability Detection

arxiv url: http://arxiv.org/abs/2403.14274v2
Date: Wed, 10 Apr 2024 08:53:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 16:47:58.791353
Title: Multi-role Consensus through LLMs Discussions for Vulnerability Detection
Title（参考訳）: 脆弱性検出のためのLLMによるマルチロールコンセンサス
Authors: Zhenyu Mao, Jialong Li, Munan Li, Kenji Tei,
Abstract要約: 本稿では,LLMを実生活におけるコードレビュープロセスのシミュレートに役立てるためのマルチロール手法を提案する。予備評価では、精度が4.73%上昇し、リコールレートが58.9%上昇し、F1スコアが28.1%上昇している。
参考スコア（独自算出の注目度）: 0.7632131964566042
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in large language models (LLMs) have highlighted the potential for vulnerability detection, a crucial component of software quality assurance. Despite this progress, most studies have been limited to the perspective of a single role, usually testers, lacking diverse viewpoints from different roles in a typical software development life-cycle, including both developers and testers. To this end, this paper introduces a multi-role approach to employ LLMs to act as different roles to simulate real-life code review process, engaging in discussions towards a consensus on the existence and classification of vulnerabilities in the code. Preliminary evaluation of the proposed approach indicates a 4.73% increase in the precision rate, 58.9% increase in the recall rate, and a 28.1% increase in the F1 score.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア品質保証の重要なコンポーネントである脆弱性検出の可能性を強調している。このような進歩にもかかわらず、ほとんどの研究は、開発者とテスターの両方を含む典型的なソフトウェア開発ライフサイクルにおいて、さまざまな役割からさまざまな視点を欠いているテスターという、単一の役割の観点に限られている。そこで本研究では,LLMを実生活におけるコードレビュープロセスのシミュレートに活用するためのマルチロールアプローチを提案し,コード内の脆弱性の存在と分類に関するコンセンサスを議論する。提案手法の予備評価では、精度が4.73%向上し、リコールレートが58.9%上昇し、F1スコアが28.1%上昇した。

関連論文リスト

Counterfactual Fairness Evaluation of LLM-Based Contact Center Agent Quality Assurance System [2.5609209153559513]
大きな言語モデル(LLM)は、エージェントのパフォーマンス評価とコーチングフィードバックを自動化するために、コンタクトセンタの品質保証(QA)にますますデプロイされています。本稿では, LLMに基づくQAシステムにおいて, 同一性, コンテキスト, 行動スタイルの3つのカテゴリにまたがる13次元の正当性評価を行う。
論文参考訳（メタデータ） (2026-02-16T17:56:18Z)
A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era [10.935053388447372]
コードレビューは、開発者が欠陥を早期に検出し、コード品質を改善し、知識共有を促進するのに役立つ、現代のソフトウェアエンジニアリングにおける重要なプラクティスである。大規模言語モデル(LLM)の急速な進歩により、コードレビューの自動化サポートについて研究が進められている。現在のコードレビューデータセットは散在しており、設計は様々であり、レビュー機能が実際に評価されているかについての限られた洞察を提供する。
論文参考訳（メタデータ） (2026-02-13T18:19:38Z)
Evaluating Variance in Visual Question Answering Benchmarks [0.9065034043031668]
視覚的質問応答(VQA)のための強力なツールとしてマルチモーダル大言語モデル(MLLM)が登場している。それらの進歩にもかかわらず、VQAベンチマークにおけるMLLMの評価は、しばしば点推定に依存する。本稿では、14の広く使用されているVQAベンチマークを分析し、これらの問題を批判的に検証する。
論文参考訳（メタデータ） (2025-08-04T17:37:13Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。広範囲に展開したことにより、大きな安全上の懸念がもたらされた。 LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な能力を示していますが、高い領域への展開には、複数のインタラクションラウンドで一貫したパフォーマンスが必要です。本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを紹介し,その3つの重要な貢献について述べる。
論文参考訳（メタデータ） (2025-03-28T11:49:56Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Aspect-Guided Multi-Level Perturbation Analysis of Large Language Models in Automated Peer Review [36.05498398665352]
自動ピアレビューにおいて,大規模言語モデル(LLM)の堅牢性を評価するために,アスペクト誘導多段階摂動フレームワークを提案する。我々のフレームワークは、ピアレビュープロセスペーパー、レビュー、そして、いくつかの品質面における反論の3つの重要な要素における摂動を探求する。
論文参考訳（メタデータ） (2025-02-18T03:50:06Z)
AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文参考訳（メタデータ） (2025-01-03T23:03:24Z)
DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文参考訳（メタデータ） (2024-12-24T08:53:54Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Evaluating and Advancing Multimodal Large Language Models in Ability Lens [30.083110119139793]
textbfAbilityLensは、6つの重要な知覚能力にまたがるMLLMを評価するために設計された統一ベンチマークである。現在のモデルの長所と短所を特定し、安定性のパターンを強調し、オープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにします。また、早期訓練段階から最高の能力チェックポイントを組み合わせ、能力衝突による性能低下を効果的に軽減する、簡易な能力特異的モデルマージ手法を設計する。
論文参考訳（メタデータ） (2024-11-22T04:41:20Z)
Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文参考訳（メタデータ） (2023-11-01T17:42:45Z)
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文参考訳（メタデータ） (2023-08-10T06:43:44Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。