論文の概要: CONGRA: Benchmarking Automatic Conflict Resolution
- arxiv url: http://arxiv.org/abs/2409.14121v1
- Date: Sat, 21 Sep 2024 12:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:33:25.625766
- Title: CONGRA: Benchmarking Automatic Conflict Resolution
- Title(参考訳): CONGRA: 自動衝突解決のベンチマーク
- Authors: Qingyu Zhang, Liangcai Su, Kai Ye, Chenxiong Qian,
- Abstract要約: ConGraは、ソフトウェアマージツールのパフォーマンスを評価するために設計されたベンチマークスキームである。
我々は34の現実世界プロジェクトから44,948のコンフリクトに基づいて大規模な評価データセットを構築した。
- 参考スコア(独自算出の注目度): 3.9910625211670485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resolving conflicts from merging different software versions is a challenging task. To reduce the overhead of manual merging, researchers develop various program analysis-based tools which only solve specific types of conflicts and have a limited scope of application. With the development of language models, researchers treat conflict code as text, which theoretically allows for addressing almost all types of conflicts. However, the absence of effective conflict difficulty grading methods hinders a comprehensive evaluation of large language models (LLMs), making it difficult to gain a deeper understanding of their limitations. Furthermore, there is a notable lack of large-scale open benchmarks for evaluating the performance of LLMs in automatic conflict resolution. To address these issues, we introduce ConGra, a CONflict-GRAded benchmarking scheme designed to evaluate the performance of software merging tools under varying complexity conflict scenarios. We propose a novel approach to classify conflicts based on code operations and use it to build a large-scale evaluation dataset based on 44,948 conflicts from 34 real-world projects. We evaluate state-of-the-art LLMs on conflict resolution tasks using this dataset. By employing the dataset, we assess the performance of multiple state-of-the-art LLMs and code LLMs, ultimately uncovering two counterintuitive yet insightful phenomena. ConGra will be released at https://github.com/HKU-System-Security-Lab/ConGra.
- Abstract(参考訳): ソフトウェアバージョンをマージすることによるコンフリクトの解決は、難しい作業です。
手動マージのオーバーヘッドを軽減するため、研究者は特定の種類の競合を解決し、適用範囲が限定されたプログラム分析ベースの様々なツールを開発した。
言語モデルの開発により、研究者はコンフリクトコードをテキストとして扱い、理論的にはほとんど全てのコンフリクトに対処することができる。
しかし、効果的な競合の難易度評価手法が存在しないことは、大きな言語モデル(LLM)の包括的な評価を妨げ、それらの制限をより深く理解することは困難である。
さらに、自動競合解決におけるLLMの性能を評価するための大規模なオープンベンチマークが欠如している。
このような問題に対処するため,Conflict-GRAdedベンチマーク方式であるConGraを導入する。
コード操作に基づいてコンフリクトを分類し,34の実世界のプロジェクトから44,948のコンフリクトに基づいて大規模評価データセットを構築するための新しいアプローチを提案する。
このデータセットを用いて、競合解決タスクにおける最先端LCMの評価を行う。
このデータセットを用いることで、複数の最先端LLMとコードLLMの性能を評価し、最終的には2つの反直感的だが洞察力に富んだ現象を明らかにする。
ConGraはhttps://github.com/HKU-System-Security-Lab/ConGraでリリースされる。
関連論文リスト
- LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Detecting Semantic Conflicts with Unit Tests [5.273883263686449]
ブランチとマージはソフトウェア開発における一般的なプラクティスであり、開発者の生産性を高める。
現代のマージ技術は、テキストの衝突を自動的に解決するが、意味レベルでの衝突が発生すると失敗する。
単体テストの自動生成に基づくセマンティックマージツールであるSemAntic Mergeを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。