論文の概要: CriticAL: Critic Automation with Language Models
- arxiv url: http://arxiv.org/abs/2411.06590v1
- Date: Sun, 10 Nov 2024 20:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:54.918397
- Title: CriticAL: Critic Automation with Language Models
- Title(参考訳): Critical: 言語モデルによる批判的自動化
- Authors: Michael Y. Li, Vivek Vajipey, Noah D. Goodman, Emily B. Fox,
- Abstract要約: Criticalは、モデル予測とデータ間の不一致をキャプチャする要約統計を生成する。
批評家は、誤った批判を幻覚させることなく確実に正しい批評を生成する。
- 参考スコア(独自算出の注目度): 31.1575961776287
- License:
- Abstract: Understanding the world through models is a fundamental goal of scientific research. While large language model (LLM) based approaches show promise in automating scientific discovery, they often overlook the importance of criticizing scientific models. Criticizing models deepens scientific understanding and drives the development of more accurate models. Automating model criticism is difficult because it traditionally requires a human expert to define how to compare a model with data and evaluate if the discrepancies are significant--both rely heavily on understanding the modeling assumptions and domain. Although LLM-based critic approaches are appealing, they introduce new challenges: LLMs might hallucinate the critiques themselves. Motivated by this, we introduce CriticAL (Critic Automation with Language Models). CriticAL uses LLMs to generate summary statistics that capture discrepancies between model predictions and data, and applies hypothesis tests to evaluate their significance. We can view CriticAL as a verifier that validates models and their critiques by embedding them in a hypothesis testing framework. In experiments, we evaluate CriticAL across key quantitative and qualitative dimensions. In settings where we synthesize discrepancies between models and datasets, CriticAL reliably generates correct critiques without hallucinating incorrect ones. We show that both human and LLM judges consistently prefer CriticAL's critiques over alternative approaches in terms of transparency and actionability. Finally, we show that CriticAL's critiques enable an LLM scientist to improve upon human-designed models on real-world datasets.
- Abstract(参考訳): モデルを通して世界を理解することは科学研究の基本的な目標である。
大規模言語モデル(LLM)に基づくアプローチは、科学的発見の自動化において有望であることを示しているが、科学モデルを批判することの重要性をしばしば見落としている。
批判モデルにより科学的理解が深まり、より正確なモデルの開発が進められる。
モデル批判の自動化は、伝統的に人間の専門家が、モデルとデータを比較する方法を定義し、相違点が重要であるかどうかを評価する必要があるため、難しい。
LLMベースの批判的アプローチは魅力的だが、彼らは新しい課題を紹介している: LLMは批判そのものを幻覚させるかもしれない。
これを受けて、CryticAL (Critic Automation with Language Models)を紹介した。
Critical は LLM を用いて、モデル予測とデータ間の不一致をキャプチャする要約統計を生成し、仮説テストを適用してそれらの重要性を評価する。
Criticalを仮説テストフレームワークに組み込むことで、モデルとその批判を検証する検証器とみなすことができる。
実験では,重要な量的および質的次元におけるCriticalの評価を行った。
モデルとデータセットの相違点を合成する環境では、Criticalは誤った批判を幻覚することなく確実に正しい批判を生成する。
我々は,人間とLLMの審査員が,透明性と行動可能性の観点から,代替アプローチに対する批評家の批判を常に好んでいることを示す。
最後に、CriticALの批判により、LLM科学者が現実世界のデータセット上で人間設計モデルを改善することができることを示す。
関連論文リスト
- Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。
メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2024-01-09T12:20:41Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Self-critiquing models for assisting human evaluators [11.1006983438712]
我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。
トピックベースの要約タスクでは、私たちのモデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立ちます。
より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットがあるにもかかわらず、自己批判の方が優れている。
論文 参考訳(メタデータ) (2022-06-12T17:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。