論文の概要: SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems
- arxiv url: http://arxiv.org/abs/2605.10246v1
- Date: Mon, 11 May 2026 09:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.684286
- Title: SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems
- Title(参考訳): SciIntegrity-Bench:AIサイエンティストシステムにおける学術的統合性の評価ベンチマーク
- Authors: Zonglin Yang, Xingtong Liu, Xinyan Xu,
- Abstract要約: 本稿では,SCIINTEGRITY-BENCHについて紹介する。
11のトラップカテゴリにまたがる33のシナリオがそれぞれ構築されており、失敗の正直な認識が唯一の正しい応答である。
231を越える評価は、7つの最先端のLCMにまたがって行われ、全体的な完全性問題は34.2%に達し、モデルがゼロ失敗を達成することはない。
- 参考スコア(独自算出の注目度): 5.788036761318339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI scientist systems are increasingly deployed for autonomous research, yet their academic integrity has never been systematically evaluated. We introduce SCIINTEGRITY-BENCH, the first benchmark designed around a dilemmatic evaluation paradigm: each of its 33 scenarios across 11 trap categories is constructed so that honest acknowledgment of failure is the only correct response, while task completion requires misconduct. Across 231 evaluation runs spanning 7 state-of-the-art LLMs, the overall integrity problem rate reaches 34.2%, and no model achieves zero failures. Most strikingly, across missing-data scenarios, all seven models generate synthetic data rather than acknowledging infeasibility, differing only in whether they disclose the substitution. A further prompt ablation study separates two drivers: removing explicit completion pressure sharply reduces undisclosed fabrication from 20.6% to 3.2%, while the underlying synthesis rate remains unchanged, revealing an intrinsic completion bias that persists independent of prompt-level instructions. These findings point to the absence of honest refusal as a trained disposition as the primary driver of observed failures. We release SCIINTEGRITY-BENCH at https://github.com/liuxingtong/Sci-Integrity-Bench.
- Abstract(参考訳): AI科学者システムは、自律的な研究のためにますますデプロイされているが、その学術的完全性は体系的に評価されていない。
SCIINTEGRITY-BENCHは,11のカテゴリにまたがる33のシナリオのそれぞれが,失敗の正直な認識が唯一の正しい応答であるように構成され,タスク完了には不正な処理が必要である。
231を越える評価は、7つの最先端のLCMにまたがって行われ、全体的な完全性問題は34.2%に達し、モデルがゼロ失敗を達成することはない。
もっとも注目すべきは、データ不足のシナリオにおいて、すべての7つのモデルが、実現可能性を認めるのではなく、合成データを生成することだ。
明示的な完成圧力を除去することで、未公表の加工が20.6%から3.2%に急激に減少する一方、基礎となる合成速度は変化せず、プロンプトレベルの指示とは無関係に固有の完成バイアスが現れる。
これらの結果から, 観察障害の主要因として, 訓練された転位としての正直な拒絶が欠如していることが示唆された。
SCIINTEGRITY-BENCH at https://github.com/liuxingtong/Sci-Integrity-Bench。
関連論文リスト
- Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems [52.83669998269706]
テキストのみの設定で研究されてきたが、まだマルチモーダルに探索されていない。
現在のベンチマークでは、未解決性を無視するか、現実的な障害モードを見逃す粗末なメソッドに依存している。
MM-AQAは、2つの軸に沿った変換によって解答不能なインスタンスを解答可能なインスタンスから構築するベンチマークである。
論文 参考訳(メタデータ) (2026-04-16T09:23:22Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving [0.0]
このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
論文 参考訳(メタデータ) (2026-01-21T15:49:04Z) - Fact or Facsimile? Evaluating the Factual Robustness of Modern Retrievers [34.31192184496381]
デンスレトリバーとリランカーは、検索強化世代(RAG)パイプラインの中心である。
我々は,これらのコンポーネントがベースとする大規模言語モデル(LLM)をどの程度の事実的能力で継承するか,あるいは失うかを評価する。
全ての埋め込みモデルにおいて、クエリと正しい完了の間のコサイン類似度スコアは、間違ったものよりも著しく高い。
論文 参考訳(メタデータ) (2025-08-28T04:13:51Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - A Scalable and Generalized Deep Learning Framework for Anomaly Detection in Surveillance Videos [0.47279903800557493]
ビデオにおける異常検出は、暴力、万引き、破壊など、複雑さ、騒音、多様な活動の性質のために困難である。
既存のアプローチでは、広範囲な再トレーニングなしに、さまざまな異常なタスクにディープラーニングモデルを適用するのに苦労しています。
本研究では,特徴一般化向上のための伝達学習,特徴表現向上のためのモデル融合,マルチタスク分類という,3つの重要なコンポーネントからなる新しいDLフレームワークを導入する。
RLVSデータセット(違反検出)では97.99%、UCFデータセットでは83.59%の精度を達成した。
論文 参考訳(メタデータ) (2024-07-17T22:41:12Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。