論文の概要: BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task
- arxiv url: http://arxiv.org/abs/2604.26986v1
- Date: Tue, 28 Apr 2026 20:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.698899
- Title: BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task
- Title(参考訳): BatteryPass-12K:新しいデジタルバッテリー・パスポート・コンフォーマンス・タスクのための最初のデータセット
- Authors: Tosin Adewumi, Martin Karlsson, Lama Alkhaled, Marcus Liwicki,
- Abstract要約: 本稿では,デジタルバッテリパスポート(DBP)分類タスクであるBatteryPass-12Kに関する最初の公開ベンチマークを紹介する。
これは、EUのDBPに関するバッテリ規制がまもなく発効し、パブリックデータセットが存在しないためである。
ゼロショット推論では22の言語モデル (LM) が評価され, 小さいLM (SLM) , 専門家 (MoEs) と高密度LSM が混在している。
- 参考スコア(独自算出の注目度): 5.4156846785975725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel task of digital battery passport (DBP) conformance classification and introduce the first public benchmark for the task: BatteryPass-12K, created synthetically from real pilot samples. This is as the EU's battery regulation on DBPs comes into effect soon and there exists no public dataset. We evaluated 22 language models (LMs) in zero-shot inference, spanning small LMs (SLMs), mixture of experts (MoEs), and dense LLMs. We also conducted analysis, additional evaluations of few-shot inference and prompt-injection attacks to find that (1) Thinking models have the best performance (with GPT-5.4 scoring 0.98 (0.03) and 0.71 (0.22) on average as F1 (and confidence interval at 95%) on the validation and test sets, respectively), (2) few-shot examples improve performance significantly, (3) generally capable frontier models find the task challenging, (4) merely scaling model parameters does not necessarily lead to improved performance, as SLMs outperformed some LLMs, and (5) prompt-injection attacks degrade performance. We note that BatteryPass-12K, though limited to real pilot samples, may be useful for other known or emerging tasks in the battery domain, e.g. lifecycle reasoning. We publicly release the dataset under a permissive licence (CC-BY-4.0).
- Abstract(参考訳): 本稿では,デジタルバッテリパスポート(DBP)適合度分類の新たなタスクを導入し,実際のパイロットサンプルから合成して作成したBatteryPass-12Kというタスクのための最初の公開ベンチマークを紹介する。
これは、EUのDBPに関するバッテリ規制がまもなく発効し、パブリックデータセットが存在しないためである。
ゼロショット推論では22の言語モデル (LM) が評価され, 小さいLM (SLM) , 専門家 (MoE) と高密度LSM が混在していた。
また, 分析, 数発推論, 即発インジェクション攻撃のさらなる評価を行い, 1) 思考モデルがF1(および検証およびテストセットの95%の信頼区間)で平均0.98(0.03)と0.71(0.22)の最高性能を有すること, (2) 少数ショットモデルではタスクが困難であること, (4) モデルパラメータを単にスケーリングすることは必ずしも性能が向上するとは限らないこと, (5) SLMが一部のLLMより優れていること, (5) 即発インジェクション攻撃は性能が低下すること, などを検討した。
BatteryPass-12Kは実際のパイロットサンプルに限られていますが、バッテリードメイン内の既知のタスクや新しいタスク、例えばライフサイクルの推論に役立ちます。
我々は、そのデータセットをパーミッシブライセンス(CC-BY-4.0)で公開する。
関連論文リスト
- MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - Hard Negatives, Hard Lessons: Revisiting Training Data Quality for Robust Information Retrieval with LLMs [53.78110936809744]
堅牢で再帰的なモデルのトレーニングは通常、大規模なデータセットに依存します。
トレーニングデータセットにおいて、偽陰性を識別し、許容する。
トレーニングデータセットとコードは公開されています。
論文 参考訳(メタデータ) (2025-05-22T17:47:57Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - BatteryLife: A Comprehensive Dataset and Benchmark for Battery Life Prediction [18.442323084350875]
バッテリライフ予測(Battery Life Prediction, BLP)のための包括的なデータセットとベンチマークであるバッテリライフを提案する。
BatteryLifeは16のデータセットを統合し、前回の最大のデータセットの2.5倍のサンプルサイズを提供する。
BatteryLifeは、亜鉛イオン電池、ナトリウムイオン電池、そして業界でテストされているリチウムイオン電池のバッテリー寿命データセットを初めてリリースした。
論文 参考訳(メタデータ) (2025-02-26T04:21:20Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。