論文の概要: B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing
- arxiv url: http://arxiv.org/abs/2501.16724v1
- Date: Tue, 28 Jan 2025 06:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:11.064773
- Title: B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing
- Title(参考訳): B-RIGHT:汎用オブジェクトインタラクションテストにおける統合性のベンチマーク再評価
- Authors: Yoojin Jang, Junsu Kim, Hayeon Kim, Eun-ki Lee, Eun-sol Kim, Seungryul Baek, Jaejun Yoo,
- Abstract要約: 人間と物体の相互作用(HOI)は人工知能(AI)において不可欠な問題である
HICO-DETのような現在のベンチマークは以下の制限に直面している。
一般対象インタラクションテスト(B-RIGHT)における統合性のベンチマーク再評価という,新たなクラスバランスデータセットを提案する。
- 参考スコア(独自算出の注目度): 18.822653709976784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-object interaction (HOI) is an essential problem in artificial intelligence (AI) which aims to understand the visual world that involves complex relationships between humans and objects. However, current benchmarks such as HICO-DET face the following limitations: (1) severe class imbalance and (2) varying number of train and test sets for certain classes. These issues can potentially lead to either inflation or deflation of model performance during evaluation, ultimately undermining the reliability of evaluation scores. In this paper, we propose a systematic approach to develop a new class-balanced dataset, Benchmark Re-evaluation for Integrity in Generalized Human-object Interaction Testing (B-RIGHT), that addresses these imbalanced problems. B-RIGHT achieves class balance by leveraging balancing algorithm and automated generation-and-filtering processes, ensuring an equal number of instances for each HOI class. Furthermore, we design a balanced zero-shot test set to systematically evaluate models on unseen scenario. Re-evaluating existing models using B-RIGHT reveals substantial the reduction of score variance and changes in performance rankings compared to conventional HICO-DET. Our experiments demonstrate that evaluation under balanced conditions ensure more reliable and fair model comparisons.
- Abstract(参考訳): 人間-物体相互作用(Human-object Interaction、HOI)は、人間と物体の間の複雑な関係を含む視覚世界を理解することを目的とした人工知能(AI)において不可欠な問題である。
しかし、HICO-DETのような現在のベンチマークでは、(1)厳しいクラス不均衡と(2)特定のクラスに対する列車とテストセットの数の変化という制限に直面している。
これらの問題は、評価中のモデルパフォーマンスのインフレまたはデフレにつながる可能性があり、最終的に評価スコアの信頼性を損なう可能性がある。
本稿では、これらの不均衡問題に対処する、新しいクラスバランスデータセットであるベンチマーク再評価法(B-RIGHT)を提案する。
B-RIGHTは、バランシングアルゴリズムと自動生成・フィルタリングプロセスを活用することで、クラスバランスを実現し、HOIクラス毎に同じ数のインスタンスを確保する。
さらに,両立したゼロショットテストセットを設計し,未知のシナリオのモデルを体系的に評価する。
B-RIGHTを用いた既存モデルの再評価により,従来のHICO-DETと比較してスコア分散の低減と性能評価の変化が顕著に示された。
実験により, バランスの取れた条件下での評価により, より信頼性が高く, 公平なモデル比較が可能であることが示された。
関連論文リスト
- Enhancing Classifier Evaluation: A Fairer Benchmarking Strategy Based on Ability and Robustness [0.4749981032986242]
本研究では,項目応答理論(IRT)とGlicko-2レーティングシステムを組み合わせた新しい評価手法を提案する。
IRTは難しいインスタンスよりもパフォーマンスに基づいて分類器の能力を評価し、Glicko-2はパフォーマンスメトリクスを更新します。
OpenML-CC18ベンチマークを使用したケーススタディでは、データセットの15%だけが本当に難しいことが判明した。
論文 参考訳(メタデータ) (2025-04-13T23:54:08Z) - FILM: Framework for Imbalanced Learning Machines based on a new unbiased performance measure and a new ensemble-based technique [37.94431794242543]
本研究は,バイナリ分類タスクの非バランスなデータセットを扱う際の課題に対処する。
標準評価指標は、しばしば少数民族の不均等な表現に偏っている。
本稿では, バイアスを著しく低減した新しい指標Unbiased Integration Coefficientsを提案する。
論文 参考訳(メタデータ) (2025-03-06T12:15:56Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。