論文の概要: B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing
- arxiv url: http://arxiv.org/abs/2501.16724v1
- Date: Tue, 28 Jan 2025 06:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:31.276515
- Title: B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing
- Title(参考訳): B-RIGHT:汎用オブジェクトインタラクションテストにおける統合性のベンチマーク再評価
- Authors: Yoojin Jang, Junsu Kim, Hayeon Kim, Eun-ki Lee, Eun-sol Kim, Seungryul Baek, Jaejun Yoo,
- Abstract要約: 人間と物体の相互作用(HOI)は人工知能(AI)において不可欠な問題である
HICO-DETのような現在のベンチマークは以下の制限に直面している。
一般対象インタラクションテスト(B-RIGHT)における統合性のベンチマーク再評価という,新たなクラスバランスデータセットを提案する。
- 参考スコア(独自算出の注目度): 18.822653709976784
- License:
- Abstract: Human-object interaction (HOI) is an essential problem in artificial intelligence (AI) which aims to understand the visual world that involves complex relationships between humans and objects. However, current benchmarks such as HICO-DET face the following limitations: (1) severe class imbalance and (2) varying number of train and test sets for certain classes. These issues can potentially lead to either inflation or deflation of model performance during evaluation, ultimately undermining the reliability of evaluation scores. In this paper, we propose a systematic approach to develop a new class-balanced dataset, Benchmark Re-evaluation for Integrity in Generalized Human-object Interaction Testing (B-RIGHT), that addresses these imbalanced problems. B-RIGHT achieves class balance by leveraging balancing algorithm and automated generation-and-filtering processes, ensuring an equal number of instances for each HOI class. Furthermore, we design a balanced zero-shot test set to systematically evaluate models on unseen scenario. Re-evaluating existing models using B-RIGHT reveals substantial the reduction of score variance and changes in performance rankings compared to conventional HICO-DET. Our experiments demonstrate that evaluation under balanced conditions ensure more reliable and fair model comparisons.
- Abstract(参考訳): 人間-物体相互作用(Human-object Interaction、HOI)は、人間と物体の間の複雑な関係を含む視覚世界を理解することを目的とした人工知能(AI)において不可欠な問題である。
しかし、HICO-DETのような現在のベンチマークでは、(1)厳しいクラス不均衡と(2)特定のクラスに対する列車とテストセットの数の変化という制限に直面している。
これらの問題は、評価中のモデルパフォーマンスのインフレまたはデフレにつながる可能性があり、最終的に評価スコアの信頼性を損なう可能性がある。
本稿では、これらの不均衡問題に対処する、新しいクラスバランスデータセットであるベンチマーク再評価法(B-RIGHT)を提案する。
B-RIGHTは、バランシングアルゴリズムと自動生成・フィルタリングプロセスを活用することで、クラスバランスを実現し、HOIクラス毎に同じ数のインスタンスを確保する。
さらに,両立したゼロショットテストセットを設計し,未知のシナリオのモデルを体系的に評価する。
B-RIGHTを用いた既存モデルの再評価により,従来のHICO-DETと比較してスコア分散の低減と性能評価の変化が顕著に示された。
実験により, バランスの取れた条件下での評価により, より信頼性が高く, 公平なモデル比較が可能であることが示された。
関連論文リスト
- QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - Rethinking Self-Supervision Objectives for Generalizable Coherence
Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。
タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。
本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文 参考訳(メタデータ) (2021-10-14T07:44:14Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。