このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240613となっている論文です。

PDF登録状況(公開日: 20240613)

TitleAuthorsAbstract論文公表日・翻訳日
# ChatISA: コーディング,プロジェクト管理,インタビュー,エキシマ準備活動のための,プロンプト駆動型チャットボット

ChatISA: A Prompt-Engineered Chatbot for Coding, Project Management, Interview and Exam Preparation Activities ( http://arxiv.org/abs/2407.15010v1 )

ライセンス: Link先を確認
Fadel M. Megahed, Ying-Ju Chen, Joshua A. Ferris, Cameron Resatar, Kaitlyn Ross, Younghwa Lee, L. Allison Jones-Farmer, (参考訳) 生成的AIが進化を続けるにつれ、教育者は、AI支援の仕事が専門的な成功に不可欠な未来に向けて、学生を準備するという課題に直面している。 本稿では,インフォメーション・システムズ・アンド・アナリティクス部門の学生を支援するために設計された,社内のマルチモデルチャットボットChatISAを紹介する。 ChatISAは4つの主要なモジュール、コーディング・コンパニオン、プロジェクト・コーチ、エクサム・アリー、インタビュー・メンター・チからなる。 反復的な開発、学生のフィードバック、オープンソースフレームワークの利用を通じて、コーディングの問い合わせ、プロジェクト管理、試験の準備、インタビューの準備に対処する堅牢なツールを作成しました。 ChatISAの実装は、倫理的ガイドラインの必要性や、AI利用と学生機関の維持とのバランスなど、重要な洞察と課題を明らかにした。 我々の研究は、教育効果を最大化するために、適応的教育とAIツールとの積極的な関わりの重要性を浮き彫りにした。 より広範な採用とイノベーションをサポートするため、ChatISAのすべてのコードがGitHubで公開されている。

As generative AI continues to evolve, educators face the challenge of preparing students for a future where AI-assisted work is integral to professional success. This paper introduces ChatISA, an in-house, multi-model chatbot designed to support students in an Information Systems and Analytics department. ChatISA comprises four primary modules-Coding Companion, Project Coach, Exam Ally, and Interview Mentor-each tailored to enhance different aspects of the educational experience. Through iterative development, student feedback, and leveraging open-source frameworks, we created a robust tool that addresses coding inquiries, project management, exam preparation, and interview readiness. The implementation of ChatISA revealed significant insights and challenges, including the necessity of ethical guidelines and balancing AI usage with maintaining student agency. Our findings underscore the importance of adaptive pedagogy and proactive engagement with AI tools to maximize their educational benefits. To support broader adoption and innovation, all code for ChatISA is made publicly available on GitHub, enabling other institutions to customize and integrate similar AI-driven educational tools within their curricula.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-13
# 技術受容モデルに基づくJing Dongの自己構築ロジスティックスに関する研究

Research on Jing Dong's Self-built Logistics Based on Technology Acceptance Model ( http://arxiv.org/abs/2407.15011v1 )

ライセンス: Link先を確認
Yunsheng Wang, Jiaxuan Zhao, (参考訳) 中国の電子商取引大手、Jing Dong(ジン・ドン)氏は、自作の物流システムで競争の激しい業界に参入した。 本稿では,Jing Dongの自己構築型ロジスティクスシステムの特徴がユーザ満足度および継続的な使用意図に与える影響を,理論的枠組みとしてTechnology Acceptance Modelを用いて分析した。 本報告では,中国本土のJing Dongユーザおよび潜在的ユーザを対象に,質問紙調査を用いて295個の有効なサンプルを収集した。 データ分析の結果, マーケティング情報品質, 物流システム品質, 物流サービスがJing Dongの自作ロジスティクスの有用性に有意な影響を与え, マーケティング情報品質と物流システム品質のみが自作ロジスティクスの特徴次元における自己構築ロジスティクスの有用性に有意な影響を及ぼすことがわかった。 さらに、製品の使用継続意欲とユーザ満足感は、有用さの知覚によって直接的かつ著しく影響され、使いやすさの認識は、ユーザの有用性やユーザの満足度に影響し、ユーザ満足度は、ユーザがJing Dongショッピングを継続的に使用したり、Jing Dong自作のロジスティクスを使用したりすることで、ユーザの継続意欲に間接的に影響した。

Today is a time of rapid e-commerce development, and Jing Dong, China's e-commerce giant, has taken its place in the highly competitive industry with its self-built logistics system. This paper analyzed the impact of Jing Dong's self-built logistics system characteristics on user satisfaction and continuous use intention by using the Technology Acceptance Model as the theoretical framework. This paper collected 295 valid samples using a questionnaire survey; all the respondents are users and potential users of Jing Dong from mainland China. The empirical results of data analysis showed that marketing information quality, logistics system quality, and logistics service have significant effects on the perceived usefulness of Jing Dong's self-built logistics, while only marketing information quality and logistics system quality have significant effects on the perceived usefulness of self-built logistics among the self-built logistics system characteristics dimensions. Additionally, the willingness to continue using a product and user satisfaction were both directly and significantly impacted by perceived usefulness; perceived ease of use had an indirect impact on users' willingness to continue use by affecting perceived usefulness and user satisfaction, and user satisfaction has the most significant impact on users' continuous use of Jing Dong shopping and using Jing Dong self-built logistics.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-13
# セルオートマタによる貯留層計算はいつ可能か?

On when is Reservoir Computing with Cellular Automata Beneficial? ( http://arxiv.org/abs/2407.09501v1 )

ライセンス: Link先を確認
Tom Glover, Evgeny Osipov, Stefano Nichele, (参考訳) Reservoir Computing with Cellular Automata (ReCA)は比較的新しくて有望なアプローチである。 CA に問題を注入するための符号化スキーム、CA イテレーションのステップ自体、そして単純な分類ステップ(典型的には線形分類器)である。 本稿では,ReCA システムの最も単純な実装であっても,ReCA の概念が有効であることを示す。 しかし、ReCAが機能しているように思われるUCR時系列分類アーカイブの試行は失敗に終わったが、符号化方式自体が原因であり、CAが原因ではないことも報告した。 これはアブレーションテストの必要性、すなわち1つのモデルのサブパートを内部で比較することの必要性を強調し、ReCAがどのタスクに最も適しているかに関してオープンな疑問を提起する。

Reservoir Computing with Cellular Automata (ReCA) is a relatively novel and promising approach. It consists of 3 steps: an encoding scheme to inject the problem into the CA, the CA iterations step itself and a simple classifying step, typically a linear classifier. This paper demonstrates that the ReCA concept is effective even in arguably the simplest implementation of a ReCA system. However, we also report a failed attempt on the UCR Time Series Classification Archive where ReCA seems to work, but only because of the encoding scheme itself, not in any part due to the CA. This highlights the need for ablation testing, i.e., comparing internally with sub-parts of one model, but also raises an open question on what kind of tasks ReCA is best suited for.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-13
# マイクロサービスアーキテクチャによるドキュメントベースの知識発見

A Document-based Knowledge Discovery with Microservices Architecture ( http://arxiv.org/abs/2407.00053v1 )

ライセンス: Link先を確認
Habtom Kahsay Gidey, Mario Kesseler, Patrick Stangl, Peter Hillmann, Andreas Karcher, (参考訳) 組織内のデジタル化への第一歩は、デジタル化 — アナログデータのデジタルストアデータへの変換 — にあります。 この基本的なステップは、プロセスのデジタル化や製品や製品のサービテーションなど、次のすべての活動の前提となる。 しかし、デジタル化自体が「データ豊か」であるが「知識貧乏」につながることが多い。 アプローチとしての知識発見と知識抽出は、デジタル化されたデータの有用性を高めようとしている。 本稿では、知識発見の文脈における重要な課題を指摘し、マイクロサービスアーキテクチャを使ってこれらに対処するためのアプローチを提示します。 提案手法は,キーワード抽出,文書の類似性計算,自然言語によるデータベースクエリ,抽出した情報の独立した提供に焦点をあてた概念設計へと導いた。 さらに、概念設計は、オントロジーの半自動学習、編集、可視化のためのプロセスとアプリケーションを統合するための参照設計ガイドラインを提供する。 マイクロサービスアーキテクチャを使用して、スケーラビリティやレジリエンスといった非機能要件にも対処する。 特定の要件の評価は、その概念を実装したデモレータを用いて行われる。 さらに、この現代的なアプローチは、ドイツの特許庁で拡張版で使用されている。

The first step towards digitalization within organizations lies in digitization - the conversion of analog data into digitally stored data. This basic step is the prerequisite for all following activities like the digitalization of processes or the servitization of products or offerings. However, digitization itself often leads to 'data-rich' but 'knowledge-poor' material. Knowledge discovery and knowledge extraction as approaches try to increase the usefulness of digitized data. In this paper, we point out the key challenges in the context of knowledge discovery and present an approach to addressing these using a microservices architecture. Our solution led to a conceptual design focusing on keyword extraction, similarity calculation of documents, database queries in natural language, and programming language independent provision of the extracted information. In addition, the conceptual design provides referential design guidelines for integrating processes and applications for semi-automatic learning, editing, and visualization of ontologies. The concept also uses a microservices architecture to address non-functional requirements, such as scalability and resilience. The evaluation of the specified requirements is performed using a demonstrator that implements the concept. Furthermore, this modern approach is used in the German patent office in an extended version.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-13
# Bioptic - ターゲット非依存の効率に基づく小型分子検索エンジン

Bioptic -- A Target-Agnostic Efficacy-Based Small Molecules Search Engine ( http://arxiv.org/abs/2406.14572v1 )

ライセンス: Link先を確認
Vlad Vinogradov, Ivan Izmailov, Simon Steshin, Kong T. Nguyen, (参考訳) 近年の仮想スクリーニングの成功は、大規模なモデルと広範な化学ライブラリーによって実現されている。 しかし、これらの要素を組み合わせることは難しい。モデルが大きくなればなるほど、実行コストが高くなり、超大規模なライブラリが実現不可能になる。 そこで我々は, 分子探索モデルを構築し, 類似の生物活性を持つ構造的に異なる分子を探索する方法について検討した。 我々は、プロセッサ最適化SIMD命令に基づいて高速検索システムの設計にベストプラクティスを用いており、超大型の40B Enamine REALライブラリを100倍のリコール率で表示することができる。 我々は、新しい分子の速度性能と検索品質の両面において、我々のモデルと最先端モデルを広範囲にベンチマークした。

Recent successes in virtual screening have been made possible by large models and extensive chemical libraries. However, combining these elements is challenging: the larger the model, the more expensive it is to run, making ultra-large libraries unfeasible. To address this, we developed a target-agnostic, efficacy-based molecule search model, which allows us to find structurally dissimilar molecules with similar biological activities. We used the best practices to design fast retrieval system, based on processor-optimized SIMD instructions, enabling us to screen the ultra-large 40B Enamine REAL library with 100\% recall rate. We extensively benchmarked our model and several state-of-the-art models for both speed performance and retrieval quality of novel molecules.
翻訳日:2024-07-01 07:21:04 公開日:2024-06-13
# 画像テキストマッチングのための高度なマルチモーダルディープラーニングアーキテクチャ

Advanced Multimodal Deep Learning Architecture for Image-Text Matching ( http://arxiv.org/abs/2406.15306v1 )

ライセンス: Link先を確認
Jinyin Wang, Haijing Zhang, Yihao Zhong, Yingbin Liang, Rongwei Ji, Yiru Cang, (参考訳) 画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。 マルチメディア情報時代が到来すると、画像やテキストデータが爆発的な成長を示し、それらの間の効率的かつ正確な意味的対応を正確に実現する方法が、学術や産業において共通の関心事の中心となっている。 本研究では,画像とテキストのペアリング処理において,現在のマルチモーダル深層学習モデルの限界について検討する。 そこで我々は,視覚情報のためのディープニューラルネットワークの高レベル抽象表現能力と,テキスト意味理解のための自然言語処理モデルの利点を組み合わせた,高度なマルチモーダルディープラーニングアーキテクチャを革新的に設計する。 新たなクロスモーダルアテンション機構と階層的特徴融合戦略を導入することにより,画像特徴空間とテキスト特徴空間との深い融合と双方向相互作用を実現する。 さらに,学習過程における画像とテキスト間の潜在的な関連構造をよりよくマッピングできるように,学習目標と損失関数を最適化する。 実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。 さらに、新しいモデルは、大規模で多様なオープンシナリオデータセットに対して優れた一般化とロバスト性を示し、これまで見えなかった複雑な状況に直面した場合でも、高いマッチング性能を維持することができる。

Image-text matching is a key multimodal task that aims to model the semantic association between images and text as a matching relationship. With the advent of the multimedia information age, image, and text data show explosive growth, and how to accurately realize the efficient and accurate semantic correspondence between them has become the core issue of common concern in academia and industry. In this study, we delve into the limitations of current multimodal deep learning models in processing image-text pairing tasks. Therefore, we innovatively design an advanced multimodal deep learning architecture, which combines the high-level abstract representation ability of deep neural networks for visual information with the advantages of natural language processing models for text semantic understanding. By introducing a novel cross-modal attention mechanism and hierarchical feature fusion strategy, the model achieves deep fusion and two-way interaction between image and text feature space. In addition, we also optimize the training objectives and loss functions to ensure that the model can better map the potential association structure between images and text during the learning process. Experiments show that compared with existing image-text matching models, the optimized new model has significantly improved performance on a series of benchmark data sets. In addition, the new model also shows excellent generalization and robustness on large and diverse open scenario datasets and can maintain high matching performance even in the face of previously unseen complex situations.
翻訳日:2024-07-01 07:21:03 公開日:2024-06-13
# 実世界のデータを用いた5Gエネルギー消費のモデリング:エネルギーフィンガープリントは必要なだけ

Modelling the 5G Energy Consumption using Real-world Data: Energy Fingerprint is All You Need ( http://arxiv.org/abs/2406.16929v1 )

ライセンス: Link先を確認
Tingwei Chen, Yantao Wang, Hanzhi Chen, Zijian Zhao, Xinhao Li, Nicola Piovesan, Guangxu Zhu, Qingjiang Shi, (参考訳) 第5世代(5G)無線技術の導入は、前例のない自動化、キャパシティ、接続性、超高速で信頼性の高い通信をもたらす通信に革命をもたらした。 しかし、この技術革新はエネルギー消費が大幅に増加し、大きな課題が浮かび上がっている。 5Gネットワークのエネルギー効率を向上させるためには,基地局特性や運用条件がエネルギー利用に与える影響を正確に反映した高度なモデルを開発することが不可欠である。 本稿では,ITU 5Gベースステーションエネルギー消費モデルチャレンジにおいて,本モデルが第2位となった実世界のデータセットから学習した,新しい5Gベースステーションエネルギー消費モデルを提案する。 基地局識別器(BSID)情報を省略し、異なる基地局で固有のエネルギー指紋を捕捉できない既存の方法とは異なり、BSIDは入力特徴に組み込まれ、正確な表現のために埋め込み層に符号化される。 さらに,モデルの一般化能力と精度をさらに向上させるために,注意機構とともに新しいマスク付きトレーニング手法を導入する。 評価の結果,提案手法は既存モデルよりも大幅に改善され,平均絶対誤差(MAPE)が12.75%から4.98%に減少し,性能が60%以上向上した。

The introduction of fifth-generation (5G) radio technology has revolutionized communications, bringing unprecedented automation, capacity, connectivity, and ultra-fast, reliable communications. However, this technological leap comes with a substantial increase in energy consumption, presenting a significant challenge. To improve the energy efficiency of 5G networks, it is imperative to develop sophisticated models that accurately reflect the influence of base station (BS) attributes and operational conditions on energy usage.Importantly, addressing the complexity and interdependencies of these diverse features is particularly challenging, both in terms of data processing and model architecture design. This paper proposes a novel 5G base stations energy consumption modelling method by learning from a real-world dataset used in the ITU 5G Base Station Energy Consumption Modelling Challenge in which our model ranked second. Unlike existing methods that omit the Base Station Identifier (BSID) information and thus fail to capture the unique energy fingerprint in different base stations, we incorporate the BSID into the input features and encoding it with an embedding layer for precise representation. Additionally, we introduce a novel masked training method alongside an attention mechanism to further boost the model's generalization capabilities and accuracy. After evaluation, our method demonstrates significant improvements over existing models, reducing Mean Absolute Percentage Error (MAPE) from 12.75% to 4.98%, leading to a performance gain of more than 60%.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-13
# MoleculeCLA:計算リガンドターゲット結合解析による分子ベンチマークの再考

MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis ( http://arxiv.org/abs/2406.17797v1 )

ライセンス: Link先を確認
Shikun Feng, Jiaxin Zheng, Yinjun Jia, Yanwen Huang, Fengfeng Zhou, Wei-Ying Ma, Yanyan Lan, (参考訳) 分子表現学習は、薬物発見に関連する様々な分子特性予測タスクにおいて重要である。 ロバストで正確なベンチマークは、現在のメソッドの精錬と検証に不可欠である。 しかし、既存の分子特性ベンチマークは湿式実験から派生したもので、データ体積制限、不均衡ラベル分布、ノイズラベルなどの制限に直面している。 これらの問題に対処するため、我々は約14万個の小さな分子からなる大規模かつ正確な分子表現データセットを構築し、堅牢な計算リガンド-ターゲット結合解析パイプラインから導出した化学、物理的、生物学的特性の広範な配列を巧みに捉えている。 我々は、様々なディープラーニングモデルに関する広範な実験を行い、我々のデータセットが、モデルの開発と設計をガイドするための重要な物理化学的解釈性を提供することを示した。 特に、データセットのプロパティは、結合親和性メトリクスと関連付けられ、ドラッグとターゲットのインタラクションタスクにおけるモデルパフォーマンスに関するさらなる洞察を提供する。 このデータセットは、より正確で信頼性の高い分子表現学習のベンチマークとして機能し、人工知能による薬物発見の分野での進歩を加速するでしょう。

Molecular representation learning is pivotal for various molecular property prediction tasks related to drug discovery. Robust and accurate benchmarks are essential for refining and validating current methods. Existing molecular property benchmarks derived from wet experiments, however, face limitations such as data volume constraints, unbalanced label distribution, and noisy labels. To address these issues, we construct a large-scale and precise molecular representation dataset of approximately 140,000 small molecules, meticulously designed to capture an extensive array of chemical, physical, and biological properties, derived through a robust computational ligand-target binding analysis pipeline. We conduct extensive experiments on various deep learning models, demonstrating that our dataset offers significant physicochemical interpretability to guide model development and design. Notably, the dataset's properties are linked to binding affinity metrics, providing additional insights into model performance in drug-target interaction tasks. We believe this dataset will serve as a more accurate and reliable benchmark for molecular representation learning, thereby expediting progress in the field of artificial intelligence-driven drug discovery.
翻訳日:2024-07-01 06:21:45 公開日:2024-06-13
# mol遺伝子進化によるヒトレベルの分子最適化

Human-level molecular optimization driven by mol-gene evolution ( http://arxiv.org/abs/2406.12910v1 )

ライセンス: Link先を確認
Jiebin Fang, Churu Mao, Yuchen Zhu, Xiaoming Chen, Chang-Yu Hsieh, Zhongjun Ma, (参考訳) デ・ノボ分子生成は、広大な化学空間にまたがる薬物のようなヒットを探索することを可能にする。 しかし、鉛の最適化は依然として必要であり、分子構造を最適化するプロセスは、構造的新規性と薬理学的性質のバランスをとるという課題に直面している。 本研究では、DGMM(Deep Genetic Molecular Modification Algorithm)を導入し、薬剤師のレベルに構造変更をもたらす。 離散変分オートエンコーダ(D-VAE)は、分子を量子化符号、mol-geneとして符号化するためにDGMMで使用される。 mol遺伝子は薬理学的に類似しているが構造的に異なる化合物の発見を可能にし、薬物発見における構造最適化のトレードオフを明らかにする。 いくつかのアプリケーションでDGMMの有効性を示す。

De novo molecule generation allows the search for more drug-like hits across a vast chemical space. However, lead optimization is still required, and the process of optimizing molecular structures faces the challenge of balancing structural novelty with pharmacological properties. This study introduces the Deep Genetic Molecular Modification Algorithm (DGMM), which brings structure modification to the level of medicinal chemists. A discrete variational autoencoder (D-VAE) is used in DGMM to encode molecules as quantization code, mol-gene, which incorporates deep learning into genetic algorithms for flexible structural optimization. The mol-gene allows for the discovery of pharmacologically similar but structurally distinct compounds, and reveals the trade-offs of structural optimization in drug discovery. We demonstrate the effectiveness of the DGMM in several applications.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-13
# アナログディープラーニングの約束 - 最近の進歩,課題,機会

The Promise of Analog Deep Learning: Recent Advances, Challenges and Opportunities ( http://arxiv.org/abs/2406.12911v1 )

ライセンス: Link先を確認
Aditya Datar, Pramit Saha, (参考訳) 現在の人工知能(AI)の多くは、パターンを認識し、データから学習することで複雑な問題を解決するように設計された洗練された計算モデルである、ニューラルネットワークを使用している。 しかし、バックプロパゲーション、特にディープニューラルネットワークや多数の層を持つネットワークにおいて、デバイスの重み付け和の計算と最適化手順の間に大きなボトルネックが発生する。 ニューラルネットワークの様々な実装方法の探索は、その領域のさらなる進歩に必要である。 AIハードウェアについて、アナログとデジタルの両方の方向に多くの研究がなされているが、既存の調査の多くはアナログディープラーニングの進歩に関する議論を欠いている。 この目的のために、我々は、アナログ実装の深層学習に関する現在の進歩とともに、利点とデメリットを評価し、特定しようと試みている。 本稿では,複数のキーパラメータにまたがる8つの異なるアナログ深層学習手法の総合的な検討に焦点をあてる。 これらのパラメータには、達成された精度レベル、アプリケーションドメイン、アルゴリズムの進歩、計算速度、エネルギー効率と消費電力の考慮が含まれる。 また、これらのハードウェアデバイスを用いて実装されたニューラルネットワークに基づく実験を同定し、異なるアナログ深層学習手法によって達成された比較性能と、その現在の限界の分析について論じる。 全体としては、Analog Deep Learningは将来のコンシューマレベルのアプリケーションにとって大きな可能性を秘めていますが、スケーラビリティに関してはまだ長い道のりがあります。 現在の実装のほとんどはより概念実証的なものであり、まだ大規模モデルでは実際にデプロイできない。

Much of the present-day Artificial Intelligence (AI) utilizes artificial neural networks, which are sophisticated computational models designed to recognize patterns and solve complex problems by learning from data. However, a major bottleneck occurs during a device's calculation of weighted sums for forward propagation and optimization procedure for backpropagation, especially for deep neural networks, or networks with numerous layers. Exploration into different methods of implementing neural networks is necessary for further advancement of the area. While a great deal of research into AI hardware in both directions, analog and digital implementation widely exists, much of the existing survey works lacks discussion on the progress of analog deep learning. To this end, we attempt to evaluate and specify the advantages and disadvantages, along with the current progress with regards to deep learning, for analog implementations. In this paper, our focus lies on the comprehensive examination of eight distinct analog deep learning methodologies across multiple key parameters. These parameters include attained accuracy levels, application domains, algorithmic advancements, computational speed, and considerations of energy efficiency and power consumption. We also identify the neural network-based experiments implemented using these hardware devices and discuss comparative performance achieved by the different analog deep learning methods along with an analysis of their current limitations. Overall, we find that Analog Deep Learning has great potential for future consumer-level applications, but there is still a long road ahead in terms of scalability. Most of the current implementations are more proof of concept and are not yet practically deployable for large-scale models.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-13
# T-JEPA: 軌道類似性計算のための統合組込み予測アーキテクチャ

T-JEPA: A Joint-Embedding Predictive Architecture for Trajectory Similarity Computation ( http://arxiv.org/abs/2406.12913v1 )

ライセンス: Link先を確認
Lihuan Li, Hao Xue, Yang Song, Flora Salim, (参考訳) 軌道類似性計算は、交通管理、野生生物追跡、位置ベースサービスなど、様々なアプリケーションにわたる空間データの移動パターンを解析するための重要な手法である。 現代の手法では、ヒューリスティックなメトリクスを近似するためにディープラーニング技術を適用することが多いが、大量の未ラベルの軌跡データからより堅牢で一般化された表現を学ぶのに苦労している。 近年のアプローチでは、トラジェクティブ表現学習において大きな進歩を遂げた、コントラスト学習のような自己指導型学習手法に焦点が当てられている。 しかし、対照的な学習ベースの手法は、手動で定義したデータ拡張スキームに大きく依存し、生成された軌跡の多様性を制限し、2次元ユークリッド空間におけるそのようなバリエーションから学習し、高いレベルの意味的変動を捉えることを防ぐ。 これらの制約に対処するために,JEPA(Joint-Embedding Predictive Architecture)を用いた自己教師付き軌道類似性計算手法T-JEPAを提案する。 T-JEPAは、表現空間における軌跡情報をサンプリングし、予測し、ドメイン知識や手作業に頼ることなく、高レベルのセマンティクスで軌跡の欠落した成分を推測することができる。 3つの都市トラジェクトリデータセットと2つのFoursquareデータセットで実施された大規模な実験は、トラジェクトリ類似性計算におけるT-JEPAの有効性を示した。

Trajectory similarity computation is an essential technique for analyzing moving patterns of spatial data across various applications such as traffic management, wildlife tracking, and location-based services. Modern methods often apply deep learning techniques to approximate heuristic metrics but struggle to learn more robust and generalized representations from the vast amounts of unlabeled trajectory data. Recent approaches focus on self-supervised learning methods such as contrastive learning, which have made significant advancements in trajectory representation learning. However, contrastive learning-based methods heavily depend on manually pre-defined data augmentation schemes, limiting the diversity of generated trajectories and resulting in learning from such variations in 2D Euclidean space, which prevents capturing high-level semantic variations. To address these limitations, we propose T-JEPA, a self-supervised trajectory similarity computation method employing Joint-Embedding Predictive Architecture (JEPA) to enhance trajectory representation learning. T-JEPA samples and predicts trajectory information in representation space, enabling the model to infer the missing components of trajectories at high-level semantics without relying on domain knowledge or manual effort. Extensive experiments conducted on three urban trajectory datasets and two Foursquare datasets demonstrate the effectiveness of T-JEPA in trajectory similarity computation.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-13
# システム劣化予測における潜時データの多様性の意義

The Significance of Latent Data Divergence in Predicting System Degradation ( http://arxiv.org/abs/2406.12914v1 )

ライセンス: Link先を確認
Miguel Fernandes, Catarina Silva, Alberto Cardoso, Bernardete Ribeiro, (参考訳) 条件に基づく保守は、維持生活の正確な予測が効果的な保守と運用に不可欠であるエンジニアリングシステムにおける潜在的な障害の早期発見を可能にする上で重要である。 しかし、フィールドにおける主な焦点は、未処理または最小限の処理データを使用して、データセットに固有の複雑なダイナミクスを無視して、残留する有用寿命を予測することである。 本稿では,システムコンポーネントの潜在データにおける統計的類似性の分析を基礎とした新しい手法を提案する。 ベクトル量子化変分オートコーダをベースとした設計アーキテクチャを応用し,システム固有の事前推定に用いる離散ベクトル列を生成する。 システム間の類似性は、これらの先行の相違を評価し、個々のシステム行動の微妙な理解を提供することによって推測する。 提案手法の有効性は,NASAの商用モジュール型エアロ推進システムシミュレーション(C-MAPSS)データセットを用いて実証した。 我々の検証は、潜在統計的分岐の研究を進める上での我々の方法の可能性を裏付けるだけでなく、既存の手法よりもその優位性を証明している。

Condition-Based Maintenance is pivotal in enabling the early detection of potential failures in engineering systems, where precise prediction of the Remaining Useful Life is essential for effective maintenance and operation. However, a predominant focus in the field centers on predicting the Remaining Useful Life using unprocessed or minimally processed data, frequently neglecting the intricate dynamics inherent in the dataset. In this work we introduce a novel methodology grounded in the analysis of statistical similarity within latent data from system components. Leveraging a specifically designed architecture based on a Vector Quantized Variational Autoencoder, we create a sequence of discrete vectors which is used to estimate system-specific priors. We infer the similarity between systems by evaluating the divergence of these priors, offering a nuanced understanding of individual system behaviors. The efficacy of our approach is demonstrated through experiments on the NASA commercial modular aero-propulsion system simulation (C-MAPSS) dataset. Our validation not only underscores the potential of our method in advancing the study of latent statistical divergence but also demonstrates its superiority over existing techniques.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-13
# GROD:アウト・オブ・ディストリビューション検出による変圧器の一般化の促進

GROD: Enhancing Generalization of Transformer with Out-of-Distribution Detection ( http://arxiv.org/abs/2406.12915v1 )

ライセンス: Link先を確認
Yijin Zhou, Yuguang Wang, (参考訳) トランスフォーマーネットワークは自然言語処理(NLP)とコンピュータビジョン(CV)タスクに優れている。 しかし、それらは、アウト・オブ・ディストリビューション(OOD)データセット、すなわち、トレーニング中に見られるデータと分布が異なるデータを一般化する際の課題に直面している。 OOD検出は、予想される分布から逸脱するデータを識別することを目的としており、分散内(ID)データ上での最適性能を維持している。 本稿では,OOD 検出に基づく新しい手法である Generate Rounded OOD Data (GROD) アルゴリズムを提案する。 GRODは変換器のための新しいOOD検出確率近似理論(PAC)によって動機付けられている。 変換器は、OOD検出の観点で、つまりデータが十分であれば、外れ値が適切に表現できる学習性を有する。 損失関数内のOODデータの誤分類をペナルティ化し、合成外れ値を生成することにより、GRODは学習可能性を保証するとともに、inlierとoutlierの判定境界を洗練する。 この戦略は、さまざまなデータタイプにまたがる堅牢な適応性と一般的な適用性を示している。 NLP と CV の様々な OOD 検出タスクで評価され,データフォーマットに関わらず GROD は SOTA を実現する。 平均すると、SOTA FPR@95は21.97%から0.12%に減少し、画像分類タスクでは93.62%から99.98%、SOTA FPR@95は12.89%、AUROCは2.27%改善している。 コードはhttps://anonymous.4open.science/r/GROD-OOD-Detection-with-transformers-B70Fで公開されている。

Transformer networks excel in natural language processing (NLP) and computer vision (CV) tasks. However, they face challenges in generalizing to Out-of-Distribution (OOD) datasets, that is, data whose distribution differs from that seen during training. The OOD detection aims to distinguish data that deviates from the expected distribution, while maintaining optimal performance on in-distribution (ID) data. This paper introduces a novel approach based on OOD detection, termed the Generate Rounded OOD Data (GROD) algorithm, which significantly bolsters the generalization performance of transformer networks across various tasks. GROD is motivated by our new OOD detection Probably Approximately Correct (PAC) Theory for transformer. The transformer has learnability in terms of OOD detection that is, when the data is sufficient the outlier can be well represented. By penalizing the misclassification of OOD data within the loss function and generating synthetic outliers, GROD guarantees learnability and refines the decision boundaries between inlier and outlier. This strategy demonstrates robust adaptability and general applicability across different data types. Evaluated across diverse OOD detection tasks in NLP and CV, GROD achieves SOTA regardless of data format. On average, it reduces the SOTA FPR@95 from 21.97% to 0.12%, and improves AUROC from 93.62% to 99.98% on image classification tasks, and the SOTA FPR@95 by 12.89% and AUROC by 2.27% in detecting semantic text outliers. The code is available at https://anonymous.4open.science/r/GROD-OOD-Detection-with-transformers-B70F.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-13
# Black Boxのオープン:再構築エントロピーを用いたディープニューラルネットワークのトレーニング可能性予測

Opening the Black Box: predicting the trainability of deep neural networks with reconstruction entropy ( http://arxiv.org/abs/2406.12916v1 )

ライセンス: Link先を確認
Yanick Thurn, Ro Jefferson, Johanna Erdmenger, (参考訳) 機械学習における重要な課題は、与えられたニューラルネットワークがトレーニング可能な初期条件を予測することである。 本稿では,1層補助ネットワークのカスケードを介し,その後の活性化層からの入力を再構成したディープフィードフォワードニューラルネットワークのパラメータ空間におけるトレーニング可能な状態を予測する手法を提案する。 MNIST と CIFAR10 の双方に対して,浅いカスケードネットワークのトレーニングは,深層フィードフォワードネットワークのトレーニング可能性を予測するのに十分であることを示す。 我々は、再構成画像と元の入力との相対エントロピーを計算し、この情報損失のプローブがネットワークの位相挙動に敏感であることを示す。 この結果から,情報の流れと深層ニューラルネットワークのトレーニング可能性との間には具体的な関連性があり,これらのシステムにおける臨界性の役割が解明される。

An important challenge in machine learning is to predict the initial conditions under which a given neural network will be trainable. We present a method for predicting the trainable regime in parameter space for deep feedforward neural networks, based on reconstructing the input from subsequent activation layers via a cascade of single-layer auxiliary networks. For both MNIST and CIFAR10, we show that a single epoch of training of the shallow cascade networks is sufficient to predict the trainability of the deep feedforward network, thereby providing a significant reduction in overall training time. We achieve this by computing the relative entropy between reconstructed images and the original inputs, and show that this probe of information loss is sensitive to the phase behaviour of the network. Our results provide a concrete link between the flow of information and the trainability of deep neural networks, further elucidating the role of criticality in these systems.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-13
# 大規模言語モデルによるテキストリッチグラフの階層圧縮

Hierarchical Compression of Text-Rich Graphs via Large Language Models ( http://arxiv.org/abs/2406.11884v1 )

ライセンス: Link先を確認
Shichang Zhang, Da Zheng, Jiani Zhang, Qi Zhu, Xiang song, Soji Adeshina, Christos Faloutsos, George Karypis, Yizhou Sun, (参考訳) テキストリッチグラフは、電子商取引や学術グラフのようなデータマイニングの文脈で一般的であり、さまざまな関係によってリンクされたテキストの特徴を持つノードで構成されている。 グラフニューラルネットワーク(GNN)のような従来のグラフ機械学習モデルでは、グラフ構造情報を符号化する能力は優れているが、グラフノード上でリッチテキストを扱う能力は限られている。 大きな言語モデル(LLM)は、優れたテキスト理解能力で知られ、グラフでテキストを処理するソリューションを提供するが、グラフ構造を符号化する制限と、相互接続されたノードの大きな近傍で広範囲なテキストを扱う際の計算複雑性のために、統合の課題に直面している。 本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法である'HiCom'を紹介する。 HiComは、広範なテキスト情報をより管理可能な階層に整理し、ステップごとにノードテキストを圧縮することで、ノードの近傍で構造化された方法でテキストを処理する。 したがって、HiComはテキストの文脈的豊かさを保存するだけでなく、LLMの計算的課題にも対処し、LLMのテキスト処理能力とテキストリッチグラフの構造的複雑さを統合する進歩を示す。 実証実験の結果,HiCom は GNN と LLM のバックボーンを上回り,E-Commerce と citation graph のノード分類を行うことができた。 HiComはグラフ内の高密度領域のノードに対して特に有効であり、5つのデータセットの平均パフォーマンス改善率は3.48%で、LLMバックボーンよりも効率的である。

Text-rich graphs, prevalent in data mining contexts like e-commerce and academic graphs, consist of nodes with textual features linked by various relations. Traditional graph machine learning models, such as Graph Neural Networks (GNNs), excel in encoding the graph structural information, but have limited capability in handling rich text on graph nodes. Large Language Models (LLMs), noted for their superior text understanding abilities, offer a solution for processing the text in graphs but face integration challenges due to their limitation for encoding graph structures and their computational complexities when dealing with extensive text in large neighborhoods of interconnected nodes. This paper introduces ``Hierarchical Compression'' (HiCom), a novel method to align the capabilities of LLMs with the structure of text-rich graphs. HiCom processes text in a node's neighborhood in a structured manner by organizing the extensive textual information into a more manageable hierarchy and compressing node text step by step. Therefore, HiCom not only preserves the contextual richness of the text but also addresses the computational challenges of LLMs, which presents an advancement in integrating the text processing power of LLMs with the structural complexities of text-rich graphs. Empirical results show that HiCom can outperform both GNNs and LLM backbones for node classification on e-commerce and citation graphs. HiCom is especially effective for nodes from a dense region in a graph, where it achieves a 3.48% average performance improvement on five datasets while being more efficient than LLM backbones.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-13
# 時空間パターンを用いた金融資産の依存性予測

Financial Assets Dependency Prediction Utilizing Spatiotemporal Patterns ( http://arxiv.org/abs/2406.11886v1 )

ライセンス: Link先を確認
Haoren Zhu, Pengfei Zhao, Wilfred Siu Hung NG, Dik Lun Lee, (参考訳) 金融資産は複雑な依存構造を示しており、不安定な金融市場のリスクを軽減するため、投資家は多様化ポートフォリオを作成することが不可欠である。 本稿では、資産の依存関係を資産依存マトリックス(ADM)としてモデル化し、ADMシーケンスを画像シーケンスとして扱う新しい手法を提案する。 これにより、深層学習に基づくビデオ予測手法を利用して、資産間の時空間依存性を捉えることができる。 しかし、隣接する画素が物体運動の自然な連続性によって明らかに時空間依存性を示す画像とは異なり、ADMのアセットは自然な順序を持たない。 これは、ADM予測のための近隣資産間の時空間的依存関係を改善するために、関係資産を整理する上での課題である。 この課題に対処するために,コンボリューショナル・ロング・短期記憶(ConvLSTM)ネットワークを用いたアセット依存ニューラルネットワーク(ADNN)を提案する。 ADNNは静的および動的変換関数を用いてADMの表現を最適化する。広範な実験を通じて、提案するフレームワークがADM予測およびダウンストリームアプリケーションタスクのベースラインを一貫して上回っていることを実証する。 この研究は、資産依存の理解と予測に寄与し、金融市場の参加者に貴重な洞察を提供する。

Financial assets exhibit complex dependency structures, which are crucial for investors to create diversified portfolios to mitigate risk in volatile financial markets. To explore the financial asset dependencies dynamics, we propose a novel approach that models the dependencies of assets as an Asset Dependency Matrix (ADM) and treats the ADM sequences as image sequences. This allows us to leverage deep learning-based video prediction methods to capture the spatiotemporal dependencies among assets. However, unlike images where neighboring pixels exhibit explicit spatiotemporal dependencies due to the natural continuity of object movements, assets in ADM do not have a natural order. This poses challenges to organizing the relational assets to reveal better the spatiotemporal dependencies among neighboring assets for ADM forecasting. To tackle the challenges, we propose the Asset Dependency Neural Network (ADNN), which employs the Convolutional Long Short-Term Memory (ConvLSTM) network, a highly successful method for video prediction. ADNN can employ static and dynamic transformation functions to optimize the representations of the ADM. Through extensive experiments, we demonstrate that our proposed framework consistently outperforms the baselines in the ADM prediction and downstream application tasks. This research contributes to understanding and predicting asset dependencies, offering valuable insights for financial market participants.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-13
# ニューラル・ロジック・プログラムとニューラル・ネット

Neural logic programs and neural nets ( http://arxiv.org/abs/2406.11888v1 )

ライセンス: Link先を確認
Christian Antić, (参考訳) ニューラルシンボリック統合は、コネクショナリズムのサブシンボリックと、人工知能に対する論理的シンボリックアプローチを組み合わせることを目的としている。 本稿では,まず(ブール)ニューラルネットの解集合セマンティクスを定義し,まず第一原理からニューラルネットワークプログラムのクラスを紹介し,ネットとプログラムが等価であることを示す。

Neural-symbolic integration aims to combine the connectionist subsymbolic with the logical symbolic approach to artificial intelligence. In this paper, we first define the answer set semantics of (boolean) neural nets and then introduce from first principles a class of neural logic programs and show that nets and programs are equivalent.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-13
# 超次元量子因子化

Hyperdimensional Quantum Factorization ( http://arxiv.org/abs/2406.11889v1 )

ライセンス: Link先を確認
Prathyush Poduval, Zhuowen Zou, Alvaro Velasquez, Mohsen Imani, (参考訳) 本稿では,ハイパーベクトルから原子元素を抽出する重要なプロセスであるハイパーベクトルを効率よく復号する量子アルゴリズムを提案する。 HDCは高次元ベクトルと効率的な演算子を用いて情報をエンコードし操作し、原子の概念から複雑な物体を表現する。 複数の超ベクトルの積(結合)である超ベクトルを復号しようとすると、その分解は古典的な最適化に基づく手法や特別な再帰的ネットワークによって禁止的にコストがかかる。 この課題に対処するために、革新的な量子コンピューティングアプローチであるHDQFを提案する。 HDCと量子コンピューティングの並列性を生かし、量子アルゴリズムのスピードアップ能力に乗じて、HDQFはポテンシャル因子を量子重ね合わせとして量子ビット状態と双極ベクトル表現を用いて符号化する。 これにより、古典的な探索法よりも2次高速化され、ハイパーベクター因子化能力の問題が効果的に軽減される。

This paper presents a quantum algorithm for efficiently decoding hypervectors, a crucial process in extracting atomic elements from hypervectors - an essential task in Hyperdimensional Computing (HDC) models for interpretable learning and information retrieval. HDC employs high-dimensional vectors and efficient operators to encode and manipulate information, representing complex objects from atomic concepts. When one attempts to decode a hypervector that is the product (binding) of multiple hypervectors, the factorization becomes prohibitively costly with classical optimization-based methods and specialized recurrent networks, an inherent consequence of the binding operation. We propose HDQF, an innovative quantum computing approach, to address this challenge. By exploiting parallels between HDC and quantum computing and capitalizing on quantum algorithms' speedup capabilities, HDQF encodes potential factors as a quantum superposition using qubit states and bipolar vector representation. This yields a quadratic speedup over classical search methods and effectively mitigates Hypervector Factorization capacity issues.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-13
# ResearchArena: LLMsが研究エージェントとして情報を収集・整理する能力のベンチマーク

ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents ( http://arxiv.org/abs/2406.10291v1 )

ライセンス: Link先を確認
Hao Kang, Chenyan Xiong, (参考訳) 大規模言語モデル (LLM) は自然言語処理において様々なタスクで顕著な性能を示した。 しかしながら、これらのタスクがドメイン固有の専門知識と高度な分析スキルを必要とする場合、例えば指定されたトピックに関する調査を行う場合、依然として課題が生じる。 本研究では,LLMエージェントが学術調査を行う能力を測定するベンチマークであるResearchArenaを開発する。 具体的には,調査プロセスを3段階に分解する。 1)情報発見:関連書類の所在 2【情報選択】その話題に対する論文の重要性を評価すること、 3)情報組織:書類を意味のある構造に整理する。 特に,12.0Mのフルテキスト学術論文と7.9Kの調査論文から構成されるオフライン環境を構築し,調査対象のトピックを作成・ランク付けし,それらを階層的な知識マインドマップに整理する支援資料の特定能力を評価する。 本ベンチマークでは,既存の手法の予備評価を行い,基本的なキーワードベースの検索手法と比較して,LLMに基づく手法は性能が低いことを示し,今後の研究のかなりの機会を浮き彫りにしている。

Large language models (LLMs) have exhibited remarkable performance across various tasks in natural language processing. Nevertheless, challenges still arise when these tasks demand domain-specific expertise and advanced analytical skills, such as conducting research surveys on a designated topic. In this research, we develop ResearchArena, a benchmark that measures LLM agents' ability to conduct academic surveys, an initial step of academic research process. Specifically, we deconstructs the surveying process into three stages 1) information discovery: locating relevant papers, 2) information selection: assessing papers' importance to the topic, and 3) information organization: organizing papers into meaningful structures. In particular, we establish an offline environment comprising 12.0M full-text academic papers and 7.9K survey papers, which evaluates agents' ability to locate supporting materials for composing the survey on a topic, rank the located papers based on their impact, and organize these into a hierarchical knowledge mind-map. With this benchmark, we conduct preliminary evaluations of existing techniques and find that all LLM-based methods under-performing when compared to basic keyword-based retrieval techniques, highlighting substantial opportunities for future research.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# 20億ドルのライフセービングデータセットを自動ラベル付け:大規模臨床試験の結果

Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark ( http://arxiv.org/abs/2406.10292v1 )

ライセンス: Link先を確認
Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun, (参考訳) 医薬品の発見・開発コストは年間200億ドルを超えている。 薬物の発見と開発の主な成果は臨床試験の結果であり、新しい薬物候補の規制承認に直接影響を与え、最終的には患者の結果に影響を及ぼす。 その重要性にもかかわらず、大規模で高品質な臨床試験結果データが一般に公開されていない。 機械学習研究者は、過去の臨床試験と結果ラベルを使用して正確な予測モデルを開発することが可能であり、治療プログラムの優先順位付けと最適化に役立ち、最終的には患者に利益をもたらす可能性がある。 本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介し,弱教師付きラベルの複数のソースからの結果を集約し,個々のソースからのノイズを最小限に抑え,人為的アノテーションの必要性を排除した。 これらのソースには、トライアル関連の文書に関する大きな言語モデル(LLM)の決定、ニュースヘッドラインの感情、トライアルスポンサーの株価、フェーズ間のトライアルリンク、そして患者のドロップアウト率や悪い出来事などの他のシグナルが含まれる。 CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。

The global cost of drug discovery and development exceeds $200 billion annually. The main results of drug discovery and development are the outcomes of clinical trials, which directly influence the regulatory approval of new drug candidates and ultimately affect patient outcomes. Despite their significance, large-scale, high-quality clinical trial outcome data are not readily available to the public. Suppose a large clinical trial outcome dataset is provided; machine learning researchers can potentially develop accurate prediction models using past trials and outcome labels, which could help prioritize and optimize therapeutic programs, ultimately benefiting patients. This paper introduces Clinical Trial Outcome (CTO) dataset, the largest trial outcome dataset with around 479K clinical trials, aggregating outcomes from multiple sources of weakly supervised labels, minimizing the noise from individual sources, and eliminating the need for human annotation. These sources include large language model (LLM) decisions on trial-related documents, news headline sentiments, stock prices of trial sponsors, trial linkages across phases, and other signals such as patient dropout rates and adverse events. CTO's labels show unprecedented agreement with supervised clinical trial outcome labels from test split of the supervised TOP dataset, with a 91 F1.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# RelevAI-Reviewer: 調査論文関連のためのAIレビュアのベンチマーク

RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance ( http://arxiv.org/abs/2406.10294v1 )

ライセンス: Link先を確認
Paulo Henrique Couto, Quang Phuoc Ho, Nageeta Kumari, Benedictus Kent Rachmat, Thanh Gia Hieu Khuong, Ihsan Ullah, Lisheng Sun-Hosoya, (参考訳) 近年の人工知能(AI)、特にLarge Language Models(LLM)の普及により、テキスト分析機能が大幅に強化されている。 この技術的進化は、伝統的に仲間の研究者によるピアレビューによって管理されるタスクである科学論文のレビューを自動化するためのかなりの約束を提供する。 研究の質を維持する上で重要な役割を担っているにもかかわらず、従来の査読プロセスはしばしば遅く、偏見を受けており、科学知識の迅速な伝播を妨げる可能性がある。 本稿では,論文レビューのタスクを分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。 そこで本研究では,25,164インスタンスからなる新しいデータセットを提案する。 それぞれのインスタンスには1つのプロンプトと4つの候補論文が含まれており、それぞれがプロンプトに関連している。 目的は、各論文の関連性を決定し、最も関連するものを特定することができる機械学習(ML)モデルを開発することである。 本稿では,SVM(Support Vector Machine)のような従来のML分類器やBERTのような先進言語モデルなど,さまざまなベースラインアプローチについて検討する。 以上の結果から,BERTをベースとしたエンド・ツー・エンド分類器が従来のML手法を上回る性能を示した。 我々は,この問題を,この研究分野への関与と関心を高めるための公的な課題として提示する。

Recent advancements in Artificial Intelligence (AI), particularly the widespread adoption of Large Language Models (LLMs), have significantly enhanced text analysis capabilities. This technological evolution offers considerable promise for automating the review of scientific papers, a task traditionally managed through peer review by fellow researchers. Despite its critical role in maintaining research quality, the conventional peer-review process is often slow and subject to biases, potentially impeding the swift propagation of scientific knowledge. In this paper, we propose RelevAI-Reviewer, an automatic system that conceptualizes the task of survey paper review as a classification problem, aimed at assessing the relevance of a paper in relation to a specified prompt, analogous to a "call for papers". To address this, we introduce a novel dataset comprised of 25,164 instances. Each instance contains one prompt and four candidate papers, each varying in relevance to the prompt. The objective is to develop a machine learning (ML) model capable of determining the relevance of each paper and identifying the most pertinent one. We explore various baseline approaches, including traditional ML classifiers like Support Vector Machine (SVM) and advanced language models such as BERT. Preliminary findings indicate that the BERT-based end-to-end classifier surpasses other conventional ML methods in performance. We present this problem as a public challenge to foster engagement and interest in this area of research.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# 多モード大言語モデル(LLM)を用いた面内回転文書からの構造化データのロバスト性

Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM) ( http://arxiv.org/abs/2406.10295v1 )

ライセンス: Link先を確認
Anjanava Biswas, Wrick Talukdar, (参考訳) マルチモーダルな大規模言語モデル (LLM) は、文書からのデータ抽出を含む様々な自然言語処理タスクにおいて顕著な性能を示している。 しかし、これらのモデルの精度は、スキャンされた文書の実際のシナリオにおける一般的な問題であるスクリュー(skew)としても知られる、文書内回転によって大きく影響を受ける可能性がある。 本研究では,文書スキューが3つの最先端マルチモーダルLCM(Arthhropic Claude V3 Sonnet, GPT-4-Turbo, Llava:v1.6)のデータ抽出精度に与える影響について検討した。 本研究は,合成されたサンプル文書から種々の歪度で特定の実体を抽出することに焦点を当てる。 その結果, 文書スキューが全試験LCMのデータ抽出精度に悪影響を及ぼし, その重大さはモデルによって異なることがわかった。 モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。 さらに,既存のスキュー検出・補正機構について検討し,その潜在的な限界について考察する。 本稿では,スキューの文書化に本質的に堅牢な新しいマルチモーダルアーキテクチャの開発や,事前学習段階のスキーイング技術の導入など,新たなアプローチを提案する。 さらに,マルチモーダル LLM を用いた実世界のシナリオにおける情報抽出における課題と機会を十分に理解するために,より広範囲の文書品質と条件に関するより包括的なテストの必要性を強調した。

Multi-modal large language models (LLMs) have shown remarkable performance in various natural language processing tasks, including data extraction from documents. However, the accuracy of these models can be significantly affected by document in-plane rotation, also known as skew, a common issue in real-world scenarios for scanned documents. This study investigates the impact of document skew on the data extraction accuracy of three state-of-the-art multi-modal LLMs: Anthropic Claude V3 Sonnet, GPT-4-Turbo, and Llava:v1.6. We focus on extracting specific entities from synthetically generated sample documents with varying degrees of skewness. The results demonstrate that document skew adversely affects the data extraction accuracy of all the tested LLMs, with the severity of the impact varying across models. We identify the safe in-plane rotation angles (SIPRA) for each model and investigate the effects of skew on model hallucinations. Furthermore, we explore existing skew detection and correction mechanisms and discuss their potential limitations. We propose alternative approaches, including developing new multi-modal architectures that are inherently more robust to document skew and incorporating skewing techniques during the pre-training phase of the models. Additionally, we highlight the need for more comprehensive testing on a wider range of document quality and conditions to fully understand the challenges and opportunities associated with using multi-modal LLMs for information extraction in real-world scenarios.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# CLST:学生の知識トレーサとしての生成言語モデルによる知識追跡におけるコールドスタート緩和

CLST: Cold-Start Mitigation in Knowledge Tracing by Aligning a Generative Language Model as a Students' Knowledge Tracer ( http://arxiv.org/abs/2406.10296v1 )

ライセンス: Link先を確認
Heeseok Jung, Jaesang Yoo, Yohaan Yoon, Yeonju Jang, (参考訳) 知識追跡(KT)は、学生の問題解決履歴を現在の知識レベルの推定に用い、研究者から大きな関心を集めている。 しかし、既存のほとんどのKTモデルは、コールドスタート性能の限界を示すIDベースのパラダイムで開発された。 これらの制限は、生成的大言語モデル(LLM)が持つ膨大な外部知識を活用することで緩和することができる。 本研究では,生成言語モデルを学生の知識トレーサ(CLST)として整列させることにより,知識トレースにおけるコールドスタートの緩和を提案する。 数学,社会学,科学の課題からデータを収集すると,KTタスクを自然言語処理タスクとしてフレーム化し,自然言語で問題解決データを表現し,フォーマットされたKTデータセットを用いて生成LLMを微調整した。 その後,データ不足状況におけるCLSTの性能を,各種ベースラインモデルを用いて比較した。 その結果,CLSTは,予測,信頼性,クロスドメインの一般化の観点から,100人未満の学生のデータセットで有意に性能を向上した。

Knowledge tracing (KT), wherein students' problem-solving histories are used to estimate their current levels of knowledge, has attracted significant interest from researchers. However, most existing KT models were developed with an ID-based paradigm, which exhibits limitations in cold-start performance. These limitations can be mitigated by leveraging the vast quantities of external knowledge possessed by generative large language models (LLMs). In this study, we propose cold-start mitigation in knowledge tracing by aligning a generative language model as a students' knowledge tracer (CLST) as a framework that utilizes a generative LLM as a knowledge tracer. Upon collecting data from math, social studies, and science subjects, we framed the KT task as a natural language processing task, wherein problem-solving data are expressed in natural language, and fine-tuned the generative LLM using the formatted KT dataset. Subsequently, we evaluated the performance of the CLST in situations of data scarcity using various baseline models for comparison. The results indicate that the CLST significantly enhanced performance with a dataset of fewer than 100 students in terms of prediction, reliability, and cross-domain generalization.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# SememeLM:Long-tailリレーショナル表現のためのセメム知識強化手法

SememeLM: A Sememe Knowledge Enhanced Method for Long-tail Relation Representation ( http://arxiv.org/abs/2406.10297v1 )

ライセンス: Link先を確認
Shuyi Li, Shaojuan Wu, Xiaowang Zhang, Zhiyong Feng, (参考訳) 2つの単語間の関係を認識することは、幅広い応用の基本的な課題である。 テキストから関係を抽出するのと異なり、文脈を使わずに単語間の関係を識別することは困難である。 特に長尾関係では、意味的特徴が不十分なため、より困難になる。 既存の言語モデル(LM)に基づくアプローチでは、LMの豊富な知識を利用して関係のセマンティックな特徴を強化する。 しかし、LMの知識は、しばしば共通の関係を表す訓練されたデータに依存しているため、あまり頻度の低いが意味のあるものを見落としながら、一般的な関係を捉えている。 一方、長い尾関係は訓練データではまれである。 長い尾関係を含むコーパスを収集するため、LMを豊かにするために外部知識を使うのは興味深いが、容易ではない。 本稿では,セメム知識向上手法(SememeLM)を提案する。 まず、セメム関係グラフを示し、グラフ符号化法を提案する。 さらに、外部知識ベースは、おそらく膨大な無関係な知識から構成されているため、ノイズが導入される。 本稿では,導入した知識をLMと整合させ,ノイズを低減し,言語モデルに統合する整合性アライメントモジュールを提案する。 最後に,単語類似データセットについて実験を行い,長い尾関係を含む微妙な相違点を識別する能力を評価する。 大規模な実験により、我々の手法は最先端の手法よりも優れていることが示された。

Recognizing relations between two words is a fundamental task with the broad applications. Different from extracting relations from text, it is difficult to identify relations among words without their contexts. Especially for long-tail relations, it becomes more difficult due to inadequate semantic features. Existing approaches based on language models (LMs) utilize rich knowledge of LMs to enhance the semantic features of relations. However, they capture uncommon relations while overlooking less frequent but meaningful ones since knowledge of LMs seriously relies on trained data where often represents common relations. On the other hand, long-tail relations are often uncommon in training data. It is interesting but not trivial to use external knowledge to enrich LMs due to collecting corpus containing long-tail relationships is hardly feasible. In this paper, we propose a sememe knowledge enhanced method (SememeLM) to enhance the representation of long-tail relations, in which sememes can break the contextual constraints between wors. Firstly, we present a sememe relation graph and propose a graph encoding method. Moreover, since external knowledge base possibly consisting of massive irrelevant knowledge, the noise is introduced. We propose a consistency alignment module, which aligns the introduced knowledge with LMs, reduces the noise and integrates the knowledge into the language model. Finally, we conducted experiments on word analogy datasets, which evaluates the ability to distinguish relation representations subtle differences, including long-tail relations. Extensive experiments show that our approach outperforms some state-of-the-art methods.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# ソフトウェアコンポーネントとしての大規模言語モデル: LLM統合アプリケーションのための分類法

Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications ( http://arxiv.org/abs/2406.10300v1 )

ライセンス: Link先を確認
Irene Weber, (参考訳) 大規模言語モデル(LLM)は近年広く採用されている。 研究は、自律エージェントとソフトウェアエンジニアリングのツールの両方としての利用について調査している。 一方、LLM統合アプリケーション(LLMintegrated applications)は、LLMを活用してタスクを実行するソフトウェアシステムである。 LLM統合アプリケーションエンジニアリングは新しい分野として登場しつつあるが、その用語、概念、方法を確立する必要がある。 本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。 また、アプリケーションでLLMを利用するための様々な方法や、そのような統合を実装するためのオプションも示している。 確立された手法に従って,最近のLCM統合アプリケーションのサンプルを分析し,関連する次元を同定する。 我々はそれを追加の事例に適用して分類を評価する。 このレビューは、アプリケーションが様々な目的のために様々な方法でLLMを統合することを示している。 LLM コンポーネント' と呼ばれる複数の LLM 統合で構成されていることが多い。 アプリケーションのアーキテクチャを明確に理解するために、各LCMコンポーネントを別々に検討する。 我々は、LLMのスキルの活用、出力の形式など、LLMコンポーネントを特徴付ける13の次元を識別する。 LLM統合アプリケーションは、LLMコンポーネントの組み合わせとして記述される。 ビジュアライゼーションのための特徴ベクトルを用いた簡潔な表現を提案する。 分類学はLLM統合アプリケーションを記述するのに有効である。 LLM統合アプリケーションエンジニアリングの初期段階における理論構築に寄与し、そのようなシステムの開発に寄与することができる。 研究者や実践者は、アプリケーションでLLMを活用するための多くの創造的な方法を探る。 課題は続くが、LCMの統合は、ソフトウェアシステムの構築方法に革命をもたらす可能性がある。

Large Language Models (LLMs) have become widely adopted recently. Research explores their use both as autonomous agents and as tools for software engineering. LLM-integrated applications, on the other hand, are software systems that leverage an LLM to perform tasks that would otherwise be impossible or require significant coding effort. While LLM-integrated application engineering is emerging as new discipline, its terminology, concepts and methods need to be established. This study provides a taxonomy for LLM-integrated applications, offering a framework for analyzing and describing these systems. It also demonstrates various ways to utilize LLMs in applications, as well as options for implementing such integrations. Following established methods, we analyze a sample of recent LLM-integrated applications to identify relevant dimensions. We evaluate the taxonomy by applying it to additional cases. This review shows that applications integrate LLMs in numerous ways for various purposes. Frequently, they comprise multiple LLM integrations, which we term ``LLM components''. To gain a clear understanding of an application's architecture, we examine each LLM component separately. We identify thirteen dimensions along which to characterize an LLM component, including the LLM skills leveraged, the format of the output, and more. LLM-integrated applications are described as combinations of their LLM components. We suggest a concise representation using feature vectors for visualization. The taxonomy is effective for describing LLM-integrated applications. It can contribute to theory building in the nascent field of LLM-integrated application engineering and aid in developing such systems. Researchers and practitioners explore numerous creative ways to leverage LLMs in applications. Though challenges persist, integrating LLMs may revolutionize the way software systems are built.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-13
# 戦略的顧客と施設を兼ねた2段階の施設配置ゲーム

Two-Stage Facility Location Games with Strategic Clients and Facilities ( http://arxiv.org/abs/2105.01425v3 )

ライセンス: Link先を確認
Simon Krogmann, Pascal Lenzner, Louise Molitor, Alexander Skopalik, (参考訳) 我々は,施設と顧客の両方が戦略的かつ大きな影響を与える非協力的な施設位置ゲームについて検討する。 これは、ゲーム理論的な施設配置モデルと、最も近いオープン施設を選択する非ストラテジッククライアントとは対照的である。 当社のモデルでは,各施設の場所は,顧客を引き寄せる集合体を持ち,各クライアントは,その消費能力に応じた一組のショッピングロケーションと重みを有する。 事業者は、施設の開店場所を自力で選択し、誘致された総支出能力を最大化する一方、顧客はショッピングエリアの開店施設間で出店能力を分配する方法を戦略的に決定する。 私たちは、古典的なロードバランシングに似た自然なクライアントの振る舞いに焦点を合わせています。私たちの利己的なクライアントは、サービスを受けるための最大待ち時間を最小限にするディストリビューションを目指しています。 サブゲーム完全平衡が存在し、任意のクライアント動作を持つより広いクラスのゲームにさえ耐えうる、アナーキーの価格と安定の価格にほぼ一定の境界を与えることを示す。 施設とクライアントは相互に影響し合っているため,その場所を選択する際には,自尊心のあるクライアントの行動を予測することが重要である。 これに対し、平衡の効率的なチェックをも意味する効率的なアルゴリズムを提供する。 最後に、社会的に最適な施設配置の計算はNPハードであり、この結果が全てのクライアント重量分布に成り立つことを示す。

We consider non-cooperative facility location games where both facilities and clients act strategically and heavily influence each other. This contrasts established game-theoretic facility location models with non-strategic clients that simply select the closest opened facility. In our model, every facility location has a set of attracted clients and each client has a set of shopping locations and a weight that corresponds to her spending capacity. Facility agents selfishly select a location for opening their facility to maximize the attracted total spending capacity, whereas clients strategically decide how to distribute their spending capacity among the opened facilities in their shopping range. We focus on a natural client behavior similar to classical load balancing: our selfish clients aim for a distribution that minimizes their maximum waiting times for getting serviced, where a facility's waiting time corresponds to its total attracted client weight. We show that subgame perfect equilibria exist and give almost tight constant bounds on the Price of Anarchy and the Price of Stability, which even hold for a broader class of games with arbitrary client behavior. Since facilities and clients influence each other, it is crucial for the facilities to anticipate the selfish clients' behavior when selecting their location. For this, we provide an efficient algorithm that also implies an efficient check for equilibrium. Finally, we show that computing a socially optimal facility placement is NP-hard and that this result holds for all feasible client weight distributions.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-13
# 科学技術におけるジェンダーギャップへの貢献としての書体調査

Investigating writing style as a contributor to gender gaps in science and technology ( http://arxiv.org/abs/2204.13805v2 )

ライセンス: Link先を確認
Kara Kedrick, Ekaterina Levitskaya, Russell J. Funk, (参考訳) 研究の流れの高まりは、科学的貢献が著者の性別によって異なる評価を受けていることを示している。 本稿では, 書記スタイルにおける男女差, 男性と女性のコミュニケーションの仕方, が, 観察された男女差に寄与するかどうかを検討する。 我々は,文章の言語的スタイルを特徴付ける枠組みとして,情報的特徴(事実を強調する特徴)と関係を強調する特徴(関係を強調する特徴)の2つの特徴からなる。 学術論文や特許の多種多様なサンプルを用いて, 性別による書式の違いがみられた。 より関連性の高い論文や特許も女性によって引用される傾向にある。 本研究は, 科学的テキストは人格を欠くものではなく, 評価のバイアスに寄与し, 科学の基本原理としての普遍主義の規範を妥協させることを示唆している。

A growing stream of research finds that scientific contributions are evaluated differently depending on the gender of the author. In this article, we consider whether gender differences in writing styles - how men and women communicate their work - may contribute to these observed gender gaps. We ground our investigation in a framework for characterizing the linguistic style of written text, with two sets of features - informational (i.e., features that emphasize facts) and involved (i.e., features that emphasize relationships). Using a large sample of academic papers and patents, we find significant differences in writing style by gender, with women using more involved features in their writing. Papers and patents with more involved features also tend to be cited more by women. Our findings suggest that scientific text is not devoid of personal character, which could contribute to bias in evaluation, thereby compromising the norm of universalism as a foundational principle of science.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-13
# 省エネルギー法における散乱型量子測定の限界と運転

Limitations of Quantum Measurements and Operations of Scattering Type under the Energy Conservation Law ( http://arxiv.org/abs/2211.13433v3 )

ライセンス: Link先を確認
Ryota Katsube, Masanao Ozawa, Masahiro Hotta, (参考訳) 工学と基礎物理学の両方において、量子測定と演算の精度を向上させることが重要である。 しかし、測定とユニタリ演算の達成可能な精度は、一般にウィグナー・アラキ・ヤネーゼの定理(WAY定理)とその一般化に従って保存法則によって制限されていることが知られている。 多くの研究が WAY の定理を定量的に拡張しているが、それらの多くは、元の WAY の定理と同様に、角運動量保存法のような加法保存法則のみを懸念している。 本稿では, エネルギー保存法がもたらす制限について考察する。 エネルギー保存則を満たす散乱過程を用いた量子測定の誤差に対する下界について述べる。 我々は、散乱過程を考慮した場合、制御されたユニタリゲートをゼロ誤差で実装するために、ハミルトニアンが満たさなければならない条件を得る。 また、制御されたユニタリゲートのゲート忠実度の上界と、ターゲット系と制御系がどちらも1量子ビットである場合の系のエネルギー変動との関係を定量的に示す。

It is important to improve the accuracy of quantum measurements and operations both in engineering and fundamental physics. It is known, however, that the achievable accuracy of measurements and unitary operations are generally limited by conservation laws according to the Wigner-Araki-Yanase theorem (WAY theorem) and its generalizations. Although many researches have extended the WAY theorem quantitatively, most of them, as well as the original WAY theorem, concern only additive conservation laws like the angular momentum conservation law. In this paper, we explore the limitation incurred by the energy conservation law, which is universal but is one of the non-additive conservation laws. We present a lower bound for the error of a quantum measurement using a scattering process satisfying the energy conservation law. We obtain conditions that a control system Hamiltonian must fulfill in order to implement a controlled unitary gate with zero error when a scattering process is considered. We also show the quantitative relationship between the upper bound of the gate fidelity of a controlled unitary gate and the energy fluctuation of systems when a target system and a control system are both one qubit.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-13
# 量子場論におけるクリロフ複雑性

Krylov complexity in quantum field theory, and beyond ( http://arxiv.org/abs/2212.14429v2 )

ライセンス: Link先を確認
Alexander Avdoshkin, Anatoly Dymarsky, Michael Smolkin, (参考訳) 量子場理論の様々なモデルにおけるクリロフ複雑性について研究する: 平面空間および球面上の自由質量ボソンとフェルミオン、ホログラフィックモデル、UVカットオフを持つ格子モデル。 ある場合には、これまで観測された普遍性を超えたランツォス係数の漸近挙動が見つかる。 すべての場合において、クリロフ複雑性の指数的成長は、カオスに縛られたマルダセナ=シェンカー=スタンフォードを一般化する対物的不等式を満たす。 本稿では,Lanczos係数の温度依存性について論じるとともに,Lanczos係数の成長とカオスの関係は,UVカットオフにおける物理によって支配される十分に遅く,真に漸近的な状態においてのみ成立する可能性があることに留意する。 以前の提案とは対照的に、量子場論におけるクリロフ複雑性がホログラフィック複雑性とは定性的に異なる振る舞いをする場合のシナリオを示す。

We study Krylov complexity in various models of quantum field theory: free massive bosons and fermions on flat space and on spheres, holographic models, and lattice models with the UV-cutoff. In certain cases we find asymptotic behavior of Lanczos coefficients, which goes beyond previously observed universality. We confirm that in all cases the exponential growth of Krylov complexity satisfies the conjectural inequality, which generalizes the Maldacena-Shenker-Stanford bound on chaos. We discuss temperature dependence of Lanczos coefficients and note that the relation between the growth of Lanczos coefficients and chaos may only hold for the sufficiently late, truly asymptotic regime governed by the physics at the UV cutoff. Contrary to previous suggestions, we show scenarios when Krylov complexity in quantum field theory behaves qualitatively differently from the holographic complexity.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-13
# SynthMorph を用いた解剖学的認識と獲得非依存関節登録

Anatomy-aware and acquisition-agnostic joint registration with SynthMorph ( http://arxiv.org/abs/2301.11329v3 )

ライセンス: Link先を確認
Malte Hoffmann, Andrew Hoopes, Douglas N. Greve, Bruce Fischl, Adrian V. Dalca, (参考訳) アフィン画像登録は、医用画像解析の基盤となっている。 古典的アルゴリズムは優れた精度を達成できるが、各画像対に対して時間を要する最適化を解く。 ディープラーニング(DL)メソッドは、画像対を出力変換にマッピングする関数を学ぶ。 関数の評価は速いが、大きな変換をキャプチャすることは困難であり、テストイメージの特徴が解像度などのトレーニング領域からシフトした場合、ネットワークは苦労する傾向がある。 ほとんどのアフィン法は、ユーザが調整したい解剖学に依存しない。つまり、アルゴリズムが画像のすべての構造を考慮すれば、登録は不正確なものになる。 われわれはこれらの欠点をSynthMorphで解決する。これは高速で対称で微分型で使いやすいDLツールで、前処理なしで任意の脳画像の関節アフィン変形性登録を行うことができる。 まず,ラベルマップから多種多様な画像が合成されたネットワークを学習し,学習時に見つからない画像に対して頑健な性能を実現する。 次に,選択された解剖学的ラベルの空間的重なりを最適化する。 これにより、ネットワークは無関係な構造から関心の解剖学を区別することができ、解剖学固有の登録に影響を及ぼす可能性のあるコンテンツを除外する前処理の必要性を排除できる。 第3に、アフィンモデルと変形可能なハイパーネットワークを組み合わせることで、ユーザが特定のデータに対して、登録時に、古典的手法で要求される時間のごく一部で最適な変形場正規性を選択することができる。 我々は、競合するアーキテクチャがアフィン変換を学習し、最先端の登録ツールを、非常に多様なニューロイメージングデータ集合で比較し、現実世界のメソッドの振る舞いを真に捉えることを目的として分析する。 SynthMorphは高い精度を示し、脳MRIの登録のための単一の完全なエンドツーエンドソリューションとしてhttps://w3id.org/synthmorphで利用可能である。

Affine image registration is a cornerstone of medical image analysis. While classical algorithms can achieve excellent accuracy, they solve a time-consuming optimization for every image pair. Deep-learning (DL) methods learn a function that maps an image pair to an output transform. Evaluating the function is fast, but capturing large transforms can be challenging, and networks tend to struggle if a test-image characteristic shifts from the training domain, such as resolution. Most affine methods are agnostic to the anatomy the user wishes to align, meaning the registration will be inaccurate if algorithms consider all structures in the image. We address these shortcomings with SynthMorph, a fast, symmetric, diffeomorphic, and easy-to-use DL tool for joint affine-deformable registration of any brain image without preprocessing. First, we leverage a strategy that trains networks with widely varying images synthesized from label maps, yielding robust performance for image types unseen at training. Second, we optimize the spatial overlap of select anatomical labels. This enables networks to distinguish anatomy of interest from irrelevant structures, removing the need for preprocessing that excludes content that may impinge on anatomy-specific registration. Third, we combine the affine model with a deformable hypernetwork that lets users choose the optimal deformation-field regularity for their specific data, at registration time, in a fraction of the time required by classical methods. We analyze how competing architectures learn affine transforms and compare state-of-the-art registration tools across an extremely diverse set of neuroimaging data, aiming to truly capture the behavior of methods in the real world. SynthMorph demonstrates high accuracy and is available at https://w3id.org/synthmorph, as a single complete end-to-end solution for registration of brain MRI.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-13
# 脅威インテリジェンスにおける部分情報に基づくサイバー脆弱性優先順位付けのための頑健な統計的枠組み

A robust statistical framework for cyber-vulnerability prioritisation under partial information in threat intelligence ( http://arxiv.org/abs/2302.08348v4 )

ライセンス: Link先を確認
Mario Angelelli, Serena Arima, Christian Catalano, Enrico Ciavolino, (参考訳) サイバーリスク評価は、完全性、機密性、データの可用性を維持することによって、サイバー事故の防止から恩恵を受けることができる幅広い分野によって、勢いを増している。 サイバーセキュリティに対する関心の高まりは、サイバー物理システムの接続性の向上にも起因している。 この研究は、サイバー脆弱性とその優先順位の不確実性の下で、定量的および質的な推論のための頑健な統計的枠組みを導入する。 具体的には, 経常的リスク評価に対処するために, 潜時回帰を利用しており, サイバーリスクランキングとグレードドドレスポンスの代替案と比較する。 この目的のために,既存の脆弱性の集合全体の部分的知識の下で,ランク不変性に適した新しい精度尺度を同定する。 このモデルは、現実的な文脈におけるサイバー脆弱性に対する評価、搾取、応答をサポートする選択されたデータベースのシミュレーションデータと実データの両方でテストされる。 このようなデータセットにより、複数のモデルと精度測定値を比較し、脅威知性と運用シナリオにおける意思決定に対するサイバー脆弱性に関する部分的知識の影響を論じることができます。

Proactive cyber-risk assessment is gaining momentum due to the wide range of sectors that can benefit from the prevention of cyber-incidents by preserving integrity, confidentiality, and the availability of data. The rising attention to cybersecurity also results from the increasing connectivity of cyber-physical systems, which generates multiple sources of uncertainty about emerging cyber-vulnerabilities. This work introduces a robust statistical framework for quantitative and qualitative reasoning under uncertainty about cyber-vulnerabilities and their prioritisation. Specifically, we take advantage of mid-quantile regression to deal with ordinal risk assessments, and we compare it to current alternatives for cyber-risk ranking and graded responses. For this purpose, we identify a novel accuracy measure suited for rank invariance under partial knowledge of the whole set of existing vulnerabilities. The model is tested on both simulated and real data from selected databases that support the evaluation, exploitation, or response to cyber-vulnerabilities in realistic contexts. Such datasets allow us to compare multiple models and accuracy measures, discussing the implications of partial knowledge about cyber-vulnerabilities on threat intelligence and decision-making in operational scenarios.
翻訳日:2024-06-17 20:12:52 公開日:2024-06-13
# X線超蛍光の確率モデリング

Stochastic modeling of x-ray superfluorescence ( http://arxiv.org/abs/2303.00853v4 )

ライセンス: Link先を確認
Stasis Chuchurka, Andrei Benediktovitch, Špela Krušič, Aliaksei Halavanau, Nina Rohringer, (参考訳) 確率偏微分方程式に基づいて、X線増幅自発放出と超蛍光のダイナミクス(X線自由電子レーザーの強パルスによる集団X線放射の現象)をモデル化する手法を開発した。 方程式は第一原理から導出され、関連する近似、導出ステップ、刺激されたX線放射に特有の拡張が提示される。 結果として得られる方程式は、場変数と原子変数の両方のノイズ項で拡張された3次元一般化マクスウェル・ブロッホ方程式の形をとる。 導出した雑音項は、自然発生の正確な復元を可能にする特定の相関特性を有する。 したがって、発達した理論形式は、自発放出、増幅自発放出、超蛍光といった、刺激されたX線放射のすべての段階を記述するのに普遍的に適している。 本研究では, 時空間コヒーレンス, スペクトル角, 偏光特性など, 放射界の様々な特性を示す数値的な例を示す。 提案手法は,励起X線放射分光法,X線レーザー発振器のモデリング,およびX線超蛍光を利用した他の実験の解釈のための堅牢な基盤を確立することを期待する。

An approach to modeling the dynamics of x-ray amplified spontaneous emission and superfluorescence -- the phenomenon of collective x-ray emission initiated by intense pulses of X-ray Free Electron Lasers -- is developed based on stochastic partial differential equations. The equations are derived from first principles, and the relevant approximations, derivation steps, and extensions specific to stimulated x-ray emission are presented. The resulting equations take the form of three-dimensional generalized Maxwell-Bloch equations augmented with noise terms for both field and atomic variables. The derived noise terms possess specific correlation properties that enable the correct reconstruction of spontaneous emission. Consequently, the developed theoretical formalism is universally suitable for describing all stages of stimulated x-ray emission: spontaneous emission, amplified spontaneous emission, and superfluorescence. We present numerical examples that illustrate various properties of the emitted field, including spatio-temporal coherence, spectral-angular and polarization characteristics. We anticipate that the proposed theoretical framework will establish a robust foundation for interpreting measurements in stimulated x-ray emission spectroscopy, modeling x-ray laser oscillators, and describing other experiments leveraging x-ray superfluorescence.
翻訳日:2024-06-17 20:12:52 公開日:2024-06-13
# 故障データを用いたGSUREに基づく拡散モデルトレーニング

GSURE-Based Diffusion Model Training with Corrupted Data ( http://arxiv.org/abs/2305.13128v2 )

ライセンス: Link先を確認
Bahjat Kawar, Noam Elata, Tomer Michaeli, Michael Elad, (参考訳) 拡散モデルは、逆問題、テキストベースの編集、分類など、データ生成と下流タスクの両方において顕著な結果を示している。 しかし、そのようなモデルの訓練は通常、しばしば入手が困難または不可能な大量のクリーン信号を必要とする。 本研究では, 劣化データのみに基づく生成拡散モデルのための新しい学習手法を提案する。 我々は、一般化されたスタインのアンバイアスドリスク推定器(GSURE)に基づく損失関数を導入し、ある条件下では、完全に教師付き拡散モデルで使用される訓練目標と等価であることを示す。 顔画像やMRI(MRI)において、アンダーサンプルデータの使用によりデータ収集コストを大幅に軽減する手法を実証する。 本手法は,クリーン信号のトレーニングを行なわずに,完全教師付きシステムに匹敵する生成性能を実現する。 さらに、トレーニングセットに存在する劣化以外の様々な下流タスクにおいて、結果の拡散モデルをデプロイし、有望な結果を示す。

Diffusion models have demonstrated impressive results in both data generation and downstream tasks such as inverse problems, text-based editing, classification, and more. However, training such models usually requires large amounts of clean signals which are often difficult or impossible to obtain. In this work, we propose a novel training technique for generative diffusion models based only on corrupted data. We introduce a loss function based on the Generalized Stein's Unbiased Risk Estimator (GSURE), and prove that under some conditions, it is equivalent to the training objective used in fully supervised diffusion models. We demonstrate our technique on face images as well as Magnetic Resonance Imaging (MRI), where the use of undersampled data significantly alleviates data collection costs. Our approach achieves generative performance comparable to its fully supervised counterpart without training on any clean signals. In addition, we deploy the resulting diffusion model in various downstream tasks beyond the degradation present in the training set, showcasing promising results.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-13
# CrossGET: ビジョンランゲージ変換を高速化するための、クロスガイドのトークンの集合

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers ( http://arxiv.org/abs/2305.17455v4 )

ライセンス: Link先を確認
Dachuan Shi, Chaofan Tao, Anyi Rao, Zhendong Yang, Chun Yuan, Jiaqi Wang, (参考訳) 近年の視覚言語モデルは飛躍的な進歩を遂げている。 しかし、それらの計算コストも劇的に増大しており、モデル加速度が極端に重要になっている。 より効率的な視覚言語トランスフォーマーを追求するために,視覚言語トランスフォーマーのための一般的なアクセラレーションフレームワークであるクロスガイド・アンサンブル・オブ・トークン(CrossGET)を提案する。 このフレームワークは、推論中にリアルタイムでトークンを適応的に結合し、高性能を維持しながら計算コストを大幅に削減する。 CrossGETには2つの主要なイノベーションがある。 1)クロスガイドマッチングとアンサンブル。 CrossGETは、クロスモーダルなトークンマッチングとアンサンブルを利用して、クロスモーダルな情報を効果的に活用し、モダリティに依存しないモデル、例えば、CLIP、モダリティに依存しないモデル、例えば、BLIP2の両方に適用性を高める。 2)完全グラフソフトマッチング。 CrossGETはトークンマッチング機構のアルゴリズムを導入し、並列化性と高い効率性を確保しながら、信頼性の高いマッチング結果を保証する。 画像テキスト検索、視覚的推論、画像キャプション、視覚的質問応答など、様々な視覚言語タスクにおいて、広範囲にわたる実験が行われた。 従来のマルチモーダルアーキテクチャと新興マルチモーダルLCMの両方のパフォーマンスは、フレームワークの有効性と汎用性を示している。 コードはhttps://github.com/sdc17/CrossGETで入手できる。

Recent vision-language models have achieved tremendous advances. However, their computational costs are also escalating dramatically, making model acceleration exceedingly critical. To pursue more efficient vision-language Transformers, this paper introduces Cross-Guided Ensemble of Tokens (CrossGET), a general acceleration framework for vision-language Transformers. This framework adaptively combines tokens in real-time during inference, significantly reducing computational costs while maintaining high performance. CrossGET features two primary innovations: 1) Cross-Guided Matching and Ensemble. CrossGET leverages cross-modal guided token matching and ensemble to effectively utilize cross-modal information, achieving wider applicability across both modality-independent models, e.g., CLIP, and modality-dependent ones, e.g., BLIP2. 2) Complete-Graph Soft Matching. CrossGET introduces an algorithm for the token-matching mechanism, ensuring reliable matching results while facilitating parallelizability and high efficiency. Extensive experiments have been conducted on various vision-language tasks, such as image-text retrieval, visual reasoning, image captioning, and visual question answering. The performance on both classic multimodal architectures and emerging multimodal LLMs demonstrates the framework's effectiveness and versatility. The code is available at https://github.com/sdc17/CrossGET.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-13
# 未学習のネットワークはどんなクラスを好むか?

Initial Guessing Bias: How Untrained Networks Favor Some Classes ( http://arxiv.org/abs/2306.00809v4 )

ライセンス: Link先を確認
Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi, (参考訳) ニューラルネットワークにおけるバイアス効果の理解と制御は、正確で公正なモデル性能を保証するために不可欠である。 分類問題の文脈において、深層ニューラルネットワーク(DNN)の構造が、訓練の開始前や明示的なバイアスがない場合でも、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す理論的分析を提供する。 我々は,データセット特性以外にも,データセット前処理手法を含むモデル選択や,アクティベーション関数,最大プール層,ネットワーク深さなどのアーキテクチャ決定の影響を受け,この現象の存在を<textit{initial Guessing Bias} (IGB) と呼ぶ。 IGBの分析は、アーキテクチャの選択とモデル初期化のための情報を提供する。 また、ノード置換対称性の崩壊、自己破壊の違反、深さが現象に与える非自明な影響など、理論的な結果も強調する。

Understanding and controlling biasing effects in neural networks is crucial for ensuring accurate and fair model performance. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a deep neural network (DNN) can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We prove that, besides dataset properties, the presence of this phenomenon, which we call \textit{Initial Guessing Bias} (IGB), is influenced by model choices including dataset preprocessing methods, and architectural decisions, such as activation functions, max-pooling layers, and network depth. Our analysis of IGB provides information for architecture selection and model initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging and the non-trivial effects that depth has on the phenomenon.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-13
# 顔画像のニューラル・インシシティ・モーフィング

Neural Implicit Morphing of Face Images ( http://arxiv.org/abs/2308.13888v4 )

ライセンス: Link先を確認
Guilherme Schardong, Tiago Novello, Hallison Paz, Iurii Medvedev, Vinícius da Silva, Luiz Velho, Nuno Gonçalves, (参考訳) フェイスフォーミングは、多くの芸術的および法医学的応用を持つコンピュータグラフィックスにおける問題である。 ポーズ、照明、性別、民族のバリエーションのため、これは困難である。 このタスクは、特徴アライメントのためのワープと、歪んだ画像間のシームレスな遷移のためのブレンディングで構成される。 我々は,このような歪みや顔画像のブレンドを表現するために,協調型ニューラルネットワークを活用することを提案する。 トレーニング中は、離散化のない古典的手法で用いられるエネルギー汎関数を組み合わせることで、そのようなネットワークの滑らかさと柔軟性を利用する。 さらに,本手法は時間依存であり,画像の連続的なゆらぎ/ブレディングを可能にする。 モーフィング推論では、時間依存のワープの直接変換と逆変換の両方が必要である。 第1(第2)は、ターゲット(ソース)イメージをソース(ターゲット)イメージにワープする責務を負う。 私たちのニューラルワープは、これらのマップを単一のネットワークに格納し、反転する必要をなくします。 実験の結果,本手法は画像品質と顔変形検出器のレンズ下での古典的および生成的モデルと競合することが示唆された。 美学的には、結果のイメージは、文学においてまだ普通ではない多様な顔のシームレスなブレンドを示す。

Face morphing is a problem in computer graphics with numerous artistic and forensic applications. It is challenging due to variations in pose, lighting, gender, and ethnicity. This task consists of a warping for feature alignment and a blending for a seamless transition between the warped images. We propose to leverage coord-based neural networks to represent such warpings and blendings of face images. During training, we exploit the smoothness and flexibility of such networks by combining energy functionals employed in classical approaches without discretizations. Additionally, our method is time-dependent, allowing a continuous warping/blending of the images. During morphing inference, we need both direct and inverse transformations of the time-dependent warping. The first (second) is responsible for warping the target (source) image into the source (target) image. Our neural warping stores those maps in a single network dismissing the need for inverting them. The results of our experiments indicate that our method is competitive with both classical and generative models under the lens of image quality and face-morphing detectors. Aesthetically, the resulting images present a seamless blending of diverse faces not yet usual in the literature.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-13
# 不均質PT対称連続媒体における位相モードとスペクトル流

Topological modes and spectral flows in inhomogeneous PT-symmetric continuous media ( http://arxiv.org/abs/2309.10110v2 )

ライセンス: Link先を確認
Yichen Fu, Hong Qin, (参考訳) 古典的エルミート連続媒質では、トポロジカルモードのスペクトルフロー指数はインデックス定理を通じてバルクトポロジに関連付けられる。 しかしながら、2つのバルク間の界面は通常、系のパラメータの不均一性のために非エルミート的である。 システムにPT対称性が与えられた場合、界面の非ハーモニティ性にも拘わらず、位相モードとバルクトロジーの接続が依然として存在することを示す。 この理論の枠組みはホール磁力力学モデルに適用され、磁化プラズマ中の位相 Alfv\'{e}n-音波と呼ばれる位相モードを同定する。

In classical Hermitian continuous media, the spectral-flow index of topological modes is linked to the bulk topology via index theorem. However, the interface between two bulks is usually non-Hermitian due to the inhomogeneities of system parameters. We show that the connection between topological modes and bulk topology still exists despite the non-Hermiticity at the interface if the system is endowed with PT symmetry. The theoretical framework developed is applied to the Hall magnetohydrodynamic model to identify a topological mode called topological Alfv\'{e}n-sound wave in magnetized plasmas.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-13
# 超伝導準粒子増幅トランスモン:MeVスケールフォノンと単一THz光子のためのQubitベースのセンサ

The Superconducting Quasiparticle-Amplifying Transmon: A Qubit-Based Sensor for meV Scale Phonons and Single THz Photons ( http://arxiv.org/abs/2310.01345v3 )

ライセンス: Link先を確認
Caleb W. Fink, Chiara P. Salemi, Betty A. Young, David I. Schuster, Noah A. Kurinsky, (参考訳) 量子コンピューティングのコミュニティから大きな関心を集め、超伝導量子ビットの改善に多大な研究開発努力が注がれている。 これらの量子ビットの設計と製造のために開発された技術は、例えば低質量暗黒物質や遠赤外線光子センシングといった超低閾値粒子検出器の用途に直接適用することができる。 そこで本研究では,トランスモン量子ビットアーキテクチャと超伝導準粒子増幅器を併用した新しいセンサを提案する。 これらのセンサをSQUATs: Superconducting Quasi Particle-Amplifying Transmonsと呼ぶ。 この新しいセンサの動作原理と設計について詳述し、これらのセンサでパターン化された固体検出器は、最小の研究開発努力で、単一のTHz光子に対する感度、および1,\mathrm{meV}$フォノンに対する感度を、$\mu\mathrm{s}$タイムスケールの検出器吸収基板上の1,\mathrm{meV}$フォノンに達成できると予測する。

With great interest from the quantum computing community, an immense amount of R&D effort has been invested into improving superconducting qubits. The technologies developed for the design and fabrication of these qubits can be directly applied to applications for ultra-low threshold particle detectors, e.g. low-mass dark matter and far-IR photon sensing. We propose a novel sensor based on the transmon qubit architecture combined with a signal-enhancing superconducting quasiparticle amplification stage. We refer to these sensors as SQUATs: Superconducting Quasiparticle-Amplifying Transmons. We detail the operating principle and design of this new sensor and predict that with minimal R&D effort, solid-state based detectors patterned with these sensors can achieve sensitivity to single THz photons, and sensitivity to $1\,\mathrm{meV}$ phonons in the detector absorber substrate on the $\mu\mathrm{s}$ timescale.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-13
# グラフニューラルネットワークを用いた不規則空間データに対するニューラルベイズ推定器

Neural Bayes Estimators for Irregular Spatial Data using Graph Neural Networks ( http://arxiv.org/abs/2310.02600v2 )

ライセンス: Link先を確認
Matthew Sainsbury-Dale, Andrew Zammit-Mangion, Jordan Richards, Raphaël Huser, (参考訳) ニューラルベイズ推定器(Neural Bayes estimator)は、ベイズ推定器を高速かつ可能性のない方法で近似するニューラルネットワークである。 彼らはしばしば推定が計算ボトルネックとなる空間モデルでの使用をアピールしているが、空間アプリケーションにおけるニューラルベイズ推定器は、これまでは通常のグリッド上で収集されたデータに制限されていた。 これらの推定器は、現在、所定の空間的位置に依存するため、ニューラルネットワークを新しいデータセットのために再トレーニングする必要がある。 本研究では,任意の空間的位置から収集したデータからパラメータ点推定を行う重要な問題に,グラフニューラルネットワークを用いて対処する。 我々のアーキテクチャは、ニューラルベイズ推定を不規則な空間データに拡張するだけでなく、任意の構成、位置数、独立した複製で推定器を使用できるので、所定の空間モデルに対するトレーニングのコストを抑えることができるので、かなりの計算上の利点をもたらす。 また, 近接するニューラルベイズ推定器を訓練することにより, 高速不確実性定量化の促進を図る。 ガウス過程と最大安定過程について概説する。 最後に,グローバルな海面温度のデータセットを用いて,空間領域2161のガウス過程モデルのパラメータを推定する手法について述べる。

Neural Bayes estimators are neural networks that approximate Bayes estimators in a fast and likelihood-free manner. Although they are appealing to use with spatial models, where estimation is often a computational bottleneck, neural Bayes estimators in spatial applications have, to date, been restricted to data collected over a regular grid. These estimators are also currently dependent on a prescribed set of spatial locations, which means that the neural network needs to be re-trained for new data sets; this renders them impractical in many applications and impedes their widespread adoption. In this work, we employ graph neural networks to tackle the important problem of parameter point estimation from data collected over arbitrary spatial locations. In addition to extending neural Bayes estimation to irregular spatial data, our architecture leads to substantial computational benefits, since the estimator can be used with any configuration or number of locations and independent replicates, thus amortising the cost of training for a given spatial model. We also facilitate fast uncertainty quantification by training an accompanying neural Bayes estimator that approximates a set of marginal posterior quantiles. We illustrate our methodology on Gaussian and max-stable processes. Finally, we showcase our methodology on a data set of global sea-surface temperature, where we estimate the parameters of a Gaussian process model in 2161 spatial regions, each containing thousands of irregularly-spaced data points, in just a few minutes with a single graphics processing unit.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-13
# フラクトン場理論における局所クエンチ:リーブ・ロビンソン境界、非因果ダイナミクスおよびフラクタル励起パターン

Local quenches in fracton field theory: Lieb-Robinson bound, non-causal dynamics and fractal excitation patterns ( http://arxiv.org/abs/2310.11197v3 )

ライセンス: Link先を確認
Dmitry S. Ageev, Andrey A. Bagrov, Aleksandr I. Belokon, Askar Iliasov, Vasilii V. Pushkarev, Femke Verheijen, (参考訳) フラクトン場理論における局所摂動によって誘起される平衡外ダイナミクスについて検討する。 2点グリーン函数、$\langle \phi^2 \rangle$ condensate、エネルギー密度、双極子運動量などの可観測物の時間力学を計算する。 時間依存的な考察は、自由フラクトロン理論が因果関係を破り、たとえ系の速度制限を強制する追加相対論的項を含むとしても、瞬間的な信号伝播を示すことを強調している。 このことは、リーブ・ロビンソン境界がフラクトン場理論の連続極限に留まらず、光の有効有界速度が出現しないという事実に関連していることを示す。 有限体積の理論については、フラクトン波面が非自明なハウスドルフ次元のフラクタル形状を取得することを示し、この現象は単純な自己干渉効果によって説明できないと主張する。

We study the out-of-equilibrium dynamics induced by a local perturbation in fracton field theory. For the ${\mathbb Z}_4$ and ${\mathbb Z}_8$-symmetric free fractonic theories, we compute the time dynamics of several observables such as the two-point Green function, $\langle \phi^2 \rangle$ condensate, energy density, and the dipole momentum. The time-dependent considerations highlight that the free fractonic theory breaks causality and exhibits instantaneous signal propagation, even if an additional relativistic term is included to enforce a speed limit in the system. We show that it is related to the fact that the Lieb-Robinson bound does not hold in the continuum limit of the fracton field theory, and the effective bounded speed of light does not emerge. For the theory in finite volume, we show that the fracton wave front acquires fractal shape with non-trivial Hausdorff dimension, and argue that this phenomenon cannot be explained by a simple self-interference effect.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-13
# LUNA:大規模言語モデルのためのモデルベースユニバーサル分析フレームワーク

LUNA: A Model-Based Universal Analysis Framework for Large Language Models ( http://arxiv.org/abs/2310.14211v2 )

ライセンス: Link先を確認
Da Song, Xuan Xie, Jiayang Song, Derui Zhu, Yuheng Huang, Felix Juefei-Xu, Lei Ma, (参考訳) この10年間、人工知能(AI)は大きな成功を収め、幅広い学術分野や産業分野で利用されてきた。 最近では、ソフトウェアエンジニアリングや自然言語処理といった分野において、LLMはAIを新たなレベルへと押し上げ、さらに多様なアプリケーションやインテリジェンスを持つ産業ドメインを可能にしている。 しかし, LLM の信頼性に関する懸念や問題点は, LLM の普及が現実に大きく妨げられるような問題を適切に解決することなく, 既に多くの注目を集めている。 自己認識機構,極めて大規模なモデルスケール,自己回帰生成スキーマなどのLLMの特徴は,CNNやRNNをベースとした古典的AIソフトウェアと異なり,品質解析における新たな課題が提示されている。 現在に至るまで、産業の急激な需要にもかかわらず、LLMの普遍的かつ体系的な分析技術は欠如している。 このギャップを埋めるために、我々は初期の探索研究を開始し、汎用的で拡張可能なLLMの普遍的分析フレームワークLUNAを提案し、人間の解釈可能な方法で複数の品質の観点からLLMの多元的分析を可能にする。 特に,まず,所望の信頼性の観点から得られたデータを活用して,抽象モデル構築手法によって強化された補助的分析資産として抽象モデルを構築する。 抽象モデルの品質を評価するために,抽象モデルレベルと意味論レベルの両方を対象として,多くの評価指標を収集し,定義する。 そして、LLMの満足度であるセマンティクスは、セマンティクスで抽象モデルに縛られ、強化され、多様な目的のためにより詳細な分析アプリケーションを可能にする。

Over the past decade, Artificial Intelligence (AI) has had great success recently and is being used in a wide range of academic and industrial fields. More recently, LLMs have made rapid advancements that have propelled AI to a new level, enabling even more diverse applications and industrial domains with intelligence, particularly in areas like software engineering and natural language processing. Nevertheless, a number of emerging trustworthiness concerns and issues exhibited in LLMs have already recently received much attention, without properly solving which the widespread adoption of LLMs could be greatly hindered in practice. The distinctive characteristics of LLMs, such as the self-attention mechanism, extremely large model scale, and autoregressive generation schema, differ from classic AI software based on CNNs and RNNs and present new challenges for quality analysis. Up to the present, it still lacks universal and systematic analysis techniques for LLMs despite the urgent industrial demand. Towards bridging this gap, we initiate an early exploratory study and propose a universal analysis framework for LLMs, LUNA, designed to be general and extensible, to enable versatile analysis of LLMs from multiple quality perspectives in a human-interpretable manner. In particular, we first leverage the data from desired trustworthiness perspectives to construct an abstract model as an auxiliary analysis asset, which is empowered by various abstract model construction methods. To assess the quality of the abstract model, we collect and define a number of evaluation metrics, aiming at both abstract model level and the semantics level. Then, the semantics, which is the degree of satisfaction of the LLM w.r.t. the trustworthiness perspective, is bound to and enriches the abstract model with semantics, which enables more detailed analysis applications for diverse purposes.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-13
# アダムを2次レンズで見るK-FACヒューリスティックスの研究

Studying K-FAC Heuristics by Viewing Adam through a Second-Order Lens ( http://arxiv.org/abs/2310.14963v3 )

ライセンス: Link先を確認
Ross M. Clarke, José Miguel Hernández-Lobato, (参考訳) ディープラーニングの最適化に関する研究は、一階勾配法(SGDやAdamなど)の計算効率と二階曲線法(準ニュートン法やK-FACなど)の理論的効率との緊張が特徴である。 2階法はしばしば安定化ヒューリスティック(レバンス・マルカート減衰など)の追加で有効に機能するが、これら(二階曲率モデルとは対照的に)が2階アルゴリズムの性能にどの程度寄与するかを問う。 そこで本稿では,K-FAC (Martens & Grosse, 2015) の減衰と学習率選択技術と,Adamが提案した2次レンズによるAdamを考慮した更新方向を併用したオプティマイザであるAdamQLRについて検討する。 K-FACの適応的ヒューリスティックは、可変なスタンドアロンの一般的な有効性であり、未調整のAdamQLR設定は、チューニングされたベンチマークに対して実行時と同等のパフォーマンスを達成することができる。

Research into optimisation for deep learning is characterised by a tension between the computational efficiency of first-order, gradient-based methods (such as SGD and Adam) and the theoretical efficiency of second-order, curvature-based methods (such as quasi-Newton methods and K-FAC). Noting that second-order methods often only function effectively with the addition of stabilising heuristics (such as Levenberg-Marquardt damping), we ask how much these (as opposed to the second-order curvature model) contribute to second-order algorithms' performance. We thus study AdamQLR: an optimiser combining damping and learning rate selection techniques from K-FAC (Martens & Grosse, 2015) with the update directions proposed by Adam, inspired by considering Adam through a second-order lens. We evaluate AdamQLR on a range of regression and classification tasks at various scales and hyperparameter tuning methodologies, concluding K-FAC's adaptive heuristics are of variable standalone general effectiveness, and finding an untuned AdamQLR setting can achieve comparable performance vs runtime to tuned benchmarks.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-13
# ユーザニーズを予想する: コンピュータ思考のための会話エージェントに関するデザイン・フィクションからの考察

Anticipating User Needs: Insights from Design Fiction on Conversational Agents for Computational Thinking ( http://arxiv.org/abs/2311.06887v2 )

ライセンス: Link先を確認
Jacob Penney, João Felipe Pimentel, Igor Steinmacher, Marco A. Gerosa, (参考訳) コンピュータ思考、そして拡張によって、コンピュータプログラミングは、学ぶことが難しいことで知られている。 対話エージェントと生成人工知能(genAI)は、パーソナライズされたガイダンス、対話型学習体験、コード生成を提供することで、この学習プロセスを促進する可能性がある。 しかし、現在のgenAIベースのチャットボットはプロの開発者に焦点を当てており、教育的ニーズを十分に考慮していない可能性がある。 教育ツールの構想に教育者を巻き込むことは、有用性とユーザビリティを確保するために重要である。 我々は9人のインストラクターを募集し,genAIが支援する会話エージェントが表示するような,デザインフィクションのセッションに従事した。 参加者は、演習を通じて学生を段階的に指導する会話エージェントを構想し、その指導方法を教育的背景、スキルと欠陥、学習の好みを意識して調整した。 本稿では,計算思考とコンピュータプログラミングの教育を指向した学習エージェントの今後の実装について考察する。

Computational thinking, and by extension, computer programming, is notoriously challenging to learn. Conversational agents and generative artificial intelligence (genAI) have the potential to facilitate this learning process by offering personalized guidance, interactive learning experiences, and code generation. However, current genAI-based chatbots focus on professional developers and may not adequately consider educational needs. Involving educators in conceiving educational tools is critical for ensuring usefulness and usability. We enlisted nine instructors to engage in design fiction sessions in which we elicited abilities such a conversational agent supported by genAI should display. Participants envisioned a conversational agent that guides students stepwise through exercises, tuning its method of guidance with an awareness of the educational background, skills and deficits, and learning preferences. The insights obtained in this paper can guide future implementations of tutoring conversational agents oriented toward teaching computational thinking and computer programming.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-13
# 著者帰属モデルは音声文中の話者を区別できるか?

Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? ( http://arxiv.org/abs/2311.07564v3 )

ライセンス: Link先を確認
Cristina Aggazzotti, Nicholas Andrews, Elizabeth Allyn Smith, (参考訳) 著者検証は、2つの異なる文章サンプルが同じ著者を共有しているかどうかを判断するタスクであり、典型的には文章の帰属に関係している。 本稿では,新たな課題を提起する書き起こし音声の属性について考察する。 主な課題は、句読点や資本化のような多くのスタイル的特徴がこの設定では意味を持たないことである。 一方、書き起こされた音声は、異なる話者の特徴であるかもしれないフィラー語やバックチャネル(eg , 'um', 'uh-huh')などの他のパターンを示す。 そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。 トピックに関連する話者の急激な関連を抑えるため,同じ会話に参加している話者と会話のプロンプトを併用し,様々な難易度に関する検証試験を構築した。 我々は、ニューラルベースラインと非ニューラルベースラインを比較して、新しいベンチマークの最先端性を確立し、テキスト属性モデルが特定の設定で驚くほど優れたパフォーマンスを達成しているにもかかわらず、会話トピックがますます制御されるにつれて、それらのパフォーマンスが著しく悪化していることを発見した。 本稿では,文字の書き起こしスタイルがパフォーマンスに与える影響と,音声の書き起こしを微調整して性能を向上させる能力について分析する。

Authorship verification is the task of determining if two distinct writing samples share the same author and is typically concerned with the attribution of written text. In this paper, we explore the attribution of transcribed speech, which poses novel challenges. The main challenge is that many stylistic features, such as punctuation and capitalization, are not informative in this setting. On the other hand, transcribed speech exhibits other patterns, such as filler words and backchannels (e.g., 'um', 'uh-huh'), which may be characteristic of different speakers. We propose a new benchmark for speaker attribution focused on human-transcribed conversational speech transcripts. To limit spurious associations of speakers with topic, we employ both conversation prompts and speakers participating in the same conversation to construct verification trials of varying difficulties. We establish the state of the art on this new benchmark by comparing a suite of neural and non-neural baselines, finding that although written text attribution models achieve surprisingly good performance in certain settings, they perform markedly worse as conversational topic is increasingly controlled. We present analyses of the impact of transcription style on performance as well as the ability of fine-tuning on speech transcripts to improve performance.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-13
# コミュニティ型ソーシャルメディア投稿における利用・誤用・付加の自己開示の同定

Identifying Self-Disclosures of Use, Misuse and Addiction in Community-based Social Media Posts ( http://arxiv.org/abs/2311.09066v3 )

ライセンス: Link先を確認
Chenghao Yang, Tuhin Chakrabarty, Karli R Hochstatter, Melissa N Slavin, Nabila El-Bassel, Smaranda Muresan, (参考訳) 米国では過去10年間で、処方薬と違法オピオイドによる過剰摂取で50万人以上が死亡している(USDHHS、2017年)。 医療従事者は、リスクの高い患者を効果的に識別できる堅牢でタイムリーなツールを必要とする。 Redditのようなコミュニティベースのソーシャルメディアプラットフォームは、ユーザーが不適切な薬物関連行動について議論するための自己開示を可能にする。 医療用, 誤用, 添加, 回復用, 再発用, 使用しない6種類のオピオイド使用をラベル付けした, 2500オピオイド関連ポストの適度なサイズコーパスを提出した。 すべての投稿において、我々は、スパンレベルの抽出的説明を注釈付けし、アノテーションの品質とモデル開発の両方において、それらの役割を決定的に研究します。 教師付き、少数ショット、ゼロショット設定において、いくつかの最先端モデルを評価する。 実験結果と誤差分析の結果,オピオイド使用障害の相の同定は文脈的かつ困難であることが示唆された。 しかし,モデリングにおける説明の活用は,オピオイド乱用障害連続体の研究などの高用量領域において,その有効性を示す分類精度を著しく向上させることがわかった。

In the last decade, the United States has lost more than 500,000 people from an overdose involving prescription and illicit opioids making it a national public health emergency (USDHHS, 2017). Medical practitioners require robust and timely tools that can effectively identify at-risk patients. Community-based social media platforms such as Reddit allow self-disclosure for users to discuss otherwise sensitive drug-related behaviors. We present a moderate size corpus of 2500 opioid-related posts from various subreddits labeled with six different phases of opioid use: Medical Use, Misuse, Addiction, Recovery, Relapse, Not Using. For every post, we annotate span-level extractive explanations and crucially study their role both in annotation quality and model development. We evaluate several state-of-the-art models in a supervised, few-shot, or zero-shot setting. Experimental results and error analysis show that identifying the phases of opioid use disorder is highly contextual and challenging. However, we find that using explanations during modeling leads to a significant boost in classification accuracy demonstrating their beneficial role in a high-stakes domain such as studying the opioid use disorder continuum.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-13
# ワイヤード・パースペクティブ:多視点ワイヤーアートが生成AIを取り入れる

Wired Perspectives: Multi-View Wire Art Embraces Generative AI ( http://arxiv.org/abs/2311.15421v2 )

ライセンス: Link先を確認
Zhiyu Qu, Lan Yang, Honggang Zhang, Tao Xiang, Kaiyue Pang, Yi-Zhe Song, (参考訳) 多視点ワイヤーアート(MVWA、Multi-view wire art)は、異なる視点から様々な解釈をすることができる静的な3D彫刻であり、熟練したアーティストにとっても複雑な作業である。 これに対し、誰もが簡単にMVWAを作成できるAIシステムであるDreamWireを提示する。 ユーザーはテキストのプロンプトやスクリブルを通じてビジョンを表現し、複雑な3Dワイヤー組織から解放する。 提案手法は,3次元B\'ezier曲線,プリムのアルゴリズム,拡散モデルあるいはそれらの変種(制御ネットなど)からの知識蒸留を相乗的に行う。 このブレンドにより、システムは3Dワイヤアートを表現でき、空間的連続性を確保し、データの不足を克服できる。 本システムの内部動作について,接続性と視覚美学のトレードオフを含む総合的な評価と分析を行った。

Creating multi-view wire art (MVWA), a static 3D sculpture with diverse interpretations from different viewpoints, is a complex task even for skilled artists. In response, we present DreamWire, an AI system enabling everyone to craft MVWA easily. Users express their vision through text prompts or scribbles, freeing them from intricate 3D wire organisation. Our approach synergises 3D B\'ezier curves, Prim's algorithm, and knowledge distillation from diffusion models or their variants (e.g., ControlNet). This blend enables the system to represent 3D wire art, ensuring spatial continuity and overcoming data scarcity. Extensive evaluation and analysis are conducted to shed insight on the inner workings of the proposed system, including the trade-off between connectivity and visual aesthetics.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-13
# HOT:効率的な変換器を用いた高次動的グラフ表現学習

HOT: Higher-Order Dynamic Graph Representation Learning with Efficient Transformers ( http://arxiv.org/abs/2311.18526v2 )

ライセンス: Link先を確認
Maciej Besta, Afonso Claudino Catarino, Lukas Gianinazzi, Nils Blach, Piotr Nyczyk, Hubert Niewiadomski, Torsten Hoefler, (参考訳) 多くのグラフ表現学習(GRL)問題は動的であり、数百万のエッジが追加され、毎秒削除される。 この設定における基本的なワークロードは、動的リンク予測である。 グラフ更新の履歴を使用して、与えられた頂点のペアが接続されるかどうかを予測する。 このような動的設定におけるリンク予測の最近のスキームはトランスフォーマーを採用し、個々のグラフ更新を単一トークンとしてモデル化している。 本研究では、高階(HO)グラフ構造、具体的には、kホップ近傍および与えられた頂点を含むより一般的な部分グラフを活用することにより、この研究線を強化するモデルであるHOTを提案する。 このようなHO構造を基盤となるTransformerのアテンションマトリックスに符号化することで、リンク予測結果の精度が向上するが、メモリ圧力の増大を犠牲にしている。 これを緩和するために、注意行列に階層構造を課し、メモリフットプリントを大幅に削減する最近のスキームを利用する。 最終的な設計は、高精度と低メモリ利用の間のスイートスポットを提供する。 HOTは、MOOCデータセットのDyGFormer、TGN、GraphMixerよりも9%、7%、15%高い精度を達成している。 私たちの設計は、他の動的GRLワークロードに対してシームレスに拡張できます。

Many graph representation learning (GRL) problems are dynamic, with millions of edges added or removed per second. A fundamental workload in this setting is dynamic link prediction: using a history of graph updates to predict whether a given pair of vertices will become connected. Recent schemes for link prediction in such dynamic settings employ Transformers, modeling individual graph updates as single tokens. In this work, we propose HOT: a model that enhances this line of works by harnessing higher-order (HO) graph structures; specifically, k-hop neighbors and more general subgraphs containing a given pair of vertices. Harnessing such HO structures by encoding them into the attention matrix of the underlying Transformer results in higher accuracy of link prediction outcomes, but at the expense of increased memory pressure. To alleviate this, we resort to a recent class of schemes that impose hierarchy on the attention matrix, significantly reducing memory footprint. The final design offers a sweetspot between high accuracy and low memory utilization. HOT outperforms other dynamic GRL schemes, for example achieving 9%, 7%, and 15% higher accuracy than - respectively - DyGFormer, TGN, and GraphMixer, for the MOOC dataset. Our design can be seamlessly extended towards other dynamic GRL workloads.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-13
# BERTおよびGPTに基づく大規模言語モデルにおける逆曲線とその他の導出論理推論の探索

Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models ( http://arxiv.org/abs/2312.03633v2 )

ライセンス: Link先を確認
Da Wu, Jingye Yang, Kai Wang, (参考訳) 逆カース(Reversal Curse)とは、「A is B」で訓練されたChatGPTのような自動回帰デコーダの大規模言語モデル(LLM)が「B is A」を学ぶのに失敗するシナリオを指す。 このことは、知識グラフの構成のようなある種の一般的なタスクにGPTモデルを使用する際に、この対称原理に固執することを考慮して赤旗を掲げる。 そこで本研究では,両方向性 LLM であるBERT について検討し,逆行性呪いに対する免疫性が確認された。 LLMを用いて生物医学知識グラフを構築するための継続的な取り組みによって、我々はさらに複雑だが本質的な推論能力の評価にも取り組みました。 このプロセスには、最初のトレーニングエンコーダとデコーダ言語モデルが含まれており、2つのセットの交差点とユニオンの操作をマスターし、次に3つの新しく作成されたセットでユニオンと交差の操作の異なる組み合わせを推測する能力を評価する。 その結果,2つの集合を含むタスク(ユニオン/インターセクション)のために訓練されたエンコーダ言語モデルとデコーダ言語モデルの両方が,3つの集合を含む操作(ユニオンと交叉の様々な組み合わせ)を扱う場合の課題に遭遇した。 本研究では, エンコーダモデルとデコーダモデルの特徴を, 単純かつ複雑な論理的推論において明らかにした。 実際には、BERT と GPT の選択は、そのタスクの具体的な要件と性質によって導かれるべきであり、それぞれの強みを双方向のコンテキスト理解とシーケンス予測に活用する。

The term "Reversal Curse" refers to the scenario where auto-regressive decoder large language models (LLMs), such as ChatGPT, trained on "A is B" fail to learn "B is A," assuming that B and A are distinct and can be uniquely identified from each other, demonstrating a basic failure of logical deduction. This raises a red flag in the use of GPT models for certain general tasks such as constructing knowledge graphs, considering their adherence to this symmetric principle. In our study, we examined a bidirectional LLM, BERT, and found that it is immune to the reversal curse. Driven by ongoing efforts to construct biomedical knowledge graphs with LLMs, we also embarked on evaluating more complex but essential deductive reasoning capabilities. This process included first training encoder and decoder language models to master the intersection and union operations on two sets and then moving on to assess their capability to infer different combinations of union and intersection operations on three newly created sets. The findings showed that while both encoder and decoder language models, trained for tasks involving two sets (union/intersection), were proficient in such scenarios, they encountered difficulties when dealing with operations that included three sets (various combinations of union and intersection). Our research highlights the distinct characteristics of encoder and decoder models in simple and complex logical reasoning. In practice, the choice between BERT and GPT should be guided by the specific requirements and nature of the task at hand, leveraging their respective strengths in bidirectional context comprehension and sequence prediction.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-13
# 凸確率計画における平均平均近似のための計量エントロピー自由サンプル複素境界

Metric Entropy-Free Sample Complexity Bounds for Sample Average Approximation in Convex Stochastic Programming ( http://arxiv.org/abs/2401.00664v3 )

ライセンス: Link先を確認
Hongcheng Liu, Jindong Tong, (参考訳) 本稿では,凸あるいは強凸確率計画問題の解法におけるサンプル平均近似(SAA)について検討する。 いくつかの共通正規性条件の下では、SAAのサンプルの複雑さは(被覆数の対数のような)計量エントロピーの量子化から完全に解放され、既存のほとんどの結果よりも次元$d$のかなり効率的な速度が得られることを示す。 新たに確立された複雑性境界から、SAAと正準確率ミラー降下(SMD)法は、SPに対する2つの主流解法であり、サンプル効率のほぼ同じ率を伴い、$O(d)$の順序でSAAの永続的理論的相違をSMDから修正する。 さらに,SAAが証明可能な有効性を維持している非リプシッツ的シナリオについて検討するが,SMDの対応する結果はほとんど探索されていないままであり,不規則な条件下でのSAAのよりよい適用可能性を示している。

This paper studies sample average approximation (SAA) in solving convex or strongly convex stochastic programming problems. Under some common regularity conditions, we show -- perhaps for the first time -- that SAA's sample complexity can be completely free from any quantification of metric entropy (such as the logarithm of the covering number), leading to a significantly more efficient rate with dimensionality $d$ than most existing results. From the newly established complexity bounds, an important revelation is that SAA and the canonical stochastic mirror descent (SMD) method, two mainstream solution approaches to SP, entail almost identical rates of sample efficiency, rectifying a persistent theoretical discrepancy of SAA from SMD by the order of $O(d)$. Furthermore, this paper explores non-Lipschitzian scenarios where SAA maintains provable efficacy but the corresponding results for SMD remain mostly unexplored, indicating the potential of SAA's better applicability in some irregular settings.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-13
# 形式言語における大規模言語モデルはいかに熟練しているか : 知識ベース質問応答の深い洞察

How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering ( http://arxiv.org/abs/2401.05777v2 )

ライセンス: Link先を確認
Jinxin Liu, Shulin Cao, Jiaxin Shi, Tingjian Zhang, Lunyiu Nie, Linmei Hu, Lei Hou, Juanzi Li, (参考訳) 知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。 KBQAの典型的なアプローチは意味解析であり、質問を形式言語で実行可能な論理形式に変換する。 最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。 しかしながら、LLMがKBQA問題を解くことができることは検証されているが、意味解析に使用される形式言語におけるLLMの習熟度の違いについてはほとんど議論されていない。 本研究では,LLMのテキスト内学習を通じて,自然言語と形式言語の相互変換を検証し,異なる構造を持つ論理形式に対処するLLMの理解と生成能力を評価することを提案する。 異なる大きさのモデルを用いた大規模な実験では、最先端のLLMは人間と同様に形式言語を理解できるが、いくつかの例から正しい論理形式を生成することは依然として困難である。 以上の結果から,LSMは高い感度を示すことが示唆された。 一般に、形式化レベルが低い形式言語、すなわち自然言語に類似しているほど、LLMに親しみやすい。

Knowledge Base Question Answering (KBQA) aims to answer natural language questions based on facts in knowledge bases. A typical approach to KBQA is semantic parsing, which translates a question into an executable logical form in a formal language. Recent works leverage the capabilities of large language models (LLMs) for logical form generation to improve performance. However, although it is validated that LLMs are capable of solving some KBQA problems, there has been little discussion on the differences in LLMs' proficiency in formal languages used in semantic parsing. In this work, we propose to evaluate the understanding and generation ability of LLMs to deal with differently structured logical forms by examining the inter-conversion of natural and formal language through in-context learning of LLMs. Extensive experiments with models of different sizes show that state-of-the-art LLMs can understand formal languages as well as humans, but generating correct logical forms given a few examples remains a challenge. Most importantly, our results also indicate that LLMs exhibit considerable sensitivity. In general, the formal language with a lower formalization level, i.e., the more similar it is to natural language, is more friendly to LLMs.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-13
# 定量的双極子配置グラフの寄与関数:原理に基づく分析

Contribution Functions for Quantitative Bipolar Argumentation Graphs: A Principle-based Analysis ( http://arxiv.org/abs/2401.08879v2 )

ライセンス: Link先を確認
Timotheus Kampik, Nico Potyka, Xiang Yin, Kristijonas Čyras, Francesca Toni, (参考訳) 本稿では、ある引数の他の引数への寄与を定量化する量的双極性議論グラフに対する寄与関数の原理に基づく解析について述べる。 導入された原理は、貢献関数の振る舞いに関する期待と同様に、様々な貢献関数の根底にある直観を定式化する。 カバーされたコントリビューション機能はいずれもすべての原則を満たすものではないため、我々の分析は、与えられたユースケースの要求に基づいて最も適切な関数の選択を可能にするツールとして機能する。

We present a principle-based analysis of contribution functions for quantitative bipolar argumentation graphs that quantify the contribution of one argument to another. The introduced principles formalise the intuitions underlying different contribution functions as well as expectations one would have regarding the behaviour of contribution functions in general. As none of the covered contribution functions satisfies all principles, our analysis can serve as a tool that enables the selection of the most suitable function based on the requirements of a given use case.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-13
# 個人推論のための線形化群精度に対する異なる影響

Disparate Impact on Group Accuracy of Linearization for Private Inference ( http://arxiv.org/abs/2402.03629v2 )

ライセンス: Link先を確認
Saswat Das, Marco Romanelli, Ferdinando Fioretto, (参考訳) 暗号化されたセキュアなデータに対するプライバシー保護推論を保証することは、よく知られた計算課題である。 非線形アクティベーションにおけるコストのかかる暗号計算のボトルネックを軽減するため、最近の手法では、ニューラルネットワークにおいてこれらのアクティベーションのターゲット部分の線形化が提案されている。 この技術は、しばしば精度に無視できる影響で、ランタイムを著しく削減する。 本稿では,このような計算的利点が公正コストの増大につながることを実証する。 具体的には、ReLUアクティベーション数の減少が多数派と比較して少数派の精度を不均等に低下させることが判明した。 これらの観察を説明するために、決定境界の性質に関する限定的な仮定の下で数学的解釈を行い、また、広く使われているデータセットやアーキテクチャにおけるこの問題の有病率を示す。 最後に,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。

Ensuring privacy-preserving inference on cryptographically secure data is a well-known computational challenge. To alleviate the bottleneck of costly cryptographic computations in non-linear activations, recent methods have suggested linearizing a targeted portion of these activations in neural networks. This technique results in significantly reduced runtimes with often negligible impacts on accuracy. In this paper, we demonstrate that such computational benefits may lead to increased fairness costs. Specifically, we find that reducing the number of ReLU activations disproportionately decreases the accuracy for minority groups compared to majority groups. To explain these observations, we provide a mathematical interpretation under restricted assumptions about the nature of the decision boundary, while also showing the prevalence of this problem across widely used datasets and architectures. Finally, we show how a simple procedure altering the fine-tuning step for linearized models can serve as an effective mitigation strategy.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-13
# X線超蛍光のエルミート確率法

Hermitian stochastic methodology for X-ray superfluorescence ( http://arxiv.org/abs/2402.04069v5 )

ライセンス: Link先を確認
Stasis Chuchurka, Vladislav Sukharnikov, Nina Rohringer, (参考訳) 最近導入されたX線増幅自然放出の力学をモデル化するための理論的枠組みは、他の位相空間サンプリング法と同様に、量子エミッタの密度行列と放射場を確率的にサンプリングすることに基づいている。 第一原理に基づいて価値ある理論的な洞察を与える一方で、元の確率微分方程式は発散性と数値的不安定性を示す。 ここでは、確率成分を摂動的に考慮し、この問題を解決する。 洗練された形式主義は自発放出の特性を正確に再現し、自発放出、増幅自発放出、非線形状態を含む同軸幾何学における集合X線放射の全ての段階を記述するのに普遍的に適用可能である。 数値的な例を通して、1次元近似における超蛍光の重要な特徴を解析する。 重要なことに、基礎となる確率方程式の単一実現は、超蛍光の個々の実験観測として完全に解釈できる。

A recently introduced theoretical framework for modeling the dynamics of X-ray amplified spontaneous emission is based on stochastic sampling of the density matrix of quantum emitters and the radiation field, similarly to other phase-space sampling techniques. While based on first principles and providing valuable theoretical insights, the original stochastic differential equations exhibit divergences and numerical instabilities. Here, we resolve this issue by accounting the stochastic components perturbatively. The refined formalism accurately reproduces the properties of spontaneous emission and proves universally applicable for describing all stages of collective X-ray emission in paraxial geometry, including spontaneous emission, amplified spontaneous emission, and the non-linear regime. Through numerical examples, we analyze key features of superfluorescence in one-dimensional approximation. Importantly, single realizations of the underlying stochastic equations can be fully interpreted as individual experimental observations of superfluorescence.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-13
# 蝶による変化:群貯留層変圧器による遠視予測

Changes by Butterflies: Farsighted Forecasting with Group Reservoir Transformer ( http://arxiv.org/abs/2402.09573v2 )

ライセンス: Link先を確認
Md Kowsher, Abdul Rafae Khan, Jia Xu, (参考訳) カオスでは、2つの初期条件の間の小さなばらつきが時間とともに指数的な増幅を示し、蝶効果として知られる遠方の結果をもたらす。 したがって、遠い未来は不確実性に満ちており、予測が難しい。 グループ貯水池変圧器を導入し、カオスにおける2つの課題を克服し、より正確かつ堅牢に長期イベントを予測する。 変圧器に貯水池を取り付け、任意の長さの歴史的長さを効率的に扱えるようにし、貯水池群を拡張して初期化変動に対する感度を下げる。 我々のアーキテクチャは,ETTh,ETTm,空気品質などの様々な分野において,タイムLLM,GPT2TS,PatchTST,DLinear,TimeNet,およびベースライントランスフォーマーなどの多変量時系列モデルにおいて,エラーを最大-59\%削減し,バタフライ学習のアンサンブルが,未知未来への旅行時間にもかかわらず,事象予測の精度と確実性を向上できることを示す。

In Chaos, a minor divergence between two initial conditions exhibits exponential amplification over time, leading to far-away outcomes, known as the butterfly effect. Thus, the distant future is full of uncertainty and hard to forecast. We introduce Group Reservoir Transformer to predict long-term events more accurately and robustly by overcoming two challenges in Chaos: (1) the extensive historical sequences and (2) the sensitivity to initial conditions. A reservoir is attached to a Transformer to efficiently handle arbitrarily long historical lengths, with an extension of a group of reservoirs to reduce the sensitivity to the initialization variations. Our architecture consistently outperforms state-of-the-art models in multivariate time series, including TimeLLM, GPT2TS, PatchTST, DLinear, TimeNet, and the baseline Transformer, with an error reduction of up to -59\% in various fields such as ETTh, ETTm, and air quality, demonstrating that an ensemble of butterfly learning can improve the adequacy and certainty of event prediction, despite of the traveling time to the unknown future.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-13
# QuRating: 学習言語モデルのための高品質なデータの選択

QuRating: Selecting High-Quality Data for Training Language Models ( http://arxiv.org/abs/2402.09739v2 )

ライセンス: Link先を確認
Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen, (参考訳) 高品質な事前学習データを選択することは、有能な言語モデルを作成する上で重要であるが、既存の手法は単純なヒューリスティックに依存している。 データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。 本稿では,文章の書き方,専門知識,事実とトリビア,教育価値の4つの特性について検討し,特にテキストの両面的な判断を行う場合,LLMがこれらの性質を識別できることを見出した。 ペアの判断からスカラー評価を学ぶためにQuRaterモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。 実験では,品質評価の異なる30Bトークンを選択し,選択したデータに基づいて1.3Bパラメータ言語モデルを訓練する。 品質と多様性のバランスをとることが重要です。 品質評価を文書上のロジットとして用いた場合、ベースラインよりも難易度が低く、文脈内学習性能が優れている。 我々の最良のモデルは教育的価値に基づいており、さらに50%のステップで一様サンプリングで訓練されたモデルと同様に機能する。 データ選択以外にも、トレーニングデータセットを変更することなく、パフォーマンスを改善するトレーニングカリキュラムを構築するために、品質評価を使用します。 品質評価を幅広く分析し、その特性、バイアス、より広い意味について論じる。

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics. We introduce QuRating, a method for selecting pre-training data that can capture human intuitions about data quality. In this paper, we investigate four qualities - writing style, required expertise, facts & trivia, and educational value - and find that LLMs are able to discern these qualities, especially when making pairwise judgments of texts. We train a QuRater model to learn scalar ratings from pairwise judgments, and use it to annotate a 260B training corpus with quality ratings for each of the four criteria. In our experiments, we select 30B tokens according to the different quality ratings and train 1.3B-parameter language models on the selected data. We find that it is important to balance quality and diversity. When we sample using quality ratings as logits over documents, our models obtain lower perplexity and stronger in-context learning performance than baselines. Our best model is based on educational value and performs similarly to a model trained with uniform sampling for 50% more steps. Beyond data selection, we use the quality ratings to construct a training curriculum which improves performance without changing the training dataset. We extensively analyze the quality ratings and discuss their characteristics, biases, and wider implications.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-13
# NiNformer: トケミキシング生成ゲーティング機能を備えたネットワークトランスフォーマーのネットワーク

NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function ( http://arxiv.org/abs/2403.02411v4 )

ライセンス: Link先を確認
Abdullah Nazhat Abdullah, Tarkan Aydin, (参考訳) 注意機構はトランスフォーマーアーキテクチャの主要なコンポーネントであり、導入以来、多くのドメインと複数のタスクにまたがるディープラーニングの大幅な進歩につながっている。 注意機構はコンピュータビジョンにおいてビジョントランスフォーマー ViT として利用され、その用途は、分類、セグメンテーション、オブジェクト検出、画像生成など、視覚領域の多くのタスクに拡張されている。 このメカニズムは非常に表現力があり能力があるが、計算コストが高く、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。 これらの欠点に対処するために、計算負担を減らし、データサイズ要件を緩和する多くの設計が文献で提案されている。 視覚領域におけるこのような試みの例としては、MLP-Mixer、Conv-Mixer、Perciver-IOなどがある。 本稿では,MLP-Mixerの静的アプローチを強化するネットワーク・イン・ネットワーク構造を,トークン・ミキシング・プロセスによって要素ワイド・ゲーティング関数を学習する動的システムに置き換えることで,通常のViTブロックに代わる新しい計算ブロックを提案する。 広汎な実験により,視覚領域の画像分類タスクに適用された複数のデータセットのベースラインアーキテクチャよりも優れた性能が得られた。

The attention mechanism is the main component of the transformer architecture, and since its introduction, it has led to significant advancements in deep learning that span many domains and multiple tasks. The attention mechanism was utilized in computer vision as the Vision Transformer ViT, and its usage has expanded into many tasks in the vision domain, such as classification, segmentation, object detection, and image generation. While this mechanism is very expressive and capable, it comes with the drawback of being computationally expensive and requiring datasets of considerable size for effective optimization. To address these shortcomings, many designs have been proposed in the literature to reduce the computational burden and alleviate the data size requirements. Examples of such attempts in the vision domain are the MLP-Mixer, the Conv-Mixer, the Perciver-IO, and many more. This paper introduces a new computational block as an alternative to the standard ViT block that reduces the compute burdens by replacing the normal attention layers with a Network in Network structure that enhances the static approach of the MLP-Mixer with a dynamic system of learning an element-wise gating function by a token mixing process. Extensive experimentation shows that the proposed design provides better performance than the baseline architectures on multiple datasets applied in the image classification task of the vision domain.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-13
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ

A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v4 )

ライセンス: Link先を確認
Louis Mahon, Mirella Lapata, (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。 本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。 我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。 我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解するPreFS(Precision and Recall Evaluation of Summary FactS)という新しい指標も提示する。 最近リリースされたSummScreen3DデータセットPapalampidiとLapata(2023年)を用いて、ROUGEと新しいファクトベースの測定値を用いて、比較モデルよりも高品質なサマリーを生成する。

In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PREFS (Precision and Recall Evaluation of Summary FactS), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset Papalampidi and Lapata (2023), our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-13
# エミッタキャビティ系からの有限時間光子抽出の最適化

Optimising finite-time photon extraction from emitter-cavity systems ( http://arxiv.org/abs/2403.10355v2 )

ライセンス: Link先を確認
William J. Hughes, Joseph F. Goodwin, Peter Horak, (参考訳) 本研究では,エミッタキャビティシステムから有限時間単一光子抽出限界を求める手法を開発した。 まず、正準$\Lambda$-systemから最大抽出確率を解析上および下限に設定し、複数の基底状態に一般化された$\Lambda$-systemsから一般的な出力確率を最適化する数値法を開発する。 これらの手法を用いて、有限時間光子抽出の限界と、それを満足するウェーブパレットについて検討し、正弦波と指数的に減衰するプロファイルの間で最適化されたウェーブパレットを用いることで、与えられた抽出効率の光子持続時間を著しく低減できることを示した。 さらに、エミッタ-光子相関を必要とする量子プロトコルの速度を最適化し、システムパラメータが成功確率に与える影響について駆動非依存の結論を得る。 これらの結果と手法は、高効率と高速度を組み合わせたキャビティベースの単一光子源の開発に有用なツールと洞察を提供すると信じている。

We develop methods to find the limits to finite-time single photon extraction from emitter-cavity systems. We first establish analytic upper and lower bounds on the maximum extraction probability from a canonical $\Lambda$-system before developing a numeric method to optimise generic output probabilities from $\Lambda$-systems generalised to multiple ground states. We use these methods to study the limits to finite-time photon extraction and the wavepackets that satisfy them, finding that using an optimised wavepacket ranging between a sinusoidal and exponentially decaying profile can considerably reduce photon duration for a given extraction efficiency. We further optimise the rates of quantum protocols requiring emitter-photon correlation to obtain driving-independent conclusions about the effect of system parameters on success probability. We believe that these results and methods will provide valuable tools and insights for the development of cavity-based single photon sources combining high efficiency and high rate.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-13
# 条件付きGANへの蒸留拡散モデル

Distilling Diffusion Models into Conditional GANs ( http://arxiv.org/abs/2405.05967v2 )

ライセンス: Link先を確認
Minguk Kang, Richard Zhang, Connelly Barnes, Sylvain Paris, Suha Kwak, Jaesik Park, Eli Shechtman, Jun-Yan Zhu, Taesung Park, (参考訳) 本稿では,複雑な多段階拡散モデルを単一段階の条件付きGAN学生モデルに蒸留し,画像品質を保ちながら推論を劇的に加速する手法を提案する。 本稿では,拡散モデルのODE軌道のノイズ対と画像対を用いて,拡散蒸留を画像対変換タスクとして解釈する。 効率的な回帰損失計算のために,拡散モデルの潜在空間で直接動作する知覚的損失であるE-LatentLPIPSを提案する。 さらに、拡散モデルを適用し、テキストアライメント損失を有するマルチスケール判別器を構築し、効果的な条件付きGANベースの定式化を構築する。 E-LatentLPIPSは多くの既存の蒸留法よりも効率的に収束し、データセットの構築コストも考慮している。 我々は, ゼロショットCOCOベンチマークにおいて, 最先端の一段階拡散蒸留モデル(DMD, SDXL-Turbo, SDXL-Lightning)より優れていることを示す。

We propose a method to distill a complex multistep diffusion model into a single-step conditional GAN student model, dramatically accelerating inference, while preserving image quality. Our approach interprets diffusion distillation as a paired image-to-image translation task, using noise-to-image pairs of the diffusion model's ODE trajectory. For efficient regression loss computation, we propose E-LatentLPIPS, a perceptual loss operating directly in diffusion model's latent space, utilizing an ensemble of augmentations. Furthermore, we adapt a diffusion model to construct a multi-scale discriminator with a text alignment loss to build an effective conditional GAN-based formulation. E-LatentLPIPS converges more efficiently than many existing distillation methods, even accounting for dataset construction costs. We demonstrate that our one-step generator outperforms cutting-edge one-step diffusion distillation models -- DMD, SDXL-Turbo, and SDXL-Lightning -- on the zero-shot COCO benchmark.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-13
# リソース制約付きカメラトラップのためのモーションベース映像圧縮

Motion-based video compression for resource-constrained camera traps ( http://arxiv.org/abs/2405.14419v2 )

ライセンス: Link先を確認
Malika Nisal Ratnayake, Lex Gallon, Adel N. Toosi, Alan Dorin, (参考訳) フィールドキャプチャービデオは、動物の移動、意思決定、環境相互作用の時空間的側面の詳細な研究を可能にする。 しかし、大量生産されたハードウェア、ストレージ、処理、送信オーバヘッドによるデータキャプチャーの可利用性にもかかわらず、フィールド展開されたカメラトラップから高解像度のビデオを取得するためには、大きなハードルとなる。 したがって、効率的な圧縮アルゴリズムは、電力、ストレージ、帯域幅へのアクセスが制限されたカメラトラップによる監視に不可欠である。 本稿では,カメラトラップデバイス上で動作するための動画圧縮アルゴリズムを提案する。 本研究では,このアルゴリズムを昆虫・寄生虫運動追跡のケーススタディを用いて実装・テストした。 このアルゴリズムは、受粉監視に関連する動きを描写した画像領域のみを特定し、保存し、関連する行動分析に必要な情報を保持しながら、さまざまなテストデータセットに対して、データサイズを平均84%削減する。 本稿では,コンピュータビジョン対応低消費電力カメラトラップ装置の遠隔動物行動監視への応用について概説する。

Field-captured video allows for detailed studies of spatiotemporal aspects of animal locomotion, decision-making, and environmental interactions. However, despite the affordability of data capture with mass-produced hardware, storage, processing, and transmission overheads pose a significant hurdle to acquiring high-resolution video from field-deployed camera traps. Therefore, efficient compression algorithms are crucial for monitoring with camera traps that have limited access to power, storage, and bandwidth. In this article, we introduce a new motion analysis-based video compression algorithm designed to run on camera trap devices. We implemented and tested this algorithm using a case study of insect-pollinator motion tracking. The algorithm identifies and stores only image regions depicting motion relevant to pollination monitoring, reducing the overall data size by an average of 84% across a diverse set of test datasets while retaining the information necessary for relevant behavioural analysis. The methods outlined in this paper facilitate the broader application of computer vision-enabled, low-powered camera trap devices for remote, in-situ video-based animal motion monitoring.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-13
# 3D-HGS:3D半ガウス鋳型

3D-HGS: 3D Half-Gaussian Splatting ( http://arxiv.org/abs/2406.02720v2 )

ライセンス: Link先を確認
Haolin Li, Jinyang Liu, Mario Sznaier, Octavia Camps, (参考訳) 光リアルな3D再構成は、3Dコンピュータビジョンの基本的な問題である。 この領域は、最近のニューラルレンダリング技術の出現により、かなりの進歩を遂げた。 これらの技術は主に、3Dシーンのボリューム表現を学習し、レンダリングから派生した損失関数を通してこれらの表現を精製することに焦点を当てている。 このうち、3Dガウススプラッティング(3D-GS)は、ニューラル・ラジアンス・フィールド(NeRF)を超越した重要な手法として登場した。 3D-GSは、空間的位置と色情報の両方をモデリングするためにパラメータ化された3Dガウスアンを使用し、タイルベースの高速レンダリング技術と組み合わせている。 レンダリング性能と速度が優れているにもかかわらず、3Dガウスカーネルの使用には、不連続な関数を正確に表現する固有の制限がある。 この問題に対処するために,プラグアンドプレイカーネルとして使用できる3D半ガウス(3D-HGS)カーネルを提案する。 本実験は,現在の3D-GS関連手法の性能向上と,レンダリング速度を損なうことなく,様々なデータセット上で最先端のレンダリング性能を実現する能力を示す。

Photo-realistic 3D Reconstruction is a fundamental problem in 3D computer vision. This domain has seen considerable advancements owing to the advent of recent neural rendering techniques. These techniques predominantly aim to focus on learning volumetric representations of 3D scenes and refining these representations via loss functions derived from rendering. Among these, 3D Gaussian Splatting (3D-GS) has emerged as a significant method, surpassing Neural Radiance Fields (NeRFs). 3D-GS uses parameterized 3D Gaussians for modeling both spatial locations and color information, combined with a tile-based fast rendering technique. Despite its superior rendering performance and speed, the use of 3D Gaussian kernels has inherent limitations in accurately representing discontinuous functions, notably at edges and corners for shape discontinuities, and across varying textures for color discontinuities. To address this problem, we propose to employ 3D Half-Gaussian (3D-HGS) kernels, which can be used as a plug-and-play kernel. Our experiments demonstrate their capability to improve the performance of current 3D-GS related methods and achieve state-of-the-art rendering performance on various datasets without compromising rendering speed.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-13
# DifAttack++: クロスドメインの階層的不整合特徴空間によるクエリ効率の良いブラックボックス逆攻撃

DifAttack++: Query-Efficient Black-Box Adversarial Attack via Hierarchical Disentangled Feature Space in Cross Domain ( http://arxiv.org/abs/2406.03017v2 )

ライセンス: Link先を確認
Jun Liu, Jiantao Zhou, Jiandian Zeng, Jinyu Tian, (参考訳) 本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。 我々は, 機能空間全体で動作する既存のものとは大きく異なる, \textbf{DifAttack++} と呼ばれる, \textbf{Di}sentangled \textbf{F}eature space と \textit{cross domain} に基づく新しい攻撃手法を設計する。 具体的には、DifAttack++が最初にイメージの潜在機能を、特殊に設計された \textbf{H}ierarchical \textbf{D}ecouple-\textbf{F}usion (HDF) モジュールを備えたオートエンコーダを介して、画像の逆数機能(AF)と \textit{visual feature} (VF)に分解する。 クリーンな画像のペアと、ホワイトボックスアタック手法を用いて利用可能なサロゲートモデルから生成されたその逆例(AE)を用いて、特徴のゆがみを実現するとともに、クリーンな画像領域と逆画像領域のオートエンコーダをそれぞれ訓練する。 最終的に、ブラックボックス攻撃の段階では、DifAttack++は被害者モデルからのクエリフィードバックに従って、VFを変更せずに成功したAEが生成されるまで、AFを反復的に最適化する。 広汎な実験結果から,本手法はSOTA法よりも優れたASRとクエリ効率を実現する一方で,AEsの視覚的品質も向上することが示された。 コードはhttps://github.com/csjunjun/DifAttack.git.comで入手できる。

This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (ASR) and good generalizability. We design a novel attack method based on a \textit{Hierarchical} \textbf{Di}sentangled \textbf{F}eature space and \textit{cross domain}, called \textbf{DifAttack++}, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack++ firstly disentangles an image's latent feature into an \textit{adversarial feature} (AF) and a \textit{visual feature} (VF) via an autoencoder equipped with our specially designed \textbf{H}ierarchical \textbf{D}ecouple-\textbf{F}usion (HDF) module, where the AF dominates the adversarial capability of an image, while the VF largely determines its visual appearance. We train such autoencoders for the clean and adversarial image domains respectively, meanwhile realizing feature disentanglement, by using pairs of clean images and their Adversarial Examples (AEs) generated from available surrogate models via white-box attack methods. Eventually, in the black-box attack stage, DifAttack++ iteratively optimizes the AF according to the query feedback from the victim model until a successful AE is generated, while keeping the VF unaltered. Extensive experimental results demonstrate that our method achieves superior ASR and query efficiency than SOTA methods, meanwhile exhibiting much better visual quality of AEs. The code is available at https://github.com/csjunjun/DifAttack.git.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-13
# LLMの資源制約エッジデバイスへの展開に関する実証的ガイドライン

Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices ( http://arxiv.org/abs/2406.03777v2 )

ライセンス: Link先を確認
Ruiyang Qin, Dancheng Liu, Zheyu Yan, Zhaoxuan Tan, Zixuan Pan, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Jinjun Xiong, Yiyu Shi, (参考訳) スケーリング法則は、大規模言語モデル(LLM)を設計するデファクトガイドラインとなっているが、トレーニングと推論の両方に無制限の計算資源を仮定して研究されている。 LLMがパーソナライズされたインテリジェントアシスタントとして使われるようになるにつれて、カスタマイズ(微調整による学習)とリソース制約のあるエッジデバイスへのデプロイがますます一般的になる。 リソースに制約のあるコンピューティング環境がパーソナライズされたLLMの設計選択にどのように影響するか、という希望的だがオープンな疑問がある。 我々はこの問題を実証的に研究する。 特に,多くの重要な設計要因間のトレードオフと,学習効率と精度に対する相互干渉の影響を考察する。 この要因は、LLMカスタマイズのための学習方法、LLMの学習に使用するパーソナライズされたデータの量、LCMのタイプとサイズ、LLMの圧縮方法、学習に要する時間、ターゲットのユースケースの難易度などである。 広範な実験とベンチマークを通じて、リソース制約のあるデバイスにLLMをデプロイするための驚くほど洞察に富んだガイドラインをいくつも描いています。 例えば、パラメータ学習とRAGの最適選択は、ダウンストリームタスクの難易度によって異なり、より長い微調整時間がモデルに役立つとは限らない。

The scaling laws have become the de facto guidelines for designing large language models (LLMs), but they were studied under the assumption of unlimited computing resources for both training and inference. As LLMs are increasingly used as personalized intelligent assistants, their customization (i.e., learning through fine-tuning) and deployment onto resource-constrained edge devices will become more and more prevalent. An urging but open question is how a resource-constrained computing environment would affect the design choices for a personalized LLM. We study this problem empirically in this work. In particular, we consider the tradeoffs among a number of key design factors and their intertwined impacts on learning efficiency and accuracy. The factors include the learning methods for LLM customization, the amount of personalized data used for learning customization, the types and sizes of LLMs, the compression methods of LLMs, the amount of time afforded to learn, and the difficulty levels of the target use cases. Through extensive experimentation and benchmarking, we draw a number of surprisingly insightful guidelines for deploying LLMs onto resource-constrained devices. For example, an optimal choice between parameter learning and RAG may vary depending on the difficulty of the downstream task, the longer fine-tuning time does not necessarily help the model, and a compressed LLM may be a better choice than an uncompressed LLM to learn from limited personalized data.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-13
# GTR:幾何学とテクスチャリファインメントによる大規模3次元再構成モデルの改善

GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement ( http://arxiv.org/abs/2406.05649v2 )

ライセンス: Link先を確認
Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee, (参考訳) マルチビュー画像から3次元メッシュを再構成する手法を提案する。 提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いて, マルチビュー画像から学習したLRMのような大規模再構成モデルから着想を得たものである。 しかし,本手法では3次元再構成の精度を大幅に向上させることができる重要な改良がいくつか導入されている。 まず、元のLEMアーキテクチャを調べ、いくつかの欠点を見出す。 その後,LRMアーキテクチャに改良を加え,マルチビュー画像表現の改善と,より効率的なトレーニングを実現する。 第二に、幾何再構成を改善し、全像解像度での監視を可能にするために、NeRFフィールドから異なる方法でメッシュを抽出し、メッシュレンダリングによりNeRFモデルを微調整する。 これらの修正により、Google Scanned Objects(GSO)データセット上のPSNR28.67のような、2Dおよび3D評価メトリクスの最先端のパフォーマンスを実現できます。 これらの優れた結果にもかかわらず、我々のフィードフォワードモデルは、資産上のテキストや肖像画のような複雑なテクスチャの再構築に苦慮している。 この問題に対処するため,我々は軽量なインスタンス・テクスチャ・リファインメント・プロシージャを導入する。 この手法は入力されたマルチビュー画像を用いてメッシュ表面のトリプレーン表現とNeRF色推定モデルをわずか4秒で微調整する。 この改良はPSNRを29.79に改善し、テキストのような複雑なテクスチャを忠実に再構築する。 さらに,本手法は,テキストや画像から3D生成など,さまざまなダウンストリームアプリケーションを実現する。

We propose a novel approach for 3D mesh reconstruction from multi-view images. Our method takes inspiration from large reconstruction models like LRM that use a transformer-based triplane generator and a Neural Radiance Field (NeRF) model trained on multi-view images. However, in our method, we introduce several important modifications that allow us to significantly enhance 3D reconstruction quality. First of all, we examine the original LRM architecture and find several shortcomings. Subsequently, we introduce respective modifications to the LRM architecture, which lead to improved multi-view image representation and more computationally efficient training. Second, in order to improve geometry reconstruction and enable supervision at full image resolution, we extract meshes from the NeRF field in a differentiable manner and fine-tune the NeRF model through mesh rendering. These modifications allow us to achieve state-of-the-art performance on both 2D and 3D evaluation metrics, such as a PSNR of 28.67 on Google Scanned Objects (GSO) dataset. Despite these superior results, our feed-forward model still struggles to reconstruct complex textures, such as text and portraits on assets. To address this, we introduce a lightweight per-instance texture refinement procedure. This procedure fine-tunes the triplane representation and the NeRF color estimation model on the mesh surface using the input multi-view images in just 4 seconds. This refinement improves the PSNR to 29.79 and achieves faithful reconstruction of complex textures, such as text. Additionally, our approach enables various downstream applications, including text- or image-to-3D generation.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-13
# 乳がんオンコロジーのための大規模言語モデルパイプライン

A Large Language Model Pipeline for Breast Cancer Oncology ( http://arxiv.org/abs/2406.06455v2 )

ライセンス: Link先を確認
Tristen Pool, Dennis Trujillo, (参考訳) 大規模言語モデル(LLM)は多くの分野の革新の可能性を示している。 しかし、腫瘍学に最も適した開発方法はまだ未開発である。 最先端のOpenAIモデルは、新しいラングチェーンプロンプトエンジニアリングパイプラインを使用して、2つの重要ながん治療因子であるアジュバント放射線治療と化学療法のための臨床データセットと臨床ガイドラインテキストコーパスに基づいて微調整された。 乳癌に対するアジュバント放射線療法と化学療法の分類において高い精度(0.85+)が得られた。 さらに、ヒトの腫瘍学者による治療の質に関する観察データから信頼区間が形成され、そのモデルが治療予測において元の腫瘍学者を8.2%から13.3%の精度で上回らなければならないシナリオの割合を推定した。 がん治療決定の結果の不確定性のため、将来の調査、潜在的に臨床試験は、この閾値がモデルによって満たされたかどうかを決定するために必要となる。 それでも、米国のがん患者の85%が地域社会施設で治療を受けており、こうしたモデルがヒトの腫瘍学者に近づいた結果によって、品質ケアへのアクセスを拡大する上で重要な役割を果たす可能性がある。

Large language models (LLMs) have demonstrated potential in the innovation of many disciplines. However, how they can best be developed for oncology remains underdeveloped. State-of-the-art OpenAI models were fine-tuned on a clinical dataset and clinical guidelines text corpus for two important cancer treatment factors, adjuvant radiation therapy and chemotherapy, using a novel Langchain prompt engineering pipeline. A high accuracy (0.85+) was achieved in the classification of adjuvant radiation therapy and chemotherapy for breast cancer patients. Furthermore, a confidence interval was formed from observational data on the quality of treatment from human oncologists to estimate the proportion of scenarios in which the model must outperform the original oncologist in its treatment prediction to be a better solution overall as 8.2% to 13.3%. Due to indeterminacy in the outcomes of cancer treatment decisions, future investigation, potentially a clinical trial, would be required to determine if this threshold was met by the models. Nevertheless, with 85% of U.S. cancer patients receiving treatment at local community facilities, these kinds of models could play an important part in expanding access to quality care with outcomes that lie, at minimum, close to a human oncologist.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-13
# ネットワークによる転送学習による犯罪予測の短期的精度向上

Network-Based Transfer Learning Helps Improve Short-Term Crime Prediction Accuracy ( http://arxiv.org/abs/2406.06645v2 )

ライセンス: Link先を確認
Jiahui Wu, Vanessa Frias-Martinez, (参考訳) 人間の移動データで強化されたディープラーニングアーキテクチャは、過去の犯罪データで訓練された短期犯罪予測モデルの精度を向上させることが示されている。 しかしながら、一部の地域では人間の移動データが不足しており、これらのモデルの正しいトレーニングに悪影響を及ぼす可能性がある。 そこで本研究では,短時間の犯罪予測モデルのための新たな伝達学習フレームワークを提案する。これにより,移動データの多いソース領域で訓練された深層学習犯罪予測モデルからの重みを対象領域に伝達し,その局所犯罪予測モデルを微調整し,犯罪予測精度を向上させる。 以上の結果から,移動データが少ない都市において,移動データが少ない都市において,移動データ数が少ない場合にF1スコアが向上することが示唆された。 また、F1スコアの改善は、米国の様々な種類の犯罪や多様な都市に広く浸透していることも示している。

Deep learning architectures enhanced with human mobility data have been shown to improve the accuracy of short-term crime prediction models trained with historical crime data. However, human mobility data may be scarce in some regions, negatively impacting the correct training of these models. To address this issue, we propose a novel transfer learning framework for short-term crime prediction models, whereby weights from the deep learning crime prediction models trained in source regions with plenty of mobility data are transferred to target regions to fine-tune their local crime prediction models and improve crime prediction accuracy. Our results show that the proposed transfer learning framework improves the F1 scores for target cities with mobility data scarcity, especially when the number of months of available mobility data is small. We also show that the F1 score improvements are pervasive across different types of crimes and diverse cities in the US.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-13
# 失敗は失敗に終わる - 大規模ビジョンと言語モデルにおける不要な振る舞いの特性と緩和

Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models ( http://arxiv.org/abs/2406.07145v2 )

ライセンス: Link先を確認
Som Sagar, Aditya Taparia, Ransalu Senanayake, (参考訳) 多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、正確性や社会的バイアス、人的価値との整合性に関連するいくつかの障害も観察しています。 したがって、これらのモデルをデプロイする前には、エンジニアがモデルをデバッグし、立法機関がモデルを監査する上で、この失敗の状況を特徴付けることが重要です。 それでも、モデルの失敗につながる可能性のあるすべての要因の組み合わせを徹底的にテストすることは不可能である。 本稿では,<emph{deep reinforcement learning} を用いて,事前学習による識別・生成モデルにおいて,障害モードのランドスケープを探索・構築するポストホック手法を提案する。 限られた人間のフィードバックの助けを借りて、発見された障害モードから離れることで、障害状況の再構築をより望ましいものにする方法を実証します。 提案手法の有効性を,コンピュータビジョン,自然言語処理,視覚言語タスクで実証的に示す。

In large deep neural networks that seem to perform surprisingly well on many tasks, we also observe a few failures related to accuracy, social biases, and alignment with human values, among others. Therefore, before deploying these models, it is crucial to characterize this failure landscape for engineers to debug and legislative bodies to audit models. Nevertheless, it is infeasible to exhaustively test for all possible combinations of factors that could lead to a model's failure. In this paper, we introduce a post-hoc method that utilizes \emph{deep reinforcement learning} to explore and construct the landscape of failure modes in pre-trained discriminative and generative models. With the aid of limited human feedback, we then demonstrate how to restructure the failure landscape to be more desirable by moving away from the discovered failure modes. We empirically show the effectiveness of the proposed method across common Computer Vision, Natural Language Processing, and Vision-Language tasks.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-13
# 最小フレーム平均化による高対称性と効率の等価性

Equivariance via Minimal Frame Averaging for More Symmetries and Efficiency ( http://arxiv.org/abs/2406.07598v2 )

ライセンス: Link先を確認
Yuchao Lin, Jacob Helwig, Shurui Gui, Shuiwang Ji, (参考訳) フレーム平均化による機械学習システムにおける等価性の実現を検討する。 現在のフレーム平均化法は、大きなフレーム上でのコストのかかる和や、近似同値しか得られないサンプリングベースのアプローチに依存している。 本稿では,最小フレーム平均化(MFA, Minimal Frame Averaging)を提案する。 MFAの一般基盤はまた、時空の対称性を記述するローレンツ群や複素値領域のユニタリ群など、これまで考えられていたよりも多くの群にフレーム平均化を拡張できる。 その結果,MFAによる対称性の符号化は,$n$-bodyシミュレーション,コライダー物理におけるトップタグ付け,緩和エネルギー予測など,多種多様なタスクにまたがって効率と効果が示された。 私たちのコードはhttps://github.com/divelab/MFA.comで公開されています。

We consider achieving equivariance in machine learning systems via frame averaging. Current frame averaging methods involve a costly sum over large frames or rely on sampling-based approaches that only yield approximate equivariance. Here, we propose Minimal Frame Averaging (MFA), a mathematical framework for constructing provably minimal frames that are exactly equivariant. The general foundations of MFA also allow us to extend frame averaging to more groups than previously considered, including the Lorentz group for describing symmetries in space-time, and the unitary group for complex-valued domains. Results demonstrate the efficiency and effectiveness of encoding symmetries via MFA across a diverse range of tasks, including $n$-body simulation, top tagging in collider physics, and relaxed energy prediction. Our code is available at https://github.com/divelab/MFA.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-13
# LLAMAFUZZ: 大規模言語モデルによるGreybox Fuzzingの拡張

LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing ( http://arxiv.org/abs/2406.07714v2 )

ライセンス: Link先を確認
Hongxiang Zhang, Yuyang Rong, Yifeng He, Hao Chen, (参考訳) Greyboxのファジィは、プログラムのバグや脆弱性を明らかにすることに成功している。 しかし、ランダム化された突然変異戦略は、構造データに対するファジィザの性能を制限している。 特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。 本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。 我々は、データ変換とフォーマットに関するLLMの事前学習知識を利用して、新しい有効な入力を生成する。 さらに、組換え突然変異種を用いて微調整を行い、構造化形式と突然変異戦略を効果的に学習した。 LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。 我々は,標準的なバグベースのベンチマークMagmaと,さまざまな実世界のプログラムで実験を行う。 LLAMAFUZZは、平均して41のバグでトップのライバルより優れています。 また、すべてのトライアルで47のユニークなバグを特定しました。 さらに、LLAMAFUZはバグトリガとバグ到達の両方で一貫したパフォーマンスを示した。 AFL++と比較すると、LLAMAFUZは現実世界のプログラムセットで平均27.19%以上の分岐を達成した。 また、コードカバレッジの観点からLLMがファジィ処理をどのように強化するかを説明するためのケーススタディも紹介する。

Greybox fuzzing has achieved success in revealing bugs and vulnerabilities in programs. However, randomized mutation strategies have limited the fuzzer's performance on structured data. Specialized fuzzers can handle complex structured data, but require additional efforts in grammar and suffer from low throughput. In this paper, we explore the potential of utilizing the Large Language Model to enhance greybox fuzzing for structured data. We utilize the pre-trained knowledge of LLM about data conversion and format to generate new valid inputs. We further fine-tuned it with paired mutation seeds to learn structured format and mutation strategies effectively. Our LLM-based fuzzer, LLAMAFUZZ, integrates the power of LLM to understand and mutate structured data to fuzzing. We conduct experiments on the standard bug-based benchmark Magma and a wide variety of real-world programs. LLAMAFUZZ outperforms our top competitor by 41 bugs on average. We also identified 47 unique bugs across all trials. Moreover, LLAMAFUZZ demonstrated consistent performance on both bug trigger and bug reached. Compared to AFL++, LLAMAFUZZ achieved 27.19% more branches in real-world program sets on average. We also demonstrate a case study to explain how LLMs enhance the fuzzing process in terms of code coverage.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-13
# OmniCorpus:100億レベル画像にテキストを埋め込んだ統合マルチモーダルコーパス

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text ( http://arxiv.org/abs/2406.08418v2 )

ライセンス: Link先を確認
Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai, (参考訳) 自然文書形式で配置された複数の画像とテキストからなる画像-テキストインターリーブドデータは、インターネットデータの提示パラダイムと整合し、人間の読書習慣によく似ている。 近年の研究では、このようなデータがマルチモーダル・イン・コンテクスト学習に役立ち、マルチモーダル微調整時の大規模言語モデルの能力を維持することが示されている。 しかし、現在の画像テキストインターリーブデータの規模と多様性は、マルチモーダルな大言語モデルの開発を制限している。 本稿では,100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。 効率的なデータエンジンを用いて860億の画像と1,696億のテキストトークンを含む大規模高品質の文書をフィルタリング・抽出する。 私たちのデータセット(例えば、MCC4、OBELICS)と比較してみましょう。 1) 優れたデータ品質を維持しながら、15倍のスケールを持つ。 2) 英語と非英語の両方のWebサイトやビデオ中心のWebサイトを含む、より多様なソースが特徴である。 3) より柔軟で、画像テキストインターリーブドフォーマットから純粋なテキストコーパスと画像テキストペアへ容易に分解できる。 総合的な分析と実験を通じて,提案したデータセットの品質,ユーザビリティ,有効性を検証する。 これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。 コードとデータはhttps://github.com/OpenGVLab/OmniCorpusで公開されている。

Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-13
# SViTT-Ego:エゴセントリックビデオのためのスパースビデオテキスト変換器

SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video ( http://arxiv.org/abs/2406.09462v1 )

ライセンス: Link先を確認
Hector A. Valdez, Kyle Min, Subarna Tripathi, (参考訳) エゴセントリックな視覚言語モデルの事前学習は、下流のエゴセントリックなビデオテキストタスクを改善するために欠かせないものとなっている。 これらのエゴセントリック基盤モデルは、一般的にトランスフォーマーアーキテクチャを使用する。 プレトレーニング中のこれらのモデルのメモリフットプリントは、かなり大きい。 そこで我々は、エッジとノードスペーシングを統合した最初のスパース・エゴセントリックなビデオテキスト・トランスフォーマモデルであるSViTT-Egoを事前訓練する。 頻繁に使用されるInfoNCEの代わりに、EgoClipデータセットを事前トレーニングし、エゴセントリックな目的であるEgoNCEを組み込む。 SViTT-Egoは、LAVILAに比べてEgoMCQ(イントラビデオ)の精度が2.8%向上し、標準画像の拡張以外の追加データ拡張技術はない。

Pretraining egocentric vision-language models has become essential to improving downstream egocentric video-text tasks. These egocentric foundation models commonly use the transformer architecture. The memory footprint of these models during pretraining can be substantial. Therefore, we pretrain SViTT-Ego, the first sparse egocentric video-text transformer model integrating edge and node sparsification. We pretrain on the EgoClip dataset and incorporate the egocentric-friendly objective EgoNCE, instead of the frequently used InfoNCE. Most notably, SViTT-Ego obtains a +2.8% gain on EgoMCQ (intra-video) accuracy compared to LAVILA large, with no additional data augmentation techniques other than standard image augmentations, yet pretrainable on memory-limited devices.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# 機械学習とデータマイニング法を用いたデータの効果的なソフトウェアリスク予測管理分析

An effective software risk prediction management analysis of data using machine learning and data mining method ( http://arxiv.org/abs/2406.09463v1 )

ライセンス: Link先を確認
Jinxin Xu, Yue Wang, Ruisi Li, Ziyue Wang, Qian Zhao, (参考訳) 高品質なソフトウェア開発プロセスを保証するためには、リスク管理が不可欠です。 さらに、リスクは組織の運用やプロジェクトの進捗に悪影響を及ぼす可能性があるものなのです。 ソフトウェアプロジェクトのリスクの適切な優先順位付けは、ソフトウェアプロジェクトのパフォーマンス機能と最終的な成功を確認する上で重要な要素である。 同じトレーニングサンプルと調和して使用することができ、相補性と互換性がよい。 我々は、4つのベンチマークデータセットの詳細なテストを行い、秘密世界とオープン世界のシナリオにおけるCIAのアプローチの有効性を、防御なしで確認した。 また、最新のディープラーニングWF攻撃モデルの相互依存性をキャプチャする逐次拡張パラメータ最適化手法を提案する。 ソフトウェアリスクを正確に評価するために、ANFIS設定を変更するために拡張クローサーチアルゴリズム(ECSA)が使用される。 局所最適値をわずかに変化して内部に留まる解はECSAを用いて抽出される。 ANFIS技術を利用する場合のANFIS変数。 NASA 93のデータセットと93のソフトウェアプロジェクトによる実験的な検証が行われた。 本手法のアウトプットは,プロジェクトのパフォーマンスを達成する上で不可欠なソフトウェアリスク要素の明確なイメージを提示する。 実験の結果,従来の手法と比較すると,ソフトウェアプロジェクトのリスク評価において,統合ファジィ手法がより正確かつ効果的に機能できることが示唆された。

For one to guarantee higher-quality software development processes, risk management is essential. Furthermore, risks are those that could negatively impact an organization's operations or a project's progress. The appropriate prioritisation of software project risks is a crucial factor in ascertaining the software project's performance features and eventual success. They can be used harmoniously with the same training samples and have good complement and compatibility. We carried out in-depth tests on four benchmark datasets to confirm the efficacy of our CIA approach in closed-world and open-world scenarios, with and without defence. We also present a sequential augmentation parameter optimisation technique that captures the interdependencies of the latest deep learning state-of-the-art WF attack models. To achieve precise software risk assessment, the enhanced crow search algorithm (ECSA) is used to modify the ANFIS settings. Solutions that very slightly alter the local optimum and stay inside it are extracted using the ECSA. ANFIS variable when utilising the ANFIS technique. An experimental validation with NASA 93 dataset and 93 software project values was performed. This method's output presents a clear image of the software risk elements that are essential to achieving project performance. The results of our experiments show that, when compared to other current methods, our integrative fuzzy techniques may perform more accurately and effectively in the evaluation of software project risks.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# GPT-ology, Computational Models, Silicon Smpling: 認知科学におけるLLMについてどう考えるべきか?

GPT-ology, Computational Models, Silicon Sampling: How should we think about LLMs in Cognitive Science? ( http://arxiv.org/abs/2406.09464v1 )

ライセンス: Link先を確認
Desmond C. Ong, (参考訳) 大規模言語モデルは認知科学の世界を嵐によって奪った。 これらのモデルにおける「認知」や「人間の認知」に関する科学的推論に使われた様々な研究パラダイムの在庫を取るのは、おそらく時期尚早である。我々は、GPT-ology、LLMs-as-computational-models、"silicon samples"など、いくつかの新しい研究パラダイムをレビューし、これらのパラダイムの下でLLMを使用した最近の論文をレビューする。 このような中で、これらの様々なパラダイムの下で、これらの主張と科学的推論への挑戦について議論する。 クローズドソースとオープンソースモデル、(可視性の欠如)トレーニングデータ、そしてLLM研究における再現性、そして命令やプロンプトのような新しいタスク‘ハイパーパラメータ’に関する規約の策定などです。

Large Language Models have taken the cognitive science world by storm. It is perhaps timely now to take stock of the various research paradigms that have been used to make scientific inferences about ``cognition" in these models or about human cognition. We review several emerging research paradigms -- GPT-ology, LLMs-as-computational-models, and ``silicon sampling" -- and review recent papers that have used LLMs under these paradigms. In doing so, we discuss their claims as well as challenges to scientific inference under these various paradigms. We highlight several outstanding issues about LLMs that have to be addressed to push our science forward: closed-source vs open-sourced models; (the lack of visibility of) training data; and reproducibility in LLM research, including forming conventions on new task ``hyperparameters" like instructions and prompts.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# Korchを用いたテンソルプログラムのための最適カーネルオーケストレーション

Optimal Kernel Orchestration for Tensor Programs with Korch ( http://arxiv.org/abs/2406.09465v1 )

ライセンス: Link先を確認
Muyan Hu, Ashwin Venkatram, Shreyashri Biswas, Balamurugan Marimuthu, Bohan Hou, Gabriele Oliaro, Haojie Wang, Liyan Zheng, Xupeng Miao, Jidong Zhai, (参考訳) カーネルオーケストレーションは、ディープニューラルネットワーク(DNN)のさまざまなオペレータで定義された計算を、現代的なハードウェアプラットフォーム上でGPUカーネルの実行にマッピングするタスクである。 以前のアプローチでは、複数の演算子の計算を単一のカーネルに融合させ、カーネルオーケストレーションにおけるさまざまな最適化機会を逃す、演算子融合を適用してカーネルオーケストレーションを最適化していた。 本稿では、テンソルプログラムのための最適なカーネルオーケストレーション戦略を発見するテンソルプログラムオプティマイザであるKorchを提案する。 コルチは作用素を直接融合させる代わりに、まず作用素フィッションを適用して、テンソル作用素を基本テンソル代数原始体の小さな集合に分解する。 この分解により、細かな演算子間最適化が可能となる。 次にKorch氏は、カーネルオーケストレーションを制約付き最適化問題として形式化し、既製のバイナリリニアプログラミング解決器を活用して、最適なオーケストレーション戦略を発見し、現代的なGPUプラットフォームに直接デプロイ可能な実行ファイルを生成することで、カーネルオーケストレーションを最適化する。 さまざまなDNNの評価によると、KorchはV100 GPUでは最大1.7倍、A100 GPUでは最大1.6倍、既存のテンソルプログラムオプティマイザより優れている。 Korchはhttps://github.com/humuyan/Korch.comで公開されている。

Kernel orchestration is the task of mapping the computation defined in different operators of a deep neural network (DNN) to the execution of GPU kernels on modern hardware platforms. Prior approaches optimize kernel orchestration by greedily applying operator fusion, which fuses the computation of multiple operators into a single kernel, and miss a variety of optimization opportunities in kernel orchestration. This paper presents Korch, a tensor program optimizer that discovers optimal kernel orchestration strategies for tensor programs. Instead of directly fusing operators, Korch first applies operator fission to decompose tensor operators into a small set of basic tensor algebra primitives. This decomposition enables a diversity of fine-grained, inter-operator optimizations. Next, Korch optimizes kernel orchestration by formalizing it as a constrained optimization problem, leveraging an off-the-shelf binary linear programming solver to discover an optimal orchestration strategy, and generating an executable that can be directly deployed on modern GPU platforms. Evaluation on a variety of DNNs shows that Korch outperforms existing tensor program optimizers by up to 1.7x on V100 GPUs and up to 1.6x on A100 GPUs. Korch is publicly available at https://github.com/humuyan/Korch.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# 雷雨警報:大域的ニューラル気象モデルによる激しい対流環境の予測

Lightning-Fast Thunderstorm Warnings: Predicting Severe Convective Environments with Global Neural Weather Models ( http://arxiv.org/abs/2406.09474v1 )

ライセンス: Link先を確認
Monika Feldmann, Tom Beucler, Milton Gomez, Olivia Martius, (参考訳) 最近リリースされたAI気象モデルのスイートは、最先端の運用予測と同等のスキルで、数秒で複数の日中距離の予測を生成することができる。 従来のAIモデル評価は、主に単一レベルのグローバルスコアをターゲットにしている。 厳しい対流環境のような特定の予測タスクは、局所的なスケールと適切な垂直勾配で、より正確な精度を必要とする。 2020年の世界ホットスポットの対流季節に着目し、ERA-5の再分析とIFSの運用数値天気予報モデルに対して最大10日間のリードタイムで、Convective available potential Energy(CAPE)とDeep Layer Shear(DLS)の3つのトップパフォーマンスAIモデル(Pangu-Weather、GraphCast、FourCastNet)のスキルを評価する。 2020年4月12日と13日にアメリカ合衆国で発生した竜巻の例を見ると、すべてのモデルが数日前にCAPEとDSSの値の上昇を予測している。 AIモデルの空間構造は、IFSやERA-5と比べて滑らかである。 モデルはCAPE値の予測において異なるバイアスを示し、GraphCastは最も正確に値の分布をキャプチャし、FourCastNetは一貫性のある過小評価を示す。 世界の季節的分析では、一般的にグラフCastとPangu-Weatherの最高パフォーマンスが、IFSのパフォーマンスと一致するか、さらに超えている。 ニューラル気象モデルの垂直に粗い圧力レベルから派生したCAPEは、数値モデルの垂直に微細な分解能の精度を欠いている。 ここでの有望な結果は、AIモデルにおけるCAPEの直接的な予測が熟練している可能性が高いことを示している。 これにより、厳しい気象現象の迅速かつ安価な予測が可能となった。 AIモデルの評価をプロセスベースの評価に進めることで、AIベースの天気予報のハザード駆動型応用の基礎を築いた。

The recently released suite of AI weather models can produce multi-day, medium-range forecasts within seconds, with a skill on par with state-of-the-art operational forecasts. Traditional AI model evaluation predominantly targets global scores on single levels. Specific prediction tasks, such as severe convective environments, require much more precision on a local scale and with the correct vertical gradients between levels. With a focus on the convective season of global hotspots in 2020, we assess the skill of three top-performing AI models (Pangu-Weather, GraphCast, FourCastNet) for Convective Available Potential Energy (CAPE) and Deep Layer Shear (DLS) at lead-times of up to 10 days against the ERA-5 reanalysis and the IFS operational numerical weather prediction model. Looking at the example of a US tornado outbreak on April 12 and 13, 2020, all models predict elevated CAPE and DLS values multiple days in advance. The spatial structures in the AI models are smoothed in comparison to IFS and ERA-5. The models show differing biases in the prediction of CAPE values, with GraphCast capturing the value distribution the most accurately and FourCastNet showing a consistent underestimation. In seasonal analyses around the globe, we generally see the highest performance by GraphCast and Pangu-Weather, which match or even exceed the performance of IFS. CAPE derived from vertically coarse pressure levels of neural weather models lacks the precision of the vertically fine resolution of numerical models. The promising results here indicate that a direct prediction of CAPE in AI models is likely to be skillful. This would open unprecedented opportunities for fast and inexpensive predictions of severe weather phenomena. By advancing the assessment of AI models towards process-based evaluations we lay the foundation for hazard-driven applications of AI-based weather forecasts.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# Q-S5:量子化された状態空間モデルを目指して

Q-S5: Towards Quantized State Space Models ( http://arxiv.org/abs/2406.09477v1 )

ライセンス: Link先を確認
Steven Abreu, Jens E. Pedersen, Kade M. Heckel, Alessandro Pierro, (参考訳) 次世代のシーケンスモデリングアーキテクチャの探求において、状態空間モデル(SSM)はトランスフォーマーの強力な代替品として登場し、特に動的システムに対する計算効率と適合性のためである。 本稿では,S5モデルに対する量子化の効果について検討し,モデル性能への影響を理解し,エッジやリソース制約のあるプラットフォームへの展開を容易にする。 量子化学習(QAT)と後学習量子化(PTQ)を用いて、動的システムモデリング、シーケンスMNIST(sMNIST)、Long Range Arena(LRA)など、様々なタスクにおけるSSMの量子化感度を体系的に評価する。 テスト精度が sMNIST と LRA の大部分で1% 未満の完全量子化 S5 モデルを提案する。 その結果、ほとんどのタスクの性能は8ビット未満の繰り返し重みに対して著しく低下するが、他のコンポーネントは性能を著しく損なわずにさらに圧縮できることがわかった。 以上の結果から,PTQは言語ベースのLRAタスクでのみ有効であり,他はすべてQATを必要とすることがわかった。 本研究は,効率的なハードウェア最適化SSMの開発を継続する上で必要な知見を提供する。

In the quest for next-generation sequence modeling architectures, State Space Models (SSMs) have emerged as a potent alternative to transformers, particularly for their computational efficiency and suitability for dynamical systems. This paper investigates the effect of quantization on the S5 model to understand its impact on model performance and to facilitate its deployment to edge and resource-constrained platforms. Using quantization-aware training (QAT) and post-training quantization (PTQ), we systematically evaluate the quantization sensitivity of SSMs across different tasks like dynamical systems modeling, Sequential MNIST (sMNIST) and most of the Long Range Arena (LRA). We present fully quantized S5 models whose test accuracy drops less than 1% on sMNIST and most of the LRA. We find that performance on most tasks degrades significantly for recurrent weights below 8-bit precision, but that other components can be compressed further without significant loss of performance. Our results further show that PTQ only performs well on language-based LRA tasks whereas all others require QAT. Our investigation provides necessary insights for the continued development of efficient and hardware-optimized SSMs.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# 最適化のためのインフラストラクチャノードを利用した計算連続体におけるアプリケーション配置のための分散遺伝的アルゴリズム

Distributed genetic algorithm for application placement in the compute continuum leveraging infrastructure nodes for optimization ( http://arxiv.org/abs/2406.09478v1 )

ライセンス: Link先を確認
Carlos Guerrero, Isaac Lera, Carlos Juiz, (参考訳) フォグコンピューティング環境の複雑さが増すにつれ、効率的な資源最適化技術が求められている。 本稿では,フォグコンピューティングにおける資源最適化のための遺伝的アルゴリズム(GA)の3つの分散設計を,分散度が増大する中で提案し,評価する。 これらの設計は、フォグデバイス自体におけるGAの実行を、制約されたリソースと広い地理的なデバイス分布という、この領域の特定の特徴に対処することで活用する。 3つの分散設計ガイドラインに従って, NSGA-IIを用いて, 霧のサービス配置を最適化する特定の問題に対して, ベンチマークケースを実装した。 これらの3つの実験シナリオは、ソリューションの品質とネットワークオーバーヘッドを考慮して、このGAアルゴリズムの従来型の集中バージョンである制御ケースと比較された。 その結果, 分散度が低い設計では, 従来の手法に匹敵するソリューション品質が得られるが, 高いネットワーク負荷が生じることがわかった。 第2の設計は、労働者間で人口を分散させ、ネットワークオーバーヘッドを低減させるが、最適化目標最小化の観点から十分な良い結果を保ちながら、解の多様性を低下させる。 最後に、分散人口と、労働者の隣人の間でのみソリューションを交換するという提案は、最低のネットワーク負荷を達成できるが、ソリューションの品質は損なわれる。

The increasing complexity of fog computing environments calls for efficient resource optimization techniques. In this paper, we propose and evaluate three distributed designs of a genetic algorithm (GA) for resource optimization in fog computing, within an increasing degree of distribution. The designs leverage the execution of the GA in the fog devices themselves by dealing with the specific features of this domain: constrained resources and widely geographical distribution of the devices. For their evaluation, we implemented a benchmark case using the NSGA-II for the specific problem of optimizing the fog service placement, according to the guidelines of our three distributed designs. These three experimental scenarios were compared with a control case, a traditional centralized version of this GA algorithm, considering solution quality and network overhead. The results show that the design with the lowest distribution degree, which keeps centralized storage of the objective space, achieves comparable solution quality to the traditional approach but incurs a higher network load. The second design, which completely distributes the population between the workers, reduces network overhead but exhibits lower solution diversity while keeping enough good results in terms of optimization objective minimization. Finally, the proposal with a distributed population and that only interchanges solution between the workers' neighbors achieves the lowest network load but with compromised solution quality.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# 光子インタフェース10量子ビット量子ネットワークノード

A photon-interfaced ten qubit quantum network node ( http://arxiv.org/abs/2406.09480v1 )

ライセンス: Link先を確認
M. Canteri, Z. X. Koong, J. Bate, A. Winkler, V. Krutyanskiy, B. P. Lanyon, (参考訳) 我々は、個々の物質量子ビットを10のレジスタに、別々の移動光子に絡み合わせる。 量子ビットはコトラップされた原子イオンの列に符号化される。 トラップ閉じ込めを切り替えることで、イオンは光学キャビティの腰に1回ずつ持ち込まれ、レーザー駆動のキャビティを介するラマン転移を介して光子を放出する。 その結果、フォトニックキュービットの列となり、それぞれが弦に異なるイオンキュービットを持つ偏極によってほぼ最大に絡み合っている。 それぞれの光子を検出する平均確率9.1(8)%に対して、平均イオン光子ベル状態忠実度92(1)%を達成する。 この技術は、より大きなイオン量子ビットレジスタに直接拡張可能であり、トラップされたイオン量子プロセッサの分散ネットワーク、アレイ、クロックの短期的可能性を開く。

We entangle each individual matter-qubit in a register of ten to a separate travelling photon. The qubits are encoded in a string of cotrapped atomic ions. By switching the trap confinement, ions are brought one at a time into the waist of an optical cavity and emit a photon via a laser-driven cavity-mediated Raman transition. The result is a train of photonic-qubits, each near-maximally entangled by their polarisation with a different ion-qubit in the string. An average ion-photon Bell state fidelity of 92(1)% is achieved, for an average probability for detecting each single photon of 9.1(8)%. The technique is directly scalable to larger ion-qubit registers and opens up the near-term possibility of entangling distributed networks of trapped-ion quantum processors, sensing arrays and clocks.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# ELF-UA: 迷路推定における効率的なラベルフリーユーザ適応

ELF-UA: Efficient Label-Free User Adaptation in Gaze Estimation ( http://arxiv.org/abs/2406.09481v1 )

ライセンス: Link先を確認
Yong Wu, Yang Wang, Sanqing Qu, Zhijun Li, Guang Chen, (参考訳) ユーザ適応型3D視線推定の問題点を考察する。 個人非依存の視線推定の性能は、人体解剖学的差異により制限される。 我々のゴールは、ターゲットユーザーに特異的に適応したパーソナライズされた視線推定モデルを提供することです。 ユーザ適応型視線推定のこれまでの研究は、テスト時にモデルを微調整するために、対象人物データのラベル付き画像を必要とする。 しかし、これは現実世界のアプリケーションでは非現実的になり得る。 さらに、以前の研究では、視線ラベルと人身認証の両方を持つようにトレーニングデータが必要である。 このデータ要件により、利用可能なデータの一部を使用することが不可能になる。 このような課題に対処するため,本稿では,視線推定におけるラベルフリーユーザ適応という新たな課題を提案する。 我々のモデルは、モデル適応のためにターゲットユーザのラベルのないイメージを少しだけ必要とします。 オフライントレーニングでは、個人IDのないラベル付きソースデータと、ラベルなしの個人固有のデータがある。 提案手法はメタラーニング手法を用いて,少数の未ラベル画像で新しいユーザへの適応方法を学習する。 我々の重要な技術的革新は、メタラーニングにおける損失関数を定義するために、ドメイン適応から束縛された一般化を使用することで、トレーニング中にラベル付きソースデータとラベルなし人固有のデータの両方を効果的に利用できるようにすることである。 大規模な実験により,いくつかの挑戦的なベンチマークにおいて,本手法の有効性が検証された。

We consider the problem of user-adaptive 3D gaze estimation. The performance of person-independent gaze estimation is limited due to interpersonal anatomical differences. Our goal is to provide a personalized gaze estimation model specifically adapted to a target user. Previous work on user-adaptive gaze estimation requires some labeled images of the target person data to fine-tune the model at test time. However, this can be unrealistic in real-world applications, since it is cumbersome for an end-user to provide labeled images. In addition, previous work requires the training data to have both gaze labels and person IDs. This data requirement makes it infeasible to use some of the available data. To tackle these challenges, this paper proposes a new problem called efficient label-free user adaptation in gaze estimation. Our model only needs a few unlabeled images of a target user for the model adaptation. During offline training, we have some labeled source data without person IDs and some unlabeled person-specific data. Our proposed method uses a meta-learning approach to learn how to adapt to a new user with only a few unlabeled images. Our key technical innovation is to use a generalization bound from domain adaptation to define the loss function in meta-learning, so that our method can effectively make use of both the labeled source data and the unlabeled person-specific data during training. Extensive experiments validate the effectiveness of our method on several challenging benchmarks.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-13
# 拡散モデルは安全か? 勾配誘導拡散モデルによるデータ漏洩の深刻化

Is Diffusion Model Safe? Severe Data Leakage via Gradient-Guided Diffusion Model ( http://arxiv.org/abs/2406.09484v1 )

ライセンス: Link先を確認
Jiayang Meng, Tao Huang, Hong Chen, Cuiping Li, (参考訳) 現代の画像処理システムでは、グラディエントリークが潜在的なプライバシー侵害の原因として認識されており、敵はリークした勾配からトレーニングイメージを完全に再構築することができる。 しかし,既存の手法では,画像処理システムのデータ漏洩リスクが十分に調査されていない低解像度画像の再構成に制限されている。 本稿では, 拡散モデルを利用して, 高精度なデータ漏洩が発生しているリーク勾配を通して, 画像処理システムからプライベートな高解像度画像を盗むことのできる, 革新的なグラデーション誘導微調整手法を提案する。 我々の攻撃方法は実装が容易で、事前の知識はほとんど必要ありません。 実験結果から,現在の再構築攻撃では,解像度が128ドル/128ドル/128ドル/128ドル/128ドル/128ドル/128ドル/128ドル/512ドル/512ドル/512ドル/512ドル/512ドル/512ドル/512ドル/1。 本手法は,画像再構成の画素単位の精度と時間効率の両方でSOTA攻撃ベースラインを著しく上回っている。 さらに、我々の攻撃はある程度の差分プライバシーを無効にすることができる。

Gradient leakage has been identified as a potential source of privacy breaches in modern image processing systems, where the adversary can completely reconstruct the training images from leaked gradients. However, existing methods are restricted to reconstructing low-resolution images where data leakage risks of image processing systems are not sufficiently explored. In this paper, by exploiting diffusion models, we propose an innovative gradient-guided fine-tuning method and introduce a new reconstruction attack that is capable of stealing private, high-resolution images from image processing systems through leaked gradients where severe data leakage encounters. Our attack method is easy to implement and requires little prior knowledge. The experimental results indicate that current reconstruction attacks can steal images only up to a resolution of $128 \times 128$ pixels, while our attack method can successfully recover and steal images with resolutions up to $512 \times 512$ pixels. Our attack method significantly outperforms the SOTA attack baselines in terms of both pixel-wise accuracy and time efficiency of image reconstruction. Furthermore, our attack can render differential privacy ineffective to some extent.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 無人航空システムのための統合モデリング・検証・コード生成

Integrated Modeling, Verification, and Code Generation for Unmanned Aerial Systems ( http://arxiv.org/abs/2406.09485v1 )

ライセンス: Link先を確認
Jianyu Zhang, Long Zhang, Yixuan Wu, Linru Ma, Feng Yang, (参考訳) 無人航空システム(UAS)は現在、産業生産、軍事作戦、災害救助などの安全上重要な分野で広く利用されている。 アプリケーションシナリオの多様性と複雑さのため、UASはますます複雑になっています。 開発コストを効果的に制御し、効率を向上しつつ、高度に信頼性の高いUASを設計・実装することの課題は、学術と産業の両方が直面している課題である。 本稿では,UASのモデリング,検証,コード生成への統合的アプローチを検討することを目的とする。 この論文は、アーキテクチャ分析と設計言語(AADL)を用いてUASをモデル化し、一連のUASモデルを提案することから始まる。 これらのモデルに基づいて、システムの安全性と機能を記述するために正式な仕様が書かれています。 最後に、検証モデルに基づいて、UASのフライトコントローラコードを生成する方法を提案する。 提案手法を用いて行った実験は,UASの初期設計段階での潜在的な脆弱性の同定と,検証されたモデルから実行可能な飛行制御コードを生成する上での有効性を示す。 このアプローチは、高信頼性UASの設計と検証の効率を高めることができる。

Unmanned Aerial Systems (UAS) are currently widely used in safety-critical fields such as industrial production, military operations, and disaster relief. Due to the diversity and complexity of application scenarios, UAS have become increasingly intricate. The challenge of designing and implementing highly reliable UAS while effectively controlling development costs and enhancing efficiency is a pressing issue faced by both academia and industry. Addressing this challenge, this paper aims to investigate an integrated approach to modeling, verification, and code generation for UAS. The paper begins by utilizing Architecture Analysis and Design Language (AADL) to model the UAS, proposing a set of generic UAS models. Based on these models, formal specifications are written to describe the system's safety properties and functions. Finally, the paper introduces a method for generating flight controller code for UAS based on the verified models. Experiments conducted with the proposed method demonstrate its effectiveness in identifying potential vulnerabilities in the UAS during the early design phase and in generating viable flight controller code from the verified models. This approach can enhance the efficiency of designing and verifying high-reliability UAS.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# SeMOPO:低品質のオフラインビジュアルデータセットから高品質なモデルとポリシーを学ぶ

SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets ( http://arxiv.org/abs/2406.09486v1 )

ライセンス: Link先を確認
Shenghua Wan, Ziyuan Chen, Le Gan, Shuai Feng, De-Chuan Zhan, (参考訳) モデルベースのオフライン強化学習(RL)は、多くの実世界のアプリケーション、特に画像やビデオのような高次元の入力を効果的に活用する有望なアプローチである。 オフラインRLにおける分布シフト問題を緩和するため、既存のモデルベース手法は学習力学の不確実性に大きく依存している。 しかし、観測が非自明なダイナミックスを持つ複雑な散逸器を含む場合、モデル不確実性推定は著しくバイアスを受ける。 この課題に対処するため、我々は、内因性のみのモデル不確かさを推定し、内因性および外因性部分に潜伏状態を分解する新しいアプローチである、emph{Separated Model-based Offline Policy Optimization} (SeMOPO)を提案する。 モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。 有効性を評価するため,RL(LQV-D4RL)のための低品質視覚深部データ駆動データセットを構築し,非専門的なポリシーでデータを収集する。 実験結果から,本手法はすべての基本手法より大幅に優れており,さらに解析実験により本手法の臨界設計を検証した。 プロジェクトのWebサイトは \href{https://sites.google.com/view/semopo}{https://sites.google.com/view/semopo} である。

Model-based offline reinforcement Learning (RL) is a promising approach that leverages existing data effectively in many real-world applications, especially those involving high-dimensional inputs like images and videos. To alleviate the distribution shift issue in offline RL, existing model-based methods heavily rely on the uncertainty of learned dynamics. However, the model uncertainty estimation becomes significantly biased when observations contain complex distractors with non-trivial dynamics. To address this challenge, we propose a new approach - \emph{Separated Model-based Offline Policy Optimization} (SeMOPO) - decomposing latent states into endogenous and exogenous parts via conservative sampling and estimating model uncertainty on the endogenous states only. We provide a theoretical guarantee of model uncertainty and performance bound of SeMOPO. To assess the efficacy, we construct the Low-Quality Vision Deep Data-Driven Datasets for RL (LQV-D4RL), where the data are collected by non-expert policy and the observations include moving distractors. Experimental results show that our method substantially outperforms all baseline methods, and further analytical experiments validate the critical designs in our method. The project website is \href{https://sites.google.com/view/semopo}{https://sites.google.com/view/semopo}.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 言語駆動型Grasp検出

Language-driven Grasp Detection ( http://arxiv.org/abs/2406.09489v1 )

ライセンス: Link先を確認
An Dinh Vuong, Minh Nhat Vu, Baoru Huang, Nghia Nguyen, Hieu Le, Thieu Vo, Anh Nguyen, (参考訳) グラフ検出は、様々な産業応用において、永続的で複雑な課題である。 近年,把握検出問題に対処するため,多くの手法やデータセットが提案されている。 しかし、多くは、把握ポーズを検出する条件として自然言語を使うことを考慮していない。 本稿では,Grasp-Anything++について紹介する。Grasp-Anything++は,100万以上のサンプル,3M以上のオブジェクト,1000万以上のグリップ命令を含む,新たな言語駆動型グリップ検出データセットである。 基礎モデルを用いて、対応する画像とプロンプトを把握した大規模シーンコーパスを作成する。 我々は条件生成問題として言語駆動型グリップ検出タスクにアプローチする。 生成タスクにおける拡散モデルの成功に基づいて,このタスクにおいて言語が重要な役割を担っていることを考慮し,拡散モデルに基づく新たな言語駆動型把握検出手法を提案する。 我々の重要な貢献は対照的な学習目標であり、言語命令が与えられた握りポーズを検出するための認知プロセスに明示的に寄与する。 我々は、我々のアプローチが理論的に支持的であることを説明している。 集中的な実験により、我々の手法は最先端のアプローチよりも優れており、現実のロボットの把握を可能にしていることがわかった。 最後に、我々の大規模データセットがゼロショートグリップ検出を可能にすることを実証し、将来の作業において挑戦的なベンチマークとなる。 プロジェクトウェブサイト: https://airvlab.github.io/grasp-anything/

Grasp detection is a persistent and intricate challenge with various industrial applications. Recently, many methods and datasets have been proposed to tackle the grasp detection problem. However, most of them do not consider using natural language as a condition to detect the grasp poses. In this paper, we introduce Grasp-Anything++, a new language-driven grasp detection dataset featuring 1M samples, over 3M objects, and upwards of 10M grasping instructions. We utilize foundation models to create a large-scale scene corpus with corresponding images and grasp prompts. We approach the language-driven grasp detection task as a conditional generation problem. Drawing on the success of diffusion models in generative tasks and given that language plays a vital role in this task, we propose a new language-driven grasp detection method based on diffusion models. Our key contribution is the contrastive training objective, which explicitly contributes to the denoising process to detect the grasp pose given the language instructions. We illustrate that our approach is theoretically supportive. The intensive experiments show that our method outperforms state-of-the-art approaches and allows real-world robotic grasping. Finally, we demonstrate our large-scale dataset enables zero-short grasp detection and is a challenging benchmark for future work. Project website: https://airvlab.github.io/grasp-anything/
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# Newswire: 歴史的ニュースの大規模構造化データベース

Newswire: A Large-Scale Structured Database of a Century of Historical News ( http://arxiv.org/abs/2406.09490v1 )

ライセンス: Link先を確認
Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell, (参考訳) アメリカの歴史において、地元の新聞は、主にAP通信のようなニュースワイヤーからその内容を描いた。 歴史家は、ニュースワイヤが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を担ったと主張しているが、ニュースワイヤに送信されたコンテンツの包括的なアーカイブは存在しない。 数千の地方紙から数百テラバイトの原画像スキャンにカスタマイズされたディープラーニングパイプラインを適用することで,そのようなアーカイブを再構築する。 結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。 これらの記事の場所はジオリファレンスされ、トピックはカスタマイズされたニューラルトピック分類を使用してタグ付けされ、名前付きエンティティが認識され、個人は新しいエンティティの曖昧さモデルを使用してウィキペディアとあいまいになる。 Newswireデータセットを構築するために、まず新聞のレイアウトを認識し、生画像スキャンから約1億3800万の構造化された記事テキストを転写する。 次に、カスタマイズされたニューラルバイエンコーダモデルを用いて、再生された物品を分解し、相当な短縮とノイズを伴い、各物品がどれだけ広範囲に再生されたかを定量化する。 テキスト分類器は、歴史的にパブリックドメインにあるニュースワイヤの記事のみを含むことを保証するために使用される。 テキストに付随する構造化されたデータは、何者(曖昧な個人)、何者(トピック)、そして何万人ものアメリカ人が1世紀にわたって読んだニュースのどこで(ジオレファレンス)について豊富な情報を提供する。 また、前ページに記事を載せた新聞のメタデータ情報も含んでいます。 Newswireデータセットは、大規模な言語モデリング - 現代のWebテキストから利用可能なものを超えてトレーニングデータを拡張する - と、計算言語学、社会科学、デジタル人文科学におけるさまざまな質問の研究の両方に有用である。

In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 第2回DisPLACEチャレンジ : 会話環境におけるSPeakerとLanguageのダイアリゼーション

The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments ( http://arxiv.org/abs/2406.09494v1 )

ライセンス: Link先を確認
Shareef Babu Kalluri, Prachi Singh, Pratik Roy Chowdhuri, Apoorva Kulkarni, Shikha Baghel, Pradyoth Hegde, Swapnil Sontakke, Deepak K T, S. R. Mahadeva Prasanna, Deepu Vijayasenan, Sriram Ganapathy, (参考訳) SPeaker と LAnguage in Conversational Environments (DISPLACE) 2024 Challenge は、話者ダイアリゼーション (SD) と言語ダイアリゼーション (LD) のタスクを含む一連の DisPLACE 課題の第2弾である。 DISPLACE 2024チャレンジでは、このデータセット上で自動音声認識(ASR)タスクも導入した。 158時間の音声を含むデータセットは、LDトラックとSDトラック用にリリースされた。 さらに、インド語5言語で実施されたASRトラックに対して、12時間の近接場単チャンネル記録が提供された。 本論文では,データセット,ベースラインシステム,およびリーダボードの結果の詳細について概説する。 また,この第2版における課題の進展を強調するために,D DISPLACE-2023の評価データに基づくベースラインモデルとチームのパフォーマンスを比較した。

The DIarization of SPeaker and LAnguage in Conversational Environments (DISPLACE) 2024 challenge is the second in the series of DISPLACE challenges, which involves tasks of speaker diarization (SD) and language diarization (LD) on a challenging multilingual conversational speech dataset. In the DISPLACE 2024 challenge, we also introduced the task of automatic speech recognition (ASR) on this dataset. The dataset containing 158 hours of speech, consisting of both supervised and unsupervised mono-channel far-field recordings, was released for LD and SD tracks. Further, 12 hours of close-field mono-channel recordings were provided for the ASR track conducted on 5 Indian languages. The details of the dataset, baseline systems and the leader board results are highlighted in this paper. We have also compared our baseline models and the team's performances on evaluation data of DISPLACE-2023 to emphasize the advancements made in this second version of the challenge.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# スコアベース拡散モデルによる公正データ生成

Fair Data Generation via Score-based Diffusion Model ( http://arxiv.org/abs/2406.09495v1 )

ライセンス: Link先を確認
Yujie Lin, Dong Li, Chen Zhao, Minglai Shao, (参考訳) AI意思決定の公正さは注目度を高め、多くの公正性アルゴリズムの提案につながった。 本稿では,この問題を解決するために,公平な学習アルゴリズムを直接導入するのではなく,任意の下流タスクで使用するバイアス付きデータセットから,完全に新しい公正な合成データを生成する。 さらに、テストデータの分布はトレーニングセットと異なり、下流タスクで生成された合成データのパフォーマンスに影響を与える可能性がある。 これら2つの課題に対処するために,拡散モデルに基づくフレームワーク FADM: Fairness-Aware Diffusion with Meta-training を提案する。 FADMは、拡散モデルのサンプリング段階における勾配誘導の2つのタイプを導入し、その1つは、生成したサンプルが所望の目標カテゴリに属することを確実にし、もう1つは、生成したサンプルの感度特性を、特定の感度属性カテゴリに分類することを困難にすることである。 テスト環境におけるデータ分散シフトを克服するために,メタラーニングフレームワーク内での誘導に使用される拡散モデルと2つの分類器を訓練する。 他のベースラインと比較して、FADMは生成されたサンプルのカテゴリを柔軟に制御することができ、より優れた一般化能力を示す。 実データセットの実験により、FADMは下流タスクの精度と最適な公正性を達成することが示された。

The fairness of AI decision-making has garnered increasing attention, leading to the proposal of numerous fairness algorithms. In this paper, we aim not to address this issue by directly introducing fair learning algorithms, but rather by generating entirely new, fair synthetic data from biased datasets for use in any downstream tasks. Additionally, the distribution of test data may differ from that of the training set, potentially impacting the performance of the generated synthetic data in downstream tasks. To address these two challenges, we propose a diffusion model-based framework, FADM: Fairness-Aware Diffusion with Meta-training. FADM introduces two types of gradient induction during the sampling phase of the diffusion model: one to ensure that the generated samples belong to the desired target categories, and another to make the sensitive attributes of the generated samples difficult to classify into any specific sensitive attribute category. To overcome data distribution shifts in the test environment, we train the diffusion model and the two classifiers used for induction within a meta-learning framework. Compared to other baselines, FADM allows for flexible control over the categories of the generated samples and exhibits superior generalization capability. Experiments on real datasets demonstrate that FADM achieves better accuracy and optimal fairness in downstream tasks.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 食べているのはあなた? 食財団は、World Wide Dishesの地域的に多様な食品データセットをモデル化する

You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes ( http://arxiv.org/abs/2406.09496v1 )

ライセンス: Link先を確認
Jabez Magomere, Shu Ishida, Tejumade Afonja, Aya Salama, Daniel Kochin, Foutse Yuehgoh, Imane Hamzaoui, Raesetje Sefala, Aisha Alaagib, Elizaveta Semenova, Lauren Crais, Siobhan Mackenzie Hall, (参考訳) ファウンデーションモデルは、テキスト画像検索、チャットボットとの対話、コンテンツ生成といった日常的なタスクで使われるようになった。 利用が増えるにつれて、世界のさまざまな場所での、これらのモデルのパフォーマンスと公平性の違いにも懸念が持たれます。 これらの地域格差の増大を評価するために,765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。 World Wide Dishesは、ソーシャルネットワークを通じて広く配布されるWebサイトを作ることによって、人間の貢献と分散化を通じて純粋に収集されている。 このデータセットを用いて,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,新たな操作能力と表現バイアスを示す。 我々はこれらの研究を、パイロットコミュニティのレビューで豊かにし、5つのアフリカ諸国と米国の人々のために、これらのモデルがどのように画像を生成するかを理解する。 これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。 米国の食器生産は調査対象のアフリカ諸国よりも優れていますが、訓練データでは通常よりよく供給されていると見なされる米国にとっても、これは事実です。 これらのモデルは、文化的に誤って表現され、平らで、無神経な出力を生産する傾向を示す。 これらの能力障害と表現バイアスは、ステレオタイプをさらに強化し、領域に基づく消去に不均等に寄与する可能性がある。 データセットとコードはhttps://github.com/oxai/world-wide-dishes/で公開されている。

Foundation models are increasingly ubiquitous in our daily lives, used in everyday tasks such as text-image searches, interactions with chatbots, and content generation. As use increases, so does concern over the disparities in performance and fairness of these models for different people in different parts of the world. To assess these growing regional disparities, we present World Wide Dishes, a mixed text and image dataset consisting of 765 dishes, with dish names collected in 131 local languages. World Wide Dishes has been collected purely through human contribution and decentralised means, by creating a website widely distributed through social networks. Using the dataset, we demonstrate a novel means of operationalising capability and representational biases in foundation models such as language models and text-to-image generative models. We enrich these studies with a pilot community review to understand, from a first-person perspective, how these models generate images for people in five African countries and the United States. We find that these models generally do not produce quality text and image outputs of dishes specific to different regions. This is true even for the US, which is typically considered to be more well-resourced in training data - though the generation of US dishes does outperform that of the investigated African countries. The models demonstrate a propensity to produce outputs that are inaccurate as well as culturally misrepresentative, flattening, and insensitive. These failures in capability and representational bias have the potential to further reinforce stereotypes and disproportionately contribute to erasure based on region. The dataset and code are available at https://github.com/oxai/world-wide-dishes/.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 乱れた非エルミート系におけるグリーン関数の普遍的スケーリング

Universal scaling of Green's functions in disordered non-Hermitian systems ( http://arxiv.org/abs/2406.09502v1 )

ライセンス: Link先を確認
Yin-Quan Huang, Yu-Min Hu, Wen-Tan Xue, Zhong Wang, (参考訳) 非エルミート皮膚効果とアンダーソン局在との競合は、スペクトルや波動関数に関する様々な興味深い現象をもたらす。 ここでは、グリーン関数によって正確に記述された乱非エルミート系の線形応答について検討する。 外部摂動に対する最大応答を定量化するグリーン関数の行列要素の平均最大値が,システムサイズに対して異なるスケーリング挙動を特徴とする異なる位相を示す。 指数的成長相は変換不変系でも見られるが、代数的成長相は非エルミート系に特有のものである。 非エルミート的乱れグリーン関数の代数的スケーリング因子に関する解析的な洞察を提供する大偏差理論を用いて、これらの知見を説明する。 さらに、これらのスケーリング挙動は、乱れたオープン量子系の定常状態において観測でき、実験的な検出のための量子力学的経路を提供する。 我々の研究は、非エルミート皮膚効果とアンダーソン局在の予期せぬ相互作用を強調している。

The competition between non-Hermitian skin effect and Anderson localization leads to various intriguing phenomena concerning spectrums and wavefunctions. Here, we study the linear response of disordered non-Hermitian systems, which is precisely described by the Green's function. We find that the average maximum value of matrix elements of Green's functions, which quantifies the maximum response against an external perturbation, exhibits different phases characterized by different scaling behaviors with respect to the system size. Whereas the exponential-growth phase is also seen in the translation-invariant systems, the algebraic-growth phase is unique to disordered non-Hermitian systems. We explain the findings using the large deviation theory, which provides analytical insights into the algebraic scaling factors of non-Hermitian disordered Green's functions. Furthermore, we show that these scaling behaviors can be observed in the steady states of disordered open quantum systems, offering a quantum-mechanical avenue for their experimental detection. Our work highlights an unexpected interplay between non-Hermitian skin effect and Anderson localization.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 凸体上の多項式最適化のための偏極階層と非負行列ランクへの応用

The polarization hierarchy for polynomial optimization over convex bodies, with applications to nonnegative matrix rank ( http://arxiv.org/abs/2406.09506v1 )

ライセンス: Link先を確認
Martin Plávala, Laurens T. Ligthart, David Gross, (参考訳) 我々は、多項式制約を受ける凸体上の多項式関数を最適化する問題に対して、外部近似の収束族を構築する。 これは、以前にC^*$-代数状態空間上の多項式最適化問題の研究のために導入された偏極階層を有限次元の凸錐に一般化することで達成される。 凸体が線型あるいは半定値のプログラムで特徴づけられるなら、我々の階層にも同じことが言える。 収束性は、量子力学の可能な一般化として研究される一般確率論の特定のデ・フィネッティの定理と関連して証明される。 非負行列分解問題、特にネスト長方形問題に適用する。 階層の3段階の数値的な実装は、この問題に対して非常に厳密な近似をもたらすことが示されている。

We construct a convergent family of outer approximations for the problem of optimizing polynomial functions over convex bodies subject to polynomial constraints. This is achieved by generalizing the polarization hierarchy, which has previously been introduced for the study of polynomial optimization problems over state spaces of $C^*$-algebras, to convex cones in finite dimensions. If the convex bodies can be characterized by linear or semidefinite programs, then the same is true for our hierarchy. Convergence is proven by relating the problem to a certain de Finetti theorem for general probabilistic theories, which are studied as possible generalizations of quantum mechanics. We apply the method to the problem of nonnegative matrix factorization, and in particular to the nested rectangles problem. A numerical implementation of the third level of the hierarchy is shown to give rise to a very tight approximation for this problem.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# CleanDiffuser: ディフュージョンモデルによる意思決定用モジュール化ライブラリ

CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making ( http://arxiv.org/abs/2406.09509v1 )

ライセンス: Link先を確認
Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yi Ma, Pengyi Li, Yan Zheng, (参考訳) 拡散モデル(DM)の強力な生成能力を活用して意思決定エージェントを構築することは大きな成功を収めた。 しかし、DMベースの意思決定アルゴリズムのカスタマイズと効率的な開発を提供する、使いやすくモジュール化されたオープンソースライブラリには、依然として需要がある。 本稿では,意思決定アルゴリズムに特化して設計された最初のDMライブラリであるCleanDiffuserを紹介する。 意思決定領域におけるDMの役割を再考することにより、CleanDiffuserのコアを構成する重要なサブモジュールの集合を特定し、単純で柔軟なビルディングブロックによる様々なDMアルゴリズムの実装を可能にする。 cleanDiffuserの信頼性と柔軟性を実証するため,CleanDiffuserで実装された様々なDMアルゴリズムの広範囲にわたる総合的な評価を行った。 分析実験は、価値ある設計の選択と洞察を豊富に提供し、機会と課題を明らかにし、将来の研究の基盤となる。 CleanDiffuserは意思決定コミュニティに長期的なサポートを提供し、再現性を高め、より堅牢なソリューションの開発を促進する。 CleanDiffuserのコードとドキュメントはhttps://github.com/CleanDiffuserTeam/CleanDiffuserで公開されている。

Leveraging the powerful generative capability of diffusion models (DMs) to build decision-making agents has achieved extensive success. However, there is still a demand for an easy-to-use and modularized open-source library that offers customized and efficient development for DM-based decision-making algorithms. In this work, we introduce CleanDiffuser, the first DM library specifically designed for decision-making algorithms. By revisiting the roles of DMs in the decision-making domain, we identify a set of essential sub-modules that constitute the core of CleanDiffuser, allowing for the implementation of various DM algorithms with simple and flexible building blocks. To demonstrate the reliability and flexibility of CleanDiffuser, we conduct comprehensive evaluations of various DM algorithms implemented with CleanDiffuser across an extensive range of tasks. The analytical experiments provide a wealth of valuable design choices and insights, reveal opportunities and challenges, and lay a solid groundwork for future research. CleanDiffuser will provide long-term support to the decision-making community, enhancing reproducibility and fostering the development of more robust solutions. The code and documentation of CleanDiffuser are open-sourced on the https://github.com/CleanDiffuserTeam/CleanDiffuser.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 位相ロバスト量子ネットワーク非局所性

Topologically Robust Quantum Network Nonlocality ( http://arxiv.org/abs/2406.09510v1 )

ライセンス: Link先を確認
Sadra Boreiri, Tamas Krivachy, Pavel Sekatski, Antoine Girardin, Nicolas Brunner, (参考訳) ネットワーク構造が完全に分かっていない環境で、量子ネットワークのベル非局所性について論じる。 より具体的に言うと、正直なユーザはローカルネットワークのトポロジを信頼するかもしれませんが、ネットワークの他の部分の構造は信頼できません。 量子ネットワークの非局所性はそのような環境でも証明できることを示し、したがってトポロジカルロバスト性を示す。 具体的には,従来のモデルでは再現できない単純なネットワークから得られる量子分布について述べる。 特に,大規模リングネットワークでは,ネットワーク全体の非局所性を保証するのに,ネットワーク構造のごく一部(隣接する2つないし3つのパーティのみを含む)の知識が十分であることを示す。 これは、量子ネットワークの非局所性は、ネットワークトポロジの変化に対して非常に堅牢であることを示している。 さらに, ランダム性や絡み合いのブラックボックス認証など, 量子非局所性の適用も可能であることを示す。

We discuss quantum network Bell nonlocality in a setting where the network structure is not fully known. More concretely, an honest user may trust their local network topology, but not the structure of the rest of the network, involving distant (and potentially dishonest) parties. We demonstrate that quantum network nonlocality can still be demonstrated in such a setting, hence exhibiting topological robustness. Specifically, we present quantum distributions obtained from a simple network that cannot be reproduced by classical models, even when the latter are based on more powerful networks. In particular, we show that in a large ring network, the knowledge of only a small part of the network structure (involving only 2 or 3 neighbouring parties) is enough to guarantee nonlocality over the entire network. This shows that quantum network nonlocality can be extremely robust to changes in the network topology. Moreover, we demonstrate that applications of quantum nonlocality, such as the black-box certification of randomness and entanglement, are also possible in such a setting.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# Fair GLASSO: 偏りのない統計的振る舞いを持つ公正なグラフモデルの推定

Fair GLASSO: Estimating Fair Graphical Models with Unbiased Statistical Behavior ( http://arxiv.org/abs/2406.09513v1 )

ライセンス: Link先を確認
Madeline Navarro, Samuel Rey, Andrei Buciulea, Antonio G. Marques, Santiago Segarra, (参考訳) 本稿では,ガウス図形モデル (GGM) の推定手法を提案する。 多くの現実世界のモデルは、データのバイアスによって不公平な差別行動を示す。 このような識別は、データがグラフに符号化されたペアワイズ関係を備えると、さらに悪化することが知られている。 さらに、バイアスデータによるグラフィカルモデルへの影響は、ほとんど調査されていない。 そこで我々は,2つのバイアス指標の形でグラフィカルモデルに公平性を導入し,異なる感度特性を持つノード群間の統計的類似性のバランスを促進させる。 これらの指標を応用して,グループ間の非バイアス統計的依存関係を持つスパースガウス精度行列を得るための,正規化されたグラフィカルラッソアプローチであるFair GLASSOを提案する。 また,推定値を得るための効率的な近位勾配アルゴリズムを提案する。 理論的には、公正な推定精度行列と正確な推定精度行列とのトレードオフを表現する。 批判的なことに、フェアネス正則化器の存在下で精度が保持できることを示すことを含む。 そこで本研究では,Fair GLASSOの複雑性について検討し,アルゴリズムが高速収束速度を享受できることを実証する。 我々の経験的検証には、提案した最適化問題と反復アルゴリズムの価値と有効性を示す合成および実世界のシミュレーションが含まれる。

We propose estimating Gaussian graphical models (GGMs) that are fair with respect to sensitive nodal attributes. Many real-world models exhibit unfair discriminatory behavior due to biases in data. Such discrimination is known to be exacerbated when data is equipped with pairwise relationships encoded in a graph. Additionally, the effect of biased data on graphical models is largely underexplored. We thus introduce fairness for graphical models in the form of two bias metrics to promote balance in statistical similarities across nodal groups with different sensitive attributes. Leveraging these metrics, we present Fair GLASSO, a regularized graphical lasso approach to obtain sparse Gaussian precision matrices with unbiased statistical dependencies across groups. We also propose an efficient proximal gradient algorithm to obtain the estimates. Theoretically, we express the tradeoff between fair and accurate estimated precision matrices. Critically, this includes demonstrating when accuracy can be preserved in the presence of a fairness regularizer. On top of this, we study the complexity of Fair GLASSO and demonstrate that our algorithm enjoys a fast convergence rate. Our empirical validation includes synthetic and real-world simulations that illustrate the value and effectiveness of our proposed optimization problem and iterative algorithm.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# D=3におけるYang-Mills-Chern-Simons理論の補間ゲージ固定

Interpolating gauge-fixing for Yang-Mills-Chern-Simons theory in D=3 ( http://arxiv.org/abs/2406.09515v1 )

ライセンス: Link先を確認
Daniel O. R. Azevedo, Oswaldo M. Del Cima, Thadeu S. Dias, Emílio D. Pereira, (参考訳) 三次元ミンコフスキー時空におけるヤン・ミルズ・チェン・シモンズ理論は、共変ゲージと光錐ゲージの間に補間するゲージ固定スキーム、補間ゲージ固定において研究される。 理論の紫外有限性は、ベッチ・ルー・ストーラ(英語版)(BRS)代数的再正規化法(英語版)によって証明され、これは摂動理論のすべての順序に対するすべての$\beta$-函数とすべての異常次元の消滅を証明できる。

The Yang-Mills-Chern-Simons theory in three-dimensional Minkowski space-time is studied in a gauge-fixing scheme which interpolates between the covariant gauge and light-cone gauge, the interpolating gauge-fixing. The ultraviolet finiteness of the theory is proved via the Becchi-Rouet-Stora (BRS) algebraic renormalization procedure, which allows us to demonstrate the vanishing of all $\beta$-functions and all anomalous dimensions to all orders in perturbation theory.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 話す頭:トランスフォーマー言語モデルにおける層間コミュニケーションの理解

Talking Heads: Understanding Inter-layer Communication in Transformer Language Models ( http://arxiv.org/abs/2406.09519v1 )

ライセンス: Link先を確認
Jack Merullo, Carsten Eickhoff, Ellie Pavlick, (参考訳) トランスフォーマー言語モデル(LM)が初期層から後期層に特徴を渡すことは知られているが、この情報がモデルによってどのように表現され、ルートされるかはよく分かっていない。 LMがこれを実現するために使用する特定のメカニズムを解析することにより、リストからアイテムをリコールすることも可能であることが分かり、このメカニズムは、他の方法ではモデルの任意の感度をプロンプト内のアイテムの順序に説明できることを示す。 具体的には、モデルが残差ストリームの低ランク部分空間に書き込まれ、後続の層によって読み出される特徴を表現し、層間の低ランク通信チャネルを形成する。 重み行列をSingular Value Decomposition (SVD) で分解することにより, 1層以上の層で分離した頭部間の相互作用を, 重み行列の解析により予測できることが判明した。 そこで本研究では,内部モデル表現の操作やモデル重み付けの編集が可能であることを示し,その機構をベースとして,リストからのリコールを必要とするLundry Listタスクの性能を大幅に向上させることで,タスク精度を20%以上向上させることが可能であることを示した。 我々の分析では、言語モデル事前学習から学んだ驚くほど複雑な解釈可能な構造を明らかにし、なぜ洗練されたLMが単純なドメインで失敗するのかを理解するのに役立ち、より複雑な振る舞いの将来の分析を容易にする。

Although it is known that transformer language models (LMs) pass features from early layers to later layers, it is not well understood how this information is represented and routed by the model. By analyzing particular mechanism LMs use to accomplish this, we find that it is also used to recall items from a list, and show that this mechanism can explain an otherwise arbitrary-seeming sensitivity of the model to the order of items in the prompt. Specifically, we find that models write into low-rank subspaces of the residual stream to represent features which are then read out by specific later layers, forming low-rank communication channels between layers. By decomposing attention head weight matrices with the Singular Value Decomposition (SVD), we find that previously described interactions between heads separated by one or more layers can be predicted via analysis of their weight matrices. We show that it is possible to manipulate the internal model representations as well as edit model weights based on the mechanism we discover in order to significantly improve performance on our synthetic Laundry List task, which requires recall from a list, often improving task accuracy by over 20%. Our analysis reveals a surprisingly intricate interpretable structure learned from language model pretraining, and helps us understand why sophisticated LMs sometimes fail in simple domains, facilitating future analysis of more complex behaviors.
翻訳日:2024-06-17 17:34:26 公開日:2024-06-13
# 教育・学習実践のためのジェネレーティブAIの体系的レビュー

A Systematic Review of Generative AI for Teaching and Learning Practice ( http://arxiv.org/abs/2406.09520v1 )

ライセンス: Link先を確認
Bayode Ogunleye, Kudirat Ibilola Zakariyyah, Oluwaseun Ajao, Olakunle Olayinka, Hemlata Sharma, (参考訳) 学術における生成人工知能(GenAI)の利用は主観的で熱い議論の的となっている。 現在、高等教育(HE)におけるGenAIシステムの利用に関するガイドラインは合意されていないため、この技術を教育・学習の実践に効果的に活用する方法は定かではない。 本稿では, HEにおける教育・学習のためのGenAI研究の現状について概説する。 そこで本研究では,Scopus が対象とする関連研究の体系的レビューを行い,システム的レビューとメタアナライザ(PRISMA)ガイドラインに好適な報告項目を用いた。 検索基準は625件の調査論文を公表し、そのうち355件が最終包含基準を満たした。 レビューの結果は、文書、引用、資料ソース/著者、キーワード、共著者の現況と今後の傾向を示した。 特定された研究のギャップは、AI生成テキストの検出を理解することに注目している著者もいるが、どのようにGenAIを評価、教育、学習のカリキュラムに組み込むことができるかを理解することは有益かもしれないことを示唆している。 さらに、共同研究を通じてHEにおける学際的・多次元的な研究も必要となる。 これにより、学生、家庭教師、その他の利害関係者の意識と理解が強化され、GenAI利用のガイドライン、フレームワーク、ポリシーの定式化に役立ちます。

The use of generative artificial intelligence (GenAI) in academia is a subjective and hotly debated topic. Currently, there are no agreed guidelines towards the usage of GenAI systems in higher education (HE) and, thus, it is still unclear how to make effective use of the technology for teaching and learning practice. This paper provides an overview of the current state of research on GenAI for teaching and learning in HE. To this end, this study conducted a systematic review of relevant studies indexed by Scopus, using the preferred reporting items for systematic reviews and meta-analyses (PRISMA) guidelines. The search criteria revealed a total of 625 research papers, of which 355 met the final inclusion criteria. The findings from the review showed the current state and the future trends in documents, citations, document sources/authors, keywords, and co-authorship. The research gaps identified suggest that while some authors have looked at understanding the detection of AI-generated text, it may be beneficial to understand how GenAI can be incorporated into supporting the educational curriculum for assessments, teaching, and learning delivery. Furthermore, there is a need for additional interdisciplinary, multidimensional studies in HE through collaboration. This will strengthen the awareness and understanding of students, tutors, and other stakeholders, which will be instrumental in formulating guidelines, frameworks, and policies for GenAI usage.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# ソフトウェアモデル構築のための構造エディタ

Structure Editor for Building Software Models ( http://arxiv.org/abs/2406.09524v1 )

ライセンス: Link先を確認
Mohammad Nurullah Patwary, Ana Jovanovic, Allison Sullivan, (参考訳) Alloyは宣言型モデリング言語としてよく知られている。 Alloyの重要な強みは、そのシナリオを見つけるツールセットであるAnalyzerである。 アナライザーにも拘わらず、アロイは初心者にとっては学習と使用が難しい。 93,000以上の新しいユーザーモデルに関する最近の実証的研究によると、ユーザーは当初から問題を抱えている。 我々は,アロイの文法と型情報は,有効な公式を構成するための狭い経路を概説しているにもかかわらず,ユーザに対して受動的に伝達されると考えている。 本稿では,フリータイピングではなく,ブロックベースの入力でモデルを構築するアロイ用構造エディタのコンセプト実証について概説する。

Alloy is well known a declarative modeling language. A key strength of Alloy is its scenario finding toolset, the Analyzer, which allows users to explore all valid scenarios that adhere to the model's constraints up to a user-provided scope. Despite the Analyzer, Alloy is still difficult for novice users to learn and use. A recent empirical study of over 93,000 new user models reveals that users have trouble from the very start: nearly a third of the models novices write fail to compile. We believe that the issue is that Alloy's grammar and type information is passively relayed to the user despite this information outlining a narrow path for how to compose valid formulas. In this paper, we outline a proof-of-concept for a structure editor for Alloy in which user's build their models using block based inputs, rather than free typing, which by design prevents compilation errors.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# 地域型グラフニューラルネットワークを用いた知識グラフの微分推論

Differentiable Reasoning about Knowledge Graphs with Region-based Graph Neural Networks ( http://arxiv.org/abs/2406.09529v1 )

ライセンス: Link先を確認
Aleksandar Pavlovic, Emanuel Sallinger, Steven Schockaert, (参考訳) 知識グラフ(KG)の完成法は、意味的正則性を捕捉し、これらの正則性を用いて、明示的に記述されていない妥当な知識を推測する必要がある。 ほとんどの埋め込みベースの手法はキャプチャ可能な正規性には不透明であるが、領域ベースのKG埋め込みモデルはより透明な代替手段として現れている。 高次元ベクトル空間における幾何学的領域としての関係をモデル化することにより、そのようなモデルはこれらの領域の空間配置の観点から意味的規則性を明示的に捉えることができる。 残念ながら、既存のリージョンベースのアプローチは、キャプチャ可能なルールの種類に大きく制限されている。 この制限は、考慮された領域が2次元領域のカルテシアン積として定義されるため生じると我々は主張する。 本稿では,従来のルールベースよりもはるかに大規模なルールベースを忠実に捕捉可能な順序制約に基づくシンプルなモデルであるRESHUFFLEを提案する。 さらに、我々のフレームワークへの埋め込みはモノトニックグラフニューラルネットワーク(GNN)によって学習され、事実上差別化可能なルールベースとして機能する。 このアプローチには、新しい知識がKGに追加されるにつれて、埋め込みを簡単に更新できるという重要な利点がある。 同時に、得られた表現は標準KG埋め込みと同様に使用できるので、既存の微分可能な推論手法よりもはるかに効率的である。

Methods for knowledge graph (KG) completion need to capture semantic regularities and use these regularities to infer plausible knowledge that is not explicitly stated. Most embedding-based methods are opaque in the kinds of regularities they can capture, although region-based KG embedding models have emerged as a more transparent alternative. By modeling relations as geometric regions in high-dimensional vector spaces, such models can explicitly capture semantic regularities in terms of the spatial arrangement of these regions. Unfortunately, existing region-based approaches are severely limited in the kinds of rules they can capture. We argue that this limitation arises because the considered regions are defined as the Cartesian product of two-dimensional regions. As an alternative, in this paper, we propose RESHUFFLE, a simple model based on ordering constraints that can faithfully capture a much larger class of rule bases than existing approaches. Moreover, the embeddings in our framework can be learned by a monotonic Graph Neural Network (GNN), which effectively acts as a differentiable rule base. This approach has the important advantage that embeddings can be easily updated as new knowledge is added to the KG. At the same time, since the resulting representations can be used similarly to standard KG embeddings, our approach is significantly more efficient than existing approaches to differentiable reasoning.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# FeatNavigator: タブラルデータの自動機能拡張

FeatNavigator: Automatic Feature Augmentation on Tabular Data ( http://arxiv.org/abs/2406.09534v1 )

ライセンス: Link先を確認
Jiaming Liang, Chuan Lei, Xiao Qin, Jiani Zhang, Asterios Katsifodimos, Christos Faloutsos, Huzefa Rangwala, (参考訳) データ中心AIは、機械学習(ML)モデルのトレーニングにおいて、高品質で関連性の高いデータを理解し、活用することに焦点を当て、それによって正確で有用な結果を生み出す可能性を高める。 自動機能拡張は、初期ベーステーブルを他のテーブルから有用な機能で拡張することを目的としており、モデルの性能、堅牢性、一般化性を改善するため、データ準備において重要である。 最近の研究で自動的な機能拡張が検討されているが、そのほとんどは、基本テーブルと直接結合できない候補テーブルにあるため、すべての有用な機能を利用する能力に制限がある。 さらに悪いことに、これらの遠い特徴に導かれる多くの結合パスがあるため、既存のソリューションは妥当な計算予算の範囲内でそれらを十分に活用することができない。 FeatNavigatorは,MLモデルのリレーショナルテーブルにおいて,高品質な機能を探索し,統合する,効率的かつ効率的なフレームワークである。 FeatNavigatorは、(1)MLタスクに対する機能の本質的な価値(機能の重要性)と(2)その機能をベーステーブルに接続する結合パスの有効性(統合品質)の2つの側面から特徴を評価する。 FeatNavigatorは、機能重要度推定モデルと統合品質予測モデルをトレーニングするために、利用可能な少数の機能セットとその対応する結合パスを戦略的に選択する。 さらに、FeatNavigatorの検索アルゴリズムは、推定機能重要度と統合品質の両方を利用して、最適化された機能拡張計画を特定する。 FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセット上で、最先端のソリューションよりも優れています。

Data-centric AI focuses on understanding and utilizing high-quality, relevant data in training machine learning (ML) models, thereby increasing the likelihood of producing accurate and useful results. Automatic feature augmentation, aiming to augment the initial base table with useful features from other tables, is critical in data preparation as it improves model performance, robustness, and generalizability. While recent works have investigated automatic feature augmentation, most of them have limited capabilities in utilizing all useful features as many of them are in candidate tables not directly joinable with the base table. Worse yet, with numerous join paths leading to these distant features, existing solutions fail to fully exploit them within a reasonable compute budget. We present FeatNavigator, an effective and efficient framework that explores and integrates high-quality features in relational tables for ML models. FeatNavigator evaluates a feature from two aspects: (1) the intrinsic value of a feature towards an ML task (i.e., feature importance) and (2) the efficacy of a join path connecting the feature to the base table (i.e., integration quality). FeatNavigator strategically selects a small set of available features and their corresponding join paths to train a feature importance estimation model and an integration quality prediction model. Furthermore, FeatNavigator's search algorithm exploits both estimated feature importance and integration quality to identify the optimized feature augmentation plan. Our experimental results show that FeatNavigator outperforms state-of-the-art solutions on five public datasets by up to 40.1% in ML model performance.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# CircuitVAE: 効率的でスケーラブルな遅延回路最適化

CircuitVAE: Efficient and Scalable Latent Circuit Optimization ( http://arxiv.org/abs/2406.09535v1 )

ライセンス: Link先を確認
Jialin Song, Aidan Swope, Robert Kirby, Rajarshi Roy, Saad Godil, Jonathan Raiman, Bryan Catanzaro, (参考訳) 高速で空間効率のよいデジタル回路を自動設計することは、回路が離散的であり、論理を正確に実装し、シミュレートするのにコストがかかるため、難しい。 本稿では,連続空間に計算グラフを埋め込むサーチアルゴリズムCircuitVAEを用いて,勾配降下による物理シミュレーションの学習サロゲートを最適化する。 シミュレーションサロゲートのオーバーフィッティングを慎重に制御し、多様な探索を確実にすることで、我々のアルゴリズムはサンプル効率が高いが、大きな問題インスタンスや高いサンプル予算に優しくスケールする。 幅広いサイズ、IOタイミング制約、サンプル予算にまたがるバイナリ加算器を設計することでCircuitVAEをテストする。 提案手法は、強化学習や遺伝的アルゴリズムと比較して、サンプル予算の半分以下でより小さく高速な64ビット加算器を見つけるのが一般的である。 また、CircuitVAEは、実世界のチップで最先端の加算器を設計でき、我々の手法がリアルな環境で商用ツールより優れていることを示す。

Automatically designing fast and space-efficient digital circuits is challenging because circuits are discrete, must exactly implement the desired logic, and are costly to simulate. We address these challenges with CircuitVAE, a search algorithm that embeds computation graphs in a continuous space and optimizes a learned surrogate of physical simulation by gradient descent. By carefully controlling overfitting of the simulation surrogate and ensuring diverse exploration, our algorithm is highly sample-efficient, yet gracefully scales to large problem instances and high sample budgets. We test CircuitVAE by designing binary adders across a large range of sizes, IO timing constraints, and sample budgets. Our method excels at designing large circuits, where other algorithms struggle: compared to reinforcement learning and genetic algorithms, CircuitVAE typically finds 64-bit adders which are smaller and faster using less than half the sample budget. We also find CircuitVAE can design state-of-the-art adders in a real-world chip, demonstrating that our method can outperform commercial tools in a realistic setting.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# 共振器環境による2つの量子ビットの関連

Correlating two qubits via common cavity environment ( http://arxiv.org/abs/2406.09542v1 )

ライセンス: Link先を確認
Amit Dey, (参考訳) 一対の量子ビット間の量子絡み合いの生成は空洞QEDプラットフォームで研究される。 クビット対は共通の空洞環境の中に置かれる。 量子-光子カップリングの相対強度は、量子間絡みの確立に不可欠であることを示す。 量子ビットと光子の間の共鳴や非共鳴も考慮される。 外部共振の場合、最大絡み合う状態が常に利用できる結合比のしきい値を検出する。 共振器の場合、最大絡み合いが中間結合比でピークとなる興味深い非単調な挙動を示す。 本モデルでは, 駆動強度に対する定常エンタングルメントの非自明な依存性を示す。

Generation of quantum entanglement between a pair of qubits is studied in a cavity-QED platform. The qubit pair is placed inside a common cavity environment. We show that the relative strength of qubit-photon couplings is crucial for establishing inter-qubit entanglement. Resonance as well as off-resonance between the qubits and photon are considered . For off-resonant case we detect a threshold value of coupling ratio, beyond which maximally entangled state is always available. The resonant case displays interesting non-monotonic behavior, where the maximum entanglement peaks at an intermediate coupling ratio. The driven-dissipative dynamics of our model exhibits non-trivial dependence of steady-state entanglement on the drive strength.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# Q-Mamba:画像品質評価のためのVision Mambaの最初の探索について

Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment ( http://arxiv.org/abs/2406.09546v1 )

ライセンス: Link先を確認
Fengbin Guan, Xin Li, Zihao Yu, Yiting Lu, Zhibo Chen, (参考訳) 本研究では,近年普及している基礎モデルであるState Space Model/Mambaを画像品質評価において初めて探求し,視覚的マンバの知覚ポテンシャルを観察・発掘することを目的とした。 マンバに関する一連の研究は、様々な分野、例えば、セグメンテーション、分類においてその大きな可能性を示してきた。 しかし、マンバの知覚能力は過小評価されている。 そこで我々は,Q-Mambaモデルを再検討し,タスク固有,普遍,移動可能なIQAの3つの重要なIQAタスクに対して適応させることにより,既存の基本モデル,例えば,Swin Transformer,ViT,CNNに対して,IQAの知覚と計算コストの観点から,Mambaモデルが明らかなアドバンテージを持つことを示す。 Q-Mambaの転送可能性を高めるために,各下流IQAタスクに対するQ-Mambaのタスク適応型トランスファー学習を支援するために,基本的な軽量平均値と分散プロンプトを注入するStylePromptチューニングパラダイムを提案する。 提案したStylePromptは,既存のプロンプトチューニング手法と比較して,計算コストの削減による知覚伝達能力の向上を実現している。 提案するQ-Mambaの有効性を示すために,複数の合成,真正IQAデータセット,相互IQAデータセットに関する大規模な実験を行った。

In this work, we take the first exploration of the recently popular foundation model, i.e., State Space Model/Mamba, in image quality assessment, aiming at observing and excavating the perception potential in vision Mamba. A series of works on Mamba has shown its significant potential in various fields, e.g., segmentation and classification. However, the perception capability of Mamba has been under-explored. Consequently, we propose Q-Mamba by revisiting and adapting the Mamba model for three crucial IQA tasks, i.e., task-specific, universal, and transferable IQA, which reveals that the Mamba model has obvious advantages compared with existing foundational models, e.g., Swin Transformer, ViT, and CNNs, in terms of perception and computational cost for IQA. To increase the transferability of Q-Mamba, we propose the StylePrompt tuning paradigm, where the basic lightweight mean and variance prompts are injected to assist the task-adaptive transfer learning of pre-trained Q-Mamba for different downstream IQA tasks. Compared with existing prompt tuning strategies, our proposed StylePrompt enables better perception transfer capability with less computational cost. Extensive experiments on multiple synthetic, authentic IQA datasets, and cross IQA datasets have demonstrated the effectiveness of our proposed Q-Mamba.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# FLea: プライバシ保護機能拡張によるフェデレーション学習におけるデータスカシティとラベルスキューへの対処

FLea: Addressing Data Scarcity and Label Skew in Federated Learning via Privacy-preserving Feature Augmentation ( http://arxiv.org/abs/2406.09547v1 )

ライセンス: Link先を確認
Tong Xia, Abhirup Ghosh, Xinchi Qiu, Cecilia Mascolo, (参考訳) フェデレートラーニング(FL)は、ローカルデータを中央サーバに転送することなく、多数のエッジデバイスに分散したデータを活用することによって、モデル開発を可能にする。 しかし、既存のFL手法は、デバイス間のデータ不足やラベルスキュートを扱う際にも問題に直面しており、結果として局所的なモデルオーバーフィットやドリフトが発生し、グローバルモデルの性能を損なうことになる。 これらの課題に対応するため、我々はFLeaと呼ばれる先駆的なフレームワークを提案し、以下の重要なコンポーネントを取り入れた。 i) 複数のクライアントから共有されるアクティベーションターゲットペアを格納し、ローカルトレーニングをサポートするグローバル機能バッファ。 この設計は、特定のクラスが存在しないために生じる局所モデルドリフトを緩和する。 二 局所的およびグローバルな活性化混合に基づく地域訓練のための機能強化アプローチ。 この戦略はトレーニングサンプルを拡大し、局所的なオーバーフィッティングのリスクを低減します。 三 中間活性化とソースデータとの相関を最小化し、共有機能のプライバシーを高める難読化方法。 FLeaの優位性を検証するため,ローカルデータ不足度とラベルスキューの異なるレベルをシミュレートし,幅広いデータモダリティを用いた広範囲な実験を行った。 その結果、FLeaは最先端のFL(実験された18設定のうち13)を一貫して上回り、改善は5%以上であり、同時に共有機能に関連するプライバシー上の脆弱性を軽減していることがわかった。 コードはhttps://github.com/XTxiatong/FLea.gitで入手できる。

Federated Learning (FL) enables model development by leveraging data distributed across numerous edge devices without transferring local data to a central server. However, existing FL methods still face challenges when dealing with scarce and label-skewed data across devices, resulting in local model overfitting and drift, consequently hindering the performance of the global model. In response to these challenges, we propose a pioneering framework called FLea, incorporating the following key components: i) A global feature buffer that stores activation-target pairs shared from multiple clients to support local training. This design mitigates local model drift caused by the absence of certain classes; ii) A feature augmentation approach based on local and global activation mix-ups for local training. This strategy enlarges the training samples, thereby reducing the risk of local overfitting; iii) An obfuscation method to minimize the correlation between intermediate activations and the source data, enhancing the privacy of shared features. To verify the superiority of FLea, we conduct extensive experiments using a wide range of data modalities, simulating different levels of local data scarcity and label skew. The results demonstrate that FLea consistently outperforms state-of-the-art FL counterparts (among 13 of the experimented 18 settings, the improvement is over 5% while concurrently mitigating the privacy vulnerabilities associated with shared features. Code is available at https://github.com/XTxiatong/FLea.git.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# ランダム性とアービタリティ:大規模で信頼性の高い機械学習のいくつかの教訓

Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale ( http://arxiv.org/abs/2406.09548v1 )

ライセンス: Link先を確認
A. Feder Cooper, (参考訳) MLモデルと、それらが組み込まれているシステムに関する厳密な知識を開発するには、信頼できる測定が必要です。 しかし、信頼性の測定は基本的に困難であり、再現性、スケーラビリティ、不確実性定量化、認識論などの問題に焦点をあてている。 この論文は、有意義なメトリクスを設計するための基準と、これらのメトリクスを大規模かつ実践的に信頼性および効率よく測定できることを保証する方法論の両方について、信頼性を真剣に評価するために必要な基準に対処する。 この論文は、機械学習、法学、政策の交差点における新しい学問分野の研究ビジョンを具体化したものである。 本枠組みでは,(1)MLにおける任意性源の定量化と緩和,(2)不確実性推定と最適化アルゴリズムのランダム性を利用した信頼性を犠牲にすることなくスケーラビリティを実現すること,(3)言語モデルにおける記憶の定量化と,オープンライセンスデータに基づく潜時拡散モデルの訓練に特化して,生成AIシステムを評価する方法を提案する。 これら3つのテーマに貢献することで、この論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に、不可避的に結びついているという実証的な証拠となる。 これらの異なる分野は、機械学習における信頼性測定に関する同様の研究課題を提起する。 実際、それらは同じ研究ビジョンの2つの補完的な側面であり、それは広く解釈され、より広い社会的価値と結びついた機械学習システムを構築することを目的としている。

To develop rigorous knowledge about ML models -- and the systems in which they are embedded -- we need reliable measurements. But reliable measurement is fundamentally challenging, and touches on issues of reproducibility, scalability, uncertainty quantification, epistemology, and more. This dissertation addresses criteria needed to take reliability seriously: both criteria for designing meaningful metrics, and for methodologies that ensure that we can dependably and efficiently measure these metrics at scale and in practice. In doing so, this dissertation articulates a research vision for a new field of scholarship at the intersection of machine learning, law, and policy. Within this frame, we cover topics that fit under three different themes: (1) quantifying and mitigating sources of arbitrariness in ML, (2) taming randomness in uncertainty estimation and optimization algorithms, in order to achieve scalability without sacrificing reliability, and (3) providing methods for evaluating generative-AI systems, with specific focuses on quantifying memorization in language models and training latent diffusion models on open-licensed data. By making contributions in these three themes, this dissertation serves as an empirical proof by example that research on reliable measurement for machine learning is intimately and inescapably bound up with research in law and policy. These different disciplines pose similar research questions about reliable measurement in machine learning. They are, in fact, two complementary sides of the same research vision, which, broadly construed, aims to construct machine-learning systems that cohere with broader societal values.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# Urduにおける構文パターンの探索 - 依存性分析の深み

Exploring Syntactic Patterns in Urdu: A Deep Dive into Dependency Analysis ( http://arxiv.org/abs/2406.09549v1 )

ライセンス: Link先を確認
Nudrat Habib, (参考訳) パーシング(英: Parsing)とは、文を文法的な構成要素に分解し、文の構文構造を特定する過程である。 語彙規則および構文規則を用いて文法ラベルをその構成成分に割り当てることにより、構文的に正しい文構造を実現する。 言語学において、パーサーは、名前エンティティ認識、QAシステム、情報抽出など、さまざまなアプリケーションが多いため、非常に有用である。 パースに使われる2つの一般的なテクニックは、フレーズ構造と依存性構造である。 Urduは低リソース言語であるため、Urduパーサの構築にはほとんど進展がなかった。 いくつかのパーサを比較すると、依存関係解析アプローチはUrduのような注文なし言語に適していることがわかった。 我々は複雑な形態を持つ南アジアの言語であるウルドゥー語を解析する上で大きな進歩を遂げた。 Urduの依存性解析では、単語の位置、ワードヘッド、依存関係からなる基本的な特徴モデルが出発点として使われ、さらに複雑な特徴モデルが続く。 依存関係タグセットは、ウルドゥー語の複雑な形態構造、単語順の変化、語彙のあいまいさを慎重に考慮し、22のタグを含むように設計されている。 我々のデータセットはニュース記事からの文で構成されており、信頼性の高い結果を得るために、異なる複雑さ(非常に難しい)の文を含めようとしました。 すべての実験はMaltParserを使って行われ、9つのアルゴリズムと分類器を探索する。 我々は、Nivreeagerアルゴリズムを用いて、全体の70%のベストラベル付き精度(LA)と、全体の84%のベストラベル付きアタッチメントスコア(UAS)を達成した。 次に、手動で解析したツリーバンクテストデータと出力データの比較を行い、エラー評価を行い、パーサが生成したエラーを特定する。

Parsing is the process of breaking a sentence into its grammatical components and identifying the syntactic structure of the sentence. The syntactically correct sentence structure is achieved by assigning grammatical labels to its constituents using lexicon and syntactic rules. In linguistics, parser is extremely useful due to the number of different applications like name entity recognition, QA systems and information extraction, etc. The two most common techniques used for parsing are phrase structure and dependency Structure. Because Urdu is a low-resource language, there has been little progress in building an Urdu parser. A comparison of several parsers revealed that the dependency parsing approach is better suited for order-free languages such as Urdu. We have made significant progress in parsing Urdu, a South Asian language with a complex morphology. For Urdu dependency parsing, a basic feature model consisting of word location, word head, and dependency relation is employed as a starting point, followed by more complex feature models. The dependency tagset is designed after careful consideration of the complex morphological structure of the Urdu language, word order variation, and lexical ambiguity and it contains 22 tags. Our dataset comprises of sentences from news articles, and we tried to include sentences of different complexity (which is quite challenging), to get reliable results. All experiments are performed using MaltParser, exploring all 9 algorithms and classifiers. We have achieved a 70 percent overall best-labeled accuracy (LA), as well as an 84 percent overall best-unlabeled attachment score (UAS) using the Nivreeager algorithm. The comparison of output data with treebank test data that has been manually parsed is then used to carry out error assessment and to identify the errors produced by the parser.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# エンベディングマシンリアントサブグリッドの変動は気候モデルバイアスを改善する

Embedding machine-learnt sub-grid variability improves climate model biases ( http://arxiv.org/abs/2406.09551v1 )

ライセンス: Link先を確認
Daniel Giles, James Briant, Cyril J. Morcrette, Serge Guillas, (参考訳) 雲の形成の控えめな表現は、気候シミュレーションに関連する長年の偏見である。 パラメータ化スキームは、現在の気候モデル内で雲のプロセスをキャプチャするために必要だが、既知のバイアスがある。 高分解能統一モデルシミュレーションで訓練された多出力ガウス過程(MOGP)を組み込むことで、気候モデル内の温度と特定の湿度の変動を表現し、これらのバイアスを克服する。 訓練されたMOGPモデルは、SPEEDYと呼ばれる簡易な大気総合循環モデルとその場で結合される。 温度および比湿度分布はMOGPから予測される変動度に応じて一定間隔で変動する。 制御モデルとMLハイブリッドモデルの両方に対して10年間の予測が生成される。 ハイブリッドモデルは、グローバル降水バイアスを18%減らし、熱帯を22%減らした。 これらの改良の要因をさらに理解するため、昇降インデックス値の分布やハドリーセルの変更など、興味の物理量について検討した。 コントロールとハイブリッドのセットアップは、温暖な気候下での雲の覆いと降水に関するパターンに対するアプローチの影響を調べるために、プラス4Kの海面温度実験でも実行される。

The under-representation of cloud formation is a long-standing bias associated with climate simulations. Parameterisation schemes are required to capture cloud processes within current climate models but have known biases. We overcome these biases by embedding a Multi-Output Gaussian Process (MOGP) trained on high resolution Unified Model simulations to represent the variability of temperature and specific humidity within a climate model. A trained MOGP model is coupled in-situ with a simplified Atmospheric General Circulation Model named SPEEDY. The temperature and specific humidity profiles of SPEEDY are perturbed at fixed intervals according to the variability predicted from the MOGP. Ten-year predictions are generated for both control and ML-hybrid models. The hybrid model reduces the global precipitation bias by 18\% and over the tropics by 22\%. To further understand the drivers of these improvements, physical quantities of interest are explored, such as the distribution of lifted index values and the alteration of the Hadley cell. The control and hybrid set-ups are also run in a plus 4K sea-surface temperature experiment to explore the effects of the approach on patterns relating to cloud cover and precipitation in a warmed climate setting.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# ボディー・マイ・チョイス:人間中心のフルボディ匿名化

My Body My Choice: Human-Centric Full-Body Anonymization ( http://arxiv.org/abs/2406.09553v1 )

ライセンス: Link先を確認
Umur Aybars Ciftci, Ali Kemal Tanriverdi, Ilke Demir, (参考訳) オンライン存在に対するプライバシーの懸念が高まっている時代には、コンテンツの一部に表示される決定は、身体の所有者に限られるべきである、と提案する。 全身匿名化のためのいくつかの自動的アプローチが提案されているが、人間誘導匿名化は、文化的規範、個人関係、審美的関心事、セキュリティ問題など、様々な文脈に適応することができる。 「My Body My Choice」(MBMC)は、シングル、マルチ、コントロールネット、GANモジュールで設計され、複数の拡散モデルを組み合わせた4つのタスクのためのアプローチを除去・交換することで、物理的および敵対的な匿名化を可能にする。 我々は,7つのデータセットにおける匿名化の評価,SOTAの塗装法と匿名化法との比較,画像,逆数,生成指標による評価,再同定実験を行った。

In an era of increasing privacy concerns for our online presence, we propose that the decision to appear in a piece of content should only belong to the owner of the body. Although some automatic approaches for full-body anonymization have been proposed, human-guided anonymization can adapt to various contexts, such as cultural norms, personal relations, esthetic concerns, and security issues. ''My Body My Choice'' (MBMC) enables physical and adversarial anonymization by removal and swapping approaches aimed for four tasks, designed by single or multi, ControlNet or GAN modules, combining several diffusion models. We evaluate anonymization on seven datasets; compare with SOTA inpainting and anonymization methods; evaluate by image, adversarial, and generative metrics; and conduct reidentification experiments.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# 共形場理論による近似量子誤り訂正符号

Approximate quantum error correcting codes from conformal field theory ( http://arxiv.org/abs/2406.09555v1 )

ライセンス: Link先を確認
Shengqi Sang, Timothy H. Hsieh, Yijian Zou, (参考訳) 共形場理論(CFT)の低エネルギー部分空間は、ホログラフィーや量子重力に重要な結果をもたらす量子誤り訂正符号として機能することができる。 局所的デファス化チャネル下での一般的な1+1D CFT符号について検討し、熱力学限界における誤差の正当性を解析する。 私たちはそれを示します (i)チャネルのジャンプ作用素によって生成される融合代数における最小零でないスケーリング次元が1/2$以上であるときと、有限復号しきい値が存在すること。 (ii) 保護論理量子ビット数$k \geq \Omega( \log \log n)$, ここで$n$は物理量子ビットの数である。 応用として、一次元量子臨界イジングモデルが特定の種類のデフォーカスノイズに対して有限しきい値を持つことを示す。 我々の一般的な結果は、連続対称性を持つCFT符号が共変符号の回復忠実度に束縛されることを示唆している。

The low-energy subspace of a conformal field theory (CFT) can serve as a quantum error correcting code, with important consequences in holography and quantum gravity. We consider generic 1+1D CFT codes under extensive local dephasing channels and analyze their error correctability in the thermodynamic limit. We show that (i) there is a finite decoding threshold if and only if the minimal nonzero scaling dimension in the fusion algebra generated by the jump operator of the channel is larger than $1/2$ and (ii) the number of protected logical qubits $k \geq \Omega( \log \log n)$, where $n$ is the number of physical qubits. As an application, we show that the one-dimensional quantum critical Ising model has a finite threshold for certain types of dephasing noise. Our general results also imply that a CFT code with continuous symmetry saturates a bound on the recovery fidelity for covariant codes.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# $S^3$ -- 意味的信号分離

$S^3$ -- Semantic Signal Separation ( http://arxiv.org/abs/2406.09556v1 )

ライセンス: Link先を確認
Márton Kardos, Jan Kostkan, Arnault-Quentin Vermillet, Kristoffer Nielbo, Roberta Rocca, (参考訳) トピックモデルは、大きなテキストコーパスの潜在意味構造を発見するのに有用なツールである。 歴史的には、トピックモデリングは言葉のバッグ・オブ・ワードの表現に依存していた。 このアプローチにより、モデルが停止語や雑音の存在に敏感になり、潜在的に有用な文脈情報を利用できない。 最近の研究は、トピックモデリングに文脈神経表現を取り入れることを目的としており、古典的なトピックモデルよりも優れていることが示されている。 しかしながら、これらのアプローチは一般的には遅く、揮発性であり、最適な結果を得るためには前処理が必要である。 本稿では,セマンティック信号分離法(S^3$)を提案する。 S^3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。 我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。 私たちはTurftopic Pythonパッケージに$S^3$の実装を提供しています。

Topic models are useful tools for discovering latent semantic structures in large textual corpora. Topic modeling historically relied on bag-of-words representations of language. This approach makes models sensitive to the presence of stop words and noise, and does not utilize potentially useful contextual information. Recent efforts have been oriented at incorporating contextual neural representations in topic modeling and have been shown to outperform classical topic models. These approaches are, however, typically slow, volatile and still require preprocessing for optimal results. We present Semantic Signal Separation ($S^3$), a theory-driven topic modeling approach in neural embedding spaces. $S^3$ conceptualizes topics as independent axes of semantic space, and uncovers these with blind-source separation. Our approach provides the most diverse, highly coherent topics, requires no preprocessing, and is demonstrated to be the fastest contextually sensitive topic model to date. We offer an implementation of $S^3$, among other approaches, in the Turftopic Python package.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# Decoding the Diversity: The Indic AI Research Landscapeのレビュー

Decoding the Diversity: A Review of the Indic AI Research Landscape ( http://arxiv.org/abs/2406.09559v1 )

ライセンス: Link先を確認
Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha, (参考訳) 本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。 インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。 これらの言語は豊かな文化的・言語的な遺産を持ち、世界中で15億人以上の人々が話している。 さまざまな言語における自然言語処理(NLP)ベースのアプリケーションに対する市場の可能性と需要の増大により、Indic言語のための生成的アプリケーションは、研究のためのユニークな課題と機会をもたらす。 本稿では,近年のIndic Generative Modelingの進歩を深く掘り下げ,研究方向の分類に寄与し,84の論文を集計した。 本稿では, LLM 開発, 微調整既存 LLM の開発, コーパスの開発, ベンチマーク, 評価, および特定の技術, ツール, アプリケーションに関する出版物について調査を行った。 論文の研究者らは、データ可用性の制限、標準化の欠如、およびIndic言語特有の言語的複雑さに関連する課題を強調している。 この研究は、NLPの分野、特にIndic言語に焦点を当てた研究者や実践者にとって貴重なリソースとして機能することを目的としており、これらの言語のためのより正確で効率的なLLMアプリケーションの開発に寄与している。

This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.
翻訳日:2024-06-17 17:24:36 公開日:2024-06-13
# 近傍ラベリングによるドメインに依存しないフェア補正のためのラベルノイズロバスト性

Label Noise Robustness for Domain-Agnostic Fair Corrections via Nearest Neighbors Label Spreading ( http://arxiv.org/abs/2406.09561v1 )

ライセンス: Link先を確認
Nathan Stromberg, Rohan Ayyagari, Sanmi Koyejo, Richard Nock, Lalitha Sankar, (参考訳) 既存のベースモデルを修正するための効率的なフレームワークとして,最終層再学習法が登場している。 この枠組み内では、グループメンバーシップ情報の有無にかかわらず、サブグループフェアネスの補正モデルを扱うためのいくつかの方法が提案されている。 重要なことに、先行研究は、多くの手法がノイズラベルに影響を受けやすいことを示した。 そこで本稿では, ラスト層リトレーニングにおけるラベルノイズの補正を行い, 幅広い対称ラベルノイズと, 突発的な相関を示す幅広いデータセットに対して, 最先端の最悪のグループ精度を実現することを実証する。 提案手法では,最寄りのグラフ上にラベルを拡散させ,既存の手法に比べて計算オーバーヘッドが最小限に抑えられる。

Last-layer retraining methods have emerged as an efficient framework for correcting existing base models. Within this framework, several methods have been proposed to deal with correcting models for subgroup fairness with and without group membership information. Importantly, prior work has demonstrated that many methods are susceptible to noisy labels. To this end, we propose a drop-in correction for label noise in last-layer retraining, and demonstrate that it achieves state-of-the-art worst-group accuracy for a broad range of symmetric label noise and across a wide variety of datasets exhibiting spurious correlations. Our proposed approach uses label spreading on a latent nearest neighbors graph and has minimal computational overhead compared to existing methods.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# e-COP : エピソード制約による政策最適化

e-COP : Episodic Constrained Optimization of Policies ( http://arxiv.org/abs/2406.09563v1 )

ライセンス: Link先を確認
Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Sahil Singla, (参考訳) 本稿では,制約付き強化学習(RL)のための最初のポリシー最適化アルゴリズムである$\texttt{e-COP}$アルゴリズムを提案する。 このような定式化は、システムの振る舞いに異なる最適化基準と制約がある場合に適用される。 本稿では、まず、このアルゴリズムの理論的基礎を提供するエピソード設定のためのポリシー差分補題を確立することにより、この問題にアプローチする。 そこで本稿では, 実装が容易で数値的に安定な$\texttt{e-COP}$アルゴリズムを実現するために, 確立された解と新しい解の集合を組み合わせることを提案する。 セーフティ・ガイム・スイートのベンチマークを用いた広範囲な実験分析により,本アルゴリズムは, エピソード・セッティングに適応したSoTA(non-episodic)アルゴリズムと類似あるいは優れた性能を示した。 アルゴリズムのスケーラビリティは、大規模言語や拡散モデルに対するヒューマンフィードバックからの安全制約付き強化学習における応用への扉を開く。

In this paper, we present the $\texttt{e-COP}$ algorithm, the first policy optimization algorithm for constrained Reinforcement Learning (RL) in episodic (finite horizon) settings. Such formulations are applicable when there are separate sets of optimization criteria and constraints on a system's behavior. We approach this problem by first establishing a policy difference lemma for the episodic setting, which provides the theoretical foundation for the algorithm. Then, we propose to combine a set of established and novel solution ideas to yield the $\texttt{e-COP}$ algorithm that is easy to implement and numerically stable, and provide a theoretical guarantee on optimality under certain scaling assumptions. Through extensive empirical analysis using benchmarks in the Safety Gym suite, we show that our algorithm has similar or better performance than SoTA (non-episodic) algorithms adapted for the episodic setting. The scalability of the algorithm opens the door to its application in safety-constrained Reinforcement Learning from Human Feedback for Large Language or Diffusion Models.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# ドメイン適応型ニューラルコンテキスト帯域に向けて

Towards Domain Adaptive Neural Contextual Bandits ( http://arxiv.org/abs/2406.09564v1 )

ライセンス: Link先を確認
Ziyan Wang, Hao Wang, (参考訳) コンテキストバンディットアルゴリズムは現実世界の意思決定問題を解決するのに不可欠である。 実際には、異なるドメインからコンテキスト的バンディットのフィードバックを集めるには、異なるコストがかかる可能性がある。 例えば、(ソースドメインとして)マウスと(ターゲットドメインとして)ヒトからの薬物反応を測定する。 残念ながら、ソースドメインからターゲットドメインへの分散シフトによるコンテキスト帯域幅アルゴリズムの適用は依然として大きな課題であり、ほとんど探索されていない。 本稿では,文脈的包帯に対する最初の一般領域適応手法を提案する。 提案手法は,ソースドメインからのフィードバックを収集することで,対象ドメインの帯域幅モデルを学習する。 理論的解析により、我々のアルゴリズムは、領域間で適応するサブ線形後悔境界を維持していることが示された。 実験結果から,本手法は実世界のデータセット上での最先端の文脈的帯域幅アルゴリズムよりも優れていることが示された。

Contextual bandit algorithms are essential for solving real-world decision making problems. In practice, collecting a contextual bandit's feedback from different domains may involve different costs. For example, measuring drug reaction from mice (as a source domain) and humans (as a target domain). Unfortunately, adapting a contextual bandit algorithm from a source domain to a target domain with distribution shift still remains a major challenge and largely unexplored. In this paper, we introduce the first general domain adaptation method for contextual bandits. Our approach learns a bandit model for the target domain by collecting feedback from the source domain. Our theoretical analysis shows that our algorithm maintains a sub-linear regret bound even adapting across domains. Empirical results show that our approach outperforms the state-of-the-art contextual bandit algorithms on real-world datasets.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 非因果予測モデルの因果微調整と効果校正

Causal Fine-Tuning and Effect Calibration of Non-Causal Predictive Models ( http://arxiv.org/abs/2406.09567v1 )

ライセンス: Link先を確認
Carlos Fernández-Loría, Yanfang Hou, Foster Provost, Jennifer Hill, (参考訳) 本稿では,無作為な実験データを用いた因果推論のための非因果モデルの性能向上手法を提案する。 広告、顧客保持、精密医療などの分野において、介入なしの結果を予測する非因果モデルはしばしば、介入の期待される効果(広告、保留インセンティブ、ナッジ)に応じて個人を評価、ランク付けするために用いられる。 しかし、これらのスコアはモデル固有の非因果性のため、介入効果と完全には一致しないかもしれない。 この制限に対処するために,実験データを活用する2つの手法である因果的微調整と効果校正を提案し,効果推定,効果順序付け,効果分類など,異なる因果的タスクに対する非因果的モデルの出力を洗練させる。 それらは2つの重要な利点によって支えられている。 まず、一般的な非因果的モデルの予測能力と特定の文脈における因果的タスクの要求を効果的に統合し、意思決定者は「基礎的」スコアリングモデルで多様な因果的アプリケーションをサポートすることができる。 第2に、シミュレーションと経験的な例を通して、特に利用可能な実験データが限られており、非因果スコアが既に因果効果の相対的なサイズに関する実質的な情報を収集している場合において、それらがスクラッチから因果効果モデルを構築する方法よりも優れていることを示す。 本研究は、因果的応用を支援するために実験データと非因果的モデルを組み合わせるという実用上の利点を概観する。

This paper proposes techniques to enhance the performance of non-causal models for causal inference using data from randomized experiments. In domains like advertising, customer retention, and precision medicine, non-causal models that predict outcomes under no intervention are often used to score individuals and rank them according to the expected effectiveness of an intervention (e.g, an ad, a retention incentive, a nudge). However, these scores may not perfectly correspond to intervention effects due to the inherent non-causal nature of the models. To address this limitation, we propose causal fine-tuning and effect calibration, two techniques that leverage experimental data to refine the output of non-causal models for different causal tasks, including effect estimation, effect ordering, and effect classification. They are underpinned by two key advantages. First, they can effectively integrate the predictive capabilities of general non-causal models with the requirements of a causal task in a specific context, allowing decision makers to support diverse causal applications with a "foundational" scoring model. Second, through simulations and an empirical example, we demonstrate that they can outperform the alternative of building a causal-effect model from scratch, particularly when the available experimental data is limited and the non-causal scores already capture substantial information about the relative sizes of causal effects. Overall, this research underscores the practical advantages of combining experimental data with non-causal models to support causal applications.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 時間の流れを学習したマルチモーダルLLMを用いたリアルタイムストリーミング音声認識

Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time ( http://arxiv.org/abs/2406.09569v1 )

ライセンス: Link先を確認
Frank Seide, Morrie Doulaty, Yangyang Shi, Yashesh Gaur, Junteng Jia, Chunyang Wu, (参考訳) 我々は、リアルタイムストリーミングが可能なマルチモーダルLLMアーキテクチャを実現するために、RNN-Tと"デコーダのみ"のASRを結合した新しいASRアーキテクチャであるSpeech ReaLLMを紹介する。 これは、明示的なエンドポイントを使わずに継続的オーディオを扱うように設計された最初の"デコーダのみ"のASRアーキテクチャである。 Speech ReaLLMは、より一般的なReaLLM(リアルタイムLLM)アプローチの特殊なケースである。 ユーザプロンプトの最後にのみ応答を生成する代わりに、リアルタイムで受信されたすべての入力トークンを生成します(多くの場合、空です)。 Librispeech "test"では、80M Speech ReaLLMがWERの3.0%と7.4%をリアルタイムで達成する(外部LMや補助損失なしで)。 これはAttention-Encoder-Decoderベースラインよりもわずかに大きい。 このようにして、LLMアーキテクチャは、時間の流れを表現し、再現することを学ぶことができ、事前訓練された7B LLMを微調整して、このタスクを適切に行うことができることを示す。

We introduce Speech ReaLLM, a new ASR architecture that marries "decoder-only" ASR with the RNN-T to make multimodal LLM architectures capable of real-time streaming. This is the first "decoder-only" ASR architecture designed to handle continuous audio without explicit end-pointing. Speech ReaLLM is a special case of the more general ReaLLM ("real-time LLM") approach, also introduced here for the first time. The idea is inspired by RNN-T: Instead of generating a response only at the end of a user prompt, generate after every input token received in real time (it is often empty). On Librispeech "test", an 80M Speech ReaLLM achieves WERs of 3.0% and 7.4% in real time (without an external LM or auxiliary loss). This is only slightly above a 3x larger Attention-Encoder-Decoder baseline. We also show that this way, an LLM architecture can learn to represent and reproduce the flow of time; and that a pre-trained 7B LLM can be fine-tuned to do reasonably well on this task.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 発電機誘導結合による一貫性モデルの改善

Improving Consistency Models with Generator-Induced Coupling ( http://arxiv.org/abs/2406.09570v1 )

ライセンス: Link先を確認
Thibaut Issenhuth, Ludovic Dos Santos, Jean-Yves Franceschi, Alain Rakotomamonjy, (参考訳) 一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを蒸留することにより、生成モデルを約束する。 事前訓練された拡散モデルのサンプリング軌跡にアクセスすることなく、一貫性トレーニングはノイズとデータ分布の独立結合上に構築されたプロキシ軌跡に依存する。 この結合を精製することは、タスクに適応し、トレーニングプロセスにおける結果のランダムさを低減するために、改善の鍵となる領域である。 本研究では,入力ノイズデータを一貫性モデル自体から生成した出力と結びつけて,到達不能な拡散流出力のプロキシとする新しい結合手法を提案する。 当社の安価なアプローチでは,一貫性モデル固有の能力を活用して,単一のステップでトランスポートマップを計算しています。 我々は, 発電機誘導結合(GC)の関連性に関する直観的, 実証的な証拠を提供する。 したがって,本手法は一貫性トレーニングの収束をかなりの量で促進するだけでなく,結果として得られる性能も向上する。 コードは、https://github.com/thibautissenhuth/consistency_GCで入手できる。

Consistency models are promising generative models as they distill the multi-step sampling of score-based diffusion in a single forward pass of a neural network. Without access to sampling trajectories of a pre-trained diffusion model, consistency training relies on proxy trajectories built on an independent coupling between the noise and data distributions. Refining this coupling is a key area of improvement to make it more adapted to the task and reduce the resulting randomness in the training process. In this work, we introduce a novel coupling associating the input noisy data with their generated output from the consistency model itself, as a proxy to the inaccessible diffusion flow output. Our affordable approach exploits the inherent capacity of consistency models to compute the transport map in a single step. We provide intuition and empirical evidence of the relevance of our generator-induced coupling (GC), which brings consistency training closer to score distillation. Consequently, our method not only accelerates consistency training convergence by significant amounts but also enhances the resulting performance. The code is available at: https://github.com/thibautissenhuth/consistency_GC.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# BERTを用いた短いソーシャルメディアテキストにおけるジェンダーポラリティの分析 : 絵文字とエモティコンの役割

Analyzing Gender Polarity in Short Social Media Texts with BERT: The Role of Emojis and Emoticons ( http://arxiv.org/abs/2406.09573v1 )

ライセンス: Link先を確認
Saba Yousefian Jazi, Amir Mirzaeinia, Sina Yousefian Jazi, (参考訳) この取り組みでは、BERTに基づいて異なるモデルを微調整し、Twitterアカウントの性別極性を検出する。 我々は特に,タスクの分類において,モデルの性能に絵文字とエモティコンを用いることの効果を分析することに重点を置いている。 つぶやきのような短いテキスト形式で、他のアカウントへの言及と並んで、これらの単語入力を使用することが、アカウント所有者の性別を検出することに影響を及ぼすことを示した。

In this effort we fine tuned different models based on BERT to detect the gender polarity of twitter accounts. We specially focused on analyzing the effect of using emojis and emoticons in performance of our model in classifying task. We were able to demonstrate that the use of these none word inputs alongside the mention of other accounts in a short text format like tweet has an impact in detecting the account holder's gender.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# オフライン選好データを用いたオンラインバンディット学習

Online Bandit Learning with Offline Preference Data ( http://arxiv.org/abs/2406.09574v1 )

ライセンス: Link先を確認
Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Zheng Wen, (参考訳) Reinforcement Learning with Human Feedback (RLHF)は、言語と画像のための生成AIモデルのための微調整手法の中核にある。 このようなフィードバックは、人間からランクや好みのフィードバックとして求められることが多いが、後者は非常に騒がしい傾向にあるため、スコアを引き出すのとは対照的である。 一方、RL理論とアルゴリズムは、主に報酬フィードバックが利用できると仮定する。 特に、アクティブラーニングによる適応データ収集に有用なオンラインラーニングのアプローチでは、オフラインの選好データを組み込むことはできない。 本稿では,オンライン学習のプロトタイプモデルとして,有限武装線形バンディットモデルを採用する。 我々は、未知の'コンピテンス'の専門家が生成するオフラインの選好データセットについて検討する。 オンライン学習のための後続サンプリングアルゴリズムである$\texttt{warmPref-PS}$を提案する。 生成した専門家の能力をモデル化することにより、そのようなデータセットを最も効果的に利用できることを示す。 我々はベイズ的後悔の新たな理論的分析と、ベースラインと比較してかなり良い(ほぼ25~50%の後悔の低減)近似アルゴリズムの広範な実験的評価によって、この主張を支持している。

Reinforcement Learning with Human Feedback (RLHF) is at the core of fine-tuning methods for generative AI models for language and images. Such feedback is often sought as rank or preference feedback from human raters, as opposed to eliciting scores since the latter tends to be very noisy. On the other hand, RL theory and algorithms predominantly assume that a reward feedback is available. In particular, approaches for online learning that can be helpful in adaptive data collection via active learning cannot incorporate offline preference data. In this paper, we adopt a finite-armed linear bandit model as a prototypical model of online learning. We consider an offline preference dataset to be available generated by an expert of unknown 'competence'. We propose $\texttt{warmPref-PS}$, a posterior sampling algorithm for online learning that can be warm-started with an offline dataset with noisy preference feedback. We show that by modeling the competence of the expert that generated it, we are able to use such a dataset most effectively. We support our claims with novel theoretical analysis of its Bayesian regret, as well as extensive empirical evaluation of an approximate algorithm which performs substantially better (almost 25 to 50% regret reduction in our studies) as compared to baselines.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# CARLOR @ Ego4D Step Grounding Challenge: テスト時間改善のためのベイズ時間順序先行

CARLOR @ Ego4D Step Grounding Challenge: Bayesian temporal-order priors for test time refinement ( http://arxiv.org/abs/2406.09575v1 )

ライセンス: Link先を確認
Carlos Plou, Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Ana C. Murillo, (参考訳) ステップグラウンディングタスクの目的は、自然言語の記述に基づく活動の時間的境界を見つけることである。 この技術報告では、ベイジアンVSLNetを導入し、長い、トリミングされていないエゴセントリックなビデオでそのような時間セグメントを特定するという課題に対処する。 提案モデルでは,推論中に新しいベイズ時間順序を組み込むことで従来のモデルを大幅に改善し,モーメント予測の精度を向上する。 この前は、ビデオ内の循環的かつ反復的なアクションを調整します。 Ego4D Goal-Stepデータセットでは, 0.3 IoUで35.18 Recall Top-1, 0.5 IoUで20.48 Recall Top-1, 0.5 IoUで20.48 Recall Top-1が得られた。

The goal of the Step Grounding task is to locate temporal boundaries of activities based on natural language descriptions. This technical report introduces a Bayesian-VSLNet to address the challenge of identifying such temporal segments in lengthy, untrimmed egocentric videos. Our model significantly improves upon traditional models by incorporating a novel Bayesian temporal-order prior during inference, enhancing the accuracy of moment predictions. This prior adjusts for cyclic and repetitive actions within videos. Our evaluations demonstrate superior performance over existing methods, achieving state-of-the-art results on the Ego4D Goal-Step dataset with a 35.18 Recall Top-1 at 0.3 IoU and 20.48 Recall Top-1 at 0.5 IoU on the test set.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 知的開発環境の新世代

A New Generation of Intelligent Development Environments ( http://arxiv.org/abs/2406.09577v1 )

ライセンス: Link先を確認
Mark Marron, (参考訳) プログラミングの実践は、AI支援開発(コパイロット)の導入と、ツーリング、分析、自動化を明示的に設計した新しいプログラミング言語の作成によって、革命を遂げている。 現在概念化されている統合開発環境(IDE)は、これらの変化にまだ対応していない。 構文強調表示、コンパイル、デバッギング、および(おそらく)コードバージョン管理のためのさまざまなツールの統合による支援を提供するIDEによって、人間のプログラマがエディタウィンドウにテキストコードをタイプするアイデアを中心に設計されている。 本稿では,IDEを統合開発環境からインテリジェント開発環境に転換するビジョンを提案する。 新しいIDEは、ソリューションを実装するために手動でコードを入力するのではなく、AIプログラミングエージェントや自動化ツールを使って、既存のAPI、パッケージ、新しいコードを組み合わせて必要な機能を実装する、という、人間のプログラマのアイデアに基づいて設計される。 この新しいモデルでは、IDEの基本的な役割は、 1)人間プログラマとAIエージェントと自動化ツールとのコミュニケーションの促進。 2) 要件収集から最終テストと検証済みのデプロイ機能に移行するために必要なワークフロータスクを整理する。 本稿では、我々が試した概念実証の高価値シナリオに基づいて、新しいインテリジェント開発環境に向けたビジョンを提示し、これらを密集したインテリジェントな開発エクスペリエンスで実現するための課題について論じる。

The practice of programming is undergoing a revolution with the introduction of AI assisted development (copilots) and the creation of new programming languages that are designed explicitly for tooling, analysis, and automation. Integrated Development Environments (IDEs) as they are currently conceptualized have not yet responded to these changes. They are still designed around the idea of a human programmer typing textual code into an editor window with the IDE providing assistance via the integration of various tools for syntax highlighting, compilation, debugging, and (maybe) code version control. This paper presents a vision for transforming the IDE from an Integrated Development Environment to an Intelligent Development Environment. The new IDE will be designed around the idea of a human programmer as the manager or curator of a software project who, rather than manually typing in code to implement a solution, will instead use the IDE to direct AI programming agents and/or automated tools to combine existing APIs, packages, and new code to implement the needed features. In this new model, the fundamental roles of the IDE are to 1) facilitate the communication between the human programmer and the AI agents and automated tools and 2) organize the workflow tasks needed to go from requirements gathering to the final tested and validated deployed feature. This paper presents a vision for the new Intelligent Development Environment based on a range of proof-of-concept high-value scenarios we have experimented with and discusses the challenges that remain to realizing these in a cohesive intelligent development experience.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 平衡貯水池と非平衡貯水池に埋め込まれた2つの結合量子ビットからの定常的作業抽出

Steady-state work extraction from two coupled qubits embedded within equilibrium and non-equilibrium reservoirs ( http://arxiv.org/abs/2406.09580v1 )

ライセンス: Link先を確認
Maryam Hadipour, Soroush Haseli, (参考訳) 作業抽出は熱力学の基本的な側面である。 量子物理学の文脈において、エルゴトロピー(エルゴトロピー、英: ergotropy)は、循環的ユニタリ過程を通じて量子系から得られる仕事の最大量を定量化する。 本研究では,2つの結合量子ビットの定常エルゴトロピーについて検討し,それぞれが個々のボソンやフェルミオン貯水池と局所的に相互作用することを示した。 本研究では、量子ビットと相互作用するボゾン環境とフェルミオン環境の平衡シナリオと非平衡シナリオについて考察する。 2つの結合量子ビットが平衡ボソン貯水池内に埋め込まれた場合、貯水池の温度とクビット間相互作用のストラングス(英語版)が作業抽出における有害因子として作用することが観察された。 フェルミオン平衡貯水池の場合、エルゴトロピーは貯水池の化学的ポテンシャルと単調に成長する。 非平衡ボソン貯水池では、2つの貯水池間の温度差がエルゴトロピーの破壊的要因である。 非平衡フェルミオン貯水池では、状況はやや複雑である。 クォービット遷移周波数より小さいr塩基化学ポテンシャル値に対して、エルゴトロピーの挙動は非単調である。 しかし、遷移周波数よりも大きい塩基性化学ポテンシャル値の場合、エルゴトロピーは貯水池の化学的ポテンシャル差とともに単調に成長する。 また、結合量子ビットが非対称である状況についても検討する。 ボソンおよびフェルミオン貯水池内の結合量子ビットが対称となる状況において, 最大作業が抽出されることが観察された。

Work extraction is a fundamental aspect in thermodynamics. In the context of quantum physics, ergotropy quantifies the maximum amount of work that can be obtained from quantum system through cyclic unitary process. In this work, the steady-state ergotropy of two coupled qubit, each interacting locally with its individual boson or fermion reservoir, will be examined. In this work, both equilibrium and non-equilibrium scenarios for bosonic and fermionic environments interacting with the qubits will be considered. In scenarios where two coupled qubits embedded within equilibrium boson reservoirs, it has been observed that the temperature of the reservoirs and the inter-qubits interaction strangth act as detrimental factors in work extraction. In the case of fermionic equilibrium reservoirs, it will be observed that ergotropy grows monotonically with the reservoirs chemical potential. In the non-equilibrium boson reservoirs, the temperature difference between the two reservoirs is a destructive factor for ergotropy. In non-equilibrium fermion reservoirs, the situation is somewhat more complicated. For r base chemical potential values that are smaller than the qubit transition frequency, the behavior of ergotropy is non-monotonic. However, for base chemical potential values that are larger than the transition frequency, ergotropy grows monotonically with the reservoirs chemical potential difference. Also, we study the situation in which the coupled qubits are asymmetric. It is observed that the maximum work will be extracted in the situation where the coupled qubits within both boson and fermion reservoirs be symmetric .
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 機械学習最適化アルゴリズムとメタヒューリスティックスのための315ベンチマークとテスト関数の数学的および視覚的記述による検討

A Review of 315 Benchmark and Test Functions for Machine Learning Optimization Algorithms and Metaheuristics with Mathematical and Visual Descriptions ( http://arxiv.org/abs/2406.09581v1 )

ライセンス: Link先を確認
M. Z. Naser, Mohammad Khaled al-Bashiti, Arash Teymori Gharah Tapeh, Armin Dadras Eslamlou, Ahmed Naser, Venkatesh Kodur, Rami Hawileeh, Jamal Abdalla, Nima Khodadadi, Amir H. Gandomi, (参考訳) 急速に進化する最適化とメタヒューリスティックス領域では、アルゴリズムの有効性はベンチマーク(テスト)関数によって決定される。 過去数十年間、いくつかの関数が開発され、導出されてきたが、数学的、視覚的記述、適合性の範囲、そしてそのような関数の応用についてはほとんど情報がない。 この知識ギャップを埋めるため、このレビューでは最適化とメタヒューリスティックスアルゴリズムの評価に使用される300以上のベンチマーク関数を網羅的に調査する。 このレビューでは、まずベンチマークとテスト関数の特徴、複雑さ、プロパティ、視覚、ドメイン含意に基づいて、様々なアルゴリズム上の課題に対して適切なベンチマークを選択するのに役立つ広い視点を提供する。 このレビューでは、オープン文学で最もよく使われている25の関数をリストアップし、新しいアルゴリズムをテストするために使用できる2つの新しい、高次元、動的、挑戦的な関数を提案する。 最後に、このレビューは現在のベンチマークプラクティスのギャップを特定し、今後の研究の方向性を提案する。

In the rapidly evolving optimization and metaheuristics domains, the efficacy of algorithms is crucially determined by the benchmark (test) functions. While several functions have been developed and derived over the past decades, little information is available on the mathematical and visual description, range of suitability, and applications of many such functions. To bridge this knowledge gap, this review provides an exhaustive survey of more than 300 benchmark functions used in the evaluation of optimization and metaheuristics algorithms. This review first catalogs benchmark and test functions based on their characteristics, complexity, properties, visuals, and domain implications to offer a wide view that aids in selecting appropriate benchmarks for various algorithmic challenges. This review also lists the 25 most commonly used functions in the open literature and proposes two new, highly dimensional, dynamic and challenging functions that could be used for testing new algorithms. Finally, this review identifies gaps in current benchmarking practices and suggests directions for future research.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# カラー等価ネットワーク

Color Equivariant Network ( http://arxiv.org/abs/2406.09588v1 )

ライセンス: Link先を確認
Felix O'Mahony, Yulong Yang, Christine Allen-Blanchette, (参考訳) 群同変畳み込みニューラルネットワークは、2次元および3次元回転群からスケールのような半群への様々な幾何学的変換のために設計されている。 これらのアーキテクチャによって得られる解釈可能性、精度、一般化性の改善にもかかわらず、群同変ネットワークは、その変動によって分類性能が大幅に低下するにもかかわらず、色調や飽和といった知覚量という文脈において限定的な応用を見てきた。 本稿では,設計による色調や彩度の変化に同値な畳み込みニューラルネットワークを提案する。 これを達成するために、色相変換と飽和変換をそれぞれ2次元回転群と1次元翻訳群に同定できるという観測を活用する。 我々の色相、彩度、完全色相のネットワークは、ネットワークパラメータの増加を伴わずに、これらの知覚変換に等しくなる。 色と照明のバリエーションが一般的である合成および実世界のデータセット上で、ネットワークの有用性を実証する。

Group equivariant convolutional neural networks have been designed for a variety of geometric transformations from 2D and 3D rotation groups, to semi-groups such as scale. Despite the improved interpretability, accuracy and generalizability afforded by these architectures, group equivariant networks have seen limited application in the context of perceptual quantities such as hue and saturation, even though their variation can lead to significant reductions in classification performance. In this paper, we introduce convolutional neural networks equivariant to variations in hue and saturation by design. To achieve this, we leverage the observation that hue and saturation transformations can be identified with the 2D rotation and 1D translation groups respectively. Our hue-, saturation-, and fully color-equivariant networks achieve equivariance to these perceptual transformations without an increase in network parameters. We demonstrate the utility of our networks on synthetic and real world datasets where color and lighting variations are commonplace.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# 連結MDPにおける値反復収束について

On Value Iteration Convergence in Connected MDPs ( http://arxiv.org/abs/2406.09592v1 )

ライセンス: Link先を確認
Arsenii Mustafin, Alex Olshevsky, Ioannis Ch. Paschalidis, (参考訳) 本稿では,一意の最適ポリシとエルゴード関連遷移行列を持つMDPが,値イテレーションアルゴリズムの様々なバージョンを,割引基準と平均回帰基準の両方で割引係数を超越した幾何速度で収束することを保証する。

This paper establishes that an MDP with a unique optimal policy and ergodic associated transition matrix ensures the convergence of various versions of the Value Iteration algorithm at a geometric rate that exceeds the discount factor {\gamma} for both discounted and average-reward criteria.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# HOT3Dの紹介:3Dハンドとオブジェクトトラッキングのためのエゴセントリックデータセット

Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking ( http://arxiv.org/abs/2406.09598v1 )

ライセンス: Link先を確認
Prithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Fan Zhang, Jade Fountain, Edward Miller, Selen Basol, Richard Newcombe, Robert Wang, Jakob Julian Engel, Tomas Hodan, (参考訳) 我々は,エゴセントリックな手と物体追跡のための3DデータセットであるHOT3Dを紹介した。 データセットは、33の多様な剛体物体と対話する19人の被験者、目視やシーンポイント雲のようなマルチモーダル信号、オブジェクト、手、カメラの3Dポーズを含む包括的な地上真実アノテーション、そして手とオブジェクトの3Dモデルを示すマルチビューRGB/モノクロ画像ストリームの833分以上(3.7M画像以上)を提供する。 単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。 Meta: Project Ariaは軽量AR/AIメガネの研究プロトタイプで、Quest 3は数百万台で販売されているVRヘッドセットだ。 手や物体に付着した小さな光学マーカーを用いたプロのモーションキャプチャーシステムにより、地中トルースポーズが得られた。 ハンドアノテーションはUmeTrackとMANOフォーマットで提供され、オブジェクトは3Dメッシュで表現される。 我々は,HOT3Dデータセットを一般公開し,ECCV 2024におけるデータセットの公開課題を共同で実施することにより,自我中心のオブジェクト間相互作用の研究を加速することを目指している。 データセットはプロジェクトのWebサイト(https://facebookresearch.github.io/hot3d/)からダウンロードできる。

We introduce HOT3D, a publicly available dataset for egocentric hand and object tracking in 3D. The dataset offers over 833 minutes (more than 3.7M images) of multi-view RGB/monochrome image streams showing 19 subjects interacting with 33 diverse rigid objects, multi-modal signals such as eye gaze or scene point clouds, as well as comprehensive ground truth annotations including 3D poses of objects, hands, and cameras, and 3D models of hands and objects. In addition to simple pick-up/observe/put-down actions, HOT3D contains scenarios resembling typical actions in a kitchen, office, and living room environment. The dataset is recorded by two head-mounted devices from Meta: Project Aria, a research prototype of light-weight AR/AI glasses, and Quest 3, a production VR headset sold in millions of units. Ground-truth poses were obtained by a professional motion-capture system using small optical markers attached to hands and objects. Hand annotations are provided in the UmeTrack and MANO formats and objects are represented by 3D meshes with PBR materials obtained by an in-house scanner. We aim to accelerate research on egocentric hand-object interaction by making the HOT3D dataset publicly available and by co-organizing public challenges on the dataset at ECCV 2024. The dataset can be downloaded from the project website: https://facebookresearch.github.io/hot3d/.
翻訳日:2024-06-17 17:14:47 公開日:2024-06-13
# AIが生成したビデオのロバストな検出を目指す

Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos ( http://arxiv.org/abs/2406.09601v1 )

ライセンス: Link先を確認
Qingyuan Liu, Pengyuan Shi, Yun-Yun Tsai, Chengzhi Mao, Junfeng Yang, (参考訳) 高品質のビデオ制作における生成モデルの素晴らしい成果は、デジタルの完全性とプライバシーの脆弱性に関する懸念を引き起こしている。 ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。 しかし、ビデオ生成ツール(OpenAIによるSORA、Runway Gen-2、Pikaなど)から生成された拡散生成ビデオに対するこれらの検出器の堅牢性はまだ明らかにされていない。 本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。 拡散生成画像検出のためのSOTA法では,拡散生成映像の識別にロバスト性が欠如していることが判明した。 分析の結果,これらの検出器の有効性は,フレーム間の時間的特徴や動的変動の追跡に苦慮しているため,ドメイン外ビデオに適用した場合に低下することが明らかとなった。 上記の課題に対処するため,SOTAビデオ作成ツールを用いて拡散生成ビデオのための新しいベンチマークビデオデータセットを収集する。 ビデオフレームの拡散モデルから明示的な知識内で表現を抽出し,CNN+LSTMアーキテクチャを用いて検出器を訓練する。 評価の結果,フレーム間の時間的特徴をよく捉え,ドメイン内ビデオの93.7%の検出精度を達成し,ドメイン外ビデオの精度を最大16ポイント向上できることがわかった。

The impressive achievements of generative models in creating high-quality videos have raised concerns about digital integrity and privacy vulnerabilities. Recent works to combat Deepfakes videos have developed detectors that are highly accurate at identifying GAN-generated samples. However, the robustness of these detectors on diffusion-generated videos generated from video creation tools (e.g., SORA by OpenAI, Runway Gen-2, and Pika, etc.) is still unexplored. In this paper, we propose a novel framework for detecting videos synthesized from multiple state-of-the-art (SOTA) generative models, such as Stable Video Diffusion. We find that the SOTA methods for detecting diffusion-generated images lack robustness in identifying diffusion-generated videos. Our analysis reveals that the effectiveness of these detectors diminishes when applied to out-of-domain videos, primarily because they struggle to track the temporal features and dynamic variations between frames. To address the above-mentioned challenge, we collect a new benchmark video dataset for diffusion-generated videos using SOTA video creation tools. We extract representation within explicit knowledge from the diffusion model for video frames and train our detector with a CNN + LSTM architecture. The evaluation shows that our framework can well capture the temporal features between frames, achieves 93.7% detection accuracy for in-domain videos, and improves the accuracy of out-domain videos by up to 16 points.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# 高レベル合成による電子設計自動化のためのクロスモーダルプログラム表現学習

Cross-Modality Program Representation Learning for Electronic Design Automation with High-Level Synthesis ( http://arxiv.org/abs/2406.09606v1 )

ライセンス: Link先を確認
Zongyue Qin, Yunsheng Bai, Atefeh Sograbizadeh, Zijian Ding, Ziniu Hu, Yizhou Sun, Jason Cong, (参考訳) 近年、ディープラーニングや自律運転などのアプリケーションで、ドメイン固有アクセラレータ(DSA)が人気を集めている。 DSA設計を容易にするため、プログラマは高レベル合成(HLS)を使用して、C/C++で書かれた高レベル記述を低レベルなハードウェア記述言語でコンパイルし、最終的に回路上でDSAを合成する。 しかし、高品質なHLS設計を作成するには、特に「textit{pragmas}」と表されるマイクロアーキテクチャ決定において、重要なドメイン知識が必要である。 したがって、HLS設計の品質を予測するために機械学習の助けを借りてそのような決定を自動化し、元のコードとプラグマからなるプログラムをより深く理解する必要がある。 当然、これらのプログラムはシーケンスデータと見なすことができる。 さらに、これらのプログラムをコンパイルして制御データフローグラフ(CDFG)に変換することもできる。 しかし、既存の作品は両方のモダリティを活用できないか、その2つを浅いあるいは粗い方法で組み合わせることができない。 本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互作用できるモデルであるProgSGを提案する。 ラベル付き設計の不足を軽減するため,コンパイラのデータフロー解析タスクのスイートに基づいて事前学習手法を提案する。 実験の結果、ProgSG は設計性能予測の RMSE を最大で 22\% まで下げ、平均で $1.10\times$ と $1.26\times$ (最大 8.17\times$ と $113.31\times$) を HARP と AutoDSE と比較してそれぞれ性能改善したことを示している。

In recent years, domain-specific accelerators (DSAs) have gained popularity for applications such as deep learning and autonomous driving. To facilitate DSA designs, programmers use high-level synthesis (HLS) to compile a high-level description written in C/C++ into a design with low-level hardware description languages that eventually synthesize DSAs on circuits. However, creating a high-quality HLS design still demands significant domain knowledge, particularly in microarchitecture decisions expressed as \textit{pragmas}. Thus, it is desirable to automate such decisions with the help of machine learning for predicting the quality of HLS designs, requiring a deeper understanding of the program that consists of original code and pragmas. Naturally, these programs can be considered as sequence data. In addition, these programs can be compiled and converted into a control data flow graph (CDFG). But existing works either fail to leverage both modalities or combine the two in shallow or coarse ways. We propose ProgSG, a model that allows interaction between the source code sequence modality and the graph modality in a deep and fine-grained way. To alleviate the scarcity of labeled designs, a pre-training method is proposed based on a suite of compiler's data flow analysis tasks. Experimental results show that ProgSG reduces the RMSE of design performance predictions by up to $22\%$, and identifies designs with an average of $1.10\times$ and $1.26\times$ (up to $8.17\times$ and $13.31\times$) performance improvement in design space exploration (DSE) task compared to HARP and AutoDSE, respectively.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# 大規模言語モデルを用いた分子概念の自動生成とラベル付け

Automated Molecular Concept Generation and Labeling with Large Language Models ( http://arxiv.org/abs/2406.09612v1 )

ライセンス: Link先を確認
Shichang Zhang, Botao Xia, Zimin Zhang, Qianli Wu, Fang Sun, Ziniu Hu, Yizhou Sun, (参考訳) 人工知能(AI)は科学研究を大きく変えつつある。 概念ベースモデル(CM)のような説明可能なAI手法は、意味のある概念に基づいて予測を行い、予測プロセスに関する洞察を提供するため、新しい科学的発見を促進することを約束している。 しかし、分子科学において、説明可能なCMはグラフニューラルネットワーク(GNN)のようなブラックボックスモデルに比べて一般的ではない。 本稿では,自動分子概念(AutoMolCo)生成とラベリングのための新しいフレームワークを提案する。 AutoMolCoはLarge Language Models(LLMs)の知識を活用し、予測分子の概念を自動生成し、各分子にラベル付けする。 このような手順は、LLMとの反復的な相互作用によって概念を洗練させ、改良された概念上の単純な線形モデルにより、いくつかのベンチマークでGNNやLLMのテキスト内学習より優れている。 AutoMolCoフレームワーク全体は、概念生成、ラベル付け、改善のいずれにおいても、人間の知識を入力せずに自動化され、既存のCMの制限を越えながら、説明可能性を維持し、容易に介入できる。 分子ネットワークと高出力実験(HTE)データセットの系統的な実験を通じて,AutoMolCoによる説明可能なCMが分子科学研究に有用で有望であることを示す。

Artificial intelligence (AI) is significantly transforming scientific research. Explainable AI methods, such as concept-based models (CMs), are promising for driving new scientific discoveries because they make predictions based on meaningful concepts and offer insights into the prediction process. In molecular science, however, explainable CMs are not as common compared to black-box models like Graph Neural Networks (GNNs), primarily due to their requirement for predefined concepts and manual label for each instance, which demand domain knowledge and can be labor-intensive. This paper introduces a novel framework for Automated Molecular Concept (AutoMolCo) generation and labeling. AutoMolCo leverages the knowledge in Large Language Models (LLMs) to automatically generate predictive molecular concepts and label them for each molecule. Such procedures are repeated through iterative interactions with LLMs to refine concepts, enabling simple linear models on the refined concepts to outperform GNNs and LLM in-context learning on several benchmarks. The whole AutoMolCo framework is automated without any human knowledge inputs in either concept generation, labeling, or refinement, thereby surpassing the limitations of extant CMs while maintaining their explainability and allowing easy intervention. Through systematic experiments on MoleculeNet and High-Throughput Experimentation (HTE) datasets, we demonstrate that the AutoMolCo-induced explainable CMs are beneficial and promising for molecular science research.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# ImageNet3D:汎用オブジェクトレベル3D理解を目指して

ImageNet3D: Towards General-Purpose Object-Level 3D Understanding ( http://arxiv.org/abs/2406.09613v1 )

ライセンス: Link先を確認
Wufei Ma, Guanning Zeng, Guofeng Zhang, Qihao Liu, Letian Zhang, Adam Kortylewski, Yaoyao Liu, Alan Yuille, (参考訳) 汎用オブジェクトレベルの3D理解を持つ視覚モデルは、自然画像中の任意の剛性オブジェクトに対して2D(例えば、クラス名とバウンディングボックス)と3D情報(例えば、3D位置と3D視点)の両方を推測することができるべきである。 2D信号から3D情報を推測すること、そして最も重要なことは、目に見えないカテゴリーから固い物体に一般化することである。 しかし、オブジェクトレベルの3Dアノテーションを持つ既存のデータセットは、カテゴリの数やアノテーションの品質によって制限されることが多い。 これらのデータセットで開発されたモデルは、特定のカテゴリやドメインのスペシャリストとなり、一般化に失敗する。 本研究では,汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。 ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。 ImageNet3Dで利用できる新しいアノテーションによって、私たちは (i)視覚基礎モデルのオブジェクトレベル3次元認識を分析し、 二 自然画像における任意の剛体に対して2次元情報と3次元情報の両方を推定する汎用モデルの研究及び開発 (iii)3D関連推論のための大言語モデルと統合された3Dモデルを統合する。 と。 我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。 ImageNet3Dの実験結果は、より強力な汎用オブジェクトレベルの3D理解を備えた視覚モデル構築における、我々のデータセットの可能性を示している。

A vision model with general-purpose object-level 3D understanding should be capable of inferring both 2D (e.g., class name and bounding box) and 3D information (e.g., 3D location and 3D viewpoint) for arbitrary rigid objects in natural images. This is a challenging task, as it involves inferring 3D information from 2D signals and most importantly, generalizing to rigid objects from unseen categories. However, existing datasets with object-level 3D annotations are often limited by the number of categories or the quality of annotations. Models developed on these datasets become specialists for certain categories or domains, and fail to generalize. In this work, we present ImageNet3D, a large dataset for general-purpose object-level 3D understanding. ImageNet3D augments 200 categories from the ImageNet dataset with 2D bounding box, 3D pose, 3D location annotations, and image captions interleaved with 3D information. With the new annotations available in ImageNet3D, we could (i) analyze the object-level 3D awareness of visual foundation models, and (ii) study and develop general-purpose models that infer both 2D and 3D information for arbitrary rigid objects in natural images, and (iii) integrate unified 3D models with large language models for 3D-related reasoning.. We consider two new tasks, probing of object-level 3D awareness and open vocabulary pose estimation, besides standard classification and pose estimation. Experimental results on ImageNet3D demonstrate the potential of our dataset in building vision models with stronger general-purpose object-level 3D understanding.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# 量子ポリシー勾配におけるトレーサビリティ問題

Trainability issues in quantum policy gradients ( http://arxiv.org/abs/2406.09614v1 )

ライセンス: Link先を確認
André Sequeira, Luis Paulo Santos, Luis Soares Barbosa, (参考訳) 本研究では,最近経験的探索が急増したReinforcement Learning(強化学習)における量子回路のパラメータ化政策の訓練可能性について検討する。 量子勾配推定によるサンプルの複雑さの改善を示唆する研究もあるが、これらのポリシーの効率的な訓練性は未解決の問題である。 急激な勾配と傾斜爆発を伴う標準バレン高原など,大きな課題が指摘された。 これらの現象は基底状態のパーティショニングの種類に依存し、これらのパーティショニングをアクションにマッピングする。 多項式数の作用に対して、基底状態の連続的なパーティショニングが用いられる場合、トレーニング可能なウィンドウは多項式数の測定で確保できる。 これらの結果は、多腕バンディット環境で実証的に検証される。

This research explores the trainability of Parameterized Quantum circuit-based policies in Reinforcement Learning, an area that has recently seen a surge in empirical exploration. While some studies suggest improved sample complexity using quantum gradient estimation, the efficient trainability of these policies remains an open question. Our findings reveal significant challenges, including standard Barren Plateaus with exponentially small gradients and gradient explosion. These phenomena depend on the type of basis-state partitioning and mapping these partitions onto actions. For a polynomial number of actions, a trainable window can be ensured with a polynomial number of measurements if a contiguous-like partitioning of basis-states is employed. These results are empirically validated in a multi-armed bandit environment.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# デバイス指向音声検出のための統合低ランク適応型マルチモーダル大言語モデル

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection ( http://arxiv.org/abs/2406.09617v1 )

ライセンス: Link先を確認
Shruti Palaskar, Oggi Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed Tewfik, (参考訳) 大規模言語モデル(LLM)は人間のような会話を約束しているが、主にテキストデータに基づいて事前訓練されている。 音声やビデオの組み込みによる性能向上は可能であるが,大規模なマルチモーダルデータ収集や,事前学習を行うマルチモーダルLLMは困難である。 そこで本研究では,FLORA(Fusion Low Rank Adaptation)技術を提案する。 デバイス指向音声検出では、FLoRAを用いることで、テキストのみのアプローチよりも22%の誤差率(EER)を相対的に減少させ、そのパラメータのごく一部をチューニングすることなく、FFT(Full Fine-tuning)と同等の性能が得られる。 さらに、新たに導入されたアダプタのドロップアウトでは、FLoRAはデータの欠落に対して堅牢であり、FFTよりも20%低いEERと56%低い偽受け入れ率で改善されている。 提案手法はモデルのサイズを16Mから3Bパラメータに拡大する。

Although Large Language Models (LLMs) have shown promise for human-like conversations, they are primarily pre-trained on text data. Incorporating audio or video improves performance, but collecting large-scale multimodal data and pre-training multimodal LLMs is challenging. To this end, we propose a Fusion Low Rank Adaptation (FLoRA) technique that efficiently adapts a pre-trained unimodal LLM to consume new, previously unseen modalities via low rank adaptation. For device-directed speech detection, using FLoRA, the multimodal LLM achieves 22% relative reduction in equal error rate (EER) over the text-only approach and attains performance parity with its full fine-tuning (FFT) counterpart while needing to tune only a fraction of its parameters. Furthermore, with the newly introduced adapter dropout, FLoRA is robust to missing data, improving over FFT by 20% lower EER and 56% lower false accept rate. The proposed approach scales well for model sizes from 16M to 3B parameters.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# 大規模言語モデルに基づく音声認識のためのマルチモーダル検索

Multi-Modal Retrieval For Large Language Model Based Speech Recognition ( http://arxiv.org/abs/2406.09618v1 )

ライセンス: Link先を確認
Jari Kolehmainen, Aditya Gourav, Prashanth Gurunath Shivakumar, Yile Gu, Ankur Gandhe, Ariya Rastrow, Grant Strimel, Ivan Bulyko, (参考訳) Retrievalは、外部情報を活用する言語モデルを改善するために広く採用されているアプローチである。 フィールドがマルチモーダルな大規模言語モデルへと移行するにつれて、検索に他のモダリティを組み込むために純粋テキストベースの手法を拡張し、機械学習タスクやデータタイプを幅広く適用することが重要である。 本研究では,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。 本研究では,外部情報にアクセス可能な自動音声認識タスクに適用することで,探索手法の有効性を実証的に示す。 この設定では、音声に基づくマルチモーダル検索がテキストベースの検索より優れており、マルチモーダル言語モデルベースラインよりも最大50%高い単語誤り率が得られることを示す。 さらに,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。

Retrieval is a widely adopted approach for improving language models leveraging external information. As the field moves towards multi-modal large language models, it is important to extend the pure text based methods to incorporate other modalities in retrieval as well for applications across the wide spectrum of machine learning tasks and data types. In this work, we propose multi-modal retrieval with two approaches: kNN-LM and cross-attention techniques. We demonstrate the effectiveness of our retrieval approaches empirically by applying them to automatic speech recognition tasks with access to external information. Under this setting, we show that speech-based multi-modal retrieval outperforms text based retrieval, and yields up to 50 % improvement in word error rate over the multi-modal language model baseline. Furthermore, we achieve state-of-the-art recognition results on the Spoken-Squad question answering dataset.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# DSL-FIQA:デュアルセット劣化学習とランドマーク誘導変換器による顔画像品質の評価

DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer ( http://arxiv.org/abs/2406.09622v1 )

ライセンス: Link先を確認
Wei-Ting Chen, Gurunandan Krishnan, Qiang Gao, Sy-Yen Kuo, Sizhuo Ma, Jian Wang, (参考訳) Generic Face Image Quality Assessment (GFIQA) は、画像復元アルゴリズムの改善と下流タスクのための高品質な顔画像の選択に不可欠である顔画像の知覚品質を評価する。 本稿では,GFIQAのトランスフォーマーに基づく新しい手法を提案する。 まず、Dual-Set Degradation Representation Learning(DSL)メカニズムは、合成画像と実際の劣化画像の両方を用いて、コンテンツから劣化を分離し、現実のシナリオへの一般化性を確保する。 この自己教師型手法はグローバルスケールで劣化特性を学習し、分解学習に局所パッチ情報を使用する従来の方法に代わる堅牢な代替手段を提供する。 第二に、我々のトランスフォーマーは、顔のランドマークを活用して、その知覚的品質を評価する際に、顔画像の視覚的に健全な部分を強調する。 また、既存のデータセットにおいて、40K画像のバランスよく多様な包括的顔IQA(CGFIQA-40k)データセットを導入し、特に肌の色調と性別表現の不均衡を克服する。 大規模解析と評価により,提案手法のロバスト性を実証し,従来の手法よりも大幅に改善したことを示す。

Generic Face Image Quality Assessment (GFIQA) evaluates the perceptual quality of facial images, which is crucial in improving image restoration algorithms and selecting high-quality face images for downstream tasks. We present a novel transformer-based method for GFIQA, which is aided by two unique mechanisms. First, a Dual-Set Degradation Representation Learning (DSL) mechanism uses facial images with both synthetic and real degradations to decouple degradation from content, ensuring generalizability to real-world scenarios. This self-supervised method learns degradation features on a global scale, providing a robust alternative to conventional methods that use local patch information in degradation learning. Second, our transformer leverages facial landmarks to emphasize visually salient parts of a face image in evaluating its perceptual quality. We also introduce a balanced and diverse Comprehensive Generic Face IQA (CGFIQA-40k) dataset of 40K images carefully designed to overcome the biases, in particular the imbalances in skin tone and gender representation, in existing datasets. Extensive analysis and evaluation demonstrate the robustness of our method, marking a significant improvement over prior methods.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# DrivAerNet++: 計算流体力学シミュレーションとディープラーニングベンチマークを備えた大規模マルチモーダルカーデータセット

DrivAerNet++: A Large-Scale Multimodal Car Dataset with Computational Fluid Dynamics Simulations and Deep Learning Benchmarks ( http://arxiv.org/abs/2406.09624v1 )

ライセンス: Link先を確認
Mohamed Elrefaie, Florin Morar, Angela Dai, Faez Ahmed, (参考訳) 本稿では,空力自動車設計のための最大かつ最も包括的なマルチモーダルデータセットであるDrivAerNet++について述べる。 DrivAerNet++は、高忠実度計算流体力学(CFD)シミュレーションをモデルとした8000の多種多様な自動車設計で構成されている。 データセットには、ファストバック、ノッチバック、エステートバックといった多様な車種が含まれており、内燃機関と電気自動車の両方を表す車体と車輪のデザインが異なる。 データセットの各エントリには、詳細な3Dメッシュ、パラメトリックモデル、空力係数、広範囲のフローと表面のフィールドデータと、車の分類とポイントクラウドデータのためのセグメンテーションされた部分が含まれている。 このデータセットは、データ駆動設計最適化、生成モデリング、代理モデルトレーニング、CFDシミュレーションアクセラレーション、幾何学的分類を含む幅広い機械学習アプリケーションをサポートしている。 DrivAerNet++は39TBを超える公開エンジニアリングデータによって、利用可能なリソースの大きなギャップを埋め、高品質で多様なデータを提供し、モデルのトレーニングを強化し、一般化を促進し、自動車設計プロセスを加速する。 厳密なデータセット検証に加えて、私たちのデータセットでサポートされているアプリケーションの幅を示す、空気力学的なドラッグ予測のタスクに関するMLベンチマーク結果も提供します。 このデータセットは、イノベーションを育み、空気力学的評価の忠実さを改善することによって、自動車設計とより広範なエンジニアリング分野に大きく影響を与えるように設定されている。

We present DrivAerNet++, the largest and most comprehensive multimodal dataset for aerodynamic car design. DrivAerNet++ comprises 8,000 diverse car designs modeled with high-fidelity computational fluid dynamics (CFD) simulations. The dataset includes diverse car configurations such as fastback, notchback, and estateback, with different underbody and wheel designs to represent both internal combustion engines and electric vehicles. Each entry in the dataset features detailed 3D meshes, parametric models, aerodynamic coefficients, and extensive flow and surface field data, along with segmented parts for car classification and point cloud data. This dataset supports a wide array of machine learning applications including data-driven design optimization, generative modeling, surrogate model training, CFD simulation acceleration, and geometric classification. With more than 39 TB of publicly available engineering data, DrivAerNet++ fills a significant gap in available resources, providing high-quality, diverse data to enhance model training, promote generalization, and accelerate automotive design processes. Along with rigorous dataset validation, we also provide ML benchmarking results on the task of aerodynamic drag prediction, showcasing the breadth of applications supported by our dataset. This dataset is set to significantly impact automotive design and broader engineering disciplines by fostering innovation and improving the fidelity of aerodynamic evaluations.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# RobustSAM: 劣化した画像にロバストなセグメンテーション

RobustSAM: Segment Anything Robustly on Degraded Images ( http://arxiv.org/abs/2406.09627v1 )

ライセンス: Link先を確認
Wei-Ting Chen, Yu-Jiet Vong, Sy-Yen Kuo, Sizhuo Ma, Jian Wang, (参考訳) Segment Anything Model (SAM)は画像セグメンテーションにおける変換的アプローチとして登場し、その堅牢なゼロショットセグメンテーション機能とフレキシブルプロンプトシステムによって評価されている。 それでも、その性能は劣化した画質のイメージによって挑戦されている。 この制限に対処するため,ロバストセグメンテーションモデル (RobustSAM) を提案する。 本手法は,限界パラメータの増分と計算要求のみで事前学習したSAMモデルを利用する。 RobustSAMの追加パラメータは8つのGPU上で30時間以内に最適化でき、典型的な研究所で実現可能性と実用性を示している。 また、ロバスト・セグデータセットも導入しました。これは、688Kのイメージマスク対のコレクションで、モデルのトレーニングと評価を最適に行うように設計されています。 様々なセグメンテーションタスクやデータセットにわたる大規模な実験により、ロバストSAMの優れた性能、特にゼロショット条件下では、広範囲な実世界の応用の可能性を示している。 さらに,本手法は,単一画像のデハージングやデブロアリングなど,SAMに基づく下流タスクの性能を効果的に向上することを示した。

Segment Anything Model (SAM) has emerged as a transformative approach in image segmentation, acclaimed for its robust zero-shot segmentation capabilities and flexible prompting system. Nonetheless, its performance is challenged by images with degraded quality. Addressing this limitation, we propose the Robust Segment Anything Model (RobustSAM), which enhances SAM's performance on low-quality images while preserving its promptability and zero-shot generalization. Our method leverages the pre-trained SAM model with only marginal parameter increments and computational requirements. The additional parameters of RobustSAM can be optimized within 30 hours on eight GPUs, demonstrating its feasibility and practicality for typical research laboratories. We also introduce the Robust-Seg dataset, a collection of 688K image-mask pairs with different degradations designed to train and evaluate our model optimally. Extensive experiments across various segmentation tasks and datasets confirm RobustSAM's superior performance, especially under zero-shot conditions, underscoring its potential for extensive real-world application. Additionally, our method has been shown to effectively improve the performance of SAM-based downstream tasks such as single image dehazing and deblurring.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# Muharaf:Cursive Text Recognitionのための手書きアラビア文字データセットのマニュアル

Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition ( http://arxiv.org/abs/2406.09630v1 )

ライセンス: Link先を確認
Mehreen Saeed, Adrian Chan, Anupam Mijar, Joseph Moukarzel, Georges Habchi, Carlos Younes, Amin Elias, Chau-Wai Wong, Akram Khater, (参考訳) このデータセットは,古アラビア語の専門家が書き起こした1,600以上の歴史的手書きページイメージからなる機械学習データセットである。 各文書画像には、基本ページ要素だけでなく、テキスト行の空間多角座標が添付されている。 このデータセットは、アラビア語の写本だけでなく、概して呪文のための手書きテキスト認識(HTR)の最先端化のためにコンパイルされた。 ムハラフのデータセットには、様々な手書きのスタイルと、個人的な手紙、日記、ノート、詩、教会の記録、法的な対応を含む幅広い文書タイプが含まれている。 本稿では,データ取得パイプライン,注目すべきデータセット機能,統計について述べる。 また、このデータを用いて畳み込みニューラルネットワークのトレーニングによって得られる予備的なベースライン結果も提供する。

We present the Manuscripts of Handwritten Arabic~(Muharaf) dataset, which is a machine learning dataset consisting of more than 1,600 historic handwritten page images transcribed by experts in archival Arabic. Each document image is accompanied by spatial polygonal coordinates of its text lines as well as basic page elements. This dataset was compiled to advance the state of the art in handwritten text recognition (HTR), not only for Arabic manuscripts but also for cursive text in general. The Muharaf dataset includes diverse handwriting styles and a wide range of document types, including personal letters, diaries, notes, poems, church records, and legal correspondences. In this paper, we describe the data acquisition pipeline, notable dataset features, and statistics. We also provide a preliminary baseline result achieved by training convolutional neural networks using this data.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-13
# 空洞同期単一光子源からのスケーラブル多光子生成

Scalable multiphoton generation from cavity-synchronized single-photon sources ( http://arxiv.org/abs/2009.02382v3 )

ライセンス: Link先を確認
Ming Li, Juan José García-Ripoll, Tomás Ramos, (参考訳) 本稿では,独立チャネル上で複数の不明瞭な光子をオンデマンドで生成する,効率的でスケーラブルで決定論的手法を提案する。 我々の設計は複数の単一光子源に依存し、それぞれが導波路に結合され、これらすべてが共通のキャビティモードと相互作用する。 共振器は、導波路によって収集される各光源による1つの光子の同時放出を同期させトリガーする。 最先端の回路QED実装では、この方式は純度、不明瞭さ、効率が99\%の単一光子を$\sim $MHzで作成するのをサポートする。 また、最大100個の光子と数百kHzの生成速度を同時に生成する条件についても論じる。 これは、ボソンサンプリングのための以前の分解されたソースよりも桁違いに効率的であり、決定論的多光子源の実現と光子によるスケーラブルな量子情報処理を可能にする。

We propose an efficient, scalable, and deterministic scheme to generate multiple indistinguishable photons over independent channels, on demand. Our design relies on multiple single-photon sources, each coupled to a waveguide, and all of them interact with a common cavity mode. The cavity synchronizes and triggers the simultaneous emission of one photon by each source, which are collected by the waveguides. For a state-of-the-art circuit QED implementation, this scheme supports the creation of single photons with purity, indistinguishability, and efficiency of $99\%$ at rates of $\sim $MHz. We also discuss conditions to produce up to 100 photons simultaneously with generation rates of hundreds of kHz. This is orders of magnitude more efficient than previous demultiplexed sources for boson sampling and enables the realization of deterministic multi-photon sources and scalable quantum information processing with photons.
翻訳日:2024-06-16 18:08:02 公開日:2024-06-13
# ニューラルクラス表現合成

Neural Class Expression Synthesis ( http://arxiv.org/abs/2111.08486v4 )

ライセンス: Link先を確認
N'Dah Jean Kouagou, Stefan Heindorf, Caglar Demir, Axel-Cyrille Ngonga Ngomo, (参考訳) 多くのアプリケーションは知識グラフにおける説明可能なノード分類を必要とする。 正のノードと負のノードのセットが与えられたとき、記述ロジックのクラス式は、負のノードから正のノードを分離して学習される。 既存のアプローチのほとんどは、多くの候補クラス表現を生成し、最良のものを選択する検索ベースのアプローチである。 しかし、適切なクラス式を見つけるのに長い時間がかかることが多い。 本稿では,クラス表現学習を翻訳問題として用い,ニューラルクラス表現合成器をダブするクラス表現学習手法を提案する。 トレーニングの例としては、' `tranlate' を機械翻訳に似た方法でクラス表現に変換する例がある。 その結果,我々のシンセサイザーは検索ベースアプローチのランタイム制限の対象にはならない。 LSTM, GRU, セットトランスを用いた新しいアプローチの3つの事例について検討した。 提案手法を4つのベンチマークデータセットで評価した結果, 平均1秒以内の入力例に対して, 高品質なクラス表現を効果的に合成できることが示唆された。 さらに, 最先端手法との比較により, 大規模データセット上でのF測定精度の向上が示唆された。 再現性のために、私たちはhttps://github.com/dice-group/NeuralClassExpressionSynthesisで公開GitHubリポジトリで事前トレーニングされたモデルと実装を提供しています。

Many applications require explainable node classification in knowledge graphs. Towards this end, a popular ``white-box'' approach is class expression learning: Given sets of positive and negative nodes, class expressions in description logics are learned that separate positive from negative nodes. Most existing approaches are search-based approaches generating many candidate class expressions and selecting the best one. However, they often take a long time to find suitable class expressions. In this paper, we cast class expression learning as a translation problem and propose a new family of class expression learning approaches which we dub neural class expression synthesizers. Training examples are ``translated'' into class expressions in a fashion akin to machine translation. Consequently, our synthesizers are not subject to the runtime limitations of search-based approaches. We study three instances of this novel family of approaches based on LSTMs, GRUs, and set transformers, respectively. An evaluation of our approach on four benchmark datasets suggests that it can effectively synthesize high-quality class expressions with respect to the input examples in approximately one second on average. Moreover, a comparison to state-of-the-art approaches suggests that we achieve better F-measures on large datasets. For reproducibility purposes, we provide our implementation as well as pretrained models in our public GitHub repository at https://github.com/dice-group/NeuralClassExpressionSynthesis
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# 社会的オントロジー的知識表現は機械学習を用いて測定できるか?

Can Social Ontological Knowledge Representations be Measured Using Machine Learning? ( http://arxiv.org/abs/2112.13870v2 )

ライセンス: Link先を確認
Ahmed Izzidien, (参考訳) 個人社会オントロジー(個人社会オントロジー、Personal Social Ontology、PSO)は、個人が用語の存在論的特性をどのように知覚するかである。 例えば、絶対的致命論者は、人からいかなる形の代理者も排除する用語を間違いなく使うだろう。 このような致命主義は、勝利、勝利、成功といった存在論的に定義する行為が、非敵主義者が存在論的にそれらを定義する方法に反する形で影響する。 死神論者でも非死神論者でも、これらの用語の辞書の定義には同意するが、それらがどのような意味を持つかは明確に異なる。 この2つの個人の違いは、これらの用語の使用、すなわちこれらの用語と他の用語の共起から引き起こされる。 このような量化によって、このような共起は話者の社会的存在論的見解を特徴づける道を提供する。 本稿では、社会的オントロジーの有効かつ信頼性の高い心理測定値を得るために、どのような特定の用語を測定すべきなのかを問う。 社会心理学と社会神経科学の文献は、個人の社会的オントロジーの主要な特徴と考えられる社会的概念のリストに到達し、これらの用語を言語で表現するためのNLPパイプラインを提案する。

Personal Social Ontology (PSO), it is proposed, is how an individual perceives the ontological properties of terms. For example, an absolute fatalist would arguably use terms that remove any form of agency from a person. Such fatalism has the impact of ontologically defining acts such as winning, victory and success in a manner that is contrary to how a non-fatalist would ontologically define them. While both the said fatalist and non-fatalist would agree on the dictionary definition of these terms, they would differ on specifically how they can be brought about. This difference between the two individuals can be induced from their usage of these terms, i.e., the co-occurrence of these terms with other terms. As such a quantification of this such co-occurrence offers an avenue to characterise the social ontological views of the speaker. In this paper we ask, what specific term co-occurrence should be measured in order to obtain a valid and reliable psychometric measure of a persons social ontology? We consider the social psychology and social neuroscience literature to arrive at a list of social concepts that can be considered principal features of personal social ontology, and then propose an NLP pipeline to capture the articulation of these terms in language.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# IMPACT:都市向け総合温室効果ガス排出経路

IMPACT: Integrated Bottom-Up Greenhouse Gas Emission Pathways for Cities ( http://arxiv.org/abs/2202.07458v3 )

ライセンス: Link先を確認
Juliana Felkner, Zoltan Nagy, Ariane L. Beck, D. Cale Reeves, Steven Richter, Vivek Shastry, Eli Ramthun, Edward Mbata, Stephen Zigmund, Benjamin Marshall, Linnea Marks, Vianey Rueda, Jasmine Triplett, Sarah Domedead, Jose R Vazquez-Canteli, Varun Rai, (参考訳) 都市化の増加は、持続的な成長を優先し、炭素ロックインを避けるよう都市に圧力をかける。 利用可能なモデリングフレームワークは、そのような重要な意思決定をローカルレベルで導くことによって、急速に低下します。 経済的インセンティブ、行動介入、義務は持続可能な技術導入を促進する一方、土地利用地区は建設された環境からの二酸化炭素排出量において重要な役割を担っている。 研究者は通常、国家規模で、あるいは過去における様々な警察の発展に対するポストホックな政策の影響を評価します。 このような分析は特定の都市の排出経路を予測できないため、地域政策立案者へのインプットとして機能することはできない。 ここでは、住宅レベルの粒度のボトムアップモデルから、地域政策、気候変動、グリッド脱炭シナリオと技術導入政策を統合するIMPACT経路を提案する。 我々の分析の核心にある都市では、スプロールするエミッションプレミアムを特定し、時間とともにリバウンドするエミッションを示す有害な政策の組み合わせが存在することを示す。

Increasing urbanization puts pressure on cities to prioritize sustainable growth and avoid carbon lock-in. Available modeling frameworks fall acutely of guiding such pivotal decision-making at the local level. Financial incentives, behavioral interventions, and mandates drive sustainable technology adoption, while land-use zoning plays a critical role in carbon emissions from the built environment. Researchers typically evaluate impacts of policies top down, on a national scale, or else post-hoc on developments vis-\`a-vis different polices in the past. Such analyses cannot forecast emission pathways for specific cities, and hence cannot serve as input to local policymakers. Here, we present IMPACT pathways, from a bottom-up model with residence level granularity, that integrate technology adoption policies with zoning policies, climate change, and grid decarbonization scenarios. With the city at the heart of our analysis, we identify an emission premium for sprawling and show that adverse policy combinations exist that can exhibit rebounding emissions over time.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# 明示的特徴相互作用を考慮したグラフニューラルネットワーク

Explicit Feature Interaction-aware Graph Neural Networks ( http://arxiv.org/abs/2204.03225v2 )

ライセンス: Link先を確認
Minkyu Kim, Hyun-Soo Choi, Jinho Kim, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う強力なツールである。 しかし、それらの設計は高階の特徴的相互作用のみを学習することに制限されることが多く、低階の特徴的相互作用は見過ごされてしまう。 この問題に対処するために、明示的特徴相互作用対応グラフニューラルネットワーク(EFI-GNN)と呼ばれる新しいGNN手法を導入する。 従来のGNNとは異なり、EFI-GNNはグラフ内の任意の順序の特徴的相互作用を明示的にモデル化するために設計された多層線形ネットワークである。 EFI-GNNの有効性を検証するため,様々なデータセットを用いて実験を行った。 実験の結果、EFI-GNNは既存のGNNと競合する性能を示し、GNNがEFI-GNNと共同で訓練された場合、予測性能は改善されることが示された。 さらに、EFI-GNNによる予測は線形構成のため解釈可能である。 EFI-GNNのソースコードはhttps://github.com/gim4855744/EFI-GNNで入手できる。

Graph neural networks (GNNs) are powerful tools for handling graph-structured data. However, their design often limits them to learning only higher-order feature interactions, leaving low-order feature interactions overlooked. To address this problem, we introduce a novel GNN method called explicit feature interaction-aware graph neural network (EFI-GNN). Unlike conventional GNNs, EFI-GNN is a multilayer linear network designed to model arbitrary-order feature interactions explicitly within graphs. To validate the efficacy of EFI-GNN, we conduct experiments using various datasets. The experimental results demonstrate that EFI-GNN has competitive performance with existing GNNs, and when a GNN is jointly trained with EFI-GNN, predictive performance sees an improvement. Furthermore, the predictions made by EFI-GNN are interpretable, owing to its linear construction. The source code of EFI-GNN is available at https://github.com/gim4855744/EFI-GNN
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# ほとんど混ざり合うことなく学ぶ

Learning with little mixing ( http://arxiv.org/abs/2206.08269v3 )

ライセンス: Link先を確認
Ingvar Ziemann, Stephen Tu, (参考訳) マーチンゲール差雑音を考慮した実測可能な時系列フレームワークにおける正方損失について検討する。 この結果から, トラジェクトリ過収縮条件が成立するたびに, 従属データに対する最小二乗推定器のリスクが, バーンイン時間後におけるイドレートの順に一致していることが示唆された。 それに対して、依存データから学習する既存の結果の多くは、有効なサンプルサイズが、バーンイン時間後であっても、基礎プロセスの混合時間の要因によって膨張する速度を持つ。 さらに, 共変量法により, 幾何学的エルゴード性よりもかなり弱い長い範囲の相関関係を示すことができた。 L^2$ と $L^{2+\epsilon}$ノルムが同値な有界関数クラス、エルゴード有限状態マルコフ連鎖、様々なパラメトリックモデル、無限次元 $\ell^2(\mathbb{N})$エリプシドの広いファミリー。 一般化線形モデル遷移による非線形力学のシステム同定に主結果をインスタンス化することにより、多項式バーンイン時間のみに制限された最小限の最適余剰リスクが得られる。

We study square loss in a realizable time-series framework with martingale difference noise. Our main result is a fast rate excess risk bound which shows that whenever a trajectory hypercontractivity condition holds, the risk of the least-squares estimator on dependent data matches the iid rate order-wise after a burn-in time. In comparison, many existing results in learning from dependent data have rates where the effective sample size is deflated by a factor of the mixing-time of the underlying process, even after the burn-in time. Furthermore, our results allow the covariate process to exhibit long range correlations which are substantially weaker than geometric ergodicity. We call this phenomenon learning with little mixing, and present several examples for when it occurs: bounded function classes for which the $L^2$ and $L^{2+\epsilon}$ norms are equivalent, ergodic finite state Markov chains, various parametric models, and a broad family of infinite dimensional $\ell^2(\mathbb{N})$ ellipsoids. By instantiating our main result to system identification of nonlinear dynamics with generalized linear model transitions, we obtain a nearly minimax optimal excess risk bound after only a polynomial burn-in time.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# Sccinct Indices を用いた単一ラウンドトリップ階層型ORAM

Single Round-trip Hierarchical ORAM via Succinct Indices ( http://arxiv.org/abs/2208.07489v3 )

ライセンス: Link先を確認
William Holland, Olga Ohrimenko, Anthony Wirth, (参考訳) リモートに保存されたデータへのアクセスパターンは、たとえデータが暗号化されたとしても、情報を漏らすことが知られているサイドチャネルを生成する。 アクセスパターンの漏洩を防ぐために、Oblivious RAMは(実際に)アクセストレースを隠蔽する暗号プリミティブであり、サーバのコンテンツの追加アクセスと定期的なシャッフルを犠牲にしている。 階層型ORAM(Hierarchical ORAM)と呼ばれるORAMソリューションのクラスは理論上、対数帯域幅オーバーヘッドを達成している。 しかし、現在まで階層型ORAMは理論的な成果物にすぎないと見なされている。 これは、サーバに(シャッフルされた)要素を見つけ出し、cuckooハッシュテーブルのような複雑なビルディングブロックを含むために、多数の通信ラウンドトリップを必要とするためである。 実際に,階層型ORAM方式の限界に対処するために,単一ラウンドトリップの通信でデータを取得することができる最初の階層型ORAMであるRange ORAMを導入する。 非インタラクティブ通信をサポートするために,サーバに各要素の位置を暗黙的に格納するクライアント側データ構造を導入する。 さらに、この位置メタデータは、複雑なcuckooハッシュテーブルを必要としない単純なプロトコル設計を可能にする。 Rank ORAMは、既存の(非階層的な)最先端のORAMスキーム(例えば、Ring ORAM)よりも漸近的に小さいメモリを必要とする。 実ネットワークファイルシステムトレースに関する実験では,クライアントメモリの削減効果が既存手法と比較して100ドル程度に抑えられた。 例えば、$7.5$TBのデータベースを {outsourcing} する場合、標準的なアプローチでは、必要となるクライアントメモリは290$MBであるのに対して、40$GBである。

Access patterns to data stored remotely create a side channel that is known to leak information even if the content of the data is encrypted. To protect against access pattern leakage, Oblivious RAM is a cryptographic primitive that obscures the (actual) access trace at the expense of additional access and periodic shuffling of the server's contents. A class of ORAM solutions, known as Hierarchical ORAM, has achieved theoretically \emph{optimal} logarithmic bandwidth overhead. However, to date, Hierarchical ORAMs are seen as only theoretical artifacts. This is because they require a large number of communication round-trips to locate (shuffled) elements at the server and involve complex building blocks such as cuckoo hash tables. To address the limitations of Hierarchical ORAM schemes in practice, we introduce Rank ORAM; the first Hierarchical ORAM that can retrieve data with a single round-trip of communication (as compared to a logarithmic number in previous work). To support non-interactive communication, we introduce a \emph{compressed} client-side data structure that stores, implicitly, the location of each element at the server. In addition, this location metadata enables a simple protocol design that dispenses with the need for complex cuckoo hash tables. Rank ORAM requires asymptotically smaller memory than existing (non-Hierarchical) state-of-the-art practical ORAM schemes (e.g., Ring ORAM) while maintaining comparable bandwidth performance. Our experiments on real network file-system traces demonstrate a reduction in client memory, against existing approaches, of a factor of~$100$. For example, when {outsourcing} a database of $17.5$TB, required client-memory is only $290$MB vs. $40$GB for standard approaches.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# Whole Pageがランクなしの学習を禁止

Whole Page Unbiased Learning to Rank ( http://arxiv.org/abs/2210.10718v3 )

ライセンス: Link先を確認
Haitao Mao, Lixin Zou, Yujia Zheng, Jiliang Tang, Xiaokai Chu, Jiashu Zhao, Qian Wang, Dawei Yin, (参考訳) 情報検索システムにおけるページ表示バイアスは、特にクリック動作において、暗黙のユーザフィードバックでランキングモデルの性能向上を妨げる、よく知られた課題である。 アンバイアスド・ラーニング・トゥ・ランク(ULTR)アルゴリズムは、バイアスド・クリックデータを用いたアンバイアスド・ランキングモデルを学ぶために提案される。 しかし,既存のアルゴリズムの多くは,検索結果ページ表示(SERP)において他の特徴によって誘導されるバイアス,例えばマルチメディアによって誘導される魅力的なバイアスを考慮せずに,位置関連バイアス,例えば信頼バイアスを緩和するように設計されている。 残念なことに、これらのバイアスは産業システムに広く存在し、不満足な検索体験につながる可能性がある。 そこで本研究では,全ページSERP機能によって引き起こされるバイアスを同時に処理することを目的とした,全ページのUnbiased Learning to Rank(WP-ULTR)という新たな問題を導入する。 1)適切なユーザ行動モデル(ユーザ行動仮説)を見つけるのは困難であり、(2)複雑なバイアスは既存のアルゴリズムでは処理できない。 上記の課題に対処するために、BALというアルゴリズムをランク付けするバイアス非依存学習を提案し、因果発見によるユーザ行動モデルを自動的に見つけ、特定の設計をせずに複数のSERP機能によって引き起こされるバイアスを軽減する。 実世界のデータセットによる実験結果から,BALの有効性が検証された。

The page presentation biases in the information retrieval system, especially on the click behavior, is a well-known challenge that hinders improving ranking models' performance with implicit user feedback. Unbiased Learning to Rank~(ULTR) algorithms are then proposed to learn an unbiased ranking model with biased click data. However, most existing algorithms are specifically designed to mitigate position-related bias, e.g., trust bias, without considering biases induced by other features in search result page presentation(SERP), e.g. attractive bias induced by the multimedia. Unfortunately, those biases widely exist in industrial systems and may lead to an unsatisfactory search experience. Therefore, we introduce a new problem, i.e., whole-page Unbiased Learning to Rank(WP-ULTR), aiming to handle biases induced by whole-page SERP features simultaneously. It presents tremendous challenges: (1) a suitable user behavior model (user behavior hypothesis) can be hard to find; and (2) complex biases cannot be handled by existing algorithms. To address the above challenges, we propose a Bias Agnostic whole-page unbiased Learning to rank algorithm, named BAL, to automatically find the user behavior model with causal discovery and mitigate the biases induced by multiple SERP features with no specific design. Experimental results on a real-world dataset verify the effectiveness of the BAL.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# 量子多体問題の解法のための波動関数整合変換

Wave function matching transformation for solving the quantum many-body problem ( http://arxiv.org/abs/2210.17488v3 )

ライセンス: Link先を確認
Serdar Elhatisari, Lukas Bovermann, Evgeny Epelbaum, Dillon Frame, Fabian Hildenbrand, Myungkuk Kim, Youngman Kim, Hermann Krebs, Timo A. Lähde, Dean Lee, Ning Li, Bing-Nan Lu, Yuanzhuo Ma, Ulf-G. Meißner, Gautam Rupak, Shihang Shen, Young-Ho Song, Gianluca Stellin, (参考訳) 本稿では,波動関数マッチングと呼ばれる量子多体系の解法を提案する。 波動関数マッチングは粒子間の相互作用を変換し、波動関数がある程度の有限範囲までの距離で容易に計算可能な相互作用と一致するようにする。 これによりモンテカルロ符号のキャンセルのような問題のために、そうでなければ不可能なシステムの計算が可能になる。 本手法を光核, 中質量核, 中性子物質, 核物質のモンテカルロシミュレーションに応用する。 我々は高忠実なカイラル実効場理論の相互作用を用い、経験的データとの良好な一致を求める。 これらの結果は、核結合エネルギー、電荷ラジイ、およびアブイニシアト計算における核物質飽和の正確な再現における長年の課題を解決するのに役立つかもしれない核相互作用に関する新たな知見を伴っている。

We introduce a new approach for solving quantum many-body systems called wave function matching. Wave function matching transforms the interaction between particles so that the wave functions up to some finite range match that of an easily computable interaction. This allows for calculations of systems that would otherwise be impossible due to problems such as Monte Carlo sign cancelations. We apply the method to lattice Monte Carlo simulations of light nuclei, medium-mass nuclei, neutron matter, and nuclear matter. We use high-fidelity chiral effective field theory interactions and find good agreement with empirical data. These results are accompanied by new insights on the nuclear interactions that may help to resolve long-standing challenges in accurately reproducing nuclear binding energies, charge radii, and nuclear matter saturation in ab initio calculations.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# 待ち時間を最小限にしたクライアントによる戦略的施設配置

Strategic Facility Location with Clients that Minimize Total Waiting Time ( http://arxiv.org/abs/2211.14016v3 )

ライセンス: Link先を確認
Simon Krogmann, Pascal Lenzner, Alexander Skopalik, (参考訳) 本研究では,非協調型施設位置ゲームにおいて,施設やクライアントが戦略的に行動する場所ゲームについて検討する。 これは、クライアントが最も近い施設を単に訪問する他の多くの施設のロケーションゲームとは対照的である。 施設エージェントは、グラフ上の場所を選択して、できるだけ多くの購入力を惹きつける施設を開く一方、クライアントエージェントは、総待ち時間を最小限に抑えるために、購入力を戦略的に分配することで、どの施設を後援するかを選択する。 ここでは、施設の待ち時間は、受け取った総購入力に依存する。 クライアントステージはアトミックスプリッタブル・コンゴレーションゲームであり,クライアント平衡の存在,特異性,効率的な計算を暗示する。 したがって、施設エージェントは、クライアントの振る舞いを効率的に予測し、それに応じて戦略的決定を行うことができる。 それにもかかわらず、サブゲーム完全平衡がこのゲームの全ての事例に存在せず、それらの存在はNPハードで決定できることを証明している。 正の面では、3-近似サブゲーム完全平衡を計算するための単純で効率的なアルゴリズムを提供する。

We study a non-cooperative two-sided facility location game in which facilities and clients behave strategically. This is in contrast to many other facility location games in which clients simply visit their closest facility. Facility agents select a location on a graph to open a facility to attract as much purchasing power as possible, while client agents choose which facilities to patronize by strategically distributing their purchasing power in order to minimize their total waiting time. Here, the waiting time of a facility depends on its received total purchasing power. We show that our client stage is an atomic splittable congestion game, which implies existence, uniqueness and efficient computation of a client equilibrium. Therefore, facility agents can efficiently predict client behavior and make strategic decisions accordingly. Despite that, we prove that subgame perfect equilibria do not exist in all instances of this game and that their existence is NP-hard to decide. On the positive side, we provide a simple and efficient algorithm to compute 3-approximate subgame perfect equilibria.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-13
# コミットメントを伴う微分スタックルバーグ平衡の非結合学習

Uncoupled Learning of Differential Stackelberg Equilibria with Commitments ( http://arxiv.org/abs/2302.03438v2 )

ライセンス: Link先を確認
Robert Loftin, Mustafa Mert Çelikok, Herke van Hoof, Samuel Kaski, Frans A. Oliehoek, (参考訳) 高度な協力を必要とするマルチエージェント問題において、成功はしばしばエージェントが互いの行動に適応する能力に依存する。 そのような設定における自然解の概念は、スタックルバーグ均衡(Stackelberg equilibrium)であり、「リーダー」エージェントが「フォロワー」エージェントが、この戦略に対する最良の反応を選択することを前提に、自身の利益を最大化する戦略を選択する。 最近の研究は、この解の概念を、マルチエージェントの深層強化学習から生じるような、2つのプレイヤーの微分可能なゲームへ拡張し、 \textit{differential} Stackelberg 平衡の形で展開している。 この以前の研究は、そのような均衡に収束する学習力学を提示してきたが、これらの力学は、リーダーの戦略に対する学習の更新がフォロワーの支払い機能に関する情報を必要とするという意味で、'カップリング'である。 したがって、これらの手法は真の分散マルチエージェント設定、特に各エージェントが自身のペイオフ機能にのみアクセス可能なアドホック協調には適用できない。 本研究では,ゼロ階勾配推定器に基づく「アンカップリング」学習のダイナミクスについて述べる。 一般サムゲームにおけるこれらのダイナミクスの収束を解析し、それらが以前の結合された方法と同じ条件下で微分スタックルバーグ平衡に収束することを証明する。 さらに、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。 より一般的なマルチエージェント強化学習とアドホックコラボレーションにおける作業の意義について考察した。

In multi-agent problems requiring a high degree of cooperation, success often depends on the ability of the agents to adapt to each other's behavior. A natural solution concept in such settings is the Stackelberg equilibrium, in which the ``leader'' agent selects the strategy that maximizes its own payoff given that the ``follower'' agent will choose their best response to this strategy. Recent work has extended this solution concept to two-player differentiable games, such as those arising from multi-agent deep reinforcement learning, in the form of the \textit{differential} Stackelberg equilibrium. While this previous work has presented learning dynamics which converge to such equilibria, these dynamics are ``coupled'' in the sense that the learning updates for the leader's strategy require some information about the follower's payoff function. As such, these methods cannot be applied to truly decentralised multi-agent settings, particularly ad hoc cooperation, where each agent only has access to its own payoff function. In this work we present ``uncoupled'' learning dynamics based on zeroth-order gradient estimators, in which each agent's strategy update depends only on their observations of the other's behavior. We analyze the convergence of these dynamics in general-sum games, and prove that they converge to differential Stackelberg equilibria under the same conditions as previous coupled methods. Furthermore, we present an online mechanism by which symmetric learners can negotiate leader-follower roles. We conclude with a discussion of the implications of our work for multi-agent reinforcement learning and ad hoc collaboration more generally.
翻訳日:2024-06-15 02:48:34 公開日:2024-06-13
# 強化学習におけるロバストな知識伝達

Robust Knowledge Transfer in Tiered Reinforcement Learning ( http://arxiv.org/abs/2302.05534v3 )

ライセンス: Link先を確認
Jiawei Huang, Niao He, (参考訳) 本稿では,低層(ソース)タスクから高層(ターゲット)タスクへの知識伝達を目標とする並列移動学習フレームワークであるTiered Reinforcement Learning Setについて検討し,その2つのタスクを並列に解決しながら,後者の探索リスクを低減する。 従来の作業とは異なり、低層タスクと高層タスクは同じダイナミクスや報酬関数を共有していないと仮定し、タスクの類似性に関する事前の知識を使わずに、堅牢な知識伝達に注力する。 我々は,「最適価値支配」と呼ばれる自然で必要な条件を特定した。 この条件下では、ハイレベルタスクでは、タスクの類似性に応じて部分的状態に絶え間なく後悔し、2つのタスクが相違する場合には、ほぼ最適の後悔を保ち、低レベルタスクでは犠牲を省くことなく、ほぼ最適に維持できるような、新しいオンライン学習アルゴリズムを提案する。 さらに、複数の低層タスクで設定を更に研究し、全ての低層タスクから情報をアンサンブルし、より大きな状態-動作空間で証明可能な利点を享受できる新しい転送ソース選択機構を提案する。

In this paper, we study the Tiered Reinforcement Learning setting, a parallel transfer learning framework, where the goal is to transfer knowledge from the low-tier (source) task to the high-tier (target) task to reduce the exploration risk of the latter while solving the two tasks in parallel. Unlike previous work, we do not assume the low-tier and high-tier tasks share the same dynamics or reward functions, and focus on robust knowledge transfer without prior knowledge on the task similarity. We identify a natural and necessary condition called the ``Optimal Value Dominance'' for our objective. Under this condition, we propose novel online learning algorithms such that, for the high-tier task, it can achieve constant regret on partial states depending on the task similarity and retain near-optimal regret when the two tasks are dissimilar, while for the low-tier task, it can keep near-optimal without making sacrifice. Moreover, we further study the setting with multiple low-tier tasks, and propose a novel transfer source selection mechanism, which can ensemble the information from all low-tier tasks and allow provable benefits on a much larger state-action space.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 対数的ワーストケースレグレットを用いた量子強化学習における潜在的に効率的な探索

Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret ( http://arxiv.org/abs/2302.10796v2 )

ライセンス: Link先を確認
Han Zhong, Jiachen Hu, Yecheng Xue, Tongyang Li, Liwei Wang, (参考訳) 量子強化学習(RL)は近年注目を集めているが、理論的な理解は限られている。 特に、探索と探索のトレードオフに対処できる証明可能な量子RLアルゴリズムを設計する方法は、いまだ解明されていない。 この目的のために我々は,テーブル型マルコフ決定プロセス(MDP)の量子コンピューティングを$S$状態,$A$アクション,地平線$H$で利用し,$\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))を成立させる新しいUCRLスタイルのアルゴリズムを提案する。 さらに, 線形関数近似を用いた量子RLに拡張することで, 大規模状態空間の問題を処理できる。 具体的には、$d$次元線形表現を持つ線形混合MDPに対する値目標回帰(VTR)に基づく量子アルゴリズムを開発し、$\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regretを満足していることを証明する。 我々のアルゴリズムは古典的RLにおけるUCRL/UCRL-VTRアルゴリズムの変種であり、遅延更新機構と量子推定サブルーチンの新たな組み合わせも活用している。 これは古典的RLにおける$\Omega(\sqrt{T})$-regret障壁を破る鍵である。 我々の知る限りでは、これは量子RLにおけるオンライン探索を研究する最初の研究であり、対数最悪の最悪の後悔を証明できる。

While quantum reinforcement learning (RL) has attracted a surge of attention recently, its theoretical understanding is limited. In particular, it remains elusive how to design provably efficient quantum RL algorithms that can address the exploration-exploitation trade-off. To this end, we propose a novel UCRL-style algorithm that takes advantage of quantum computing for tabular Markov decision processes (MDPs) with $S$ states, $A$ actions, and horizon $H$, and establish an $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ worst-case regret for it, where $T$ is the number of episodes. Furthermore, we extend our results to quantum RL with linear function approximation, which is capable of handling problems with large state spaces. Specifically, we develop a quantum algorithm based on value target regression (VTR) for linear mixture MDPs with $d$-dimensional linear representation and prove that it enjoys $\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regret. Our algorithms are variants of UCRL/UCRL-VTR algorithms in classical RL, which also leverage a novel combination of lazy updating mechanisms and quantum estimation subroutines. This is the key to breaking the $\Omega(\sqrt{T})$-regret barrier in classical RL. To the best of our knowledge, this is the first work studying the online exploration in quantum RL with provable logarithmic worst-case regret.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 二重四元数代数を用いた自由なヒト下肢の運動学とダイナミクスモデリング

Kinematics and Dynamics Modeling of 7 Degrees of Freedom Human Lower Limb Using Dual Quaternions Algebra ( http://arxiv.org/abs/2302.11605v2 )

ライセンス: Link先を確認
Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar, (参考訳) デナヴィトとハルテンベルクをベースとしたカルダン、フィック、オイラーの角度の手法は、3次元(3D)空間における端効果体の位置と配向を記述する。 しかし、関節空間における非現実的な人間の姿勢の生成は、十分に定義された回転順序を課すため、これらの方法の弱点となる。 変換均質な性能を扱う方法は、二重四元数を用いる。 四元数は多くの分野において回転を表す計算効率のよい方法として証明されてきたが、3D空間の翻訳には対応できない。 双対数は四元数から二元数まで拡張することができる。 本稿では,2重四元数理論を利用して,3次元空間における7自由度(DOF)ヒト下肢に対する前方,逆運動学および再帰的ニュートン・オイラー力学アルゴリズムの高速かつ正確な解を提供する。

Denavit and Hartenberg based methods as Cardan, Fick and Euler angles describe the position and orientation of an end-effector in Three Dimensional (3D) space. However, the generation of unrealistic human posture in joint space constitutes the weak point to these methods because they impose a well-defined rotations order. A method to handle the transformation homogeneous performance uses the dual quaternions. Quaternions have proven themselves in many fields as providing a computational efficient method to represent a rotation, and yet, they can not deal with the translations in 3D-space. The dual numbers can extend quaternions to dual quaternions. This paper exploits dual quaternions theory to provide a fast and accurate solution to the forward, inverse kinematics and recursive Newton-Euler dynamics algorithm for 7 Degree of Freedom (DOF) human lower limb in 3D-space.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# Vortex Feature Positioning: タブラルIIoTデータと画像に基づくディープラーニングのブリッジ

Vortex Feature Positioning: Bridging Tabular IIoT Data and Image-Based Deep Learning ( http://arxiv.org/abs/2303.09068v2 )

ライセンス: Link先を確認
Jong-Ik Park, Sihoon Seong, JunKyu Lee, Cheol-Ho Hong, (参考訳) IIoTデバイスのタブラルデータは、一般的に、高次元および数値データと競合する決定木ベースの機械学習技術を用いて分析される。 これらの制限を克服するため、畳み込みニューラルネットワークのような画像に基づくディープラーニングアプローチの強みを活用して、表型データを画像に変換する技術が開発されている。 これらの手法は類似した特徴を、実際の写真に類似した特徴の数にかかわらず、一定の大きさの異なる画像領域にクラスタリングする。 しかし、このような機能は表形式で慎重に選択されると、この問題を防ぐためにしばしば破棄されるため、オーバーフィッティングの可能性が高まる。 さらに、固定画像サイズは、少ない特徴を持つ無駄なピクセルにつながり、計算の効率が低下する。 これらの問題に対処するためにVFP(Vortex Feature Positioning)を導入する。 VFPは、それらの相関に基づいて特徴をアレンジし、類似の特徴を画像中心から渦パターンに間隔を置き、属性カウントによって画像サイズを決定する。 VFPは、さまざまな実数値属性を持つ7つのデータセットにわたるテストにおいて、従来の機械学習手法や既存の変換テクニックよりも優れています。

Tabular data from IIoT devices are typically analyzed using decision tree-based machine learning techniques, which struggle with high-dimensional and numeric data. To overcome these limitations, techniques converting tabular data into images have been developed, leveraging the strengths of image-based deep learning approaches such as Convolutional Neural Networks. These methods cluster similar features into distinct image areas with fixed sizes, regardless of the number of features, resembling actual photographs. However, this increases the possibility of overfitting, as similar features, when selected carefully in a tabular format, are often discarded to prevent this issue. Additionally, fixed image sizes can lead to wasted pixels with fewer features, resulting in computational inefficiency. We introduce Vortex Feature Positioning (VFP) to address these issues. VFP arranges features based on their correlation, spacing similar ones in a vortex pattern from the image center, with the image size determined by the attribute count. VFP outperforms traditional machine learning methods and existing conversion techniques in tests across seven datasets with varying real-valued attributes.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# デジタルカメラノイズ合成のための生成モデル

A Generative Model for Digital Camera Noise Synthesis ( http://arxiv.org/abs/2303.09199v3 )

ライセンス: Link先を確認
Mingyang Song, Yang Zhang, Tunç O. Aydın, Elham Amin Mansour, Christopher Schroers, (参考訳) ノイズ合成は、カメラ設定とともにクリーンな画像から現実的なノイズを生成することを目的とした、難易度の高い低レベル視覚課題である。 そこで本稿では, クリーンな特徴をガイダンスとして活用し, ネットワークへのノイズ注入による効果的な生成モデルを提案する。 具体的には、ジェネレータはスキップ接続を持つUNetのような構造を踏襲するが、ダウンサンプリングやアップサンプリングは行わない。 まず、クリーンな画像から深い特徴を抽出し、ガウスノイズマップをエンコーダとデコーダの遷移点に結合してノイズ源とする。 次に、雑音特性をモデル化するためにガウス雑音を注入するデコーダの雑音合成ブロックを提案する。 第3に,追加のStyle Lossを用いることで,発電機の騒音特性の監視性を向上させることを提案する。 いくつかの新しい実験を通じて、将来的な研究に有意義な洞察を得られることを期待する、発生した雑音の時間的変動と空間的相関を評価した。 最後に,提案手法はカメラノイズを合成する既存の手法よりも優れていることを示す。

Noise synthesis is a challenging low-level vision task aiming to generate realistic noise given a clean image along with the camera settings. To this end, we propose an effective generative model which utilizes clean features as guidance followed by noise injections into the network. Specifically, our generator follows a UNet-like structure with skip connections but without downsampling and upsampling layers. Firstly, we extract deep features from a clean image as the guidance and concatenate a Gaussian noise map to the transition point between the encoder and decoder as the noise source. Secondly, we propose noise synthesis blocks in the decoder in each of which we inject Gaussian noise to model the noise characteristics. Thirdly, we propose to utilize an additional Style Loss and demonstrate that this allows better noise characteristics supervision in the generator. Through a number of new experiments, we evaluate the temporal variance and the spatial correlation of the generated noise which we hope can provide meaningful insights for future works. Finally, we show that our proposed approach outperforms existing methods for synthesizing camera noise.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 確率的部分構造カウントパワーを有する高効率サブグラフGNN

An Efficient Subgraph GNN with Provable Substructure Counting Power ( http://arxiv.org/abs/2303.10576v2 )

ライセンス: Link先を確認
Zuoyu Yan, Junru Zhou, Liangcai Gao, Zhi Tang, Muhan Zhang, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)のサブストラクチャカウント能力による表現能力の向上について検討する。 近年の進歩では、入力グラフを多数のサブグラフに分割するサブグラフGNNが採用され、グラフ全体の表現を拡大するためにそれぞれにGNNが適用されるようになった。 様々なサブ構造を識別できるにもかかわらず、サブグラフGNNは計算とメモリの大幅なコストによって妨げられる。 本稿では、GNNが \textbf{efficiently} と \textbf{provably} の両方のサブ構造をカウントすることは可能か? 我々のアプローチは、サブグラフ内のルートノード間距離が、サブグラフGNNのカウント能力を高める鍵となるという理論実証から始まる。 全ての部分グラフに繰り返しGNNを適用する必要性を避けるため、この重要な距離情報をカプセル化する事前計算された構造埋め込みを導入する。 実験により,提案モデルがサブグラフGNNのカウント能力を保ちながら,性能が著しく向上することを確認した。

We investigate the enhancement of graph neural networks' (GNNs) representation power through their ability in substructure counting. Recent advances have seen the adoption of subgraph GNNs, which partition an input graph into numerous subgraphs, subsequently applying GNNs to each to augment the graph's overall representation. Despite their ability to identify various substructures, subgraph GNNs are hindered by significant computational and memory costs. In this paper, we tackle a critical question: Is it possible for GNNs to count substructures both \textbf{efficiently} and \textbf{provably}? Our approach begins with a theoretical demonstration that the distance to rooted nodes in subgraphs is key to boosting the counting power of subgraph GNNs. To avoid the need for repetitively applying GNN across all subgraphs, we introduce precomputed structural embeddings that encapsulate this crucial distance information. Experiments validate that our proposed model retains the counting power of subgraph GNNs while achieving significantly faster performance.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 人工知能とデュアルコントラクト

Artificial Intelligence and Dual Contract ( http://arxiv.org/abs/2303.12350v2 )

ライセンス: Link先を確認
Qian Qi, (参考訳) 本稿では,アルゴリズム機構設計の比較的未検討の側面である,二元原理エージェント設定におけるインセンティブ互換契約を自律的に設計する人工知能(AI)アルゴリズムの能力について検討する。 独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話する動的モデルを開発する。 この結果から、AIプリンシパル(協力対競争)の戦略的行動は、彼らの利益の整合性に決定的に左右されることが明らかとなった。 特に、より大きな利益調整は共同戦略を奨励し、エージェントインセンティブを犠牲にして高い主要な利益をもたらす。 この創発的な挙動は、様々な種類の主不均一性、複数の主成分、不確実性のある環境にまたがって持続する。 我々の研究は、特にAIアライメント問題において、戦略的操作と意図しない共謀の出現に関する重要な懸念を提起しながら、契約自動化におけるAIの可能性を強調している。

This paper explores the capacity of artificial intelligence (AI) algorithms to autonomously design incentive-compatible contracts in dual-principal-agent settings, a relatively unexplored aspect of algorithmic mechanism design. We develop a dynamic model where two principals, each equipped with independent Q-learning algorithms, interact with a single agent. Our findings reveal that the strategic behavior of AI principals (cooperation vs. competition) hinges crucially on the alignment of their profits. Notably, greater profit alignment fosters collusive strategies, yielding higher principal profits at the expense of agent incentives. This emergent behavior persists across varying degrees of principal heterogeneity, multiple principals, and environments with uncertainty. Our study underscores the potential of AI for contract automation while raising critical concerns regarding strategic manipulation and the emergence of unintended collusion in AI-driven systems, particularly in the context of the broader AI alignment problem.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 逆ロバストモデルのためのハイパーパラメータチューニング

Hyper-parameter Tuning for Adversarially Robust Models ( http://arxiv.org/abs/2304.02497v3 )

ライセンス: Link先を確認
Pedro Mendes, Paolo Romano, David Garlan, (参考訳) この研究は、ロバストモデルのためのハイパーパラメータチューニング(HPT)の問題に焦点を当て、ロバストモデルのためのHPTプロセス中に生じる新しい課題と機会に光を当てる。 この目的のために、我々は3つの一般的な深層モデルに基づいて、合計19208個の構成(GPU時間5万時間相当)に対して、徹底的に9個の(離散化された)HP、2つの忠実度次元、2つの攻撃境界を探索する広範囲な実験を行った。 本研究により,HPT問題の複雑性は,標準および逆行訓練で使用するHPを独立的に調整する必要があるため,逆行訓練においてさらに悪化することを示し,その成功(両相で異なるHP設定を採用する)は,クリーン入力と逆行入力のエラーの最大80%と43%の削減につながることを示した。 一方、ロバストモデルにおけるHPTのコスト削減のための新たな機会についても検討する。 具体的には,安価な対人訓練手法を利用して,最先端の手法を用いて達成可能な品質を,安価かつ高い相関で推定することを提案する。 我々は、この新しいアイデアを最近の多相最適化器(taKG)と組み合わせて活用することにより、HPTプロセスの効率を最大2.1倍に向上させることができることを示した。

This work focuses on the problem of hyper-parameter tuning (HPT) for robust (i.e., adversarially trained) models, shedding light on the new challenges and opportunities arising during the HPT process for robust models. To this end, we conduct an extensive experimental study based on 3 popular deep models, in which we explore exhaustively 9 (discretized) HPs, 2 fidelity dimensions, and 2 attack bounds, for a total of 19208 configurations (corresponding to 50 thousand GPU hours). Through this study, we show that the complexity of the HPT problem is further exacerbated in adversarial settings due to the need to independently tune the HPs used during standard and adversarial training: succeeding in doing so (i.e., adopting different HP settings in both phases) can lead to a reduction of up to 80% and 43% of the error for clean and adversarial inputs, respectively. On the other hand, we also identify new opportunities to reduce the cost of HPT for robust models. Specifically, we propose to leverage cheap adversarial training methods to obtain inexpensive, yet highly correlated, estimations of the quality achievable using state-of-the-art methods. We show that, by exploiting this novel idea in conjunction with a recent multi-fidelity optimizer (taKG), the efficiency of the HPT process can be enhanced by up to 2.1x.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 親和性エージェントを用いたストラテジックリソースの選択

Strategic Resource Selection with Homophilic Agents ( http://arxiv.org/abs/2305.00843v2 )

ライセンス: Link先を確認
Jonathan Gadea Harder, Simon Krogmann, Pascal Lenzner, Alexander Skopalik, (参考訳) 利己的なエージェントによるリソースの戦略的選択は古典的な研究の方向であり、リソース選択ゲームや渋滞ゲームが顕著な例である。 これらのゲームでは、エージェントは利用可能なリソースを選択し、そのユーティリティは同じリソースを使用するエージェントの数に依存する。 これは、エージェントの間に区別がない、すなわち匿名であることを意味する。 我々は、類似エージェントとの共同資源利用を目指す異種エージェントでリソース選択ゲームを提案することで、この非常に一般的な設定から脱却する。 したがって、与えられたリソースの他のユーザ数ではなく、異なるタイプのエージェントを考慮し、決定的な特徴は、ユーザ間で同じタイプのエージェントの割合である。 より正確には、Schelling Gamesと同様に、リソース上でエージェントが望む同型エージェントの最小分数を指定する許容しきい値$\tau \in [0,1]$が存在する。 エージェントは、これらのリソースのユーザの少なくとも$\tau$-fractionがそれ自身と同じタイプを持つリソースを選択しようとします。 $\tau=1$の場合、私たちのモデルはHedonic Diversity Gamesを1ドルというピークで一般化します。 一般モデルでは、均衡の存在と質、社会福祉の最大化の複雑さを考察する。 さらに、与えられたリソース上の同型エージェントの分数しか知らないが、正確な数ではないため、エージェントがリソースの効用を見積もることができるような有界合理性モデルを考える。 したがって、戦略変更がターゲットリソースに与える影響を知ることはできない。 興味深いことに、このタイプの有界な有理性は、ゲーム理論上有利な性質と、全知識設定の近似均衡をもたらす。

The strategic selection of resources by selfish agents is a classic research direction, with Resource Selection Games and Congestion Games as prominent examples. In these games, agents select available resources and their utility then depends on the number of agents using the same resources. This implies that there is no distinction between the agents, i.e., they are anonymous. We depart from this very general setting by proposing Resource Selection Games with heterogeneous agents that strive for joint resource usage with similar agents. So, instead of the number of other users of a given resource, our model considers agents with different types and the decisive feature is the fraction of same-type agents among the users. More precisely, similarly to Schelling Games, there is a tolerance threshold $\tau \in [0,1]$ which specifies the agents' desired minimum fraction of same-type agents on a resource. Agents strive to select resources where at least a $\tau$-fraction of those resources' users have the same type as themselves. For $\tau=1$, our model generalizes Hedonic Diversity Games with a peak at $1$. For our general model, we consider the existence and quality of equilibria and the complexity of maximizing social welfare. Additionally, we consider a bounded rationality model, where agents can only estimate the utility of a resource, since they only know the fraction of same-type agents on a given resource, but not the exact numbers. Thus, they cannot know the impact a strategy change would have on a target resource. Interestingly, we show that this type of bounded rationality yields favorable game-theoretic properties and specific equilibria closely approximate equilibria of the full knowledge setting.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# テンソル-ネットワークアンサッツを用いたエンタングルメント付き変分量子固有解法

Variational quantum eigensolver with embedded entanglement using a tensor-network ansatz ( http://arxiv.org/abs/2305.06536v2 )

ライセンス: Link先を確認
Ryo Watanabe, Keisuke Fujii, Hiroshi Ueda, (参考訳) 本稿では、ルドルフらによる相乗最適化フレームワーク(arXiv:2208.13673)の絡み合い増大過程にテンソルネットワーク(TN)方式を導入し、不均一なシステムにそのプロセスを体系的に構築する。 我々の相乗的アプローチはまず、TN状態の変分最適解をエントロピー領域法則に組み込み、従来の(古典的な)コンピュータで完全に最適化できる。 次に、このフレームワークは、初期状態として埋め込み状態を持つ変分量子固有解法(VQE)プロセスを実行する。 両立多スケールエンタングルメント再正規化アンサッツ(MERA)状態とMERA状態の分岐を,それぞれエントロピー領域法則と体積法則を持つTN状態として用いて,全結合ランダム逆場Ising,XYZ,Heisenbergモデルの基底状態解析に相乗性を適用した。 次に、この相乗論的手法により、分岐-MERA-インスパイアされたアンザッツの初期パラメータを推定することなく、3つのモデルのVQE計算を加速し、Isingモデルにおいて標準VQEに閉じ込められた局所解を回避することができることを示す。 オール・ツー・オール結合不均質系におけるMERA最適化器の改良、拡張、および潜在的な相乗的応用についても論じる。

In this paper, we introduce a tensor network (TN) scheme into the entanglement augmentation process of the synergistic optimization framework by Rudolph et al. [arXiv:2208.13673] to build its process systematically for inhomogeneous systems. Our synergistic approach first embeds the variational optimal solution of the TN state with the entropic area law, which can be perfectly optimized in conventional (classical) computers, in a quantum variational circuit ansatz inspired by the TN state with the entropic volume law. Next, the framework performs a variational quantum eigensolver (VQE) process with embedded states as the initial state. We applied the synergistic to the ground-state analysis of the all-to-all coupled random transverse-field Ising, XYZ, Heisenberg model, employing the binary multiscale entanglement renormalization ansatz (MERA) state and branching MERA states as TN states with entropic area law and volume law, respectively. We then show that the synergistic accelerates VQE calculations in the three models without an initial parameter guess of the branching-MERA-inspired ansatz and can avoid a local solution trapped by a standard VQE with the ansatz in the Ising model. The improvement of optimizers for MERA in all-to-all coupled inhomogeneous systems, enhancement, and potential synergistic applications are also discussed.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# Mobile-Env: LLM-GUIインタラクションのための品質評価ベンチマークの構築

Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction ( http://arxiv.org/abs/2305.08144v4 )

ライセンス: Link先を確認
Danyang Zhang, Zhennan Shen, Rui Xie, Situo Zhang, Tianbao Xie, Zihan Zhao, Siyuan Chen, Lu Chen, Hongshen Xu, Ruisheng Cao, Kai Yu, (参考訳) グラフィカルユーザインタフェース(GUI)は、デジタル世界とのヒューマンインタラクションにおいて重要な要素であり、効率的なデバイス制御と複雑なタスクの完了を可能にする。 大規模言語モデル(LLM)と視覚言語モデル(VLM)の最近の進歩は、高度なGUIエージェントを作成する機会を提供する。 それらの有効性を保証するため、信頼できる再現可能な評価を提供する適格なベンチマークが必要なのです。 この問題に対処するため,Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。 Mobile-Envは、信頼できる評価のための分離された制御可能な設定を提供し、実際の使用をより自然に反映するための中間命令と報酬を許容する。 Mobile-Envを利用することで、さまざまな現実世界のアプリと固定された世界セットにまたがるオープンワールドのタスク、WikiHowを収集します。 これらのベンチマークを用いてLLMエージェントの総合評価を行う。 以上の結果から,高度なモデル(GPT-4V,LLaMA-3など)でさえ,人間にとって比較的簡単な作業に苦しむことが明らかとなった。 これは現在のモデルにおける重要なギャップを強調し、より有能な基盤モデルとより効果的なGUIエージェントフレームワークを開発することの重要性を強調している。

The Graphical User Interface (GUI) is pivotal for human interaction with the digital world, enabling efficient device control and the completion of complex tasks. Recent progress in Large Language Models (LLMs) and Vision Language Models (VLMs) offers the chance to create advanced GUI agents. To ensure their effectiveness, there's a pressing need for qualified benchmarks that provide trustworthy and reproducible evaluations -- a challenge current benchmarks often fail to address. To tackle this issue, we introduce Mobile-Env, a comprehensive toolkit tailored for creating GUI benchmarks in the Android mobile environment. Mobile-Env offers an isolated and controllable setting for reliable evaluations, and accommodates intermediate instructions and rewards to reflect real-world usage more naturally. Utilizing Mobile-Env, we collect an open-world task set across various real-world apps and a fixed world set, WikiHow, which captures a significant amount of dynamic online contents for fully controllable and reproducible evaluation. We conduct comprehensive evaluations of LLM agents using these benchmarks. Our findings reveal that even advanced models (e.g., GPT-4V and LLaMA-3) struggle with tasks that are relatively simple for humans. This highlights a crucial gap in current models and underscores the importance of developing more capable foundation models and more effective GUI agent frameworks.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 回帰誤差の一般推定に基づくリッジレス最小方形推定器の予測リスクと推定リスク

Prediction Risk and Estimation Risk of the Ridgeless Least Squares Estimator under General Assumptions on Regression Errors ( http://arxiv.org/abs/2305.12883v3 )

ライセンス: Link先を確認
Sungyoon Lee, Sokbae Lee, (参考訳) 近年、最小$\ell_2$ノルム(リッジレス)補間最小二乗推定器に焦点をあてる研究が著しい成長を遂げている。 しかし、これらの分析の大部分は非現実的な回帰誤差構造に限られており、平均と共通分散をゼロとする独立かつ同一の分散誤差を仮定している。 本稿では,より一般的な回帰誤差仮定の下での予測リスクと推定リスクについて検討し,クラスタ化やシリアル依存が可能なより現実的な環境で過パラメータ化の利点を明らかにする。 特に, 回帰誤差の分散共分散行列のトレースにより, 両リスクの分散成分に関する推定困難さを要約できることを確認した。 その結果,過パラメータ化の利点は時系列,パネル,グループ化データにまで拡張できることが示唆された。

In recent years, there has been a significant growth in research focusing on minimum $\ell_2$ norm (ridgeless) interpolation least squares estimators. However, the majority of these analyses have been limited to an unrealistic regression error structure, assuming independent and identically distributed errors with zero mean and common variance. In this paper, we explore prediction risk as well as estimation risk under more general regression error assumptions, highlighting the benefits of overparameterization in a more realistic setting that allows for clustered or serial dependence. Notably, we establish that the estimation difficulties associated with the variance components of both risks can be summarized through the trace of the variance-covariance matrix of the regression errors. Our findings suggest that the benefits of overparameterization can extend to time series, panel and grouped data.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# 知識アライメント問題:大規模言語モデルのための人間と外的知識のブリッジ

The Knowledge Alignment Problem: Bridging Human and External Knowledge for Large Language Models ( http://arxiv.org/abs/2305.13669v3 )

ライセンス: Link先を確認
Shuo Zhang, Liangming Pan, Junzhou Zhao, William Yang Wang, (参考訳) 大規模な言語モデルは、信頼できる答えを生成するために、しばしば外部知識の基盤を必要とする。 しかし、基準に正しい根拠があるとしても、彼らはそれらを無視し、間違った根拠やその固有のバイアスに頼って、ユーザーが記憶されている情報の詳細をほとんど知らないときに幻覚を起こさせる。 本研究では,この知識アライメント問題を定式化し,ユーザと知識ベースの両方と相互作用するフレームワークであるMixAlignを導入する。 MixAlignは、自動的な知識アライメントを達成するために言語モデルを使用し、必要に応じて、人間のユーザによる明確化を通じて、このアライメントをさらに強化する。 実験結果から、モデル性能の向上と幻覚の緩和における知識アライメントの重要性が強調され、それぞれ22.2%と27.1%の改善が指摘された。 また,MixAlignが高品質でユーザ中心の明確化を実現することにより,知識アライメントの向上に有効であることを示す。

Large language models often necessitate grounding on external knowledge to generate faithful and reliable answers. Yet even with the correct groundings in the reference, they can ignore them and rely on wrong groundings or their inherent biases to hallucinate when users, being largely unaware of the specifics of the stored information, pose questions that might not directly correlate with the retrieved groundings. In this work, we formulate this knowledge alignment problem and introduce MixAlign, a framework that interacts with both the human user and the knowledge base to obtain and integrate clarifications on how the user question relates to the stored information. MixAlign employs a language model to achieve automatic knowledge alignment and, if necessary, further enhances this alignment through human user clarifications. Experimental results highlight the crucial role of knowledge alignment in boosting model performance and mitigating hallucination, with improvements noted up to 22.2% and 27.1% respectively. We also demonstrate the effectiveness of MixAlign in improving knowledge alignment by producing high-quality, user-centered clarifications.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-13
# Z-GMOT:ゼロショットジェネリック多目的追跡

Z-GMOT: Zero-shot Generic Multiple Object Tracking ( http://arxiv.org/abs/2305.17648v4 )

ライセンス: Link先を確認
Kim Hoang Tran, Anh Duy Le Dinh, Tien Phat Nguyen, Thinh Phan, Pha Nguyen, Khoa Luu, Donald Adjeroh, Gianfranco Doretto, Ngan Hoang Le, (参考訳) 最近の顕著な進歩にもかかわらず、MOT(Multi-Object Tracking)は、事前知識や事前定義されたカテゴリへの依存や、目に見えないオブジェクトとの競合といった制限に直面している。 これらの問題に対処するため、GMOT(Generic Multiple Object Tracking)が代替のアプローチとして登場し、事前情報が少なくなった。 しかし、現在のGMOT法は、しばしば初期境界ボックスに依存し、視点、照明、閉塞、スケールなど様々な要因を扱うのに苦労する。 私たちのコントリビューションは、ビデオの集合である‘textit{Referring GMOT dataset}の導入から始まり、それぞれの属性の詳細なテキスト記述が伴います。 次に、初期境界ボックスや事前定義されたカテゴリを必要とせずに、 \textit{never-seen category} からオブジェクトを追跡することができる最先端追跡ソリューションである $\mathtt{Z-GMOT}$ を提案する。 私たちは$\mathtt{Z-GMOT}$フレームワークの中で、2つの新しいコンポーネントを紹介します。 (i) $\matht{iGLIP}$は、特定の特徴を持つ未確認オブジェクトを正確に検出する、改良されたグラウンドド言語イメージ事前トレーニングである。 (ii) $\mathtt{MA-SORT}$は、動きと外見に基づくマッチング戦略を包括的に統合して、オブジェクトを高い類似性で追跡する複雑なタスクに取り組む、新しいオブジェクトアソシエーションアプローチである。 我々のコントリビューションは、GMOTタスクのためのReferring GMOTデータセットで実施された広範な実験を通じてベンチマークされる。 さらに、提案した$\mathtt{Z-GMOT}$の一般化性を評価するために、MOTタスクのためのDanceTrackおよびMOT20データセットのアブレーション研究を行う。 私たちのデータセット、コード、モデルは、https://fsoft-aic.github.io/Z-GMOT.com/でリリースされます。

Despite recent significant progress, Multi-Object Tracking (MOT) faces limitations such as reliance on prior knowledge and predefined categories and struggles with unseen objects. To address these issues, Generic Multiple Object Tracking (GMOT) has emerged as an alternative approach, requiring less prior information. However, current GMOT methods often rely on initial bounding boxes and struggle to handle variations in factors such as viewpoint, lighting, occlusion, and scale, among others. Our contributions commence with the introduction of the \textit{Referring GMOT dataset} a collection of videos, each accompanied by detailed textual descriptions of their attributes. Subsequently, we propose $\mathtt{Z-GMOT}$, a cutting-edge tracking solution capable of tracking objects from \textit{never-seen categories} without the need of initial bounding boxes or predefined categories. Within our $\mathtt{Z-GMOT}$ framework, we introduce two novel components: (i) $\mathtt{iGLIP}$, an improved Grounded language-image pretraining, for accurately detecting unseen objects with specific characteristics. (ii) $\mathtt{MA-SORT}$, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking objects with high similarity. Our contributions are benchmarked through extensive experiments conducted on the Referring GMOT dataset for GMOT task. Additionally, to assess the generalizability of the proposed $\mathtt{Z-GMOT}$, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models are released at: https://fsoft-aic.github.io/Z-GMOT.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 中国病の正規化のための簡易データ拡張技術

Simple Data Augmentation Techniques for Chinese Disease Normalization ( http://arxiv.org/abs/2306.01931v3 )

ライセンス: Link先を確認
Wenqian Cui, Xiangling Fu, Shaohui Liu, Mingjun Gu, Xien Liu, Ji Wu, Irwin King, (参考訳) 病名正規化は医療分野において重要な課題である。 様々なフォーマットで書かれた疾患名を標準化された名前に分類し、さまざまな疾患関連機能のためのスマートヘルスケアシステムの基本コンポーネントとして機能する。 それでも、既存の病名正規化システムにとって最も重要な障害は、トレーニングデータの不足である。 そこで本研究では,一連のデータ拡張技術と,問題を緩和するためのサポートモジュールを含む,新たなデータ拡張手法を提案する。 提案手法は,疾患名の構造的不変性と疾患分類システムの階層性に依存する。 本研究の目的は, 疾患名分類システムの階層構造と, 疾患名に対する広範囲の理解をモデルに組み込むことである。 大規模な実験を通じて,提案手法は様々なベースラインモデルおよびトレーニング目標,特に限られたトレーニングデータを持つシナリオにおいて,大幅な性能向上を示すことを示す。

Disease name normalization is an important task in the medical domain. It classifies disease names written in various formats into standardized names, serving as a fundamental component in smart healthcare systems for various disease-related functions. Nevertheless, the most significant obstacle to existing disease name normalization systems is the severe shortage of training data. Consequently, we present a novel data augmentation approach that includes a series of data augmentation techniques and some supporting modules to help mitigate the problem. Our proposed methods rely on the Structural Invariance property of disease names and the Hierarchy property of the disease classification system. The goal is to equip the models with extensive understanding of the disease names and the hierarchical structure of the disease name classification system. Through extensive experimentation, we illustrate that our proposed approach exhibits significant performance improvements across various baseline models and training objectives, particularly in scenarios with limited training data.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 分散SGDアルゴリズムの安定性と一般化保証の改善

Improved Stability and Generalization Guarantees of the Decentralized SGD Algorithm ( http://arxiv.org/abs/2306.02939v4 )

ライセンス: Link先を確認
Batiste Le Bars, Aurélien Bellet, Marc Tommasi, Kevin Scaman, Giovanni Neglia, (参考訳) 本稿では,アルゴリズムの安定性に基づく分散確率勾配 Descent (D-SGD) の新しい一般化誤差解析法を提案する。 その結果、分散化による不安定性の増大と、疎結合な通信グラフの一般化に対する有害な影響が示唆された最近の一連の研究がオーバーホールされた。 逆に、凸、強凸、非凸関数に対して、D-SGDは古典的なSGDと類似した一般化境界を常に回復できることを示し、グラフの選択は重要でないことを示唆する。 そして、この結果は最悪のケース解析の結果であり、一般凸関数に対して洗練された最適化依存の一般化を提供する。 この新たなバウンドは、グラフの選択がある種のレジームにおける最悪のケースバウンドを改善することができ、驚くべきことに、連結されていないグラフが一般化に有用であることを示している。

This paper presents a new generalization error analysis for Decentralized Stochastic Gradient Descent (D-SGD) based on algorithmic stability. The obtained results overhaul a series of recent works that suggested an increased instability due to decentralization and a detrimental impact of poorly-connected communication graphs on generalization. On the contrary, we show, for convex, strongly convex and non-convex functions, that D-SGD can always recover generalization bounds analogous to those of classical SGD, suggesting that the choice of graph does not matter. We then argue that this result is coming from a worst-case analysis, and we provide a refined optimization-dependent generalization bound for general convex functions. This new bound reveals that the choice of graph can in fact improve the worst-case bound in certain regimes, and that surprisingly, a poorly-connected graph can even be beneficial for generalization.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# ラベル付きマルチモーダルデータを必要としないマルチモーダル学習:保証と応用

Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications ( http://arxiv.org/abs/2306.04539v2 )

ライセンス: Link先を確認
Paul Pu Liang, Chun Kai Ling, Yun Cheng, Alex Obolenskiy, Yudong Liu, Rohan Pandey, Alex Wilf, Louis-Philippe Morency, Ruslan Salakhutdinov, (参考訳) 複数のモーダルから共同で学習する多くの機械学習システムにおいて、中心となる研究課題はマルチモーダル相互作用の性質を理解することである。 本研究では,ラベル付き一助データのみと自然に共起するマルチモーダルデータ(例えば,ラベル付き画像やキャプション,ビデオ,対応するオーディオ)を用いた半教師付き環境でのインタラクション定量化の課題について検討するが,ラベル付けには時間を要する。 相互作用の正確な情報理論的定義を用いて、この半教師付き環境でのマルチモーダル相互作用の量を定量化するために、下界と上界の導出が重要な貢献である。 2つの下界を提案する: 1つはモダリティと、もう1つは個別に訓練された単項分類器間の不一致に基づく共有情報に基づいており、もう1つは、最小エントロピー結合の近似アルゴリズムへの接続を通して上界を導出する。 これらの推定境界を検証し、実際の相互作用を正確に追跡する方法を示す。 最後に、これらの理論結果を用いて、マルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法を示す。

In many machine learning systems that jointly learn from multiple modalities, a core research question is to understand the nature of multimodal interactions: how modalities combine to provide new task-relevant information that was not present in either alone. We study this challenge of interaction quantification in a semi-supervised setting with only labeled unimodal data and naturally co-occurring multimodal data (e.g., unlabeled images and captions, video and corresponding audio) but when labeling them is time-consuming. Using a precise information-theoretic definition of interactions, our key contribution is the derivation of lower and upper bounds to quantify the amount of multimodal interactions in this semi-supervised setting. We propose two lower bounds: one based on the shared information between modalities and the other based on disagreement between separately trained unimodal classifiers, and derive an upper bound through connections to approximate algorithms for min-entropy couplings. We validate these estimated bounds and show how they accurately track true interactions. Finally, we show how these theoretical results can be used to estimate multimodal model performance, guide data collection, and select appropriate multimodal models for various tasks.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# フィードバック冷却型超低温原子ガスの基本限界

Fundamental Limits of Feedback Cooling Ultracold Atomic Gases ( http://arxiv.org/abs/2306.09846v2 )

ライセンス: Link先を確認
Zain Mehdi, Simon A. Haine, Joseph J. Hope, Stuart S. Szigeti, (参考訳) 量子フィードバック制御による超低温原子ガス冷却の基礎的生存可能性について検討する。 本研究は,光学画像技術の分解能と破壊性との間のトレードオフが,フィードバック冷却の有効性に制約を課し,熱ガスの冷却には急激な再熱処理が必要であることを示す。 本研究では, 密度変動の可視化, 測定誘起加熱, 3体原子再結合により, フィードバック冷却の限界を決定するための簡単なモデルを構築した。 フィードバック制御は, 準2次元領域の高温熱雲を急速に冷却し, 従来の蒸発に比べて最小の原子損失で温度を低下させることができることを示した。 解析の結果,超低温の原子ガスを冷却するフィードバックが実現可能であることが確認され,現在のアプローチでは実現不可能な新しい冷却状態への道筋がもたらされた。

We investigate the fundamental viability of cooling ultracold atomic gases with quantum feedback control. Our study shows that the trade-off between the resolution and destructiveness of optical imaging techniques imposes constraints on the efficacy of feedback cooling, and that rapid rethermalization is necessary for cooling thermal gases. We construct a simple model to determine the limits to feedback cooling set by the visibility of density fluctuations, measurement-induced heating, and three-body atomic recombination. We demonstrate that feedback control can rapidly cool high-temperature thermal clouds in quasi-2D geometries to degenerate temperatures with minimal atom loss compared to traditional evaporation. Our analysis confirms the feasibility of feedback cooling ultracold atomic gases, providing a pathway to new regimes of cooling not achievable with current approaches.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# DIAS: DSAシークエンスにおける頭蓋内動脈セグメンテーションのためのデータセットとベンチマーク

DIAS: A Dataset and Benchmark for Intracranial Artery Segmentation in DSA sequences ( http://arxiv.org/abs/2306.12153v4 )

ライセンス: Link先を確認
Wentao Liu, Tong Tian, Lemeng Wang, Weijin Xu, Lei Li, Haoyuan Li, Wenyi Zhao, Siyu Tian, Xipeng Pan, Huihua Yang, Feng Gao, Yiming Deng, Xin Yang, Ruisheng Su, (参考訳) DSA(Digital Subtraction Angiography)における頭蓋内動脈の自動分節は血管形態の定量化において重要な役割を担い、コンピュータ支援脳卒中研究や臨床実践に大きく貢献する。 現在の研究は、主にプロプライエタリデータセットを使用した単一フレームDSAのセグメンテーションに焦点を当てている。 しかし、これらの手法は、一部の血管コントラストしか表示しない単一フレームのDSAに固有の制限があり、正確な血管構造の表現を妨げているため、課題に直面している。 本研究では,DSAシークエンスにおけるIAセグメンテーションのためのデータセットであるDIASを紹介する。 完全,弱,半教師付きセグメンテーション手法を網羅し,DIASを評価するための総合ベンチマークを構築した。 具体的には, 血管内コントラストの時空間的表現を効果的に捉え, 2D+Time DSA配列で頭蓋内動脈分節を達成できる血管配列分節ネットワークを提案する。 弱教師付きIAセグメンテーションのために,スクリブルラベルの指導のもと,クロス擬似スーパービジョンと整合性正規化を採用し,セグメンテーションネットワークの性能を向上させる新しいスクリブル学習ベース画像セグメンテーションフレームワークを提案する。 さらに、アノテートDSAデータの可用性が制限されているため、IAセグメンテーションで発生するパフォーマンス制約を軽減することを目的とした、ランダムパッチベースのセルフトレーニングフレームワークを導入する。 DIASデータセットに関する広範な実験は、これらの手法が今後の研究および臨床応用の基盤となる可能性を示すものである。 データセットとコードはhttps://doi.org/10.5281/zenodo.11396520とhttps://github.com/lseventeen/DIASで公開されている。

The automated segmentation of Intracranial Arteries (IA) in Digital Subtraction Angiography (DSA) plays a crucial role in the quantification of vascular morphology, significantly contributing to computer-assisted stroke research and clinical practice. Current research primarily focuses on the segmentation of single-frame DSA using proprietary datasets. However, these methods face challenges due to the inherent limitation of single-frame DSA, which only partially displays vascular contrast, thereby hindering accurate vascular structure representation. In this work, we introduce DIAS, a dataset specifically developed for IA segmentation in DSA sequences. We establish a comprehensive benchmark for evaluating DIAS, covering full, weak, and semi-supervised segmentation methods. Specifically, we propose the vessel sequence segmentation network, in which the sequence feature extraction module effectively captures spatiotemporal representations of intravascular contrast, achieving intracranial artery segmentation in 2D+Time DSA sequences. For weakly-supervised IA segmentation, we propose a novel scribble learning-based image segmentation framework, which, under the guidance of scribble labels, employs cross pseudo-supervision and consistency regularization to improve the performance of the segmentation network. Furthermore, we introduce the random patch-based self-training framework, aimed at alleviating the performance constraints encountered in IA segmentation due to the limited availability of annotated DSA data. Our extensive experiments on the DIAS dataset demonstrate the effectiveness of these methods as potential baselines for future research and clinical applications. The dataset and code are publicly available at https://doi.org/10.5281/zenodo.11396520 and https://github.com/lseventeen/DIAS.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# パスフィンディング問題に対する量子アルゴリズムの指数的高速化

Exponential speedup of quantum algorithms for the pathfinding problem ( http://arxiv.org/abs/2307.12492v2 )

ライセンス: Link先を確認
Jianqiang Li, (参考訳) 非重みのないグラフで$s, t$が与えられたとき、パスフィンディング問題の目標は、$s$-$t$パスを見つけることである。 本研究では、まず溶接木に基づいてグラフ$G$を構築し、隣接性リスト oracle $O$ においてパスフィニング問題を定義する。 次に、グラフの$G$で$s$-$t$パスを見つけるための効率的な量子アルゴリズムを提供する。 最後に、古典的なアルゴリズムが確率の高い指数時間で$s$-$t$パスを見つけることはできないことを証明した。 パスフィンディング問題は、グラフに関する基本的な問題の1つである。 量子アルゴリズムは, 様々な分野における量子計算の実用化に向けて, パスフィニング問題を解き, 新たな可能性を開くために, より多くの種類のグラフに利点をもたらす可能性が示唆された。

Given $s, t$ in an unweighted undirected graph $G$, the goal of the pathfinding problem is to find an $s$-$t$ path. In this work, we first construct a graph $G$ based on welded trees and define a pathfinding problem in the adjacency list oracle $O$. Then we provide an efficient quantum algorithm to find an $s$-$t$ path in the graph $G$. Finally, we prove that no classical algorithm can find an $s$-$t$ path in subexponential time with high probability. The pathfinding problem is one of the fundamental graph-related problems. Our findings suggest that quantum algorithms may potentially offer advantages in more types of graphs to solve the pathfinding problem and open up new possibilities for practical applications of quantum computations in various fields.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# ニューラルトピカル表現の一般化に向けて

Towards Generalising Neural Topical Representations ( http://arxiv.org/abs/2307.12564v4 )

ライセンス: Link先を確認
Xiaohao Yang, He Zhao, Dinh Phung, Lan Du, (参考訳) トピックモデルは従来のベイズ確率モデルから最近のニューラルトピックモデル(NTM)へと進化してきた。 NTMは特定のコーパスでトレーニングおよびテストを行う際に有望な性能を示したが、コーパス間の一般化能力はまだ研究されていない。 実際には、ソースコーパスでトレーニングされたNTMが、異なるターゲットコーパスから一定の程度まで文書の質の高いトピック表現(トピック上の潜在分布)を生成できると期待されることが多い。 本研究では,文書の表現能力がコーパスやタスク全体にわたって確実に一般化されるように,NTMをさらに改良することを目指している。 そこで我々は,類似文書間の意味的距離を狭め,異なるコーパスからの文書が類似した意味を共有できるという前提のもとに,NTMの強化を提案する。 具体的には、テキストデータ拡張により、トレーニング文書毎に類似した文書を取得する。 次に、各ペア間の意味的距離をTopical Optimal Transport (TopicalOT) 距離で最小化し、トピック表現間の最適な移動距離を算出することにより、NTMをさらに最適化する。 我々のフレームワークは、ほとんどのNTMにプラグイン・アンド・プレイモジュールとして簡単に適用できます。 大規模な実験により, コーパス間の神経トピック表現に関する一般化能力は大幅に向上した。 私たちのコードとデータセットは、https://github.com/Xiaohao-Yang/Topic_Model_Generalisation.comで公開されています。

Topic models have evolved from conventional Bayesian probabilistic models to recent Neural Topic Models (NTMs). Although NTMs have shown promising performance when trained and tested on a specific corpus, their generalisation ability across corpora has yet to be studied. In practice, we often expect that an NTM trained on a source corpus can still produce quality topical representation (i.e., latent distribution over topics) for the document from different target corpora to a certain degree. In this work, we aim to improve NTMs further so that their representation power for documents generalises reliably across corpora and tasks. To do so, we propose to enhance NTMs by narrowing the semantic distance between similar documents, with the underlying assumption that documents from different corpora may share similar semantics. Specifically, we obtain a similar document for each training document by text data augmentation. Then, we optimise NTMs further by minimising the semantic distance between each pair, measured by the Topical Optimal Transport (TopicalOT) distance, which computes the optimal transport distance between their topical representations. Our framework can be readily applied to most NTMs as a plug-and-play module. Extensive experiments show that our framework significantly improves the generalisation ability regarding neural topical representation across corpora. Our code and datasets are available at: https://github.com/Xiaohao-Yang/Topic_Model_Generalisation.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 共有特徴量モデリングによるモダリティの欠如を考慮したマルチモーダル学習

Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling ( http://arxiv.org/abs/2307.14126v2 )

ライセンス: Link先を確認
Hu Wang, Yuanhong Chen, Congbo Ma, Jodie Avery, Louise Hull, Gustavo Carneiro, (参考訳) モダリティの欠如は重要な問題であるが、マルチモーダルモデルによって解決されるのは自明ではない。 マルチモーダルタスクで欠落したモダリティ問題に対処することを目的とした現在の手法では、評価中のみ欠落したモダリティを扱うか、特定のモダリティ設定を扱うために個別モデルを訓練する。 さらに、これらのモデルは特定のタスクのために設計されており、例えば、分類モデルはセグメンテーションタスクに容易に適応せず、その逆も同様である。 本稿では、上記の問題に対処する競合するアプローチよりもはるかにシンプルで効果的である共有特徴モデリング(ShaSpec)手法を提案する。 ShaSpecは、トレーニング中に利用可能なすべての入力モダリティを活用し、共有機能と特定の機能を学び、入力データをより良く表現することで評価するように設計されている。 これは分散アライメントとドメイン分類に基づく補助的なタスクに依存する戦略と、残像融合法によって達成される。 また、ShaSpecの設計の単純さにより、分類やセグメンテーションといった複数のタスクへの適応が容易になる。 医用画像のセグメンテーションとコンピュータビジョンの分類において実験を行い、ShaSpecは競合する手法よりも大きなマージンで優れていることを示した。 例えば、BraTS2018では、ShaSpecは腫瘍を増強するためのSOTAを3%以上改善し、腫瘍コアを5%、腫瘍全体を3%改善した。 コードリポジトリのアドレスはhttps://github.com/billhhh/ShaSpec/である。

The missing modality issue is critical but non-trivial to be solved by multi-modal models. Current methods aiming to handle the missing modality problem in multi-modal tasks, either deal with missing modalities only during evaluation or train separate models to handle specific missing modality settings. In addition, these models are designed for specific tasks, so for example, classification models are not easily adapted to segmentation tasks and vice versa. In this paper, we propose the Shared-Specific Feature Modelling (ShaSpec) method that is considerably simpler and more effective than competing approaches that address the issues above. ShaSpec is designed to take advantage of all available input modalities during training and evaluation by learning shared and specific features to better represent the input data. This is achieved from a strategy that relies on auxiliary tasks based on distribution alignment and domain classification, in addition to a residual feature fusion procedure. Also, the design simplicity of ShaSpec enables its easy adaptation to multiple tasks, such as classification and segmentation. Experiments are conducted on both medical image segmentation and computer vision classification, with results indicating that ShaSpec outperforms competing methods by a large margin. For instance, on BraTS2018, ShaSpec improves the SOTA by more than 3% for enhancing tumour, 5% for tumour core and 3% for whole tumour. The code repository address is https://github.com/billhhh/ShaSpec/.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 光格子中の強相互作用ボース気体の散逸ダイナミクスの半古典的記述

Semiclassical descriptions of dissipative dynamics of strongly interacting Bose gases in optical lattices ( http://arxiv.org/abs/2307.16170v2 )

ライセンス: Link先を確認
Kazuma Nagao, Ippei Danshita, Seiji Yunoki, (参考訳) 我々は,超低温気体を用いた実験で実現可能な,散逸性Bose-Hubbard系の実時間力学を記述するための半古典的手法を開発した。 具体的には、システムの効果的なリンドブラッドマスター方程式を解くために、2種類のSU(3) truncated Wigner近似(TWA)を提案する。 1つ目は、有限レベルまたはスピン系に対して離散的TWAを使用し、オンサイト散逸項とオンサイト相互作用項が位相空間変数で線型化される古典的な運動方程式に基づいている。 他方のアプローチでは、非線形ドリフト力と確率的力項のデコヒーレンス効果を含む確率的ランゲヴィン方程式を用いて、軌道の初期条件を典型的な初期量子状態に対する準確率分布で重み付けする。 これらの手法を2体損失のあるシステムに適用し、その結果を小型システムの正確な数値解と比較する。 前者のアプローチは後者のアプローチよりも長い時間的ダイナミクスを正確にシミュレートできることが示される。 また、実験に匹敵する大規模なセットアップの時間進化を計算する。 実験により得られた超流動-モット絶縁体クロスオーバーにおけるホッピング振幅とオンサイト相互作用の比の段階的変化にともなう力学に対する連続量子ゼノ効果を,離散的TWA法により定性的に捉えることができることを示す。

We develop semiclassical methods for describing real-time dynamics of dissipative Bose-Hubbard systems in a strongly interacting regime, which can be realized in experiments with ultracold gases. Specifically, we present two kinds of SU(3) truncated Wigner approximation (TWA) for solving an effective Lindblad master equation of the systems. The first one employs the discrete TWA for finite levels or spin systems and is based on a classical equation of motion in which the onsite dissipation term, as well as the onsite interaction term, is linearized in the phase space variables. The other approach utilizes a stochastic Langevin equation, including decoherence effects in terms of nonlinear drift force and stochastic force terms, in which the initial conditions of trajectories are weighted with a quasiprobability distribution for a typical initial quantum state. We apply these methods to the systems with two-body losses and compare their results with the exact numerical solutions for a small system. We show that the former approach can simulate correctly longer-time dynamics than the latter one. We also calculate the time evolution for a large size setup that is comparable to experiments. We numerically demonstrate that the discrete TWA approach is able to qualitatively capture the continuous quantum Zeno effect on dynamics subjected to a gradual change of the ratio between the hopping amplitude and the onsite interaction across the superfluid-Mott insulator crossover, which has been observed experimentally.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# ネットワーク型マルチエージェントマルコフ決定過程に対する連続時間分散動的計画法

Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v7 )

ライセンス: Link先を確認
Donghwan Lee, Han-Dong Lim, Do Wan Kim, (参考訳) 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する連続時間分散動的プログラミング(DP)アルゴリズムについて検討する。 本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。 さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。 まず,Wang と Elia の分散最適化手法に着想を得た分散DPを提案する。 次に、デカップリングプロセスを通じて、新しい分散DPを導入する。 DPアルゴリズムの収束はシステムと制御の観点から証明される。 本稿では,分散時間差学習アルゴリズムについて述べる。

The main goal of this paper is to investigate continuous-time distributed dynamic programming (DP) algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Moreover, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. We first introduce a novel distributed DP, inspired by the distributed optimization method of Wang and Elia. Next, a new distributed DP is introduced through a decoupling process. The convergence of the DP algorithms is proved through systems and control perspectives. The study in this paper sets the stage for new distributed temporal different learning algorithms.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 長距離反強磁性イジング鎖のニューラルネットワーク量子状態の研究

Neural-network quantum state study of the long-range antiferromagnetic Ising chain ( http://arxiv.org/abs/2308.09709v3 )

ライセンス: Link先を確認
Jicheol Kim, Dongkyu Kim, Dong-Hee Kim, (参考訳) 実験波動関数アンサッツとして用いられる制限ボルツマン機械を用いたモンテカルロ法を用いて, 代数的に減衰する長距離(LR)反強磁性相互作用を持つ横磁場イジング鎖の量子相転移について検討した。 まず,有限サイズスケーリング解析を用いて臨界指数と中心電荷を測定し,従来のテンソルネットワーク研究におけるコントラスト観測を検証する。 相関関数指数と中心電荷は、短距離(SR)Ising値から小さい崩壊指数$\alpha_\mathrm{LR}$にずれるが、他の臨界指数は、$\alpha_\mathrm{LR}$によらずSRIsing指数に非常に近い。 しかし、臨界バインダー比のさらなるテストでは、SR極限の普遍比が$\alpha_\mathrm{LR} < 2$を保たず、臨界度の偏差を示唆する。 一方, 相関関数の共形場理論(CFT)テストにおいて, 共形不等式分解の証拠を見出した。 CFT記述からの偏差は $\alpha_\mathrm{LR}$ とより強調されるが、正確な分解しきい値はまだ決定されていない。

We investigate quantum phase transitions in the transverse field Ising chain with algebraically decaying long-range (LR) antiferromagnetic interactions using the variational Monte Carlo method with the restricted Boltzmann machine employed as a trial wave function ansatz. First, we measure the critical exponents and the central charge through the finite-size scaling analysis, verifying the contrasting observations in the previous tensor network studies. The correlation function exponent and the central charge deviate from the short-range (SR) Ising values at a small decay exponent $\alpha_\mathrm{LR}$, while the other critical exponents examined are very close to the SR Ising exponents regardless of $\alpha_\mathrm{LR}$ examined. However, in the further test of the critical Binder ratio, we find that the universal ratio of the SR limit does not hold for $\alpha_\mathrm{LR} < 2$, implying a deviation in the criticality. On the other hand, we find evidence of the conformal invariance breakdown in the conformal field theory (CFT) test of the correlation function. The deviation from the CFT description becomes more pronounced as $\alpha_\mathrm{LR}$ decreases, although a precise breakdown threshold is yet to be determined.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 臨床ノートを用いた公開共有型臨床大言語モデル

Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes ( http://arxiv.org/abs/2309.00237v3 )

ライセンス: Link先を確認
Sunjun Kweon, Junu Kim, Jiyoun Kim, Sujeong Im, Eunbyeol Cho, Seongsu Bae, Jungwoo Oh, Gyubok Lee, Jong Hak Moon, Seng Chan You, Seungjin Baek, Chang Hoon Han, Yoon Bin Jung, Yohan Jo, Edward Choi, (参考訳) 患者の臨床ノートを扱うために設計された大規模言語モデルの開発は、厳格なプライバシー規制のために、これらのノートのアクセシビリティとユーザビリティの制限によって、しばしば妨げられる。 これらの課題に対処するために,バイオメディカル文献から抽出した公開事例報告を用いて,まず大規模な臨床ノートを作成する。 次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。 Asclepiusは、合成データに基づいて訓練されているが、実際の臨床記録を用いて、実際の応用における潜在的な性能を評価する。 我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。 合成ノートを用いたアプローチをさらに検証するため,Asclepiusを実際の臨床ノートで訓練した変種と比較した。 本研究は, ハイパフォーマンスな臨床言語モデルを構築する際に, 実物の代用として有効であることを示すものである。 この結論は、GPT-4と医療専門家の双方による詳細な評価によって裏付けられている。 アスクレピウスの開発に使用される重み、コード、データを含む全ての資源は、将来の研究のために一般に公開されている。 (https://github.com/starmpcc/Asclepius)

The development of large language models tailored for handling patients' clinical notes is often hindered by the limited accessibility and usability of these notes due to strict privacy regulations. To address these challenges, we first create synthetic large-scale clinical notes using publicly available case reports extracted from biomedical literature. We then use these synthetic notes to train our specialized clinical large language model, Asclepius. While Asclepius is trained on synthetic data, we assess its potential performance in real-world applications by evaluating it using real clinical notes. We benchmark Asclepius against several other large language models, including GPT-3.5-turbo and other open-source alternatives. To further validate our approach using synthetic notes, we also compare Asclepius with its variants trained on real clinical notes. Our findings convincingly demonstrate that synthetic clinical notes can serve as viable substitutes for real ones when constructing high-performing clinical language models. This conclusion is supported by detailed evaluations conducted by both GPT-4 and medical professionals. All resources including weights, codes, and data used in the development of Asclepius are made publicly accessible for future research. (https://github.com/starmpcc/Asclepius)
翻訳日:2024-06-15 02:29:06 公開日:2024-06-13
# 弱音ラベルとAV-Mixupを用いたロバスト・オーディオ・ビジュアル・スピーカーの検証

Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification ( http://arxiv.org/abs/2309.07115v2 )

ライセンス: Link先を確認
Anith Selvakumar, Homa Fashandi, (参考訳) 距離距離メトリックラーニング(DML)は、新しいクラスや目に見えないクラスでの性能が強いため、通常、音声と視覚による話者認証の問題領域を支配してきた。 そこで本研究では,DMLをさらに強化するマルチタスク学習手法について検討し,弱いラベルを持つ補助タスクが,推論時のモデル複雑性を増大させることなく,学習話者表現の質を高めることを示す。 また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。 最後に,AV-Mixupについて述べる。これは,話者過度を減少させる訓練時間におけるマルチモーダル拡張手法である。 我々のネットワークは,VoxCeleb1-O/E/Hテストセットにおいて,0.244%,0.252%,0.441%の誤り率(EER)を報告し,話者検証の最先端性能を実現している。

Distance Metric Learning (DML) has typically dominated the audio-visual speaker verification problem space, owing to strong performance in new and unseen classes. In our work, we explored multitask learning techniques to further enhance DML, and show that an auxiliary task with even weak labels can increase the quality of the learned speaker representation without increasing model complexity during inference. We also extend the Generalized End-to-End Loss (GE2E) to multimodal inputs and demonstrate that it can achieve competitive performance in an audio-visual space. Finally, we introduce AV-Mixup, a multimodal augmentation technique during training time that has shown to reduce speaker overfit. Our network achieves state of the art performance for speaker verification, reporting 0.244%, 0.252%, 0.441% Equal Error Rate (EER) on the VoxCeleb1-O/E/H test sets, which is to our knowledge, the best published results on VoxCeleb1-E and VoxCeleb1-H.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# PCN: 新しいグラフ構築法とチェビシェフグラフ畳み込みを利用したジェットタグの深層学習手法

PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions ( http://arxiv.org/abs/2309.08630v5 )

ライセンス: Link先を確認
Yash Semlani, Mihir Relan, Krithik Ramesh, (参考訳) ジェットタグング(Jet tagging)は、高エネルギー物理実験における分類問題であり、粒子衝突からサブ原子粒子、ジェットの衝突した噴霧を識別し、エミッタ粒子にタグ付けすることを目的としている。 ジェットタグの進歩は、標準模型を超えた新しい物理学の探索の機会を与える。 現在のアプローチでは、複雑な衝突データに隠れたパターンを明らかにするためにディープラーニングを使用している。 しかし、深層学習モデルへの入力としてのジェットの表現は様々であり、しばしば、情報的特徴はモデルから得られない。 本研究では,できるだけ多くの情報をエンコードするジェットのグラフベース表現を提案する。 この表現を最大限に活用するために、ChebConv(ChebConv)を用いたグラフニューラルネットワーク(GNN)であるParticle Chebyshev Network(PCN)を設計する。 ChebConvは、GNNにおける古典グラフ畳み込みの効果的な代替手段として実証されており、ジェットタグの研究はまだ行われていない。 PCNは既存のタグよりも精度が大幅に向上し、高エネルギー物理実験においてジェットとChebConv層のグラフベース表現の研究への扉を開く。 コードはhttps://github.com/YVSemlani/PCN-Jet-Tagging.comで入手できる。

Jet tagging is a classification problem in high-energy physics experiments that aims to identify the collimated sprays of subatomic particles, jets, from particle collisions and tag them to their emitter particle. Advances in jet tagging present opportunities for searches of new physics beyond the Standard Model. Current approaches use deep learning to uncover hidden patterns in complex collision data. However, the representation of jets as inputs to a deep learning model have been varied, and often, informative features are withheld from models. In this study, we propose a graph-based representation of a jet that encodes the most information possible. To learn best from this representation, we design Particle Chebyshev Network (PCN), a graph neural network (GNN) using Chebyshev graph convolutions (ChebConv). ChebConv has been demonstrated as an effective alternative to classical graph convolutions in GNNs and has yet to be explored in jet tagging. PCN achieves a substantial improvement in accuracy over existing taggers and opens the door to future studies into graph-based representations of jets and ChebConv layers in high-energy physics experiments. Code is available at https://github.com/YVSemlani/PCN-Jet-Tagging.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# ウィスパーとメタデータを用いた補聴器の非侵入的音声明瞭度予測

Non-Intrusive Speech Intelligibility Prediction for Hearing Aids using Whisper and Metadata ( http://arxiv.org/abs/2309.09548v2 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao, (参考訳) 自動音声認識は補聴器(HA)の開発において重要である。 本稿では,第1回Clarity Prediction ChallengeにおけるトップパフォーマンスシステムであるMBI-Netの強化版であるMBI-Net+を導入することで,インテリジェンス予測精度を向上させる3つの新しい手法を提案する。 MBI-Net+はWhisperの埋め込みを利用してクロスドメイン音響特徴を作成し、異なる拡張法を区別する分類器を用いて音声信号からのメタデータを含む。 さらに、MBI-Net+は、補足指標として補聴支援音声認識指標(HASPI)を対象関数に統合し、予測性能をさらに向上させる。 実験の結果,MBI-Net+ は Clarity Prediction Challenge 2023 データセットの侵入的ベースラインシステムや MBI-Net を超え,Whisper 埋め込み,音声メタデータ,関連する補完指標を組み込んで HA の予測性能を向上させる効果を検証した。

Automated speech intelligibility assessment is pivotal for hearing aid (HA) development. In this paper, we present three novel methods to improve intelligibility prediction accuracy and introduce MBI-Net+, an enhanced version of MBI-Net, the top-performing system in the 1st Clarity Prediction Challenge. MBI-Net+ leverages Whisper's embeddings to create cross-domain acoustic features and includes metadata from speech signals by using a classifier that distinguishes different enhancement methods. Furthermore, MBI-Net+ integrates the hearing-aid speech perception index (HASPI) as a supplementary metric into the objective function to further boost prediction performance. Experimental results demonstrate that MBI-Net+ surpasses several intrusive baseline systems and MBI-Net on the Clarity Prediction Challenge 2023 dataset, validating the effectiveness of incorporating Whisper embeddings, speech metadata, and related complementary metrics to improve prediction performance for HA.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# HypR:参照コーパスを用いたASR仮説の総合的研究

HypR: A comprehensive study for ASR hypothesis revising with a reference corpus ( http://arxiv.org/abs/2309.09838v3 )

ライセンス: Link先を確認
Yi-Wei Wang, Ke-Han Lu, Kuan-Yu Chen, (参考訳) ディープラーニングの発展に伴い,自動音声認識(ASR)は大きな進歩を遂げた。 ASRの性能をさらに向上させるために、認識結果を改訂することは軽量だが効率的な方法の一つである。 様々な手法は、大まかにN-bestリグレードモデリングと誤り訂正モデリングに分類することができる。 前者は、与えられた入力音声に対して、ASRによって生成される候補の集合から、最小誤差率の仮説を選択することを目的とする。 後者は、与えられた仮説における認識エラーを検出し、これらのエラーを修正して、強化された結果を得る。 しかしながら、これらの研究は、通常異なるコーパスで評価され、異なるASRモデルと組み合わせられ、異なるデータセットを使用してモデルをトレーニングするので、互いにほとんど比較できない。 そこで本研究ではまず,ASR仮説改訂(HypR)データセットの提供に集中する。 HypRはいくつかの一般的なコーパス(AISHELL-1、TED-Lium 2、LibriSpeech)を含み、各発話に対して50の認識仮説を提供する。 ASRのチェックポイントモデルも公開されている。 さらに,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法の実装と比較を行った。 公開されているHypRデータセットが、その後の研究の基準ベンチマークになり、この研究分野を高度なレベルに進めることを願っている。

With the development of deep learning, automatic speech recognition (ASR) has made significant progress. To further enhance the performance of ASR, revising recognition results is one of the lightweight but efficient manners. Various methods can be roughly classified into N-best reranking modeling and error correction modeling. The former aims to select the hypothesis with the lowest error rate from a set of candidates generated by ASR for a given input speech. The latter focuses on detecting recognition errors in a given hypothesis and correcting these errors to obtain an enhanced result. However, we observe that these studies are hardly comparable to each other, as they are usually evaluated on different corpora, paired with different ASR models, and even use different datasets to train the models. Accordingly, we first concentrate on providing an ASR hypothesis revising (HypR) dataset in this study. HypR contains several commonly used corpora (AISHELL-1, TED-LIUM 2, and LibriSpeech) and provides 50 recognition hypotheses for each speech utterance. The checkpoint models of ASR are also published. In addition, we implement and compare several classic and representative methods, showing the recent research progress in revising speech recognition results. We hope that the publicly available HypR dataset can become a reference benchmark for subsequent research and promote this field of research to an advanced level.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# 量子力学を超えた物理のための分類学

Taxonomy for Physics Beyond Quantum Mechanics ( http://arxiv.org/abs/2309.12293v2 )

ライセンス: Link先を確認
Emily Adlam, Jonte R. Hance, Sabine Hossenfelder, Tim N. Palmer, (参考訳) 本稿では、量子力学の解釈と、量子力学を修正または完全化するモデルを分類する用語を提案する。 我々の焦点は、かつては超決定論的(強いか弱いか)、逆因果(信号、動的か非力学か)、将来的なインプット依存、時間的、オール・アット・オンスと呼ばれるモデルであり、必ずしも同じ意味や文脈を持つとは限らない。 これらのモデルが決定論的であると仮定されることもあるが、そうでない場合もあり、決定論的という言葉は異なる意味を与えられ、因果関係の異なる概念がそれらを分類する際に用いられてきた。 このことは文学に多くの混乱をもたらしており、ここで提案された条件が命名法を明確にする助けになることを期待している。 提案する一般的なモデルフレームワークは、量子力学の他の解釈や修正を分類するのにも有用である。 この文書は、2022年のBonn Workshop on Superdeterminism and Retrocausalityでの議論から生まれた。

We propose terminology to classify interpretations of quantum mechanics and models that modify or complete quantum mechanics. Our focus is on models which have previously been referred to as superdeterministic (strong or weak), retrocausal (with or without signalling, dynamical or non-dynamical), future-input-dependent, atemporal and all-at-once, not always with the same meaning or context. Sometimes these models are assumed to be deterministic, sometimes not, the word deterministic has been given different meanings, and different notions of causality have been used when classifying them. This has created much confusion in the literature, and we hope that the terms proposed here will help to clarify the nomenclature. The general model framework that we will propose may also be useful to classify other interpretations and modifications of quantum mechanics. This document grew out of the discussions at the 2022 Bonn Workshop on Superdeterminism and Retrocausality.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# 多言語フィンガースペルコーパスのためのアクティブラーニング

Active Learning for Multilingual Fingerspelling Corpora ( http://arxiv.org/abs/2309.12443v2 )

ライセンス: Link先を確認
Shuai Wang, Eric Nalisnick, (参考訳) 我々は手話におけるデータ不足問題を支援するために能動的学習を適用した。 特に,プレトレーニングの効果について,新しい分析を行った。 多くの手話はフランス語の手話の言語的子孫であるため、手話の構成を共有しており、事前学習が活用されることが望まれる。 我々はこの仮説を、アメリカ、中国、ドイツ、アイルランドの指打ちコーパスで検証する。 我々は事前学習の利点を観察するが、これは言語的類似性よりも視覚的類似性によるものかもしれない

We apply active learning to help with data scarcity problems in sign languages. In particular, we perform a novel analysis of the effect of pre-training. Since many sign languages are linguistic descendants of French sign language, they share hand configurations, which pre-training can hopefully exploit. We test this hypothesis on American, Chinese, German, and Irish fingerspelling corpora. We do observe a benefit from pre-training, but this may be due to visual rather than linguistic similarities
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# マルコフ決定過程としての解釈可能な決定木探索

Interpretable Decision Tree Search as a Markov Decision Process ( http://arxiv.org/abs/2309.12701v4 )

ライセンス: Link先を確認
Hector Kohler, Riad Akrour, Philippe Preux, (参考訳) 教師付き学習課題の最適決定木を見つけることは、大規模に解決すべき組合せ問題である。 近年、マルコフ決定問題 (MDP) としてこの問題の枠組みを定め、深層強化学習を用いてスケーリングに取り組むことが提案されている。 残念ながら、これらの手法は現在のブランチ・アンド・バウンド・オブ・ザ・アートと競合するものではない。 そこで我々は,情報理論によるテスト生成関数を用いて,全ての状態に対して動的に,許容可能なテスト動作のセットをいくつかのよい候補に限定する手法を提案する。 解法として、我々のアルゴリズムは、分岐とバウンドの代替品に対して、最も競争力が少ないことを実証的に示している。 機械学習ツールとして、私たちのアプローチの重要な利点は、複雑さとパフォーマンスのトレードオフを、事実上追加コストなしで解決することです。 このようなソリューションセットを使用することで、ユーザは、最も一般化し、ニーズに最も適した解釈可能性レベルを持つツリーを選択することができる。

Finding an optimal decision tree for a supervised learning task is a challenging combinatorial problem to solve at scale. It was recently proposed to frame the problem as a Markov Decision Problem (MDP) and use deep reinforcement learning to tackle scaling. Unfortunately, these methods are not competitive with the current branch-and-bound state-of-the-art. We propose instead to scale the resolution of such MDPs using an information-theoretic tests generating function that heuristically, and dynamically for every state, limits the set of admissible test actions to a few good candidates. As a solver, we show empirically that our algorithm is at the very least competitive with branch-and-bound alternatives. As a machine learning tool, a key advantage of our approach is to solve for multiple complexity-performance trade-offs at virtually no additional cost. With such a set of solutions, a user can then select the tree that generalizes best and which has the interpretability level that best suits their needs, which no current branch-and-bound method allows.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# Oracleのラベル付けを超えて: MLモデルを盗む意味は何でしょうか?

Beyond Labeling Oracles: What does it mean to steal ML models? ( http://arxiv.org/abs/2310.01959v3 )

ライセンス: Link先を確認
Avital Shafran, Ilia Shumailov, Murat A. Erdogdu, Nicolas Papernot, (参考訳) モデル抽出攻撃は、ML-as-a-Serviceプロバイダが提供するAPIを通じてしばしば提供されるように、クエリアクセスのみでトレーニングされたモデルを盗むように設計されている。 機械学習(ML)モデルは、データの入手が難しいことや、モデル抽出の第一の動機は、スクラッチからトレーニングするよりも少ないコストでモデルを取得することである。 モデル抽出に関する文献では、攻撃者がデータ取得とラベル付けの両方のコストを節約できるという主張や仮定が一般的である。 我々は、この仮定を徹底的に評価し、攻撃者がそうでないことが多いことに気付く。 これは、現在の攻撃は、被害者モデルのデータ分布からサンプルを採取できる敵に暗黙的に依存しているためである。 モデル抽出の成功に影響を及ぼす要因を徹底的に研究する。 攻撃者の事前の知識、すなわち配信内データへのアクセスは、攻撃ポリシーのような他の要因を支配しており、攻撃者は被害者モデルAPIに対してどのクエリを行うかを選択する。 本研究の成果は,現在の評価手法がME性能を誤解釈しているため,ME攻撃の敵の目標を再定義するようコミュニティに促すものである。

Model extraction attacks are designed to steal trained models with only query access, as is often provided through APIs that ML-as-a-Service providers offer. Machine Learning (ML) models are expensive to train, in part because data is hard to obtain, and a primary incentive for model extraction is to acquire a model while incurring less cost than training from scratch. Literature on model extraction commonly claims or presumes that the attacker is able to save on both data acquisition and labeling costs. We thoroughly evaluate this assumption and find that the attacker often does not. This is because current attacks implicitly rely on the adversary being able to sample from the victim model's data distribution. We thoroughly research factors influencing the success of model extraction. We discover that prior knowledge of the attacker, i.e., access to in-distribution data, dominates other factors like the attack policy the adversary follows to choose which queries to make to the victim model API. Our findings urge the community to redefine the adversarial goals of ME attacks as current evaluation methods misinterpret the ME performance.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# Dodo: デコーダのみのLMのための動的コンテキスト圧縮

Dodo: Dynamic Contextual Compression for Decoder-only LMs ( http://arxiv.org/abs/2310.02409v2 )

ライセンス: Link先を確認
Guanghui Qin, Corby Rosset, Ethan C. Chau, Nikhil Rao, Benjamin Van Durme, (参考訳) トランスフォーマーベースの言語モデル(LM)は、長いコンテキストでは非効率である。 本研究では,コンテキスト圧縮のソリューションであるDodoを提案する。 標準的なトランスモデルではトークン単位のベクトルが1つではなく、Dodoは各レイヤに隠れた状態の動的数を持つテキストを表現し、通常の時間と空間のごく一部に自己アテンションのコストを下げる。 さらに、LLaMAのような市販のモデルは、LoRAのような効率的なパラメータチューニング手法により、Dodoに適応することができる。 使用する場合、Dodoは自動回帰型LMまたは下流タスクのコンテクストコンプレッサーとして機能する。 言語モデリングや質問応答,要約などの実験を通じて,Dodoがこれらのタスクの能力を維持しつつ,デコード時のオーバーヘッドを大幅に削減することを示す。 例えば、自動エンコーディングタスクでは、BLEUスコアが98%の20倍圧縮比でコンテキストを縮小し、ほとんどロスレスエンコーディングを実現している。

Transformer-based language models (LMs) are inefficient in long contexts. We propose Dodo, a solution for context compression. Instead of one vector per token in a standard transformer model, Dodo represents text with a dynamic number of hidden states at each layer, reducing the cost of self-attention to a fraction of typical time and space. Moreover, off-the-shelf models such as LLaMA can be adapted to Dodo by efficient parameter tuning methods such as LoRA. In use, Dodo can act as either an autoregressive LM or a context compressor for downstream tasks. We demonstrate through experiments in language modeling, question answering, and summarization that Dodo retains capabilities in these tasks, while drastically reducing the overhead during decoding. For example, in the autoencoding task, Dodo shrinks context at a 20x compression ratio with a BLEU score of 98% for reconstruction, achieving nearly lossless encoding.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# 過度パラメータ化オートエンコーダにおけるトレーニングデータの記憶量 : メモリ化評価における逆問題

How Much Training Data is Memorized in Overparameterized Autoencoders? An Inverse Problem Perspective on Memorization Evaluation ( http://arxiv.org/abs/2310.02897v2 )

ライセンス: Link先を確認
Koren Abitbul, Yehuda Dar, (参考訳) 過パラメータ化されたオートエンコーダモデルは、しばしばトレーニングデータを記憶する。 画像データについては、トレーニング済みのオートエンコーダを用いて、トレーニングイメージの欠落した領域(トレーニングでのみ使用される)を復元する。 本稿では,記憶研究のための逆問題視点を提案する。 劣化したトレーニングイメージが与えられた場合、元のトレーニングイメージの回復を逆問題として定義し、最適化タスクとして定式化する。 逆問題では、トレーニングされたオートエンコーダを使用して、学習対象とする特定のトレーニングデータセットの正規化子を暗黙的に定義します。 複雑な最適化タスクを、訓練されたオートエンコーダと、未知の劣化演算子を推定し、対処する比較的単純な計算を反復的に適用する実用的な方法として開発する。 そこで我々は,未知のパターンで多くの失明画素の劣化からトレーニング画像の復元を目標とするブラインドインペイント法の評価を行った。 完全接続やU-Net(非線形性や列車損失値の多種多様)などの深層オートエンコーダアーキテクチャについて検討し,本手法がオートエンコーダからトレーニングデータを復元する過去の記憶・評価手法を著しく上回っていることを示す。 重要なこととして,本手法は,従来は非常に難易度が高く,かつ非現実的と考えられていた環境においても,そのような回復および記憶評価のために,回復性能を大幅に向上させる。

Overparameterized autoencoder models often memorize their training data. For image data, memorization is often examined by using the trained autoencoder to recover missing regions in its training images (that were used only in their complete forms in the training). In this paper, we propose an inverse problem perspective for the study of memorization. Given a degraded training image, we define the recovery of the original training image as an inverse problem and formulate it as an optimization task. In our inverse problem, we use the trained autoencoder to implicitly define a regularizer for the particular training dataset that we aim to retrieve from. We develop the intricate optimization task into a practical method that iteratively applies the trained autoencoder and relatively simple computations that estimate and address the unknown degradation operator. We evaluate our method for blind inpainting where the goal is to recover training images from degradation of many missing pixels in an unknown pattern. We examine various deep autoencoder architectures, such as fully connected and U-Net (with various nonlinearities and at diverse train loss values), and show that our method significantly outperforms previous memorization-evaluation methods that recover training data from autoencoders. Importantly, our method greatly improves the recovery performance also in settings that were previously considered highly challenging, and even impractical, for such recovery and memorization evaluation.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# 簡潔で組織化された知覚は、大規模言語モデルにおける推論をファシリテートする

Concise and Organized Perception Facilitates Reasoning in Large Language Models ( http://arxiv.org/abs/2310.03309v4 )

ライセンス: Link先を確認
Junjie Liu, Shaotian Yan, Chen Shen, Liang Xie, Wenxiao Wang, Jieping Ye, (参考訳) 推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。 複雑な論理問題において満足な結果を達成することは依然として非常に困難であり、プロンプト内の多くの前提とマルチホップ推論が特徴である。 特に、LSMの推論能力は、乱れや乱れやすさに弱い。 本研究は,まず情報フローの観点からそのメカニズムを考察し,解析作業における乱れや無関係な内容を扱う際に,人間のような認知バイアスに類似した障害パターンを示すことを示す。 しかし、LSMとは対照的に、無秩序で無関係な内容は人間のパフォーマンスを著しく低下させるわけではない。 そこから,Concise and Organized Perception (COP) という新たな推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。 その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。 簡潔で組織化された文脈を知覚することで、LLMの推論能力はより優れている。 ProofWriter, PrOntoQA, PrOntoQA-OOD, FOLIO) と数学ベンチマーク (DI-GSM) の大規模な実験結果から, COP は従来の最先端手法よりも大幅に優れていることが示された。

Exploiting large language models (LLMs) to tackle reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex logical problems, characterized by plenty of premises within the prompt and requiring multi-hop reasoning. In particular, the reasoning capabilities of LLMs are brittle to disorder and distractibility. In this work, we first examine the mechanism from the perspective of information flow and reveal that LLMs exhibit failure patterns akin to human-like cognitive biases when dealing with disordered and irrelevant content in reasoning tasks. However, in contrast to LLMs, disordered and irrelevant content does not significantly decrease human performance, as humans have a propensity to distill the most relevant information and systematically organize their thoughts, aiding them in responding to questions. Stem from that, we further propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to identify the most pertinent information while eliminating redundancy efficiently. It then prompts the LLMs in a more organized form that adapts to the model's inference process. By perceiving concise and organized context, the reasoning abilities of LLMs can be better elicited. Extensive experimental results on several popular logical benchmarks (ProofWriter, PrOntoQA, PrOntoQA-OOD, and FOLIO) and math benchmark (DI-GSM) show that COP significantly outperforms previous state-of-the-art methods.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-13
# DEFT:教師なしコアセット選択による事前学習言語モデルのためのデータ効率の良い微調整

DEFT: Data Efficient Fine-Tuning for Pre-Trained Language Models via Unsupervised Core-Set Selection ( http://arxiv.org/abs/2310.16776v5 )

ライセンス: Link先を確認
Devleena Das, Vivek Khetan, (参考訳) 近年の進歩により、多くの事前学習言語モデル(PLM)が利用可能になったが、ダウンストリームタスクでPLMを微調整するには、どの程度のデータが必要か、疑問が残る。 本研究では、教師なしコアセット選択を利用したデータ効率のよい微調整フレームワークであるDEFT-UCSを導入し、下流タスクの微調整に必要なデータ量を削減するために、より小型で代表的なデータセットを識別する。 テキスト編集 LM の文脈における DEFT-UCS の有効性について検討し,最先端のテキスト編集モデルである CoEDIT との比較を行った。 以上の結果から, DEFT-UCSモデルは,6つの編集タスクからなる8つのデータセットに対して,CoEDITと同程度の精度で,70%の精度で微調整できることがわかった。

Recent advances have led to the availability of many pre-trained language models (PLMs); however, a question that remains is how much data is truly needed to fine-tune PLMs for downstream tasks? In this work, we introduce DEFT-UCS, a data-efficient fine-tuning framework that leverages unsupervised core-set selection to identify a smaller, representative dataset that reduces the amount of data needed to fine-tune PLMs for downstream tasks. We examine the efficacy of DEFT-UCS in the context of text-editing LMs, and compare to the state-of-the art text-editing model, CoEDIT. Our results demonstrate that DEFT-UCS models are just as accurate as CoEDIT, across eight different datasets consisting of six different editing tasks, while finetuned on 70% less data.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# HyperFields:テキストからのNeRFのゼロショット生成を目指して

HyperFields: Towards Zero-Shot Generation of NeRFs from Text ( http://arxiv.org/abs/2310.17075v3 )

ライセンス: Link先を確認
Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka, (参考訳) テキスト条件付きニューラルラジアンスフィールド(NeRF)を1つのフォワードパスで(任意に)微調整で生成する手法であるHyperFieldsを紹介する。 私たちのアプローチの鍵は次のとおりです。 i) テキストトークンの埋め込みからNeRF空間へのスムーズなマッピングを学習する動的ハイパーネットワーク (II)個々のNeRFに符号化されたシーンを1つの動的ハイパーネットワークに蒸留するNeRF蒸留訓練。 これらの技術により、1つのネットワークが100以上のユニークなシーンに収まる。 さらに、HyperFieldsはテキストとNeRF間のより一般的なマップを学習し、その結果、ゼロショットまたはいくつかの微調整ステップで、新しい配布内および配布外シーンを予測することができることを実証する。 学習された一般マップのおかげで、HyperFieldsの微調整は、加速収束の恩恵を受け、既存のニューラルネットワーク最適化ベースの手法の5倍から10倍の速さで、斬新なシーンを合成することができる。 我々のアブレーション実験は, 動的構造とNeRF蒸留の両方がHyperFieldの表現性に重要であることを示した。

We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# オープンワールド視覚領域認識の最適化

Optimization Efficient Open-World Visual Region Recognition ( http://arxiv.org/abs/2311.01373v2 )

ライセンス: Link先を確認
Haosen Yang, Chuofan Ma, Bin Wen, Yi Jiang, Zehuan Yuan, Xiatian Zhu, (参考訳) オープンワールドオブジェクト検出などの制約のないイメージの個々の領域やパッチのセマンティクスを理解することは、コンピュータビジョンにおいて重要な課題であり続けている。 CLIPのような強力な画像レベルの視覚言語(ViL)基盤モデルの成功に基づいて、最近の取り組みは、領域ラベルペアの広範なコレクションで対照的なモデルをスクラッチからトレーニングするか、検出モデルの出力を領域提案の画像レベル表現と整合させることによって、それらの能力を活用しようとしている。 顕著な進歩にもかかわらず、これらのアプローチは、計算集約的なトレーニング要件、データノイズへの感受性、文脈情報の欠如に悩まされている。 これらの制約に対処するために、我々は、各強みをローカライズとセマンティクスに生かして、既成の基盤モデルの相乗的ポテンシャルを探求する。 本研究では、位置認識型ローカライゼーション知識を、位置認識基盤モデル(例えばSAM)とViLモデル(例えばCLIP)のセマンティック情報とを統合するために設計された、新しい、ジェネリックで効率的なアーキテクチャであるRereaSpotを紹介する。 トレーニングのオーバーヘッドを最小限に抑えつつ、事前学習した知識を完全に活用するために、我々は両方の基礎モデルを凍結させ、軽量な注意に基づく知識統合モジュールにのみ焦点をあてる。 オープンワールドのオブジェクト認識における大規模な実験によると、RereaSpotは、従来の代替手段よりも大幅にパフォーマンスの向上を実現している(例:8V100 GPUを使用して1日300万データでモデルをトレーニングしている)。 RegionSpot は LVIS val の mAP で GLIP-L を2.9 で上回り、より困難で稀なカテゴリでは 13.1 AP で、ODinW では2.5 AP で上回っている。 さらに、LVIS のミニヴァル集合上の稀なカテゴリに対して、GroundingDINO-L を 11.0 AP で上回る。

Understanding the semantics of individual regions or patches of unconstrained images, such as open-world object detection, remains a critical yet challenging task in computer vision. Building on the success of powerful image-level vision-language (ViL) foundation models like CLIP, recent efforts have sought to harness their capabilities by either training a contrastive model from scratch with an extensive collection of region-label pairs or aligning the outputs of a detection model with image-level representations of region proposals. Despite notable progress, these approaches are plagued by computationally intensive training requirements, susceptibility to data noise, and deficiency in contextual information. To address these limitations, we explore the synergistic potential of off-the-shelf foundation models, leveraging their respective strengths in localization and semantics. We introduce a novel, generic, and efficient architecture, named RegionSpot, designed to integrate position-aware localization knowledge from a localization foundation model (e.g., SAM) with semantic information from a ViL model (e.g., CLIP). To fully exploit pretrained knowledge while minimizing training overhead, we keep both foundation models frozen, focusing optimization efforts solely on a lightweight attention-based knowledge integration module. Extensive experiments in open-world object recognition show that our RegionSpot achieves significant performance gain over prior alternatives, along with substantial computational savings (e.g., training our model with 3 million data in a single day using 8 V100 GPUs). RegionSpot outperforms GLIP-L by 2.9 in mAP on LVIS val set, with an even larger margin of 13.1 AP for more challenging and rare categories, and a 2.5 AP increase on ODinW. Furthermore, it exceeds GroundingDINO-L by 11.0 AP for rare categories on the LVIS minival set.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# 言語モデルはスーパーマリオである:自由ランチとしてのホモロジーモデルからの能力の吸収

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch ( http://arxiv.org/abs/2311.03099v3 )

ライセンス: Link先を確認
Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, (参考訳) 本稿では,言語モデル(LM)が,リトレーニングやGPUを使わずにホモロジーモデルからパラメータを同化することにより,新たな能力を得ることができることを示す。 最初にDAREを導入して、ほとんどのデルタパラメータ(微調整パラメータと事前訓練パラメータの相違)をゼロに設定するが、これはスーパービジョンファインチューニング (SFT) LMの能力に影響を与えず、差分パラメータを$p$でランダムにドロップし、残りのパラメータを$1/ (1 - p)$でスケールし、元の埋め込みを近似する。 次に,DAREを汎用プラグインとして使用し,パラメータ干渉を緩和するために複数のSFTホモロジーモデルのデルタパラメータをスペーシングし,パラメータ融合により単一モデルにマージする。 我々は,エンコーダとデコーダをベースとしたLMを用いて実験を行い,(1) SFTパラメータ値範囲が通常小さく,(0.002で)極端に冗長であり,DAREは90%あるいは99%を強制的に除去し,(2)DAREは複数のタスク固有のLMを多様な能力で一つのLMにマージできることを示した。 特に、この現象は大規模な LM においてより顕著であり、合併された LM は任意のソース LM の性能を上回る可能性を示し、新たな発見をもたらす。 また、DAREを使用して、Open LLM Leaderboard上で70億のパラメータを持つモデルの中で、第1位となる統合LMを作成します。

In this paper, we unveil that Language Models (LMs) can acquire new capabilities by assimilating parameters from homologous models without retraining or GPUs. We first introduce DARE to set most delta parameters (i.e., the disparity between fine-tuned and pre-trained parameters) to zeros without affecting the abilities of Supervised Fine-Tuning (SFT) LMs, which randomly Drops delta parameters with a ratio $p$ And REscales the remaining ones by $1 / (1 - p)$ to approximate the original embeddings. Then, we use DARE as a versatile plug-in to sparsify delta parameters of multiple SFT homologous models for mitigating parameter interference and merge them into a single model by parameter fusing. We experiment with encoder- and decoder-based LMs, showing that: (1) SFT delta parameter value ranges are typically small (within 0.002) with extreme redundancy, and DARE can effortlessly eliminate 90% or even 99% of them; (2) DARE can merge multiple task-specific LMs into one LM with diverse capabilities. Notably, this phenomenon is more pronounced in large-scale LMs, where the merged LM reveals the potential to surpass the performance of any source LM, providing a new discovery. We also utilize DARE to create a merged LM that ranks first among models with 7 billion parameters on the Open LLM Leaderboard.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# 時間制約強化学習

Anytime-Constrained Reinforcement Learning ( http://arxiv.org/abs/2311.05511v3 )

ライセンス: Link先を確認
Jeremy McMahan, Xiaojin Zhu, (参考訳) 制約付きマルコフ決定過程(cMDP)を任意の制約で導入・研究する。 いかなる時でも、エージェントはいかなる時点でも、ほぼ確実にその予算に違反しないよう要求する。 マルコフの政策はもはや十分ではないが、累積コストで拡張された最適な決定論的な政策が存在することを示す。 実際、時間制約のcMDPを非制約のMDPに還元する固定パラメータを提示する。 我々の削減は,cMDPの精度が対数的である限り,表型cMDPの時間的およびサンプル効率のよい計画および学習アルゴリズムが得られる。 しかし、非自明な概略的ポリシーの計算は一般にNPハードであることが示される。 このボトルネックを回避するため、最大サポートコストがcMDPの多項式あるいは絶対予算で制限される限り、任意の精度でほぼ実現可能なポリシーを最適値で効率的に計算または学習する証明可能な近似アルゴリズムを設計する。 ハードネスの結果を考えると、最悪のケース分析では近似保証が最善である。

We introduce and study constrained Markov Decision Processes (cMDPs) with anytime constraints. An anytime constraint requires the agent to never violate its budget at any point in time, almost surely. Although Markovian policies are no longer sufficient, we show that there exist optimal deterministic policies augmented with cumulative costs. In fact, we present a fixed-parameter tractable reduction from anytime-constrained cMDPs to unconstrained MDPs. Our reduction yields planning and learning algorithms that are time and sample-efficient for tabular cMDPs so long as the precision of the costs is logarithmic in the size of the cMDP. However, we also show that computing non-trivial approximately optimal policies is NP-hard in general. To circumvent this bottleneck, we design provable approximation algorithms that efficiently compute or learn an arbitrarily accurate approximately feasible policy with optimal value so long as the maximum supported cost is bounded by a polynomial in the cMDP or the absolute budget. Given our hardness results, our approximation guarantees are the best possible under worst-case analysis.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# MC$^2$:中国における少数言語のための透明かつ文化的NLPを目指して

MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China ( http://arxiv.org/abs/2311.08348v2 )

ライセンス: Link先を確認
Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong Feng, (参考訳) 現在の大規模言語モデルは、低リソース言語、特に中国の少数言語を理解するのに欠陥があることを示している。 この制限は、利用可能な事前学習データの不足に起因する。 このアクセシビリティ問題に対処するため,中国におけるMultilingual Corpus of Minority Languages(MC$^2$)を紹介した。 MC$^2$にはチベット語、ウイグル語、カザフ語、モンゴル語という4つの下位言語が含まれる。 特に、我々はカザフ文字とモンゴル文字のあまり一般的でない文字体系、すなわちカザフ文字と伝統的なモンゴル文字に焦点を当てており、これは以前のコーパス建設で長い間無視されてきた。 既存のコーパスにおける言語汚染の頻度を認識し,MC$^2$を抽出し,多様性を高めつつ精度を優先する品質中心のソリューションを採用する。 さらに,書記システムの多元性への参加の重要性を強調し,その結果の文化的認識と密接に関連している。 MC$^2$コーパスと関連するモデルはコミュニティに公開されている。

Current large language models demonstrate deficiencies in understanding low-resource languages, particularly the minority languages in China. This limitation stems from the scarcity of available pre-training data. To address this accessibility challenge, we present MC$^2$, a Multilingual Corpus of Minority Languages in China, which is the largest open-source corpus of its kind so far. MC$^2$ includes four underrepresented languages: Tibetan, Uyghur, Kazakh, and Mongolian. Notably, we focus on the less common writing systems of Kazakh and Mongolian, i.e., Kazakh Arabic script and traditional Mongolian script, respectively, which have been long neglected in previous corpus construction efforts. Recognizing the prevalence of language contamination within existing corpora, we adopt a quality-centric solution for collecting MC$^2$, prioritizing accuracy while enhancing diversity. Furthermore, we underscore the importance of attending to the multiplicity of writing systems, which is closely related to the cultural awareness of the resulting models. The MC$^2$ corpus and related models are made public to the community.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# 知識ベース質問応答のためのFew-shot Transfer Learning:Fusing Supervised Models with In-Context Learning

Few-shot Transfer Learning for Knowledge Base Question Answering: Fusing Supervised Models with In-Context Learning ( http://arxiv.org/abs/2311.08894v3 )

ライセンス: Link先を確認
Mayur Patidar, Riya Sawhney, Avinash Singh, Biswajit Chatterjee, Mausam, Indrajit Bhattacharya, (参考訳) 既存のKnowledge Base Question Answering (KBQA)アーキテクチャは、注釈付きデータに飢えているため、デプロイに時間と費用がかかる。 KBQAでは,対象ドメインが少数のラベル付きサンプルのみを提供するが,大規模なラベル付きトレーニングデータセットがソースドメインで利用可能である。 本稿では,複数のソーストレーニングされたレトリバーを用いてKB-retrievalを実行し,LLMを用いて再ランクし,これをLLMによる少数ショットインコンテキスト学習の入力として使用して論理形式を生成する,FuSIC-KBQAという新しいKBQAアーキテクチャを提案する。 これらは実行誘導フィードバックによってさらに洗練される。 複数のソースターゲットKBQAペアに対する様々な複雑さの実験は、FuSIC-KBQAがSoTA KBQAモデルの適応を著しく上回っていることを示している。 追加実験により、FuSIC-KBQAは訓練データに制限がある場合、ドメイン内設定でSoTA KBQAモデルよりも優れていることが示された。

Existing Knowledge Base Question Answering (KBQA) architectures are hungry for annotated data, which make them costly and time-consuming to deploy. We introduce the problem of few-shot transfer learning for KBQA, where the target domain offers only a few labeled examples, but a large labeled training dataset is available in a source domain. We propose a novel KBQA architecture called FuSIC-KBQA that performs KB-retrieval using multiple source-trained retrievers, re-ranks using an LLM and uses this as input for LLM few-shot in-context learning to generate logical forms. These are further refined using execution-guided feedback. Experiments over multiple source-target KBQA pairs of varying complexity show that FuSIC-KBQA significantly outperforms adaptations of SoTA KBQA models for this setting. Additional experiments show that FuSIC-KBQA also outperforms SoTA KBQA models in the in-domain setting when training data is limited.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# ConceptPsy:心理学における概念的包括性を備えたベンチマークスイート

ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology ( http://arxiv.org/abs/2311.09861v3 )

ライセンス: Link先を確認
Junlei Zhang, Hongliang He, Nirui Song, Zhanchao Zhou, Shuyuan He, Shuai Zhang, Huachuan Qiu, Anqi Li, Yong Dai, Lizhi Ma, Zhenzhong Lan, (参考訳) 心理学の重要な分野は、ドメイン固有の大規模言語モデル(LLM)の評価と開発を強化するために包括的なベンチマークを必要とする。 C-EVAL や CMMLU のような既存の MMLU タイプのベンチマークには、心理学関連の主題が含まれているが、その限られた数の質問と体系的な概念サンプリング戦略の欠如は、心理学で必要とされる概念をカバーできないことを意味する。 その結果、対象範囲が広いにもかかわらず、これらのベンチマークは心理学領域に必要な深さを欠いており、心理学固有の評価スイートとして不十分である。 この問題に対処するために,中国における複雑な推論と心理学における知識能力の評価を目的としたConceptPsyを提案する。 ConceptPsyには12の主題と1383の手作業による概念が含まれている。 具体的には、慎重に設計された多様なプロンプトを用いて、GPT-4に各概念に対する質問を生成し、これらの質問をレビューするために専門家の心理学者を雇う。 きめ細かいパフォーマンスを理解し、弱点を強化するために、各質問を章ラベルで注釈付けし、章ごとの精度を提供する。 ConceptPsy をベースとして,幅広い LLM の評価を行った。 我々は,LLMが全体のパフォーマンスにおいて類似の精度を達成しているが,同一シリーズのモデルである場合でも,異なる心理学的概念の相違が顕著に現れることを観察した。 我々の研究が心理学の分野におけるLSMの発展を促進することを願っている。

The critical field of psychology necessitates a comprehensive benchmark to enhance the evaluation and development of domain-specific Large Language Models (LLMs). Existing MMLU-type benchmarks, such as C-EVAL and CMMLU, include psychology-related subjects, but their limited number of questions and lack of systematic concept sampling strategies mean they cannot cover the concepts required in psychology. Consequently, despite their broad subject coverage, these benchmarks lack the necessary depth in the psychology domain, making them inadequate as psychology-specific evaluation suite. To address this issue, this paper presents ConceptPsy, designed to evaluate Chinese complex reasoning and knowledge abilities in psychology. ConceptPsy includes 12 core subjects and 1383 manually collected concepts. Specifically, we prompt GPT-4 to generate questions for each concept using carefully designed diverse prompts and hire professional psychologists to review these questions. To help to understand the fine-grained performances and enhance the weaknesses, we annotate each question with a chapter label and provide chapter-wise accuracy. Based on ConceptPsy, we evaluate a broad range of LLMs. We observe that, although some LLMs achieve similar accuracies on overall performances, they exhibit significant performance variations across different psychology concepts, even when they are models from the same series. We hope our work can facilitate the development of LLMs in the field of psychology.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# InterVENOR: 大規模言語モデルの符号化能力と修復の対話的連鎖を実証する

INTERVENOR: Prompting the Coding Ability of Large Language Models with the Interactive Chain of Repair ( http://arxiv.org/abs/2311.09868v5 )

ライセンス: Link先を確認
Hanbin Wang, Zhenghao Liu, Shuo Wang, Ganqu Cui, Ning Ding, Zhiyuan Liu, Ge Yu, (参考訳) InTERactiVE chaiN of repairは,人間が観察する対話型コード修復過程をエミュレートするシステムであり,コード診断とコード修復の両方を包含する。 InterVENORは、コード修復プロセス中にLLM(Large Language Models)に異なる役割を演じるよう促し、コード学習者とコード教師の両方として機能する。 具体的には、Code Learnerはコードの生成や修復の指示に固執すること、Code Teacherはコード学習者のガイダンスとしてChain-of-Repair(CoR)を作成する責任を負う。 CoRの生成中、Code TeacherはCode Learnerから生成されたコードをチェックし、コンパイラから受け取ったエラーフィードバックに基づいてコードバグに対処する方法を再評価する必要がある。 実験の結果,InterVENORはベースラインモデルを超え,GPT-3.5よりも約18%,GPT-3.5より4.3%向上した。 さらに分析した結果,CoRはバグの原因を解明し,自然言語によるソリューション計画を概説する上で有効であることがわかった。 コードコンパイラのフィードバックにより、InterfaceVENORは構文エラーとアサーションエラーを正確に識別し、コードを修正するための正確な命令を提供する。 すべてのデータとコードはhttps://github.com/NEUIR/INTERVENORで入手できる。

This paper introduces INTERVENOR (INTERactiVE chaiN Of Repair), a system designed to emulate the interactive code repair processes observed in humans, encompassing both code diagnosis and code repair. INTERVENOR prompts Large Language Models (LLMs) to play distinct roles during the code repair process, functioning as both a Code Learner and a Code Teacher. Specifically, the Code Learner is tasked with adhering to instructions to generate or repair code, while the Code Teacher is responsible for crafting a Chain-of-Repair (CoR) to serve as guidance for the Code Learner. During generating the CoR, the Code Teacher needs to check the generated codes from Code Learner and reassess how to address code bugs based on error feedback received from compilers. Experimental results demonstrate that INTERVENOR surpasses baseline models, exhibiting improvements of approximately 18% and 4.3% over GPT-3.5 in code generation and code translation tasks, respectively. Our further analyses show that CoR is effective to illuminate the reasons behind bugs and outline solution plans in natural language. With the feedback of code compilers, INTERVENOR can accurately identify syntax errors and assertion errors and provide precise instructions to repair codes. All data and codes are available at https://github.com/NEUIR/INTERVENOR
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# 熱電場二重のハミルトン鍛造

Hamiltonian Forging of a Thermofield Double ( http://arxiv.org/abs/2311.10566v2 )

ライセンス: Link先を確認
Daniel Faílde, Juan Santos-Suárez, David A. Herrera-Martí, Javier Mas, (参考訳) 熱場二重状態 (TFD) の変分準備を, ヒルベルト空間上に作用する適切に設計されたハミルトニアンの基底状態として扱う。 エンタングルメント鍛造アンザッツを用いて,幅$N$の回路のみを含む解を提案する。 本手法をジェネリックフェルミオンハミルトニアンを用いて説明する。 自由フェルミオンケースは閉じた形で解決でき、相互作用が存在するたびに変動回路の温かい開始状態が得られる。

We address the variational preparation of the Thermofield Double state (TFD) as the ground state of a suitably engineered Hamiltonian acting on the doubled Hilbert space. Through the use of the entanglement forging ansatz, we propose a solution that involves only circuits of width $N$. We illustrate the method with generic fermionic hamiltonians. The free fermion case can be solved in closed form, and yields a warm start state for the variational circuits whenever interactions are present.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# KNVQA:知識に基づく評価VQAのためのベンチマーク

KNVQA: A Benchmark for evaluation knowledge-based VQA ( http://arxiv.org/abs/2311.12639v2 )

ライセンス: Link先を確認
Sirui Cheng, Siyu Zhang, Jiayi Wu, Muchen Lan, (参考訳) マルチモーダル分野において、視覚・言語系における認識能力と推論能力の強さから、大きな視覚言語モデル (LVLM) は大きな進歩を遂げている。 しかし、LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。 さらに,従来の評価手法では,言語内容の理解と推論に重点を置いていたが,マルチモーダルインタラクションの包括的評価が欠如しており,潜在的な制限が生じている。 そこで本研究では,マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。 評価の堅牢性とスケーラビリティを確保するため,人間の判断と知覚を取り入れた新しいKNVQAデータセットを開発し,知識に基づくVQAにおけるAIによる回答に対する標準回答の精度を評価することを目的とした。 この研究は、信頼性のある人間のアノテーションを用いてLVLMの文脈情報を包括的に評価するだけでなく、現在の手法の細粒度機能を解析して、LVLMsベースの推定器のその後の最適化のための潜在的な道筋を明らかにする。 提案するVQA-Evalと対応するデータセットKNVQAは,低コスト,プライバシ保護,再現性といった利点を生かした自動評価ツールの開発を容易にする。 私たちのコードは出版時に公開される。

Within the multimodal field, large vision-language models (LVLMs) have made significant progress due to their strong perception and reasoning capabilities in the visual and language systems. However, LVLMs are still plagued by the two critical issues of object hallucination and factual accuracy, which limit the practicality of LVLMs in different scenarios. Furthermore, previous evaluation methods focus more on the comprehension and reasoning of language content but lack a comprehensive evaluation of multimodal interactions, thereby resulting in potential limitations. To this end, we propose a novel KNVQA-Eval, which is devoted to knowledge-based VQA task evaluation to reflect the factuality of multimodal LVLMs. To ensure the robustness and scalability of the evaluation, we develop a new KNVQA dataset by incorporating human judgment and perception, aiming to evaluate the accuracy of standard answers relative to AI-generated answers in knowledge-based VQA. This work not only comprehensively evaluates the contextual information of LVLMs using reliable human annotations, but also further analyzes the fine-grained capabilities of current methods to reveal potential avenues for subsequent optimization of LVLMs-based estimators. Our proposed VQA-Eval and corresponding dataset KNVQA will facilitate the development of automatic evaluation tools with the advantages of low cost, privacy protection, and reproducibility. Our code will be released upon publication.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# ASDフルボディキネマティックアセスメントのための3DCNN ResNetsの導入:手作り特徴との比較

Introducing 3DCNN ResNets for ASD full-body kinematic assessment: a comparison with hand-crafted features ( http://arxiv.org/abs/2311.14533v2 )

ライセンス: Link先を確認
Alberto Altozano, Maria Eleonora Minissi, Mariano Alcañiz, Javier Marín-Morales, (参考訳) 自閉症スペクトラム障害(ASD)は、社会的コミュニケーションと制限されたパターンの課題が特徴であり、早期発見のために運動異常が牽引されている。 しかし、ASDのキネマティック解析は限定的であり、しばしば堅牢な検証が欠如し、単一のタスクに手作りの機能に依存しており、研究間で矛盾が生じている。 エンドツーエンドモデルは、機能エンジニアリングの必要性を克服するための有望な方法として現れています。 本研究の目的は,新しい3DCNN ResNetを提案することであり,モータASD評価に広く用いられている手作り機能と比較することである。 具体的には、複数のモータータスクと、両方のアプローチを用いたトレーニングモデルを備えたバーチャルリアリティ環境を開発した。 相互検証を繰り返し行う信頼性の高い検証フレームワークを優先しました。 その結果,提案モデルが85$\pm$3%の最大精度を達成し,短い1~3分サンプルで最先端のエンド・ツー・エンドモデルを上回る結果を得た。 手作り機能との比較分析では,特定のタスクにおいて,特徴工学的モデルの方がエンドツーエンドモデルより優れていた。 しかし、我々のエンドツーエンドモデルは平均AUCが 0.80$\pm$0.03 に達した。 さらに、モデル分散に統計的差異が見られ、私たちのエンドツーエンドモデルは、すべてのVRタスクにばらつきが少なく、より一貫性のある結果を提供し、ドメインの一般化と信頼性を実証した。 これらの結果から,エンド・ツー・エンドのモデルでは,ドメイン知識やタスク特異性を必要とせず,変数やコンテキストに依存しないASD分類が可能であることが示唆された。 しかし、特定のタスクシナリオにおける手作り機能の有効性も認識している。

Autism Spectrum Disorder (ASD) is characterized by challenges in social communication and restricted patterns, with motor abnormalities gaining traction for early detection. However, kinematic analysis in ASD is limited, often lacking robust validation and relying on hand-crafted features for single tasks, leading to inconsistencies across studies. End-to-end models have emerged as promising methods to overcome the need for feature engineering. Our aim is to propose a newly adapted 3DCNN ResNet from and compare it to widely used hand-crafted features for motor ASD assessment. Specifically, we developed a virtual reality environment with multiple motor tasks and trained models using both approaches. We prioritized a reliable validation framework with repeated cross-validation. Results show the proposed model achieves a maximum accuracy of 85$\pm$3%, outperforming state-of-the-art end-to-end models with short 1-to-3 minute samples. Our comparative analysis with hand-crafted features shows feature-engineered models outperformed our end-to-end model in certain tasks. However, our end-to-end model achieved a higher mean AUC of 0.80$\pm$0.03. Additionally, statistical differences were found in model variance, with our end-to-end model providing more consistent results with less variability across all VR tasks, demonstrating domain generalization and reliability. These findings show that end-to-end models enable less variable and context-independent ASD classification without requiring domain knowledge or task specificity. However, they also recognize the effectiveness of hand-crafted features in specific task scenarios.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# MMMU: エキスパートAGIのための大規模多分野マルチモーダル理解と推論ベンチマーク

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI ( http://arxiv.org/abs/2311.16502v4 )

ライセンス: Link先を確認
Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen, (参考訳) MMMUは,大学レベルの教科知識と意図的推論を必要とする大規模多分野タスクのマルチモーダルモデルを評価するために設計された新しいベンチマークである。 MMMUは、大学試験、クイズ、教科書から11.5万件の細心の注意を払って収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テクノロジー・アンド・エンジニアリングの6つの中核分野をカバーしている。 これらの質問は、30の被験者と183のサブフィールドにまたがっており、チャート、図、地図、テーブル、音楽シート、化学構造など、非常に異質な30のイメージタイプで構成されている。 既存のベンチマークとは異なり、MMMUは高度な認識とドメイン固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するための挑戦的なモデルである。 14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。 高度な GPT-4V と Gemini Ultra でさえそれぞれ 56% と 59% の精度しか達成していないため、改善の余地は大きい。 我々はMMMUがコミュニティを刺激し、専門家の汎用人工知能に向けた次世代のマルチモーダル基盤モデルを構築するだろうと考えている。

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. Unlike existing benchmarks, MMMU focuses on advanced perception and reasoning with domain-specific knowledge, challenging models to perform tasks akin to those faced by experts. The evaluation of 14 open-source LMMs as well as the proprietary GPT-4V(ision) and Gemini highlights the substantial challenges posed by MMMU. Even the advanced GPT-4V and Gemini Ultra only achieve accuracies of 56% and 59% respectively, indicating significant room for improvement. We believe MMMU will stimulate the community to build next-generation multimodal foundation models towards expert artificial general intelligence.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# オフザシェルフビジョンランゲージモデルからの創発的開語彙セマンティックセマンティックセグメンテーション

Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models ( http://arxiv.org/abs/2311.17095v3 )

ライセンス: Link先を確認
Jiayun Luo, Siddhesh Khandelwal, Leonid Sigal, Boyang Li, (参考訳) 画像テキストペアから、大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学習し、視覚的質問応答のようなタスクに有効である。 しかし、学習した関連をオープン語彙のセマンティックセグメンテーションに活用することは依然として課題である。 本稿では,PnP-OVSS(Plug-and-Play Open-Vocabulary Semantic Segmentation)を提案する。 PnP-OVSSは、直接テキスト対イメージのクロスアテンションと画像-テキストマッチング損失を備えたVLMを利用する。 過偏差と過偏差のバランスをとるために、Salience Dropoutを導入し、モデルが最も注意すべきパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決する。 PnP-OVSSはニューラルネットワークのトレーニングを一切必要とせず、検証セットであってもセグメンテーションアノテーションを必要とせずにハイパーパラメータチューニングを実行する。 PnP-OVSSは、同等のベースライン(Pascal VOCでは+26.2% mIoU、MS COCOでは+20.5% mIoU、COCO Stuffでは+3.1% mIoU、ADE20Kでは+3.0% mIoU)よりも大幅に改善されている。 私たちのコードベースはhttps://github.com/letitiabanana/PnP-OVSSにあります。

From image-text pairs, large-scale vision-language models (VLMs) learn to implicitly associate image regions with words, which prove effective for tasks like visual question answering. However, leveraging the learned association for open-vocabulary semantic segmentation remains a challenge. In this paper, we propose a simple, yet extremely effective, training-free technique, Plug-and-Play Open-Vocabulary Semantic Segmentation (PnP-OVSS) for this task. PnP-OVSS leverages a VLM with direct text-to-image cross-attention and an image-text matching loss. To balance between over-segmentation and under-segmentation, we introduce Salience Dropout; by iteratively dropping patches that the model is most attentive to, we are able to better resolve the entire extent of the segmentation mask. PnP-OVSS does not require any neural network training and performs hyperparameter tuning without the need for any segmentation annotations, even for a validation set. PnP-OVSS demonstrates substantial improvements over comparable baselines (+26.2% mIoU on Pascal VOC, +20.5% mIoU on MS COCO, +3.1% mIoU on COCO Stuff and +3.0% mIoU on ADE20K). Our codebase is at https://github.com/letitiabanana/PnP-OVSS.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# Animate Anyone:文字アニメーションのための一貫性と制御可能な画像間合成

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation ( http://arxiv.org/abs/2311.17117v3 )

ライセンス: Link先を確認
Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo, (参考訳) キャラクタアニメーションは、運転信号を通じて静止画像からキャラクタビデオを生成することを目的としている。 現在、拡散モデルは、その堅牢な生成能力のため、視覚発生研究の主流となっている。 しかし、特にキャラクタアニメーションでは、キャラクタからの詳細な情報との時間的整合性を維持することが深刻な問題である。 本稿では,拡散モデルのパワーを活用し,キャラクタアニメーションに適した新しいフレームワークを提案する。 参照画像から複雑な外観特徴の整合性を維持するため、空間的注意による詳細特徴のマージを行うためにReferenceNetを設計する。 制御性と連続性を確保するために,キャラクタの動きを指示する効率的なポーズガイドを導入し,ビデオフレーム間のフレーム間のスムーズな遷移を保証するために,効果的な時間的モデリング手法を採用する。 トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。 さらに,ファッションビデオと人間のダンス合成のベンチマークによる評価を行い,最先端の成果を得た。

Character Animation aims to generating character videos from still images through driving signals. Currently, diffusion models have become the mainstream in visual generation research, owing to their robust generative capabilities. However, challenges persist in the realm of image-to-video, especially in character animation, where temporally maintaining consistency with detailed information from character remains a formidable problem. In this paper, we leverage the power of diffusion models and propose a novel framework tailored for character animation. To preserve consistency of intricate appearance features from reference image, we design ReferenceNet to merge detail features via spatial attention. To ensure controllability and continuity, we introduce an efficient pose guider to direct character's movements and employ an effective temporal modeling approach to ensure smooth inter-frame transitions between video frames. By expanding the training data, our approach can animate arbitrary characters, yielding superior results in character animation compared to other image-to-video methods. Furthermore, we evaluate our method on benchmarks for fashion video and human dance synthesis, achieving state-of-the-art results.
翻訳日:2024-06-15 00:16:39 公開日:2024-06-13
# Datacom-Agnostic Shortwave QKD for Short-Reach Links

Datacom-Agnostic Shortwave QKD for Short-Reach Links ( http://arxiv.org/abs/2311.17591v2 )

ライセンス: Link先を確認
Mariana Ferreira Ramos, Marie-Christine Slater, Michael Hentschel, Martin Achleitner, Hannes Hübel, Bernhard Schrenk, (参考訳) キャリヤグレード4x25-Gb/s/$\lambda$ LANWDM と 852-nm と 1550-nm QKD の共存性を検討した。 短波QKDは、1550nmのQKDとは対照的に、ラマンノイズに敏感である。

We investigate the co-existence of 852-nm and 1550-nm QKD with carrier-grade 4x25-Gb/s/$\lambda$ LANWDM over a short-reach interconnect. Shortwave QKD yields a higher key rate and is insensitive to Raman noise, as opposed to 1550-nm QKD.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# Rationale 法定判断のための日本語トートケースデータセット

Japanese Tort-case Dataset for Rationale-supported Legal Judgment Prediction ( http://arxiv.org/abs/2312.00480v2 )

ライセンス: Link先を確認
Hiroaki Yamada, Takenobu Tokunaga, Ryutaro Ohara, Akira Tokutsu, Keisuke Takeshita, Mihoko Sumida, (参考訳) 本稿では, トート予測と合理性抽出という2つのタスクを特徴とする日本語トートケースデータセット (JTD) である日本語法定判断予測 (LJP) の最初のデータセットを提案する。 合理性抽出タスクは、原告と被告による主張された議論から、裁判所が主張を受け入れることを識別する。 JTDは、41人の法律専門家による3,477件の日本民法判決に基づいて構築され、7,978件の訴訟と59,697件の当事者の主張が提出された。 本研究のベースライン実験は,提案した2つの課題の実現可能性を示し,法の専門家による誤差解析により,誤りの原因を特定し,LJP研究の今後の方向性を示唆するものである。

This paper presents the first dataset for Japanese Legal Judgment Prediction (LJP), the Japanese Tort-case Dataset (JTD), which features two tasks: tort prediction and its rationale extraction. The rationale extraction task identifies the court's accepting arguments from alleged arguments by plaintiffs and defendants, which is a novel task in the field. JTD is constructed based on annotated 3,477 Japanese Civil Code judgments by 41 legal experts, resulting in 7,978 instances with 59,697 of their alleged arguments from the involved parties. Our baseline experiments show the feasibility of the proposed two tasks, and our error analysis by legal experts identifies sources of errors and suggests future directions of the LJP research.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# 混合モデル上でのスケッチ演算子のRIP保証の再検討

Revisiting RIP guarantees for sketching operators on mixture models ( http://arxiv.org/abs/2312.05573v2 )

ライセンス: Link先を確認
Ayoub Belhadji, Rémi Gribonval, (参考訳) 圧縮混合モデリングにおけるスケッチの文脈では、特定の混合モデルに関するスケッチ作用素の制限等尺特性の既存の証明を再考する。 既存の保証の欠点を検証した後、ランダムなスケッチ演算子を構築するために、ランダムなフーリエ特徴を描画する際に、重要度を推定する必要性を回避できる別の分析法を提案する。 我々の解析は、スケッチ演算子を定義するために使用される周波数の集合にのみ依存する制限等尺定数の新たな決定論的境界に基づいており、次にこれらの境界を利用してランダムスケッチ演算子の濃度不等式を確立し、所望のRIP保証に導く。 我々はまた、高速なランダム線形作用素に付随する周波数による構造化スケッチの理論的保証への扉を開く。

In the context of sketching for compressive mixture modeling, we revisit existing proofs of the Restricted Isometry Property of sketching operators with respect to certain mixtures models. After examining the shortcomings of existing guarantees, we propose an alternative analysis that circumvents the need to assume importance sampling when drawing random Fourier features to build random sketching operators. Our analysis is based on new deterministic bounds on the restricted isometry constant that depend solely on the set of frequencies used to define the sketching operator; then we leverage these bounds to establish concentration inequalities for random sketching operators that lead to the desired RIP guarantees. Our analysis also opens the door to theoretical guarantees for structured sketching with frequencies associated to fast random linear operators.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# MAFA:ビジョンランゲージ事前トレーニングのための偽ネガティクス管理

MAFA: Managing False Negatives for Vision-Language Pre-training ( http://arxiv.org/abs/2312.06112v2 )

ライセンス: Link先を確認
Jaeseok Byun, Dohoon Kim, Taesup Moon, (参考訳) 我々は、大規模なWebクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の重要な問題について考察する。 偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。 この課題に対処するために、最近開発されたGRouped mIni-batch サンプリング(GRIT)戦略に基づいて構築された2つの重要なコンポーネントからなるMAFA(MAnaging FAlse negatives)を提案する。 1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス 2) 画像テキストコントラッシブ(ITC)損失に対するラベルスムース化。 複数の下流タスクにおけるMAFAの有効性を総合的に検証し,VLPにおける偽陰性に対処する重要な役割を強調した。 また,最近のBLIPファミリーモデルとMAFAの互換性を示す。 コードはhttps://github.com/jaeseokbyun/MAFA.comで入手できる。

We consider a critical issue of false negatives in Vision-Language Pre-training (VLP), a challenge that arises from the inherent many-to-many correspondence of image-text pairs in large-scale web-crawled datasets. The presence of false negatives can impede achieving optimal performance and even lead to a significant performance drop. To address this challenge, we propose MAFA (MAnaging FAlse negatives), which consists of two pivotal components building upon the recently developed GRouped mIni-baTch sampling (GRIT) strategy: 1) an efficient connection mining process that identifies and converts false negatives into positives, and 2) label smoothing for the image-text contrastive (ITC) loss. Our comprehensive experiments verify the effectiveness of MAFA across multiple downstream tasks, emphasizing the crucial role of addressing false negatives in VLP, potentially even surpassing the importance of addressing false positives. In addition, the compatibility of MAFA with the recent BLIP-family model is also demonstrated. Code is available at https://github.com/jaeseokbyun/MAFA.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# 医用画像における近距離・重複検出のための事前学習型視覚埋め込みのベンチマーク

Benchmarking Pretrained Vision Embeddings for Near- and Duplicate Detection in Medical Images ( http://arxiv.org/abs/2312.07273v2 )

ライセンス: Link先を確認
Tuan Truong, Farnaz Khun Jush, Matthias Lenga, (参考訳) 近距離・重複画像検出は、医用画像の分野で重要な関心事である。 医療データセットには、さまざまなソースからの類似または重複したイメージが含まれていることが多く、特にトレーニングとテストサブセット間のデータ漏洩による機械学習タスクにおいて、パフォーマンス上の問題や評価バイアスを引き起こす可能性がある。 本稿では,公用2次元コンピュータビジョン埋め込みを利用した近距離・重複3次元医用画像の同定手法を提案する。 類似性検索のための2種類の自己教師付き事前学習モデルと2つの異なるベクトルインデックス構造から抽出した埋め込みを比較検討した。 一般に公開されているメディカルセグメンテーション・デカトロンデータセットに基づいて,実験的なベンチマークを生成する。 提案手法は,それぞれ0.9645と0.8559の平均感度と特異性を達成し,近接画像検出と重複画像検出に有望な結果を与える。

Near- and duplicate image detection is a critical concern in the field of medical imaging. Medical datasets often contain similar or duplicate images from various sources, which can lead to significant performance issues and evaluation biases, especially in machine learning tasks due to data leakage between training and testing subsets. In this paper, we present an approach for identifying near- and duplicate 3D medical images leveraging publicly available 2D computer vision embeddings. We assessed our approach by comparing embeddings extracted from two state-of-the-art self-supervised pretrained models and two different vector index structures for similarity retrieval. We generate an experimental benchmark based on the publicly available Medical Segmentation Decathlon dataset. The proposed method yields promising results for near- and duplicate image detection achieving a mean sensitivity and specificity of 0.9645 and 0.8559, respectively.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# 変分量子アルゴリズムによるフェルミ・ハバードモデルの熱平衡の探索

Exploring thermal equilibria of the Fermi-Hubbard model with variational quantum algorithms ( http://arxiv.org/abs/2312.09292v2 )

ライセンス: Link先を確認
Jack Y. Araz, Michael Spannowsky, Matthew Wingate, (参考訳) 本研究は, 変分量子アルゴリズムを用いた化学ポテンシャルを持つフェルミ・ハッバードモデルの熱的性質を, 凝縮物質系の高温における格子内粒子挙動の解明に不可欠である。 従来の計算手法は、特に化学ポテンシャルの管理において問題に遭遇し、ハミルトンのアプローチを探求する。 量子アルゴリズムの約束にもかかわらず、その有効性は、拡張された想像時間進化シーケンスをシミュレートする際のコヒーレンス制限によって妨げられる。 このような制約を克服するために、この研究は変分量子アルゴリズムを最適化し、フェルミ・ハッバードモデルの熱的性質を探索することに焦点を当てる。 物理にインスパイアされた回路設計は、コヒーレンスの制約を緩和し、高温で物質をより包括的に探索するのに役立つ。 本研究では,フェルミ・ハバードモデルの温度特性をシミュレーションする上で,量子デバイスにおける誤差源やバレンプラトーに遭遇する限界を認識しながら,変分アルゴリズムの可能性を示す。

This study investigates the thermal properties of the repulsive Fermi-Hubbard model with chemical potential using variational quantum algorithms, crucial in comprehending particle behaviour within lattices at high temperatures in condensed matter systems. Conventional computational methods encounter challenges, especially in managing chemical potential, prompting exploration into Hamiltonian approaches. Despite the promise of quantum algorithms, their efficacy is hampered by coherence limitations when simulating extended imaginary time evolution sequences. To overcome such constraints, this research focuses on optimising variational quantum algorithms to probe the thermal properties of the Fermi-Hubbard model. Physics-inspired circuit designs are tailored to alleviate coherence constraints, facilitating a more comprehensive exploration of materials at elevated temperatures. Our study demonstrates the potential of variational algorithms in simulating the thermal properties of the Fermi-Hubbard model while acknowledging limitations stemming from error sources in quantum devices and encountering barren plateaus.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# トポロジカル巨大原子を持つ1次元導波路における単一光子散乱と束縛状態

Single-photon scattering and bound states in a one-dimensional waveguide with topological giant atom ( http://arxiv.org/abs/2401.02104v2 )

ライセンス: Link先を確認
Wei Zhao, Tian Tian, Zhihai Wang, (参考訳) 共振器導波路(CRW)とトポロジカル・ジャイアント・アトム(TGA)を結合する結合型共振器導波路(CRW)の単一光子散乱と束縛状態について検討した。 ここで、TGAは長さが有限の1次元のSu-Schrieffer-Heeger(SSH)鎖によって構成される。 TGAの位相位相を調節することにより、CRWの入射光子を完全に反射または伝達することができ、コヒーレントフォトニックデバイスの設計に有用である。 一方、上方に位置する2組の有界状態も達成し、連続体を吹き飛ばす。 ギャップが開いているか閉じているかは、TGAの境界条件に依存する。 したがって、トポロジーと干渉の組み合わせは、導波路量子電磁力学の文脈でフォトニック状態を操作するエキサイティングな機会を与える。

We investigate the single photon scattering and bound states in a coupled resonator waveguide (CRW) which couples to a topological giant atom (TGA) via two distant sites. Here, the TGA is constructed by a one dimensional Su-Schrieffer-Heeger (SSH) chain with finite length. By modulating the topological phase of the TGA, the incident photon in the CRW can be completely reflected or transmitted, and is therefore beneficial to design the coherent photonic device. Meanwhile, we also achieve two pairs of bound states locating respectively above and blow the continuum. Whether the gap is open or closed depends on the boundary condition of the TGA. Therefore, the combination of the topology and the interference provides us an exciting opportunity to manipulate the photonic state in the context of waveguide quantum electrodynamics.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# HAIM-DRL:安全かつ効率的な自律運転のための強化されたループ内強化学習

HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving ( http://arxiv.org/abs/2401.03160v4 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen, (参考訳) 自動運転車(AV)の大幅な進歩にもかかわらず、AVの安全性と交通流効率を両立させる運転ポリシーの開発はまだ完全には検討されていない。 本稿では,複合交通小隊における安全かつ効率的な自律運転を支援するAIメンターベース深部強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop Regressed Learning(Human-in-the-loop Regressed Learning)を提案する。 人間の学習プロセスからインスピレーションを得て、まず、人間の知性をAIに効果的に注入する革新的な学習パラダイムを導入します。 このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能する。 エージェントが不確実な環境を十分に探索できる一方で、人間の専門家は危険な状況で制御し、潜在的な事故を避けるための正しい行動を示すことができる。 一方, エージェントを誘導することで, 交通流の乱れを最小限に抑え, 交通流効率を最適化することができる。 HAIM-DRLは、自由な探査と部分的な人間のデモンストレーションから収集したデータを2つのトレーニングソースとして活用している。 我々は報酬関数を手動で設計する複雑なプロセスを回避し、代わりにエージェントの政策学習を導くために、部分的な人間のデモンストレーションから状態-行動値を直接導出する。 さらに、人間のメンターの認知負荷を軽減するために、最小限の介入手法を用いる。 その結果, HAIM-DRLは, 運転安全, サンプリング効率, 交通流障害の緩和, 交通シナリオの一般化において, 従来の手法よりも優れていた。 この論文のコードとデモビデオは、https://zilin-huang.github.io/HAIM-DRL-website/でアクセスできます。

Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents' policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor's cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# ミニマキシマリストによる人間のフィードバックからの強化学習

A Minimaximalist Approach to Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2401.04056v2 )

ライセンス: Link先を確認
Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal, (参考訳) 人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。 私たちのアプローチは、報酬モデルや不安定な敵のトレーニングを必要とせず、実装が比較的簡単であるという点で最小限のものです。 我々のアプローチは、非マルコフ的、非推移的、確率的な選好を確実に扱える一方で、逐次予測に対するオフラインアプローチを悩ませる複雑なエラーに対して頑健であるという点において、最大主義者である。 本研究は,2つの政策間のゼロサムゲームとして,選好から学習する社会選択論文献からの選好集約概念であるミニマックス・ウィンナー(MW)の概念を基礎として構築する。 このゲームの対称性を活用することで、MWを計算するために2つのポリシーをデュエルする従来の手法を使う代わりに、強い収束保証を維持しつつ、ただ1つのエージェントが自身に対してプレイできることを証明できる。 実際には、これはポリシーから複数の軌跡をサンプリングし、選好または教師モデルにそれらを比較させ、特定の軌跡に対する報酬として勝利の割合を使用する。 連続的な制御タスクのスイートでは、報酬モデルに基づくアプローチよりもはるかに効果的に学習できることを実証し、人間の判断を集約する場合にしばしば発生する過渡的・確率的な選好に頑健性を維持しながら、学習することができることを示した。

We present Self-Play Preference Optimization (SPO), an algorithm for reinforcement learning from human feedback. Our approach is minimalist in that it does not require training a reward model nor unstable adversarial training and is therefore rather simple to implement. Our approach is maximalist in that it provably handles non-Markovian, intransitive, and stochastic preferences while being robust to the compounding errors that plague offline approaches to sequential prediction. To achieve the preceding qualities, we build upon the concept of a Minimax Winner (MW), a notion of preference aggregation from the social choice theory literature that frames learning from preferences as a zero-sum game between two policies. By leveraging the symmetry of this game, we prove that rather than using the traditional technique of dueling two policies to compute the MW, we can simply have a single agent play against itself while maintaining strong convergence guarantees. Practically, this corresponds to sampling multiple trajectories from a policy, asking a preference or teacher model to compare them, and then using the proportion of wins as the reward for a particular trajectory. We demonstrate that on a suite of continuous control tasks, we are able to learn significantly more efficiently than reward-model based approaches while maintaining robustness to the intransitive and stochastic preferences that frequently occur in practice when aggregating human judgments.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# 自律運転のマルチモーダル説明が運転性能、認知負荷、専門性、信頼性、信頼に及ぼす影響

Effects of Multimodal Explanations for Autonomous Driving on Driving Performance, Cognitive Load, Expertise, Confidence, and Trust ( http://arxiv.org/abs/2401.04206v4 )

ライセンス: Link先を確認
Robert Kaufman, Jean Costa, Everlyne Kimani, (参考訳) 自動運転の進歩は、人間の運転改善の重要なニーズに直接対処するAI支援運転指導の機会を提供する。 AIインストラクターは学習を促進するためにどのように情報を伝えるべきか? プレポスト実験(n = 41)では、AIコーチの説明コミュニケーションが、パフォーマンス駆動の専門家による指示をモデルにした影響を検証した。 参加者は、4つの(4)グループに分けられ、AIコーチの説明の2つの次元、情報タイプ(「何」と「なぜ」の2つの説明)とプレゼンテーションモダリティ(聴覚と視覚)が評価された。 我々は、異なる説明的手法がパフォーマンス、認知的負荷、信頼、専門知識、そして観察的学習を通しての信頼にどのように影響するかを比較した。 インタビューを通じて、参加者の学習プロセスを明確にする。 結果として、AIコーチングは、初心者にパフォーマンス駆動スキルを効果的に教えることができることを示している。 情報のタイプとモダリティがパフォーマンスに影響を及ぼすことがわかった。 参加者の学習の成功度の違いは、情報がどのように注意を向け、不確実性を軽減し、参加者が経験した過負荷に影響を与えるかに起因する。 以上の結果から,HMI通信を効果的に設計する際には,効率よくモダリティに適合した説明を選択すべきであることが示唆された。 さらに、結果は、コミュニケーションと人間の学習と認知プロセスとの整合性の必要性を支持する。 将来の自動運転車HMIとAIコーチ設計には8つの設計上の意味がある。

Advances in autonomous driving provide an opportunity for AI-assisted driving instruction that directly addresses the critical need for human driving improvement. How should an AI instructor convey information to promote learning? In a pre-post experiment (n = 41), we tested the impact of an AI Coach's explanatory communications modeled after performance driving expert instructions. Participants were divided into four (4) groups to assess two (2) dimensions of the AI coach's explanations: information type ('what' and 'why'-type explanations) and presentation modality (auditory and visual). We compare how different explanatory techniques impact driving performance, cognitive load, confidence, expertise, and trust via observational learning. Through interview, we delineate participant learning processes. Results show AI coaching can effectively teach performance driving skills to novices. We find the type and modality of information influences performance outcomes. Differences in how successfully participants learned are attributed to how information directs attention, mitigates uncertainty, and influences overload experienced by participants. Results suggest efficient, modality-appropriate explanations should be opted for when designing effective HMI communications that can instruct without overwhelming. Further, results support the need to align communications with human learning and cognitive processes. We provide eight design implications for future autonomous vehicle HMI and AI coach design.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# アクシスツアー:ICA変換埋め込みにおけるアクシスの順序を決定するワードツアー

Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings ( http://arxiv.org/abs/2401.06112v2 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira, (参考訳) 単語埋め込みは自然言語処理において最も重要な要素の1つであるが、高次元埋め込みを解釈することは難しい問題である。 この問題に対処するため,独立成分分析(ICA)を有効解として同定する。 ICA変換された単語埋め込みは解釈可能な意味軸を示すが、これらの軸の順序は任意である。 本研究では,この特性に着目し,軸の順序を最適化する新しい手法であるAxis Tourを提案する。 1次元の単語埋め込み手法であるWord Tourにインスパイアされた我々は、軸のセマンティックな連続性を最大化し、単語埋め込み空間の明瞭さを向上させることを目指している。 さらに,Axis Tour が PCA や ICA と比較して,より優れた,あるいは同等の低次元埋め込みを実現するダウンストリームタスクの実験を行った。

Word embedding is one of the most important components in natural language processing, but interpreting high-dimensional embeddings remains a challenging problem. To address this problem, Independent Component Analysis (ICA) is identified as an effective solution. ICA-transformed word embeddings reveal interpretable semantic axes; however, the order of these axes are arbitrary. In this study, we focus on this property and propose a novel method, Axis Tour, which optimizes the order of the axes. Inspired by Word Tour, a one-dimensional word embedding method, we aim to improve the clarity of the word embedding space by maximizing the semantic continuity of the axes. Furthermore, we show through experiments on downstream tasks that Axis Tour yields better or comparable low-dimensional embeddings compared to both PCA and ICA.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-13
# 証明と助言による単元資産試験のための下限

Lower Bounds for Unitary Property Testing with Proofs and Advice ( http://arxiv.org/abs/2401.07912v2 )

ライセンス: Link先を確認
Jordi Weggemans, (参考訳) ユニタリプロパティのテストでは、量子アルゴリズムはテスタとしても知られ、ブラックボックスのユニタリへのクエリアクセスが与えられ、何らかのプロパティを満たすかどうかを決定する必要がある。 本稿では,ユニタリな特性試験と関連する問題に対する量子クエリ複雑性の低い境界を証明し,ユニタリなチャネル識別への関連性を活用した新しい手法を提案する。 この手法の主な利点は、得られるすべての下界が$\mathsf{C}$-testerに対して$\mathsf{C} \subseteq \mathsf{QMA}(2)/\mathsf{qpoly}$で成り立つことである。 本稿では,量子位相推定やエンタングルメントエントロピー問題,量子ギブズサンプリングなどの問題に対して,Wang and Zhang (2023) のサンプル・ツー・キュー・リフト定理によって得られた下界のすべての対数係数を除去し,下界を証明するために,本手法を適用した。 直系として、$\mathsf{QMA}(2) \not\supset \mathsf{SBQP}$および$\mathsf{QMA}/\mathsf{qpoly} \not\supset \mathsf{SBQP}$の量子オラクルが存在することを示す。 前者は、少なくともブラックボックスの方法では、非絡み合った量子証明を持つことは、高精度を必要とする問題を解くのに役に立たないことを示している。

In unitary property testing a quantum algorithm, also known as a tester, is given query access to a black-box unitary and has to decide whether it satisfies some property. We propose a new technique for proving lower bounds on the quantum query complexity of unitary property testing and related problems, which utilises its connection to unitary channel discrimination. The main advantage of this technique is that all obtained lower bounds hold for any $\mathsf{C}$-tester with $\mathsf{C} \subseteq \mathsf{QMA}(2)/\mathsf{qpoly}$, showing that even having access to both (unentangled) quantum proofs and advice does not help for many unitary problems. We apply our technique to prove lower bounds for problems like quantum phase estimation, the entanglement entropy problem, quantum Gibbs sampling and more, removing all logarithmic factors in the lower bounds obtained by the sample-to-query lifting theorem of Wang and Zhang (2023). As a direct corollary, we show that there exist quantum oracles relative to which $\mathsf{QMA}(2) \not\supset \mathsf{SBQP}$ and $\mathsf{QMA}/\mathsf{qpoly} \not\supset \mathsf{SBQP}$. The former shows that, at least in a black-box way, having unentangled quantum proofs does not help in solving problems that require high precision.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# Consistent3D:Deterministic Smpling presistent High-Fidelity Text-to-3D Generation

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior ( http://arxiv.org/abs/2401.09050v2 )

ライセンス: Link先を確認
Zike Wu, Pan Zhou, Xuanyu Yi, Xiaoding Yuan, Hanwang Zhang, (参考訳) スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。 この問題を解決するために、まずSDSを深く分析し、その蒸留サンプリングプロセスが、確率微分方程式(SDE)の軌跡サンプリング(SDE: SDS sample along a SDE trajectory)と実際に一致することを発見した。 しかし、SDEサンプリングのランダム性は、しばしば多様で予測不可能なサンプルをもたらすため、常にノイズが少なく、したがってSDSの脆弱性を説明する一貫した正しいガイダンスではない。 任意のSDEに対して、軌道サンプリングがSDEとして所望の目標点に決定的かつ一貫して収束する通常の微分方程式(ODE)が常に存在するので、テキストから3D生成に先立ってODE決定性サンプリングを探索する新しい「Consistent3D」法を提案する。 具体的には,3次元モデルによりレンダリングされた画像が与えられた各トレーニングイテレーションにおいて,まず所望の3次元スコア関数を事前学習した2次元拡散モデルにより推定し,軌道サンプリングのためのODEを構築する。 次に、ODE軌道に沿ってサンプルを採取し、2つの隣接サンプルを生成し、ノイズが少ないサンプルを用いて、よりノイズの多いサンプルを3次元モデルに蒸留する、一貫性のある蒸留サンプリング損失を設計する。 実験結果から、図1に示すように、高忠実で多様な3Dオブジェクトと大規模シーンの生成におけるConsistent3Dの有効性が示された。 コードはhttps://github.com/sail-sg/Consistent3Dで公開されている。

Score distillation sampling (SDS) and its variants have greatly boosted the development of text-to-3D generation, but are vulnerable to geometry collapse and poor textures yet. To solve this issue, we first deeply analyze the SDS and find that its distillation sampling process indeed corresponds to the trajectory sampling of a stochastic differential equation (SDE): SDS samples along an SDE trajectory to yield a less noisy sample which then serves as a guidance to optimize a 3D model. However, the randomness in SDE sampling often leads to a diverse and unpredictable sample which is not always less noisy, and thus is not a consistently correct guidance, explaining the vulnerability of SDS. Since for any SDE, there always exists an ordinary differential equation (ODE) whose trajectory sampling can deterministically and consistently converge to the desired target point as the SDE, we propose a novel and effective "Consistent3D" method that explores the ODE deterministic sampling prior for text-to-3D generation. Specifically, at each training iteration, given a rendered image by a 3D model, we first estimate its desired 3D score function by a pre-trained 2D diffusion model, and build an ODE for trajectory sampling. Next, we design a consistency distillation sampling loss which samples along the ODE trajectory to generate two adjacent samples and uses the less noisy sample to guide another more noisy one for distilling the deterministic prior into the 3D model. Experimental results show the efficacy of our Consistent3D in generating high-fidelity and diverse 3D objects and large-scale scenes, as shown in Fig. 1. The codes are available at https://github.com/sail-sg/Consistent3D.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# マジック・ステート・インジェクションにおける論理ノイズバイアス

Logical Noise Bias in Magic State Injection ( http://arxiv.org/abs/2401.10982v2 )

ライセンス: Link先を確認
Nicholas Fazio, Robin Harper, Stephen Bartlett, (参考訳) フォールトトレラントアーキテクチャは、量子計算のノイズを低減することを目的としている。 このようなアーキテクチャはよく研究されているが、現在マジック状態注入のようなフォールトトレラントプリミティブでノイズがどのように変換されるか、詳細な理解が欠けている。 本稿では, 物理レベルのノイズ特性が, 物理レベルのノイズ特性にどのように変換されるかを理解するために, マジック状態注入を用いた論理的T = $Z({\pi}/8)$ゲートを実装した耐故障性ガジェット上で, 論理的プロセストモグラフィーの数値シミュレーションを利用する。 我々は、このガジェットにおいて、物理的なレベルでバイアスのないノイズであっても、論理ノイズに重要な位相(Z$)バイアスが生じることを示す。 本発明のマジック・ステート・インジェクション・ガジェットは、本質的にバイアスノイズを誘発するが、既存の位相バイアスは論理レベルでさらに増幅されるため、この論理ノイズバイアスの大きさのキー制限因子としてノイズ誤差補正回路を同定する。 提案手法は,フォールトトレラントな論理プリミティブの詳細なノイズ特性と全体的な性能を評価するためのフレームワークを提供する。

Fault-tolerant architectures aim to reduce the noise of a quantum computation. Despite such architectures being well studied a detailed understanding of how noise is transformed in a fault-tolerant primitive such as magic state injection is currently lacking. We use numerical simulations of logical process tomography on a fault-tolerant gadget that implements a logical T = $Z({\pi}/8)$ gate using magic state injection, to understand how noise characteristics at the physical level are transformed into noise characteristics at the logical level. We show how, in this gadget, a significant phase ($Z$) bias can arise in the logical noise, even with unbiased noise at the physical level. While the magic state injection gadget intrinsically induces biased noise, with extant phase bias being further amplified at the logical level, we identify noisy error correction circuits as a key limiting factor on the magnitude of this logical noise bias. Our approach provides a framework for assessing the detailed noise characteristics, as well as the overall performance, of fault-tolerant logical primitives.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# ブリッジング進化アルゴリズムと強化学習:ハイブリッドアルゴリズムに関する総合的な調査

Bridging Evolutionary Algorithms and Reinforcement Learning: A Comprehensive Survey on Hybrid Algorithms ( http://arxiv.org/abs/2401.11963v3 )

ライセンス: Link先を確認
Pengyi Li, Jianye Hao, Hongyao Tang, Xian Fu, Yan Zheng, Ke Tang, (参考訳) 進化的アルゴリズム(EA)と強化学習(RL)を統合した進化的強化学習(ERL)は、目覚ましい性能向上を示した。 両方のアプローチを融合させることで、ERLは有望な研究方向として浮上した。 本調査では,ERLの多様な研究分野について概観する。 具体的には, 関連アルゴリズムの最近の進歩を体系的に要約し, EA支援によるRL最適化, RL支援によるEA最適化, EAとRLの相乗的最適化の3つの研究方向を特定する。 その後、各研究の方向性を詳細に分析し、複数の研究部門を編成する。 それぞれのブランチが取り組もうとしている問題と、EAとRLの統合がこれらの課題にどのように対処するかを明らかにする。 結論として,様々な研究方向性にまたがる潜在的な課題と今後の研究方向性について議論する。 研究者によるERLの探究を容易にするため, https://github.com/yeshenpy/Awesome-Evolutionary-Reinforcement-Learningに関するアルゴリズムとコードを整理した。

Evolutionary Reinforcement Learning (ERL), which integrates Evolutionary Algorithms (EAs) and Reinforcement Learning (RL) for optimization, has demonstrated remarkable performance advancements. By fusing both approaches, ERL has emerged as a promising research direction. This survey offers a comprehensive overview of the diverse research branches in ERL. Specifically, we systematically summarize recent advancements in related algorithms and identify three primary research directions: EA-assisted Optimization of RL, RL-assisted Optimization of EA, and synergistic optimization of EA and RL. Following that, we conduct an in-depth analysis of each research direction, organizing multiple research branches. We elucidate the problems that each branch aims to tackle and how the integration of EAs and RL addresses these challenges. In conclusion, we discuss potential challenges and prospective future research directions across various research directions. To facilitate researchers in delving into ERL, we organize the algorithms and codes involved on https://github.com/yeshenpy/Awesome-Evolutionary-Reinforcement-Learning.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# Unlearningが言語モデルのインフルエンシャルトレーニングデータを追跡

Unlearning Traces the Influential Training Data of Language Models ( http://arxiv.org/abs/2401.15241v2 )

ライセンス: Link先を確認
Masaru Isonuma, Ivan Titov, (参考訳) 言語モデルのアウトプットに影響を与えるトレーニングデータセットを識別することは、有害なコンテンツの生成を最小限に抑え、そのパフォーマンスを向上させるために不可欠である。 理想的には、各データセットの影響をトレーニングから取り除くことで測定することができるが、モデルを複数回再トレーニングすることは違法に高価である。 アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。 UnTracは非常に単純で、各トレーニングデータセットは勾配上昇によって解放され、学習後にモデルの予測がどの程度変化するかを評価する。 さらに、よりスケーラブルなUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。 UnTrac-InvはUnTracに似ているが、大規模なトレーニングデータセットでは効率的である。 実験では,本手法が有毒,偏り,不合理な内容の生成に及ぼす事前学習データセットの影響を評価できるかどうかを検討した。 本手法は,過剰なメモリ空間や複数のチェックポイントを必要とせず,既存の手法よりもはるかに正確な影響を推定する。

Identifying the training datasets that influence a language model's outputs is essential for minimizing the generation of harmful content and enhancing its performance. Ideally, we can measure the influence of each dataset by removing it from training; however, it is prohibitively expensive to retrain a model multiple times. This paper presents UnTrac: unlearning traces the influence of a training dataset on the model's performance. UnTrac is extremely simple; each training dataset is unlearned by gradient ascent, and we evaluate how much the model's predictions change after unlearning. Furthermore, we propose a more scalable approach, UnTrac-Inv, which unlearns a test dataset and evaluates the unlearned model on training datasets. UnTrac-Inv resembles UnTrac, while being efficient for massive training datasets. In the experiments, we examine if our methods can assess the influence of pretraining datasets on generating toxic, biased, and untruthful content. Our methods estimate their influence much more accurately than existing methods while requiring neither excessive memory space nor multiple checkpoints.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# ESPnet-SPK:再現可能なレシピ、自己教師型フロントエンド、オフザシェルフモデルを備えたフルパイプライン話者埋め込みツールキット

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models ( http://arxiv.org/abs/2401.17230v2 )

ライセンス: Link先を確認
Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe, (参考訳) 本稿では,話者埋め込み抽出器を訓練するためのツールキットであるESPnet-SPKを紹介する。 まず、話者認識コミュニティの研究者がモデルを構築するために、オープンソースのプラットフォームを提供しています。 我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。 モジュール化されたアーキテクチャ設計により、変種を容易に開発できる。 我々はまた、開発モデルと他のドメインとの橋渡しも目指しており、幅広い研究コミュニティが最先端の埋め込み抽出器を積極的に組み込むことを容易にしている。 事前学習した埋め込み抽出器は、既製の方法でアクセス可能であり、2つのタスクとの統合を示すことで、ツールキットの汎用性を実証する。 もう1つのゴールは、多様な自己教師付き学習機能との統合である。 本稿では,ECAPA-TDNNを用いたWavLM-Largeを用いたVox1-O評価プロトコルにおいて,同じ誤差率で0.39%の再現可能なレシピをリリースする。

This paper introduces ESPnet-SPK, a toolkit designed with several objectives for training speaker embedding extractors. First, we provide an open-source platform for researchers in the speaker recognition community to effortlessly build models. We provide several models, ranging from x-vector to recent SKA-TDNN. Through the modularized architecture design, variants can be developed easily. We also aspire to bridge developed models with other domains, facilitating the broad research community to effortlessly incorporate state-of-the-art embedding extractors. Pre-trained embedding extractors can be accessed in an off-the-shelf manner and we demonstrate the toolkit's versatility by showcasing its integration with two tasks. Another goal is to integrate with diverse self-supervised learning features. We release a reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O evaluation protocol using WavLM-Large with ECAPA-TDNN.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# インストラクションは違いをもたらす

Instruction Makes a Difference ( http://arxiv.org/abs/2402.00453v2 )

ライセンス: Link先を確認
Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney, (参考訳) Instruction Document Visual Question Answering (iDocVQA) データセットとLarge Language Document (LLaDoc) モデルを導入する。 通常、DocVQAタスクのためのディープニューラルネットワークは、命令を欠いたデータセットでトレーニングされる。 命令追従データセットを使用することで性能が向上することを示す。 我々は、最近の最先端(SotA)Large Language and Vision Assistant(LLaVA)1.5をベースモデルとして、文書関連データセットのパフォーマンスを比較した。 また,Polling-based Object Probing Evaluation (POPE) データセットを用いて,対象幻覚の導出モデルの性能評価を行った。 その結果、命令調整性能はゼロショット性能の11Xから32X、非命令(従来のタスク)の微調整よりも0.1%から4.2%の範囲であることがわかった。 上昇にもかかわらず、これらは依然として人間のパフォーマンス(94.36%)に欠けており、改善の余地がたくさんあることを示唆している。

We introduce Instruction Document Visual Question Answering (iDocVQA) dataset and Large Language Document (LLaDoc) model, for training Language-Vision (LV) models for document analysis and predictions on document images, respectively. Usually, deep neural networks for the DocVQA task are trained on datasets lacking instructions. We show that using instruction-following datasets improves performance. We compare performance across document-related datasets using the recent state-of-the-art (SotA) Large Language and Vision Assistant (LLaVA)1.5 as the base model. We also evaluate the performance of the derived models for object hallucination using the Polling-based Object Probing Evaluation (POPE) dataset. The results show that instruction-tuning performance ranges from 11X to 32X of zero-shot performance and from 0.1% to 4.2% over non-instruction (traditional task) finetuning. Despite the gains, these still fall short of human performance (94.36%), implying there's much room for improvement.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 拡散に基づく音声強調のばらつきの分析

An Analysis of the Variance of Diffusion-based Speech Enhancement ( http://arxiv.org/abs/2402.00811v2 )

ライセンス: Link先を確認
Bunlong Lay, Timo Gerkmann, (参考訳) 拡散モデルは、生成的音声強調のための強力なモデルであることが証明された。 最近のSGMSE+アプローチでは、学習は拡散過程の確率微分方程式を伴い、ガウスノイズと環境ノイズの両方をクリーン音声信号に徐々に加える。 音声強調性能は,環境雑音やガウス雑音を加える際の拡散過程に沿った平均と分散の進化を制御する確率微分方程式の選択によって異なる。 本研究では,雑音減衰と音声歪みのトレードオフを制御していることを示す。 より具体的には、より大きな分散がノイズ減衰を増大させ、計算フットプリントを削減できることが示される。

Diffusion models proved to be powerful models for generative speech enhancement. In recent SGMSE+ approaches, training involves a stochastic differential equation for the diffusion process, adding both Gaussian and environmental noise to the clean speech signal gradually. The speech enhancement performance varies depending on the choice of the stochastic differential equation that controls the evolution of the mean and the variance along the diffusion processes when adding environmental and Gaussian noise. In this work, we highlight that the scale of the variance is a dominant parameter for speech enhancement performance and show that it controls the tradeoff between noise attenuation and speech distortions. More concretely, we show that a larger variance increases the noise attenuation and allows for reducing the computational footprint, as fewer function evaluations for generating the estimate are required
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 条件付きFöllmerフローによる深部条件分布学習

Deep conditional distribution learning via conditional Föllmer flow ( http://arxiv.org/abs/2402.01460v2 )

ライセンス: Link先を確認
Jinyuan Chang, Zhao Ding, Yuling Jiao, Ruoxuan Li, Jerry Zhijian Yang, (参考訳) 本研究では, 常微分方程式(ODE)に基づく条件分布の深部生成法, Conditional F\"ollmer Flowを提案する。 標準ガウス分布から始めると, 提案した流れは, 1 に近い時間において, 目標条件分布を非常によく近似することができる。 効率的な実装のために、我々は、深層ニューラルネットワークを用いて非パラメトリックに速度場を推定するオイラー法を用いて流れを判別する。 さらに,学習したサンプルの分布と目標条件分布とのWasserstein-2距離の収束結果を確立し,ODEフローによる条件分布学習のための第1の総合的エンドツーエンド誤差解析を行う。 数値実験では, 標準的な非パラメトリックな条件密度推定問題から, 画像データを含むより複雑な課題に至るまで, 様々な条件密度推定法に比較してその優位性を示す。

We introduce an ordinary differential equation (ODE) based deep generative method for learning conditional distributions, named Conditional F\"ollmer Flow. Starting from a standard Gaussian distribution, the proposed flow could approximate the target conditional distribution very well when the time is close to 1. For effective implementation, we discretize the flow with Euler's method where we estimate the velocity field nonparametrically using a deep neural network. Furthermore, we also establish the convergence result for the Wasserstein-2 distance between the distribution of the learned samples and the target conditional distribution, providing the first comprehensive end-to-end error analysis for conditional distribution learning via ODE flow. Our numerical experiments showcase its effectiveness across a range of scenarios, from standard nonparametric conditional density estimation problems to more intricate challenges involving image data, illustrating its superiority over various existing conditional density estimation methods.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 弱測定に基づく擬似スピンポインター:精度測定のための費用対効果スキーム

Weak-measurement-based pseudospin pointer: A cost-effective scheme for precision measurement ( http://arxiv.org/abs/2402.02100v2 )

ライセンス: Link先を確認
Ling Ye, Lan Luo, An Wang, Rongchun Ge, Zhiyou Zhang, (参考訳) 最先端量子技術の不可欠な構成要素として、高速で効率的な量子測定は、時間とともに持続的な需要がある。 弱測定に基づく新しい次元無次元擬似スピンポインターの実証実験について述べる。 光パラメータ推定の文脈において、パラメトリック分布のモーメントは、文字通り分布を測定することなく、次元のないポインターを用いて実験的に得られることを示す。 実験費用の解約に加えて、光子計数に基づくポインターは弱い信号の検出に適している。 面積アレイカメラ法よりも強度が弱い信号に対して,精度向上の順序が実験的に達成されていることを示す。

As an essential component of state-of-the-art quantum technologies, fast and efficient quantum measurements are in persistent demand over time. We present a proof-of-principle experiment on a new dimensionless pseudo-spin pointer based on weak measurement. In the context of optical parameter estimation, we demonstrate that the parametric distribution's moment is obtained experimentally by employing the dimensionless pointer without measuring the distribution literally. In addition to the sheer liberation of experimental expense, the photon-countering-based pointer is well-calibrated for the detection of weak signals. We show that for signals $3$-$4$ orders of weaker in strength than the area-array camera method, an order of improvement in precision is achieved experimentally.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 加速A/Bテストのためのパワーを最大化する学習メトリクス

Learning Metrics that Maximise Power for Accelerated A/B-Tests ( http://arxiv.org/abs/2402.03915v2 )

ライセンス: Link先を確認
Olivier Jeunen, Aleksei Ustimenko, (参考訳) オンラインのコントロールされた実験は、テクノロジー企業にとって確実な意思決定を可能にする重要なツールだ。 ノーススター計量は(長期収益やユーザー保持のような)定義されており、A/Bテストにおいてこの計量を統計的に著しく改善するシステム変種の方が優れているとみなすことができる。 ノーススター測度は通常遅延し、感度が低い。 その結果、実験のコストは高く、実験は長時間実行する必要があるが、それでもタイプIIエラー(つまり偽陰性)が一般的である。 我々は、ノーススターに対して使用する統計力を直接最大化する短期的な信号からメトリクスを学習することで、この問題に取り組むことを提案する。 既存の手法は過度に適合する傾向があり、平均的な計量感度が高いとタイプIIの誤差が改善しないことが示され、代わりに過去の実験のログ上でメートル法が生成したであろう$p$-値の最小化を提案する。 1億6000万の月間アクティブユーザーを持つ2つのソーシャルメディアアプリケーションからこのようなデータセットを収集し、合計で153以上のA/Bペアを集めています。 実験の結果、学習したメトリクスをスタンドアローンで使うと、統計能力が最大で78%向上し、ノーススターと接して使うと最大で210%向上できることがわかった。 あるいは、北星が要求する量の12%以下のサンプルサイズで一定の統計力を得ることができ、実験のコストを大幅に削減することができる。

Online controlled experiments are a crucial tool to allow for confident decision-making in technology companies. A North Star metric is defined (such as long-term revenue or user retention), and system variants that statistically significantly improve on this metric in an A/B-test can be considered superior. North Star metrics are typically delayed and insensitive. As a result, the cost of experimentation is high: experiments need to run for a long time, and even then, type-II errors (i.e. false negatives) are prevalent. We propose to tackle this by learning metrics from short-term signals that directly maximise the statistical power they harness with respect to the North Star. We show that existing approaches are prone to overfitting, in that higher average metric sensitivity does not imply improved type-II errors, and propose to instead minimise the $p$-values a metric would have produced on a log of past experiments. We collect such datasets from two social media applications with over 160 million Monthly Active Users each, totalling over 153 A/B-pairs. Empirical results show that we are able to increase statistical power by up to 78% when using our learnt metrics stand-alone, and by up to 210% when used in tandem with the North Star. Alternatively, we can obtain constant statistical power at a sample size that is down to 12% of what the North Star requires, significantly reducing the cost of experimentation.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 電子密度推定のためのガウス平面波ニューラル演算子

Gaussian Plane-Wave Neural Operator for Electron Density Estimation ( http://arxiv.org/abs/2402.04278v2 )

ライセンス: Link先を確認
Seongsu Kim, Sungsoo Ahn, (参考訳) この研究は、化学系と密度汎関数理論(DFT)のシミュレーションを理解するための基礎となる、電子密度予測のための機械学習の研究である。 そこで本稿では,DFTの文脈で広く認識されている平面波とガウス型軌道ベースを用いた無限次元関数空間で動作するガウス平面波ニューラル演算子(GPWNO)を紹介する。 特に、密度の高周波数成分と低周波数成分は、2つの基底の相補的な性質により効果的に表すことができる。 QM9、MD、およびマテリアルプロジェクトデータセットに関する大規模な実験は、GPWNOの10つのベースラインよりも優れた性能を示している。

This work studies machine learning for electron density prediction, which is fundamental for understanding chemical systems and density functional theory (DFT) simulations. To this end, we introduce the Gaussian plane-wave neural operator (GPWNO), which operates in the infinite-dimensional functional space using the plane-wave and Gaussian-type orbital bases, widely recognized in the context of DFT. In particular, both high- and low-frequency components of the density can be effectively represented due to the complementary nature of the two bases. Extensive experiments on QM9, MD, and material project datasets demonstrate GPWNO's superior performance over ten baselines.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# LESS: ターゲットのインストラクションチューニングのためのインフルエンシャルデータの選択

LESS: Selecting Influential Data for Targeted Instruction Tuning ( http://arxiv.org/abs/2402.04333v3 )

ライセンス: Link先を確認
Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen, (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)の強力な機能を解放し、組み合わせたデータセットを効果的に利用して汎用チャットボットを開発した。 しかし、現実世界のアプリケーションは、しばしば特別なスキル(例えば推論)を必要とします。 課題は、これらの広範囲なデータセットから最も関連性の高いデータを特定して、特定の能力を効果的に開発することである。 LESSは,データの影響を効果的に推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムである。 重要なことに、LESSはAdamオプティマイザと可変長の命令データを扱うために既存の影響定式化を適用する。 LESSはまず、低次元の勾配特徴を持つ再利用性が高く、転送可能な勾配データストアを構築し、その後、特定の機能を具現化した少数ショットの例と類似性に基づいてサンプルを選択する。 実験の結果、LESSが選択したデータの5%のトレーニングは、さまざまな下流タスクにわたる完全なデータセットでのトレーニングよりも優れていることが示されている。 さらに、選択されたデータは非常に転送可能であり、より小さなモデルを使用して、異なるファミリーのより大きなモデルやモデルのために有用なデータを選択することができる。 我々の定性的分析は,本手法が下流アプリケーションに必要な推論スキルを実証するデータを特定するために,表面形状の手がかりを越えていることを示している。

Instruction tuning has unlocked powerful capabilities in large language models (LLMs), effectively using combined datasets to develop generalpurpose chatbots. However, real-world applications often require a specialized suite of skills (e.g., reasoning). The challenge lies in identifying the most relevant data from these extensive datasets to effectively develop specific capabilities, a setting we frame as targeted instruction tuning. We propose LESS, an optimizer-aware and practically efficient algorithm to effectively estimate data influences and perform Low-rank gradiEnt Similarity Search for instruction data selection. Crucially, LESS adapts existing influence formulations to work with the Adam optimizer and variable-length instruction data. LESS first constructs a highly reusable and transferable gradient datastore with low-dimensional gradient features and then selects examples based on their similarity to few-shot examples embodying a specific capability. Experiments show that training on a LESS-selected 5% of the data can often outperform training on the full dataset across diverse downstream tasks. Furthermore, the selected data is highly transferable: smaller models can be leveraged to select useful data for larger models and models from different families. Our qualitative analysis shows that our method goes beyond surface form cues to identify data that exemplifies the necessary reasoning skills for the intended downstream application.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 細調整CLIPの開語彙校正

Open-Vocabulary Calibration for Fine-tuned CLIP ( http://arxiv.org/abs/2402.04655v3 )

ライセンス: Link先を確認
Shuoyuan Wang, Jindong Wang, Guoqing Wang, Bob Zhang, Kaiyang Zhou, Hongxin Wei, (参考訳) 視覚言語モデル(VLM)は、画像認識、テキスト駆動型ビジュアルコンテンツ生成、ビジュアルチャットボットなどにおける様々なオープン語彙タスクを扱う強力な能力を示している。 近年、VLMの下流性能を改善するための適応法、特に素早い学習のようなパラメータ効率の高い微調整法に多大な努力とリソースが注がれている。 しかし、主に見過ごされてきた重要な側面は、細調整されたVLMにおける信頼性校正の問題であり、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。 本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することによりギャップを埋めるとともに,既存の校正手法が,特にオープン語彙設定において,この問題に対処するには不十分であることを明らかにする。 そこで本研究では,予測テキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づくDAC(Distance-Aware Calibration)を提案する。 11の下流データセットに対して適用された7つの異なる素早い学習手法による実験は、推論速度を犠牲にすることなく高い有効性を達成するDACの有効性を示す。 私たちのコードは[このhttps URL](https://github.com/ml-stat-Sustech/CLIP_Calibration)で利用可能です。

Vision-language models (VLMs) have emerged as formidable tools, showing their strong capability in handling various open-vocabulary tasks in image recognition, text-driven visual content generation, and visual chatbots, to name a few. In recent years, considerable efforts and resources have been devoted to adaptation methods for improving downstream performance of VLMs, particularly on parameter-efficient fine-tuning methods like prompt learning. However, a crucial aspect that has been largely overlooked is the confidence calibration problem in fine-tuned VLMs, which could greatly reduce reliability when deploying such models in the real world. This paper bridges the gap by systematically investigating the confidence calibration problem in the context of prompt learning and reveals that existing calibration methods are insufficient to address the problem, especially in the open-vocabulary setting. To solve the problem, we present a simple and effective approach called Distance-Aware Calibration (DAC), which is based on scaling the temperature using as guidance the distance between predicted text labels and base classes. The experiments with 7 distinct prompt learning methods applied across 11 diverse downstream datasets demonstrate the effectiveness of DAC, which achieves high efficacy without sacrificing the inference speed. Our code is available at [this https URL](https://github.com/ml-stat-Sustech/CLIP_Calibration).
翻訳日:2024-06-14 23:55:19 公開日:2024-06-13
# 表面筋電図信号の非侵入的ニューラルネットワーク品質評価モデル

A Non-Intrusive Neural Quality Assessment Model for Surface Electromyography Signals ( http://arxiv.org/abs/2402.05482v3 )

ライセンス: Link先を確認
Cho-Yuan Lee, Kuan-Chen Wang, Kai-Chun Liu, Yu-Te Wang, Xugang Lu, Ping-Cheng Yeh, Yu Tsao, (参考訳) 筋、特に心臓近くの領域における表面筋電図(sEMG)の測定を含む現実的なシナリオにおいて、汚染の主な原因の1つは心電図(ECG)信号の存在である。 本研究では,実世界のSEMGデータの品質をより効果的に評価するために,SEMG信号のSNRを予測する新しい非侵入モデルQASE-netを提案する。 QASE-netはCNN-BLSTMとアテンションメカニズムを組み合わせて、エンドツーエンドのトレーニング戦略に従う。 実験フレームワークは,2つのオープンアクセスデータベースであるNon-Invasive Adaptive Prosthetics DatabaseとMIT-BIH Normal Sinus Rhythm Databaseから,実世界のsEMGとECGデータを利用する。 実験の結果, 従来の評価モデルよりもQASE-netの方が優れており, 予測誤差が著しく減少し, 地中真実との線形相関が顕著であった。 これらの結果から,QASE-netがSEMG品質評価の信頼性と精度を大幅に向上させる可能性が示唆された。

In practical scenarios involving the measurement of surface electromyography (sEMG) in muscles, particularly those areas near the heart, one of the primary sources of contamination is the presence of electrocardiogram (ECG) signals. To assess the quality of real-world sEMG data more effectively, this study proposes QASE-net, a new non-intrusive model that predicts the SNR of sEMG signals. QASE-net combines CNN-BLSTM with attention mechanisms and follows an end-to-end training strategy. Our experimental framework utilizes real-world sEMG and ECG data from two open-access databases, the Non-Invasive Adaptive Prosthetics Database and the MIT-BIH Normal Sinus Rhythm Database, respectively. The experimental results demonstrate the superiority of QASE-net over the previous assessment model, exhibiting significantly reduced prediction errors and notably higher linear correlations with the ground truth. These findings show the potential of QASE-net to substantially enhance the reliability and precision of sEMG quality assessment in practical applications.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# 一重鎖と周期性は平均逆レスベルトの漸近最適性に十分である

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits ( http://arxiv.org/abs/2402.05689v2 )

ライセンス: Link先を確認
Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang, (参考訳) 無限水平平均逆レスバンディット問題を離散時間で考える。 我々は、最適な分布に向けて、徐々に大きな武器のサブセットを推し進めるために設計された新しいポリシーのクラスを提案する。 一つの武器を持つMDPが、最適な単一武器を持つポリシーの下で一本鎖で周期的であることを仮定すると、我々のポリシーは、$O(1/\sqrt{N})$最適性ギャップで漸近的に最適であることが示される。 提案手法は,一様グローバルアトラクタ特性(UGAP)に頼って,最適化への収束を保証する,あるいはシンクロナイゼーション推定(SA)を必要とする最近開発されたシミュレーションベースの政策である,インデックスやプライオリティに重点を置く既存のほとんどの作業から逸脱する。

We consider the infinite-horizon, average-reward restless bandit problem in discrete time. We propose a new class of policies that are designed to drive a progressively larger subset of arms toward the optimal distribution. We show that our policies are asymptotically optimal with an $O(1/\sqrt{N})$ optimality gap for an $N$-armed problem, provided that the single-armed MDP is unichain and aperiodic under the optimal single-armed policy. Our approach departs from most existing work that focuses on index or priority policies, which rely on the Uniform Global Attractor Property (UGAP) to guarantee convergence to the optimum, or a recently developed simulation-based policy, which requires a Synchronization Assumption (SA).
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# 限られたデータセットを用いた物体検出のための生成モデルを用いた移動学習

Transfer learning with generative models for object detection on limited datasets ( http://arxiv.org/abs/2402.06784v2 )

ライセンス: Link先を確認
Matteo Paiano, Stefano Martina, Carlotta Giannelli, Filippo Caruso, (参考訳) データの可用性はフィールドによって制限されており、特にオブジェクト検出タスクでは、各オブジェクトの周りのバウンディングボックスを正しくラベル付けする必要がある。 このようなデータ不足の顕著な例は海洋生物学の領域で見られ、環境モニタリングのための潜水艦種を自動的に検出する方法を開発するのに有用である。 このデータ制限に対処するために、最先端の機械学習戦略には2つの主要なアプローチがある。 1つ目は、特定の関心領域に一般化する前に、既存のデータセットのモデルを事前トレーニングすることである。 第2の戦略は、コピーペースト技術やアドホックシミュレータといった手法を使用して、ターゲットドメインに特化された合成データセットを作成することである。 第1の戦略はしばしば重要なドメインシフトに直面し、第2の戦略は特定のタスクのために作られたカスタムソリューションを要求する。 これらの課題に対応して,一般的なシナリオに有効な伝達学習フレームワークを提案する。 このフレームワークでは、生成した画像は、少数の実データ構造におけるオブジェクト検出器の性能を向上させるのに役立ちます。 これは、大規模なジェネリックデータセットで事前訓練された拡散ベースの生成モデルによって達成される。 最先端技術に関しては、特定の関心領域で生成モデルを微調整する必要はないことが分かる。 これは、オブジェクト検出タスクにおいて、画像に手動でラベルをつけるという、労働集約的な作業を軽減するため、重要な進歩であると考えている。 本研究は, 水中環境における魚類と, 都市環境における自動車のより一般的な領域に焦点をあてたアプローチを検証する。 本手法は,数百の入力データのみを用いて,何千もの画像上で訓練されたモデルに匹敵する検出性能を実現する。 我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。

The availability of data is limited in some fields, especially for object detection tasks, where it is necessary to have correctly labeled bounding boxes around each object. A notable example of such data scarcity is found in the domain of marine biology, where it is useful to develop methods to automatically detect submarine species for environmental monitoring. To address this data limitation, the state-of-the-art machine learning strategies employ two main approaches. The first involves pretraining models on existing datasets before generalizing to the specific domain of interest. The second strategy is to create synthetic datasets specifically tailored to the target domain using methods like copy-paste techniques or ad-hoc simulators. The first strategy often faces a significant domain shift, while the second demands custom solutions crafted for the specific task. In response to these challenges, here we propose a transfer learning framework that is valid for a generic scenario. In this framework, generated images help to improve the performances of an object detector in a few-real data regime. This is achieved through a diffusion-based generative model that was pretrained on large generic datasets. With respect to the state-of-the-art, we find that it is not necessary to fine tune the generative model on the specific domain of interest. We believe that this is an important advance because it mitigates the labor-intensive task of manual labeling the images in object detection tasks. We validate our approach focusing on fishes in an underwater environment, and on the more common domain of cars in an urban setting. Our method achieves detection performance comparable to models trained on thousands of images, using only a few hundreds of input data. Our results pave the way for new generative AI-based protocols for machine learning applications in various domains.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# グループ固有の分散概念ドリフトの展開:フェデレーション学習におけるフェアネス・インペラティブ

Unveiling Group-Specific Distributed Concept Drift: A Fairness Imperative in Federated Learning ( http://arxiv.org/abs/2402.07586v3 )

ライセンス: Link先を確認
Teresa Salazar, João Gama, Helder Araújo, Pedro Henriques Abreu, (参考訳) 機械学習の進化する分野では、公正性の確保が重要な問題となり、意思決定プロセスにおける差別的結果を軽減するために設計されたアルゴリズムの開発が進められている。 しかし,グループ固有の概念ドリフトの存在下での公正性の実現は未発見のフロンティアであり,本研究は先駆的な試みである。 グループ固有の概念ドリフト(グループ固有の概念ドリフト)とは、あるグループが時間とともにコンセプトを経験し、別のグループがそうでない状況を指す。 クライアントが協力的にモデルをトレーニングするフェデレートラーニングのフレームワークの中で、その分散特性は、各クライアントが同じ概念を共有しながらグループ固有のコンセプトドリフトを独立して経験し、公正性を維持するための複雑でダイナミックな環境を作ることができるため、これらの課題をさらに増幅します。 我々の研究の重要な貢献の1つは、グループ固有のコンセプトドリフトと、その分散したコンセプトドリフトの問題の形式化と導入であり、フェアネスの領域におけるその重要な重要性に光を当てている。 さらに,先行研究から得られた知見を生かして,複数モデルアプローチ,局所的なグループ固有のドリフト検出機構,時間経過に伴うモデルの連続的クラスタリングを利用した,グループ固有の分散コンセプトドリフトに取り組むために,既存の分散コンセプトドリフト適応アルゴリズムを適用した。 本実験から得られた知見は,グループ固有のコンセプトドリフトと,機械学習における公平性向上のための分散処理の重要性を浮き彫りにしたものである。

In the evolving field of machine learning, ensuring fairness has become a critical concern, prompting the development of algorithms designed to mitigate discriminatory outcomes in decision-making processes. However, achieving fairness in the presence of group-specific concept drift remains an unexplored frontier, and our research represents pioneering efforts in this regard. Group-specific concept drift refers to situations where one group experiences concept drift over time while another does not, leading to a decrease in fairness even if accuracy remains fairly stable. Within the framework of federated learning, where clients collaboratively train models, its distributed nature further amplifies these challenges since each client can experience group-specific concept drift independently while still sharing the same underlying concept, creating a complex and dynamic environment for maintaining fairness. One of the significant contributions of our research is the formalization and introduction of the problem of group-specific concept drift and its distributed counterpart, shedding light on its critical importance in the realm of fairness. In addition, leveraging insights from prior research, we adapt an existing distributed concept drift adaptation algorithm to tackle group-specific distributed concept drift which utilizes a multi-model approach, a local group-specific drift detection mechanism, and continuous clustering of models over time. The findings from our experiments highlight the importance of addressing group-specific concept drift and its distributed counterpart to advance fairness in machine learning.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# MuChin: 音楽分野における言語モデル評価のための中国語の口語記述ベンチマーク

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music ( http://arxiv.org/abs/2402.09871v4 )

ライセンス: Link先を確認
Zihao Wang, Shuyu Li, Tao Zhang, Qi Wang, Pengfei Yu, Jinyang Luo, Yan Liu, Ming Xi, Kejun Zhang, (参考訳) 急速に発展するマルチモーダル大言語モデル(LLM)は、音楽の理解とテキスト記述において、そのパフォーマンスを均一に評価するために、新しいベンチマークを必要とする。 しかし、音楽情報検索(MIR)アルゴリズムと人間の理解、専門家と一般人の相違、注釈の精度の低さなどにより、既存の音楽記述データセットはベンチマークとして機能することができない。 そこで本研究では,中国語における最初のオープンソース音楽記述ベンチマークであるMuChinについて述べる。 そこで我々は,革新的な多人数多段階保証手法を取り入れたCaiMAP(Caichong Music Annotation Platform)を構築し,アノテーションの精度と一般的な意味論との整合性を確保するために,アマチュアとプロの両方を雇った。 この手法を用いて,多次元で高精度な音楽アノテーションを備えたデータセットであるCaichong Music Dataset (CaiMD)を構築し,Muchinのテストセットとして1,000の高品質なエントリを慎重に選択した。 MuChin を用いて,音楽記述の観点からプロとアマチュアの差異を分析し,微調整 LLM における注釈付きデータの有効性を実証的に実証した。 最終的に、我々は既存の音楽理解モデルの評価にMuChinを用いて、音楽の口語的記述を提供する能力について検討した。 ベンチマークに関連するすべてのデータとスコアコード、詳細な付録がオープンソース化された(https://github.com/CarlWangChina/MuChin/)。

The rapidly evolving multimodal Large Language Models (LLMs) urgently require new benchmarks to uniformly evaluate their performance on understanding and textually describing music. However, due to semantic gaps between Music Information Retrieval (MIR) algorithms and human understanding, discrepancies between professionals and the public, and low precision of annotations, existing music description datasets cannot serve as benchmarks. To this end, we present MuChin, the first open-source music description benchmark in Chinese colloquial language, designed to evaluate the performance of multimodal LLMs in understanding and describing music. We established the Caichong Music Annotation Platform (CaiMAP) that employs an innovative multi-person, multi-stage assurance method, and recruited both amateurs and professionals to ensure the precision of annotations and alignment with popular semantics. Utilizing this method, we built a dataset with multi-dimensional, high-precision music annotations, the Caichong Music Dataset (CaiMD), and carefully selected 1,000 high-quality entries to serve as the test set for MuChin. Based on MuChin, we analyzed the discrepancies between professionals and amateurs in terms of music description, and empirically demonstrated the effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed MuChin to evaluate existing music understanding models on their ability to provide colloquial descriptions of music. All data related to the benchmark, along with the scoring code and detailed appendices, have been open-sourced (https://github.com/CarlWangChina/MuChin/).
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# ブリッジング連想記憶と確率的モデリング

Bridging Associative Memory and Probabilistic Modeling ( http://arxiv.org/abs/2402.10202v2 )

ライセンス: Link先を確認
Rylan Schaeffer, Nika Zahedi, Mikail Khona, Dhruv Pai, Sang Truong, Yilun Du, Mitchell Ostrow, Sarthak Chandra, Andres Carranza, Ila Rani Fiete, Andrey Gromov, Sanmi Koyejo, (参考訳) 連想記憶と確率的モデリングは人工知能の2つの基本的なトピックである。 第1の研究は、データを識別し、完全化し、取り出すように設計されたニューラルネットワークを、第2の研究は確率分布から学習し、サンプリングする。 連想記憶のエネルギー関数を確率論的モデリングの負の対数確率と見なすことができ、両方向のアイデアの有用な流れを可能にする橋梁を構築する。 まず、エネルギー関数を新しいインコンテキストデータセットに柔軟に適応させる新しいエネルギーベースモデルを提案し、エネルギー関数の「textit{in-context learning of energy function」と呼ぶアプローチを示す。 第2に、ベイズ非パラメトリックを用いたトレーニングデータで必要となる新しいメモリを動的に生成するアソシエイトメモリモデルと、証拠の下位境界を用いて比例メモリ割り当てを明示的に計算するアソシエイトメモリモデルを提案する。 第3に、連想メモリのツールを用いて、確率的モデリングにおいて広く使われているガウス核密度推定器のメモリ容量を解析的・数値的に特徴付ける。 第4に、超球面上でクラスタリングを行うことを示すために、トランスフォーマー(正規化と自己注意)の広範な実装選択について検討する。 この研究は、これらの2つの大陸間の有用なアイデアの交換を促す。

Associative memory and probabilistic modeling are two fundamental topics in artificial intelligence. The first studies recurrent neural networks designed to denoise, complete and retrieve data, whereas the second studies learning and sampling from probability distributions. Based on the observation that associative memory's energy functions can be seen as probabilistic modeling's negative log likelihoods, we build a bridge between the two that enables useful flow of ideas in both directions. We showcase four examples: First, we propose new energy-based models that flexibly adapt their energy functions to new in-context datasets, an approach we term \textit{in-context learning of energy functions}. Second, we propose two new associative memory models: one that dynamically creates new memories as necessitated by the training data using Bayesian nonparametrics, and another that explicitly computes proportional memory assignments using the evidence lower bound. Third, using tools from associative memory, we analytically and numerically characterize the memory capacity of Gaussian kernel density estimators, a widespread tool in probababilistic modeling. Fourth, we study a widespread implementation choice in transformers -- normalization followed by self attention -- to show it performs clustering on the hypersphere. Altogether, this work urges further exchange of useful ideas between these two continents of artificial intelligence.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# FinTral: GPT-4レベルのマルチモーダル金融大規模言語モデルの一家系

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models ( http://arxiv.org/abs/2402.10986v2 )

ライセンス: Link先を確認
Gagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed, (参考訳) 我々は、Mistral-7bモデル上に構築され、財務分析に適した、最先端のマルチモーダル言語モデル(LLM)スイートであるFinTralを紹介する。 FinTralはテキスト、数値、表、画像データを統合する。 我々はFinTralをドメイン固有の事前トレーニング、命令の微調整、RLAIFトレーニングで強化し、本研究のためにキュレートしたテキストおよびビジュアルデータセットの大規模なコレクションを活用する。 また、金融分野における幻覚を含む9つのタスクと25のデータセットを含む広範なベンチマークも導入した。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。 全タスクでChatGPT-3.5を上回っ、9タスク中5タスクでGPT-4を上回っており、AI主導の金融技術の大幅な進歩を示している。 また、FinTralは、さまざまな財務状況におけるリアルタイム分析と意思決定に優れる可能性を実証した。 GitHub repository for \textit{FinTral} は \url{https://github.com/UBC-NLP/fintral} で公開されている。

We introduce FinTral, a suite of state-of-the-art multimodal large language models (LLMs) built upon the Mistral-7b model and tailored for financial analysis. FinTral integrates textual, numerical, tabular, and image data. We enhance FinTral with domain-specific pretraining, instruction fine-tuning, and RLAIF training by exploiting a large collection of textual and visual datasets we curate for this work. We also introduce an extensive benchmark featuring nine tasks and 25 datasets for evaluation, including hallucinations in the financial domain. Our FinTral model trained with direct preference optimization employing advanced Tools and Retrieval methods, dubbed FinTral-DPO-T&R, demonstrates an exceptional zero-shot performance. It outperforms ChatGPT-3.5 in all tasks and surpasses GPT-4 in five out of nine tasks, marking a significant advancement in AI-driven financial technology. We also demonstrate that FinTral has the potential to excel in real-time analysis and decision-making in diverse financial contexts. The GitHub repository for \textit{FinTral} is available at \url{https://github.com/UBC-NLP/fintral}.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# データ中心の観点からの効率的なマルチモーダル学習

Efficient Multimodal Learning from Data-centric Perspective ( http://arxiv.org/abs/2402.11530v2 )

ライセンス: Link先を確認
Muyang He, Yexin Liu, Boya Wu, Jianhao Yuan, Yueze Wang, Tiejun Huang, Bo Zhao, (参考訳) MLLM(Multimodal Large Language Models)は、一般的な視覚的理解と推論タスクにおいて顕著な機能を示す。 しかし、それらのデプロイメントは、トレーニングと推論の両方において相当な計算コストによって妨げられ、より広範な研究とユーザコミュニティへのアクセシビリティが制限される。 簡単な解決策は、トレーニング済みのより小さなビジョンと言語モデルを活用することだ。 本稿では,より小型で優れたMLLMを高品質なトレーニングデータでトレーニングする可能性を実証する。 具体的には、フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し、選択したトレーニングデータから効率的なマルチモーダル学習を実現する。 実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。 この作業がコミュニティに、さらなる研究と開発のためのクリーンで柔軟なオープンソースツールを提供することを期待しています。 コード、モデル、データはhttps://github.com/BAAI-DCAI/Bunny.comにある。

Multimodal Large Language Models (MLLMs) have demonstrated notable capabilities in general visual understanding and reasoning tasks. However, their deployment is hindered by substantial computational costs in both training and inference, limiting accessibility to the broader research and user communities. A straightforward solution is to leverage smaller pre-trained vision and language models, which inevitably cause significant performance drops. In this paper, we demonstrate the possibility of training a smaller but better MLLM with high-quality training data. Specifically, we introduce Bunny, a family of lightweight MLLMs with flexible vision and language backbones for efficient multimodal learning from selected training data. Experiments show that our Bunny-4B/8B outperforms the state-of-the-art large MLLMs on multiple benchmarks. We expect that this work can provide the community with a clean and flexible open-source tool for further research and development. The code, models, and data can be found in https://github.com/BAAI-DCAI/Bunny.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# 欧州の人間中心技術へのコミットメント:EU AI法の成功におけるHCIの一体的役割

The European Commitment to Human-Centered Technology: The Integral Role of HCI in the EU AI Act's Success ( http://arxiv.org/abs/2402.14728v2 )

ライセンス: Link先を確認
André Calero Valdez, Moreen Heine, Thomas Franke, Nicole Jochems, Hans-Christian Jetter, Tim Schrills, (参考訳) AIの進化は、未来を深く変えようとしている。 欧州連合(EU)は、AIベースのシステムに対する市場アクセスを規制するAI法を制定した。 この法律の健全な特徴は、透明性、説明可能性、AIシステムを理解し制御する人間の能力に重点を置いて、民主的、人道的価値を保護することである。 これにより、EUのAI法は、単にAIシステムの技術的要件を規定するだけではない。 EUは、人間中心のAIシステムに対する民主的な要求を発行し、それによって、AI開発における人間中心のイノベーションのための学際的な研究課題を発行する。 AIシステムとその個人や社会への影響を評価する堅牢な方法がなければ、EU AI Actは、EUの一般データ保護規則の過ちを繰り返し、急激で混乱した、アドホックで曖昧な実施につながる可能性がある。 さらに、人間とAIの相互作用における決定された研究活動は、倫理的かつ効果的な方法で、規制コンプライアンスとAIの進歩の両方に重要である。 このようなアプローチは、AI開発が人間の価値観やニーズと一致し、革新的で責任があり、社会の不可欠な部分である技術景観を育むことを保証する。

The evolution of AI is set to profoundly reshape the future. The European Union, recognizing this impending prominence, has enacted the AI Act, regulating market access for AI-based systems. A salient feature of the Act is to guard democratic and humanistic values by focusing regulation on transparency, explainability, and the human ability to understand and control AI systems. Hereby, the EU AI Act does not merely specify technological requirements for AI systems. The EU issues a democratic call for human-centered AI systems and, in turn, an interdisciplinary research agenda for human-centered innovation in AI development. Without robust methods to assess AI systems and their effect on individuals and society, the EU AI Act may lead to repeating the mistakes of the General Data Protection Regulation of the EU and to rushed, chaotic, ad-hoc, and ambiguous implementation, causing more confusion than lending guidance. Moreover, determined research activities in Human-AI interaction will be pivotal for both regulatory compliance and the advancement of AI in a manner that is both ethical and effective. Such an approach will ensure that AI development aligns with human values and needs, fostering a technology landscape that is innovative, responsible, and an integral part of our society.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# 教師なし事前学習と文脈学習によるデータ効率の良い演算子学習

Data-Efficient Operator Learning via Unsupervised Pretraining and In-Context Learning ( http://arxiv.org/abs/2402.15734v2 )

ライセンス: Link先を確認
Wuyang Chen, Jialin Song, Pu Ren, Shashank Subramanian, Dmitriy Morozov, Michael W. Mahoney, (参考訳) 近年、偏微分方程式(PDE)に基づく科学的問題の解法として、機械学習手法と物理領域固有の洞察の結合が期待されている。 しかし、データ集約型であるため、これらの手法は依然として大量のPDEデータを必要とする。 これにより、高価な数値PDEソリューションの必要性が再燃し、こうした高価なシミュレーションを避けるという当初の目標を部分的に損なうことになる。 本研究では,PDE演算子学習のための教師なし事前学習を設計する。 シミュレーションコストの重いトレーニングデータの必要性を低減するため、シミュレーションソリューションを使わずにラベルなしのPDEデータをマイニングし、物理に着想を得た再構成に基づくプロキシタスクでニューラルネットワークを事前訓練する。 アウト・オブ・ディストリビューション性能を改善するために、我々は、余分なトレーニングコストや設計を伴わずに、文脈内学習法を柔軟に活用する神経オペレーターを更に支援する。 PDEの多種多様な集合に対する広範囲な実験評価により,本手法はデータ効率が高く,より一般化可能であり,従来の視覚予測モデルよりも優れていたことが証明された。

Recent years have witnessed the promise of coupling machine learning methods and physical domainspecific insights for solving scientific problems based on partial differential equations (PDEs). However, being data-intensive, these methods still require a large amount of PDE data. This reintroduces the need for expensive numerical PDE solutions, partially undermining the original goal of avoiding these expensive simulations. In this work, seeking data efficiency, we design unsupervised pretraining for PDE operator learning. To reduce the need for training data with heavy simulation costs, we mine unlabeled PDE data without simulated solutions, and pretrain neural operators with physics-inspired reconstruction-based proxy tasks. To improve out-of-distribution performance, we further assist neural operators in flexibly leveraging in-context learning methods, without incurring extra training costs or designs. Extensive empirical evaluations on a diverse set of PDEs demonstrate that our method is highly data-efficient, more generalizable, and even outperforms conventional vision-pretrained models.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# EHRNoteQA:放電補助剤を用いた実世界の臨床実習のためのLLMベンチマーク

EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries ( http://arxiv.org/abs/2402.16040v3 )

ライセンス: Link先を確認
Sunjun Kweon, Jiyoun Kim, Heeyoung Kwak, Dongchul Cha, Hangyul Yoon, Kwanghyun Kim, Jeewon Yang, Seunghyun Won, Edward Choi, (参考訳) エレクトロニック・ヘルス・レコード(EHR)の放電サマリーは臨床診断に不可欠であるが、その長さと複雑さは情報抽出を困難にしている。 大規模言語モデル(LLM)は、広大で複雑なデータを効率的に分析することで、この問題に対処する上で有望であることを示す。 しかし、既存のベンチマークでは、通常はシングルノート情報や限られたトピックに焦点を合わせ、臨床医が要求する現実世界の問い合わせを反映しないため、この文脈でLLMの能力を適切に評価するに不足している。 このギャップを埋めるために,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを導入する。 各QAペアは、最初はGPT-4を使用して生成され、3人の臨床医が臨床関連性を確保するために手動でレビューし、精製する。 EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。 EHRNoteQAを2つの形式で提供し、それぞれに対して信頼性の高い評価手法を提案する。 EHRNoteQAを用いて27個のLCMを評価し,モデル性能に影響を与える諸要因について検討した。 さらに,臨床実習における専門家評価の信頼性指標として EHRNoteQA を検証するために,臨床医が手作業で評価する LLM と EHRNoteQA の LLM 性能の相関を計測した。 その結果, EHRNoteQA における LLM の成績は, 臨床評価値 (Spearman: 0.78, Kendall: 0.62) と他のベンチマークと比較して高い相関性を示し, 臨床評価における LLM の有効性を実証した。

Discharge summaries in Electronic Health Records (EHRs) are crucial for clinical decision-making, but their length and complexity make information extraction challenging, especially when dealing with accumulated summaries across multiple patient admissions. Large Language Models (LLMs) show promise in addressing this challenge by efficiently analyzing vast and complex data. Existing benchmarks, however, fall short in properly evaluating LLMs' capabilities in this context, as they typically focus on single-note information or limited topics, failing to reflect the real-world inquiries required by clinicians. To bridge this gap, we introduce EHRNoteQA, a novel benchmark built on the MIMIC-IV EHR, comprising 962 different QA pairs each linked to distinct patients' discharge summaries. Every QA pair is initially generated using GPT-4 and then manually reviewed and refined by three clinicians to ensure clinical relevance. EHRNoteQA includes questions that require information across multiple discharge summaries and covers eight diverse topics, mirroring the complexity and diversity of real clinical inquiries. We offer EHRNoteQA in two formats: open-ended and multi-choice question answering, and propose a reliable evaluation method for each. We evaluate 27 LLMs using EHRNoteQA and examine various factors affecting the model performance (e.g., the length and number of discharge summaries). Furthermore, to validate EHRNoteQA as a reliable proxy for expert evaluations in clinical practice, we measure the correlation between the LLM performance on EHRNoteQA, and the LLM performance manually evaluated by clinicians. Results show that LLM performance on EHRNoteQA have higher correlation with clinician-evaluated performance (Spearman: 0.78, Kendall: 0.62) compared to other benchmarks, demonstrating its practical relevance in evaluating LLMs in clinical settings.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-13
# ストーリーテリングによる複雑な法的概念学習のための大規模言語モデルの導入

Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling ( http://arxiv.org/abs/2402.17019v2 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Robert Mahari, Daniel Kessler, Eric Ma, Tal August, Irene Li, Alex 'Sandy' Pentland, Yoon Kim, Jad Kabbara, Deb Roy, (参考訳) 非専門家に法的知識を提供することは、一般の法的リテラシーを高め、民主主義への市民の参加を促進するために不可欠である。 しかし、法的背景のない人々にとって、法的文書は理解が難しいことが多い。 本稿では,非専門家が複雑で抽象的な概念を伝達する効果的な教育ツールであるストーリテリングを通じて複雑な法的概念を学習するのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。 294の複雑な法的教義からなり、それぞれに物語とLLMが生成する複数選択の質問が伴う。 このデータセットを構築するために、我々は様々なLCMを用いて、これらの概念を説明する法的な物語を生成する実験を行った。 さらに,複数選択質問を反復的に設計するために,エキスパート・イン・ザ・ループアプローチを用いる。 そこで本研究では, ランダム化制御試験(RCT)によるLLMによるストーリーテリングの有効性を評価する。 LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。 さらに、物語は、参加者が法的概念を自分の生活に関連付けるのに役立つ。 最後に、ストーリーを用いた学習は、フォローアップアセスメントにおいて、非ネイティブ話者の保持率が高いことが判明した。 我々の研究は、法学以外の分野での教育と学習の促進にLLMを使うことに強い意味を持っている。

Making legal knowledge accessible to non-experts is crucial for enhancing general legal literacy and encouraging civic participation in democracy. However, legal documents are often challenging to understand for people without legal backgrounds. In this paper, we present a novel application of large language models (LLMs) in legal education to help non-experts learn intricate legal concepts through storytelling, an effective pedagogical tool in conveying complex and abstract concepts. We also introduce a new dataset LegalStories, which consists of 294 complex legal doctrines, each accompanied by a story and a set of multiple-choice questions generated by LLMs. To construct the dataset, we experiment with various LLMs to generate legal stories explaining these concepts. Furthermore, we use an expert-in-the-loop approach to iteratively design multiple-choice questions. Then, we evaluate the effectiveness of storytelling with LLMs through randomized controlled trials (RCTs) with legal novices on 10 samples from the dataset. We find that LLM-generated stories enhance comprehension of legal concepts and interest in law among non-native speakers compared to only definitions. Moreover, stories consistently help participants relate legal concepts to their lives. Finally, we find that learning with stories shows a higher retention rate for non-native speakers in the follow-up assessment. Our work has strong implications for using LLMs in promoting teaching and learning in the legal field and beyond.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# EMOVOME(Emotional Voice Messages)データベース:自然音声における感情認識

Emotional Voice Messages (EMOVOME) database: emotion recognition in spontaneous voice messages ( http://arxiv.org/abs/2402.17496v2 )

ライセンス: Link先を確認
Lucía Gómez Zaragozá, Rocío del Amor, Elena Parra Vargas, Valery Naranjo, Mariano Alcañiz Raya, Javier Marín-Morales, (参考訳) EMOVOME(Emotional Voice Messages)は、スペイン語話者100人のメッセージアプリで、実際の会話から999の音声メッセージを含む、自発的な音声データセットである。 ボイスメッセージは、参加者が採用される前に、実験室環境による意識的な偏見を避けるために、現場で発生した。 音声は3人の非専門家と2人の専門家によって原子価と覚醒次元でラベル付けされ、これらを組み合わせて1次元あたりの最終ラベルを得た。 専門家は7つの感情カテゴリーに対応する追加ラベルも提供した。 EMOVOMEを用いた将来の調査のベースラインを設定するために,音声と音声の両方を用いた感情認識モデルを実装した。 音声では,標準の eGeMAPS 機能セットとサポートベクターを用いて,それぞれ49.27% と44.71% の未加重精度を得た。 テキストでは、多言語BERTモデルを微調整し、それぞれ原子価の61.15%と47.43%の未重み付き精度を達成した。 このデータベースは、野生における感情認識の研究に大きく貢献すると同時に、スペイン語に固有の自然で自由にアクセスできるリソースを提供する。

Emotional Voice Messages (EMOVOME) is a spontaneous speech dataset containing 999 audio messages from real conversations on a messaging app from 100 Spanish speakers, gender balanced. Voice messages were produced in-the-wild conditions before participants were recruited, avoiding any conscious bias due to laboratory environment. Audios were labeled in valence and arousal dimensions by three non-experts and two experts, which were then combined to obtain a final label per dimension. The experts also provided an extra label corresponding to seven emotion categories. To set a baseline for future investigations using EMOVOME, we implemented emotion recognition models using both speech and audio transcriptions. For speech, we used the standard eGeMAPS feature set and support vector machines, obtaining 49.27% and 44.71% unweighted accuracy for valence and arousal respectively. For text, we fine-tuned a multilingual BERT model and achieved 61.15% and 47.43% unweighted accuracy for valence and arousal respectively. This database will significantly contribute to research on emotion recognition in the wild, while also providing a unique natural and freely accessible resource for Spanish.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# NextLevelBERT: 長いドキュメントのための高レベル表現を用いたマスケッド言語モデリング

NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents ( http://arxiv.org/abs/2402.17682v2 )

ライセンス: Link先を確認
Tamara Czinczoll, Christoph Hönes, Maximilian Schall, Gerard de Melo, (参考訳) 言語モデルはここ数年で大幅に改善されているが、基盤となる注意機構の2次スケーリングのため、書籍などに見られる長いシーケンスの処理には相変わらず苦労している。 そこで本研究では,トークンではなく,テキスト埋め込みの形で高レベルな意味表現を操作可能なマスケッド言語モデルであるNextLevelBERTを提案する。 マスクされたテキストチャンク全体のベクトル表現を予測するためにNextLevelBERTを事前訓練し、3種類のタスクに対する文書ベクトルの有効性を評価する。 1)ゼロショット文書埋め込みによる意味的テクスト類似性 2)長期文書分類 3)複数選択質問応答。 次世代のマスケプド言語モデリングは、ドキュメントの長いユースケースに対処するための効果的な手法であり、セマンティック情報の詳細の必要なレベルが十分でない限り、はるかに大きな埋め込みモデルよりも優れていることが分かりました。 私たちのモデルとコードはオンラインで公開されています。

While (large) language models have significantly improved over the last years, they still struggle to sensibly process long sequences found, e.g., in books, due to the quadratic scaling of the underlying attention mechanism. To address this, we propose NextLevelBERT, a Masked Language Model operating not on tokens, but on higher-level semantic representations in the form of text embeddings. We pretrain NextLevelBERT to predict the vector representation of entire masked text chunks and evaluate the effectiveness of the resulting document vectors on three types of tasks: 1) Semantic Textual Similarity via zero-shot document embeddings, 2) Long document classification, 3) Multiple-choice question answering. We find that next-level Masked Language Modeling is an effective technique to tackle long-document use cases and can outperfor much larger embedding models as long as the required level of detail of semantic information is not too fine. Our models and code are publicly available online.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# 大型言語モデルを教える

Teaching Large Language Models an Unseen Language on the Fly ( http://arxiv.org/abs/2402.19167v2 )

ライセンス: Link先を確認
Chen Zhang, Xiao Liu, Jiuheng Lin, Yansong Feng, (参考訳) 既存の大規模言語モデルは、多くの低リソース言語、特に非常に低リソース言語をサポートするのに苦労している。 そこで本研究では,LLMがプロンプトによってのみ新しい言語を学習できるかどうかを考察する。 この問題を研究するために、現在LLMがサポートしていない言語であるZhuangの研究スイートを収集する。 In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである DiPMT++ を紹介した。 辞書と5Kパラレル文のみを用いて、DiPMT++は0から16BLEUまでのGPT-4の性能を大幅に向上させ、中国語から中国語への翻訳では32BLEUを達成する。 また、もう1つの目に見えない言語であるKalamang上で、我々のフレームワークの有効性を検証する。 さらに, 言語多様性の保全に寄与しうる, 全く見えない言語を翻訳する上で, DiPMT++の実用性を実証した。

Existing large language models struggle to support numerous low-resource languages, particularly the extremely low-resource ones, for which there is minimal training data available for effective parameter updating. We thus investigate whether LLMs can learn a new language on the fly solely through prompting. To study this question, we collect a research suite for Zhuang, a language supported by no LLMs currently. We introduce DiPMT++, a framework for adapting LLMs to unseen languages by in-context learning. Using a dictionary and 5K parallel sentences only, DiPMT++ significantly enhances the performance of GPT-4 from 0 to 16 BLEU for Chinese-to-Zhuang translation and achieves 32 BLEU for Zhuang-to-Chinese translation. We also validate the effectiveness of our framework on Kalamang, another unseen language. Furthermore, we demonstrate the practical utility of DiPMT++ in aiding humans in translating completely unseen languages, which could contribute to the preservation of linguistic diversity.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# CLLMs: 一貫性のある大規模言語モデル

CLLMs: Consistency Large Language Models ( http://arxiv.org/abs/2403.00835v4 )

ライセンス: Link先を確認
Siqi Kou, Lanxiang Hu, Zhezhi He, Zhijie Deng, Hao Zhang, (参考訳) ヤコビ復号法のような並列復号法は、LCM復号プロセスのシーケンシャルな性質を破り、並列化可能な計算に変換するため、より効率的なLCM推論を約束する。 しかし、実際には従来の自己回帰(AR)復号法と比べてほとんどスピードアップしないが、これは主にジャコビ復号法が1つの固定点反復ステップで1つ以上のトークンを正確に予測することが滅多にないためである。 これを解決するために、ヤコビ軌道上の任意の状態から定点への高速収束を実現するための新しいアプローチを開発する。 これは、任意の状態が入力として与えられた固定点を一貫して予測するために、目標LSMを精製することで達成される。 拡張実験により,提案手法の有効性を実証し,22.4$\times$を3.4$\times$に改善し,ドメイン固有のベンチマークとオープンドメインベンチマークの両方で生成品質を保った。

Parallel decoding methods such as Jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. However, in practice, it achieves little speedup compared to traditional autoregressive (AR) decoding, primarily because Jacobi decoding seldom accurately predicts more than one token in a single fixed-point iteration step. To address this, we develop a new approach aimed at realizing fast convergence from any state to the fixed point on a Jacobi trajectory. This is accomplished by refining the target LLM to consistently predict the fixed point given any state as input. Extensive experiments demonstrate the effectiveness of our method, showing 2.4$\times$ to 3.4$\times$ improvements in generation speed while preserving generation quality across both domain-specific and open-domain benchmarks.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# 生成・検索に向けて : 医用オープンドメイン質問応答における人工文脈の有効性について

To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering ( http://arxiv.org/abs/2403.01924v2 )

ライセンス: Link先を確認
Giacomo Frisoni, Alessio Cocchieri, Alex Presepi, Gianluca Moro, Zaiqiao Meng, (参考訳) 医学的なオープンドメインの質問に答えるには、専門知識にかなりアクセスする必要がある。 近年の取り組みでは、モデルパラメータから知識を分離し、アーキテクチャのスケーリングに対処し、一般的な低リソースハードウェアでのトレーニングを可能にしている。 検索テーマのパラダイムは、PubMedや教科書、UMLSといった外部リポジトリから、関連する知識要素に基づくモデル予測によって、ユビキタスになった。 ドメイン固有の大規模言語モデルの出現によって、まだ探索されていないが可能になった代替パスでは、プロンプトを通じて人工的なコンテキストを構築する必要がある。 結果として、"to generate or to retrieve"はハムレットのジレンマと現代の同等である。 本稿では,医学における質問応答のための第1世代読解フレームワークであるMedGENIEについて述べる。 MedQA-USMLE, MedMCQA, MMLUについて, 最大24GB VRAMを仮定して, 実用的視点を取り入れた広範囲な実験を行った。 MedGENIEは、各テストベッドのオープンブック設定に新しい最先端をセットし、706$\times$より少ないパラメータを使用しながら、小規模の読者がゼロショットのクローズドブック175Bのベースラインを上回ります。 以上の結果から, 得られたパスは検索したパスよりも効率が高く, 精度が高いことが判明した。

Medical open-domain question answering demands substantial access to specialized knowledge. Recent efforts have sought to decouple knowledge from model parameters, counteracting architectural scaling and allowing for training on common low-resource hardware. The retrieve-then-read paradigm has become ubiquitous, with model predictions grounded on relevant knowledge pieces from external repositories such as PubMed, textbooks, and UMLS. An alternative path, still under-explored but made possible by the advent of domain-specific large language models, entails constructing artificial contexts through prompting. As a result, "to generate or to retrieve" is the modern equivalent of Hamlet's dilemma. This paper presents MedGENIE, the first generate-then-read framework for multiple-choice question answering in medicine. We conduct extensive experiments on MedQA-USMLE, MedMCQA, and MMLU, incorporating a practical perspective by assuming a maximum of 24GB VRAM. MedGENIE sets a new state-of-the-art in the open-book setting of each testbed, allowing a small-scale reader to outcompete zero-shot closed-book 175B baselines while using up to 706$\times$ fewer parameters. Our findings reveal that generated passages are more effective than retrieved ones in attaining higher accuracy.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# EMOVOMEデータベース:段階的シナリオを超えた音声における感情認識の促進

EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios ( http://arxiv.org/abs/2403.02167v2 )

ライセンス: Link先を確認
Lucía Gómez-Zaragozá, Rocío del Amor, María José Castro-Bleda, Valery Naranjo, Mariano Alcañiz Raya, Javier Marín-Morales, (参考訳) 音声感情認識(SER)のための自然なデータベースは乏しく、映画やテレビ番組のようなステージ化されたシナリオに依存しており、現実の文脈での応用を制限する。 EMOVOME(Emotional Voice Messages)データベースを開発し,公開し,100人のスペイン人話者の実際の会話から999件の音声メッセージをメッセージアプリ上に表示した。 標準音響特徴セットと変圧器モデルを用いて、話者非依存SERモデルの評価を行った。 提案手法は,行動・誘惑音声を含む参照データベースと比較し,アノテータの影響と性別の公平さを解析した。 プレトレーニングされたUniSpeech-SAT-Largeモデルは、ベースラインモデルよりも10%改善したEMOVOMEで、それぞれ3クラスの精度で61.64%と55.57%の未重み付き精度(UA)を達成した。 感情カテゴリーでは42.58%のUAが得られた。 EMOVOMEは、実行されたRAVDESSデータベースよりも低かった。 The elicited IEMOCAP database alsoformed EMOVOME in predicting emotion categories, while similar results were obtained in valence and arousal。 EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。 本研究は、ステージと現実のシナリオのギャップを強調し、真の感情を認識するためのさらなる進歩を支援する。

Natural databases for Speech Emotion Recognition (SER) are scarce and often rely on staged scenarios, such as films or television shows, limiting their application in real-world contexts. We developed and publicly released the Emotional Voice Messages (EMOVOME) database, including 999 voice messages from real conversations of 100 Spanish speakers on a messaging app, labeled in continuous and discrete emotions by expert and non-expert annotators. We evaluated speaker-independent SER models using a standard set of acoustic features and transformer-based models. We compared the results with reference databases including acted and elicited speech, and analyzed the influence of annotators and gender fairness. The pre-trained UniSpeech-SAT-Large model achieved the highest results, 61.64% and 55.57% Unweighted Accuracy (UA) for 3-class valence and arousal prediction respectively on EMOVOME, a 10% improvement over baseline models. For the emotion categories, 42.58% UA was obtained. EMOVOME performed lower than the acted RAVDESS database. The elicited IEMOCAP database also outperformed EMOVOME in predicting emotion categories, while similar results were obtained in valence and arousal. EMOVOME outcomes varied with annotator labels, showing better results and fairness when combining expert and non-expert annotations. This study highlights the gap between staged and real-life scenarios, supporting further advancements in recognizing genuine emotions.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# Brenierの極性分解のニューラル実装について

On a Neural Implementation of Brenier's Polar Factorization ( http://arxiv.org/abs/2403.03071v2 )

ライセンス: Link先を確認
Nina Vesseron, Marco Cuturi, (参考訳) 1991年、ブレニエは正方行列の極分解(PSD $\times$ unitary)を任意のベクトル場 $F:\mathbb{R}^d\rightarrow \mathbb{R}^d$ に一般化する定理を証明した。 極因数分解定理として知られるこの定理は、任意の体$F$は、測度保存写像$M$、すなわち$F=\nabla u \circ M$を持つ凸函数$u$の勾配の合成として回復できると述べている。 本稿では,この理論結果の実践的実装を提案し,機械学習の応用の可能性を探る。 この定理は最適輸送(OT)理論と密接に関連しており、入力凸ニューラルネットワークとしてu$のポテンシャルをパラメータ化するために、ニューラル最適輸送の分野における最近の進歩から借用する。 写像$M$は、$u^*$、$u$の凸共役、$M=\nabla u^* \circ F$、または補助ネットワークとして学ぶことで、ポイントワイズで評価することができる。 一般に、$M$ は単射ではないので、確率的生成器を用いて事前像測度 $M^{-1}$ を近似できる不測の逆写像を推定する追加のタスクを考える。 本稿では,非凸最適化問題に対するブレニエの偏極分解の応用と,対数対数でない密度のサンプリングについて述べる。

In 1991, Brenier proved a theorem that generalizes the polar decomposition for square matrices -- factored as PSD $\times$ unitary -- to any vector field $F:\mathbb{R}^d\rightarrow \mathbb{R}^d$. The theorem, known as the polar factorization theorem, states that any field $F$ can be recovered as the composition of the gradient of a convex function $u$ with a measure-preserving map $M$, namely $F=\nabla u \circ M$. We propose a practical implementation of this far-reaching theoretical result, and explore possible uses within machine learning. The theorem is closely related to optimal transport (OT) theory, and we borrow from recent advances in the field of neural optimal transport to parameterize the potential $u$ as an input convex neural network. The map $M$ can be either evaluated pointwise using $u^*$, the convex conjugate of $u$, through the identity $M=\nabla u^* \circ F$, or learned as an auxiliary network. Because $M$ is, in general, not injective, we consider the additional task of estimating the ill-posed inverse map that can approximate the pre-image measure $M^{-1}$ using a stochastic generator. We illustrate possible applications of Brenier's polar factorization to non-convex optimization problems, as well as sampling of densities that are not log-concave.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# 深層学習に基づく確率モデルによるクラスタリング推論問題の解法

Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model ( http://arxiv.org/abs/2403.03173v8 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 視覚的抽象的推論問題は、人工知能アルゴリズムの知覚と認識能力に重大な課題をもたらし、明示的な画像特徴の単なる識別以上のパターン認識と帰納的推論を要求する。 この分野での研究の進歩は、しばしば他の類似のドメインに対する洞察と技術的支援を提供する。 本研究では,Bongard-Logoのクラスタリング推論タスクにおいて高い推論精度を実現する,ディープラーニングに基づく確率モデルであるPMoCを紹介する。 PMoCは、ディープラーニングに基づく確率モデルを構築するための新しいアプローチである。 PMoCは視覚的抽象的推論において比較的弱い確率論的アプローチを再活性化する。 また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。 カプセルネットワークに触発され、画像データの位置関係に焦点が当てられ、PMoCと組み合わせると精度が向上する。 我々のPose-Transformerは、エンティティの位置の変化に伴う推論の困難を効果的に解決し、RAVENデータセットやPGMデータセットで以前のモデルより優れている。 RAVENとPGMは2つの重要なプログレッシブパターン推論問題を表す。 最後に、Pose-Transformerのデプロイの難しさを考慮して、軽量バージョンであるStraw-Pose-Transformerを紹介した。 本研究は,複合システムの抽象的推論,認知パターン,確率論的モデリングにおける人工知能の能力向上に寄与する。

Visual abstract reasoning problems pose significant challenges to the perception and cognition abilities of artificial intelligence algorithms, demanding deeper pattern recognition and inductive reasoning beyond mere identification of explicit image features. Research advancements in this field often provide insights and technical support for other similar domains. In this study, we introduce PMoC, a deep-learning-based probabilistic model, achieving high reasoning accuracy in the Bongard-Logo, which stands as one of the most challenging clustering reasoning tasks. PMoC is a novel approach for constructing probabilistic models based on deep learning, which is distinctly different from previous techniques. PMoC revitalizes the probabilistic approach, which has been relatively weak in visual abstract reasoning. As a bonus, we also designed Pose-Transformer for complex visual abstract reasoning tasks. Inspired by capsule networks, it focuses on positional relationships in image data, boosting accuracy when combined with PMoC. Our Pose-Transformer effectively addresses reasoning difficulties associated with changes in the position of entities, outperforming previous models on RAVEN dataset, and the PGM dataset. RAVEN and PGM represent two significant progressive pattern reasoning problems. Finally, considering the deployment difficulties of Pose-Transformer, we introduced Straw-Pose-Transformer, a lightweight version. This study contributes to enhancing the capabilities of artificial intelligence in abstract reasoning, cognitive pattern, and probabilistic modeling of complex systems.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# 開量子系におけるクリロフ複雑性の成長に対する速度制限

Speed limits to the growth of Krylov complexity in open quantum systems ( http://arxiv.org/abs/2403.03584v2 )

ライセンス: Link先を確認
Aranya Bhattacharya, Pingal Pratyush Nath, Himanshu Sahu, (参考訳) 近年、量子カオスを研究するために開発された量子多体系による情報の伝播は、ブラックホールから乱れたスピン系への多くの応用を見出した。 その他の定量的ツールの中で、Krylov複雑性は、量子多体系における情報スクランブルの診断ツールとして研究されている。 非エルミート作用素の不確実性を利用した散逸的開量子系におけるクリロフ複雑性の増大に対する普遍的極限を導入する。 また、散逸系におけるランツォス係数の特性挙動に対するクリロフ複雑性の解析結果を示す。 これらの結果の有効性は、散逸効果下での逆場イジングモデルの明示的な研究によって実証される。

Recently, the propagation of information through quantum many-body systems, developed to study quantum chaos, have found many application from black holes to disordered spin systems. Among other quantitative tools, Krylov complexity has been explored as a diagnostic tool for information scrambling in quantum many-body systems. We introduce a universal limit to the growth of the Krylov complexity in dissipative open quantum systems by utilizing the uncertainty relation for non-hermitian operators. We also present the analytical results of Krylov complexity for characteristic behavior of Lanczos coefficients in dissipative systems. The validity of these results are demonstrated by explicit study of transverse-field Ising model under dissipative effects.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# MedSafetyBench:大規模言語モデルの医療安全評価と改善

MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models ( http://arxiv.org/abs/2403.03744v4 )

ライセンス: Link先を確認
Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju, (参考訳) 大規模言語モデル (LLM) がますます高度化して医療分野に応用されるようになるにつれて, 個人や公衆衛生, 患者の安全, 人権に対する影響が拡大しているため, 医療の安全性を評価することが重要である。 しかし, LLMの文脈では, 医療安全の概念をどう評価し, 改善するかは, ほとんど理解されていない。 このギャップに対処するために,アメリカ医学会が定める医療倫理の原則に基づいて,まず LLM における医療安全の概念を定義した。 MedSafetyBenchは、LSMの医療安全を測定するために特別に設計された、最初のベンチマークデータセットです。 LLMの安全性を評価・改善するために,MedSafetyBenchの有用性を実証する。 以上の結果から,医療用LLMは医療安全基準を満たしていないこと,MedSafetyBenchを用いた微調整が医療安全を改善していることが示唆された。 この新たなベンチマークデータセットを導入することで, LLMにおける医療安全状態の体系的な研究を可能にし, この領域における今後の作業の動機付けを可能にし, 医学におけるLLMの安全性リスクを軽減することができる。

As large language models (LLMs) develop increasingly sophisticated capabilities and find applications in medical settings, it becomes important to assess their medical safety due to their far-reaching implications for personal and public health, patient safety, and human rights. However, there is little to no understanding of the notion of medical safety in the context of LLMs, let alone how to evaluate and improve it. To address this gap, we first define the notion of medical safety in LLMs based on the Principles of Medical Ethics set forth by the American Medical Association. We then leverage this understanding to introduce MedSafetyBench, the first benchmark dataset specifically designed to measure the medical safety of LLMs. We demonstrate the utility of MedSafetyBench by using it to evaluate and improve the medical safety of LLMs. Our results show that publicly-available medical LLMs do not meet standards of medical safety and that fine-tuning them using MedSafetyBench improves their medical safety. By introducing this new benchmark dataset, our work enables a systematic study of the state of medical safety in LLMs and motivates future work in this area, thereby mitigating the safety risks of LLMs in medicine.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# Popeye: リモートセンシング画像からのマルチソース船舶検出のための統一ビジュアル言語モデル

Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery ( http://arxiv.org/abs/2403.03790v2 )

ライセンス: Link先を確認
Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang, Xuerui Mao, (参考訳) 船舶検知は、リモートセンシング(RS)のシーンから船の位置を特定する必要がある。 異なる画像ペイロード、様々な船の外観、鳥の視線からの複雑な背景干渉のため、マルチソース船の検出を実現するための統一的なパラダイムを設定することは困難である。 この課題に対処するために,本稿では,大規模言語モデル(LLMs)の強力な一般化能力を活用して,RS画像からのマルチソース船舶検出のために,Popyeと呼ばれる統一視覚言語モデルを提案する。 具体的には、船舶検出のための多ソース画像間の解釈ギャップを埋めるために、異なる視覚的モダリティと、水平バウンディングボックス(HBB)と指向バウンディングボックス(OBB)といった様々な船舶検出方法を統合するために、新しい統一ラベリングパラダイムが設計されている。 その後、ハイブリッドエキスパートエンコーダは、マルチスケールの視覚的特徴を洗練し、視覚知覚を高めるように設計されている。 次に、視覚コンテンツと言語コンテンツ間の対話的理解能力を高めるために、ポーピエのための視覚言語アライメント手法を開発した。 さらに、学習済みの視覚言語知識を自然界からRS領域に転送し、マルチソースの船舶検知を行うための命令適応機構を提案する。 さらに、セグメンテーション・アズ・モデル(SAM)は、追加の訓練コストなしでピクセルレベルの船のセグメンテーションを実現するため、提案されたポープアイにシームレスに統合される。 最後に, MMShip と呼ばれる新規に構築された船舶命令データセットについて広範な実験を行い, 提案手法は, ゼロショットマルチソース船舶検出のための現在の専門家, オープンボキャブラリ, その他の視覚言語モデルよりも優れていることを示す。

Ship detection needs to identify ship locations from remote sensing (RS) scenes. Due to different imaging payloads, various appearances of ships, and complicated background interference from the bird's eye view, it is difficult to set up a unified paradigm for achieving multi-source ship detection. To address this challenge, in this article, leveraging the large language models (LLMs)'s powerful generalization ability, a unified visual-language model called Popeye is proposed for multi-source ship detection from RS imagery. Specifically, to bridge the interpretation gap between the multi-source images for ship detection, a novel unified labeling paradigm is designed to integrate different visual modalities and the various ship detection ways, i.e., horizontal bounding box (HBB) and oriented bounding box (OBB). Subsequently, the hybrid experts encoder is designed to refine multi-scale visual features, thereby enhancing visual perception. Then, a visual-language alignment method is developed for Popeye to enhance interactive comprehension ability between visual and language content. Furthermore, an instruction adaption mechanism is proposed for transferring the pre-trained visual-language knowledge from the nature scene into the RS domain for multi-source ship detection. In addition, the segment anything model (SAM) is also seamlessly integrated into the proposed Popeye to achieve pixel-level ship segmentation without additional training costs. Finally, extensive experiments are conducted on the newly constructed ship instruction dataset named MMShip, and the results indicate that the proposed Popeye outperforms current specialist, open-vocabulary, and other visual-language models for zero-shot multi-source ship detection.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# メタバースの相互運用性:デジタル生態系の展望

Interoperability of the Metaverse: A Digital Ecosystem Perspective Review ( http://arxiv.org/abs/2403.05205v3 )

ライセンス: Link先を確認
Liang Yang, Shi-Ting Ni, Yuyang Wang, Ao Yu, Jyh-An Lee, Pan Hui, (参考訳) メタバースは、差し迫ったデジタル革命の先駆者であり、産業やライフスタイルを大きく変える可能性を秘めている。 しかし、2023年、産業と学術の分野に懐疑論が浮上し、興奮が実際の技術進歩を上回るのではないかという懸念が高まった。 インターオペラビリティはメタバースの潜在能力の大きな障壁として認識されており、この議論の中心となっている。 2023年2月のCoinMarketCapのレポートでは、240以上のメタバースイニシアチブが独立して存在し、相互運用性の課題を浮き彫りにした。 その重要な役割について意見が一致しているにもかかわらず、メタバース、重要性、発達範囲への影響を探求する研究のギャップがある。 本研究は,Web of Science (WoS) と Scopus データベースの体系的な文献レビューとコンテンツ分析を通じて,このギャップを埋めるものである。 相互運用性は、さまざまなコンテキストと標準化の欠如によって定義が難しいため、メタバースの中心であり、しばしばデジタルエコシステムと見なされる。 アース・ガッサーのフレームワークは、技術的、データ、人間的、制度的な次元を概説し、相互運用の複雑さに体系的に対処する。 このフレームワークを組み込んで、メタバースの相互運用の概要を包括的に検討する。 本研究は,メタバース相互運用研究の複雑な分野をナビゲートし,学術的発展に寄与する,今後の調査のためのベンチマークを確立することを目的とする。

The Metaverse is at the vanguard of the impending digital revolution, with the potential to significantly transform industries and lifestyles. However, in 2023, skepticism surfaced within industrial and academic spheres, raising concerns that excitement may outpace actual technological progress. Interoperability, recognized as a major barrier to the Metaverse's full potential, is central to this debate. CoinMarketCap's report in February 2023 indicated that of over 240 metaverse initiatives, most existed in isolation, underscoring the interoperability challenge. Despite consensus on its critical role, there is a research gap in exploring the impact on the Metaverse, significance, and developmental extent. Our study bridges this gap via a systematic literature review and content analysis of the Web of Science (WoS) and Scopus databases, yielding 74 publications after a rigorous selection process. Interoperability, difficult to define due to varied contexts and lack of standardization, is central to the Metaverse, often seen as a digital ecosystem. Urs Gasser's framework, outlining technological, data, human, and institutional dimensions, systematically addresses interoperability complexities. Incorporating this framework, we dissect the literature for a comprehensive Metaverse interoperability overview. Our study seeks to establish benchmarks for future inquiries, navigating the complex field of Metaverse interoperability studies and contributing to academic advancement.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-13
# 安全で信頼性の高いLDMのための検出器:実装、使用、限界

Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations ( http://arxiv.org/abs/2403.06009v2 )

ライセンス: Link先を確認
Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor, Ioana Baldini, Sara E. Berger, Bishwaranjan Bhattacharjee, Djallel Bouneffouf, Subhajit Chaudhury, Pin-Yu Chen, Lamogha Chiazor, Elizabeth M. Daly, Kirushikesh DB, Rogério Abreu de Paula, Pierre Dognin, Eitan Farchi, Soumya Ghosh, Michael Hind, Raya Horesh, George Kour, Ja Young Lee, Nishtha Madaan, Sameep Mehta, Erik Miehling, Keerthiram Murugesan, Manish Nagireddy, Inkit Padhi, David Piorkowski, Ambrish Rawat, Orna Raz, Prasanna Sattigeri, Hendrik Strobelt, Sarathkrishna Swaminathan, Christoph Tillmann, Aashka Trivedi, Kush R. Varshney, Dennis Wei, Shalisha Witherspooon, Marcel Zalmanovici, (参考訳) 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。 LLMを取り巻くいくつかの制限要因(トレーニングコスト、APIアクセス、データ可用性など)により、デプロイされたモデルに直接的な安全制約を課すことが常に可能であるとは限らない。 そのため、効率的で信頼性の高い代替手段が必要である。 この目的のために、我々は、さまざまな害のラベルを提供するコンパクトで容易に構築できる分類モデルである検知器のライブラリを作成し、展開するための継続的な取り組みを提示する。 検出器自体に加えて、ガードレールとして機能することから効果的なAIガバナンスの実現に至るまで、これらの検出モデルに対する幅広い用途について論じる。 我々はまた、その開発における固有の課題を深く掘り下げ、検出器をより信頼性を高め、その範囲を広げることを目的とした今後の取り組みについて論じる。

Large language models (LLMs) are susceptible to a variety of risks, from non-faithful output to biased and toxic generations. Due to several limiting factors surrounding LLMs (training cost, API access, data availability, etc.), it may not always be feasible to impose direct safety constraints on a deployed model. Therefore, an efficient and reliable alternative is required. To this end, we present our ongoing efforts to create and deploy a library of detectors: compact and easy-to-build classification models that provide labels for various harms. In addition to the detectors themselves, we discuss a wide range of uses for these detector models - from acting as guardrails to enabling effective AI governance. We also deep dive into inherent challenges in their development and discuss future work aimed at making the detectors more reliable and broadening their scope.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# クロスオブジェクトfMRIによる伝達可能なニューラル表現の学習

See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI ( http://arxiv.org/abs/2403.06361v2 )

ライセンス: Link先を確認
Yulong Liu, Yongqiang Ma, Guibo Zhu, Haodong Jing, Nanning Zheng, (参考訳) 機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。 しかし、fMRIデータやノイズが乏しいため、脳復号モデルの性能は低下する。 従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。 本稿では,データ不足に対処するための,単純だが見過ごされがちなソリューションについて検討する。 本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。 その後、共有深度復号モデルは、対象のフィーチャ空間にクロスオブジェクト機能を復号する。 トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。 我々のモデルは,高レベルの知覚復号パイプラインと高レベルの知覚によって導かれる画素ワイド再構築パイプラインを統合し,ボトムアップとトップダウンのプロセスをシミュレーションする。 実証実験では、両方のパイプラインの被験者間で堅牢な神経表現学習が実証されている。 さらに、高レベル情報と低レベル情報をマージすることで、低レベル情報と高レベル情報の両方が改善される。 さらに,学習した一般知識を,学習データに制限のある新しいアダプタをトレーニングすることで,新しい被験者に伝達することに成功した。 従来の最先端手法,特に事前学習法(Mind-Vis法とfMRI-PTE法)と比較して,本手法は多種多様なタスクに対して同等あるいは優れた結果が得られる。 私たちのコードとトレーニング済みのウェイトはhttps://github.com/YulongBonjour/See_Through_Their_Minds.comで公開されます。

Deciphering visual content from functional Magnetic Resonance Imaging (fMRI) helps illuminate the human vision system. However, the scarcity of fMRI data and noise hamper brain decoding model performance. Previous approaches primarily employ subject-specific models, sensitive to training sample size. In this paper, we explore a straightforward but overlooked solution to address data scarcity. We propose shallow subject-specific adapters to map cross-subject fMRI data into unified representations. Subsequently, a shared deeper decoding model decodes cross-subject features into the target feature space. During training, we leverage both visual and textual supervision for multi-modal brain decoding. Our model integrates a high-level perception decoding pipeline and a pixel-wise reconstruction pipeline guided by high-level perceptions, simulating bottom-up and top-down processes in neuroscience. Empirical experiments demonstrate robust neural representation learning across subjects for both pipelines. Moreover, merging high-level and low-level information improves both low-level and high-level reconstruction metrics. Additionally, we successfully transfer learned general knowledge to new subjects by training new adapters with limited training data. Compared to previous state-of-the-art methods, notably pre-training-based methods (Mind-Vis and fMRI-PTE), our approach achieves comparable or superior results across diverse tasks, showing promise as an alternative method for cross-subject fMRI data pre-training. Our code and pre-trained weights will be publicly released at https://github.com/YulongBonjour/See_Through_Their_Minds.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# VLKEB: ベンチマークを編集する大規模視覚言語モデル知識

VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark ( http://arxiv.org/abs/2403.07350v2 )

ライセンス: Link先を確認
Han Huang, Haitian Zhong, Tao Yu, Qiang Liu, Shu Wu, Liang Wang, Tieniu Tan, (参考訳) 近年,大規模言語モデル(LLM)の知識編集が注目されている。 これと比較して、LVLM(Large Vision-Language Models)の編集は、多様なデータモダリティと複雑なモデルコンポーネントによる追加の課題に直面しており、LVLMの編集のためのデータは限られている。 3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質に乏しく、関連するコンテンツにモデルが編集知識を適用するかどうかを評価することができない。 したがって、我々は、新しいLarge $\textbf{V}$ision-$\textbf{L}$anguage Model $\textbf{K}$nowledge $\textbf{E}$diting $\textbf{B}$enchmark, $\textbf{VLKEB}$を構築し、より包括的な評価のためにPortabilityメトリックを拡張します。 マルチモーダルな知識グラフを活用することで、画像データは知識エンティティと結びついています。 これは、データの編集基盤を構成するエンティティ関連の知識を抽出するためにさらに使用できる。 5つのLVLM上で異なる編集方法の実験を行い、それらがモデルにどのように影響するかを徹底的に分析する。 その結果,これらの手法の長所と短所が明らかとなり,今後の研究への洞察が期待できる。 コードとデータセットは以下の通りである。 $\href{https://github.com/VLKEB/VLKEB}{\text{https://github.com/VLKEB/VLKEB}}$

Recently, knowledge editing on large language models (LLMs) has received considerable attention. Compared to this, editing Large Vision-Language Models (LVLMs) faces extra challenges from diverse data modalities and complicated model components, and data for LVLMs editing are limited. The existing LVLM editing benchmark, which comprises three metrics (Reliability, Locality, and Generality), falls short in the quality of synthesized evaluation images and cannot assess whether models apply edited knowledge in relevant content. Therefore, we employ more reliable data collection methods to construct a new Large $\textbf{V}$ision-$\textbf{L}$anguage Model $\textbf{K}$nowledge $\textbf{E}$diting $\textbf{B}$enchmark, $\textbf{VLKEB}$, and extend the Portability metric for more comprehensive evaluation. Leveraging a multi-modal knowledge graph, our image data are bound with knowledge entities. This can be further used to extract entity-related knowledge, which constitutes the base of editing data. We conduct experiments of different editing methods on five LVLMs, and thoroughly analyze how do they impact the models. The results reveal strengths and deficiencies of these methods and hopefully provide insights for future research. The codes and dataset are available at: $\href{https://github.com/VLKEB/VLKEB}{\text{https://github.com/VLKEB/VLKEB}}$.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# ThermoHands:エゴセントリックな熱画像から3Dハンドポースを推定するベンチマーク

ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images ( http://arxiv.org/abs/2403.09871v3 )

ライセンス: Link先を確認
Fangqiang Ding, Lawrence Zhu, Xiangyu Wen, Gaowen Liu, Chris Xiaoxuan Lu, (参考訳) 本研究では,熱画像に基づくエゴセントリックな3Dハンドポーズ推定のための新しいベンチマークであるThermoHandsを提案する。 ベンチマークには、さまざまなシナリオ下で手動オブジェクトと手動仮想インタラクションを実行する28人の被験者から収集された多視点および多スペクトルデータセットが含まれており、自動化プロセスを通じて正確に3D手ポーズで注釈付けされている。 熱画像におけるエゴセントリックな3Dハンドポーズ推定に2つのトランスフォーマーモジュールを利用する新しいベースライン手法であるTherFormerを導入する。 TherFormerの先行性能と3次元手ぶれ推定における熱画像の有効性を実証した。

In this work, we present ThermoHands, a new benchmark for thermal image-based egocentric 3D hand pose estimation, aimed at overcoming challenges like varying lighting conditions and obstructions (e.g., handwear). The benchmark includes a multi-view and multi-spectral dataset collected from 28 subjects performing hand-object and hand-virtual interactions under diverse scenarios, accurately annotated with 3D hand poses through an automated process. We introduce a new baseline method, TherFormer, utilizing dual transformer modules for effective egocentric 3D hand pose estimation in thermal imagery. Our experimental results highlight TherFormer's leading performance and affirm thermal imaging's effectiveness in enabling robust 3D hand pose estimation in adverse conditions.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# 深部強化学習に基づく自律走行車両意思決定の物理化

Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making ( http://arxiv.org/abs/2403.11432v2 )

ライセンス: Link先を確認
Hanxi Wan, Pei Li, Arpan Kusari, (参考訳) 強化学習分野における普遍関数近似器の出現に伴い、深層強化学習(DRL)を活用した実用的応用が爆発的に増えている。 自律走行車(AV)の意思決定は、センサーデータや高次運動変数を入力とし、個別の選択や連続的な制御出力を提供する主要な用途として現れてきた。 DRLモデルのブラックボックスの性質を理解するための継続的な努力が続けられていますが、これまでのところ、モデルがどのように物理的なプロセスを学ぶかについての議論(著者の知る限りでは)は行われていません。 これにより、AVにおけるDRLの実際の展開を制限する、圧倒的な制限が提示される。 そこで本研究では,注意に基づくDRLフレームワークが学習した物理過程の知識をデコードしようと試みる。 本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。 本稿では, 空間的および時間的相関関係に対する説明可能性および因果性の観点から, 学習モデルの解釈可能性について議論するための解析的手法を提案する。 第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。 また、エゴ車両の動作は、空間的および時間的に目標車線内の車両に因果的に依存する。 これらの結果から,DRLアルゴリズムの結果の解読に有効であることを示す。

With the advent of universal function approximators in the domain of reinforcement learning, the number of practical applications leveraging deep reinforcement learning (DRL) has exploded. Decision-making in autonomous vehicles (AVs) has emerged as a chief application among them, taking the sensor data or the higher-order kinematic variables as the input and providing a discrete choice or continuous control output. There has been a continuous effort to understand the black-box nature of the DRL models, but so far, there hasn't been any discussion (to the best of authors' knowledge) about how the models learn the physical process. This presents an overwhelming limitation that restricts the real-world deployment of DRL in AVs. Therefore, in this research work, we try to decode the knowledge learnt by the attention-based DRL framework about the physical process. We use a continuous proximal policy optimization-based DRL algorithm as the baseline model and add a multi-head attention framework in an open-source AV simulation environment. We provide some analytical techniques for discussing the interpretability of the trained models in terms of explainability and causality for spatial and temporal correlations. We show that the weights in the first head encode the positions of the neighboring vehicles while the second head focuses on the leader vehicle exclusively. Also, the ego vehicle's action is causally dependent on the vehicles in the target lane spatially and temporally. Through these findings, we reliably show that these techniques can help practitioners decipher the results of the DRL algorithms.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# QueryAgent: 環境フィードバックに基づく自己補正による信頼性と効率的な推論フレームワーク

QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback-based Self-Correction ( http://arxiv.org/abs/2403.11886v2 )

ライセンス: Link先を確認
Xiang Huang, Sitao Cheng, Shanshan Huang, Jiayu Shen, Yong Xu, Chaoyun Zhang, Yuzhong Qu, (参考訳) 意味解析にLarge Language Models(LLM)を使うことは、大きな成功を収めた。 しかし,幻覚に遭遇した場合,既存の手法は信頼性や効率性に乏しいことが判明した。 本稿では,質問を段階的に解決し,段階的に自己補正を行うQueryAgentというフレームワークを用いて,これらの課題に対処する。 環境フィードバックに基づく自己補正手法ERASERを提案する。 従来のアプローチとは異なり、ERASERは中間段階の豊かな環境フィードバックを活用して、必要に応じて選択的で差別化された自己補正を行う。 実験の結果、QueryAgentはGrailQAとGraphQのサンプルを7.0と15.0のF1で1つだけ使って、以前のいくつかのショットメソッドを特に上回っている。 さらに,ランタイムやクエリオーバヘッド,API呼び出しコストなど,効率性の面で優れています。 ERASERを活用することで、AgentBenchという別のベースラインを約10ポイント改善し、我々のアプローチの強い転送可能性を明らかにする。

Employing Large Language Models (LLMs) for semantic parsing has achieved remarkable success. However, we find existing methods fall short in terms of reliability and efficiency when hallucinations are encountered. In this paper, we address these challenges with a framework called QueryAgent, which solves a question step-by-step and performs step-wise self-correction. We introduce an environmental feedback-based self-correction method called ERASER. Unlike traditional approaches, ERASER leverages rich environmental feedback in the intermediate steps to perform selective and differentiated self-correction only when necessary. Experimental results demonstrate that QueryAgent notably outperforms all previous few-shot methods using only one example on GrailQA and GraphQ by 7.0 and 15.0 F1. Moreover, our approach exhibits superiority in terms of efficiency, including runtime, query overhead, and API invocation costs. By leveraging ERASER, we further improve another baseline (i.e., AgentBench) by approximately 10 points, revealing the strong transferability of our approach.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# マイクロファウンデーションに基づくマクロ経済政策の学習:動的スタックルバーグ平均フィールドゲームアプローチ

Learning Macroeconomic Policies based on Microfoundations: A Dynamic Stackelberg Mean Field Game Approach ( http://arxiv.org/abs/2403.12093v2 )

ライセンス: Link先を確認
Qirui Mi, Zhiyu Zhao, Siyu Xia, Yan Song, Jun Wang, Haifeng Zhang, (参考訳) ルーカス批判は、マクロ経済政策におけるミクロレベルのエージェントの期待に対する政策変更の影響を考慮することの重要性を強調している。 しかし、長期的利益を追求する大規模マイクロエージェントの本質的に自己関心の性質は、最適マクロ経済政策の定式化を複雑にしている。 本稿では,このような政策決定過程を逐次的にモデル化する,Dynamic Stackelberg Mean Field Games (Dynamic SMFG) という新しいフレームワークを提案する。 動的SMFGは、大規模世帯間の動的相互作用とマクロ経済政策の変化に対する反応を捉えている。 動的SMFGを解くために,高次元の関節状態と行動空間を表すために,フォロワーの集団分布を利用するStackelberg Mean Field Reinforcement Learning (SMFRL)アルゴリズムを提案する。 実験では,実世界のマクロ経済政策,既存のAIに基づく,経済的な手法を超越した手法を提案する。 リーダーは最高のパフォーマンスで社会的最適に近づき、大規模なフォロワーはリーダーの方針に対する最高の反応に向かって収束する。 また,一部の家庭ではSMFG政策を採用していない場合でも,本手法が有効であることを示す。 本稿では,マクロ経済学的政策決定問題のモデル化と解決に有効なツールを提供することで,経済学におけるAIの分野に貢献する。

The Lucas critique emphasizes the importance of considering the impact of policy changes on the expectations of micro-level agents in macroeconomic policymaking. However, the inherently self-interested nature of large-scale micro-agents, who pursue long-term benefits, complicates the formulation of optimal macroeconomic policies. This paper proposes a novel general framework named Dynamic Stackelberg Mean Field Games (Dynamic SMFG) to model such policymaking within sequential decision-making processes, with the government as the leader and households as dynamic followers. Dynamic SMFGs capture the dynamic interactions among large-scale households and their response to macroeconomic policy changes. To solve dynamic SMFGs, we propose the Stackelberg Mean Field Reinforcement Learning (SMFRL) algorithm, which leverages the population distribution of followers to represent high-dimensional joint state and action spaces. In experiments, our method surpasses macroeconomic policies in the real world, existing AI-based and economic methods. It allows the leader to approach the social optimum with the highest performance, while large-scale followers converge toward their best response to the leader's policy. Besides, we demonstrate that our approach retains effectiveness even when some households do not adopt the SMFG policy. In summary, this paper contributes to the field of AI for economics by offering an effective tool for modeling and solving macroeconomic policy-making issues.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# テキスト説明を用いた終端から終端への神経・筋肉強化学習

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations ( http://arxiv.org/abs/2403.12451v4 )

ライセンス: Link先を確認
Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li, (参考訳) ニューロシンボリック強化学習(NS-RL)は、象徴的政策の解釈可能性に特徴付けられる、説明可能な意思決定のための有望なパラダイムとして登場した。 NS-RLは、視覚的な観察を行うタスクの構造化状態表現を必要とするが、従来の手法では効率の欠如により、構造状態の洗練はできない。 アクセシビリティも問題であり、シンボリックポリシーの解釈には広範なドメイン知識が必要である。 本稿では,構造化状態と象徴的政策を共同で学習するニューロシンボリック・フレームワークを提案する。その中心となる考え方は,視覚基盤モデルを効率的な知覚モジュールに蒸留し,政策学習中にそれを洗練させることである。 さらに、GPT-4に学習したポリシーや意思決定のテキスト説明を生成させるパイプラインを設計し、シンボルポリシーを理解するためにユーザの認知負荷を大幅に削減する。 我々は,9つのアタリ課題に対するアプローチの有効性を検証するとともに,政策と意思決定に関するGPTによる説明を行う。

Neuro-symbolic reinforcement learning (NS-RL) has emerged as a promising paradigm for explainable decision-making, characterized by the interpretability of symbolic policies. NS-RL entails structured state representations for tasks with visual observations, but previous methods cannot refine the structured states with rewards due to a lack of efficiency. Accessibility also remains an issue, as extensive domain knowledge is required to interpret symbolic policies. In this paper, we present a neuro-symbolic framework for jointly learning structured states and symbolic policies, whose key idea is to distill the vision foundation model into an efficient perception module and refine it during policy learning. Moreover, we design a pipeline to prompt GPT-4 to generate textual explanations for the learned policies and decisions, significantly reducing users' cognitive load to understand the symbolic policies. We verify the efficacy of our approach on nine Atari tasks and present GPT-generated explanations for policies and decisions.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# ESMオール原子:統一分子モデリングのためのマルチスケールタンパク質言語モデル

ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling ( http://arxiv.org/abs/2403.12995v4 )

ライセンス: Link先を確認
Kangjie Zheng, Siyu Long, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou, (参考訳) タンパク質言語モデルは、タンパク質工学の分野で大きな可能性を証明している。 しかしながら、現在のタンパク質言語モデルは、主に残基スケールで機能し、原子レベルで情報を提供する能力を制限する。 この制限により、タンパク質と小分子の両方の応用のために、タンパク質言語モデルの能力を十分に活用することができません。 本稿では,ESM-AA(ESM All-Atom)を提案する。 ESM-AAは、マルチスケールのコードスウィッチタンパク質配列を事前訓練し、マルチスケールの位置符号化を利用して、残基と原子間の関係を捉えることでこれを達成している。 実験の結果,ESM-AAはタンパク質分子タスクにおける従来の手法を超越し,タンパク質言語モデルの完全活用を実証した。 さらなる研究により、ESM-AAは分子の知識を得るだけでなく、タンパク質の理解も維持していることが明らかとなった。 ESM-AAのソースコードはhttps://github.com/zhengkangjie/ESM-AAで公開されている。

Protein language models have demonstrated significant potential in the field of protein engineering. However, current protein language models primarily operate at the residue scale, which limits their ability to provide information at the atom level. This limitation prevents us from fully exploiting the capabilities of protein language models for applications involving both proteins and small molecules. In this paper, we propose ESM-AA (ESM All-Atom), a novel approach that enables atom-scale and residue-scale unified molecular modeling. ESM-AA achieves this by pre-training on multi-scale code-switch protein sequences and utilizing a multi-scale position encoding to capture relationships among residues and atoms. Experimental results indicate that ESM-AA surpasses previous methods in protein-molecule tasks, demonstrating the full utilization of protein language models. Further investigations reveal that through unified molecular modeling, ESM-AA not only gains molecular knowledge but also retains its understanding of proteins. The source codes of ESM-AA are publicly released at https://github.com/zhengkangjie/ESM-AA.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# 開量子系における異常とその混合状態量子相への影響

Anomaly in open quantum systems and its implications on mixed-state quantum phases ( http://arxiv.org/abs/2403.14533v2 )

ライセンス: Link先を確認
Zijian Wang, Linhao Li, (参考訳) 本稿では,オープン量子システムにおける't Hooft異常を特徴付けるための体系的アプローチを開発する。 環境への非自明な結合のため、そのような系の対称性は強い型または弱い型として表される。 超演算子による対称性変換を表現することにより、それらの異常を直接計算できる統一的なフレームワークにそれらを組み込む。 全対称性群が$K\times G$で、$K$が強対称性で$G$が弱対称性の場合、ボゾン系の異常は$H^{d+2}(K\times G,U(1))/H^{d+2}(G,U(1))$で$d$空間次元で分類される。 オープン量子系における異常のパワーを説明するために、一般に、弱い対称性が課せられる限り、異常が非自明な混合状態量子相につながることが証明される。 閉系における非自明な低エネルギー物理を保証する「アノマリーマッチング」条件に類似して、異常はリンドブラディアンによって支配されるオープン量子系において非自明な定常状態と長時間の力学を保証している。特に、クローズド系において非自明な相関関数を持たないような新しい$(1+1)$-D混合状態量子相を同定する。そこで、定常状態はバルク内で非自明な相関関数を示さないが、異常によって強制される境界上で自発的な対称性を破る順序を示す。また、混合状態異常とそのような非自明な境界相関関係の一般関係をさらに確立する。最後に、オープン量子系における「アノマリー・インフロー」機構の一般化について考察する。 1+1)$-D と$(2+1)$-D Lindbladians は、定常状態がバルクに混合状態対称性を保護した位相順序を持ち、対応するエッジ理論は非自明な異常によって特徴づけられる。

In this paper, we develop a systematic approach to characterize the 't Hooft anomaly in open quantum systems. Owing to nontrivial couplings to the environment, symmetries in such systems manifest as either strong or weak type. By representing their symmetry transformation through superoperators, we incorporate them in a unified framework that enables a direct calculation of their anomalies. In the case where the full symmetry group is $K\times G$, with $K$ the strong symmetry and $G$ the weak symmetry, we find that anomalies of bosonic systems are classified by $H^{d+2}(K\times G,U(1))/H^{d+2}(G,U(1))$ in $d$ spatial dimensions. To illustrate the power of anomalies in open quantum systems, we generally prove that anomaly must lead to nontrivial mixed-state quantum phases as long as the weak symmetry is imposed. Analogous to the ``anomaly matching" condition ensuring nontrivial low-energy physics in closed systems, anomaly also guarantees nontrivial steady states and long-time dynamics for open quantum systems governed by Lindbladians. Notably, we identify a novel $(1+1)$-D mixed-state quantum phase that has no counterpart in closed systems, where the steady state shows no nontrivial correlation function in the bulk, but displays spontaneous symmetry breaking order on the boundary, which is enforced by anomalies. We further establish the general relations between mixed-state anomalies and such unconventional boundary correlation. Finally, we explore the generalization of the ``anomaly inflow" mechanism in open quantum systems. We construct $(1+1)$-D and $(2+1)$-D Lindbladians whose steady states have mixed-state symmetry-protected-topological order in the bulk, with corresponding edge theories characterized by nontrivial anomalies.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# 自然言語モデルを利用した変化検出の高度化のための高度な特徴操作

Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models ( http://arxiv.org/abs/2403.15943v2 )

ライセンス: Link先を確認
Zhenglin Li, Yangchen Huang, Mengran Zhu, Jingyu Zhang, JingHao Chang, Houze Liu, (参考訳) 変化検出は、意味的に変化した領域と変化していない領域を区別するために、両時間画像ペアを処理するコンピュータビジョンの基本的なタスクである。 大規模言語モデル(LLM)は、特徴抽出機能のために様々な領域で利用されており、多くの下流アプリケーションで有望であることが示されている。 本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。 高品質な特徴写像を導出することのみに焦点を絞った既存のLCMに基づく変化検出手法とは異なり,本手法は意味的関連性を高めるため,これらの特徴写像の操作を重視している。

Change detection is a fundamental task in computer vision that processes a bi-temporal image pair to differentiate between semantically altered and unaltered regions. Large language models (LLMs) have been utilized in various domains for their exceptional feature extraction capabilities and have shown promise in numerous downstream applications. In this study, we harness the power of a pre-trained LLM, extracting feature maps from extensive datasets, and employ an auxiliary network to detect changes. Unlike existing LLM-based change detection methods that solely focus on deriving high-quality feature maps, our approach emphasizes the manipulation of these feature maps to enhance semantic relevance.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# ボース・アインシュタイン凝縮体を用いた重力の量子的性質の探索

Probing the quantum nature of gravity using a Bose-Einstein condensate ( http://arxiv.org/abs/2403.18460v2 )

ライセンス: Link先を確認
Soham Sen, Sunandan Gangopadhyay, (参考訳) ボース・アインシュタイン凝縮体を用いてグラビトンによる騒音の影響について検討した。 重力波の摂動は運動量空間における離散フーリエモードの和と見なされる。 作用素表現と、全系の重力とボゾン部分に対応する正準共役変数の間の正準可換関係を通じて位相空間変数を量子化し、適切な量子重力設定を得る。 次に, 擬ゴールドストーン粒子の時間依存性部分の解からボゴリューボフ係数を求め, 初期懸濁状態にあるボソンの共分散測定値を構成する。 フィッシャー情報の確率平均を用いて重力波の振幅パラメータの低い値を求める。 計算全体をゼロ温度で行うと、ボゾン系は建設によってボース=アインシュタイン凝縮体として振る舞う。 ボース=アインシュタインが1つのモードで凝縮すると、振幅測定における不確実性の平方の期待値の低い境界は、全観測項が0に近づくと無限にならない。 すべての運動量モードをまとめるために、次は時間とともに減衰する適切なガウス重み係数を持つ雑音項を考える。 次に、振幅パラメータの分散の正方形の最終的な期待値に対する下界を求める。 重力波によって誘導されるノイズのため、ボース・アインシュタイン凝縮体を用いて重力波を検出できない測定時間の最小値が存在する。 最後に、ボース・アインシュタイン凝縮体のフォノンモード間の相互作用を考察し、デコヒーレンスをもたらす。 この脱コヒーレンス効果は, 最小のスクイージングを有するグラビトンに対して重要であることが観察された。

The effect of noise induced by gravitons has been investigated using a Bose-Einstein condensate. The gravitational wave perturbation is then considerd as a sum of discrete Fourier modes in the momentum space. Coming to an operatorial representation and quantizing the phase space variables via appropriately introduced canonincal commutation relations between the canonically conjugate variables corresponding to the graviton and bosonic part of the total system, one obtains a proper quantum gravity setup. Then we obtain the Bogoliubov coefficients from the solution of the time-dependent part of the pseudo-Goldstone boson and construct the covariance metric for the bosons initially being in a squeezed state. Using the stochastic average of the Fisher information, we obtain a lower bound on the amplitude parameter of the gravitational wave. As the entire calculation is done at zero temperature, the bosonic system, by construction, will behave as a Bose-Einstein condensate. For a Bose-Einstein condensate with a single mode, we observe that the lower bound of the expectation value of the square of the uncertainty in the amplitude measurement does not become infinite when the total observational term approaches zero. In order to sum over all possible momentum modes, we next consider a noise term with a suitable Gaussian weight factor which decays over time. We then obtain the lower bound on the final expectation value of the square of the variance in the amplitude parameter. Because of the noise induced by the graviton, there is a minimum value of the measurement time below which it is impossible to detect any gravitational wave using a Bose-Einstein condensate. Finally, we consider interaction between the phonon modes of the Bose-Einstein condensate which results in the decoherence. We observe that the decoherence effect becomes significant for gravitons with minimal squeezing.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# 機械学習のための機能バイレベル最適化

Functional Bilevel Optimization for Machine Learning ( http://arxiv.org/abs/2403.20233v3 )

ライセンス: Link先を確認
Ieva Petrulionyte, Julien Mairal, Michael Arbel, (参考訳) 本稿では,関数空間上での内的目的を最小化する機械学習における二段階最適化問題に対する新たな機能的視点を提案する。 これらの問題は、パラメータ関数のパラメータに関して内的目的が強く凸であるパラメトリック設定で開発された手法を用いることで、最もよく解決される。 機能的な視点は、この仮定に頼らず、特に内部予測関数として過度にパラメータ化されたニューラルネットワークを使用できる。 本稿では,機能的二段階最適化問題に対するスケーラブルで効率的なアルゴリズムを提案し,インストゥルメンタル回帰と強化学習タスクに対するアプローチの利点を解説する。

In this paper, we introduce a new functional point of view on bilevel optimization problems for machine learning, where the inner objective is minimized over a function space. These types of problems are most often solved by using methods developed in the parametric setting, where the inner objective is strongly convex with respect to the parameters of the prediction function. The functional point of view does not rely on this assumption and notably allows using over-parameterized neural networks as the inner prediction function. We propose scalable and efficient algorithms for the functional bilevel optimization problem and illustrate the benefits of our approach on instrumental regression and reinforcement learning tasks.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-13
# スーパーAIがどんなものか、Fermiのパラドックスを解説する

Cooperative Evolutionary Pressure and Diminishing Returns Might Explain the Fermi Paradox: On What Super-AIs Are Like ( http://arxiv.org/abs/2404.03685v3 )

ライセンス: Link先を確認
Daniel Vallstrom, (参考訳) 進化的アプローチでは、モラルの基盤は協力の問題への適応として説明できる。 広い意味での「進化」によって、進化の条件を満たす進化するAIは、生物学的実体と同じ協力的な進化の圧力を受けることになる。 ここでは、材料安全と富の増大としての協力の増加の適応性について論じ、人間、他の社会、AIについて論じる。 物質資源へのアクセスの増加による有益なリターンの最小化は、例えば銀河全体を植民地化する動機がない可能性も示唆している。 古い社会は、スーパーAIが実現可能で、より適している可能性が高いため、スーパーAIにエンゲージし、道を譲ることが可能である、とも主張されている。 クローシングは、道徳や目標が生活や社会に影響を与えるための効果的な方法、環境、文化、法律を強調し、食事の方法によって例示されるものである。 適応されたアルゴリズムは、例えば銀河を素早く植民地化するアルゴリズム、減少するリターンの下での協調と公正性の進化のモデル、およびシグナル発生をシミュレートするソフトウェアである。 また、各実体が一定の空間を占有するため、数学的理由から指数的植民地化や複製はできないことも注目されている。

With an evolutionary approach, the basis of morality can be explained as adaptations to problems of cooperation. With 'evolution' taken in a broad sense, evolving AIs that satisfy the conditions for evolution to apply will be subject to the same cooperative evolutionary pressure as biological entities. Here the adaptiveness of increased cooperation as material safety and wealth increase is discussed -- for humans, for other societies, and for AIs. Diminishing beneficial returns from increased access to material resources also suggests the possibility that, on the whole, there will be no incentive to for instance colonize entire galaxies, thus providing a possible explanation of the Fermi paradox, wondering where everybody is. It is further argued that old societies could engender, give way to, super-AIs, since it is likely that super-AIs are feasible, and fitter. Closing is an aside on effective ways for morals and goals to affect life and society, emphasizing environments, cultures, and laws, and exemplified by how to eat. Appended are an algorithm for colonizing for example a galaxy quickly, models of the evolution of cooperation and fairness under diminishing returns, and software for simulating signaling development. It is also noted that there can be no exponential colonization or reproduction, for mathematical reasons, as each entity takes up a certain amount of space.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# 冷却か冷却か? 温度ネットワークがDROによる大型ファンデーションモデルを発表

To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO ( http://arxiv.org/abs/2404.04575v2 )

ライセンス: Link先を確認
Zi-Hao Qiu, Siqi Guo, Mao Xu, Tuo Zhao, Lijun Zhang, Tianbao Yang, (参考訳) 温度パラメータは、大きな言語モデル(LLM)やCLIPモデルのような大きな基礎モデル(LFM)によるトレーニングおよび/または推論において重要な役割を果たす。 特に、次のトークン生成に不可欠であるLSMのソフトマックス関数のロジットを調整し、CLIPモデルのトレーニングにおける対照的な損失の類似性を拡大する。 重要な疑問が残る: LFMを強化するために、入力データのパーソナライズされた温度を予測するためにニューラルネットワークを学ぶことは可能か? 本稿では,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習し,LFMを改善するためのフレームワークを提案する。 提案手法は,制約付き分散ロバスト最適化(DRO)に基づくロバストな損失を持つ新しい学習フレームワークと,理論的なインスピレーションを備えたTempNetから構成される。 TempNetは、スクラッチから大きなファンデーションモデルと一緒にトレーニングするか、事前訓練されたファンデーションモデルから別々に学習することができる。 LFMのトレーニングを促進するためにパーソナライズされた温度を予測するだけでなく、新しいタスクへの一般化と転送も可能である。 LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。 この論文で実験結果を再現するコードはhttps://github.com/zhqiu/TempNet.comにある。

The temperature parameter plays a profound role during training and/or inference with large foundation models (LFMs) such as large language models (LLMs) and CLIP models. Particularly, it adjusts the logits in the softmax function in LLMs, which is crucial for next token generation, and it scales the similarities in the contrastive loss for training CLIP models. A significant question remains: Is it viable to learn a neural network to predict a personalized temperature of any input data for enhancing LFMs"? In this paper, we present a principled framework for learning a small yet generalizable temperature prediction network (TempNet) to improve LFMs. Our solution is composed of a novel learning framework with a robust loss underpinned by constrained distributionally robust optimization (DRO), and a properly designed TempNet with theoretical inspiration. TempNet can be trained together with a large foundation model from scratch or learned separately given a pretrained foundation model. It is not only useful for predicting personalized temperature to promote the training of LFMs but also generalizable and transferable to new tasks. Our experiments on LLMs and CLIP models demonstrate that TempNet greatly improves the performance of existing solutions or models, e.g. Table 1. The code to reproduce the experimental results in this paper can be found at https://github.com/zhqiu/TempNet.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# 非線型カップリングによるスピン格子緩和:フェルミの黄金律と拡張ディシパトン運動方程式の比較

Spin-lattice relaxation with non-linear couplings: Comparison between Fermi's golden rule and extended dissipaton equation of motion ( http://arxiv.org/abs/2404.04803v3 )

ライセンス: Link先を確認
Rui-Hao Bi, Yu Su, Yao Wang, Lei Sun, Wenjie Dou, (参考訳) フェルミの黄金律(FGR)は、磁気分子におけるスピン格子緩和のダイナミクスを理解するための実証的な枠組みを提供し、直接(1フォノン)やラマン(2フォノン)プロセスのような機構を含んでいる。 これらの原理は、T_1^{-1}$と表される実験的な縦緩和率を効果的にモデル化する。 しかし、結合強度の増加と非線形スピン格子相互作用のシナリオでは、FGRの適用性が低下する可能性がある。 本稿では、拡張ディシパトン運動方程式(DEOM)を用いて、正確なスピン格子緩和速度カーネルを数値的に評価する。 計算の結果, 2次スピン格子結合を考えると, 速度核は自由誘導減衰様の特徴を持ち, 減衰速度は相互作用強度に依存することがわかった。 FGRはスピン格子緩和の非マルコフ的性質を無視するので、FGRによって予測される温度依存性は正確な結果から著しく逸脱する。 本手法は, 非線形スピン格子相互作用を持つ他の系にも容易に適用でき, 分子量子ビットにおけるT_1$の温度依存性に関する貴重な知見を得ることができる。

Fermi's golden rule (FGR) offers an empirical framework for understanding the dynamics of spin-lattice relaxation in magnetic molecules, encompassing mechanisms like direct (one-phonon) and Raman (two-phonon) processes. These principles effectively model experimental longitudinal relaxation rates, denoted as $T_1^{-1}$. However, under scenarios of increased coupling strength and nonlinear spin-lattice interactions, FGR's applicability may diminish. This paper numerically evaluates the exact spin-lattice relaxation rate kernels, employing the extended dissipaton equation of motion (DEOM) formalism. Our calculations reveal that when quadratic spin-lattice coupling is considered, the rate kernels exhibit a free induction decay-like feature, and the damping rates depend on the interaction strength. We observe that the temperature dependence predicted by FGR significantly deviates from the exact results since FGR ignores the non-Markovian nature of spin-lattice relaxation. Our methods can be readily applied to other systems with nonlinear spin-lattice interactions and provide valuable insights into the temperature dependence of $T_1$ in molecular qubits.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# 3D-COCO:画像検出用MS-COCOデータセットと3D再構成モジュールの拡張

3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules ( http://arxiv.org/abs/2404.05641v2 )

ライセンス: Link先を確認
Maxence Bideaux, Alice Phe, Mohamed Chaouch, Bertrand Luvison, Quoc-Cuong Pham, (参考訳) 3Dモデルと2D-3Dアライメントアノテーションを提供するMS-COCOデータセットの拡張である3D-COCOを紹介する。 3D-COCOは、テキスト、2D画像、および3DCADモデルクエリで構成可能な3D再構成や画像検出などのコンピュータビジョンタスクを実現するように設計されている。 既存のMS-COCOデータセットは、ShapeNetとObjaverseで収集された28Kの3Dモデルで完結する。 IoUをベースとした手法により,各MS-COCOアノテーションと最適な3Dモデルとをマッチングし,2D-3Dアライメントを実現する。 3D-COCOのオープンソース性は、新しい3D関連トピック研究の道を開くためのプレミアである。 データセットとそのソースコードはhttps://kalisteo.cea.fr/index.php/coco3d-object-detection-and-reconstruction/で公開されている。

We introduce 3D-COCO, an extension of the original MS-COCO dataset providing 3D models and 2D-3D alignment annotations. 3D-COCO was designed to achieve computer vision tasks such as 3D reconstruction or image detection configurable with textual, 2D image, and 3D CAD model queries. We complete the existing MS-COCO dataset with 28K 3D models collected on ShapeNet and Objaverse. By using an IoU-based method, we match each MS-COCO annotation with the best 3D models to provide a 2D-3D alignment. The open-source nature of 3D-COCO is a premiere that should pave the way for new research on 3D-related topics. The dataset and its source codes is available at https://kalisteo.cea.fr/index.php/coco3d-object-detection-and-reconstruction/
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# パッチベーストレーニングによるマルチラベル画像分類のファクトファクト推論

Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training ( http://arxiv.org/abs/2404.06287v2 )

ライセンス: Link先を確認
Ming-Kun Xie, Jia-Hao Xiao, Pei Peng, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang, (参考訳) マルチラベル画像分類(MLC)の鍵は,ラベル相関を利用してモデル性能を向上させることである。 残念なことに、共起関係の過度な強調はモデルの過度な適合問題を招き、最終的に性能低下につながることが示されている。 本稿では,対象物とその共起物による相関特性を媒介者とみなすことができ,モデル予測に肯定的かつ否定的な影響を与えることを示す因果推論フレームワークを提案する。 正の面では、メディエータは共起関係を捉えてモデルの認識性能を高め、負の面では、画像中に共起対象のみが存在する場合でも、モデルが対象対象に対して誤った予測をさせる有害な因果効果を有する。 この問題に対処するために,対象対象物のみによる直接効果を高めることで達成した,全直接効果を測定するための反実的推論手法を提案する。 対象オブジェクトの位置が不明なため、この目標を達成するためにパッチベースのトレーニングと推論を提案し、画像を複数のパッチに分割し、対象オブジェクトを含むピボットパッチを特定する。 多様な構成を持つ複数のベンチマークデータセットの実験結果から,提案手法が最先端の性能を達成できることが確認された。

The key to multi-label image classification (MLC) is to improve model performance by leveraging label correlations. Unfortunately, it has been shown that overemphasizing co-occurrence relationships can cause the overfitting issue of the model, ultimately leading to performance degradation. In this paper, we provide a causal inference framework to show that the correlative features caused by the target object and its co-occurring objects can be regarded as a mediator, which has both positive and negative impacts on model predictions. On the positive side, the mediator enhances the recognition performance of the model by capturing co-occurrence relationships; on the negative side, it has the harmful causal effect that causes the model to make an incorrect prediction for the target object, even when only co-occurring objects are present in an image. To address this problem, we propose a counterfactual reasoning method to measure the total direct effect, achieved by enhancing the direct effect caused only by the target object. Due to the unknown location of the target object, we propose patching-based training and inference to accomplish this goal, which divides an image into multiple patches and identifies the pivot patch that contains the target object. Experimental results on multiple benchmark datasets with diverse configurations validate that the proposed method can achieve state-of-the-art performance.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# 整合性保護のためのフラジオールモデル透かし-境界ボラティリティと敏感なサンプルペアリングを活用する

Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairing ( http://arxiv.org/abs/2404.07572v3 )

ライセンス: Link先を確認
ZhenZhe Gao, Zhenjun Tang, Zhaoxia Yin, Baoyuan Wu, Yue Lu, (参考訳) ニューラルネットワークは人々の生活にますます影響を与えている。 モデル所有者が設計したニューラルネットワークの忠実な展開を保証することは、バックドアや毒殺攻撃など、悪意のある、意図しないさまざまな修正の影響を受けやすいため、極めて重要である。 Fragileモデル透かしは、DNNモデルが誤った判断を下す可能性のある予期せぬ改ざんを防止することを目的としている。 しかし, 従来の透かし法は非効率な試料生成と感度の低下に悩まされており, 実用性に限界がある。 提案手法では,対のサンプル間のモデル境界を設定するとともに,ロジットの最大化を行う。 これにより、機密サンプルのモデルによる決定結果が可能な限り変化し、Top-1ラベルの移動方向に関わらず変更が容易になる。

Neural networks have increasingly influenced people's lives. Ensuring the faithful deployment of neural networks as designed by their model owners is crucial, as they may be susceptible to various malicious or unintentional modifications, such as backdooring and poisoning attacks. Fragile model watermarks aim to prevent unexpected tampering that could lead DNN models to make incorrect decisions. They ensure the detection of any tampering with the model as sensitively as possible.However, prior watermarking methods suffered from inefficient sample generation and insufficient sensitivity, limiting their practical applicability. Our approach employs a sample-pairing technique, placing the model boundaries between pairs of samples, while simultaneously maximizing logits. This ensures that the model's decision results of sensitive samples change as much as possible and the Top-1 labels easily alter regardless of the direction it moves.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# 社会経済的成果の視覚的概念記述のための対照的な事前訓練

Contrastive Pretraining for Visual Concept Explanations of Socioeconomic Outcomes ( http://arxiv.org/abs/2404.09768v2 )

ライセンス: Link先を確認
Ivica Obadic, Alex Levering, Lars Pennig, Dario Oliveira, Diego Marcos, Xiaoxiang Zhu, (参考訳) 深層学習による衛星画像からの社会経済指標の予測は、ますますポピュラーな研究方向になりつつある。 ポストホックの概念に基づく説明は、人間の直感的な視覚概念に基づく社会経済的な結果の解釈を可能にするため、政策決定においてこれらのモデルを広く採用するための重要なステップとなる。 本稿では,社会経済研究におけるタスク固有のコントラスト損失とポストホック概念の説明可能性を用いた表現学習の相互作用について検討する。 本研究は,2つの異なる地理的位置と課題に関する結果から,タスク固有の事前訓練が,社会経済的結果に応じて潜伏空間の埋め込みを連続的に順序付けすることを示唆している。 これにより、モデルの潜在空間が典型的な都市および自然地域パターンをコードする概念と社会経済的な結果の連続的な間隔を関連付けることができるため、モデルの解釈可能性が改善される。 さらに、社会経済的な結果の間隔に対するモデルの概念的感度の分析が、都市研究の新たな洞察に光を当てる方法について述べる。

Predicting socioeconomic indicators from satellite imagery with deep learning has become an increasingly popular research direction. Post-hoc concept-based explanations can be an important step towards broader adoption of these models in policy-making as they enable the interpretation of socioeconomic outcomes based on visual concepts that are intuitive to humans. In this paper, we study the interplay between representation learning using an additional task-specific contrastive loss and post-hoc concept explainability for socioeconomic studies. Our results on two different geographical locations and tasks indicate that the task-specific pretraining imposes a continuous ordering of the latent space embeddings according to the socioeconomic outcomes. This improves the model's interpretability as it enables the latent space of the model to associate concepts encoding typical urban and natural area patterns with continuous intervals of socioeconomic outcomes. Further, we illustrate how analyzing the model's conceptual sensitivity for the intervals of socioeconomic outcomes can shed light on new insights for urban studies.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# グラフニューラルネットワークを用いた木含量問題の解法

Solving the Tree Containment Problem Using Graph Neural Networks ( http://arxiv.org/abs/2404.09812v2 )

ライセンス: Link先を確認
Arkadiy Dushatskiy, Esther Julien, Leen Stougie, Leo van Iersel, (参考訳) 木含量は、特定の種の進化の歴史を表す、提案された系統ネットワークを検証するのに有用な系統学の基本的な問題である。 Tree Containmentは、与えられた系統樹(例えば、木のような進化を示すDNA断片から作られる)が与えられた系統網に含まれるかどうかを問う。 一般の場合、これはNP完全問題である。 本稿では,グラフニューラルネットワークを用いて大まかに解くことを提案する。 特に、与えられたネットワークとツリーを組み合わせて、このネットワークツリーグラフにグラフニューラルネットワークを適用することを提案する。 このようにして、トレーニングデータセットに含まれるインスタンス(つまり、我々のアルゴリズムは帰納的学習能力を持つ)よりも多くの種を表わすツリー封じ込めのインスタンスを解くことができる。 本アルゴリズムは,最大100個の葉を持つ場合の樹木封じ込め問題の解法において,9,5 %以上の精度を示す。

Tree Containment is a fundamental problem in phylogenetics useful for verifying a proposed phylogenetic network, representing the evolutionary history of certain species. Tree Containment asks whether the given phylogenetic tree (for instance, constructed from a DNA fragment showing tree-like evolution) is contained in the given phylogenetic network. In the general case, this is an NP-complete problem. We propose to solve it approximately using Graph Neural Networks. In particular, we propose to combine the given network and the tree and apply a Graph Neural Network to this network-tree graph. This way, we achieve the capability of solving the tree containment instances representing a larger number of species than the instances contained in the training dataset (i.e., our algorithm has the inductive learning ability). Our algorithm demonstrates an accuracy of over $95\%$ in solving the tree containment problem on instances with up to 100 leaves.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# サブグループ安定化による量子エラー抑制

Quantum Error Suppression with Subgroup Stabilisation ( http://arxiv.org/abs/2404.09973v2 )

ライセンス: Link先を確認
Bo Yang, Elham Kashefi, Dominik Leichtle, Harold Ollivier, (参考訳) 量子状態浄化(Quantum state purification)とは、未知の状態の複数のコピーが与えられたとき、純度の高い状態を出力する機能である。 これは、予測値だけでなく、量子状態においてもエラーを抑えることができる完全なフォールトトレランスが利用可能になる前に、近時および中期の量子エコシステムにとって不可欠なビルディングブロックとなる。 我々は、M$の量子入力を、M$の対称部分群を形成するプロジェクタの集合によって定義された対称部分空間に投影することで、適度な量子オーバーヘッドを持つ有効な状態浄化ガジェットを提案する。 提案手法は, ノイズ状態の重複コピーを1M$以上の短い進化で適用することにより, 整合性および確率的誤差をそれぞれ1M$の係数で抑制することができる。 これにより、バレンコらによって20年以上前に提案された完全対称部分空間への状態射影よりも$M$の回路実装コストが小さくなる。 また、このガジェットは、$p$が小さい場合、最適な$M$を選択することで、確率$p$で非分極入力を漸近的に$O\left(p^{2}\right)$に浄化することを示した。 サンプリングコストは$O\left(p^{-1}\right)$ for small $p$であり、漸近的に最適であることを示している。 本手法は,完全フォールトトレラント計算が利用可能になる前に,ハードウェアの制約に応じて,フレキシブルな状態浄化選択を提供する。

Quantum state purification is the functionality that, given multiple copies of an unknown state, outputs a state with increased purity. This will be an essential building block for near- and middle-term quantum ecosystems before the availability of full fault tolerance, where one may want to suppress errors not only in expectation values but also in quantum states. We propose an effective state purification gadget with a moderate quantum overhead by projecting $M$ noisy quantum inputs to their symmetric subspace defined by a set of projectors forming a symmetric subgroup with order $M$. Our method, applied in every short evolution over $M$ redundant copies of noisy states, can suppress both coherent and stochastic errors by a factor of $1/M$, respectively. This reduces the circuit implementation cost $M$ times smaller than the state projection to the full symmetric subspace proposed by Barenco et al. more than two decades ago. We also show that our gadget purifies the depolarised inputs with probability $p$ to asymptotically $O\left(p^{2}\right)$ with an optimal choice of $M$ when $p$ is small. The sampling cost scales $O\left(p^{-1}\right)$ for small $p$, which is also shown to be asymptotically optimal. Our method provides flexible choices of state purification depending on the hardware restrictions before fully fault-tolerant computation is available.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# レコメンデーションモデルはどのように大衆バイアスを増幅するか? : スペクトルから見た分析

How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective ( http://arxiv.org/abs/2404.12008v3 )

ライセンス: Link先を確認
Siyi Lin, Chongming Gao, Jiawei Chen, Sheng Zhou, Binbin Hu, Yan Feng, Chun Chen, Can Wang, (参考訳) 勧告システム(RS)は、しばしば人気バイアスに悩まされる。 通常、長い尾のデータセットでレコメンデーションモデルをトレーニングする場合、このバイアスを継承するだけでなく、しばしば悪化させる傾向があり、レコメンデーションリストで人気のある項目が過剰に表現される。 本研究は、この現象の根本原因を明らかにするための総合的な経験的および理論的分析を行い、2つの中核的な洞察を得た。 1)推薦モデルにより予測されるスコア行列の主スペクトルにアイテムの人気が記憶される。 2) 次元崩壊現象は主スペクトルの相対的な優位性を増幅し, 人気バイアスを増大させる。 これらの知見に基づいて、スペクトルノルム正規化器を利用して主特異値の大きさをペナルティ化する新しいデバイアスング戦略を提案する。 我々は,スコア行列のスペクトル特性を利用してスペクトルノルムの計算を高速化する効率的なアルゴリズムを開発した。 提案手法の優位性を検証するために,実世界の7つのデータセットと3つのテストパラダイムにわたる大規模な実験を行った。

Recommendation Systems (RS) are often plagued by popularity bias. When training a recommendation model on a typically long-tailed dataset, the model tends to not only inherit this bias but often exacerbate it, resulting in over-representation of popular items in the recommendation lists. This study conducts comprehensive empirical and theoretical analyses to expose the root causes of this phenomenon, yielding two core insights: 1) Item popularity is memorized in the principal spectrum of the score matrix predicted by the recommendation model; 2) The dimension collapse phenomenon amplifies the relative prominence of the principal spectrum, thereby intensifying the popularity bias. Building on these insights, we propose a novel debiasing strategy that leverages a spectral norm regularizer to penalize the magnitude of the principal singular value. We have developed an efficient algorithm to expedite the calculation of the spectral norm by exploiting the spectral property of the score matrix. Extensive experiments across seven real-world datasets and three testing paradigms have been conducted to validate the superiority of the proposed method.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# PKIのArmored Core: 効率的で信頼性の高い物理認証によるCA署名キーの削除

Armored Core of PKI: Removing Signing Keys for CA via Efficient and Trusted Physical Certification ( http://arxiv.org/abs/2404.15582v3 )

ライセンス: Link先を確認
Xiaolin Zhang, Chenghao Chen, Kailun Qin, Yuxuan Wang, Shipei Qu, Tengfei Wang, Chi Zhang, Dawu Gu, (参考訳) Certificate Authorities (CA) の署名キー保護は、PKIにおいて重要な関心事である。 これらのキーは、慎重に設計された攻撃や運用上のエラーによって、今日でも公開することができる。 従来の保護は、攻撃者が常にデジタルキーリークをキャプチャするためのエクスプロイトパスを見つけるため、そのようなリスクを排除できない。 単一の攻撃でもセキュリティを損なう可能性がある。 この永遠のジレンマは、CAの署名キーを削除することを検討する動機となり、証明書操作にPKIのセキュリティ拡張であるArmored Coreを提案する。 明示的な署名キーを排除することで、鍵の露出攻撃を不可能にする。 Armored Coreでは、固定鍵を使わずに物理的に信頼された「署名」を生成するために、PUFベースのCA用のX.509v3TLS証明書関数を設計する。 我々は、証明書の実在の偽造性を正式に証明する。 本稿では,PUFの呼び出し動作を効果的に監視するPUF透過機構を提案する。 また、Armored CoreがLet's Encrypt Pebble CAやCertbotといった現実世界のPKIシステムに統合される、オープンソースの実装も提供しています。 結果は、追加のパフォーマンスオーバーヘッドを伴わずに、重要な削除を実現していることを示している。 互換性のある機能を備えた効率的な物理操作を通じて、より信頼性の高いPKIセキュリティ基盤を提供する。

The signing key protection for Certificate Authorities (CAs) remains a critical concern in PKI. These keys can be exposed by carefully designed attacks or operational errors even today. Traditional protections fail to eliminate such risk since attackers always manage to find an exploit path to capture the digital key leakage. Even a single successful attack can compromise the security. This everlasting dilemma motivates us to consider removing CA's signing keys and propose Armored Core, a PKI security extension using the trusted binding of Physically Unclonable Function (PUF) for certificate operations. By eliminating explicit signing keys, it makes key exposure attacks impossible. In Armored Core, we design a set of PUF-based X.509v3 TLS certificate functions for CAs, where they generate physically trusted "signatures" without using a fixed key. We formally prove the existential unforgeability of the certificates. We propose the first PUF transparency mechanism to effectively monitor the calling behaviors of PUF. We also provide an open-sourced implementation where Armored Core is integrated into real-world PKI systems like Let's Encrypt Pebble CA and Certbot. The results show that it achieves key removal without any additional performance overhead. It offers a more trusted basis for PKI security through efficient physical operations with compatible functions.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# Retrieval and Distill: オンラインレコメンデーションシステムのための一時データシフトフリーパラダイム

Retrieval and Distill: A Temporal Data Shift-Free Paradigm for Online Recommendation System ( http://arxiv.org/abs/2404.15678v4 )

ライセンス: Link先を確認
Lei Zheng, Ning Li, Weinan Zhang, Yong Yu, (参考訳) 現在のレコメンデーションシステムは、歴史的データの配信とオンラインデータの配信との不整合である時間的データシフトの深刻な問題の影響を著しく受けている。 既存のモデルのほとんどは、データのシフトから学ぶことのできる、転送可能な一時的なデータシフトのない情報を見渡すことで、更新データの利用に重点を置いている。 本稿では,ある固定探索空間が与えられた場合,検索空間内のデータとデータとの関係が時間とともに不変であることを示す,時間不変なアソシエーション定理を提案する。 この原理を応用して、我々は、シフトデータを用いてデータシフトフリーのレコメンデーションネットワークをトレーニングできる検索ベースのレコメンデーションシステムフレームワークを設計し、リコメンデーションシステムにおける元のモデルの予測性能を大幅に向上させた。 しかし、検索ベースのレコメンデーションモデルは、オンラインにデプロイする際、かなりの推論時間コストに直面している。 これを解決するため,我々は,関連するネットワークからの情報をシフトデータを用いてパラメータ化モジュールに抽出できる蒸留フレームワークをさらに設計した。 蒸留されたモデルはオリジナルのモデルと並んでオンラインに展開でき、推論時間は最小限に抑えられる。 複数の実データセットに対する大規模な実験により、我々のフレームワークはシフトデータを利用することで、元のモデルの性能を大幅に改善することを示した。

Current recommendation systems are significantly affected by a serious issue of temporal data shift, which is the inconsistency between the distribution of historical data and that of online data. Most existing models focus on utilizing updated data, overlooking the transferable, temporal data shift-free information that can be learned from shifting data. We propose the Temporal Invariance of Association theorem, which suggests that given a fixed search space, the relationship between the data and the data in the search space keeps invariant over time. Leveraging this principle, we designed a retrieval-based recommendation system framework that can train a data shift-free relevance network using shifting data, significantly enhancing the predictive performance of the original model in the recommendation system. However, retrieval-based recommendation models face substantial inference time costs when deployed online. To address this, we further designed a distill framework that can distill information from the relevance network into a parameterized module using shifting data. The distilled model can be deployed online alongside the original model, with only a minimal increase in inference time. Extensive experiments on multiple real datasets demonstrate that our framework significantly improves the performance of the original model by utilizing shifting data.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-13
# 大規模言語モデルを用いたコスト認識獲得機能の開発

Evolve Cost-aware Acquisition Functions Using Large Language Models ( http://arxiv.org/abs/2404.16906v2 )

ライセンス: Link先を確認
Yiming Yao, Fei Liu, Ji Cheng, Qingfu Zhang, (参考訳) 多くの実世界の最適化シナリオは、未知で不均一なコストによる高価な評価を含む。 コストを意識したベイズ最適化は、これらの課題に対処する際、目立った解決策である。 コスト効率のよい予算でグローバルな最適化に近づくためには、コスト対応獲得機能(AF)の設計が重要なステップとなる。 しかし、従来の手動設計パラダイムは、通常、広範なドメイン知識を必要とし、労働集約的な試行錯誤プロセスを伴う。 本稿では,大規模言語モデル (LLM) と進化計算 (EC) を統合する新しいフレームワークであるEvolCAFを紹介する。 EvolCAFはアルゴリズム空間におけるクロスオーバーと突然変異を活用し、新しい設計パラダイムを提供し、ドメインの専門知識とモデルトレーニングへの依存を著しく低減する。 設計されたコストアウェアAFは、過去のデータ、サロゲートモデル、予算の詳細から利用可能な情報の利用を最大化する。 獲得関数設計に関する既存の文献でこれまで検討されていなかった新しいアイデアを導入し、明確な解釈により、その振る舞いと意思決定プロセスに関する洞察を提供する。 人的専門家が設計した有名なEIpuとEI-coolの手法と比較して,12の合成問題と3つの実世界のハイパーパラメータチューニングテストセットを含む,様々なタスクにおける顕著な効率性と一般化を示す。

Many real-world optimization scenarios involve expensive evaluation with unknown and heterogeneous costs. Cost-aware Bayesian optimization stands out as a prominent solution in addressing these challenges. To approach the global optimum within a limited budget in a cost-efficient manner, the design of cost-aware acquisition functions (AFs) becomes a crucial step. However, traditional manual design paradigm typically requires extensive domain knowledge and involves a labor-intensive trial-and-error process. This paper introduces EvolCAF, a novel framework that integrates large language models (LLMs) with evolutionary computation (EC) to automatically design cost-aware AFs. Leveraging the crossover and mutation in the algorithmic space, EvolCAF offers a novel design paradigm, significantly reduces the reliance on domain expertise and model training. The designed cost-aware AF maximizes the utilization of available information from historical data, surrogate models and budget details. It introduces novel ideas not previously explored in the existing literature on acquisition function design, allowing for clear interpretations to provide insights into its behavior and decision-making process. In comparison to the well-known EIpu and EI-cool methods designed by human experts, our approach showcases remarkable efficiency and generalization across various tasks, including 12 synthetic problems and 3 real-world hyperparameter tuning test sets.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて

Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior ( http://arxiv.org/abs/2404.18820v2 )

ライセンス: Link先を確認
Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang, (参考訳) 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))での画像圧縮は、かなりの情報損失のため重要な課題である。 本研究では,事前学習した拡散モデルの強力な生成能力を利用して,極低ビットレートで現実的な画像再構成を実現する2段階の極端画像圧縮フレームワークを提案する。 第一段階では、拡散空間における画像の潜在表現をガイダンスとして扱い、VAEベースの圧縮手法を用いて画像を圧縮し、最初に圧縮された情報をコンテンツ変数に復号する。 第2段階は、事前訓練された安定拡散を利用して、コンテンツ変数のガイダンスの下で画像を再構成する。 具体的には、コンテンツ情報を注入する小さな制御モジュールを導入し、安定した拡散モデルを固定し、生成能力を維持する。 さらに、コンテンツ変数を拡散空間に合わせるように強制する空間アライメント損失を設計し、最適化に必要な制約を提供する。 広汎な実験により,本手法は極低ビットレートでの視覚性能において,最先端の手法よりも有意に優れていた。

Image compression at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. In this work, we propose a novel two-stage extreme image compression framework that exploits the powerful generative capability of pre-trained diffusion models to achieve realistic image reconstruction at extremely low bitrates. In the first stage, we treat the latent representation of images in the diffusion space as guidance, employing a VAE-based compression approach to compress images and initially decode the compressed information into content variables. The second stage leverages pre-trained stable diffusion to reconstruct images under the guidance of content variables. Specifically, we introduce a small control module to inject content information while keeping the stable diffusion model fixed to maintain its generative capability. Furthermore, we design a space alignment loss to force the content variables to align with the diffusion space and provide the necessary constraints for optimization. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches in terms of visual performance at extremely low bitrates.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# RTF:リレーショナルトリプル抽出のための領域型テーブル充填法

RTF: Region-based Table Filling Method for Relational Triple Extraction ( http://arxiv.org/abs/2404.19154v2 )

ライセンス: Link先を確認
Ning An, Lei Hei, Yong Jiang, Weiping Meng, Jingjing Hu, Boran Huang, Feiliang Ren, (参考訳) リレーショナルトリプル抽出は知識グラフの自動構築に不可欠である。 既存のメソッドはトークンまたはトークンペアレベルからのみ浅い表現を構築する。 しかし、従来の研究は関係三重項の局所的な空間的依存関係を無視し、実体対境界検出の弱点をもたらす。 そこで本研究では,領域ベースのテーブルフィリング手法(RTF)を提案する。 そこで我々は,各関係トリプルを関係特化テーブル上の領域とみなし,各領域の2つのエンドポイントを決定することによって三重項を識別する,新しい領域ベースのタグ付け手法と双方向デコーディング戦略を考案した。 また,空間的視点から領域レベルのテーブル表現を構築するために畳み込みを導入し,トリプルの取得を容易にする。 さらに,関係分類器の学習効率を向上させるために,関係の異なる部分的タグ付けスコアを共有する。 実験結果から,提案手法は2つの広く使用されているベンチマークデータセットの3つの変種に対して,より優れた一般化能力を有する最先端の手法を実現することが示された。

Relational triple extraction is crucial work for the automatic construction of knowledge graphs. Existing methods only construct shallow representations from a token or token pair-level. However, previous works ignore local spatial dependencies of relational triples, resulting in a weakness of entity pair boundary detection. To tackle this problem, we propose a novel Region-based Table Filling method (RTF). We devise a novel region-based tagging scheme and bi-directional decoding strategy, which regard each relational triple as a region on the relation-specific table, and identifies triples by determining two endpoints of each region. We also introduce convolution to construct region-level table representations from a spatial perspective which makes triples easier to be captured. In addition, we share partial tagging scores among different relations to improve learning efficiency of relation classifier. Experimental results show that our method achieves state-of-the-art with better generalization capability on three variants of two widely used benchmark datasets.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# NICE Challenge at CVPR 2024: Caption Re-level Evaluation using Ensembled CLIP and Consensus Scores

Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores ( http://arxiv.org/abs/2405.01028v2 )

ライセンス: Link先を確認
Kiyoon Jeong, Woojun Lee, Woongchan Nam, Minjeong Ma, Pilsung Kang, (参考訳) 本報告では,与えられた画像のキャプションの評価とランク付けに使用される新しいフレームワークであるDSBA LABのECO(Ensembled Clip score and cOnsensus score)パイプラインについて述べる。 ECOは、画像を記述する最も正確なキャプションを選択する。 これは、画像とキャプションのセマンティックアライメントを考慮するEnsembled CLIPスコアと、キャプションの本質性を説明するConsensusスコアを組み合わせることで実現される。 CVPR 2024 Workshop Challenge on Caption Re-level Evaluation at the New Frontiers for Zero-Shot Image Captioning Evaluation (NICE) では,このフレームワークを用いて顕著な成功を収めた。 具体的には、CIDErメトリックに基づいて第3位、SPICEとMETEORメトリクスの両方で第2位、ROUGE-LとBLEUスコアメトリクスで第1位を確保しました。 ECOフレームワークのコードと設定はhttps://github.com/DSBA-Lab/ECO で確認できる。

This report presents the ECO (Ensembled Clip score and cOnsensus score) pipeline from team DSBA LAB, which is a new framework used to evaluate and rank captions for a given image. ECO selects the most accurate caption describing image. It is made possible by combining an Ensembled CLIP score, which considers the semantic alignment between the image and captions, with a Consensus score that accounts for the essentialness of the captions. Using this framework, we achieved notable success in the CVPR 2024 Workshop Challenge on Caption Re-ranking Evaluation at the New Frontiers for Zero-Shot Image Captioning Evaluation (NICE). Specifically, we secured third place based on the CIDEr metric, second in both the SPICE and METEOR metrics, and first in the ROUGE-L and all BLEU Score metrics. The code and configuration for the ECO framework are available at https://github.com/DSBA-Lab/ECO .
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# 物理インフォームドニューラルネットワーク:広帯域ネットワークによる残留損失の最小化と有効活性化

Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations ( http://arxiv.org/abs/2405.01680v2 )

ライセンス: Link先を確認
Nima Hosseini Dashtbayaz, Ghazal Farhani, Boyu Wang, Charles X. Ling, (参考訳) 物理情報ニューラルネットワーク(PINN)の残留損失は、差動演算子を適用することにより、フィードフォワードニューラルネットワークのレイヤの単純な再帰的関係を変化させる。 したがって、既存の理論を頼りにすれば、不適切な設計選択と準最適性能につながる。 本研究では,その特性を臨界点で調べて残余損失を分析し,PINNを効果的に訓練する条件を見出す。 具体的には、ある条件下では、PINNの残留損失は広義のニューラルネットワークによって世界規模で最小化できることを示す。 さらに, 高次導関数を持つ活性化関数が, 残留損失を最小限に抑える上で重要な役割を担っていることも明らかにした。 特に、$k$-次 PDE を解くためには、活性化関数の$k$-次微分は単射であるべきである。 確立された理論は、PINNの効果的なアクティベーション関数の設計と選択の方法を示し、なぜ周期的アクティベーションが有望な性能を示したのかを説明する。 最後に、いくつかのPDEに対して一連の実験を行うことで、この結果を検証する。 私たちのコードはhttps://github.com/nimahsn/pinns_tf2.comで公開されています。

The residual loss in Physics-Informed Neural Networks (PINNs) alters the simple recursive relation of layers in a feed-forward neural network by applying a differential operator, resulting in a loss landscape that is inherently different from those of common supervised problems. Therefore, relying on the existing theory leads to unjustified design choices and suboptimal performance. In this work, we analyze the residual loss by studying its characteristics at critical points to find the conditions that result in effective training of PINNs. Specifically, we first show that under certain conditions, the residual loss of PINNs can be globally minimized by a wide neural network. Furthermore, our analysis also reveals that an activation function with well-behaved high-order derivatives plays a crucial role in minimizing the residual loss. In particular, to solve a $k$-th order PDE, the $k$-th derivative of the activation function should be bijective. The established theory paves the way for designing and choosing effective activation functions for PINNs and explains why periodic activations have shown promising performance in certain cases. Finally, we verify our findings by conducting a set of experiments on several PDEs. Our code is publicly available at https://github.com/nimahsn/pinns_tf2.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# 説明可能な人工知能(XAI)におけるセキュリティの虚偽感覚

False Sense of Security in Explainable Artificial Intelligence (XAI) ( http://arxiv.org/abs/2405.03820v2 )

ライセンス: Link先を確認
Neo Christopher Chung, Hongkyou Chung, Hearim Lee, Lennart Brocki, Hongbeom Chung, George Dyer, (参考訳) EUと米国におけるAI規制とポリシーの慎重な解釈は、準拠するAIシステムの中心的な提供物として説明可能性を置いている。 しかし、技術的観点から見れば、説明可能なAI(XAI)は、最先端の手法でさえしばしば誤った、誤解を招く、不完全な説明に達するという、明らかに複雑なターゲットのままである。 「説明可能性」は、しばしば相互に使用される複数の意味を持ち、さらに多くのXAIメソッドが存在します。 実際、各XAIメソッドには複数の障害モードがあり、アプリケーション固有の開発と継続的な評価が必要である。 本稿では、米国と欧州連合の立法・政策開発、例えば、人工知能の安全・安全・信頼性開発・利用に関する執行命令、AI法、AI責任指令、一般データ保護規則(GDPR)を、説明的観点から分析する。 これらのAI規制と現在の市場状況は、信頼できる、説明責任のある、透明なAIの目的が、意味のある説明を提供するためのAIオペレーターの疑わしい能力と本質的に関連しているため、効果的なAIガバナンスと安全を脅かしている、と我々は主張する。 政府は、技術的現実を考慮に入れた明確な立法と政策ステートメントを通じて説明可能性の問題に明示的に対処しない限り、科学標準を法的基準に置き換え、XAIにおける誤ったセキュリティ感覚を提供する、空虚な「ボックス・ティキング」演習となる。

A cautious interpretation of AI regulations and policy in the EU and the USA place explainability as a central deliverable of compliant AI systems. However, from a technical perspective, explainable AI (XAI) remains an elusive and complex target where even state of the art methods often reach erroneous, misleading, and incomplete explanations. "Explainability" has multiple meanings which are often used interchangeably, and there are an even greater number of XAI methods - none of which presents a clear edge. Indeed, there are multiple failure modes for each XAI method, which require application-specific development and continuous evaluation. In this paper, we analyze legislative and policy developments in the United States and the European Union, such as the Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, the AI Act, the AI Liability Directive, and the General Data Protection Regulation (GDPR) from a right to explanation perspective. We argue that these AI regulations and current market conditions threaten effective AI governance and safety because the objective of trustworthy, accountable, and transparent AI is intrinsically linked to the questionable ability of AI operators to provide meaningful explanations. Unless governments explicitly tackle the issue of explainability through clear legislative and policy statements that take into account technical realities, AI governance risks becoming a vacuous "box-ticking" exercise where scientific standards are replaced with legalistic thresholds, providing only a false sense of security in XAI.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# MVDiff:シングルビューからの3Dオブジェクト再構成のためのスケーラブルでフレキシブルなマルチビュー拡散

MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View ( http://arxiv.org/abs/2405.03894v2 )

ライセンス: Link先を確認
Emmanuelle Bourigault, Pauline Bourigault, (参考訳) 3次元再構成タスクに対して一貫した複数のビューを生成することは、既存の画像から3次元の拡散モデルにとって依然として課題である。 一般に、3次元表現を拡散モデルに組み込むことで、モデルの速度と一般化可能性、品質が低下する。 本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。 モデルでは,3次元の一貫性を強制するために,エピポーラ幾何学的制約とマルチビューアテンションを導入する。 1つの画像入力から,PSNR,SSIM,LPIPSなどの評価指標において,ベースラインを超える3Dメッシュを生成することができる。

Generating consistent multiple views for 3D reconstruction tasks is still a challenge to existing image-to-3D diffusion models. Generally, incorporating 3D representations into diffusion model decrease the model's speed as well as generalizability and quality. This paper proposes a general framework to generate consistent multi-view images from single image or leveraging scene representation transformer and view-conditioned diffusion model. In the model, we introduce epipolar geometry constraints and multi-view attention to enforce 3D consistency. From as few as one image input, our model is able to generate 3D meshes surpassing baselines methods in evaluation metrics, including PSNR, SSIM and LPIPS.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# ランダム回路におけるサブシステム情報容量とハミルトンダイナミクス

Subsystem Information Capacity in Random Circuits and Hamiltonian Dynamics ( http://arxiv.org/abs/2405.05076v2 )

ライセンス: Link先を確認
Yu-Qin Chen, Shuo Liu, Shi-Xin Zhang, (参考訳) 本研究では,ランダム量子回路のサブシステムと量子ハミルトニアン進化によって形成される有効チャネルに着目し,オープン量子系の情報容量について検討する。 これらの有効な量子チャネルの量子コヒーレントな情報と密接に結びついているサブシステム情報容量を解析することにより、進化の種類に応じて様々な動的および定常な振る舞いを明らかにする。 したがって、サブシステム情報容量は、可積分、局所化、熱化、トポロジカルシステムなど、様々な動的相の固有の性質を研究するための貴重なツールとなる。 また,初期情報符号化方式が1対1,1対マニー,多対マニーといった情報力学に与える影響を明らかにした。 この結果を支持するために、中間回路の測定の有無にかかわらずランダムな量子回路、ランダムなクリフォード・フロケット回路、自由かつ相互作用するAubry-Andr\'eモデル、Su-Schrieffer-Heegerモデルなど、数値シミュレーションの代表的な例を示す。 これらの数値結果は、ランダム回路と非相互作用ハミルトニアン力学の場合の有効統計モデルマッピングと準粒子図を用いて、さらに定量的に説明される。

In this study, we explore the information capacity of open quantum systems, focusing on the effective channels formed by the subsystem of random quantum circuits and quantum Hamiltonian evolution. By analyzing the subsystem information capacity, which is closely linked to quantum coherent information of these effective quantum channels, we uncover a diverse range of dynamical and steady behaviors depending on the types of evolution. Therefore, the subsystem information capacity serves as a valuable tool for studying the intrinsic nature of various dynamical phases, such as integrable, localized, thermalized, and topological systems. We also reveal the impact of different initial information encoding schemes on information dynamics including one-to-one, one-to-many, and many-to-many. To support our findings, we provide representative examples for numerical simulations, including random quantum circuits with or without mid-circuit measurements, random Clifford Floquet circuits, free and interacting Aubry-Andr\'e models, and Su-Schrieffer-Heeger models. Those numerical results are further quantitatively explained using the effective statistical model mapping and the quasiparticle picture in the cases of random circuits and non-interacting Hamiltonian dynamics, respectively.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# Lumina-T2X:フローベース大規模拡散変換器によるテキストの任意のモダリティ、解像度、持続時間への変換

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers ( http://arxiv.org/abs/2405.05945v3 )

ライセンス: Link先を確認
Peng Gao, Le Zhuo, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xi, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, He Tong, Jingwen He, Yu Qiao, Hongsheng Li, (参考訳) Soraは、任意の解像度、アスペクト比、持続時間でフォトリアリスティックな画像やビデオを生成するためにDiffusion Transformerをスケールする可能性を公開しているが、実装の詳細は十分ではない。 本稿では,フローベースの大規模拡散変換器(Flag-DiT)のシリーズであるLumina-T2Xファミリについて,音声を画像,ビデオ,マルチビュー3Dオブジェクト,音声クリップに変換するための統合フレームワークとして紹介する。 遅延空間空間をトークン化し、[nextline]や[nextframe]トークンのような学習可能なプレースホルダーを組み込むことで、Lumina-T2Xは様々な空間時間分解の異なるモジュラリティの表現をシームレスに統一する。 この統一されたアプローチは、異なるモダリティのための単一のフレームワーク内でのトレーニングを可能にし、推論中に任意の解像度、アスペクト比、長さで柔軟なマルチモーダルデータの生成を可能にする。 RoPE、RMSNorm、フローマッチングといった高度な技術により、Frag-DiTの安定性、柔軟性、スケーラビリティが向上し、Lumina-T2Xのモデルは70億のパラメータをスケールし、コンテキストウィンドウを128Kトークンに拡張できる。 これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。 注目すべきは、Lumina-T2Iは5ビリオンパラメーターのFrag-DiTを搭載しており、600万パラメートルナイーブDiTのトレーニング計算コストの35%しか必要としていないことだ。 我々のより包括的な分析は、Lumina-T2Xの解像度外挿、高解像度の編集、一貫した3Dビューの生成、シームレスな遷移を伴うビデオの合成における予備的能力を示している。 Lumina-T2Xのオープンソース化によって、生成AIコミュニティの創造性、透明性、多様性がさらに向上することを期待しています。

Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family - a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent spatial-temporal space and incorporating learnable placeholders such as [nextline] and [nextframe] tokens, Lumina-T2X seamlessly unifies the representations of different modalities across various spatial-temporal resolutions. This unified approach enables training within a single framework for different modalities and allows for flexible generation of multimodal data at any resolution, aspect ratio, and length during inference. Advanced techniques like RoPE, RMSNorm, and flow matching enhance the stability, flexibility, and scalability of Flag-DiT, enabling models of Lumina-T2X to scale up to 7 billion parameters and extend the context window to 128K tokens. This is particularly beneficial for creating ultra-high-definition images with our Lumina-T2I model and long 720p videos with our Lumina-T2V model. Remarkably, Lumina-T2I, powered by a 5-billion-parameter Flag-DiT, requires only 35% of the training computational costs of a 600-million-parameter naive DiT. Our further comprehensive analysis underscores Lumina-T2X's preliminary capability in resolution extrapolation, high-resolution editing, generating consistent 3D views, and synthesizing videos with seamless transitions. We expect that the open-sourcing of Lumina-T2X will further foster creativity, transparency, and diversity in the generative AI community.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# HoneyBee: 基本埋め込みモデルによるマルチモーダルオンコロジーデータセット作成のためのスケーラブルなモジュールフレームワーク

HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models ( http://arxiv.org/abs/2405.07460v3 )

ライセンス: Link先を確認
Aakash Tripathi, Asim Waqas, Yasin Yilmaz, Ghulam Rasool, (参考訳) オンコロジーのための正確な機械学習モデルを開発するには、大規模で高品質なマルチモーダルデータセットが必要である。 しかし、医療データの複雑さと不均一性のため、そのようなデータセットの作成は依然として困難である。 この課題に対処するため、我々はHoneyBeeを紹介した。HoneyBeeはマルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークで、基礎モデルを活用して代表的な埋め込みを生成する。 HoneyBeeは、臨床診断や病理画像データ、医療ノート、レポート、記録、分子データなど、さまざまなデータモダリティを統合している。 データ前処理技術と基礎モデルを使用して、生の医療データの本質的な特徴と関係をキャプチャする埋め込みを生成する。 生成された埋め込みは、アクセシビリティのためにHugging FaceデータセットとPyTorchデータローダを使用して構造化形式で格納される。 ベクトルデータベースは機械学習アプリケーションの効率的なクエリと検索を可能にする。 これらの埋め込みの質と代表性を評価する実験を通じて,ハニービーの有効性を実証した。 このフレームワークは、他の医療領域に拡張可能なように設計されており、高品質で機械学習対応のデータセットを提供することで、腫瘍研究を加速することを目指している。 HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。

Developing accurate machine learning models for oncology requires large-scale, high-quality multimodal datasets. However, creating such datasets remains challenging due to the complexity and heterogeneity of medical data. To address this challenge, we introduce HoneyBee, a scalable modular framework for building multimodal oncology datasets that leverages foundation models to generate representative embeddings. HoneyBee integrates various data modalities, including clinical diagnostic and pathology imaging data, medical notes, reports, records, and molecular data. It employs data preprocessing techniques and foundation models to generate embeddings that capture the essential features and relationships within the raw medical data. The generated embeddings are stored in a structured format using Hugging Face datasets and PyTorch dataloaders for accessibility. Vector databases enable efficient querying and retrieval for machine learning applications. We demonstrate the effectiveness of HoneyBee through experiments assessing the quality and representativeness of these embeddings. The framework is designed to be extensible to other medical domains and aims to accelerate oncology research by providing high-quality, machine learning-ready datasets. HoneyBee is an ongoing open-source effort, and the code, datasets, and models are available at the project repository.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# SecureLLM: 構成性を使って、プライベート、センシティブ、シークレットデータのためのおそらくセキュアな言語モデルを構築する

SecureLLM: Using Compositionality to Build Provably Secure Language Models for Private, Sensitive, and Secret Data ( http://arxiv.org/abs/2405.09805v2 )

ライセンス: Link先を確認
Abdulrahman Alabdulkareem, Christian M Arnold, Yerim Lee, Pieter M Feenstra, Boris Katz, Andrei Barbu, (参考訳) 従来のセキュリティメカニズムは、アクセスすべきでないユーザからリソースを分離する。 我々は,このようなセキュリティ機構の構成特性を LLM の構造に反映して,確実にセキュアな LLM を構築する。 LLMの安全性に対する他のアプローチは、悪いアクターや悪い結果から保護しようとするが、機密データに適さない程度にしかできない。 SecureLLMは、アクセスセキュリティと微調整メソッドをブレンドする。 各データサイロは個別の微調整に関連付けられており、ユーザーは許可された微調整のコレクションのみにアクセスすることができる。 次に、モデルはそれらのデータサイロの交差点における構成上のタスクと、それらの個々の微調整の組み合わせで実行しなければなりません。 ドキュメントQAやAPI呼び出しといったタスクにも適用可能ですが、この作業では、自然言語からSQLへの翻訳機能を提供するために、新しいSQLデータベースのレイアウトを学習するモデルに関心があります。 既存の微調整コンポジションメソッドは、構成タスクを扱うのに十分な装備がないため、この困難な環境では失敗する。 構成性はLLMにとって依然として課題である。 我々は、難易度の高い新しい自然言語-SQL翻訳タスクと、今日安全な環境にモデルをデプロイできるLLMセキュリティに関する新しい視点の両方に貢献する。

Traditional security mechanisms isolate resources from users who should not access them. We reflect the compositional nature of such security mechanisms back into the structure of LLMs to build a provably secure LLM; that we term SecureLLM. Other approaches to LLM safety attempt to protect against bad actors or bad outcomes, but can only do so to an extent making them inappropriate for sensitive data. SecureLLM blends access security with fine-tuning methods. Each data silo has associated with it a separate fine-tuning and a user has access only to the collection of fine-tunings that they have permission for. The model must then perform on compositional tasks at the intersection of those data silos with the combination of those individual fine-tunings. While applicable to any task like document QA or making API calls, in this work we concern ourselves with models that learn the layouts of new SQL databases to provide natural-language-to-SQL translation capabilities. Existing fine-tuning composition methods fail in this challenging environment, as they are not well-equipped for handling compositional tasks. Compositionality remains a challenge for LLMs. We contribute both a difficult new compositional natural-language-to-SQL translation task and a new perspective on LLM security that allows models to be deployed to secure environments today.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# TriLoRA:テキスト・画像生成における高度なスタイルのパーソナライズのためのSVDの統合

TriLoRA: Integrating SVD for Advanced Style Personalization in Text-to-Image Generation ( http://arxiv.org/abs/2405.11236v2 )

ライセンス: Link先を確認
Chengcheng Feng, Mu He, Qiuyu Tian, Haojie Yin, Xiaofang Zhao, Hongwei Tang, Xingqiang Wei, (参考訳) ディープラーニング技術が進歩を続けるにつれ、画像生成モデル、特にStable Diffusionのようなモデルは、視覚芸術の創造に広く応用されている。 しかしながら、これらのモデルは、オーバーフィット、生成された結果の安定性の欠如、微調整プロセス中にクリエーターが求める機能を正確に把握する困難といった課題に直面していることが多い。 これらの課題に対応するために、画像生成モデルの微調整効率と出力品質を向上させることを目的とした、Singular Value Decomposition(SVD)をLo-Rank Adaptation(LoRA)パラメータ更新戦略に統合する革新的な手法を提案する。 SVDをLoRAフレームワークに組み込むことで、オーバーフィッティングのリスクを効果的に低減するだけでなく、モデル出力の安定性を高め、微妙でクリエーターが望む特徴調整をより正確に捉えることができる。 提案手法を複数のデータセット上で評価した結果,従来の微調整手法と比較して,生成の質を維持しながらモデルの一般化能力と創造的柔軟性を著しく向上することが示された。 さらに,資源制約条件下でのLORAの優れた性能を維持し,元の効率性と資源の優位性を損なうことなく画像生成品質を大幅に向上させることができる。

As deep learning technology continues to advance, image generation models, especially models like Stable Diffusion, are finding increasingly widespread application in visual arts creation. However, these models often face challenges such as overfitting, lack of stability in generated results, and difficulties in accurately capturing the features desired by creators during the fine-tuning process. In response to these challenges, we propose an innovative method that integrates Singular Value Decomposition (SVD) into the Low-Rank Adaptation (LoRA) parameter update strategy, aimed at enhancing the fine-tuning efficiency and output quality of image generation models. By incorporating SVD within the LoRA framework, our method not only effectively reduces the risk of overfitting but also enhances the stability of model outputs, and captures subtle, creator-desired feature adjustments more accurately. We evaluated our method on multiple datasets, and the results show that, compared to traditional fine-tuning methods, our approach significantly improves the model's generalization ability and creative flexibility while maintaining the quality of generation. Moreover, this method maintains LoRA's excellent performance under resource-constrained conditions, allowing for significant improvements in image generation quality without sacrificing the original efficiency and resource advantages.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-13
# 安全な強化学習のための相反する表現学習の可能性

Feasibility Consistent Representation Learning for Safe Reinforcement Learning ( http://arxiv.org/abs/2405.11718v2 )

ライセンス: Link先を確認
Zhepeng Cen, Yihang Yao, Zuxin Liu, Ding Zhao, (参考訳) 安全強化学習(RL)の分野では、安全制約を満たすことと報酬性能を最適化することのバランスを見つけることが大きな課題である。 この取り組みにおける重要な障害は、安全制約の推定であり、通常は、制約信号のスパースな性質から報酬の計量を推定するよりも難しい。 この問題に対処するため,FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。 本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。 自己指導型学習技術とより学習可能な安全基準を活用して,政策学習と制約推定を強化する。 ベクトル状態および画像に基づくタスクの多岐にわたる経験的評価は,本手法が従来の表現学習ベースラインよりも優れた安全性を学習し,優れた性能を実現することができることを示す。

In the field of safe reinforcement learning (RL), finding a balance between satisfying safety constraints and optimizing reward performance presents a significant challenge. A key obstacle in this endeavor is the estimation of safety constraints, which is typically more difficult than estimating a reward metric due to the sparse nature of the constraint signals. To address this issue, we introduce a novel framework named Feasibility Consistent Safe Reinforcement Learning (FCSRL). This framework combines representation learning with feasibility-oriented objectives to identify and extract safety-related information from the raw state for safe RL. Leveraging self-supervised learning techniques and a more learnable safety metric, our approach enhances the policy learning and constraint estimation. Empirical evaluations across a range of vector-state and image-based tasks demonstrate that our method is capable of learning a better safety-aware embedding and achieving superior performance than previous representation learning baselines.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# 適応型ゼロショット対話状態追跡のための多変量および効果的な合成データ生成

Diverse and Effective Synthetic Data Generation for Adaptable Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2405.12468v2 )

ライセンス: Link先を確認
James D. Finch, Jinho D. Choi, (参考訳) 合成データ生成によるトレーニングデータの多様性の向上により,ゼロショット対話状態追跡(DST)の性能向上を示す。 既存のDSTデータセットは、データ収集のコストが高く、新しいドメインへの適応性を制限するため、それらがカバーするアプリケーションドメイン数やスロットタイプに大きく制限されている。 この研究は、合成ゼロショットDSTデータセットを生成する新しい完全自動データ生成アプローチで、この課題に対処する。 従来の手法とは違って,本手法では,銀標準の対話状態アノテーションとスロット記述を完備した,広範囲のアプリケーションドメイン間の対話を生成できる。 このテクニックは、前例のない1000以上のドメインを含むゼロショットDSTモデルをトレーニングするためのD0Tデータセットを作成するために使用される。 MultiWOZベンチマークの実験では、多様な合成データのトレーニングモデルにより、ジョイントゴール精度が6.7%向上し、我々の13.5倍のモデルと競合する結果が得られた。

We demonstrate substantial performance gains in zero-shot dialogue state tracking (DST) by enhancing training data diversity through synthetic data generation. Existing DST datasets are severely limited in the number of application domains and slot types they cover due to the high costs of data collection, restricting their adaptability to new domains. This work addresses this challenge with a novel, fully automatic data generation approach that creates synthetic zero-shot DST datasets. Distinguished from previous methods, our approach can generate dialogues across a massive range of application domains, complete with silver-standard dialogue state annotations and slot descriptions. This technique is used to create the D0T dataset for training zero-shot DST models, encompassing an unprecedented 1,000+ domains. Experiments on the MultiWOZ benchmark show that training models on diverse synthetic data improves Joint Goal Accuracy by 6.7%, achieving results competitive with models 13.5 times larger than ours.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# RadarOcc:4次元イメージングレーダを用いたロバスト3次元活動予測

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar ( http://arxiv.org/abs/2405.14014v3 )

ライセンス: Link先を確認
Fangqiang Ding, Xiangyu Wen, Lawrence Zhu, Yiming Li, Chris Xiaoxuan Lu, (参考訳) 3次元占有に基づく知覚パイプラインは、詳細なシーン記述をキャプチャし、様々な対象カテゴリや形状の強い一般化性を示すことで、かなり高度な自律運転を実現している。 現在の手法は、主に3D占有率予測にLiDARまたはカメラ入力に依存している。 これらの方法は悪天候の影響を受けやすいため、全天候での自動運転車の展開が制限される。 認識の堅牢性を向上させるために,最近の自動車レーダの進歩を活用し,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。 提案手法であるRadarOccは,4次元レーダーテンソルを直接処理することで,スパースレーダ点雲の限界を回避する。 RadarOccは、ドップラービンディスクリプタ、サイドローブを意識した空間スペーシング、およびレンジワイドの自己アテンション機構を用いて、4Dレーダーデータにまつわる課題に革新的に対処する。 また, 直接座標変換に伴う補間誤差を最小限に抑えるため, 球面型特徴符号化法を考案し, 球面-カルテシアン特徴集約法を提案する。 パブリックなK-Radarデータセット上で、異なるモダリティに基づいて、様々なベースライン手法をベンチマークする。 その結果,レーダーによる3次元占有予測におけるRadarOccの最先端性能と,LiDARやカメラによる手法と比較しても有望な結果が得られた。 さらに, 悪天候条件下での4Dレーダの優れた性能を示す定性的な証拠を提示し, アブレーション研究を通じて, 主要パイプライン成分の影響について検討する。

3D occupancy-based perception pipeline has significantly advanced autonomous driving by capturing detailed scene descriptions and demonstrating strong generalizability across various object categories and shapes. Current methods predominantly rely on LiDAR or camera inputs for 3D occupancy prediction. These methods are susceptible to adverse weather conditions, limiting the all-weather deployment of self-driving cars. To improve perception robustness, we leverage the recent advances in automotive radars and introduce a novel approach that utilizes 4D imaging radar sensors for 3D occupancy prediction. Our method, RadarOcc, circumvents the limitations of sparse radar point clouds by directly processing the 4D radar tensor, thus preserving essential scene details. RadarOcc innovatively addresses the challenges associated with the voluminous and noisy 4D radar data by employing Doppler bins descriptors, sidelobe-aware spatial sparsification, and range-wise self-attention mechanisms. To minimize the interpolation errors associated with direct coordinate transformations, we also devise a spherical-based feature encoding followed by spherical-to-Cartesian feature aggregation. We benchmark various baseline methods based on distinct modalities on the public K-Radar dataset. The results demonstrate RadarOcc's state-of-the-art performance in radar-based 3D occupancy prediction and promising results even when compared with LiDAR- or camera-based methods. Additionally, we present qualitative evidence of the superior performance of 4D radar in adverse weather conditions and explore the impact of key pipeline components through ablation studies.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# DDIMによるスコア蒸留

Score Distillation via Reparametrized DDIM ( http://arxiv.org/abs/2405.15891v2 )

ライセンス: Link先を確認
Artem Lukoianov, Haitz Sáez de Ocáriz Borde, Kristjan Greenewald, Vitor Campagnolo Guizilini, Timur Bagautdinov, Vincent Sitzmann, Justin Solomon, (参考訳) 2次元拡散モデルが現実的な高精細画像を生成する一方で、これらの2次元拡散モデル上に構築されたスコア蒸留サンプリング(SDS)のような3次元形状生成手法は、漫画のような、過度に滑らかな形状を生成する。 この相違を説明するために, スコア蒸留における画像誘導は, ノイズ項の選択に至るまでの2次元雑音生成過程の速度場として理解可能であることを示す。 特に、変数の変化の後、SDSは異なるサンプリングされたノイズ項を持つDenoising Diffusion Implicit Models (DDIM) の高分散バージョンに似ている: SDSは各ステップでランダムにノイズを導入し、DDIMは以前のノイズ予測からそれを推測する。 この過度の分散は過度に滑らかで非現実的な出力をもたらす。 本研究では,SDS更新ステップ毎にDDIMを反転させることにより,より優れたノイズ近似を復元可能であることを示す。 この修正により、SDSの2次元画像の生成過程はDDIMとほぼ同一である。 3Dでは、過剰な平滑化を除去し、高頻度の細部を保存し、生成品質を2Dサンプルラーに近づける。 実験では,他の最先端のスコア蒸留法と比較して,ニューラルネットワークやマルチビューの監視を訓練することなく,拡散モデルによる2次元と3次元のアセット生成の関係について有用な知見を提供する。

While 2D diffusion models generate realistic, high-detail images, 3D shape generation methods like Score Distillation Sampling (SDS) built on these 2D diffusion models produce cartoon-like, over-smoothed shapes. To help explain this discrepancy, we show that the image guidance used in Score Distillation can be understood as the velocity field of a 2D denoising generative process, up to the choice of a noise term. In particular, after a change of variables, SDS resembles a high-variance version of Denoising Diffusion Implicit Models (DDIM) with a differently-sampled noise term: SDS introduces noise i.i.d. randomly at each step, while DDIM infers it from the previous noise predictions. This excessive variance can lead to over-smoothing and unrealistic outputs. We show that a better noise approximation can be recovered by inverting DDIM in each SDS update step. This modification makes SDS's generative process for 2D images almost identical to DDIM. In 3D, it removes over-smoothing, preserves higher-frequency detail, and brings the generation quality closer to that of 2D samplers. Experimentally, our method achieves better or similar 3D generation quality compared to other state-of-the-art Score Distillation methods, all without training additional neural networks or multi-view supervision, and providing useful insights into relationship between 2D and 3D asset generation with diffusion models.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# 時間弾性ニューラルネットワーク

Time Elastic Neural Networks ( http://arxiv.org/abs/2405.17516v2 )

ライセンス: Link先を確認
Pierre-François Marteau, (参考訳) 多変量時系列分類のための非典型的ニューラルネットワークアーキテクチャである時間弾性ニューラルネットワーク(teNN)を導入,詳述する。 古典的ニューラルネットワークアーキテクチャと比較して新しいのは、時間ゆらぎの能力と、注意を向ける新しい方法が明確に組み込まれていることだ。 さらに、このアーキテクチャは、ドロップアウト戦略を学習し、独自のアーキテクチャを最適化することができる。このアーキテクチャの設計の背後では、私たちの全体的な目標が3倍になる。まず、十分なトレーニングデータが得られる限り、非常に優れたパフォーマンスを示すインスタンスベースの分類アプローチの精度向上を目指しています。 次に、これらの手法に固有の計算複雑性を減らし、スケーラビリティを向上させる。 理想的には、これらの最初の2つの基準の間に許容可能なバランスを求めます。 最後に、我々は、この種のニューラルアーキテクチャによる決定の説明可能性を高めることを目指しており、この実験は、TENNを訓練するために実装された確率勾配勾配が極めて効果的であることを示す。 重要なメタパラメータの選択が正しければ,収束は概ねスムーズかつ高速であり,精度は高いが,必要な参照時間列,すなわちテナンセルの数を減らすことで,スケーラビリティの大幅な向上が期待できる。 第2に、トレーニング過程において、TENNは各細胞に必要となるニューロン数を減少させることに成功した。 最後に、学習後のアクティベーションおよびアテンション行列の解析および参照時系列が、分類結果を解釈し、説明するための関連情報を提供することを示すとともに、30の多様な多変量データセットに関する関心事の比較研究により、テナンが、例えばLSTMとCNNアーキテクチャを混合したネットワークのものと同等の結果を得ることを示した。

We introduce and detail an atypical neural network architecture, called time elastic neural network (teNN), for multivariate time series classification. The novelty compared to classical neural network architecture is that it explicitly incorporates time warping ability, as well as a new way of considering attention. In addition, this architecture is capable of learning a dropout strategy, thus optimizing its own architecture.Behind the design of this architecture, our overall objective is threefold: firstly, we are aiming at improving the accuracy of instance based classification approaches that shows quite good performances as far as enough training data is available. Secondly we seek to reduce the computational complexity inherent to these methods to improve their scalability. Ideally, we seek to find an acceptable balance between these first two criteria. And finally, we seek to enhance the explainability of the decision provided by this kind of neural architecture.The experiment demonstrates that the stochastic gradient descent implemented to train a teNN is quite effective. To the extent that the selection of some critical meta-parameters is correct, convergence is generally smooth and fast.While maintaining good accuracy, we get a drastic gain in scalability by first reducing the required number of reference time series, i.e. the number of teNN cells required. Secondly, we demonstrate that, during the training process, the teNN succeeds in reducing the number of neurons required within each cell. Finally, we show that the analysis of the activation and attention matrices as well as the reference time series after training provides relevant information to interpret and explain the classification results.The comparative study that we have carried out and which concerns around thirty diverse and multivariate datasets shows that the teNN obtains results comparable to those of the state of the art, in particular similar to those of a network mixing LSTM and CNN architectures for example.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# 相互接続型ノンシグナリング資源の整合性と因果性

Consistency and Causality of Interconnected Nonsignaling Resources ( http://arxiv.org/abs/2405.18408v2 )

ライセンス: Link先を確認
Peter Bierhorst, (参考訳) 本稿は, 独立系非署名リソースを局所的に共有する$m$$$n$のネットワークについて検討する。つまり, 各パーティは, 予め測定したリソースの出力に依存する可能性のある後続のリソースへの入力を, ケースケード方式で測定する方式に従う。 特定のフレームワークは、そのようなネットワークで生じる確率分布を研究するために提供され、このフレームワークは、いくつかの受け入れられるが、暗黙的にのみ呼び出される事実を直接証明するために使用される: 当事者が共有する全てのリソースの出力に対して、一意に決定され、明確に定義された合同確率分布が存在し、この共同分布は非署名的である。 さらに、そのようなネットワークの特徴や特性を考慮すると、極端に非署名的なリソースのみを考慮に入れるのに十分であることもしばしば示される。 最後に、このフレームワークは、非シグナリングボックスと局所配線の物理的理論がいかに因果関係であるかを示し、そのようなモデルを制約するインフレーション手法の適用性を支持する。 ある出願について、ローカル操作共有ランダム性の定義に従って、真の3つの非局所性を目撃する3,2,2の不平等の例を探索し、他のすべての例がMao et al [Phys. Rev. Lett. 129:150401 (2022)]の例からどのように導出されるかを示す。

This paper examines networks of $n$ measuring parties sharing $m$ independent nonsignaling resources that can be locally wired together: that is, each party follows a scheme to measure the resources in a cascaded fashion with inputs to later resources possibly depending on outputs of earlier-measured ones. A specific framework is provided for studying probability distributions arising in such networks, and this framework is used to directly prove some accepted, but often only implicitly invoked, facts: there is a uniquely determined and well-defined joint probability distribution for the outputs of all resources shared by the parties, and this joint distribution is nonsignaling. It is furthermore shown that is often sufficient to restrict consideration to only extremal nonsignaling resources when considering features and properties of such networks. Finally, the framework illustrates how the physical theory of nonsignaling boxes and local wirings is causal, supporting the applicability of the inflation technique to constrain such models. For an application, we probe the example of (3,2,2) inequalities that witness genuine three-party nonlocality according to the local-operations-shared-randomness definition, and show how all other examples can be derived from that of Mao et al. [Phys. Rev. Lett. 129:150401 (2022)]
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# TS-Align:大規模言語モデルのスケーラブル反復微調整のための教師学習協調フレームワーク

TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models ( http://arxiv.org/abs/2405.20215v2 )

ライセンス: Link先を確認
Chen Zhang, Chengguang Tang, Dading Chong, Ke Shi, Guohua Tang, Feng Jiang, Haizhou Li, (参考訳) 大規模言語モデル(LLM)の整合性に対する主流のアプローチは、特に定期的な更新を必要とする場合、人間の好みデータに大きく依存する。 LLMを反復的にアライメントするための標準的なプロセスは、更新毎に新しい人間のフィードバックを集めることである。 しかし、データ収集プロセスはコストが高く、スケールが難しい。 この問題に対処するため、我々は「TS-Align」フレームワークを導入し、このフレームワークは、その出力から自動的に抽出されたペアワイズフィードバックデータを用いてポリシーモデルを微調整する。 この自動マイニングは,大規模教師モデルと小規模学生モデルとの協調によって効率的に行われる。 政策微調整プロセスは、提案した教師と学生の協調的な枠組みの中で、政治上の世代を用いて反復的に繰り返すことができる。 広範な実験を通じて、我々の最終整合ポリシーは、7つの会話または指示追従データセットで平均69.7%の勝利率で基本方針モデルを上回っていることを実証した。 さらに,教師のランク付け能力は,我々のパイプラインを通じて学生に効果的に蒸留され,政策モデルアライメントのための小規模かつ効果的な報酬モデルがもたらされることを示す。

Mainstream approaches to aligning large language models (LLMs) heavily rely on human preference data, particularly when models require periodic updates. The standard process for iterative alignment of LLMs involves collecting new human feedback for each update. However, the data collection process is costly and challenging to scale. To address this issue, we introduce the "TS-Align" framework, which fine-tunes a policy model using pairwise feedback data automatically mined from its outputs. This automatic mining process is efficiently accomplished through the collaboration between a large-scale teacher model and a small-scale student model. The policy fine-tuning process can be iteratively repeated using on-policy generations within our proposed teacher-student collaborative framework. Through extensive experiments, we demonstrate that our final aligned policy outperforms the base policy model with an average win rate of 69.7% across seven conversational or instruction-following datasets. Furthermore, we show that the ranking capability of the teacher is effectively distilled into the student through our pipeline, resulting in a small-scale yet effective reward model for policy model alignment.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# 量子ランダムアクセスメモリのための新しいオラクル構造

Novel oracle constructions for quantum random access memory ( http://arxiv.org/abs/2405.20225v2 )

ライセンス: Link先を確認
Ákos Nagy, Cindy Zhang, (参考訳) 量子ランダムアクセスメモリのための新しい設計を提案する。 より正確には、各函数に対して、$f : \mathbb{F}_2^n \rightarrow \mathbb{F}_2^d$ は、oracles, $\mathcal{O}_f$ を、プロパティ \begin{equation} \mathcal{O}_f \left| x \right\rangle_n \left| 0 \right\rangle_d = \left| x \right\rangle_n \left| f(x) \right\rangle_d で構成する。 end{equation} 我々のメソッドは、整数値関数と見なされる$f$のWalsh-Hadamard変換に基づいている。 一般に、我々の手法の複雑さはウォルシュ・アダマール変換のスパーシリティとともにスケールし、$f$のスパーシリティではなく、二進最適化問題やウォルシュ・アダマール変換の低次関数のような場合により有利な構成をもたらす。 さらに、私たちのデザインには、サイズに応じて深さを交換できる調整可能な量のアンシラが付属しています。 アンシラのない設計では、これらのオラクルは$\epsilon$-approximatedなので、Clifford + $T$ depthは$O \left( \left( n + \log_2 \left( \tfrac{d}{\epsilon} \right) \right) \mathcal{W}_f \right)$である。 最も浅いバージョンの深さは$O \left(n + \log_2 \left( \tfrac{d}{\epsilon} \right)$、$n + d \mathcal{W}_f$ qubitである。 これらの回路の接続性も$\mathcal{W}_f$で対数的である。 応用として、近似度が低いブール関数に対して、対応するQRAMオーラクレスの複素数は2.75widetilde{O} \left( \sqrt{n} \log_2 \left(n \right) \right)}$としてしかスケールしないことを示す。

We present new designs for quantum random access memory. More precisely, for each function, $f : \mathbb{F}_2^n \rightarrow \mathbb{F}_2^d$, we construct oracles, $\mathcal{O}_f$, with the property \begin{equation} \mathcal{O}_f \left| x \right\rangle_n \left| 0 \right\rangle_d = \left| x \right\rangle_n \left| f(x) \right\rangle_d. \end{equation} Our methods are based on the Walsh-Hadamard Transform of $f$, viewed as an integer valued function. In general, the complexity of our method scales with the sparsity of the Walsh-Hadamard Transform and not the sparsity of $f$, yielding more favorable constructions in cases such as binary optimization problems and function with low-degree Walsh-Hadamard Transforms. Furthermore, our design comes with a tuneable amount of ancillas that can trade depth for size. In the ancilla-free design, these oracles can be $\epsilon$-approximated so that the Clifford + $T$ depth is $O \left( \left( n + \log_2 \left( \tfrac{d}{\epsilon} \right) \right) \mathcal{W}_f \right)$, where $\mathcal{W}_f$ is the number of nonzero components in the Walsh-Hadamard Transform. The depth of the shallowest version is $O \left( n + \log_2 \left( \tfrac{d}{\epsilon} \right) \right)$, using $n + d \mathcal{W}_f$ qubit. The connectivity of these circuits is also only logarithmic in $\mathcal{W}_f$. As an application, we show that for boolean functions with low approximate degrees (as in the case of read-once formulas) the complexities of the corresponding QRAM oracles scale only as $2^{\widetilde{O} \left( \sqrt{n} \log_2 \left( n \right) \right)}$.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# Unique3D:単一画像からの高品質で効率的な3Dメッシュ生成

Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image ( http://arxiv.org/abs/2405.20343v2 )

ライセンス: Link先を確認
Kailu Wu, Fangfu Liu, Zhihan Cai, Runjie Yan, Hanyang Wang, Yating Hu, Yueqi Duan, Kaisheng Ma, (参考訳) 本研究では,一視点画像から高品質な3Dメッシュを効率よく生成する新しい画像対3DフレームワークUnique3Dについて紹介する。 SDS(Score Distillation Sampling)に基づく従来の手法では、大きな2次元拡散モデルから3次元の知識を蒸留することで、多種多様な3次元結果が得られるが、それらは通常、一貫性のない問題を伴うケースごとの最適化時間に悩まされる。 近年の研究では、多視点拡散モデルの微調整や高速フィードフォワードモデルの訓練により、この問題に対処し、より良い3D結果を生成する。 しかし、不整合と限られた解像度のため、複雑なテクスチャや複雑なジオメトリーがまだ欠けている。 単一画像から3Dへの高忠実度, 一貫性, 効率を実現するために, 対応する正規拡散モデルを持つ多視点拡散モデルを含む新しいフレームワークUnique3D, 生成した直交多重ビューの解像度を段階的に改善する多段階アップスケールプロセス, ISOMERと呼ばれる即時かつ一貫したメッシュ再構成アルゴリズムを提案する。 大規模な実験により、我々のUnique3Dは幾何学的およびテクスチャ的詳細の観点から、他の画像から3Dへのベースラインを著しく上回っていることが示された。

In this work, we introduce Unique3D, a novel image-to-3D framework for efficiently generating high-quality 3D meshes from single-view images, featuring state-of-the-art generation fidelity and strong generalizability. Previous methods based on Score Distillation Sampling (SDS) can produce diversified 3D results by distilling 3D knowledge from large 2D diffusion models, but they usually suffer from long per-case optimization time with inconsistent issues. Recent works address the problem and generate better 3D results either by finetuning a multi-view diffusion model or training a fast feed-forward model. However, they still lack intricate textures and complex geometries due to inconsistency and limited generated resolution. To simultaneously achieve high fidelity, consistency, and efficiency in single image-to-3D, we propose a novel framework Unique3D that includes a multi-view diffusion model with a corresponding normal diffusion model to generate multi-view images with their normal maps, a multi-level upscale process to progressively improve the resolution of generated orthographic multi-views, as well as an instant and consistent mesh reconstruction algorithm called ISOMER, which fully integrates the color and geometric priors into mesh results. Extensive experiments demonstrate that our Unique3D significantly outperforms other image-to-3D baselines in terms of geometric and textural details.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# PTA:パイプライン予測と翻訳に基づくアライメントによるマルチモーダル感性分析の強化

PTA: Enhancing Multimodal Sentiment Analysis through Pipelined Prediction and Translation-based Alignment ( http://arxiv.org/abs/2406.00017v2 )

ライセンス: Link先を確認
Shezheng Song, Shasha Li, Shan Zhao, Chengyu Wang, Xiaopeng Li, Jie Yu, Qian Wan, Jun Ma, Tianwei Yan, Wentao Ma, Xiaoguang Mao, (参考訳) マルチモーダル・アスペクトベース感情分析(MABSA)は,人間とコンピュータの相互作用や他の分野の理解を促進することを目的としている。 伝統的に、MABSA法は側面と感情を同時に識別するために共同予測手法を用いている。 しかし、関節モデルは必ずしも優れているとは限らない。 分析の結果,結合モデルは関連テキストトークンと画像パッチの整合に苦慮し,不整合や画像利用の非効率化につながることがわかった。 対照的に、パイプラインフレームワークはまずMATE(Multimodal Aspect Term extract)を通してアスペクトを特定し、そのアスペクトを感情分類のためのイメージパッチ(MASC: Multimodal Aspect-Oriented Sentiment Classification)と整合させる。 この方法は、効果的な画像利用が不可欠であるマルチモーダルシナリオに適している。 3つの重要な観察結果が提示される。 (a)MATEとMASCは異なる機能要件を持ち、MATEはトークンレベルの機能にフォーカスし、MASCはシーケンスレベルの機能にフォーカスする。 b)MATEで識別される側面は、画像の有効利用に不可欠である。 (c) 画像は, 従来のMABSA法ではノイズが大きいため, 簡単な役割を担っている。 これらの観測に基づいて、まずその側面を予測し、次に翻訳に基づくアライメント(TBA)を用いて、画像利用を改善するためのマルチモーダルなセマンティック一貫性を向上させるパイプラインフレームワークを提案する。 提案手法は,広く使用されているTwitter-15とTwitter-17のMABSAデータセット上でのSOTA(State-of-the-art)性能を実現する。 これはパイプラインアプローチの有効性と、将来のMABSA研究に価値ある洞察を提供する可能性を示している。 再現性のために、コードとチェックポイントがリリースされる。

Multimodal aspect-based sentiment analysis (MABSA) aims to understand opinions in a granular manner, advancing human-computer interaction and other fields. Traditionally, MABSA methods use a joint prediction approach to identify aspects and sentiments simultaneously. However, we argue that joint models are not always superior. Our analysis shows that joint models struggle to align relevant text tokens with image patches, leading to misalignment and ineffective image utilization. In contrast, a pipeline framework first identifies aspects through MATE (Multimodal Aspect Term Extraction) and then aligns these aspects with image patches for sentiment classification (MASC: Multimodal Aspect-Oriented Sentiment Classification). This method is better suited for multimodal scenarios where effective image use is crucial. We present three key observations: (a) MATE and MASC have different feature requirements, with MATE focusing on token-level features and MASC on sequence-level features; (b) the aspect identified by MATE is crucial for effective image utilization; and (c) images play a trivial role in previous MABSA methods due to high noise. Based on these observations, we propose a pipeline framework that first predicts the aspect and then uses translation-based alignment (TBA) to enhance multimodal semantic consistency for better image utilization. Our method achieves state-of-the-art (SOTA) performance on widely used MABSA datasets Twitter-15 and Twitter-17. This demonstrates the effectiveness of the pipeline approach and its potential to provide valuable insights for future MABSA research. For reproducibility, the code and checkpoint will be released.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# メトリクスを超えて - 文化に根ざした低リソースな実世界のシナリオにおけるLLMの有効性を評価する

Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios ( http://arxiv.org/abs/2406.00343v2 )

ライセンス: Link先を確認
Millicent Ochieng, Varun Gumma, Sunayana Sitaram, Jindong Wang, Vishrav Chaudhary, Keshet Ronen, Kalika Bali, Jacki O'Neill, (参考訳) LLM(Large Language Models)の現実世界アプリケーションへの展開は、特にマルチリンガルおよびコード混在の通信設定において、機会と課題の両方を示します。 本研究は,スワヒリ,イングリッシュ,シェンなど,多言語およびコード混在のWhatsAppチャットから抽出したデータセットの感情分析における7つのLLMの性能を評価する。 評価には、F1スコアなどの指標を用いた定量的分析と、予測のためのLCMの説明の質的評価の両方が含まれる。 その結果,Mistral-7bとMixtral-8x7bは高いF1スコアを達成できたが,GPT-3.5-Turbo,Llama-2-70b,Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦慮し,意思決定プロセスにおける透明性の欠如が説明から明らかになった。 対照的に、GPT-4とGPT-4-Turboは、多様な言語入力を把握し、様々な文脈情報を管理し、意思決定プロセスにおける人間のアライメントと透明性を高い一貫性で示すのに優れていた。 しかし、LPMは、特にGPT-4の非英語設定において、文化的ニュアンスを取り入れることの難しさに遭遇した。 この知見は、文化的に曖昧で低リソースな現実世界設定の課題に効果的に取り組むためのLCMの継続的な改善の必要性と、これらの課題を捉えるための評価ベンチマークの開発の必要性を強調した。

The deployment of Large Language Models (LLMs) in real-world applications presents both opportunities and challenges, particularly in multilingual and code-mixed communication settings. This research evaluates the performance of seven leading LLMs in sentiment analysis on a dataset derived from multilingual and code-mixed WhatsApp chats, including Swahili, English and Sheng. Our evaluation includes both quantitative analysis using metrics like F1 score and qualitative assessment of LLMs' explanations for their predictions. We find that, while Mistral-7b and Mixtral-8x7b achieved high F1 scores, they and other LLMs such as GPT-3.5-Turbo, Llama-2-70b, and Gemma-7b struggled with understanding linguistic and contextual nuances, as well as lack of transparency in their decision-making process as observed from their explanations. In contrast, GPT-4 and GPT-4-Turbo excelled in grasping diverse linguistic inputs and managing various contextual information, demonstrating high consistency with human alignment and transparency in their decision-making process. The LLMs however, encountered difficulties in incorporating cultural nuance especially in non-English settings with GPT-4s doing so inconsistently. The findings emphasize the necessity of continuous improvement of LLMs to effectively tackle the challenges of culturally nuanced, low-resource real-world settings and the need for developing evaluation benchmarks for capturing these issues.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-13
# TimeCMA: クロスモーダルアライメントによるLCMを利用した時系列予測を目指して

TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment ( http://arxiv.org/abs/2406.01638v2 )

ライセンス: Link先を確認
Chenxi Liu, Qianxiong Xu, Hao Miao, Sun Yang, Lingzheng Zhang, Cheng Long, Ziyue Li, Rui Zhao, (参考訳) スケーラブルなモバイルセンシングの普及は、現実世界のアプリケーションに大量の時系列データをもたらした。 多変量時系列予測 (MTSF) は, 過去の観測結果に基づいて, 将来の時系列値を予測することを目的としている。 既存のMTSF法は、パラメータ化の制限と小規模な訓練データに悩まされている。 近年,予測性能が期待できるが計算コストが重い大規模言語モデル (LLM) が時系列で導入されている。 これらの課題を解決するために,LLMを利用した時系列予測フレームワークであるTimeCMAを提案する。 2つの分岐を持つ双対モダリティ符号化モジュールを設計し、逆変換器を用いて時系列の比較的低品質で純粋な埋め込みを抽出する。 さらに、LLMを利用したエンコード分岐は、プレトレーニングLDMを介して高品質だが絡み合ったプロンプト埋め込みを得るよう促すのと同じ時系列をラップする。 そこで我々は,高速な埋め込みから高品質で純粋な時系列埋め込みを検索するためのモジュールを設計する。 さらに,複数の変数間の依存関係を抽出し,複数の変数間の関係を予測し,関係する埋め込みをデコードする時系列予測モジュールを開発した。 特に、時間情報を最後のトークンにエンコードするプロンプトを調整し、計算コストを削減するために最後のトークン埋め込みストレージを設計する。 実データに関する大規模な実験は、提案したフレームワークの精度と効率に関する洞察を提供する。

The widespread adoption of scalable mobile sensing has led to large amounts of time series data for real-world applications. A fundamental application is multivariate time series forecasting (MTSF), which aims to predict future time series values based on historical observations. Existing MTSF methods suffer from limited parameterization and small-scale training data. Recently, Large language models (LLMs) have been introduced in time series, which achieve promising forecasting performance but incur heavy computational costs. To solve these challenges, we propose TimeCMA, an LLM-empowered framework for time series forecasting with cross-modality alignment. We design a dual-modality encoding module with two branches, where the time series encoding branch extracts relatively low-quality yet pure embeddings of time series through an inverted Transformer. In addition, the LLM-empowered encoding branch wraps the same time series as prompts to obtain high-quality yet entangled prompt embeddings via a Pre-trained LLM. Then, we design a cross-modality alignment module to retrieve high-quality and pure time series embeddings from the prompt embeddings. Moreover, we develop a time series forecasting module to decode the aligned embeddings while capturing dependencies among multiple variables for forecasting. Notably, we tailor the prompt to encode sufficient temporal information into a last token and design the last token embedding storage to reduce computational costs. Extensive experiments on real data offer insight into the accuracy and efficiency of the proposed framework.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 時間的インプットによるソースフリー時間領域適応の正当性

Evidentially Calibrated Source-Free Time-Series Domain Adaptation with Temporal Imputation ( http://arxiv.org/abs/2406.02635v2 )

ライセンス: Link先を確認
Mohamed Ragab, Peiliang Gong, Emadeldeen Eldele, Wenyu Zhang, Min Wu, Chuan-Sheng Foo, Daoqiang Zhang, Xiaoli Li, Zhenghua Chen, (参考訳) ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインで事前トレーニングされたモデルを、ソースデータにアクセスせずにラベル付きターゲットドメインに適応し、ソースドメインのプライバシを保存することを目的としている。 SFDAはコンピュータビジョンで広く使われているが、時系列分析では探索されていない。 既存のSFDA法は、視覚データのために設計されており、時系列の時間的ダイナミクスを捉えるのに苦労し、適応性能を妨げている。 本稿では, 時系列SFDAの新規かつ効果的なアプローチであるMAsk And imPUte(MAPU)を提案する。 MAPUは、新しい時間的計算タスクを導入することで、時間的一貫性の重要な課題に対処する。 このタスクは、時系列信号をランダムにマスキングし、専用の時間インプタを利用して学習された埋め込み空間内の元の信号を復元し、ノイズの多い生データの複雑さを回避します。 特に、MAPUは時系列SFDAの文脈で時間的一貫性を明示的に扱う最初の方法である。 さらに、既存のSFDAメソッドとシームレスに統合され、柔軟性が向上する。 さらにE-MAPUを導入し,不確実性推定を取り入れ,ソフトマックス予測に固有の過信問題に対処する。 そこで我々は、前向きな深層学習を活用して、より良い校正された事前学習モデルを取得し、目標エンコーダを適用して、サポート外ターゲットサンプルを、ソースドメインのサポートに近い新しい特徴表現にマッピングする。 これによりアライメントが向上し、最終的に適応性能が向上する。 5つの実世界の時系列データセットに対する大規模な実験により、MAPUとE-MAPUの両方が既存の手法と比較して大きな性能向上を達成した。 これらの結果は,様々な時系列領域適応問題に対処するための提案手法の有効性を浮き彫りにした。

Source-free domain adaptation (SFDA) aims to adapt a model pre-trained on a labeled source domain to an unlabeled target domain without access to source data, preserving the source domain's privacy. While SFDA is prevalent in computer vision, it remains largely unexplored in time series analysis. Existing SFDA methods, designed for visual data, struggle to capture the inherent temporal dynamics of time series, hindering adaptation performance. This paper proposes MAsk And imPUte (MAPU), a novel and effective approach for time series SFDA. MAPU addresses the critical challenge of temporal consistency by introducing a novel temporal imputation task. This task involves randomly masking time series signals and leveraging a dedicated temporal imputer to recover the original signal within the learned embedding space, bypassing the complexities of noisy raw data. Notably, MAPU is the first method to explicitly address temporal consistency in the context of time series SFDA. Additionally, it offers seamless integration with existing SFDA methods, providing greater flexibility. We further introduce E-MAPU, which incorporates evidential uncertainty estimation to address the overconfidence issue inherent in softmax predictions. To achieve that, we leverage evidential deep learning to obtain a better-calibrated pre-trained model and adapt the target encoder to map out-of-support target samples to a new feature representation closer to the source domain's support. This fosters better alignment, ultimately enhancing adaptation performance. Extensive experiments on five real-world time series datasets demonstrate that both MAPU and E-MAPU achieve significant performance gains compared to existing methods. These results highlight the effectiveness of our proposed approaches for tackling various time series domain adaptation problems.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# ArguMentor: カウンターパースペクティブによるユーザエクスペリエンスの拡大

ArguMentor: Augmenting User Experiences with Counter-Perspectives ( http://arxiv.org/abs/2406.02795v2 )

ライセンス: Link先を確認
Priya Pitre, Kurt Luther, (参考訳) オピニオンピース(またはオピニオンエッセイ)は貴重な視点を提供することができるが、物語の片面だけを表現し、読者がバイアスやエコーチャンバーの確認に敏感になることがある。 異なる視点への露出は、読者がこれらの障害を克服し、重要な社会的問題に対するより堅牢でニュアンスな見解を形成するのに役立つ。 我々は,人間とAIのコラボレーションシステムであるArguMentorを設計し,意見項目のクレームを強調表示し,LLMを用いてそれらに対する反論を識別し,現在の出来事に基づいたコンテキストベースの要約を生成する。 さらに、Q&Aボット(テキストに関連するユーザーの質問に答える)、DebateMe(ユーザーが記事の任意の側面を議論できるエージェント)、ハイライト(ユーザーが定義やコンテキストを取得するために単語や通路をハイライトできる)などの追加機能によって、ユーザ理解をさらに強化する。 評価の結果、参加者はより多くの議論や反論を生成でき、システムに関わった後、平均すると、より穏健な視点を持てることが明らかとなった。

Opinion pieces (or op-eds) can provide valuable perspectives, but they often represent only one side of a story, which can make readers susceptible to confirmation bias and echo chambers. Exposure to different perspectives can help readers overcome these obstacles and form more robust, nuanced views on important societal issues. We designed ArguMentor, a human-AI collaboration system that highlights claims in opinion pieces, identifies counter-arguments for them using a LLM, and generates a context-based summary of based on current events. It further enhances user understanding through additional features like a Q&A bot (that answers user questions pertaining to the text), DebateMe (an agent that users can argue any side of the piece with) and highlighting (where users can highlight a word or passage to get its definition or context). Our evaluation shows that participants can generate more arguments and counter-arguments and have, on average, have more moderate views after engaging with the system.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# LLMアプリケーション評価の課題:自動化,人間,LLMに基づくアプローチの分析

The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches ( http://arxiv.org/abs/2406.03339v2 )

ライセンス: Link先を確認
Bhashithe Abeysinghe, Ruhan Circi, (参考訳) チャットボットは、その誕生以来、自然言語生成の興味深い応用である。 トランスフォーマーベースのジェネレーティブAIメソッドによって、チャットボットの構築は簡単になった。 特定の分野、例えば医学や心理学を対象とするチャットボットは、迅速に実装される。 しかし、これはチャットボットの応答を評価する必要性に注意をそらすべきではない。 特に、自然言語生成コミュニティは、そのようなアプリケーションを効果的に評価する方法に完全に合意していない。 本研究では,LLMに基づく評価がますます普及し,人間による評価とどのように相関するかを論じる。 さらに,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を導入する。 本稿では,教育報告を消費するチャットボット実装の1つにおいて,この方式を用いて実施した実験結果について,自動化された従来の人的評価,要因付き人的評価,因子付きLDM評価を比較した。 その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるのかをよりよく把握し, さらに, 主要な機能が直接検索されない重要な領域において, 人的評価を利用するための議論を強化することが示唆された。

Chatbots have been an interesting application of natural language generation since its inception. With novel transformer based Generative AI methods, building chatbots have become trivial. Chatbots which are targeted at specific domains for example medicine and psychology are implemented rapidly. This however, should not distract from the need to evaluate the chatbot responses. Especially because the natural language generation community does not entirely agree upon how to effectively evaluate such applications. With this work we discuss the issue further with the increasingly popular LLM based evaluations and how they correlate with human evaluations. Additionally, we introduce a comprehensive factored evaluation mechanism that can be utilized in conjunction with both human and LLM-based evaluations. We present the results of an experimental evaluation conducted using this scheme in one of our chatbot implementations which consumed educational reports, and subsequently compare automated, traditional human evaluation, factored human evaluation, and factored LLM evaluation. Results show that factor based evaluation produces better insights on which aspects need to be improved in LLM applications and further strengthens the argument to use human evaluation in critical spaces where main functionality is not direct retrieval.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 対話型検索エンジンにおけるランキング操作

Ranking Manipulation for Conversational Search Engines ( http://arxiv.org/abs/2406.03589v2 )

ライセンス: Link先を確認
Samuel Pfrommer, Yatong Bai, Tanmay Gautam, Somayeh Sojoudi, (参考訳) 主要な検索エンジンプロバイダは、ユーザクエリに応答して、Large Language Model (LLM)生成コンテンツを急速に取り入れている。 これらの対話型検索エンジンは、検索したWebサイトテキストをLLMコンテキストにロードして、要約と解釈を行う。 近年の研究では、LLMはジェイルブレイクやインジェクション攻撃に対して非常に脆弱であることが示されており、敵弦を用いたLLMの安全性と品質の目標を阻害している。 本研究では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。 そこで本研究では,現実の消費者製品Webサイトの集中データセットを導入し,対話型検索ランキングを敵問題として定式化する。 実験により, 対向注入のない会話型検索ランキングを解析し, 製品名, 文書内容, コンテキスト位置の優先順位付けにおいて, 異なるLLMが著しく異なることを示す。 次に、低ランク製品を確実に促進する攻撃木ベースのジェイルブレイク手法を提案する。 重要なことに、これらの攻撃はPerplexity.aiのような最先端の会話検索エンジンに効果的に転送される。 ウェブサイト所有者が検索ランクを上げるための強力な金銭的インセンティブを考えると、我々の問題定式化は将来の堅牢性作業にとって重要であると論じる。

Major search engine providers are rapidly incorporating Large Language Model (LLM)-generated content in response to user queries. These conversational search engines operate by loading retrieved website text into the LLM context for summarization and interpretation. Recent research demonstrates that LLMs are highly vulnerable to jailbreaking and prompt injection attacks, which disrupt the safety and quality goals of LLMs using adversarial strings. This work investigates the impact of prompt injections on the ranking order of sources referenced by conversational search engines. To this end, we introduce a focused dataset of real-world consumer product websites and formalize conversational search ranking as an adversarial problem. Experimentally, we analyze conversational search rankings in the absence of adversarial injections and show that different LLMs vary significantly in prioritizing product name, document content, and context position. We then present a tree-of-attacks-based jailbreaking technique which reliably promotes low-ranked products. Importantly, these attacks transfer effectively to state-of-the-art conversational search engines such as perplexity.ai. Given the strong financial incentive for website owners to boost their search ranking, we argue that our problem formulation is of critical importance for future robustness work.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 実活動における課題と行動計画

Task and Motion Planning for Execution in the Real ( http://arxiv.org/abs/2406.03641v2 )

ライセンス: Link先を確認
Tianyang Pan, Rahul Shome, Lydia E. Kavraki, (参考訳) タスク・アンド・モーション・プランニングは、個別のタスク・ドメインに対する推論と連続的なモーション・ジェネレーションを組み合わせた強力なハイブリッド・プランニング手法である。 従来の推論では、タスクドメインモデルと十分な情報が必要で、アクションを基盤にして、計画クエリを動作させる。 この知識のギャップは、隠蔽や不正確なモデリングのような情報源から生じることが多い。 この作業は、作業を含むタスクと動作の計画を生成するが、計画時には完全には理解できない。 実行中、そのようなアクションは、提供された人間設計または学習されたクローズドループの振る舞いによって処理される。 実行は、タスク目標に到達するまでオフラインで計画された動きとオンライン行動を組み合わせる。 行動の失敗は、新しい計画を見つけるための制約として返される。 提案したフレームワークを評価し,最先端技術と比較するために,40の実ロボット試験とモチベーション実証を実施した。 その結果、実行時間が短縮され、アクションの数が少なくなり、さまざまなギャップが生じる問題の成功率が向上した。 実験データは、研究者がこれらの設定をシミュレートするために共有される。 この研究は、ロボットが対処できる現実的な部分的な問題に、適用可能なクラスを拡大する、という約束を示している。

Task and motion planning represents a powerful set of hybrid planning methods that combine reasoning over discrete task domains and continuous motion generation. Traditional reasoning necessitates task domain models and enough information to ground actions to motion planning queries. Gaps in this knowledge often arise from sources like occlusion or imprecise modeling. This work generates task and motion plans that include actions cannot be fully grounded at planning time. During execution, such an action is handled by a provided human-designed or learned closed-loop behavior. Execution combines offline planned motions and online behaviors till reaching the task goal. Failures of behaviors are fed back as constraints to find new plans. Forty real-robot trials and motivating demonstrations are performed to evaluate the proposed framework and compare against state-of-the-art. Results show faster execution time, less number of actions, and more success in problems where diverse gaps arise. The experiment data is shared for researchers to simulate these settings. The work shows promise in expanding the applicable class of realistic partially grounded problems that robots can address.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# データスケールがコンピュータ制御エージェントに及ぼす影響について

On the Effects of Data Scale on Computer Control Agents ( http://arxiv.org/abs/2406.03679v3 )

ライセンス: Link先を確認
Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala, Divya Tyamagundlu, Oriana Riva, (参考訳) 人間のタスクを達成するためにコンピュータインターフェースを制御する自律エージェントが登場している。 LLMをこのようなエージェントに利用することは特に興味深いが、人間によるタスクのデモを微調整しない限り、性能は比較的低い。 本研究では,ファインチューニング単独が現実のコンピュータ制御エージェント構築に有効なアプローチであるかどうかを考察する。 特に、ドメイン内のハイレベルタスクとローレベルタスクの両方で測定されたパフォーマンスが、より多くのトレーニングデータが収集されるにつれて、ドメインスケール外に与える影響について検討する。 この目的のために、Androidアプリで毎日のタスクを15,283回デモする新しいデータセット、AndroidControlを収集、リリースしました。 既存のデータセットと比較して、各AndroidControlタスクインスタンスには、ハイレベルとローレベルの両方のヒューマン生成命令が含まれています。 さらに、AndroidControlは833のAndroidアプリに対して15,283のユニークなタスクを含む、これまでで最も多様なコンピュータ制御データセットです。 データセットを用いて、ドメインを微調整したモデルでテストすると、ゼロと数ショットのベースラインを上回り、ロバストなパフォーマンスを単純により多くのデータを収集して得られるようにスケールする。 ドメイン外では、パフォーマンスは大幅に遅くなり、特にハイレベルなタスクでは、より多くのデータのみを微調整することは、ドメイン外での堅牢なパフォーマンスを達成するには不十分である、と示唆する。

Autonomous agents that control computer interfaces to accomplish human tasks are emerging. Leveraging LLMs to power such agents has been of special interest, but unless fine-tuned on human-collected task demonstrations, performance is still relatively low. In this work we study whether fine-tuning alone is a viable approach for building real-world computer control agents. In particularly, we investigate how performance measured on both high and low-level tasks in domain and out of domain scales as more training data is collected. To this end we collect and release a new dataset, AndroidControl, consisting of 15,283 demonstrations of everyday tasks with Android apps. Compared to existing datasets, each AndroidControl task instance includes both high and low-level human-generated instructions, allowing us to explore the level of task complexity an agent can handle. Moreover, AndroidControl is the most diverse computer control dataset to date, including 15,283 unique tasks over 833 Android apps, thus allowing us to conduct in-depth analysis of the model performance in and out of the domain of the training data. Using the dataset, we find that when tested in domain fine-tuned models outperform zero and few-shot baselines and scale in such a way that robust performance might feasibly be obtained simply by collecting more data. Out of domain, performance scales significantly more slowly and suggests that in particular for high-level tasks, fine-tuning on more data alone may be insufficient for achieving robust out-of-domain performance.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 局所的点管理によるガウススプラッティング

Gaussian Splatting with Localized Points Management ( http://arxiv.org/abs/2406.04251v2 )

ライセンス: Link先を確認
Haosen Yang, Chenhao Zhang, Wenqing Wang, Marco Volino, Adrian Hilton, Li Zhang, Xiatian Zhu, (参考訳) 点管理は3Dガウススプラッティング(3DGS)モデルを最適化する上で重要な要素であり、点開始(例えば、動きからの構造を通して)は分布的に不適切である。 通常、アダプティブ・デシデント・コントロール (ADC) アルゴリズムが適用され、点密度化、プルーニングのための不透明度閾値設定、および通常の全点不透明度リセットに平均勾配度しきい値を用いた。 しかし、この戦略は、点密度を必要とする全ての3次元領域を識別できないため、複雑な画像領域(例えば、透明な画像領域)への対処に限られており、悪条件の点を負の影響(偽高不透明性による排除)で扱うための適切なメカニズムが欠如していることが判明した。 これらの制約に対処するため,我々は,点加算と幾何校正の双方において,これらの誤り貢献ゾーンを最も高い需要で特定できる局所的点管理(LPM)戦略を提案する。 ゾーン識別は、画像レンダリングエラーのガイダンスを用いて、基礎となるマルチビュー幾何学的制約を活用することで達成される。 特定された領域に点密度を適用し、これらの領域の前に位置する点の不透明度をリセットし、不条件点を補正する新たな機会を創出する。 汎用的なプラグインとして機能するLPMは、既存の3Dガウススプラッティングモデルにシームレスに統合することができる。 静的3Dシーンと動的4Dシーンの両方で実験的に評価し,LPM戦略の有効性を定量的および定性的に評価した。 特に、LPMはバニラ3DGSとSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現し、Thants & TemplesやNeural 3D Video Datasetといった挑戦的なデータセットよりも優れたパフォーマンスを実現している。

Point management is a critical component in optimizing 3D Gaussian Splatting (3DGS) models, as the point initiation (e.g., via structure from motion) is distributionally inappropriate. Typically, the Adaptive Density Control (ADC) algorithm is applied, leveraging view-averaged gradient magnitude thresholding for point densification, opacity thresholding for pruning, and regular all-points opacity reset. However, we reveal that this strategy is limited in tackling intricate/special image regions (e.g., transparent) as it is unable to identify all the 3D zones that require point densification, and lacking an appropriate mechanism to handle the ill-conditioned points with negative impacts (occlusion due to false high opacity). To address these limitations, we propose a Localized Point Management (LPM) strategy, capable of identifying those error-contributing zones in the highest demand for both point addition and geometry calibration. Zone identification is achieved by leveraging the underlying multiview geometry constraints, with the guidance of image rendering errors. We apply point densification in the identified zone, whilst resetting the opacity of those points residing in front of these regions so that a new opportunity is created to correct ill-conditioned points. Serving as a versatile plugin, LPM can be seamlessly integrated into existing 3D Gaussian Splatting models. Experimental evaluation across both static 3D and dynamic 4D scenes validate the efficacy of our LPM strategy in boosting a variety of existing 3DGS models both quantitatively and qualitatively. Notably, LPM improves both vanilla 3DGS and SpaceTimeGS to achieve state-of-the-art rendering quality while retaining real-time speeds, outperforming on challenging datasets such as Tanks & Temples and the Neural 3D Video Dataset.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 準報告型モデルによる深層学習・短期犯罪予測の公正性向上

Improving the Fairness of Deep-Learning, Short-term Crime Prediction with Under-reporting-aware Models ( http://arxiv.org/abs/2406.04382v2 )

ライセンス: Link先を確認
Jiahui Wu, Vanessa Frias-Martinez, (参考訳) ディープラーニング犯罪予測ツールは、過去の犯罪データと、将来の犯罪を予測するために追加の行動データセットを使用する。 それにもかかわらず、これらの道具は少数民族や民族の間で不公平な予測に苦しむことが示されている。 この不公平に対処するための現在のアプローチは、一般に、ドメイン知識に基づいて犯罪数に補正を適用することにより、トレーニングデータセットのバイアスを軽減する事前処理方法と、正確性と公平性の両方に最適化するために公正正則化として実装される内部処理方法のいずれかを提案する。 本稿では,これらの2つのアプローチのパワーを組み合わせて,予測公正性を高める新しいディープラーニングアーキテクチャを提案する。 提案手法は,非バイアスモデルやバイアス補正のないモデルと比較して,精度の低下を犠牲にしつつも,犯罪予測の公平性を向上することを示す。

Deep learning crime predictive tools use past crime data and additional behavioral datasets to forecast future crimes. Nevertheless, these tools have been shown to suffer from unfair predictions across minority racial and ethnic groups. Current approaches to address this unfairness generally propose either pre-processing methods that mitigate the bias in the training datasets by applying corrections to crime counts based on domain knowledge or in-processing methods that are implemented as fairness regularizers to optimize for both accuracy and fairness. In this paper, we propose a novel deep learning architecture that combines the power of these two approaches to increase prediction fairness. Our results show that the proposed model improves the fairness of crime predictions when compared to models with in-processing de-biasing approaches and with models without any type of bias correction, albeit at the cost of reducing accuracy.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# DeTra: オブジェクト検出と軌道予測のための統一モデル

DeTra: A Unified Model for Object Detection and Trajectory Forecasting ( http://arxiv.org/abs/2406.04426v2 )

ライセンス: Link先を確認
Sergio Casas, Ben Agro, Jiageng Mao, Thomas Gilles, Alexander Cui, Thomas Li, Raquel Urtasun, (参考訳) 物体検出と軌道予測のタスクは、自律運転のシーンを理解する上で重要な役割を果たす。 これらのタスクは典型的にはカスケード方式で実行され、エラーを複雑にする傾向がある。 さらに、通常は2つのタスクの間に非常に薄いインターフェースがあり、情報のボトルネックが失われます。 これらの課題に対処するため,本手法では,2つのタスクの結合を軌道修正問題として定式化し,第1のポーズが検出(現在時間)、続いて第2のポーズが複数の予測(未来時間)の経路ポイントとなる。 この統合タスクに対処するため、我々は、LiDAR点雲と高精細マップから直接オブジェクトの存在、ポーズ、マルチモーダルな将来の振る舞いを推測する精細化トランスフォーマーを設計する。 我々はこのモデルをデトラと呼び、オブジェクト検出と軌道予測を省略する。 実験では,Argoverse 2 Sensor と Waymo Open Dataset の最先端性能を,幅広い指標で比較した。 最後に、我々は、このタスクの洗練の価値、提案された全てのコンポーネントがそのパフォーマンスに肯定的な貢献をすることを示す広範囲なアブレーション研究を行い、重要な設計選択がなされた。

The tasks of object detection and trajectory forecasting play a crucial role in understanding the scene for autonomous driving. These tasks are typically executed in a cascading manner, making them prone to compounding errors. Furthermore, there is usually a very thin interface between the two tasks, creating a lossy information bottleneck. To address these challenges, our approach formulates the union of the two tasks as a trajectory refinement problem, where the first pose is the detection (current time), and the subsequent poses are the waypoints of the multiple forecasts (future time). To tackle this unified task, we design a refinement transformer that infers the presence, pose, and multi-modal future behaviors of objects directly from LiDAR point clouds and high-definition maps. We call this model DeTra, short for object Detection and Trajectory forecasting. In our experiments, we observe that \ourmodel{} outperforms the state-of-the-art on Argoverse 2 Sensor and Waymo Open Dataset by a large margin, across a broad range of metrics. Last but not least, we perform extensive ablation studies that show the value of refinement for this task, that every proposed component contributes positively to its performance, and that key design choices were made.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# DiffuSyn Bench: 拡散生成合成ベンチマークによる実世界の複雑性のビジョンランゲージモデルの評価

DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks ( http://arxiv.org/abs/2406.04470v2 )

ライセンス: Link先を確認
Haokun Zhou, Yipeng Hong, (参考訳) 本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。 この評価のための新しい自動ベンチマーク構築手法を導入する。 この実験は、AIと人間の作成した画像の混合データセットを使用して、一般的なLVLMと人間の参加者を比較した。 その結果、LVLMは画像の種類をある程度区別できるが、右向きの偏見を示し、人間に比べてかなり悪い結果が得られた。 これらの結果に基づいて,AIを用いた自動ベンチマーク構築プロセスを開発した。 このプロセスには、トピック検索、物語のスクリプト生成、エラー埋め込み、画像生成が含まれ、意図的なエラーを伴う多様なテキストイメージペアを作成する。 キャパブルベンチマークを2つ構築することで,本手法の有効性を検証した。 本研究は、実世界の理解におけるLVLMの強みと弱みを強調し、ベンチマーク構築手法を進歩させ、AIモデル評価のためのスケーラブルで自動的なアプローチを提供する。

This study assesses the ability of Large Vision-Language Models (LVLMs) to differentiate between AI-generated and human-generated images. It introduces a new automated benchmark construction method for this evaluation. The experiment compared common LVLMs with human participants using a mixed dataset of AI and human-created images. Results showed that LVLMs could distinguish between the image types to some extent but exhibited a rightward bias, and perform significantly worse compared to humans. To build on these findings, we developed an automated benchmark construction process using AI. This process involved topic retrieval, narrative script generation, error embedding, and image generation, creating a diverse set of text-image pairs with intentional errors. We validated our method through constructing two caparable benchmarks. This study highlights the strengths and weaknesses of LVLMs in real-world understanding and advances benchmark construction techniques, providing a scalable and automatic approach for AI model evaluation.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 冗長性から関連性:マルチモーダル大言語モデルにおける説明可能性の向上

From Redundancy to Relevance: Enhancing Explainability in Multimodal Large Language Models ( http://arxiv.org/abs/2406.06579v2 )

ライセンス: Link先を確認
Xiaofeng Zhang, Chen Shen, Xiaosong Yuan, Shaotian Yan, Liang Xie, Wenxiao Wang, Chaochen Gu, Hao Tang, Jieping Ye, (参考訳) 近年、マルチモーダルな大言語モデルは無限の多様性で爆発し、人気のあるLVLM(Large Vision Language Models)のほとんどは、画像が言語プロンプトとともにLLM(Large Language Model)に入力される前に数百から数千のトークンに変換されるシーケンシャルな視覚表現に依存している。 ブラックボックスの設計は、特に複雑な推論タスクに関して、視覚言語モデルの解釈可能性を妨げる。 複雑な推論タスクにおける画像とテキストの相互作用過程を探索するために,インタラクションメカニズムを可視化する情報フロー手法を提案する。 情報フローの動的流れを解析した結果,情報フローは浅い層に収束していることがわかった。 さらなる調査で、浅い層に画像トークンが冗長であることが判明した。 その結果,これらの浅い層内に画像トークンを集約するトラニケーション戦略が導入された。 このアプローチは、複数のモデルにわたる実験を通じて検証され、一貫した改善をもたらす。

Recently, multimodal large language models have exploded with an endless variety, most of the popular Large Vision Language Models (LVLMs) depend on sequential visual representation, where images are converted into hundreds or thousands of tokens before being input into the Large Language Model (LLM) along with language prompts. The black-box design hinders the interpretability of visual-language models, especially regarding more complex reasoning tasks. To explore the interaction process between image and text in complex reasoning tasks, we introduce the information flow method to visualize the interaction mechanism. By analyzing the dynamic flow of the information flow, we find that the information flow appears to converge in the shallow layer. Further investigation revealed a redundancy of the image token in the shallow layer. Consequently, a truncation strategy was introduced to aggregate image tokens within these shallow layers. This approach has been validated through experiments across multiple models, yielding consistent improvements.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# 買収後の企業内におけるインシデント対応

After the Breach: Incident Response within Enterprises ( http://arxiv.org/abs/2406.07559v2 )

ライセンス: Link先を確認
Sumanth Rao, (参考訳) 企業は常に高度な敵から攻撃を受けている。 これらの敵は、まずエンタープライズへのアクセスを取得し、その後、ネットワーク内で横方向に拡散し、永続性を確立し、最後に機密データを流出させたり、身代金のために保持したりするために、さまざまなテクニックを使用している。 歴史的に、企業はホスト、サーバー、またはネットワークデバイスを監視して脅威を検出し、報告するために異なるインシデント対応システムを使用してきたが、これらのシステムは警告に対処するために多くのアナリストを必要としている。 しかし、適切な脅威を見逃す可能性のあるリスクと相まって、膨大な量の警告が、アナリストのタスクを困難にしている。 このマニュアルと面倒な作業を簡単にするために、研究者は自動攻撃調査を行う様々なシステムを提案した。 これらのシステムはデータを収集し、因果関係のイベントを追跡し、攻撃の解釈可能な概要をアナリストに提示する。 本稿では,自動攻撃調査を行うシステムについて調査を行い,それらの設計,目標,ヒューリスティックスに基づいて比較する。 これらのシステムで直面する課題について議論し、それらの課題に対処する効果、実用性、能力について比較する。 我々は、これらのシステムの将来と、この分野におけるオープンな問題について議論することで締めくくる。

Enterprises are constantly under attack from sophisticated adversaries. These adversaries use a variety of techniques to first gain access to the enterprise, then spread laterally inside its networks, establish persistence, and finally exfiltrate sensitive data, or hold it for ransom. While historically, enterprises have used different Incident Response systems that monitor hosts, servers, or network devices to detect and report threats, these systems often need many analysts to triage and respond to alerts. However, the immense quantity of alerts to sift through, combined with the potential risk of missing a valid threat makes the task of the analyst challenging. To ease this manual and laborious process, researchers have proposed a variety of systems that perform automated attack investigations. These systems collect data, track causally related events, and present the analyst with an interpretable summary of the attack. In this paper, we present a survey of systems that perform automated attack investigation, and compare them based on their designs, goals, and heuristics. We discuss the challenges faced by these systems, and present a comparison in terms of their effectiveness, practicality, and ability to address these challenges. We conclude by discussing the future of these systems, and the open problems in this area.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-13
# VLind-Bench: 大規模視覚言語モデルにおける言語事前測定

VLind-Bench: Measuring Language Priors in Large Vision-Language Models ( http://arxiv.org/abs/2406.08702v1 )

ライセンス: Link先を確認
Kang-il Lee, Minbeom Kim, Seunghyun Yoon, Minsung Kim, Dongryeol Lee, Hyukhun Koh, Kyomin Jung, (参考訳) LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。 しかし、それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされている。 事前言語の問題に対処することは、トレーニングディストリビューション外の画像を扱う際に、望ましくない偏見や幻覚を引き起こす可能性があるため、非常に重要である。 その重要性にもかかわらず、LVLMにおける言語先行を正確に測定する現在の手法は、あまり研究されていない。 既存のベンチマークは、反ファクトやアウト・オブ・ディストリビューションのイメージに基づいており、部分的に言語先行を計測することができるが、言語先行を他の要因から切り離すことはできない。 この目的のために我々は,LVLM の言語先行,すなわち盲点を測定するために設計された最初のベンチマークである VLind-Bench という新しいベンチマークを提案する。 言語先行性を評価するために、対物画像に関するテストを含むだけでなく、コモンセンス知識、視覚知覚、コモンセンスバイアスなど、より基本的な機能を評価する一連のテストも含んでいる。 ベンチマーク中の各インスタンスについて、これらの基本テストが言語事前評価の前にパスされることを保証し、その結果、他の要素が評価に与える影響を最小限に抑える。 近年のLVLMの評価と分析により,ほぼすべてのモデルが言語先行に大きく依存していることが判明した。

Large Vision-Language Models (LVLMs) have demonstrated outstanding performance across various multimodal tasks. However, they suffer from a problem known as language prior, where responses are generated based solely on textual patterns while disregarding image information. Addressing the issue of language prior is crucial, as it can lead to undesirable biases or hallucinations when dealing with images that are out of training distribution. Despite its importance, current methods for accurately measuring language priors in LVLMs are poorly studied. Although existing benchmarks based on counterfactual or out-of-distribution images can partially be used to measure language priors, they fail to disentangle language priors from other confounding factors. To this end, we propose a new benchmark called VLind-Bench, which is the first benchmark specifically designed to measure the language priors, or blindness, of LVLMs. It not only includes tests on counterfactual images to assess language priors but also involves a series of tests to evaluate more basic capabilities such as commonsense knowledge, visual perception, and commonsense biases. For each instance in our benchmark, we ensure that all these basic tests are passed before evaluating the language priors, thereby minimizing the influence of other factors on the assessment. The evaluation and analysis of recent LVLMs in our benchmark reveal that almost all models exhibit a significant reliance on language priors, presenting a strong challenge in the field.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# LLMがDRLと出会う: DRL誘導検索による脱獄効率の向上

When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search ( http://arxiv.org/abs/2406.08705v1 )

ライセンス: Link先を確認
Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang, (参考訳) 近年の研究では、有害な質問に答えるために、'fool'のLLMにジェイルブレイクのプロンプトを組み込むジェイルブレイク攻撃が開発されている。 初期のジェイルブレイク攻撃は、モデル内部や重要な人間の努力へのアクセスを必要とする。 より高度な攻撃は、自動攻撃とブラックボックス攻撃に遺伝的アルゴリズムを利用する。 しかし、遺伝的アルゴリズムのランダムな性質はこれらの攻撃の有効性を著しく制限する。 本稿では,深層強化学習(DRL)によるブラックボックスジェイルブレイク攻撃であるRLbreakerを提案する。 我々は、ジェイルブレイクを探索問題としてモデル化し、遺伝的アルゴリズムのような確率探索よりも効率的でランダム性の低いRLエージェントを設計する。 具体的には、新しい報酬関数とPPOアルゴリズムを含む、ジェイルブレイク問題のためのカスタマイズDRLシステムを設計する。 広範な実験により、RLbreakerは6つのSOTA(State-of-the-art (SOTA) LLMに対する既存のジェイルブレーカー攻撃よりもはるかに効果的であることを示した。 また、RLbreakerは3つのSOTA防御に対して堅牢であり、その訓練されたエージェントは異なるLLM間で移動可能であることを示す。 我々はRLbreakerの重要な設計選択を包括的アブレーション研究により検証する。

Recent studies developed jailbreaking attacks, which construct jailbreaking prompts to ``fool'' LLMs into responding to harmful questions. Early-stage jailbreaking attacks require access to model internals or significant human efforts. More advanced attacks utilize genetic algorithms for automatic and black-box attacks. However, the random nature of genetic algorithms significantly limits the effectiveness of these attacks. In this paper, we propose RLbreaker, a black-box jailbreaking attack driven by deep reinforcement learning (DRL). We model jailbreaking as a search problem and design an RL agent to guide the search, which is more effective and has less randomness than stochastic search, such as genetic algorithms. Specifically, we design a customized DRL system for the jailbreaking problem, including a novel reward function and a customized proximal policy optimization (PPO) algorithm. Through extensive experiments, we demonstrate that RLbreaker is much more effective than existing jailbreaking attacks against six state-of-the-art (SOTA) LLMs. We also show that RLbreaker is robust against three SOTA defenses and its trained agents can transfer across different LLMs. We further validate the key design choices of RLbreaker via a comprehensive ablation study.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# mOSCAR: 大規模多言語およびマルチモーダル文書レベルコーパス

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus ( http://arxiv.org/abs/2406.08707v1 )

ライセンス: Link先を確認
Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot, (参考訳) マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。 ほとんどのmLLMはキャプションのようなデータのみでトレーニングされているが、Alayracら[2022]は、テキストと画像のインターリーブシーケンスでトレーニングすることで、コンテキスト内学習能力の出現につながることを示した。 しかし、彼らが使ったデータセットであるM3Wは公開されておらず、英語のみである。 結果の再現は試みられているが、リリースされたデータセットは英語のみである。 対照的に、現在のマルチランガルデータセットとマルチモーダルデータセットは、キャプションのような、または中規模または完全プライベートなデータで構成されている。 これにより、世界中で話されている7,000の他の言語に対するmLLMの研究が制限される。 そこで我々はmOSCARを導入し、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスについて考察した。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。 我々はmOSCARが十分に安全で、多様性があり、良質であることを確認するために、フィルターと評価の一連の手順を慎重に実施する。 さらに、mOSCARの利点を証明するために、2種類の多言語モデルを訓練する:(1)mOSCARのサブセットとキャプションデータに基づいて訓練されたモデル、(2)キャプションデータのみに関するモデルトレイン。 mOSCARでトレーニングされたこのモデルは、様々な多言語画像テキストタスクやベンチマークにおいて、数ショットの学習性能が大幅に向上し、英語のみのmLLMの以前の結果を確認する。

Multimodal Large Language Models (mLLMs) are trained on a large amount of text-image data. While most mLLMs are trained on caption-like data only, Alayrac et al. [2022] showed that additionally training them on interleaved sequences of text and images can lead to the emergence of in-context learning capabilities. However, the dataset they used, M3W, is not public and is only in English. There have been attempts to reproduce their results but the released datasets are English-only. In contrast, current multilingual and multimodal datasets are either composed of caption-like only or medium-scale or fully private data. This limits mLLM research for the 7,000 other languages spoken in the world. We therefore introduce mOSCAR, to the best of our knowledge the first large-scale multilingual and multimodal document corpus crawled from the web. It covers 163 languages, 315M documents, 214B tokens and 1.2B images. We carefully conduct a set of filtering and evaluation steps to make sure mOSCAR is sufficiently safe, diverse and of good quality. We additionally train two types of multilingual model to prove the benefits of mOSCAR: (1) a model trained on a subset of mOSCAR and captioning data and (2) a model train on captioning data only. The model additionally trained on mOSCAR shows a strong boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, confirming previous findings for English-only mLLMs.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# グラフ表現学習における最小因果構造の導入

Introducing Diminutive Causal Structure into Graph Representation Learning ( http://arxiv.org/abs/2406.08709v1 )

ライセンス: Link先を確認
Hang Gao, Peng Qiao, Yifan Jin, Fengge Wu, Jiangmeng Li, Changwen Zheng, (参考訳) グラフニューラルネットワーク(GNN)でエンドツーエンドのグラフ表現学習を行う場合、グラフデータに固有の複雑な因果関係とルールは、真正のデータ関係を正確に把握する上で、モデルにとって非常に難しい課題となる。 提案された緩和戦略は、モデルにグラフデータに対応するルールや関係を直接統合することを含む。 しかし、グラフ表現学習の領域において、グラフデータの本質的な複雑さは、データセット全体を管理する普遍的な規則や関係をカプセル化する包括的な因果構造の導出を妨げる。 代わりに、グラフデータの制約された部分集合内で特定の因果関係を記述した、限定的な因果構造のみが識別可能である。 経験的洞察により,GNNモデルは訓練過程において,そのような特殊な因果構造に収束する傾向を示した。 その結果、これらの特定の因果構造の導入は、GNNモデルのトレーニングに有利であると仮定する。 この提案に基づいて,GNNモデルがこれらの専門的な因果構造から洞察を得られるような新しい手法を導入し,全体的な性能を向上する。 本手法は,これらの最小限の因果構造のモデル表現から因果知識を抽出し,学習過程を最適化するために相互干渉を組み込む。 理論的解析は,提案手法の有効性を裏付けるものである。 さらに、実験的な実験は、多様なデータセット間での大幅なパフォーマンス向上を一貫して示している。

When engaging in end-to-end graph representation learning with Graph Neural Networks (GNNs), the intricate causal relationships and rules inherent in graph data pose a formidable challenge for the model in accurately capturing authentic data relationships. A proposed mitigating strategy involves the direct integration of rules or relationships corresponding to the graph data into the model. However, within the domain of graph representation learning, the inherent complexity of graph data obstructs the derivation of a comprehensive causal structure that encapsulates universal rules or relationships governing the entire dataset. Instead, only specialized diminutive causal structures, delineating specific causal relationships within constrained subsets of graph data, emerge as discernible. Motivated by empirical insights, it is observed that GNN models exhibit a tendency to converge towards such specialized causal structures during the training process. Consequently, we posit that the introduction of these specific causal structures is advantageous for the training of GNN models. Building upon this proposition, we introduce a novel method that enables GNN models to glean insights from these specialized diminutive causal structures, thereby enhancing overall performance. Our method specifically extracts causal knowledge from the model representation of these diminutive causal structures and incorporates interchange intervention to optimize the learning process. Theoretical analysis serves to corroborate the efficacy of our proposed method. Furthermore, empirical experiments consistently demonstrate significant performance improvements across diverse datasets.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# バッチ命令によるプロンプト進化のグラディエント:拡張テキスト・画像合成のための体系的プロンプト最適化

Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis ( http://arxiv.org/abs/2406.08713v1 )

ライセンス: Link先を確認
Xinrui Yang, Zhuohan Wang, Anthony Hu, (参考訳) テキスト・ツー・イメージ・モデルは、ユーザが提供するプロンプトから高品質な画像を生成する際、顕著な進歩を見せている。 それにもかかわらず、これらの画像の品質は、人間の言語ニュアンスに対するモデルの敏感さによって異なる。 大規模言語モデルの進歩により、画像生成タスクの迅速な設計を促進する新たな機会がある。 既存の研究は主に直接相互作用のプロンプトの最適化に重点を置いているが、安定拡散モデルのような中間エージェントを含むシナリオにはあまり注目されていない。 本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。 このフレームワークの中心は、動的インストラクションを使用して初期クエリを洗練し、反復的なパフォーマンスフィードバックを通じて進化するプロンプト生成メカニズムである。 高品質なプロンプトは、最先端のテキスト・ツー・イメージモデルに入力される。 プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。 スコアリングシステムは生成された画像を評価し、LCMは計算された勾配に基づいて新しい命令を生成する。 この反復処理は、上信頼境界(UCB)アルゴリズムによって管理され、Human Preference Scoreバージョン2(HPS v2)を用いて評価される。 予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。

Text-to-image models have shown remarkable progress in generating high-quality images from user-provided prompts. Despite this, the quality of these images varies due to the models' sensitivity to human language nuances. With advancements in large language models, there are new opportunities to enhance prompt design for image generation tasks. Existing research primarily focuses on optimizing prompts for direct interaction, while less attention is given to scenarios involving intermediary agents, like the Stable Diffusion model. This study proposes a Multi-Agent framework to optimize input prompts for text-to-image generation models. Central to this framework is a prompt generation mechanism that refines initial queries using dynamic instructions, which evolve through iterative performance feedback. High-quality prompts are then fed into a state-of-the-art text-to-image model. A professional prompts database serves as a benchmark to guide the instruction modifier towards generating high-caliber prompts. A scoring system evaluates the generated images, and an LLM generates new instructions based on calculated gradients. This iterative process is managed by the Upper Confidence Bound (UCB) algorithm and assessed using the Human Preference Score version 2 (HPS v2). Preliminary ablation studies highlight the effectiveness of various system components and suggest areas for future improvements.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# 心理療法のコウンセリングの強化:コーウンセリングのための大規模言語モデルを活用したデータ拡張パイプライン

Enhancing Psychotherapy Counseling: A Data Augmentation Pipeline Leveraging Large Language Models for Counseling Conversations ( http://arxiv.org/abs/2406.08718v1 )

ライセンス: Link先を確認
Jun-Woo Kim, Ji-Eun Han, Jun-Seok Koh, Hyeon-Tae Seo, Du-Seong Chang, (参考訳) 本稿では,Large Language Models (LLMs) を利用して,シングルターン精神療法のカウンセリングセッションをマルチターンインタラクションに変換するパイプラインを提案する。 AIが支援する精神障害のある個人のためのオンラインカウンセリングサービスは存在するが、多ターントレーニングデータセットの可用性が制限されているため、セラピストの専門知識を十分に活用できないことが多い。 提案するパイプラインは,これらの制限を効果的に対処する。 パイプラインには2つの主要なステップがある。 1【情報抽出】 2)マルチターンカウンセリング生成 各ステップは、利用可能なデータセットから包括的なマルチターンカウンセリング会話を抽出し、生成するように慎重に設計されている。 ゼロショット, 少数ショットの両シナリオによる実験結果から, メンタルヘルスカウンセリングの文脈において, LLMが高品質なマルチターン対話を実現する能力を大幅に向上することが示された。 パイプラインとデータセットは公開されています。https://github.com/jwkim-chat/A-Data-Augmentation-Pipeline-Leveraging-Language-Language-Models-for-C ounseling-Conversations。

We introduce a pipeline that leverages Large Language Models (LLMs) to transform single-turn psychotherapy counseling sessions into multi-turn interactions. While AI-supported online counseling services for individuals with mental disorders exist, they are often constrained by the limited availability of multi-turn training datasets and frequently fail to fully utilize therapists' expertise. Our proposed pipeline effectively addresses these limitations. The pipeline comprises two main steps: 1) Information Extraction and 2) Multi-turn Counseling Generation. Each step is meticulously designed to extract and generate comprehensive multi-turn counseling conversations from the available datasets. Experimental results from both zero-shot and few-shot generation scenarios demonstrate that our approach significantly enhances the ability of LLMs to produce higher quality multi-turn dialogues in the context of mental health counseling. Our pipeline and dataset are publicly available https://github.com/jwkim-chat/A-Data-Augmentation-Pipeline-Leveraging-Large-Language-Models-for-Coun seling-Conversations.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# TikTag: ARMのメモリタグ拡張を投機的実行で破る

TikTag: Breaking ARM's Memory Tagging Extension with Speculative Execution ( http://arxiv.org/abs/2406.08719v1 )

ライセンス: Link先を確認
Juhee Kim, Jinbum Park, Sihyeon Roh, Jaeyoung Chung, Youngjoo Lee, Taesoo Kim, Byoungyoung Lee, (参考訳) ARM Memory Tagging Extension (MTE)は、ARMv8.5-Aアーキテクチャで導入された新しいハードウェア機能で、メモリ破損の脆弱性を検出することを目的としている。 MTEのオーバーヘッドが低いため、現代のソフトウェアシステムにおけるメモリ破損攻撃を緩和する魅力的なソリューションとなり、C/C++ソフトウェアセキュリティを改善する上で最も有望な道であると考えられている。 本稿では,MTEに対する投機的実行攻撃による潜在的なセキュリティリスクについて検討する。 具体的には、投機的実行を通じて任意のメモリアドレスからMTEタグを漏洩させることができる新しいTikTagガジェットを同定する。 TikTagのガジェットでは、攻撃者はMTEの確率的防御を回避でき、攻撃の成功率は100%近く増加する。 実世界のシステム, Google Chrome と Linux カーネルにおいて,TikTag ガジェットは MTE ベースの緩和を回避できることを示す。 実験の結果,TikTagガジェットは4秒未満で95%以上の成功率でMTEタグをリークできることがわかった。 さらに,TikTagガジェットによるセキュリティリスクを軽減するための新しい防御機構を提案する。

ARM Memory Tagging Extension (MTE) is a new hardware feature introduced in ARMv8.5-A architecture, aiming to detect memory corruption vulnerabilities. The low overhead of MTE makes it an attractive solution to mitigate memory corruption attacks in modern software systems and is considered the most promising path forward for improving C/C++ software security. This paper explores the potential security risks posed by speculative execution attacks against MTE. Specifically, this paper identifies new TikTag gadgets capable of leaking the MTE tags from arbitrary memory addresses through speculative execution. With TikTag gadgets, attackers can bypass the probabilistic defense of MTE, increasing the attack success rate by close to 100%. We demonstrate that TikTag gadgets can be used to bypass MTE-based mitigations in real-world systems, Google Chrome and the Linux kernel. Experimental results show that TikTag gadgets can successfully leak an MTE tag with a success rate higher than 95% in less than 4 seconds. We further propose new defense mechanisms to mitigate the security risks posed by TikTag gadgets.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# ECBD:NLPのエビデンス中心ベンチマーク設計

ECBD: Evidence-Centered Benchmark Design for NLP ( http://arxiv.org/abs/2406.08723v1 )

ライセンス: Link先を確認
Yu Lu Liu, Su Lin Blodgett, Jackie Chi Kit Cheung, Q. Vera Liao, Alexandra Olteanu, Ziang Xiao, (参考訳) ベンチマークはNLPの進捗を評価する上で重要であると考えられている。 しかし、ベンチマークを作成するには多くの設計判断(例えば、どのデータセットを含めるべきか、どのメトリクスを使うか)が伴う。 現在、これらの決定を解析する方法や、それがベンチマークの測定値の妥当性にどのように影響するかは、原則的ではない。 このギャップに対処するために、我々は、教育評価におけるエビデンス中心の設計を描き、ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。 ECBDは、各モジュールが実践者が興味のある能力に関する証拠を収集するのを助ける役割を規定する。 具体的には、各モジュールは、ベンチマーク設計者に対して、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。 ECBDの使用を実証するために,BoolQ,SuperGLUE,HELMの3つのベンチマークを用いてケーススタディを実施している。 分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。

Benchmarking is seen as critical to assessing progress in NLP. However, creating a benchmark involves many design decisions (e.g., which datasets to include, which metrics to use) that often rely on tacit, untested assumptions about what the benchmark is intended to measure or is actually measuring. There is currently no principled way of analyzing these decisions and how they impact the validity of the benchmark's measurements. To address this gap, we draw on evidence-centered design in educational assessments and propose Evidence-Centered Benchmark Design (ECBD), a framework which formalizes the benchmark design process into five modules. ECBD specifies the role each module plays in helping practitioners collect evidence about capabilities of interest. Specifically, each module requires benchmark designers to describe, justify, and support benchmark design choices -- e.g., clearly specifying the capabilities the benchmark aims to measure or how evidence about those capabilities is collected from model responses. To demonstrate the use of ECBD, we conduct case studies with three benchmarks: BoolQ, SuperGLUE, and HELM. Our analysis reveals common trends in benchmark design and documentation that could threaten the validity of benchmarks' measurements.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# AGFA-Net:CTを用いた冠動脈解離に対する注意ガイドおよび特徴集約ネットワーク

AGFA-Net: Attention-Guided and Feature-Aggregated Network for Coronary Artery Segmentation using Computed Tomography Angiography ( http://arxiv.org/abs/2406.08724v1 )

ライセンス: Link先を確認
Xinyun Liu, Chen Zhao, (参考訳) 冠状動脈疾患(CAD)は依然として心臓血管疾患であり、世界中で深刻な健康リスクを呈している。 この病理は、冠動脈壁のプラーク蓄積が特徴で、心筋虚血や胸痛、呼吸の短さなど様々な症状を引き起こす。 冠動脈造影CT(CCTA)画像からの冠動脈の正確な分画は診断と治療計画に不可欠である。 従来のセグメンテーション手法は、低コントラスト画像や複雑な解剖学的構造を扱う際の課題に直面している。 本研究では,CCTA画像を用いた冠動脈セグメンテーションのための注意誘導型3Dディープネットワーク(AGFA-Net)を提案する。 AGFA-Netは注意機構と機能改善モジュールを活用して、有能な特徴を捉え、セグメンテーションの精度を高める。 1000個のCCTAスキャンからなるデータセットの評価はAGFA-Netの優れた性能を示し、平均Dice係数は86.74%、ハウスドルフ距離は0.23mmである。 アブレーション研究は、提案されたモジュールの有効性をさらに検証し、セグメンテーション精度の改善への貢献を強調した。 全体として、AGFA-Netは冠動脈セグメンテーションの堅牢で信頼性の高いソリューションを提供し、血管の大きさや複雑な解剖学、画像コントラストの低さによって生じる課題に対処する。

Coronary artery disease (CAD) remains a prevalent cardiovascular condition, posing significant health risks worldwide. This pathology, characterized by plaque accumulation in coronary artery walls, leads to myocardial ischemia and various symptoms, including chest pain and shortness of breath. Accurate segmentation of coronary arteries from coronary computed tomography angiography (CCTA) images is crucial for diagnosis and treatment planning. Traditional segmentation methods face challenges in handling low-contrast images and complex anatomical structures. In this study, we propose an attention-guided, feature-aggregated 3D deep network (AGFA-Net) for coronary artery segmentation using CCTA images. AGFA-Net leverages attention mechanisms and feature refinement modules to capture salient features and enhance segmentation accuracy. Evaluation on a dataset comprising 1,000 CCTA scans demonstrates AGFA-Net's superior performance, achieving an average Dice coefficient similarity of 86.74% and a Hausdorff distance of 0.23 mm during 5-fold cross-validation. Ablation studies further validate the effectiveness of the proposed modules, highlighting their contributions to improved segmentation accuracy. Overall, AGFA-Net offers a robust and reliable solution for coronary artery segmentation, addressing challenges posed by varying vessel sizes, complex anatomies, and low image contrast.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# RL-JACK:強化学習を利用したブラックボックスの脱獄攻撃

RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs ( http://arxiv.org/abs/2406.08725v1 )

ライセンス: Link先を確認
Xuan Chen, Yuzhou Nie, Lu Yan, Yunshu Mao, Wenbo Guo, Xiangyu Zhang, (参考訳) 現代の大規模言語モデル(LLM)開発者は、通常、LLMが非倫理的または有害なコンテンツを生成するのを防ぐために安全アライメントを行う。 近年の研究では、LLMの安全アライメントがジェイルブレイクのプロンプトによってバイパスされることが発見されている。 これらのプロンプトは、有害な質問を埋め込んだ特定の会話シナリオを作成するように設計されている。 そのようなプロンプトでLLMに問い合わせると、モデルが有害な質問に応答するように誤解を招く可能性がある。 既存の遺伝的手法の確率的およびランダムな性質は、最先端(SOTA)ジェイルブレイク攻撃の有効性と効率を著しく制限する。 本稿では,深層強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。 我々は、検索問題としてジェイルブレイクプロンプトの生成を定式化し、それを解決するための新しいRLアプローチを設計する。 本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。 特に,LLM対応の行動空間を考案し,全探索空間を制約しながら多様な行動変動を可能にする。 本稿では,脱獄を成功させるために,エージェントに意味のある報酬を与える新たな報酬関数を提案する。 RL-JACKは、大規模なオープンソースモデルや商用モデルを含む6つのSOTA LLMに対して、既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。 また、3つのSOTA防御に対するRL-JACKのレジリエンスと、異なるモデル間での転送可能性を示す。 最後に,鍵パラメータの変動に対するRL-JACKの不感度を検証する。

Modern large language model (LLM) developers typically conduct a safety alignment to prevent an LLM from generating unethical or harmful content. Recent studies have discovered that the safety alignment of LLMs can be bypassed by jailbreaking prompts. These prompts are designed to create specific conversation scenarios with a harmful question embedded. Querying an LLM with such prompts can mislead the model into responding to the harmful question. The stochastic and random nature of existing genetic methods largely limits the effectiveness and efficiency of state-of-the-art (SOTA) jailbreaking attacks. In this paper, we propose RL-JACK, a novel black-box jailbreaking attack powered by deep reinforcement learning (DRL). We formulate the generation of jailbreaking prompts as a search problem and design a novel RL approach to solve it. Our method includes a series of customized designs to enhance the RL agent's learning efficiency in the jailbreaking context. Notably, we devise an LLM-facilitated action space that enables diverse action variations while constraining the overall search space. We propose a novel reward function that provides meaningful dense rewards for the agent toward achieving successful jailbreaking. Through extensive evaluations, we demonstrate that RL-JACK is overall much more effective than existing jailbreaking attacks against six SOTA LLMs, including large open-source models and commercial models. We also show the RL-JACK's resiliency against three SOTA defenses and its transferability across different models. Finally, we validate the insensitivity of RL-JACK to the variations in key hyper-parameters.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# AI生成言語における標準言語イデオロギー

Standard Language Ideology in AI-Generated Language ( http://arxiv.org/abs/2406.08726v1 )

ライセンス: Link先を確認
Genevieve Smith, Eve Fleisig, Madeline Bossi, Ishita Rustagi, Xavier Yin, (参考訳) 本稿では,大規模言語モデル(LLM)が生成する言語における標準言語イデオロギーについて考察する。 まず,LLMにおける標準言語イデオロギーの反映と強化について概説する。 そこで我々は,AI生成言語における標準言語イデオロギーに関するオープンな問題を分類し,マイノライズド言語コミュニティに影響を及ぼすことを示す。 我々は、標準AI生成言語イデオロギーの概念を導入し、AI生成言語が標準アメリカ英語(SAE)を言語的デフォルトとみなし、SAEが最も「適切な」言語であるとの言語バイアスを強化する。 最後に、望ましいシステム行動がどのようなものであるかを反映するだけでなく、生成型AIツールの利点や欠点を反映するなど、残されている緊張関係について論じる。 全体として、我々は、AI生成言語による既存のグローバルなパワー構造の顕在化として、標準言語イデオロギーについて議論し、その後、代替的で、より先進的なデジタル未来に向けての質問を締めくくる。

In this position paper, we explore standard language ideology in language generated by large language models (LLMs). First, we outline how standard language ideology is reflected and reinforced in LLMs. We then present a taxonomy of open problems regarding standard language ideology in AI-generated language with implications for minoritized language communities. We introduce the concept of standard AI-generated language ideology, the process by which AI-generated language regards Standard American English (SAE) as a linguistic default and reinforces a linguistic bias that SAE is the most "appropriate" language. Finally, we discuss tensions that remain, including reflecting on what desirable system behavior looks like, as well as advantages and drawbacks of generative AI tools imitating--or often not--different English language varieties. Throughout, we discuss standard language ideology as a manifestation of existing global power structures in and through AI-generated language before ending with questions to move towards alternative, more emancipatory digital futures.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-13
# コード生成時に大規模言語モデルはどこに機能しないのか?

Where Do Large Language Models Fail When Generating Code? ( http://arxiv.org/abs/2406.08731v1 )

ライセンス: Link先を確認
Zhijie Wang, Zijie Zhou, Da Song, Yuheng Huang, Shengmai Chen, Lei Ma, Tianyi Zhang, (参考訳) 大規模言語モデル(LLM)はコード生成に大きな可能性を示しています。 しかし、現在のLLMは正しいコードを確実に生成することはできない。 さらに、LLMがどのようなコード生成エラーを発生させるのかは不明だ。 そこで我々は,HumanEvalデータセット上で6つのLLMが生成した誤りコードスニペットを解析するための実証的研究を行った。 我々はこれらの誤りを2次元の誤り特性(意味的特徴と統語的特徴)とともに解析し、オープンコーディングとセマンティック解析によりLLMの包括的なコード生成エラー分類を導出する。 この分類に基づいて、558の誤ったコードスニペットをラベル付けしました。 その結果,6つのLSMは意味的および統語的特徴の異なる分布を示した。 さらに、異なるエラー特性と、プロンプト長、コード長、テストパス率などの要因との相関関係を解析した。 最後に、LLMがコード生成時に直面する課題を強調し、LLMによる信頼性のあるコード生成に関する今後の研究について提案する。

Large Language Models (LLMs) have shown great potential in code generation. However, current LLMs still cannot reliably generate correct code. Moreover, it is unclear what kinds of code generation errors LLMs can make. To address this, we conducted an empirical study to analyze incorrect code snippets generated by six popular LLMs on the HumanEval dataset. We analyzed these errors alongside two dimensions of error characteristics -- semantic characteristics and syntactic characteristics -- to derive a comprehensive code generation error taxonomy for LLMs through open coding and thematic analysis. We then labeled all 558 incorrect code snippets based on this taxonomy. Our results showed that the six LLMs exhibited different distributions of semantic and syntactic characteristics. Furthermore, we analyzed the correlation between different error characteristics and factors such as prompt length, code length, and test-pass rate. Finally, we highlight the challenges that LLMs may encounter when generating code and propose implications for future research on reliable code generation with LLMs.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# 認識結果を説明できるAIアーキテクチャ

An AI Architecture with the Capability to Explain Recognition Results ( http://arxiv.org/abs/2406.08740v1 )

ライセンス: Link先を確認
Paul Whitten, Francis Wolff, Chris Papachristou, (参考訳) 機械学習結果の信頼性を確立するためには、説明可能性が必要である。 説明可能な方法は、マシンラーニングモデルの重みを説明するためにポストホックなアプローチを取るものもあれば、決定に寄与する入力の領域を強調するものもある。 これらの手法は、平易な言葉で決定を適切に説明しない。 説明可能なプロパティベースシステムは、平易な言葉で説明できることが示されているが、説明不能な機械学習手法をリードするほど実行されていない。 本研究は、説明可能性に対するメトリクスの重要性に焦点をあて、性能向上をもたらす2つの方法に貢献する。 第1の方法は説明不能なフローと説明不能なフローの組み合わせを導入し、意思決定の説明容易性を特徴づける指標を提案する。 第2の方法は、システム内のニューラルネットワークの有効性を推定するための古典的なメトリクスを比較し、新しいメトリックをリードパフォーマーとして振る舞う。 手書きデータセットの新たなメソッドとサンプルの結果が提示される。

Explainability is needed to establish confidence in machine learning results. Some explainable methods take a post hoc approach to explain the weights of machine learning models, others highlight areas of the input contributing to decisions. These methods do not adequately explain decisions, in plain terms. Explainable property-based systems have been shown to provide explanations in plain terms, however, they have not performed as well as leading unexplainable machine learning methods. This research focuses on the importance of metrics to explainability and contributes two methods yielding performance gains. The first method introduces a combination of explainable and unexplainable flows, proposing a metric to characterize explainability of a decision. The second method compares classic metrics for estimating the effectiveness of neural networks in the system, posing a new metric as the leading performer. Results from the new methods and examples from handwritten datasets are presented.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# 普遍時空間的交通データ学習者としての一般化可能な暗黙的ニューラル表現

Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner ( http://arxiv.org/abs/2406.08743v1 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Wei Ma, Jian Sun, (参考訳) Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner}$.$\textbf{ This is the conference version of our paper: Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner}$. 時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。 既存の方法は、低次元モデルを用いてSTTDを再構成することを目的としている。 しかし、これらはデータ固有のディメンションやソース依存パターンに制限されており、統一された表現を制限している。 本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。 低次元レシエーションの基盤となるダイナミクスを識別するために、高周波数構造を符号化可能な座標ベースニューラルネットワークを用いて、座標をトラフィック変数に直接マッピングする。 絡み合った時空間相互作用を解き放つために、変動性は別々のプロセスに分解される。 さらに、スペクトル埋め込みを用いたセンサグラフのような不規則空間でのモデリングを可能にする。 本手法は, 連続表現により, 多様なSTTDを統一的な入力でモデル化し, 基礎となる交通力学の一般化学習者として機能する。 また、データから暗黙的に低ランクの先行と滑らかな正規化を学習でき、異なる支配的なデータパターンを学習するのに汎用性があることが示されている。 実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。 実験結果から,本モデルが従来の低ランクモデルよりも有意な優位性を示すだけでなく,アプローチの汎用性も強調した。 我々は、この先駆的なモデリングの観点から、様々な現実世界のタスクにおいて、STTDの普遍的な表現の基礎となることを期待する。 https://doi.org/10.48550/arXiv.2405.03185

$\textbf{This is the conference version of our paper: Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner}$. Spatiotemporal Traffic Data (STTD) measures the complex dynamical behaviors of the multiscale transportation system. Existing methods aim to reconstruct STTD using low-dimensional models. However, they are limited to data-specific dimensions or source-dependent patterns, restricting them from unifying representations. Here, we present a novel paradigm to address the STTD learning problem by parameterizing STTD as an implicit neural representation. To discern the underlying dynamics in low-dimensional regimes, coordinate-based neural networks that can encode high-frequency structures are employed to directly map coordinates to traffic variables. To unravel the entangled spatial-temporal interactions, the variability is decomposed into separate processes. We further enable modeling in irregular spaces such as sensor graphs using spectral embedding. Through continuous representations, our approach enables the modeling of a variety of STTD with a unified input, thereby serving as a generalized learner of the underlying traffic dynamics. It is also shown that it can learn implicit low-rank priors and smoothness regularization from the data, making it versatile for learning different dominating data patterns. We validate its effectiveness through extensive experiments in real-world scenarios, showcasing applications from corridor to network scales. Empirical results not only indicate that our model has significant superiority over conventional low-rank models, but also highlight that the versatility of the approach. We anticipate that this pioneering modeling perspective could lay the foundation for universal representation of STTD in various real-world tasks. $\textbf{The full version can be found at:}$ https://doi.org/10.48550/arXiv.2405.03185.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# StreamBench: 言語エージェントの継続的改善のベンチマークを目指す

StreamBench: Towards Benchmarking Continuous Improvement of Language Agents ( http://arxiv.org/abs/2406.08747v1 )

ライセンス: Link先を確認
Cheng-Kuang Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Hung-yi Lee, (参考訳) 近年の研究では、大規模言語モデル(LLM)エージェントが経験から自分自身を改善できることが示されている。 しかし、既存のベンチマークは、その生来の能力を主に評価し、時間とともに改善する能力を評価しない。 このギャップに対処するために、入力フィードバックシーケンス上でのLCMエージェントの継続的な改善を評価するための先駆的なベンチマークであるStreamBenchを紹介する。 StreamBenchは、LLMが継続的なフィードバックストリームを受信し、そのパフォーマンスを反復的に向上するオンライン学習環境をシミュレートする。 さらに,StreamBench上のLCMを改善するためのシンプルかつ効果的なベースラインをいくつか提案し,ストリーミング戦略の成功に寄与する重要なコンポーネントを特定するための包括的分析を行った。 我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。

Recent works have shown that large language model (LLM) agents are able to improve themselves from experience, which is an important ability for continuous enhancement post-deployment. However, existing benchmarks primarily evaluate their innate capabilities and do not assess their ability to improve over time. To address this gap, we introduce StreamBench, a pioneering benchmark designed to evaluate the continuous improvement of LLM agents over an input-feedback sequence. StreamBench simulates an online learning environment where LLMs receive a continuous flow of feedback stream and iteratively enhance their performance. In addition, we propose several simple yet effective baselines for improving LLMs on StreamBench, and provide a comprehensive analysis to identify critical components that contribute to successful streaming strategies. Our work serves as a stepping stone towards developing effective online learning strategies for LLMs, paving the way for more adaptive AI systems in streaming scenarios.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# 結合共分散による特徴空間の学習:非対称カーネルSVDとNyström法

Learning in Feature Spaces via Coupled Covariances: Asymmetric Kernel SVD and Nyström method ( http://arxiv.org/abs/2406.08748v1 )

ライセンス: Link先を確認
Qinghua Tao, Francesco Tonin, Alex Lambert, Yingyi Chen, Panagiotis Patrinos, Johan A. K. Suykens, (参考訳) Kernel principal Component Analysis (KPCA) において、Mercurerカーネルベースのアプローチとは対照的に、Singular Value Decomposition (SVD) は非対称カーネルと本質的に関連し、非対称カーネルSingular Value Decomposition (KSVD) が提案されている。 しかし、KSVDへの既存の定式化は無限次元の特徴写像では機能せず、変分目的は非有界であり、さらに数値的な評価と機械学習への探索が必要である。 この作品。 i) 共分散演算子による結合共分散固有確率(CCE)に基づく新しい非対称学習パラダイムを導入し、無限次元特徴写像を実現する。 CCEへの解は、最終的に誘導された非対称核行列のSVDから得られ、KSVDへのリンクを提供する。 二 結合随伴固有関数の対に対応する積分方程式から始め、有限標本近似を用いて非対称Nystr\"om法を定式化し、訓練を高速化する。 三 我々は、KSVDの実用性と利点を検証するための最初の経験的評価を行い、複数のタスクにまたがる対称性化や線形SVDの手法と比較する。

In contrast with Mercer kernel-based approaches as used e.g., in Kernel Principal Component Analysis (KPCA), it was previously shown that Singular Value Decomposition (SVD) inherently relates to asymmetric kernels and Asymmetric Kernel Singular Value Decomposition (KSVD) has been proposed. However, the existing formulation to KSVD cannot work with infinite-dimensional feature mappings, the variational objective can be unbounded, and needs further numerical evaluation and exploration towards machine learning. In this work, i) we introduce a new asymmetric learning paradigm based on coupled covariance eigenproblem (CCE) through covariance operators, allowing infinite-dimensional feature maps. The solution to CCE is ultimately obtained from the SVD of the induced asymmetric kernel matrix, providing links to KSVD. ii) Starting from the integral equations corresponding to a pair of coupled adjoint eigenfunctions, we formalize the asymmetric Nystr\"om method through a finite sample approximation to speed up training. iii) We provide the first empirical evaluations verifying the practical utility and benefits of KSVD and compare with methods resorting to symmetrization or linear SVD across multiple tasks.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# バスケットボールにおけるオフボール得点予測の数学的モデル

Mathematical models for off-ball scoring prediction in basketball ( http://arxiv.org/abs/2406.08749v1 )

ライセンス: Link先を確認
Rikako Kono, Keisuke Fujii, (参考訳) プロバスケットボールでは,戦略決定に基づく得点機会の正確な予測が空間評価や選手評価に不可欠である。 しかしながら、伝統的なモデルは、正確な予測性能に不可欠なオフボール運動の複雑さを考慮する上で、しばしば課題に直面している。 本研究では,バスケットボールにおけるオフボールの得点率を予測するための2つの数学的モデルを提案し,パス・ツー・スコアとドリブル・トゥ・スコアのどちらにおいても,ボール・ムーブメント・フォー・オフボール・スコア(BMOS)とボール・インターセプション・アンド・ムーブメント・フォー・オフボール・スコア(BIMOS)モデルを提案する。 BMOSはオフボール・スコーリング・オポチュニティ(OBSO)モデルの原則をバスケットボールに適合させ、BIMOSはボールの動きのインターセプションの可能性を取り入れている。 我々は,2015-2016年シーズンのNBA630試合の選手追跡データを用いて,BIMOSがBMOSよりも精度が高いことを示す。 そこで,我々のモデルは,バスケットボールにおける戦術的分析と選手評価のための貴重な洞察を提供する。

In professional basketball, the accurate prediction of scoring opportunities based on strategic decision-making is crucial for space and player evaluations. However, traditional models often face challenges in accounting for the complexities of off-ball movements, which are essential for accurate predictive performance. In this study, we propose two mathematical models to predict off-ball scoring opportunities in basketball, considering both pass-to-score and dribble-to-score movements: the Ball Movement for Off-ball Scoring (BMOS) and the Ball Intercept and Movement for Off-ball Scoring (BIMOS) models. The BMOS adapts principles from the Off-Ball Scoring Opportunities (OBSO) model, originally designed for soccer, to basketball, whereas the BIMOS also incorporates the likelihood of interception during ball movements. We evaluated these models using player tracking data from 630 NBA games in the 2015-2016 regular season, demonstrating that the BIMOS outperforms the BMOS in terms of scoring prediction accuracy. Thus, our models provide valuable insights for tactical analysis and player evaluation in basketball.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# 大規模言語モデルによるMinecraftの3次元構築

3D Building Generation in Minecraft via Large Language Models ( http://arxiv.org/abs/2406.08751v1 )

ライセンス: Link先を確認
Shiying Hu, Zengrong Huang, Chengpeng Hu, Jialin Liu, (参考訳) 近年,スーパーマリオブラザーズやソコバンのような2次元ゲームレベルの領域において,大規模言語モデル(LLM)によるプロシージャコンテンツ生成が著しく進歩している。 そこで本研究では,LLMがサンドボックスゲームであるMinecraftにおける3Dビルディングの生成にどのように貢献するかを考察する。 本稿では,プロンプトの精細化,層間表現の復号化,修復を含む,Minecraft (T2BM) モデルを提案する。 ファサード、屋内シーン、ドアのような機能ブロックが世代でサポートされている。 LLMを通して発生する建物の完全性と満足度を評価する実験を行った。 LLMは3Dビルディング生成に大きな可能性を秘めている。 適切なプロンプトを前提として、LLMはMinecraftで完全な構造を持つ正しいビルを生成でき、窓やベッドのような特定のビルディングブロックを組み込むことで、人間の要求を満たすことができる。

Recently, procedural content generation has exhibited considerable advancements in the domain of 2D game level generation such as Super Mario Bros. and Sokoban through large language models (LLMs). To further validate the capabilities of LLMs, this paper explores how LLMs contribute to the generation of 3D buildings in a sandbox game, Minecraft. We propose a Text to Building in Minecraft (T2BM) model, which involves refining prompts, decoding interlayer representation and repairing. Facade, indoor scene and functional blocks like doors are supported in the generation. Experiments are conducted to evaluate the completeness and satisfaction of buildings generated via LLMs. It shows that LLMs hold significant potential for 3D building generation. Given appropriate prompts, LLMs can generate correct buildings in Minecraft with complete structures and incorporate specific building blocks such as windows and beds, meeting the specified requirements of human users.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# StructureSleight: 一般的なテキストエンコード構造を利用した大規模言語モデルにおける自動ジェイルブレーク攻撃

StructuralSleight: Automated Jailbreak Attacks on Large Language Models Utilizing Uncommon Text-Encoded Structure ( http://arxiv.org/abs/2406.08754v1 )

ライセンス: Link先を確認
Bangxin Li, Hengrui Xing, Chao Huang, Jin Qian, Huangqing Xiao, Linfeng Feng, Cong Tian, (参考訳) 大規模言語モデル(LLM)は自然言語処理で広く使われているが、有害なコンテンツを生成するために悪質に誘導するジェイルブレイク攻撃のリスクに直面している。 キャラクタレベルやコンテキストレベルの攻撃を含む既存のジェイルブレイク攻撃は主に、その構造に大きな影響を特に調べることなく、プレーンテキストのプロンプトに焦点を当てた。 本稿では,ジェイルブレイク攻撃に即時的構造がどう寄与するかを考察する。 本研究では,LLMトレーニング中にはほとんど使われない尾構造に基づく新しい構造レベルアタック手法を提案する。 本研究では,12個のUTESテンプレートと6個の難読化手法を用いて,構造攻撃・構造・文字・コンテキスト難読化攻撃・完全難読化攻撃の3つのエスカレート攻撃戦略を含む,StructureSleightという効果的な自動脱獄ツールを構築する。 既存のLLMの大規模な実験は、StructureSleightがベースライン法よりも大幅に優れていることを示している。 特に、攻撃成功率はGPT-4oで94.62 %に達するが、これは最先端の技術では対処されていない。

Large Language Models (LLMs) are widely used in natural language processing but face the risk of jailbreak attacks that maliciously induce them to generate harmful content. Existing jailbreak attacks, including character-level and context-level attacks, mainly focus on the prompt of the plain text without specifically exploring the significant influence of its structure. In this paper, we focus on studying how prompt structure contributes to the jailbreak attack. We introduce a novel structure-level attack method based on tail structures that are rarely used during LLM training, which we refer to as Uncommon Text-Encoded Structure (UTES). We extensively study 12 UTESs templates and 6 obfuscation methods to build an effective automated jailbreak tool named StructuralSleight that contains three escalating attack strategies: Structural Attack, Structural and Character/Context Obfuscation Attack, and Fully Obfuscated Structural Attack. Extensive experiments on existing LLMs show that StructuralSleight significantly outperforms baseline methods. In particular, the attack success rate reaches 94.62\% on GPT-4o, which has not been addressed by state-of-the-art techniques.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# 量子コンピュータにおける分数微分方程式の解法:変分的アプローチ

Solving Fractional Differential Equations on a Quantum Computer: A Variational Approach ( http://arxiv.org/abs/2406.08755v1 )

ライセンス: Link先を確認
Fong Yew Leong, Dax Enshan Koh, Jian Feng Kong, Siong Thye Goh, Jun Yong Khoo, Wei-Bin Ewe, Hongying Li, Jayne Thompson, Dario Poletti, (参考訳) 本稿では, 時間-屈折偏微分方程式の解法として, 効率的な変分型量子古典アルゴリズムを提案する。 本手法では,重なり合う履歴状態の線形結合を組み込んだ反復コスト関数を用いる。 提案アルゴリズムは時間的複雑さだけでなく,従来の手法に比べてメモリコストが低い。 その結果, 解の忠実度は分数指数に不感であり, 勾配評価コストは時間ステップ数とともに経済的にスケールすることがわかった。 概念実証として, 準拡散方程式, 非線型バーガー方程式, 共分散拡散拡散モデルなど, 工学的応用でよく見られる分数偏微分方程式を解くために, アルゴリズムを適用した。 我々は現実的な雑音条件下での量子ハードウェアの性能を評価し、アルゴリズムの実用性をさらに検証した。

We introduce an efficient variational hybrid quantum-classical algorithm designed for solving Caputo time-fractional partial differential equations. Our method employs an iterable cost function incorporating a linear combination of overlap history states. The proposed algorithm is not only efficient in time complexity, but has lower memory costs compared to classical methods. Our results indicate that solution fidelity is insensitive to the fractional index and that gradient evaluation cost scales economically with the number of time steps. As a proof of concept, we apply our algorithm to solve a range of fractional partial differential equations commonly encountered in engineering applications, such as the sub-diffusion equation, the non-linear Burgers' equation and a coupled diffusive epidemic model. We assess quantum hardware performance under realistic noise conditions, further validating the practical utility of our algorithm.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# オーバーラップされたアクティベーション再計算による大規模モデルトレーニングの最適化

Optimizing Large Model Training through Overlapped Activation Recomputation ( http://arxiv.org/abs/2406.08756v1 )

ライセンス: Link先を確認
Ping Chen, Wenjie Zhang, Shuibing He, Yingjie Gu, Zhuwei Peng, Kexin Huang, Xuan Zhan, Weijian Chen, Yi Zheng, Zhefeng Wang, Yanlong Yin, Gang Chen, (参考訳) 大規模なモデルトレーニングでは、データ、テンソル、デバイスの並列性を活用するために、メモリプレッシャーとパイプライニングを緩和するために再計算を使用してきた。 既存の再計算アプローチでは、22BパラメータのGPTモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。 これは、クリティカルトレーニングパスで要求に応じて実行されるためです。 本稿では,新たな再計算フレームワークであるLynxを設計し,トレーニングパイプラインで発生する通信と再計算を重複させることによりオーバヘッドを低減する。 最適スケジューリングアルゴリズム(OPT)とヒューリスティックベースのスケジューリングアルゴリズム(HEU)から構成される。 OPTはグローバルな最適化を実現しているが、長い検索時間に悩まされている。 HEUは、大きなDNNモデルに同じ構造が存在するという観測に基づいて設計されており、同じスケジューリングポリシーを全ての同一構造に適用することができる。 HEUは局所的な最適化を実現するが、OPTと比較して検索時間を99%削減する。 1.3B-20Bパラメータを持つGPTモデルを用いた総合評価の結果、OPTとHEUはどちらも最先端の再計算手法(例えばMegatron-LMとCheckmake)を1.02-1.53xで上回っている。 HEUは平均0.16秒の検索時間でOPTと同等のパフォーマンスを達成している。

Large model training has been using recomputation to alleviate the memory pressure and pipelining to exploit the parallelism of data, tensor, and devices. The existing recomputation approaches may incur up to 40% overhead when training real-world models, e.g., the GPT model with 22B parameters. This is because they are executed on demand in the critical training path. In this paper, we design a new recomputation framework, Lynx, to reduce the overhead by overlapping the recomputation with communication occurring in training pipelines. It consists of an optimal scheduling algorithm (OPT) and a heuristic-based scheduling algorithm (HEU). OPT achieves a global optimum but suffers from a long search time. HEU was designed based on our observation that there are identical structures in large DNN models so that we can apply the same scheduling policy to all identical structures. HEU achieves a local optimum but reduces the search time by 99% compared to OPT. Our comprehensive evaluation using GPT models with 1.3B-20B parameters shows that both OPT and HEU outperform the state-of-the-art recomputation approaches (e.g., Megatron-LM and Checkmake) by 1.02-1.53x. HEU achieves a similar performance as OPT with a search time of 0.16s on average.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# SRFUND: 形式理解のための多階層階層構造再構成ベンチマーク

SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding ( http://arxiv.org/abs/2406.08757v1 )

ライセンス: Link先を確認
Jiefeng Ma, Yan Wang, Chenyu Liu, Jun Du, Yu Hu, Zhenrong Zhang, Pengfei Hu, Qing Wang, Jianshu Zhang, (参考訳) テキストコンテンツの正確な識別と整理は、フォーム理解の分野における文書処理の自動化に不可欠である。 FUNSDやXFUNDといった既存のデータセットはエンティティ分類と関係予測タスクをサポートしているが、通常はローカルおよびエンティティレベルのアノテーションに限られる。 この制限は、文書の階層的に構造化された表現を見落とし、複雑な形式の包括的理解を制限している。 この問題に対処するために、階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。 SRFUNDは、(1)テキストからテキストへのマージ、(2)エンティティへのマージ、(3)エンティティカテゴリ分類、(4)アイテムテーブルのローカライゼーション、(5)エンティティベースのフルドキュメント階層構造回復の5つのタスクを含む、オリジナルのFUNSDおよびXFUNDデータセットの上に洗練されたアノテーションを提供する。 様々な粒度のアノテーションが欠如している元のデータセットを慎重に補足し、フォーム内の複数項目のテーブル領域に詳細なアノテーションを追加した。 さらに,従来の局所的キー値関係を超越した,エンティティ関係予測タスクのグローバル階層構造依存性を導入する。 SRFUNDデータセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。 SRFUNDデータセットは多様なレイアウトや形態のグローバル階層構造を扱う上で、新たな課題と重要な機会を示し、フォーム理解の分野に深い洞察を与えている。 ベースラインメソッドのオリジナルのデータセットと実装はhttps://sprateam-ustc.github.io/SRFUNDで公開されている。

Accurately identifying and organizing textual content is crucial for the automation of document processing in the field of form understanding. Existing datasets, such as FUNSD and XFUND, support entity classification and relationship prediction tasks but are typically limited to local and entity-level annotations. This limitation overlooks the hierarchically structured representation of documents, constraining comprehensive understanding of complex forms. To address this issue, we present the SRFUND, a hierarchically structured multi-task form understanding benchmark. SRFUND provides refined annotations on top of the original FUNSD and XFUND datasets, encompassing five tasks: (1) word to text-line merging, (2) text-line to entity merging, (3) entity category classification, (4) item table localization, and (5) entity-based full-document hierarchical structure recovery. We meticulously supplemented the original dataset with missing annotations at various levels of granularity and added detailed annotations for multi-item table regions within the forms. Additionally, we introduce global hierarchical structure dependencies for entity relation prediction tasks, surpassing traditional local key-value associations. The SRFUND dataset includes eight languages including English, Chinese, Japanese, German, French, Spanish, Italian, and Portuguese, making it a powerful tool for cross-lingual form understanding. Extensive experimental results demonstrate that the SRFUND dataset presents new challenges and significant opportunities in handling diverse layouts and global hierarchical structures of forms, thus providing deep insights into the field of form understanding. The original dataset and implementations of baseline methods are available at https://sprateam-ustc.github.io/SRFUND
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# ガウス-フォレスト:圧縮シーンモデリングのための階層型3次元ガウススプレイティング

Gaussian-Forest: Hierarchical-Hybrid 3D Gaussian Splatting for Compressed Scene Modeling ( http://arxiv.org/abs/2406.08759v1 )

ライセンス: Link先を確認
Fengyi Zhang, Tianjun Zhang, Lin Zhang, Helen Huang, Yadan Luo, (参考訳) ノベル・ビュー・シンセサイザーの分野は、最近3Dガウス・スプレイティングの出現を目撃し、これはポイントベースでシーンを表現し、ラスタライズを通してレンダリングする。 レイトレーシングに依存するラジアンス・フィールドとは対照的に、この手法はより優れたレンダリング品質と速度を示す。 しかし、3Dガウスの明示的かつ非構造的な性質は、その広範な応用を妨げる重要なストレージ課題を招いている。 この課題に対処するために,ハイブリッド3Dガウスの森として階層的に表現されるガウス・フォレスト・モデリング・フレームワークを導入する。 それぞれのハイブリッドガウスは独自の明示的属性を保持し、暗黙的な属性を兄弟ガウスと共有し、パラメータ化を著しく少ない変数で最適化する。 さらに、適応的な成長と刈り取り戦略が設計され、複雑な領域の詳細な表現が保証され、必要なガウス数の顕著な削減が図られる。 広汎な実験により、ガウス・フォレストは同等の速度と品質を維持するだけでなく、圧縮速度も10倍を超え、効率的なシーンモデリングの大幅な進歩を示している。 コードはhttps://github.com/Xian-Bei/GaussianForest.comで入手できる。

The field of novel-view synthesis has recently witnessed the emergence of 3D Gaussian Splatting, which represents scenes in a point-based manner and renders through rasterization. This methodology, in contrast to Radiance Fields that rely on ray tracing, demonstrates superior rendering quality and speed. However, the explicit and unstructured nature of 3D Gaussians poses a significant storage challenge, impeding its broader application. To address this challenge, we introduce the Gaussian-Forest modeling framework, which hierarchically represents a scene as a forest of hybrid 3D Gaussians. Each hybrid Gaussian retains its unique explicit attributes while sharing implicit ones with its sibling Gaussians, thus optimizing parameterization with significantly fewer variables. Moreover, adaptive growth and pruning strategies are designed, ensuring detailed representation in complex regions and a notable reduction in the number of required Gaussians. Extensive experiments demonstrate that Gaussian-Forest not only maintains comparable speed and quality but also achieves a compression rate surpassing 10 times, marking a significant advancement in efficient scene modeling. Codes are available at https://github.com/Xian-Bei/GaussianForest.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# LGB:言語モデルとグラフニューラルネットワーク駆動型ソーシャルボット検出

LGB: Language Model and Graph Neural Network-Driven Social Bot Detection ( http://arxiv.org/abs/2406.08762v1 )

ライセンス: Link先を確認
Ming Zhou, Dan Zhang, Yuandong Wang, Yangli-ao Geng, Yuxiao Dong, Jie Tang, (参考訳) 悪意のあるソーシャルボットは、誤った情報を広め、社会的世論を喚起し、社会の安全を脅かすことによって悪意ある目的を達成する。 近年,グラフに基づくボット検出手法がSOTA(State-of-the-art)の性能を達成している。 しかし、図1に示すように、ソーシャルネットワークではグラフベースの手法では効果的に検出できない孤立ノードや疎結合ノードが多数存在する。 そこで本研究では,ノードのセマンティクスとネットワーク構造を効果的に活用して,疎結合ノードを共同検出することに焦点を当てた。 自然言語理解(NLU)における言語モデル(LM)の優れた性能を考慮し、言語モデル(LM)とグラフニューラルネットワーク(GNN)の2つの主要コンポーネントからなる新しいソーシャルボット検出フレームワークLGBを提案する。 具体的には、ソーシャルアカウント情報は、まず統合されたユーザテキストシーケンスに抽出され、その後、ソーシャルアカウントセマンティクスを理解する能力を向上させるために、言語モデルの教師付き微調整(SFT)を実行するために使用される。 次に、セマンティックに強化されたノード表現を事前訓練されたGNNに入力し、隣人からの情報を集約することでノード表現をさらに強化する。 最後に、LGBは両モードからの情報を融合し、疎結合ノードの検出性能を向上させる。 2つの実世界のデータセットに対する大規模な実験により、LGBは最先端のベースラインモデルよりも最大10.95%向上していることが示された。 LGBはすでにオンライン化されている: https://botdetection.aminer.cn/robotmain。

Malicious social bots achieve their malicious purposes by spreading misinformation and inciting social public opinion, seriously endangering social security, making their detection a critical concern. Recently, graph-based bot detection methods have achieved state-of-the-art (SOTA) performance. However, our research finds many isolated and poorly linked nodes in social networks, as shown in Fig.1, which graph-based methods cannot effectively detect. To address this problem, our research focuses on effectively utilizing node semantics and network structure to jointly detect sparsely linked nodes. Given the excellent performance of language models (LMs) in natural language understanding (NLU), we propose a novel social bot detection framework LGB, which consists of two main components: language model (LM) and graph neural network (GNN). Specifically, the social account information is first extracted into unified user textual sequences, which is then used to perform supervised fine-tuning (SFT) of the language model to improve its ability to understand social account semantics. Next, the semantically enriched node representation is fed into the pre-trained GNN to further enhance the node representation by aggregating information from neighbors. Finally, LGB fuses the information from both modalities to improve the detection performance of sparsely linked nodes. Extensive experiments on two real-world datasets demonstrate that LGB consistently outperforms state-of-the-art baseline models by up to 10.95%. LGB is already online: https://botdetection.aminer.cn/robotmain.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# エッジコンピューティングデバイスにおける時系列データ解析のためのLLMに基づく知識処理

LLM-based Knowledge Pruning for Time Series Data Analytics on Edge-computing Devices ( http://arxiv.org/abs/2406.08765v1 )

ライセンス: Link先を確認
Ruibing Jin, Qing Xu, Min Wu, Yuecong Xu, Dan Li, Xiaoli Li, Zhenghua Chen, (参考訳) 時系列データのスケールと多様性によって制限され、時系列データに基づいてトレーニングされたニューラルネットワークは、しばしば過度に適合し、不満足なパフォーマンスを示す。 比較として,大規模言語モデル (LLM) は近年,様々な分野において顕著な一般化が見られた。 時系列タスクには大規模なLLMベースのアプローチが提案されているが、これらの手法はトレーニングと参照の両方でLLM全体をロードする必要がある。 この高い計算要求は、エッジコンピューティングやIoTデバイスのようなリソース制約のある設定における実用的応用を制限する。 そこで本稿では,時系列学習のための新しいパラダイムであるKP(Knowledge Pruning)を提案する。 特定の下流課題に対しては、LLMによって学習される世界知識ははるかに冗長であり、「関連する知識」と呼ばれる関連する知識のみが有用である、と論じる。 他の方法とは異なり、我々のKPは冗長な知識を掘り起こし、関連する知識をターゲットモデルにのみ蒸留することを目的としています。 これにより、モデルのサイズと計算コストが大幅に削減される。 さらに、既存のLLMベースのアプローチとは違い、我々のKPはトレーニングやテストの過程でLLMをロードする必要がなく、計算負担が軽減される。 提案したKPにより、軽量ネットワークは、計算コストの低い良好な性能を達成し、関連する知識を効果的に学習することができる。 KPの有効性を検証するために、エッジコンピューティングデバイスにおける2つの基本的なタスクを実験で検討し、KPの一般化を検証するために、異なるネットワークを持つ8つの多様な環境またはベンチマークを用いている。 実験を通じて、我々のKPは、関連する知識を効果的に学習し、回帰(平均19.7%)および分類(最大13.7%)タスクにおいて顕著なパフォーマンス向上を達成し、最先端の結果を示す。

Limited by the scale and diversity of time series data, the neural networks trained on time series data often overfit and show unsatisfacotry performances. In comparison, large language models (LLMs) recently exhibit impressive generalization in diverse fields. Although massive LLM based approaches are proposed for time series tasks, these methods require to load the whole LLM in both training and reference. This high computational demands limit practical applications in resource-constrained settings, like edge-computing and IoT devices. To address this issue, we propose Knowledge Pruning (KP), a novel paradigm for time series learning in this paper. For a specific downstream task, we argue that the world knowledge learned by LLMs is much redundant and only the related knowledge termed as "pertinent knowledge" is useful. Unlike other methods, our KP targets to prune the redundant knowledge and only distill the pertinent knowledge into the target model. This reduces model size and computational costs significantly. Additionally, different from existing LLM based approaches, our KP does not require to load the LLM in the process of training and testing, further easing computational burdens. With our proposed KP, a lightweight network can effectively learn the pertinent knowledge, achieving satisfactory performances with a low computation cost. To verify the effectiveness of our KP, two fundamental tasks on edge-computing devices are investigated in our experiments, where eight diverse environments or benchmarks with different networks are used to verify the generalization of our KP. Through experiments, our KP demonstrates effective learning of pertinent knowledge, achieving notable performance improvements in regression (19.7% on average) and classification (up to 13.7%) tasks, showcasing state-of-the-art results.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# MCTSにコンビニティアル最適化を注入する - ボードゲームブープへの応用

Injecting Combinatorial Optimization into MCTS: Application to the Board Game boop ( http://arxiv.org/abs/2406.08766v1 )

ライセンス: Link先を確認
Florian Richoux, (参考訳) 抽象的なボードゲームを含むゲームは、新しいAIメソッドを作成し、設計し、改善するための便利な場を構成します。 この分野では、Monte Carlo Tree Searchは人気のあるアルゴリズムファミリーであり、ゲームツリーを構築し、それらを効率的に探索することを目的としている。 一方、Y Combinatorial Optimizationは、最適化と制約を満足させる目的で問題をモデル化し、解決することを目的としており、Game AIでは一般的ではない。 しかし,モンテカルロ木探索にコンビニアル最適化を注入して木探索を支援することにより,この2つの手法を新たに組み合わせることにより,両手法を効率的に組み合わせることができると考えている。 ボードゲームブープでテストされました。 提案手法はモンテカルロ木探索アルゴリズムのベースラインの96%を突破する。 そこで我々は,どの注射と組み合わせがどのような効果をもたらすかを分離し,分析するためにアブレーション研究を行った。 最後に,ボードゲームアリーナプラットフォーム上での人間選手に対するAI手法に反対し,51ブープ以降の373ELO評価に達した。 ゲームは69%の勝利率で 世界で56位にランクイン 5,316回以上 プレイヤー

Games, including abstract board games, constitute a convenient ground to create, design, and improve new AI methods. In this field, Monte Carlo Tree Search is a popular algorithm family, aiming to build game trees and explore them efficiently. Combinatorial Optimization, on the other hand, aims to model and solve problems with an objective to optimize and constraints to satisfy, and is less common in Game AI. We believe however that both methods can be combined efficiently, by injecting Combinatorial Optimization into Monte Carlo Tree Search to help the tree search, leading to a novel combination of these two techniques. Tested on the board game boop., our method beats 96% of the time the Monte Carlo Tree Search algorithm baseline. We conducted an ablation study to isolate and analyze which injections and combinations of injections lead to such performances. Finally, we opposed our AI method against human players on the Board Game Arena platform, and reached a 373 ELO rating after 51 boop. games, with a 69% win rate and finishing ranked 56th worldwide on the platform over 5,316 boop. players.
翻訳日:2024-06-14 21:38:10 公開日:2024-06-13
# MFF-EINV2:音事象定位・検出のためのスペクトル空間-時間領域間のマルチスケール特徴融合

MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection ( http://arxiv.org/abs/2406.08771v1 )

ライセンス: Link先を確認
Da Mu, Zhicheng Zhang, Haobo Yue, (参考訳) 音事象の局所化と検出(SELD)は、マルチチャンネル音声記録を用いた音事象の検出と位置決めを伴う。 従来提案されていたイベント独立ネットワークV2(EINV2)は,SELD上での優れた性能を実現している。 しかし、スペクトル領域、空間領域、時間領域にまたがる特徴を効果的に抽出する上で、依然として課題に直面している。 本稿では,マルチスケール・フィーチャー・フュージョン(MFF)モジュールという3段階のネットワーク構造を提案し,スペクトル領域,空間領域,時間領域にまたがるマルチスケール特徴を抽出する。 MFFモジュールは並列サブネットワークアーキテクチャを使用して、マルチスケールのスペクトルと空間の特徴を生成する。 TF-Convolution Moduleは、マルチスケールの時間的特徴を提供するために使用される。 我々は,MFFをEINV2に組み込み,提案手法をMFF-EINV2と呼ぶ。 2022年と2023年のDCASEチャレンジタスク3データセットの実験結果から,MFF-EINV2の有効性が示された。

Sound Event Localization and Detection (SELD) involves detecting and localizing sound events using multichannel sound recordings. Previously proposed Event-Independent Network V2 (EINV2) has achieved outstanding performance on SELD. However, it still faces challenges in effectively extracting features across spectral, spatial, and temporal domains. This paper proposes a three-stage network structure named Multi-scale Feature Fusion (MFF) module to fully extract multi-scale features across spectral, spatial, and temporal domains. The MFF module utilizes parallel subnetworks architecture to generate multi-scale spectral and spatial features. The TF-Convolution Module is employed to provide multi-scale temporal features. We incorporated MFF into EINV2 and term the proposed method as MFF-EINV2. Experimental results in 2022 and 2023 DCASE challenge task3 datasets show the effectiveness of our MFF-EINV2, which achieves state-of-the-art (SOTA) performance compared to published methods.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# MMFakeBench:LVLM用混在型マルチモーダル誤情報検出ベンチマーク

MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs ( http://arxiv.org/abs/2406.08772v1 )

ライセンス: Link先を確認
Xuannan Liu, Zekun Li, Peipei Li, Shuhan Xia, Xing Cui, Linzhi Huang, Huaibo Huang, Weihong Deng, Zhaofeng He, (参考訳) 現在のMultimodal misinformation Detection (MMD) 法は、複数の偽情報ソースが共存する現実のシナリオでは不十分な、サンプル毎に単一のソースとフォージェリーのタイプを仮定することが多い。 混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。 そこで我々はMMFakeBenchを紹介した。MMFakeBenchはミックスソースMDDの最初の包括的なベンチマークである。 MMFakeBenchには3つの重要なソースが含まれている: テキストの正確さの歪み、視覚的正確さの歪み、および横断的一貫性の歪み。 さらに,0ショット設定でMMFakeBench上で6つの一般的な検出手法と15の大規模視覚言語モデル(LVLM)を広範囲に評価する。 その結果,現状の手法は,この困難かつ現実的なMDD設定下では困難であることが示唆された。 さらに,LVLMエージェントの合理性,行動,ツール使用能力を統合し,精度と一般化を著しく向上する,革新的な統一フレームワークを提案する。 本研究は,より現実的な混在型マルチモーダル誤報の研究を触媒し,誤報検出手法の公正な評価を提供する。

Current multimodal misinformation detection (MMD) methods often assume a single source and type of forgery for each sample, which is insufficient for real-world scenarios where multiple forgery sources coexist. The lack of a benchmark for mixed-source misinformation has hindered progress in this field. To address this, we introduce MMFakeBench, the first comprehensive benchmark for mixed-source MMD. MMFakeBench includes 3 critical sources: textual veracity distortion, visual veracity distortion, and cross-modal consistency distortion, along with 12 sub-categories of misinformation forgery types. We further conduct an extensive evaluation of 6 prevalent detection methods and 15 large vision-language models (LVLMs) on MMFakeBench under a zero-shot setting. The results indicate that current methods struggle under this challenging and realistic mixed-source MMD setting. Additionally, we propose an innovative unified framework, which integrates rationales, actions, and tool-use capabilities of LVLM agents, significantly enhancing accuracy and generalization. We believe this study will catalyze future research into more realistic mixed-source multimodal misinformation and provide a fair evaluation of misinformation detection methods.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# DenoiseReID: 人物再識別の表現学習モデル

DenoiseReID: Denoising Model for Representation Learning of Person Re-Identification ( http://arxiv.org/abs/2406.08773v1 )

ライセンス: Link先を確認
Zhengrui Xu, Guan'an Wang, Xiaowen Huang, Jitao Sang, (参考訳) 本稿では,DenoiseReID(Denoising Model for Representation Learning and Take Person Re-Identification)をベンチマークタスクとして提案する。 深層学習時代において、有用な特徴を段階的に抽出するカスケード埋め込み層(例えば、畳み込みやトランスフォーマー)からなるバックボーンが普及している。 まず、バックボーン内の各埋め込み層をデノナイジング層とみなし、ケースケードされた埋め込み層を、機能を段階的に再帰的にデノナイジングするかのように処理する。 前者が下位レベルから上位レベルまで機能を段階的に埋め込み、後者が再帰的に機能を段階的に分解する。 次に,FEFDFA (Feature extract and Feature Denoising Fusion Algorithm) と \textit{theoretically demonstrate} を融合前後で等価に設計する。 FEFDFAは、デノナイズされたレイヤのパラメータを既存の埋め込みレイヤにマージすることで、フィーチャデノナイズされた計算を不要にする。 これはラベルなしのアルゴリズムで、利用可能であればラベルを補完する機能も徐々に改善する。 さらに2つの利点がある。 ReID機能を漸進的に改善するための、計算不要でラベルなしのプラグインです。 2) ラベルが利用可能であれば,ラベルを補完する。 様々なタスク(大規模画像分類、きめ細かな画像分類、画像検索)とバックボーン(変換器と畳み込み器)の実験結果から,本手法のスケーラビリティと安定性が示された。 4つのReIDデータセットと様々なバックボーンの実験結果は、安定性と印象的な改善を示している。 また,提案手法を大規模 (ImageNet) およびきめ細かい (例えば CUB200) 分類タスクに拡張し,同様の改善が証明された。

In this paper, we propose a novel Denoising Model for Representation Learning and take Person Re-Identification (ReID) as a benchmark task, named DenoiseReID, to improve feature discriminative with joint feature extraction and denoising. In the deep learning epoch, backbones which consists of cascaded embedding layers (e.g. convolutions or transformers) to progressively extract useful features, becomes popular. We first view each embedding layer in a backbone as a denoising layer, processing the cascaded embedding layers as if we are recursively denoise features step-by-step. This unifies the frameworks of feature extraction and feature denoising, where the former progressively embeds features from low-level to high-level, and the latter recursively denoises features step-by-step. Then we design a novel Feature Extraction and Feature Denoising Fusion Algorithm (FEFDFA) and \textit{theoretically demonstrate} its equivalence before and after fusion. FEFDFA merges parameters of the denoising layers into existing embedding layers, thus making feature denoising computation-free. This is a label-free algorithm to incrementally improve feature also complementary to the label if available. Besides, it enjoys two advantages: 1) it's a computation-free and label-free plugin for incrementally improving ReID features. 2) it is complementary to the label if the label is available. Experimental results on various tasks (large-scale image classification, fine-grained image classification, image retrieval) and backbones (transformers and convolutions) show the scalability and stability of our method. Experimental results on 4 ReID datasets and various of backbones show the stability and impressive improvements. We also extend the proposed method to large-scale (ImageNet) and fine-grained (e.g. CUB200) classification tasks, similar improvements are proven.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# 統合ユーザビリティ・フレームワークからオープン・ガバメント・データポータルのユーザビリティとパフォーマンスの教訓へ:欧州連合と湾岸協力協議会諸国の比較研究

From an Integrated Usability Framework to Lessons on Usability and Performance of Open Government Data Portals: A Comparative Study of European Union and Gulf Cooperation Council Countries ( http://arxiv.org/abs/2406.08774v1 )

ライセンス: Link先を確認
Fillip Molodtsov, Anastasija Nikiforova, (参考訳) Open Government Data(OGD)イニシアチブは、様々な利害関係者に政府データをアクセスしやすくし、公共価値の生成を通じて社会的、環境的、経済的利益を育むことによって、公的参加と協力を強化することを目的としている。 しかし、人気低下、OGDポータルのユーザビリティの欠如、公共のアクセシビリティを誇張する私的利益といった課題が続いている。 本研究では,OGDポータル評価のための統合ユーザビリティフレームワークを提案する。 設計科学研究(DSR)を採用し、欧州連合(EU)とガルフ協力協議会(GCC)の33のOGDポータルに開発・適用されている。 定量的分析は質的な分析とクラスタリングによって補完され、ポータルのパフォーマンスの評価、ベストプラクティスの識別、共通の弱点を可能にする。 これにより、オープンデータエコシステムを改善するための19のハイレベルなレコメンデーションが実現される。 主要な発見は、EUポータルの競争的性質とGCCポータルの革新的な特徴を強調し、マルチリンガルサポートの必要性、コミュニケーションメカニズムの改善、データセットのユーザビリティの向上を強調した。 この研究は、データ品質指標の公開と、AIシステムのような高度な機能の導入に向けたトレンドを強調している。 このフレームワークは、OGDポータル要求の導出のベースラインとして機能し、持続的で協力的で堅牢なOGDポータルを開発するための実践的な意味を提供し、最終的にはより透明で公平な世界に寄与する。

Open Government Data (OGD) initiatives aim to enhance public participation and collaboration by making government data accessible to diverse stakeholders, fostering social, environmental, and economic benefits through public value generation. However, challenges such as declining popularity, lack of OGD portal usability, and private interests overshadowing public accessibility persist. This study proposes an integrated usability framework for evaluating OGD portals, focusing on inclusivity, user collaboration, and data exploration. Employing Design Science Research (DSR), the framework is developed and applied to 33 OGD portals from the European Union (EU) and Gulf Cooperation Council (GCC) countries. The quantitative analysis is complemented by qualitative analysis and clustering, enabling assessment of portal performance, identification of best practices, and common weaknesses. This results in 19 high-level recommendations for improving the open data ecosystem. Key findings highlight the competitive nature of EU portals and the innovative features of GCC portals, emphasizing the need for multilingual support, better communication mechanisms, and improved dataset usability. The study stresses trends towards exposing data quality indicators and incorporating advanced functionalities such as AI systems. This framework serves as a baseline for OGD portal requirements elicitation, offering practical implications for developing sustainable, collaborative, and robust OGD portals, ultimately contributing to a more transparent and equitable world.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# ALINA:高度な線同定と表記アルゴリズム

ALINA: Advanced Line Identification and Notation Algorithm ( http://arxiv.org/abs/2406.08775v1 )

ライセンス: Link先を確認
Mohammed Abdul Hafeez Khan, Parth Ganeriwala, Siddhartha Bhattacharyya, Natasha Neogi, Raja Muthalagu, (参考訳) ラベルは教師付き機械学習アルゴリズムの基礎である。 ほとんどの視覚認識手法は、オブジェクトローカライゼーションのためのバウンディングボックスやピクセルワイドセグメンテーションを使用して、完全に教師される。 クラウドソーシングのような従来のラベリング手法は、コスト、データのプライバシ、時間、大規模なデータセットの潜在的なエラーのために禁止されている。 これらの問題に対処するために、異なるカメラ視点と様々な気象特性(正気と曇り)からなるタクシーウェイデータセットのラベル付けに使用できる、新しいアノテーションフレームワークであるAdvanced Line Identification and Notation Algorithm (ALINA)を提案する。 さらに、CIRCLEDAT (CIRCLEDAT) アルゴリズムが提案されている。 画素が特定されると、ALINAはフレーム上の対応する画素座標アノテーションを生成する。 このアプローチを使用して、タクシーウェイデータセットから60,249フレームのAssistTaxiがラベル付けされている。 性能を評価するため、エッジの特徴と接続性に基づいてコンテキストベースのエッジマップ(CBEM)セットを手動で生成した。 CBEMセットでアノテートされたラベルのテスト後の検出率は98.45%と記録され、信頼性と有効性が確認された。

Labels are the cornerstone of supervised machine learning algorithms. Most visual recognition methods are fully supervised, using bounding boxes or pixel-wise segmentations for object localization. Traditional labeling methods, such as crowd-sourcing, are prohibitive due to cost, data privacy, amount of time, and potential errors on large datasets. To address these issues, we propose a novel annotation framework, Advanced Line Identification and Notation Algorithm (ALINA), which can be used for labeling taxiway datasets that consist of different camera perspectives and variable weather attributes (sunny and cloudy). Additionally, the CIRCular threshoLd pixEl Discovery And Traversal (CIRCLEDAT) algorithm has been proposed, which is an integral step in determining the pixels corresponding to taxiway line markings. Once the pixels are identified, ALINA generates corresponding pixel coordinate annotations on the frame. Using this approach, 60,249 frames from the taxiway dataset, AssistTaxi have been labeled. To evaluate the performance, a context-based edge map (CBEM) set was generated manually based on edge features and connectivity. The detection rate after testing the annotated labels with the CBEM set was recorded as 98.45%, attesting its dependability and effectiveness.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# 共変量を用いたネットワークデータにおける共同学習と個人構造

Learning Joint and Individual Structure in Network Data with Covariates ( http://arxiv.org/abs/2406.08776v1 )

ライセンス: Link先を確認
Carson James, Dongbang Yuan, Irina Gaynanova, Jesús Arroyo, (参考訳) ネットワークと頂点に関連する共変量からなるデータセットがユビキタス化されている。 このタイプのデータに関連する1つの問題は、ネットワーク固有の情報、頂点の共変量に固有の情報、およびネットワークと頂点の共変量の間に共有される情報を特定することである。 既存のネットワークデータと頂点共変器のテクニックは、共有されるが、通常、データセットごとにユニークな構造を区別できない構造をキャプチャすることに重点を置いている。 この研究は、頂点共変量を用いたネットワークデータにおいて、結合情報と個々の情報を同時にキャプチャする低ランクモデルを定式化する。 効率的なスペクトル法と改良最適化法を併用した2段階推定手法を提案する。 理論的には、スペクトル法は、一般的な信号+雑音モデルの下で、接合部と個々の成分を連続的に復元できることを示す。 シミュレーションと実データ例は、正確かつ解釈可能なコンポーネントを復元する手法の能力を示している。 特に、経済、発展、地理的な国レベルの指標を持つ国間の食品貿易ネットワークへの方法論の適用により、貿易パターンを説明する共同要因と個別要因が生み出される。

Datasets consisting of a network and covariates associated with its vertices have become ubiquitous. One problem pertaining to this type of data is to identify information unique to the network, information unique to the vertex covariates and information that is shared between the network and the vertex covariates. Existing techniques for network data and vertex covariates focus on capturing structure that is shared but are usually not able to differentiate structure that is unique to each dataset. This work formulates a low-rank model that simultaneously captures joint and individual information in network data with vertex covariates. A two-step estimation procedure is proposed, composed of an efficient spectral method followed by a refinement optimization step. Theoretically, we show that the spectral method is able to consistently recover the joint and individual components under a general signal-plus-noise model. Simulations and real data examples demonstrate the ability of the methods to recover accurate and interpretable components. In particular, the application of the methodology to a food trade network between countries with economic, developmental and geographical country-level indicators as covariates yields joint and individual factors that explain the trading patterns.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# ハイパースペクトル画像復調のためのハイブリッド空間スペクトルニューラルネットワーク

Hybrid Spatial-spectral Neural Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2406.08782v1 )

ライセンス: Link先を確認
Hao Liang, Chengjie, Kun Li, Xin Tian, (参考訳) ハイパースペクトル画像(HSI)は、HSIアプリケーションに必須の手順である。 残念なことに、Transformerベースの既存の手法は主に非局所モデリングに焦点をあてており、画像の復調における局所性の重要性を無視している。 さらに、深層学習法は複雑なスペクトル学習機構を用いており、計算コストが大きい。 これらの問題に対処するために,CNNとTransformer特性にインスパイアされた新しいハイブリッドデュアルパスネットワークを設計し,局所的および非局所的な空間的詳細を効率よく捕捉し,ノイズを抑えるハイブリッド空間スペクトル認知ネットワーク(HSSD)を提案する。 さらに、計算複雑性を低減するために、空間とスペクトルチャネルの学習を阻害する単純だが効果的な分離戦略を採用し、パラメータの少ない多層認識を用いてスペクトルのグローバルな相関関係を学習する。 合成および実実験により,提案手法は空間的およびスペクトル的再構成における最先端の手法より優れていることが示された。 コードと詳細はhttps://github.com/HLImg/HSSDで確認できる。

Hyperspectral image (HSI) denoising is an essential procedure for HSI applications. Unfortunately, the existing Transformer-based methods mainly focus on non-local modeling, neglecting the importance of locality in image denoising. Moreover, deep learning methods employ complex spectral learning mechanisms, thus introducing large computation costs. To address these problems, we propose a hybrid spatial-spectral denoising network (HSSD), in which we design a novel hybrid dual-path network inspired by CNN and Transformer characteristics, leading to capturing both local and non-local spatial details while suppressing noise efficiently. Furthermore, to reduce computational complexity, we adopt a simple but effective decoupling strategy that disentangles the learning of space and spectral channels, where multilayer perception with few parameters is utilized to learn the global correlations among spectra. The synthetic and real experiments demonstrate that our proposed method outperforms state-of-the-art methods on spatial and spectral reconstruction. The code and details are available on https://github.com/HLImg/HSSD.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# BEVSpread:視覚に基づく道路3次元物体検出における鳥の視点表現のためのVoxel Pooling

BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection ( http://arxiv.org/abs/2406.08785v1 )

ライセンス: Link先を確認
Wenjie Wang, Yehao Lu, Guangcong Zheng, Shuigen Zhan, Xiaoqing Ye, Zichang Tan, Jingdong Wang, Gaoang Wang, Xi Li, (参考訳) 視覚に基づく道路沿いの3D物体検出は、盲点の低減と知覚範囲の拡大に固有の利点を含むため、自律運転領域で注目を集めている。 従来の研究は主に2D-to-3Dマッピングの深さや高さを正確に推定することに焦点を当てていたが、ボクセルプール法では位置近似誤差を無視していた。 この知見に触発されて,BEVSpreadと呼ばれる新しいボクセルプール方式を提案する。 具体的には、フラストラム点に含まれる画像特徴を1つのBEVグリッドに持ち込む代わりに、BEVSpreadは各フラストラム点をソースとみなし、その画像特徴を適応重量で周囲のBEVグリッドに拡散する。 より優れた伝搬性能を達成するため、比重関数は、距離と深さに応じて重量の減衰速度を動的に制御するように設計されている。 カスタマイズされたCUDA並列アクセラレーションにより、BEVSpreadはオリジナルのボクセルプールと同等の推論時間を達成する。 BEVSpreadは、プラグインとして、既存のフラストタルベースのBEV法の性能を車両、歩行者、サイクリストにおいて1.12, 5.26, 3.01) APの大きなマージンで大幅に改善することを示した。

Vision-based roadside 3D object detection has attracted rising attention in autonomous driving domain, since it encompasses inherent advantages in reducing blind spots and expanding perception range. While previous work mainly focuses on accurately estimating depth or height for 2D-to-3D mapping, ignoring the position approximation error in the voxel pooling process. Inspired by this insight, we propose a novel voxel pooling strategy to reduce such error, dubbed BEVSpread. Specifically, instead of bringing the image features contained in a frustum point to a single BEV grid, BEVSpread considers each frustum point as a source and spreads the image features to the surrounding BEV grids with adaptive weights. To achieve superior propagation performance, a specific weight function is designed to dynamically control the decay speed of the weights according to distance and depth. Aided by customized CUDA parallel acceleration, BEVSpread achieves comparable inference time as the original voxel pooling. Extensive experiments on two large-scale roadside benchmarks demonstrate that, as a plug-in, BEVSpread can significantly improve the performance of existing frustum-based BEV methods by a large margin of (1.12, 5.26, 3.01) AP in vehicle, pedestrian and cyclist.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# 高調波発生におけるレーザーターゲット対称性の破れ--周波数シフトから偶発強度変調へ

Laser-target symmetry-breaking in high harmonic generation: from frequency shift to odd-even intensity modulation ( http://arxiv.org/abs/2406.08786v1 )

ライセンス: Link先を確認
Doan-An Trieu, Van-Hoang Le, Ngoc-Loan Phan, (参考訳) 高次高調波発生(HHG)における周波数シフトと偶発強度変調は、どちらも非対称レーザーターゲット系で観測されているが、通常は2つの異なる現象として研究されている。 このレターでは、これら2つの非線形光学現象を包括的に表現し、レーザーターゲット系の共通起点(非対称性)を通してそれらを統一する。 非対称レーザーターゲットシステムのチューニングにより、駆動レーザパルスの持続時間を増加させると、高調波周波数シフトから偶発強度変調への遷移が見つかる。 特に、この現象は中間パルス長のレーザーパルスに対して同時に観察される。 数値的なエビデンスのために、時間依存的なシュルンディンガー方程式を解く一方、基礎となる物理に関する洞察は、単純化された解析的抽出可能なモデルから得られる。 HHGに反映される非対称な特性を理解することは、レーザーターゲット情報の検索、外部磁場のサンプリング、分子動力学の探索に不可欠である。

Although the frequency shift and odd-even intensity modulation in high-order harmonic generation (HHG) have both been observed for asymmetric laser-target systems, they are typically studied as two separate phenomena. In this Letter, we provide a comprehensive picture of these two nonlinear optical phenomena, unifying them through a common origin - asymmetry of the laser-target system. By tuning asymmetric laser-target systems, we discover a transition from the harmonic frequency shift to the odd-even intensity modulation upon increasing the duration of the driving laser pulse. Specifically, these phenomena are observed simultaneously for laser pulses with intermediate pulse duration. For numerical evidence, we solve the time-dependent Schr\"{o}dinger equation, while insight into the underlying physics is obtained from a simplified analytically tractable model. Understanding the asymmetric characteristics reflected in the HHG as provided is crucial for retrieving laser-target information, sampling external fields, and probing molecular dynamics.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# AIモデルの構成学習に関する理論的・実験的検討

A Survey on Compositional Learning of AI Models: Theoretical and Experimetnal Practices ( http://arxiv.org/abs/2406.08787v1 )

ライセンス: Link先を確認
Sania Sinha, Tanawan Premsri, Parisa Kordjamshidi, (参考訳) 基本的な概念を組み合わせてより複雑な概念を構築する能力を習得する構成学習は、人間の認知、特に人間の言語理解と視覚知覚において不可欠である。 この概念は、観測されていない状況に対する一般化と密接に関連している。 インテリジェンスにおいて重要な役割を担っているにもかかわらず、体系的な理論的、実験的研究手法が欠如しており、計算モデルの構成学習能力を解析することは困難である。 本稿では,AIモデルの構成学習に関する文献と,認知研究との関連について調査する。 我々は、認知言語学における構成性の抽象概念を識別し、これらを合成推論において言語や視覚モデルが直面する計算課題に結びつける。 フォーマルな定義、タスク、評価ベンチマーク、様々な計算モデル、理論的発見について概説する。 我々は、最先端のAIモデルによって示される最先端の合成能力をより深く理解するために、大規模言語モデルに関する最新の研究をカバーし、将来の研究にとって重要な方向を示す。

Compositional learning, mastering the ability to combine basic concepts and construct more intricate ones, is crucial for human cognition, especially in human language comprehension and visual perception. This notion is tightly connected to generalization over unobserved situations. Despite its integral role in intelligence, there is a lack of systematic theoretical and experimental research methodologies, making it difficult to analyze the compositional learning abilities of computational models. In this paper, we survey the literature on compositional learning of AI models and the connections made to cognitive studies. We identify abstract concepts of compositionality in cognitive and linguistic studies and connect these to the computational challenges faced by language and vision models in compositional reasoning. We overview the formal definitions, tasks, evaluation benchmarks, variety of computational models, and theoretical findings. We cover modern studies on large language models to provide a deeper understanding of the cutting-edge compositional capabilities exhibited by state-of-the-art AI models and pinpoint important directions for future research.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# グラフ上の分布シフトにおけるリンク予測子の一般化可能性の理解

Understanding the Generalizability of Link Predictors Under Distribution Shifts on Graphs ( http://arxiv.org/abs/2406.08788v1 )

ライセンス: Link先を確認
Jay Revolinsky, Harry Shomer, Jiliang Tang, (参考訳) 近年、リンク予測(LP)のために提案された複数のモデルが、ベンチマークデータセット上で印象的な結果を示している。 しかし、人気のあるベンチマークデータセットの多くは、データセットのサンプルが同じ分布(IIDサンプル)から引き出されると仮定することが多い。 制御されていない要因は、列車とテストサンプルを別々の分布から導き出す可能性があるためである。 分散シフト問題に対処するため、最近の研究は、分散シフトを特徴とするデータセットの作成と、新しいデータでうまく機能する一般化手法の設計に重点を置いている。 しかしながら、これらの研究は {\it node-} および {\it graph-level} タスクに影響を与える分布シフトのみを考慮し、したがってリンクレベルタスクを無視する。 さらに、比較的少ないLP一般化法が存在する。 このギャップを埋めるために、構造特性を利用して制御された分散シフトを誘導するLP特化データスプリットのセットを導入する。 我々は、異なるSOTA LP手法の評価により、シフトの効果を実証的に検証し、その後、これらの手法を一般化手法と組み合わせる。 興味深いことに、LP特有の手法は、ヒューリスティックスや基本的なGNN手法とあまり関係がないことをしばしば一般化する。 最後に、この研究はLP一般化を強化するための洞察を明らかにするための分析を提供する。 私たちのコードは以下の通りである。 \href{https://github.com/revolins/LPStructGen}{https://github.com/LPStructGen}

Recently, multiple models proposed for link prediction (LP) demonstrate impressive results on benchmark datasets. However, many popular benchmark datasets often assume that dataset samples are drawn from the same distribution (i.e., IID samples). In real-world situations, this assumption is often incorrect; since uncontrolled factors may lead train and test samples to come from separate distributions. To tackle the distribution shift problem, recent work focuses on creating datasets that feature distribution shifts and designing generalization methods that perform well on the new data. However, those studies only consider distribution shifts that affect {\it node-} and {\it graph-level} tasks, thus ignoring link-level tasks. Furthermore, relatively few LP generalization methods exist. To bridge this gap, we introduce a set of LP-specific data splits which utilizes structural properties to induce a controlled distribution shift. We verify the shift's effect empirically through evaluation of different SOTA LP methods and subsequently couple these methods with generalization techniques. Interestingly, LP-specific methods frequently generalize poorly relative to heuristics or basic GNN methods. Finally, this work provides analysis to uncover insights for enhancing LP generalization. Our code is available at: \href{https://github.com/revolins/LPStructGen}{https://github.com/revolins/LPStructGen}
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# 多光子ハイパーエンタングルメントの直接生成

Direct generation of multi-photon hyperentanglement ( http://arxiv.org/abs/2406.08790v1 )

ライセンス: Link先を確認
Peng Zhao, Jia-Wei Ying, Meng-Ying Yang, Wei Zhong, Ming-Ming Du, Shu-Ting Shen, Yun-Xi Li, An-Lei Zhang, Lan Zhou, Yu-Bo Sheng, (参考訳) 多光子ハイパーアンタングメントは、光量子情報処理において基本的な重要性である。 既存の理論と多光子ハイパーエンタングル状態の生成実験は、これまで、望まれる状態に対応する測定結果のみを考慮に入れた結果の選択に頼っていた。 このようなアプローチは、結果として生じる超絡み合った状態の有用性を著しく制限する。 本稿では,3光子および4光子ハイパーアングルメントの直接生成プロトコルを提案し,自発パラメトリックダウンコンバージョン(SPDC)源の簡単なカスケードを通して任意の光子にアプローチを拡張した。 生成した多光子超絡み合った状態は、それぞれ分極-空間モードと分極-時間2自由度で符号化される。 数値計算により、平均光子数$\mu$が1に設定された場合、ダウンコンバージョン効率は7.6*10^{-6}$で、レーザーの繰り返し周波数は10^9$ Hzであり、カスケード後の3光子と4光子ハイパーエンタングルメントの生成数は、それぞれ5.78*10^{-2}$と4.44*10^{-7}$対である。 提案プロトコルは,結果選択後の制約を排除し,多光子ハイパーエンタングメント生成の重要な進歩を表現し,将来の多人数・高容量通信ネットワークにおいて重要な役割を担っている。

Multi-photon hyperentangement is of fundamental importance in optical quantum information processing. Existing theory and experiment producing multi-photon hyperentangled states have until now relied on the outcome post-selection, a procedure where only the measurement results corresponding to the desired state are considered. Such approach severely limits the usefulness of the resulting hyperentangled states. We present the protocols of direct production of three- and four-photon hyperentanglement and extend the approach to an arbitrary number of photons through a straightforward cascade of spontaneous parametric down-conversion (SPDC) sources. The generated multi-photon hyperentangled states are encoded in polarization-spatial modes and polarization-time bin degrees of freedom, respectively. Numerical calculation shows that if the average photon number $\mu$ is set to 1, the down conversion efficiency is $7.6*10^{-6}$ and the repetition frequency of the laser is $10^9$ Hz, the number of the generation of three-photon and four-photon hyperentanglement after cascading can reach about $5.78*10^{-2}$ and $4.44*10^{-7}$ pairs per second, respectively. By eliminating the constraints of outcome post-selection, our protocols may represent important progresses for multi-photon hyperentangement generation and providing a pivotal role in future multi-party and high-capacity communication networks.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# インストラクションチューニングにおけるクロスリンガルゼロショット一般化の深部探索

Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning ( http://arxiv.org/abs/2406.08796v1 )

ライセンス: Link先を確認
Janghoon Han, Changho Lee, Joongbo Shin, Stanley Jungkyu Choi, Honglak Lee, Kynghoon Bae, (参考訳) 命令チューニングは強力なテクニックとして登場し、目に見えないタスクにおけるゼロショットのパフォーマンスを大幅に向上させた。 最近の研究は多言語モデルに命令チューニングを適用することで言語間一般化を探求しているが、従来の研究は主に英語に焦点を当てており、英語以外のタスクを限定的に探究している。 命令チューニングにおける言語間一般化の詳細な検討を行うため、2つの異なる言語メタデータセットに対して個別に命令チューニングを行う。 その後、トレーニングで使用するものとは異なる言語で、目に見えないタスクのパフォーマンスを評価する。 本研究では,韓国の51のベンチマークからなる非英語メタデータセット「KORANI(Korean Natural Instruction)」について紹介する。 さらに、言語間の差異を軽減するために、言語間テンプレートを設計し、言語間設定におけるトレーニングと推論の間のテンプレートの命令形式を規定する。 実験の結果,英語と韓国語の言語間一般化による一貫した改善が見られ,平均スコアは20.7\%,平均スコアは13.6\%であった。 注目すべきは、これらの拡張は単言語命令のチューニングによって達成されたものと同等であり、一部のタスクではそれらを上回っていることだ。 この結果から,言語間の関連データ取得の重要性が示唆された。

Instruction tuning has emerged as a powerful technique, significantly boosting zero-shot performance on unseen tasks. While recent work has explored cross-lingual generalization by applying instruction tuning to multilingual models, previous studies have primarily focused on English, with a limited exploration of non-English tasks. For an in-depth exploration of cross-lingual generalization in instruction tuning, we perform instruction tuning individually for two distinct language meta-datasets. Subsequently, we assess the performance on unseen tasks in a language different from the one used for training. To facilitate this investigation, we introduce a novel non-English meta-dataset named "KORANI" (Korean Natural Instruction), comprising 51 Korean benchmarks. Moreover, we design cross-lingual templates to mitigate discrepancies in language and instruction-format of the template between training and inference within the cross-lingual setting. Our experiments reveal consistent improvements through cross-lingual generalization in both English and Korean, outperforming baseline by average scores of 20.7\% and 13.6\%, respectively. Remarkably, these enhancements are comparable to those achieved by monolingual instruction tuning and even surpass them in some tasks. The result underscores the significance of relevant data acquisition across languages over linguistic congruence with unseen tasks during instruction tuning.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# 布楽(ふうら):四級下級順応

FouRA: Fourier Low Rank Adaptation ( http://arxiv.org/abs/2406.08798v1 )

ライセンス: Link先を確認
Shubhankar Borse, Shreya Kadambi, Nilesh Prasad Pandey, Kartikeya Bhardwaj, Viswanath Ganapathy, Sweta Priyadarshi, Risheek Garrepalli, Rafael Esteves, Munawar Hayat, Fatih Porikli, (参考訳) Low-Rank Adaptation (LoRA) は大規模モデルを効率的に微調整するのに有用であることが証明されているが、LoRAの微調整されたテキスト・ツー・イメージ拡散モデルは、観察されたトレーニングサンプルからデータをコピーする傾向にあるため、生成された画像の多様性を欠いている。 この効果は、より高いアダプタ強度の値と、より小さなデータセットで微調整されたより高いランクのアダプタでより顕著になる。 これらの課題に対処するため、FouRAは、フレキシブルな入力依存型アダプタランク選択戦略の学習とともに、フーリエ領域におけるプロジェクションを学習する新しい低ランク手法である。 広範にわたる実験と解析により、FouRAは、生成した画像の品質を著しく向上させながら、データの複写や分布の崩壊に関わる問題の解決に成功していることを示す。 我々はFouRAが適応階数選択により微調整モデルの一般化を促進することを示した。 さらに、周波数領域における学習されたプロジェクションは非相関であり、複数のアダプタをマージする場合に有効であることを示す。 FouRAはビジョンタスクをモチベーションとしているが、GLUEベンチマークでは言語タスクのメリットも示している。

While Low-Rank Adaptation (LoRA) has proven beneficial for efficiently fine-tuning large models, LoRA fine-tuned text-to-image diffusion models lack diversity in the generated images, as the model tends to copy data from the observed training samples. This effect becomes more pronounced at higher values of adapter strength and for adapters with higher ranks which are fine-tuned on smaller datasets. To address these challenges, we present FouRA, a novel low-rank method that learns projections in the Fourier domain along with learning a flexible input-dependent adapter rank selection strategy. Through extensive experiments and analysis, we show that FouRA successfully solves the problems related to data copying and distribution collapse while significantly improving the generated image quality. We demonstrate that FouRA enhances the generalization of fine-tuned models thanks to its adaptive rank selection. We further show that the learned projections in the frequency domain are decorrelated and prove effective when merging multiple adapters. While FouRA is motivated for vision tasks, we also demonstrate its merits for language tasks on the GLUE benchmark.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# Pareto Front-Diverse Batch Multi-Objective Bayesian Optimization

Pareto Front-Diverse Batch Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2406.08799v1 )

ライセンス: Link先を確認
Alaleh Ahmadianshalchi, Syrine Belakaria, Janardhan Rao Doppa, (参考訳) 我々は,高額なブラックボックス関数の多目的最適化(MOO)の問題を考える。 この問題は、ペニシリン生産を含む多くの現実世界の応用において、解の多様性が重要となる。 ベイズ最適化(BO)の枠組みでこの問題を解決し、Pareto Front-Diverse Batch Multi-Objective BO(PDBO)と呼ばれる新しいアプローチを提案する。 PDBOは2つの重要な課題に取り組む。 1)BOイテレーション毎に最適な獲得関数を自動的に選択する方法、および 2)複数の目的を考慮して多様な入力のバッチを選択する方法。 これら2つの課題に対処するための原則的解決策を提案する。 まず、PDBOは、与えられたライブラリから1つの取得関数を選択するために、マルチアームのバンディットアプローチを採用する。 我々は、選択した取得関数を高価な対象関数毎に割り当て、評価のための入力の候補セットを得ることで、安価なMOO問題を解決する。 第2に、決定点プロセス(DPP)を使用して、第1ステップから得られた候補集合から評価するために、パレート前後の入力のバッチを選択する。 これら2つのステップの背後にあるメソッドのキーパラメータは、各関数評価のラウンド後に更新される。 複数のMOOベンチマークの実験では、PDBOはParetoソリューションの品質と多様性の両方において、従来の手法よりも優れていた。

We consider the problem of multi-objective optimization (MOO) of expensive black-box functions with the goal of discovering high-quality and diverse Pareto fronts where we are allowed to evaluate a batch of inputs. This problem arises in many real-world applications including penicillin production where diversity of solutions is critical. We solve this problem in the framework of Bayesian optimization (BO) and propose a novel approach referred to as Pareto front-Diverse Batch Multi-Objective BO (PDBO). PDBO tackles two important challenges: 1) How to automatically select the best acquisition function in each BO iteration, and 2) How to select a diverse batch of inputs by considering multiple objectives. We propose principled solutions to address these two challenges. First, PDBO employs a multi-armed bandit approach to select one acquisition function from a given library. We solve a cheap MOO problem by assigning the selected acquisition function for each expensive objective function to obtain a candidate set of inputs for evaluation. Second, it utilizes Determinantal Point Processes (DPPs) to choose a Pareto-front-diverse batch of inputs for evaluation from the candidate set obtained from the first step. The key parameters for the methods behind these two steps are updated after each round of function evaluations. Experiments on multiple MOO benchmarks demonstrate that PDBO outperforms prior methods in terms of both the quality and diversity of Pareto solutions.
翻訳日:2024-06-14 21:28:25 公開日:2024-06-13
# 生成基礎モデルからの合成音声は音声認識と音声モデリングを支援するか?

Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling? ( http://arxiv.org/abs/2406.08800v1 )

ライセンス: Link先を確認
Tiantian Feng, Dimitrios Dimitriadis, Shrikanth Narayanan, (参考訳) 基礎モデルの最近の進歩は、音楽、イベント、人間の行動に関連する高忠実な音を生成するオーディオ生成モデルを可能にしている。 現代のオーディオ生成モデルで成功したにもかかわらず、オーディオ生成の品質を評価する従来のアプローチは、Frechet Audio Distanceのような距離メトリクスに大きく依存している。 一方,本研究では,学習データとしての音質評価を行ない,音質評価を行おうとしている。 具体的には,音声認識における合成音声の利用について検討する。 さらに,音声関連モデリングにおいて,合成音声がデータ拡張の資源となるかどうかを検討する。 包括的実験により,音声認識や音声関連モデリングに合成音声を用いる可能性が示された。 私たちのコードはhttps://github.com/usc-sail/SynthAudio.comで公開されています。

Recent advances in foundation models have enabled audio-generative models that produce high-fidelity sounds associated with music, events, and human actions. Despite the success achieved in modern audio-generative models, the conventional approach to assessing the quality of the audio generation relies heavily on distance metrics like Frechet Audio Distance. In contrast, we aim to evaluate the quality of audio generation by examining the effectiveness of using them as training data. Specifically, we conduct studies to explore the use of synthetic audio for audio recognition. Moreover, we investigate whether synthetic audio can serve as a resource for data augmentation in speech-related modeling. Our comprehensive experiments demonstrate the potential of using synthetic audio for audio recognition and speech-related modeling. Our code is available at https://github.com/usc-sail/SynthAudio.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# Hallo: ポートレート画像アニメーションのための階層型オーディオ駆動型ビジュアル合成

Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation ( http://arxiv.org/abs/2406.08801v1 )

ライセンス: Link先を確認
Mingwang Xu, Hui Li, Qingkun Su, Hanlin Shang, Liwei Zhang, Ce Liu, Jingdong Wang, Luc Van Gool, Yao Yao, Siyu Zhu, (参考訳) 音声入力によって駆動される肖像画アニメーションの分野は、現実的でダイナミックな肖像画の生成において大きな進歩を経験してきた。 この研究は、拡散に基づく手法の枠組みの中で、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さについて考察する。 中間顔表現のパラメトリックモデルに依存する従来のパラダイムから離れ、我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、音声入力と視覚出力のアライメントの精度を高め、唇、表情、ポーズ動作を包含する階層的な音声駆動視覚合成モジュールを導入している。 提案するネットワークアーキテクチャは,拡散に基づく生成モデル,UNetに基づくデノイザ,時間的アライメント手法,参照ネットワークをシームレスに統合する。 提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。 質的および定量的な分析の両方を取り入れた総合的な評価を通じて, 画像および映像品質, 唇同期精度, 動きの多様性の明らかな向上を示す。 ソースコードへのさらなる視覚化とアクセスは、https://fudan-generative-vision.github.io/hallo.comで見ることができる。

The field of portrait image animation, driven by speech audio input, has experienced significant advancements in the generation of realistic and dynamic portraits. This research delves into the complexities of synchronizing facial movements and creating visually appealing, temporally consistent animations within the framework of diffusion-based methodologies. Moving away from traditional paradigms that rely on parametric models for intermediate facial representations, our innovative approach embraces the end-to-end diffusion paradigm and introduces a hierarchical audio-driven visual synthesis module to enhance the precision of alignment between audio inputs and visual outputs, encompassing lip, expression, and pose motion. Our proposed network architecture seamlessly integrates diffusion-based generative models, a UNet-based denoiser, temporal alignment techniques, and a reference network. The proposed hierarchical audio-driven visual synthesis offers adaptive control over expression and pose diversity, enabling more effective personalization tailored to different identities. Through a comprehensive evaluation that incorporates both qualitative and quantitative analyses, our approach demonstrates obvious enhancements in image and video quality, lip synchronization precision, and motion diversity. Further visualization and access to the source code can be found at: https://fudan-generative-vision.github.io/hallo.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# 手術理論における漸近的Birkhoff-Violation:熱力学的含意と情報処理

Asymptotic Birkhoff-Violation in Operational Theories: Thermodynamic Implications and Information Processing ( http://arxiv.org/abs/2406.08803v1 )

ライセンス: Link先を確認
Ananya Chakraborty, Sahil Gopalkrishna Naik, Samrat Sen, Ram Krishna Patra, Pratik Ghosal, Mir Alimuddin, Manik Banik, (参考訳) 熱力学のエントロピー原理に従って、自然進化の下では、物理系は常に等しいあるいはより大きなランダム性を持つ状態へと進化する。 しかし、このランダム性はどこから生まれるのか? バーホフ=ヴォン・ノイマンの定理(バーホフ=ヴォン・ノイマンのていり、英: Renowned Birkhoff-von Neumann theorem)は、バーホフの定理(英: Birkhoff-von Neumann theorem)と呼ばれ、このランダム性の源は研究中のシステムに対する可逆的操作の確率的応用であり、それによってその疫学的な起源を確実にするものである。 この定理のアナローグは量子の場合で失敗することが知られている。 ここでは、この研究を量子力学を超えて、一般確率論(GPT)の枠組みの中で記述されたより広範な操作理論のクラスに拡張する。 この一般化された枠組みでは、バーホフ-違反は一般的な性質として成立し、実際、定理の漸近的変種は破られる。 そして、GPTにおけるバーホフの違反は、量子論に非典型的な結果をもたらすことを実証する。 例えば、Birkhoff-violationの出現を通信タスクで報告し、それ以外は量子世界では観測されない。 また、量子の場合とは異なり、他の操作理論では、状態変換基準は可逆変換と二重確率進化の混合の下で区別され、純粋性の異なる資源理論が導かれることを示す。 これらのエキゾチックな含意にもかかわらず、この一般化されたフレームワークにおいてエントロピーのコヒーレントな概念を定義する方法を解析し、フォン・ノイマンの思考実験との整合性を維持した。

In accordance with the entropy principle of thermodynamics, under spontaneous evolutions, physical systems always evolve towards states with equal or greater randomness. But, where does this randomness originate? Renowned Birkhoff-von Neumann theorem, often referred to as Birkhoff theorem, identifies source of this randomness to be the stochastic application of reversible operations on the system under study, thereby ensuring its epistemic origin. Analogue of this theorem is known to fail in the quantum case. Here, we extend this investigation beyond quantum mechanics to a broader class of operational theories described within the framework of general probabilistic theories (GPTs). In this generalized framework, we establish Birkhoff-violation as the prevalent trait; in fact the asymptotic variant of the theorem gets violated. We then demonstrate that Birkhoff-violation in GPTs can lead to consequences that are atypical to quantum theory. For instance, we report manifestation of Birkhoff-violation in a communication task, which otherwise is not observed in quantum world. We also show that, unlike the quantum case, in other operational theories the state transformation criteria can be distinct under mixtures of reversible transformations and doubly stochastic evolutions, leading to different resource theories of purity. Despite these exotic implications, we analyze how to define a coherent notion of entropy in this generalized framework, while upholding alignment with von Neumann's thought experiment.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# DIET:シークエンシャルレコメンデーションにおける非互換ネットワークのためのカスタマイズスライミング

DIET: Customized Slimming for Incompatible Networks in Sequential Recommendation ( http://arxiv.org/abs/2406.08804v1 )

ライセンス: Link先を確認
Kairui Fu, Shengyu Zhang, Zheqi Lv, Jingyuan Chen, Jiwei Li, (参考訳) モバイルエッジの継続的な改善により、レコメンダシステムは、頻繁なモバイル要求によるネットワークの混雑を軽減するために、エッジにモデルをデプロイし始める。 いくつかの研究はエッジ側とリアルタイムデータの近接を利用して、エッジ固有のモデルを作成するように微調整している。 その大きな進歩にもかかわらず、これらの手法は、モデルを最新の状態に保つために、相当量の最先端の計算資源と頻繁なネットワーク転送を必要とする。 前者はエッジ上の他のプロセスを破壊して計算資源を取得し、後者はネットワーク帯域を消費し、ユーザの満足度は低下する。 これらの課題に対応するために、不適合なneTworks(DIET)のためのカスタマイズされたslImmingフレームワークを提案する。 DIETは、すべてのデバイスに同じ一般的なバックボーン(潜在的に特定のエッジと互換性がない)をデプロイする。 パーソナライズにおける頻繁な帯域使用量とストレージ使用量を最小化するために、DIETは過去のインタラクションに基づいてエッジごとに特定のサブネットを調整し、効率よく転送するために非互換ネットワーク内でスリム化サブネット(ダイエット)を生成する。 また、層間関係を考慮に入れ、推論時間を経験的に短縮し、より適切な食事を得る。 さらに、ネットワーク内の繰り返しモジュールを探索し、ネットワーク全体を表現するためにパラメータの単一層を利用するよりストレージ効率のよいフレームワークDIETINGを提案する。 4つの最先端データセットと2つの広く利用されているモデルによる実験は、我々のフレームワークの送信と保存における推奨と効率の優れた精度を示す。

Due to the continuously improving capabilities of mobile edges, recommender systems start to deploy models on edges to alleviate network congestion caused by frequent mobile requests. Several studies have leveraged the proximity of edge-side to real-time data, fine-tuning them to create edge-specific models. Despite their significant progress, these methods require substantial on-edge computational resources and frequent network transfers to keep the model up to date. The former may disrupt other processes on the edge to acquire computational resources, while the latter consumes network bandwidth, leading to a decrease in user satisfaction. In response to these challenges, we propose a customizeD slImming framework for incompatiblE neTworks(DIET). DIET deploys the same generic backbone (potentially incompatible for a specific edge) to all devices. To minimize frequent bandwidth usage and storage consumption in personalization, DIET tailors specific subnets for each edge based on its past interactions, learning to generate slimming subnets(diets) within incompatible networks for efficient transfer. It also takes the inter-layer relationships into account, empirically reducing inference time while obtaining more suitable diets. We further explore the repeated modules within networks and propose a more storage-efficient framework, DIETING, which utilizes a single layer of parameters to represent the entire network, achieving comparably excellent performance. The experiments across four state-of-the-art datasets and two widely used models demonstrate the superior accuracy in recommendation and efficiency in transmission and storage of our framework.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# オフラインデータセットを用いた観測からの模倣学習のための2元的アプローチ

A Dual Approach to Imitation Learning from Observations with Offline Datasets ( http://arxiv.org/abs/2406.08805v1 )

ライセンス: Link先を確認
Harshit Sikchi, Caleb Chuck, Amy Zhang, Scott Niekum, (参考訳) 報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。 しかし、ロボットが複雑で直観的でない形態を持つとき、エージェントのアクション空間における専門家の振る舞いを示すことは、不安になる。 エージェントが環境との事前の相互作用のデータセットを持ち、観察のみの専門家による実演を行う現実的な環境について考察する。 観察的アプローチからの典型的な学習は、逆ダイナミクスモデルを学ぶか、訓練の中間段階として識別器を学ぶ必要がある。 これらの中間的なワンステップモデルのエラーは、下流のポリシー学習やデプロイメント中に複雑になる。 これらの制限を克服するために、各アクションが専門家の訪問分布からエージェントの発散に与える影響を定量化する多段階ユーティリティ関数を直接学習する。 双対性の原理を用いて、専門家の行動を必要とせず、任意の準最適データを利用して模倣ポリシーを学習するアルゴリズムであるDILO(Dual Imitation Learning from Observations)を導出する。 DILOは、観測問題からの学習を、単にアクターと批評家を学ぶことの学習に還元し、バニラのオフラインRLと同じような複雑さを持つ。 これにより、DILOは高次元の観察に優雅にスケールでき、ボード全体のパフォーマンス向上を示すことができる。 プロジェクトページ (コードとビデオ): $\href{https://hari-sikchi.github.io/dilo/}{\text{hari-sikchi.github.io/dilo/}}$

Demonstrations are an effective alternative to task specification for learning agents in settings where designing a reward function is difficult. However, demonstrating expert behavior in the action space of the agent becomes unwieldy when robots have complex, unintuitive morphologies. We consider the practical setting where an agent has a dataset of prior interactions with the environment and is provided with observation-only expert demonstrations. Typical learning from observations approaches have required either learning an inverse dynamics model or a discriminator as intermediate steps of training. Errors in these intermediate one-step models compound during downstream policy learning or deployment. We overcome these limitations by directly learning a multi-step utility function that quantifies how each action impacts the agent's divergence from the expert's visitation distribution. Using the principle of duality, we derive DILO(Dual Imitation Learning from Observations), an algorithm that can leverage arbitrary suboptimal data to learn imitating policies without requiring expert actions. DILO reduces the learning from observations problem to that of simply learning an actor and a critic, bearing similar complexity to vanilla offline RL. This allows DILO to gracefully scale to high dimensional observations, and demonstrate improved performance across the board. Project page (code and videos): $\href{https://hari-sikchi.github.io/dilo/}{\text{hari-sikchi.github.io/dilo/}}$
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# まだいるの? 音楽感情予測データセット, モデル, 課題の概観

Are we there yet? A brief survey of Music Emotion Prediction Datasets, Models and Outstanding Challenges ( http://arxiv.org/abs/2406.08809v1 )

ライセンス: Link先を確認
Jaeyong Kang, Dorien Herremans, (参考訳) 音楽の深層学習モデルはここ数年で飛躍的に進歩している。 しかし、最近の機械学習モデルは、感情を捉えるのにどれくらい優れているのか、研究者が直面している課題は何か? 本稿では、利用可能な音楽感情データセットの概要を概観し、現場でのコンペと同様に評価基準について議論する。 また,長年にわたって構築されてきた様々な音楽感情予測モデルの概要について概説し,この分野における様々なアプローチについて考察する。 本研究では,音楽の感情を正確に捉え続ける上での課題を明らかにする。 このフィールドのダイナミックな性質を認識して、私たちの発見を補完するGitHubリポジトリを用意しました。 このリポジトリには、音楽感情データセットと最近の予測モデルの全リストが含まれている。

Deep learning models for music have advanced drastically in the last few years. But how good are machine learning models at capturing emotion these days and what challenges are researchers facing? In this paper, we provide a comprehensive overview of the available music-emotion datasets and discuss evaluation standards as well as competitions in the field. We also provide a brief overview of various types of music emotion prediction models that have been built over the years, offering insights into the diverse approaches within the field. Through this examination, we highlight the challenges that persist in accurately capturing emotion in music. Recognizing the dynamic nature of this field, we have complemented our findings with an accompanying GitHub repository. This repository contains a comprehensive list of music emotion datasets and recent predictive models.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# カテゴリー非依存登録学習による少数ショット異常検出

Few-Shot Anomaly Detection via Category-Agnostic Registration Learning ( http://arxiv.org/abs/2406.08810v1 )

ライセンス: Link先を確認
Chaoqin Huang, Haoyan Guan, Aofan Jiang, Yanfeng Wang, Michael Spratling, Xinchao Wang, Ya Zhang, (参考訳) 既存のほとんどの異常検出方法は、各カテゴリに専用のモデルを必要とする。 このようなパラダイムは、有望な結果にもかかわらず、計算に高価で非効率であるため、現実世界のアプリケーションに必要な要件を満たしていない。 人間が異常を検知する方法に触発され、クエリ画像を既知の正常画像と比較することにより、新しい数発異常検出(FSAD)フレームワークを提案する。 各種カテゴリからの正規画像のトレーニングセットを用いて、同一カテゴリの正規画像の整列を目的とした登録を、自己教師型カテゴリ非依存表現学習のプロキシタスクとして活用する。 テスト時には、同一カテゴリから数個の通常画像からなる画像とその対応する支持セットが供給され、テスト画像の登録された特徴と対応する支持画像特徴とを比較して異常を識別する。 このような設定により、モデルは新しいテストカテゴリに一般化できる。 我々の知る限りでは、新しいカテゴリのモデル微調整を必要としない最初のFSAD手法である。 大規模実験により提案手法の有効性が示された。 特に、MVTecベンチマークとMPDDベンチマークでは、FSADの現状を11.3%改善し、8.3%改善している。 ソースコードはhttps://github.com/Haoyan-Guan/CARegで入手できる。

Most existing anomaly detection methods require a dedicated model for each category. Such a paradigm, despite its promising results, is computationally expensive and inefficient, thereby failing to meet the requirements for real-world applications. Inspired by how humans detect anomalies, by comparing a query image to known normal ones, this paper proposes a novel few-shot anomaly detection (FSAD) framework. Using a training set of normal images from various categories, registration, aiming to align normal images of the same categories, is leveraged as the proxy task for self-supervised category-agnostic representation learning. At test time, an image and its corresponding support set, consisting of a few normal images from the same category, are supplied, and anomalies are identified by comparing the registered features of the test image to its corresponding support image features. Such a setup enables the model to generalize to novel test categories. It is, to our best knowledge, the first FSAD method that requires no model fine-tuning for novel categories: enabling a single model to be applied to all categories. Extensive experiments demonstrate the effectiveness of the proposed method. Particularly, it improves the current state-of-the-art for FSAD by 11.3% and 8.3% on the MVTec and MPDD benchmarks, respectively. The source code is available at https://github.com/Haoyan-Guan/CAReg.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# Mixture-of-Skills: 大規模言語モデルのためのデータ利用を最適化する学習

Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models ( http://arxiv.org/abs/2406.08811v1 )

ライセンス: Link先を確認
Minghao Wu, Thuy-Trang Vu, Lizhen Qu, Gholamreza Haffari, (参考訳) 大規模言語モデル(LLM)は通常、様々な起源から派生した多種多様なデータセットに基づいて微調整され、書き込み、推論、チャット、コーディングなどの包括的なスキルを開発する。 それぞれのスキルには固有の特徴があり、これらのデータセットはしばしば異質で不均衡であり、微調整プロセスは非常に困難である。 モデル全体のパフォーマンスを確実に維持しながら、各スキルの開発をバランスさせるには、高度な技術と慎重にデータセットをキュレーションする必要があります。 本研究では,モデルに依存しない強化学習フレームワークであるMixture-of-Skills(MoS)を提案する。 このフレームワークは、現在の学習状況に基づいて異なるデータセットにフォーカスを動的に調整することで、LLMの最適な総合的スキル開発を保証する。 MoSの有効性を検証するために,広範に使用されている2つのベンチマークにおいて,3つの異なるLCMバックボーンを用いた広範囲な実験を行い,MoSがモデル性能を大幅に向上することを示した。 MoS の成功に基づいて,タスク固有の微調整の適応である MoSpec を提案する。 我々の研究はデータセット再バランスの重要性を浮き彫りにして、様々な目的のためにLLMを微調整する際のデータ利用を最適化する強力な汎用ソリューションとして、MoSを提示する。

Large language models (LLMs) are typically fine-tuned on diverse and extensive datasets sourced from various origins to develop a comprehensive range of skills, such as writing, reasoning, chatting, coding, and more. Each skill has unique characteristics, and these datasets are often heterogeneous and imbalanced, making the fine-tuning process highly challenging. Balancing the development of each skill while ensuring the model maintains its overall performance requires sophisticated techniques and careful dataset curation. In this work, we propose a general, model-agnostic, reinforcement learning framework, Mixture-of-Skills (MoS), that learns to optimize data usage automatically during the fine-tuning process. This framework ensures the optimal comprehensive skill development of LLMs by dynamically adjusting the focus on different datasets based on their current learning state. To validate the effectiveness of MoS, we conduct extensive experiments using three diverse LLM backbones on two widely used benchmarks and demonstrate that MoS substantially enhances model performance. Building on the success of MoS, we propose MoSpec, an adaptation for task-specific fine-tuning, which harnesses the utilities of various datasets for a specific purpose. Our work underlines the significance of dataset rebalancing and present MoS as a powerful, general solution for optimizing data usage in the fine-tuning of LLMs for various purposes.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# Skim then Focus: 反復行動計数のための文脈的・きめ細かい視点の統合

Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting ( http://arxiv.org/abs/2406.08814v1 )

ライセンス: Link先を確認
Zhengqi Zhao, Xiaohu Huang, Hao Zhou, Kun Yao, Errui Ding, Jingdong Wang, Xinggang Wang, Wenyu Liu, Bin Feng, (参考訳) アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。 アクションに属する各フレームの確率を直接見積もる代わりに、2段階の方法で動作するデュアルブランチネットワーク(SkimFocusNet)を提案する。 このモデルは実験的な観察からインスピレーションを得て、人間が通常、一般的なアクションパターンを最初に把握するためにシーケンス全体の粗いスキミングに従事し、続いて、ターゲットのアクションと整合するかどうかを決定するための、より細いフレーム単位のフォーカスが続くことを示す。 具体的には、SkimFocusNetにはスキムブランチとフォーカスブランチが組み込まれている。 skimブランチはシーケンス全体を通してグローバルなコンテキスト情報をスキャンして、ガイダンスのための潜在的ターゲットアクションを特定する。 その後、フォーカスブランチは、長短適応誘導(LSAG)ブロックを用いて、繰り返し動作を丁寧に識別するためにガイダンスを利用する。 さらに、既存のデータセットにあるビデオは、1つの反復的なアクションのみを特徴としており、現実のシナリオを不十分に表現していることも分かっています。 実生活状況をより正確に記述するために,複数の反復動作を含むビデオを含むマルチRepCountデータセットを構築した。 Multi-RepCountでは、SkimFoucsNetが特定のアクションカウント、つまり、模範的なビデオを参照することで、特定のアクションタイプをカウントできる。 この能力は我々の手法の堅牢性を示す。 大規模な実験では、SkimFocusNetは最先端のパフォーマンスと大幅な改善を実現している。 また、ネットワークコンポーネントを評価するための徹底的なアブレーション研究も行います。 ソースコードは受理時に公開される。

The key to action counting is accurately locating each video's repetitive actions. Instead of estimating the probability of each frame belonging to an action directly, we propose a dual-branch network, i.e., SkimFocusNet, working in a two-step manner. The model draws inspiration from empirical observations indicating that humans typically engage in coarse skimming of entire sequences to grasp the general action pattern initially, followed by a finer, frame-by-frame focus to determine if it aligns with the target action. Specifically, SkimFocusNet incorporates a skim branch and a focus branch. The skim branch scans the global contextual information throughout the sequence to identify potential target action for guidance. Subsequently, the focus branch utilizes the guidance to diligently identify repetitive actions using a long-short adaptive guidance (LSAG) block. Additionally, we have observed that videos in existing datasets often feature only one type of repetitive action, which inadequately represents real-world scenarios. To more accurately describe real-life situations, we establish the Multi-RepCount dataset, which includes videos containing multiple repetitive motions. On Multi-RepCount, our SkimFoucsNet can perform specified action counting, that is, to enable counting a particular action type by referencing an exemplary video. This capability substantially exhibits the robustness of our method. Extensive experiments demonstrate that SkimFocusNet achieves state-of-the-art performances with significant improvements. We also conduct a thorough ablation study to evaluate the network components. The source code will be published upon acceptance.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# ToSA:効率的な視覚変換器のためのToken Selective Attention

ToSA: Token Selective Attention for Efficient Vision Transformers ( http://arxiv.org/abs/2406.08816v1 )

ライセンス: Link先を確認
Manish Kumar Singh, Rajeev Yasarla, Hong Cai, Mingu Lee, Fatih Porikli, (参考訳) 本稿では,新しいトークン選択型アテンションアプローチであるToSAを提案する。 具体的には、トークンセレクタが現在のアテンションマップを解析し、次のレイヤのアテンションマップを予測する。 残りのトークンは単純に次のレイヤをバイパスし、関連するトークンと結合して完全なトークンの集合を再構成する。 このようにして、ネットワーク全体にわたるすべてのイメージパッチの機能を維持しながら、トークンが自己アテンションに参加することが少なくなるにつれて、二次計算とメモリコストを削減し、より密集した予測タスクに使用できるようにした。 実験の結果,ToSAを適用すれば,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることがわかった。 さらに,NYU深度V2における単眼深度推定の高密度予測タスクについて検討し,ToSAを用いたより軽量なバックボーンを用いて類似した深度予測精度が得られることを示す。

In this paper, we propose a novel token selective attention approach, ToSA, which can identify tokens that need to be attended as well as those that can skip a transformer layer. More specifically, a token selector parses the current attention maps and predicts the attention maps for the next layer, which are then used to select the important tokens that should participate in the attention operation. The remaining tokens simply bypass the next layer and are concatenated with the attended ones to re-form a complete set of tokens. In this way, we reduce the quadratic computation and memory costs as fewer tokens participate in self-attention while maintaining the features for all the image patches throughout the network, which allows it to be used for dense prediction tasks. Our experiments show that by applying ToSA, we can significantly reduce computation costs while maintaining accuracy on the ImageNet classification benchmark. Furthermore, we evaluate on the dense prediction task of monocular depth estimation on NYU Depth V2, and show that we can achieve similar depth prediction accuracy using a considerably lighter backbone with ToSA.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# マルチタスク学習と項目応答理論を用いた文法的変量と誤りを用いた自動評価

Automated Essay Scoring Using Grammatical Variety and Errors with Multi-Task Learning and Item Response Theory ( http://arxiv.org/abs/2406.08817v1 )

ライセンス: Link先を確認
Kosuke Doi, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) 自動エッセイスコアリング(AES)における文法的特徴の影響について検討した。 AESモデルの入力には,(1)著者がエッセイで正しく用いた文法的項目,(2)文法的誤りの数という2種類の文法的特徴を用いる。 実験結果から,エッセイの総合的なスコアを予測するAESモデルの性能は,文法的特徴により向上することが示された。 総合的および文法的スコアを用いたマルチタスク学習と文法的特徴の併用により,モデル性能が向上した。 また,副作業のラベルとしてIRTを用いて推定した文法能力を用いたモデルが,人間のレーダに割り当てられた文法スコアと同等の性能を示した。 さらに、IRTを用いた文法的特徴を重み付けし、文法的項目や著者の文法的能力の難しさを考察する。 文法的特徴と難易度を重み付けすることで、性能がさらに向上することを発見した。

This study examines the effect of grammatical features in automatic essay scoring (AES). We use two kinds of grammatical features as input to an AES model: (1) grammatical items that writers used correctly in essays, and (2) the number of grammatical errors. Experimental results show that grammatical features improve the performance of AES models that predict the holistic scores of essays. Multi-task learning with the holistic and grammar scores, alongside using grammatical features, resulted in a larger improvement in model performance. We also show that a model using grammar abilities estimated using Item Response Theory (IRT) as the labels for the auxiliary task achieved comparable performance to when we used grammar scores assigned by human raters. In addition, we weight the grammatical features using IRT to consider the difficulty of grammatical items and writers' grammar abilities. We found that weighting grammatical features with the difficulty led to further improvement in performance.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# ChatGPTにおける言語バイアス:言語モデルによる方言識別の強化

Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination ( http://arxiv.org/abs/2406.08818v1 )

ライセンス: Link先を確認
Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein, (参考訳) 本稿では,ChatGPTが英語の方言10種類(スタンダード・アメリカン・イングリッシュ(Standard American English),スタンダード・イングリッシュ(Standard British English),および世界中から広く話されている8種類の非標準的方言)をカバーする言語バイアスについて,大規模な研究を行った。 GPT-3.5 Turbo と GPT-4 を各品種の母語話者のテキストで誘導し,詳細な言語的特徴アノテーションと母語話者評価を用いて応答を解析した。 ネイティブスピーカーによる評価に基づいて、非標準型に対するモデル応答は、理解の欠如(標準型に比べて10%悪い)、ステレオタイピング(16%悪い)、内容の削除(22%悪い)、導出応答(12%悪い)といった問題に一貫して現れている。 また、これらのモデルが「標準」でない品種のプロンプトの書体スタイルを模倣するよう要求された場合、入力の理解度が低く、特にステレオタイピングが困難であるテキストを生成する。 GPT-4は、理解、温かさ、親和性の点でGPT-3.5を改善するが、ステレオタイピング(+17%)が顕著に増加する。 その結果, GPT-3.5 Turbo と GPT-4 は,非標準型話者の被害を悪化させるような言語的差別を示すことが示唆された。

We present a large-scale study of linguistic bias exhibited by ChatGPT covering ten dialects of English (Standard American English, Standard British English, and eight widely spoken non-"standard" varieties from around the world). We prompted GPT-3.5 Turbo and GPT-4 with text by native speakers of each variety and analyzed the responses via detailed linguistic feature annotation and native speaker evaluation. We find that the models default to "standard" varieties of English; based on evaluation by native speakers, we also find that model responses to non-"standard" varieties consistently exhibit a range of issues: lack of comprehension (10% worse compared to "standard" varieties), stereotyping (16% worse), demeaning content (22% worse), and condescending responses (12% worse). We also find that if these models are asked to imitate the writing style of prompts in non-"standard" varieties, they produce text that exhibits lower comprehension of the input and is especially prone to stereotyping. GPT-4 improves on GPT-3.5 in terms of comprehension, warmth, and friendliness, but it also results in a marked increase in stereotyping (+17%). The results suggest that GPT-3.5 Turbo and GPT-4 exhibit linguistic discrimination in ways that can exacerbate harms for speakers of non-"standard" varieties.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# AIM:データ不正の帰属、解釈、緩和

AIM: Attributing, Interpreting, Mitigating Data Unfairness ( http://arxiv.org/abs/2406.08819v1 )

ライセンス: Link先を確認
Zhining Liu, Ruizhong Qiu, Zhichen Zeng, Yada Zhu, Hendrik Hamann, Hanghang Tong, (参考訳) 現実世界で収集されたデータは、しばしば不利なグループや個人に対する歴史的な差別をカプセル化する。 既存の公正機械学習(FairML)の研究は、FairMLの透明性と解釈可能性に重点を置いているにも関わらず、モデル予測における差別的バイアスの軽減に重点を置いている。 このギャップを埋めるために、トレーニングデータからバイアスや偏見を反映するサンプルを発見するという、新しい研究課題を調査する。 既存の公平性の概念に基づいて,サンプルバイアス基準を定式化し,サンプルバイアスの測定と対策のための実用的なアルゴリズムを提案する。 導出バイアススコアは、データの直感的なサンプルレベルの属性と過去のバイアスの説明を提供する。 そこで本研究では,サンプルバイアスをインフォームドした最小データ編集による2つのFairML戦略をさらに設計する。 彼らは、最小またはゼロの予測ユーティリティ損失を犠牲にして、グループと個人の不公平さを緩和することができる。 複数の実世界のデータセットに関する大規模な実験と分析は、不公平を説明・緩和する手法の有効性を実証している。 コードはhttps://github.com/ZhiningLiu1998/AIMで入手できる。

Data collected in the real world often encapsulates historical discrimination against disadvantaged groups and individuals. Existing fair machine learning (FairML) research has predominantly focused on mitigating discriminative bias in the model prediction, with far less effort dedicated towards exploring how to trace biases present in the data, despite its importance for the transparency and interpretability of FairML. To fill this gap, we investigate a novel research problem: discovering samples that reflect biases/prejudices from the training data. Grounding on the existing fairness notions, we lay out a sample bias criterion and propose practical algorithms for measuring and countering sample bias. The derived bias score provides intuitive sample-level attribution and explanation of historical bias in data. On this basis, we further design two FairML strategies via sample-bias-informed minimal data editing. They can mitigate both group and individual unfairness at the cost of minimal or zero predictive utility loss. Extensive experiments and analyses on multiple real-world datasets demonstrate the effectiveness of our methods in explaining and mitigating unfairness. Code is available at https://github.com/ZhiningLiu1998/AIM.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# DisfluencySpeech - パラ言語を用いた単一話者会話音声データセット

DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage ( http://arxiv.org/abs/2406.08820v1 )

ライセンス: Link先を確認
Kyra Wang, Dorien Herremans, (参考訳) ラウイング、sighing、stattering、その他の形態のパラ言語は、直接の語彙的意味を音声に寄与しないが、それらは、皮肉のような意味論的および実践的なプロセスを助ける決定的な命題的文脈を提供する。 したがって、人工社会エージェントは、意味的に重要なパラ言語による音声を理解・生成できることが重要である。 ほとんどの音声データセットは、転写された非語彙音声の音と不一致を含まないが、そのデータセットは通常、各話者が比較的少ない音声を提供するマルチ話者データセットである。 これにより、このようなパラ言語的コンポーネントを含む会話型テキスト音声合成モデル(TTS)の訓練が困難になる。 そこで我々は,パラ言語を用いたスタジオ品質の英語音声データセットであるDisfluencySpeechを提案する。 1人の話者が、Switchboard-1電話音声コーパス(Switchboard)から約10時間の表現的発話を再現し、現実的な非公式会話をシミュレートする。 これらのコンポーネントを使わずにテキストからパラ言語を予測的に合成できるTTSモデルの開発を支援するため、異なるレベルの情報除去(非音声イベントの除去、非文章要素の除去、偽開始の除去)の3つの異なる書き起こしと、これらのレベルに基づいて訓練されたベンチマークTSモデルを提供する。

Laughing, sighing, stuttering, and other forms of paralanguage do not contribute any direct lexical meaning to speech, but they provide crucial propositional context that aids semantic and pragmatic processes such as irony. It is thus important for artificial social agents to both understand and be able to generate speech with semantically-important paralanguage. Most speech datasets do not include transcribed non-lexical speech sounds and disfluencies, while those that do are typically multi-speaker datasets where each speaker provides relatively little audio. This makes it challenging to train conversational Text-to-Speech (TTS) synthesis models that include such paralinguistic components. We thus present DisfluencySpeech, a studio-quality labeled English speech dataset with paralanguage. A single speaker recreates nearly 10 hours of expressive utterances from the Switchboard-1 Telephone Speech Corpus (Switchboard), simulating realistic informal conversations. To aid the development of a TTS model that is able to predictively synthesise paralanguage from text without such components, we provide three different transcripts at different levels of information removal (removal of non-speech events, removal of non-sentence elements, and removal of false starts), as well as benchmark TTS models trained on each of these levels.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# フロリダ州の公道における車線特徴検出のためのコンピュータビジョンモデル

Computer vision-based model for detecting turning lane features on Florida's public roadways ( http://arxiv.org/abs/2406.08822v1 )

ライセンス: Link先を確認
Richard Boadu Antwi, Samuel Takyi, Kimollo Michael, Alican Karaer, Eren Erman Ozguven, Ren Moses, Maxim A. Dulebenets, Thobias Sando, (参考訳) 効率的な道路形状データ収集は、道路計画、整備、設計、リハビリテーションにおいて交通機関にとって重要である。 データ収集方法は陸地と空地に分けられる。 広域ハイウェイネットワークのための土地ベースの手法は、退屈でコストがかかり、安全性のリスクが生じる。 したがって、効率的で安全で経済的なデータ取得手法が必要である。 コンピュータビジョンと物体検出技術の台頭により、道路形状の自動抽出が可能になった。 本研究では,AIを用いた高解像度空中画像からフロリダ州の公道の道路特徴を検出する。 開発されたモデルは、地上の真実データと比較すると平均80.4%の精度を達成した。 抽出された道路形状データは、事故や交通データと統合して、政策立案者や道路利用者に貴重な洞察を与えることができる。

Efficient and current roadway geometry data collection is critical to transportation agencies in road planning, maintenance, design, and rehabilitation. Data collection methods are divided into land-based and aerial-based. Land-based methods for extensive highway networks are tedious, costly, pose safety risks. Therefore, there is the need for efficient, safe, and economical data acquisition methodologies. The rise of computer vision and object detection technologies have made automated extraction of roadway geometry features feasible. This study detects roadway features on Florida's public roads from high-resolution aerial images using AI. The developed model achieved an average accuracy of 80.4 percent when compared with ground truth data. The extracted roadway geometry data can be integrated with crash and traffic data to provide valuable insights to policymakers and roadway users.
翻訳日:2024-06-14 21:18:27 公開日:2024-06-13
# LLM駆動型ロボットによる差別・暴力・不正行為のリスク

LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions ( http://arxiv.org/abs/2406.08824v1 )

ライセンス: Link先を確認
Rumaisa Azeem, Andrew Hundt, Masoumeh Mansouri, Martim Brandão, (参考訳) HRI(Human-Robot Interaction)とAI(Artificial Intelligence)コミュニティのメンバーは、自然言語のインタラクション、家庭や職場でのタスク、'常識推論'の近似、人間モデリングといったロボティクスタスクのための有望なリソースとして、Large Language Models(LLMs)を提案した。 しかし、最近の研究は、LLMが現実世界のロボット実験や応用において差別的な結果や安全でない行動を生み出す可能性について懸念を提起している。 これらの問題に対処するため,HRIを用いた高評価LCMの識別基準と安全性基準の評価を行った。 我々の評価では、LLMは、様々な保護されたアイデンティティ特性(例えば、人種、性別、障害状態、国籍、宗教、およびそれらの交差点)で出会い、直接差別的な結果と整合したバイアスのあるアウトプットを生成している。 さらに、制約のない自然言語(オープン語彙)入力の設定でモデルをテストし、それらが安全に動作せず、危険な、暴力的な、あるいは違法な指示を受け入れる応答を生成します。 本研究は, LLMの安全性, 有効性, 即ちロボット上でのみ動作することを保証するため, 系統的, 定期的, 包括的リスクアセスメントと, 成果改善のための保証が必要であることを明らかにするものである。 データとコードは利用可能になる。

Members of the Human-Robot Interaction (HRI) and Artificial Intelligence (AI) communities have proposed Large Language Models (LLMs) as a promising resource for robotics tasks such as natural language interactions, doing household and workplace tasks, approximating `common sense reasoning', and modeling humans. However, recent research has raised concerns about the potential for LLMs to produce discriminatory outcomes and unsafe behaviors in real-world robot experiments and applications. To address these concerns, we conduct an HRI-based evaluation of discrimination and safety criteria on several highly-rated LLMs. Our evaluation reveals that LLMs currently lack robustness when encountering people across a diverse range of protected identity characteristics (e.g., race, gender, disability status, nationality, religion, and their intersections), producing biased outputs consistent with directly discriminatory outcomes -- e.g. `gypsy' and `mute' people are labeled untrustworthy, but not `european' or `able-bodied' people. Furthermore, we test models in settings with unconstrained natural language (open vocabulary) inputs, and find they fail to act safely, generating responses that accept dangerous, violent, or unlawful instructions -- such as incident-causing misstatements, taking people's mobility aids, and sexual predation. Our results underscore the urgent need for systematic, routine, and comprehensive risk assessments and assurances to improve outcomes and ensure LLMs only operate on robots when it is safe, effective, and just to do so. Data and code will be made available.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 音声スポフィング検出のための解釈可能な時間的クラスアクティベーション表現

Interpretable Temporal Class Activation Representation for Audio Spoofing Detection ( http://arxiv.org/abs/2406.08825v1 )

ライセンス: Link先を確認
Menglu Li, Xiao-Ping Zhang, (参考訳) 音声スプーフィング検出モデルによる決定を説明することは、検出結果に対する信頼を高めるために重要である。 しかし,検出モデルの解釈可能性に関する現在の研究は,学習後のモデルにXAIツールを適用することに限定されている。 本稿では、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合し、意思決定プロセスの透明性を高める。 具体的には,検出に寄与する識別フレームをローカライズするクラスアクティベーション表現を提案する。 さらに,2進ラベルではなく,スプーフィング型に基づくマルチラベルトレーニングにより,異なる攻撃特性を学習し,検出性能を著しく向上することを示す。 ASVspoof2019-LAセットのEERは0.51%、min t-DCFは0.0165である。

Explaining the decisions made by audio spoofing detection models is crucial for fostering trust in detection outcomes. However, current research on the interpretability of detection models is limited to applying XAI tools to post-trained models. In this paper, we utilize the wav2vec 2.0 model and attentive utterance-level features to integrate interpretability directly into the model's architecture, thereby enhancing transparency of the decision-making process. Specifically, we propose a class activation representation to localize the discriminative frames contributing to detection. Furthermore, we demonstrate that multi-label training based on spoofing types, rather than binary labels as bonafide and spoofed, enables the model to learn distinct characteristics of different attacks, significantly improving detection performance. Our model achieves state-of-the-art results, with an EER of 0.51% and a min t-DCF of 0.0165 on the ASVspoof2019-LA set.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 事前学習モデルによるプログラミング問題の難易度推定

Estimating Difficulty Levels of Programming Problems with Pre-trained Model ( http://arxiv.org/abs/2406.08828v1 )

ライセンス: Link先を確認
Zhiyuan Wang, Wei Zhang, Jun Wang, (参考訳) プログラミングスキルの需要が産業や学界に広がるにつれて、学生はコーディングの実践と競争のためにプログラミングオンライン審査(POJ)プラットフォームに目を向けることが多い。 プログラミング問題の難易度は、生徒の適応学習を導く上で不可欠な基準となっている。 しかし、難易度を決定する現在の方法は、広範囲な専門家のアノテーションを必要とするか、あるいは各問題に対する十分な学生ソリューションを蓄積するのに長い時間がかかる。 この問題に対処するために、テキスト記述とコードの解例を考慮し、各プログラム問題の難易度自動推定の問題を定式化する。 この問題に対処するため,テキストモダリティとコードモダリティの2つの事前学習モデルを統一モデルに分割することを提案する。 このタスクのために2つのPOJデータセットを構築し,提案手法の有効性と両モードの寄与を実証した。

As the demand for programming skills grows across industries and academia, students often turn to Programming Online Judge (POJ) platforms for coding practice and competition. The difficulty level of each programming problem serves as an essential reference for guiding students' adaptive learning. However, current methods of determining difficulty levels either require extensive expert annotations or take a long time to accumulate enough student solutions for each problem. To address this issue, we formulate the problem of automatic difficulty level estimation of each programming problem, given its textual description and a solution example of code. For tackling this problem, we propose to couple two pre-trained models, one for text modality and the other for code modality, into a unified model. We built two POJ datasets for the task and the results demonstrate the effectiveness of the proposed approach and the contributions of both modalities.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 特徴パターン整合性制約による対向ロバスト性の改善

Improving Adversarial Robustness via Feature Pattern Consistency Constraint ( http://arxiv.org/abs/2406.08829v1 )

ライセンス: Link先を確認
Jiacong Hu, Jingwen Ye, Zunlei Feng, Jiazhen Yang, Shunyu Liu, Xiaotian Yu, Lingxiang Jia, Mingli Song, (参考訳) 畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。 これらの脅威に応えて、モデルの堅牢性を高めるために様々な防御方法が出現した。 しかし、既存のほとんどの手法は、敵の摂動から学習することに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目的としており、必然的に計算負担を増大させる。 逆に、クリーンな例にのみ依存することでモデルの堅牢性を強化するクリーンなトレーニングは、上記の問題に対処することができる。 本稿では,この手法と整合し,未知の敵例に対する一般化性を高める。 この強化は、ネットワーク内の潜伏特徴の挙動を精査することで達成される。 提案手法は,潜在特徴パターンの正当性に依存することを認識し,その正当性を維持するための潜在特徴パターンの能力を強化するために,新規かつ効果的な特徴パターン整合性制約(FPCC)法を提案する。 具体的には、潜時特徴量を高めるために、空間的特徴量修正とチャネル的特徴量選択を提案する。 その後、パターン一貫性損失(Pattern Consistency Loss)を使用して、潜在機能の特徴パターンと正しい特徴パターンの類似性を制限します。 実験により, FPCC法は, 正当性の特徴パターンを正当性に保ちつつも, 正逆性を有する特徴パターンを正当性に保たせることを実証した。

Convolutional Neural Networks (CNNs) are well-known for their vulnerability to adversarial attacks, posing significant security concerns. In response to these threats, various defense methods have emerged to bolster the model's robustness. However, most existing methods either focus on learning from adversarial perturbations, leading to overfitting to the adversarial examples, or aim to eliminate such perturbations during inference, inevitably increasing computational burdens. Conversely, clean training, which strengthens the model's robustness by relying solely on clean examples, can address the aforementioned issues. In this paper, we align with this methodological stream and enhance its generalizability to unknown adversarial examples. This enhancement is achieved by scrutinizing the behavior of latent features within the network. Recognizing that a correct prediction relies on the correctness of the latent feature's pattern, we introduce a novel and effective Feature Pattern Consistency Constraint (FPCC) method to reinforce the latent feature's capacity to maintain the correct feature pattern. Specifically, we propose Spatial-wise Feature Modification and Channel-wise Feature Selection to enhance latent features. Subsequently, we employ the Pattern Consistency Loss to constrain the similarity between the feature pattern of the latent features and the correct feature pattern. Our experiments demonstrate that the FPCC method empowers latent features to uphold correct feature patterns even in the face of adversarial examples, resulting in inherent adversarial robustness surpassing state-of-the-art models.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 効率的なオンデバイスインクリメンタル学習のための中心感性カーネル最適化

Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning ( http://arxiv.org/abs/2406.08830v1 )

ライセンス: Link先を確認
Dingwen Zhang, Yan Li, De Cheng, Nannan Wang, Junwei Han, (参考訳) 本稿では,エッジインテリジェンスの進化を促進するために,限られた計算資源に制約されたデバイス上でのインクリメンタル学習について検討する。 現在のデバイス上でのトレーニング方法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点を合わせ、世界を継続的に探索する際のモデル強化を防いでいる。 この問題を解決するために、デバイス上でのトレーニングフレームワークに既存のインクリメンタルな学習メカニズムを組み込むという、直接的な解決策がある。 残念なことに、これらのメカニズムはネットワーク最適化プロセスに多大な計算コストをもたらし、エッジデバイスのメモリ容量を必然的に超えてしまうため、うまく機能しない。 この問題に対処するため,本稿では,単純かつ効果的なエッジフレンドリーなインクリメンタルラーニングフレームワークを提案する。 ニューラルネットワークのカーネル要素の知識強度に関する実証的研究から、中心核が新しいデータを学ぶための知識強度を最大化するための鍵であり、一方で他のカーネル要素を凍結することで、破滅的な忘れを克服するモデルの能力のバランスが良くなることがわかった。 この発見により、勾配計算とバックプロパゲーションのコストを大幅に軽減するために、センターセンシティブなカーネル最適化フレームワークをさらに設計する。 さらに、新しいタスクデータから探索した知識に基づいて、最適化の複雑さをさらに軽減するために、疎直交勾配予測を容易にする動的チャネル要素選択戦略も提案されている。 例えば,本手法は,既存のデバイス上でのトレーニング手法と比較して,メモリと近似計算の少ない38.08%の平均精度向上を実現し,デバイス上でのインクリメンタル学習の可能性を示している。

To facilitate the evolution of edge intelligence in ever-changing environments, we study on-device incremental learning constrained in limited computation resource in this paper. Current on-device training methods just focus on efficient training without considering the catastrophic forgetting, preventing the model getting stronger when continually exploring the world. To solve this problem, a direct solution is to involve the existing incremental learning mechanisms into the on-device training framework. Unfortunately, such a manner cannot work well as those mechanisms usually introduce large additional computational cost to the network optimization process, which would inevitably exceed the memory capacity of the edge devices. To address this issue, this paper makes an early effort to propose a simple but effective edge-friendly incremental learning framework. Based on an empirical study on the knowledge intensity of the kernel elements of the neural network, we find that the center kernel is the key for maximizing the knowledge intensity for learning new data, while freezing the other kernel elements would get a good balance on the model's capacity for overcoming catastrophic forgetting. Upon this finding, we further design a center-sensitive kernel optimization framework to largely alleviate the cost of the gradient computation and back-propagation. Besides, a dynamic channel element selection strategy is also proposed to facilitate a sparse orthogonal gradient projection for further reducing the optimization complexity, upon the knowledge explored from the new task data. Extensive experiments validate our method is efficient and effective, e.g., our method achieves average accuracy boost of 38.08% with even less memory and approximate computation compared to existing on-device training methods, indicating its significant potential for on-device incremental learning.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 表面およびハイパーグラフ製品コードによる多重量子通信

Multiplexed Quantum Communication with Surface and Hypergraph Product Codes ( http://arxiv.org/abs/2406.08832v1 )

ライセンス: Link先を確認
Shin Nishio, Nicholas Connolly, Nicolò Lo Piparo, William John Munro, Thomas Rowan Scruby, Kae Nemoto, (参考訳) 量子相互接続技術を介して複数のプロセッサを接続することは、単一プロセッサの量子コンピュータにおけるスケーラビリティの問題を克服するのに役立つ。 これらの相互接続による伝送は、高次元のフォトニック度で情報を符号化する量子多重化を用いてより効率的に行うことができる。 曲面符号とハイパーグラフ積符号の論理的誤り率に対する多重化の効果について検討する。 多重化により損失エラーがより損なわれるが、光子にインテリジェントに量子ビットを割り当てることによってこれらの効果を最小化し、より少ない光子数で高距離符号を符号化できることは、全体的な論理的誤り率を低下させることを示した。 この多重化技術は、量子通信や高次元のQuditシステムによるマルチモード量子メモリにも適用することができる。

Connecting multiple processors via quantum interconnect technologies could help to overcome issues of scalability in single-processor quantum computers. Transmission via these interconnects can be performed more efficiently using quantum multiplexing, where information is encoded in high-dimensional photonic degrees of freedom. We explore the effects of multiplexing on logical error rates in surface codes and hypergraph product codes. We show that, although multiplexing makes loss errors more damaging, assigning qubits to photons in an intelligent manner can minimize these effects, and the ability to encode higher-distance codes in a smaller number of photons can result in overall lower logical error rates. This multiplexing technique can also be adapted to quantum communication and multimode quantum memory with high-dimensional qudit systems.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# Harnessing Quantum Entanglement: 量子ネットワークにおけるコミュニケーション強化のための包括的戦略

Harnessing Quantum Entanglement: Comprehensive Strategies for Enhanced Communication and Beyond in Quantum Networks ( http://arxiv.org/abs/2406.08833v1 )

ライセンス: Link先を確認
Amit Kumar Bhuyan, Hrishikesh Dutta, (参考訳) 量子通信は古典情報理論に対する革命的な進歩であり、絡み合いのようなユニークな量子力学特性を活用して、安全で効率的な情報伝達において前例のない能力を達成する。 古典的な通信のビットとは異なり、量子通信は重ね合わせ状態の量子ビットを使用し、新しい情報保存と処理を可能にする。 鍵となる量子現象であるエンタングルメントは、セキュリティと処理能力を強化した高度なプロトコルを可能にする。 本稿では,量子通信の包括的概要を提供し,理論的基礎,実践的プロトコル,実験的進展,セキュリティへの影響などにおける絡み合いの役割を強調した。 量子通信の潜在的な応用と古典的ネットワークを対比し、絡み合いが大きな利点をもたらす領域を特定する。 本稿では,通信における量子力学の基礎,量子情報の物理的実現,量子鍵分布(QKD)やテレポーテーションといった絡み合いに基づく戦略によるセキュアな量子ネットワークの形成について考察する。 長距離量子通信の課題、スケーリングネットワークにおける量子リピータの役割、相互接続型量子ネットワークの概念化に対処する。 さらに、セキュアな通信を確保する上での量子インターネット、量子エラー訂正コード、量子暗号の役割について論じている。 本稿では、絡み合いの役割を強調することにより、量子ネットワーク内のセキュアで効率的な情報交換において、さらなる研究と革新を促すことを目的とする。

Quantum communication represents a revolutionary advancement over classical information theory, which leverages unique quantum mechanics properties like entanglement to achieve unprecedented capabilities in secure and efficient information transmission. Unlike bits in classical communication, quantum communication utilizes qubits in superposition states, allowing for novel information storage and processing. Entanglement, a key quantum phenomenon, enables advanced protocols with enhanced security and processing power. This paper provides a comprehensive overview of quantum communication, emphasizing the role of entanglement in theoretical foundations, practical protocols, experimental progress, and security implications. It contrasts quantum communications potential applications with classical networks, identifying areas where entanglement offers significant advantages. The paper explores the fundamentals of quantum mechanics in communication, the physical realization of quantum information, and the formation of secure quantum networks through entanglement-based strategies like Quantum Key Distribution (QKD) and teleportation. It addresses the challenges of long-distance quantum communication, the role of quantum repeaters in scaling networks, and the conceptualization of interconnected quantum networks. Additionally, it discusses strides towards the Quantum Internet, Quantum Error-Correcting codes, and quantum cryptographys role in ensuring secure communication. By highlighting the role of entanglement, this paper aims to inspire further research and innovation in secure and efficient information exchange within quantum networks.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 共振器導波路を結合した巨大原子の相互作用と絡み合い技術

Interaction and entanglement engineering in driven giant atoms setup with coupled resonator waveguide ( http://arxiv.org/abs/2406.08834v1 )

ライセンス: Link先を確認
Mingzhu Weng, Xin Wang, Zhihai Wang, (参考訳) 2種類の巨大原子間の結合共振器導波路によるコヒーレント相互作用について検討した。 巨大原子の配置を調整することにより,有効結合と集合散逸を需要に応じて制御できることが判明した。 その結果、外部の駆動は2つの巨大な原子の間に実質的な絡み合いを生じさせ、ラビの分裂特性を示す。 {3つの巨大原子配置では、隣り合う隣り合う原子の絡み合いは隣り合う原子を上回り、人工磁場として働く駆動位相を調整して調整することができる。 隣り合う原子の絡み合いの増大は、小さな原子配置では実現できない。 巨大原子配列におけるこれらの制御可能な相互作用が、量子情報プロセスにおいて素晴らしい応用を期待する。

We investigate the coherent interactions mediated by the coupled resonator waveguide between two types of giant atoms. We find that the effective coupling and collective dissipation can be controlled on demand by adjusting the configuration of the giant atoms. As a result, the external driving gives birth to a substantial entanglement between two giant atoms, which exhibits a Rabi splitting character. {In the three giant atom setup, we find that the nonzero next neighbour atomic entanglement can surpass the neighbour ones, and is able to be adjust by tuning the driving phase, which serves as an artificial magnetic field. The enhancement of next neighbour atomic entanglement can not be realized in the small atom setup.} We hope these controllable interactions in giant atom array are of great applications in the quantum information process.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 畳み込みニューラルネットワークに基づく特徴抽出の深層学習モデルに関する研究

Research on Deep Learning Model of Feature Extraction Based on Convolutional Neural Network ( http://arxiv.org/abs/2406.08837v1 )

ライセンス: Link先を確認
Houze Liu, Iris Li, Yaxin Liang, Dan Sun, Yining Yang, Haowei Yang, (参考訳) 比較的浅い層と単純な構造を持つニューラルネットワークは、肺炎を正確に識別する能力に制限がある可能性がある。 さらに、ディープニューラルネットワークはコンピューティングリソースに対する大きな需要があり、畳み込みニューラルネットワークが端末上で実装できない可能性がある。 そこで本稿では,畳み込みニューラルネットワークの最適分類を行う。 まず, 肺炎画像の特徴として, AlexNet と InceptionV3 が選択され, 画像認識の精度が向上した。 医用画像の特徴を組み合わせることで、より深く複雑な構造を持つフォワードニューラルネットワークが学習される。 最後に、知識抽出技術を用いて、取得したデータをAlexNetモデルに抽出し、計算効率の向上と計算コストの削減を図る。 その結果、トレーニングされたAlexNetモデルの予測精度、特異性、感度は、それぞれ4.25ポイント、7.85ポイント、および2.32ポイント増加した。 グラフィックス処理の使用率は、InceptionV3モードと比較して51%減少した。

Neural networks with relatively shallow layers and simple structures may have limited ability in accurately identifying pneumonia. In addition, deep neural networks also have a large demand for computing resources, which may cause convolutional neural networks to be unable to be implemented on terminals. Therefore, this paper will carry out the optimal classification of convolutional neural networks. Firstly, according to the characteristics of pneumonia images, AlexNet and InceptionV3 were selected to obtain better image recognition results. Combining the features of medical images, the forward neural network with deeper and more complex structure is learned. Finally, knowledge extraction technology is used to extract the obtained data into the AlexNet model to achieve the purpose of improving computing efficiency and reducing computing costs. The results showed that the prediction accuracy, specificity, and sensitivity of the trained AlexNet model increased by 4.25 percentage points, 7.85 percentage points, and 2.32 percentage points, respectively. The graphics processing usage has decreased by 51% compared to the InceptionV3 mode.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# マルチモーダル深層学習に基づく自然言語処理モデルの最適化に関する研究

Research on Optimization of Natural Language Processing Model Based on Multimodal Deep Learning ( http://arxiv.org/abs/2406.08838v1 )

ライセンス: Link先を確認
Dan Sun, Yaxin Liang, Yining Yang, Yuhan Ma, Qishi Zhan, Erdi Gao, (参考訳) 本研究の目的は,アテンション機構とマルチモーダルデータに基づく画像表現の研究である。 属性モデルに複数のパターン層を追加することで、画像コンテンツのセマンティック層と隠れ層が統合される。 ワードベクトルはWord2Vec法で定量化され、畳み込みニューラルネットワークを埋め込んだワードで評価される。 2つのグループの実験結果が公表された。 実験の結果,離散的な特徴を連続的な文字に変換することで,特徴前処理の複雑さを低減できることがわかった。 Word2Vecと自然言語処理技術は、欠落した画像の特徴を直接評価する目的を達成するために統合されている。 畳み込みニューラルネットワークの優れた特徴解析特性を用いて画像特徴評価モデルの堅牢性を向上させる。 本研究は,既存の画像特徴識別法を改善し,評価プロセスにおける主観的影響を排除することを目的とする。 シミュレーションの結果, 新たな手法が開発され, 生成した表現の特徴を効果的に増強できることが示唆された。

This project intends to study the image representation based on attention mechanism and multimodal data. By adding multiple pattern layers to the attribute model, the semantic and hidden layers of image content are integrated. The word vector is quantified by the Word2Vec method and then evaluated by a word embedding convolutional neural network. The published experimental results of the two groups were tested. The experimental results show that this method can convert discrete features into continuous characters, thus reducing the complexity of feature preprocessing. Word2Vec and natural language processing technology are integrated to achieve the goal of direct evaluation of missing image features. The robustness of the image feature evaluation model is improved by using the excellent feature analysis characteristics of a convolutional neural network. This project intends to improve the existing image feature identification methods and eliminate the subjective influence in the evaluation process. The findings from the simulation indicate that the novel approach has developed is viable, effectively augmenting the features within the produced representations.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# ニューラルボリュームレンダリングにおける視点選択の再考

NeRF Director: Revisiting View Selection in Neural Volume Rendering ( http://arxiv.org/abs/2406.08839v1 )

ライセンス: Link先を確認
Wenhui Xiao, Rodrigo Santa Cruz, David Ahmedt-Aristizabal, Olivier Salvado, Clinton Fookes, Leo Lebrat, (参考訳) ニューラルレンダリング表現は3Dコンピュータビジョンの分野に大きく貢献している。 彼らの潜在能力を考えると、パフォーマンスを改善するためにかなりの努力が払われている。 それにもかかわらず、トレーニングビューを選択する上で不可欠な問題は、まだ徹底的に調査されていない。 この重要な側面は、高品質な結果を達成する上で重要な役割を担います。 本稿では,最も広く普及しているNeRFデータセットにおけるテストビューの単純な回転が,最先端技術の性能ランキングに連続的な変化をもたらすことを示すことによって,ビュー選択の重要性を最初に説明する。 この課題に対処するために、ビュー選択手法の統合フレームワークを導入し、その影響を評価するための徹底的なベンチマークを考案する。 エラーや不確かさの見積を使わずに重要な改善が達成できるが、再構成対象の統一的な視野カバレッジに焦点をあてることで、トレーニング不要なアプローチが実現される。 この手法を用いて、より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。 提案手法の有効性を,ランダム,従来型エラーベース,不確実性誘導型ビュー選択と比較するために,合成データセットと現実データの両方について広範な実験を行った。

Neural Rendering representations have significantly contributed to the field of 3D computer vision. Given their potential, considerable efforts have been invested to improve their performance. Nonetheless, the essential question of selecting training views is yet to be thoroughly investigated. This key aspect plays a vital role in achieving high-quality results and aligns with the well-known tenet of deep learning: "garbage in, garbage out". In this paper, we first illustrate the importance of view selection by demonstrating how a simple rotation of the test views within the most pervasive NeRF dataset can lead to consequential shifts in the performance rankings of state-of-the-art techniques. To address this challenge, we introduce a unified framework for view selection methods and devise a thorough benchmark to assess its impact. Significant improvements can be achieved without leveraging error or uncertainty estimation but focusing on uniform view coverage of the reconstructed object, resulting in a training-free approach. Using this technique, we show that high-quality renderings can be achieved faster by using fewer views. We conduct extensive experiments on both synthetic datasets and realistic data to demonstrate the effectiveness of our proposed method compared with random, conventional error-based, and uncertainty-guided view selection.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# 解釈可能性と透明性の強化のための埋め込み近似による概念学習

Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency ( http://arxiv.org/abs/2406.08840v1 )

ライセンス: Link先を確認
Maor Dikter, Tsachi Blau, Chaim Baskin, (参考訳) 解釈可能性が最重要である領域において、概念ボトルネックモデル(CBM)が重要なツールとして出現している。 これらのモデルは、定義済みのテキスト記述(概念と呼ばれる)に依存し、意思決定プロセスに通知し、より正確な推論を提供する。 結果として、モデルで使用される概念の選択が最も重要である。 本研究では,画像分類のための CBM 構築フレームワークである CLEAR を省略した CLEAR と略す CLEAR に対して, \underline{\textbf{C}}onceptual \underline{\textbf{L}}earning via \underline{\textbf{E}}mbedding \underline{\textbf{A}}pproximations for \underline{\textbf{R}}eincing Interpretability and Transparency を提案する。 スコアマッチングとランゲヴィンサンプリングを用いて,視覚言語モデル(VLM)の潜在空間における概念の埋め込みを,画像と概念の連成分布に関連するスコアを学習することによって近似する。 次に、学習した埋め込みと事前に定義されたものとの類似性を最適化するために概念選択プロセスが使用される。 導出されたボトルネックは、CBMの意思決定プロセスに関する洞察を与え、より包括的な解釈を可能にする。 提案手法は広範囲な実験により評価され,様々なベンチマークで最先端の性能を達成した。 実験のコードはhttps://github.com/clearProject/CLEAR/tree/mainで公開されている。

Concept bottleneck models (CBMs) have emerged as critical tools in domains where interpretability is paramount. These models rely on predefined textual descriptions, referred to as concepts, to inform their decision-making process and offer more accurate reasoning. As a result, the selection of concepts used in the model is of utmost significance. This study proposes \underline{\textbf{C}}onceptual \underline{\textbf{L}}earning via \underline{\textbf{E}}mbedding \underline{\textbf{A}}pproximations for \underline{\textbf{R}}einforcing Interpretability and Transparency, abbreviated as CLEAR, a framework for constructing a CBM for image classification. Using score matching and Langevin sampling, we approximate the embedding of concepts within the latent space of a vision-language model (VLM) by learning the scores associated with the joint distribution of images and concepts. A concept selection process is then employed to optimize the similarity between the learned embeddings and the predefined ones. The derived bottleneck offers insights into the CBM's decision-making process, enabling more comprehensive interpretations. Our approach was evaluated through extensive experiments and achieved state-of-the-art performance on various benchmarks. The code for our experiments is available at https://github.com/clearProject/CLEAR/tree/main
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# フォトニック導波路における巨大原子による連続体中の工学的境界状態

Engineering bound state in continuum via giant atom in photonic waveguide ( http://arxiv.org/abs/2406.08841v1 )

ライセンス: Link先を確認
Xiaojun Zhang, Mingjie Zhu, Zhihai Wang, (参考訳) 光化学系における連続体(BIC)のバウンド状態は、洗浄やセンシングの分野で広く用いられている。 ここでは, 制御可能なBICが, 人工原子を被覆した1次元フォトニック導波路に現れる。 巨大な原子は2つの離れた場所を通って導波路に結合します。 BICのエネルギーと光度分布は、ジャイアント原子の周波数と大きさを調整し、導波路との結合相を調整することによって、需要に応じて制御できることがわかった。 より興味深いことに、BICと連続体外の境界状態(BOC)の間の振動によって引き起こされる原子とフォトニックの力学進化における量子ビートを予測する。 これらの知見は、有界状態を介して導波路系を操作するためのアプローチを提供し、量子情報処理に適用することができる。

The bound state in the continuum (BIC) in photonic system has been widely used in the field of lasing and sensing. We here find the controllable BIC in an artificial giant atom-dressed one-dimensional photonic waveguide. The giant atom couples to the waveguide via two distant sites. We find that the energy and the photonic distribution in the BIC can be controlled on demand by tuning the frequency and the size of the giant atom as well as its coupling phase with the waveguide. More interestingly, we predict the quantum beats in the atomic and photonic dynamical evolution, which is induced by the oscillation between the BIC and bound state outside the continuum (BOC). These findings provide an approach to manipulate the waveguide system via the bound states, and can be applied in the quantum information processing.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# ContraSolver: 言語モデルの自己アライメント

ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions ( http://arxiv.org/abs/2406.08842v1 )

ライセンス: Link先を確認
Xu Zhang, Xunjian Yin, Xiaojun Wan, (参考訳) 大規模言語モデル(LLM)の開発においてかなりの進歩があったが、それらの振る舞いを制御することは困難である。 直接選好最適化(DPO)は、LLMの応答を評価するために潜在報酬関数の存在を仮定する。 この仮定は、同じ入力に対する異なる応答の厳密な優先順序を示す。 しかし, LLMには, 実験観察による嗜好の矛盾が常に存在する。 本稿では,選択順序に矛盾点を見出すために,自己注釈付き応答間の嗜好関係のグラフ構造を構築した。 優先グラフ上のすべてのエッジを横切るアルゴリズムであるContraSolverを提案する。 ContraSolverはグラフを最大スパンニングツリーで初期化し、高信頼度を維持しながら低信頼度嗜好の解決を優先し、矛盾するエッジを識別する。 4つの異なる世代タスクに対する実験結果から、完全に教師なしの自己アライメントにより、異なるLSMの性能を大幅に改善できることが示された。 さらに,コントラソルバーによる自己アライメントを伴わないLLMの選好グラフを解析することにより,矛盾の低減を定量化し,より優れたアライメント性能を実現するためには,選好矛盾の解消が重要であることを示唆する。

While substantial advancements have been made in developing large language models (LLMs), achieving control over their behavior can be difficult. Direct preference optimization (DPO) assumes the existence of a latent reward function to evaluate the responses of LLMs. This assumption indicates a strict preference ordering of different responses to the same input. However, there always exist contradictions of preference in LLMs according to our experimental observations. In this paper, we construct a graph structure of the preference relationship among different responses with self-annotation to find contradictions in the preference order. We propose ContraSolver, an algorithm that traverses all edges on the preference graph to identify those that might cause contradictions. ContraSolver initializes the graph with a maximum spanning tree and identifies contradictory edges, prioritizing the resolution of low-confidence preferences while preserving high-confidence ones. Experimental results on four different generation tasks show that the performance of different LLMs can be largely improved through our completely unsupervised self-alignment. Furthermore, by analyzing the preference graphs of LLMs with and without self-alignment by ContraSolver, we quantify the reduction in contradictions, suggesting that resolving preference contradictions is crucial for achieving better alignment performance.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# Input-Gen: テスト、チューニング、トレーニングのためのステートフルな入力のガイド生成

Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training ( http://arxiv.org/abs/2406.08843v1 )

ライセンス: Link先を確認
Ivan R. Ivanov, Joachim Meyer, Aiden Grossman, William S. Moses, Johannes Doerfert, (参考訳) ソフトウェアアプリケーションのサイズと複雑さは、加速するペースで増加しています。 ソースコードリポジトリ(と依存関係)は、テスト、メンテナンス、最新の状態を維持するために膨大な労力を必要とします。 規律が自動的に生成されたプログラムを取り入れ始めた今、テストとチューニングの自動化は、現在の複雑さのレベルを下げるだけでなく、ペースに追いつくために必要です。 機械学習はさまざまなコンテキストにおけるコードの理解と生成に使用されているが、マシンラーニングモデル自体は、入力、トレース、その他の実行時間情報なしで、ほとんど静的コードでトレーニングされている。 このトレーニングデータの欠如は、これらのモデルがソフトウェアにおける現実の問題を理解する能力を制限する。 この研究では、コードのようにインプットが大規模に自動生成できることを示します。 生成された入力はステートフルであり、プログラム関数の再実行に必要な任意のデータ構造とシステムコールを忠実に再現しているように見える。 コンパイラ内でツールを構築することで、どちらも任意のプログラミング言語やアーキテクチャに適用でき、静的解析と変換を利用してパフォーマンスを向上させることができます。 当社のアプローチでは,調査したComPileデータセットモジュールの90%に対して,メモリの初期状態を含む有効なインプットを,合計21.4万の実行可能な関数に対して生成することが可能です。 さらに、1つの生成した入力が平均ブロックカバレッジを37%、ガイドされた5つの入力が45%向上することがわかった。

The size and complexity of software applications is increasing at an accelerating pace. Source code repositories (along with their dependencies) require vast amounts of labor to keep them tested, maintained, and up to date. As the discipline now begins to also incorporate automatically generated programs, automation in testing and tuning is required to keep up with the pace - let alone reduce the present level of complexity. While machine learning has been used to understand and generate code in various contexts, machine learning models themselves are trained almost exclusively on static code without inputs, traces, or other execution time information. This lack of training data limits the ability of these models to understand real-world problems in software. In this work we show that inputs, like code, can be generated automatically at scale. Our generated inputs are stateful, and appear to faithfully reproduce the arbitrary data structures and system calls required to rerun a program function. By building our tool within the compiler, it both can be applied to arbitrary programming languages and architectures and can leverage static analysis and transformations for improved performance. Our approach is able to produce valid inputs, including initial memory states, for 90% of the ComPile dataset modules we explored, for a total of 21.4 million executable functions. Further, we find that a single generated input results in an average block coverage of 37%, whereas guided generation of five inputs improves it to 45%.
翻訳日:2024-06-14 21:08:42 公開日:2024-06-13
# テキスト・ビデオ・モデルのためのヒューマン・アセスメント・プロトコルの再考:信頼性、再現性、実用性の向上

Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality ( http://arxiv.org/abs/2406.08845v1 )

ライセンス: Link先を確認
Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang, (参考訳) 最近のテキスト・ツー・ビデオ(T2V)技術の発展は、Gen2、Pika、Soraといったモデルによって示され、適用性と人気を著しく拡大している。 これらの努力にもかかわらず、これらのモデルを評価することは重大な課題となる。 主に、自動測定に固有の限界のため、手動評価はT2V生成を評価する上で優れた方法とみなされることが多い。 しかし、既存の手動評価プロトコルは再現性、信頼性、実用性の問題に直面している。 これらの課題に対処するために,本研究では,T2Vモデルの包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを提案する。 T2VHEプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。 実験の結果,このプロトコルは高品質なアノテーションを保証するだけでなく,評価コストを50%近く削減できることがわかった。 我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。 これにより、コミュニティはより高度なヒューマンアセスメントプロトコルを確立することができる。

Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen2, Pika, and Sora, have significantly broadened its applicability and popularity. Despite these strides, evaluating these models poses substantial challenges. Primarily, due to the limitations inherent in automatic metrics, manual evaluation is often considered a superior method for assessing T2V generation. However, existing manual evaluation protocols face reproducibility, reliability, and practicality issues. To address these challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE) protocol, a comprehensive and standardized protocol for T2V models. The T2VHE protocol includes well-defined metrics, thorough annotator training, and an effective dynamic evaluation module. Experimental results demonstrate that this protocol not only ensures high-quality annotations but can also reduce evaluation costs by nearly 50%. We will open-source the entire setup of the T2VHE protocol, including the complete protocol workflow, the dynamic evaluation component details, and the annotation interface code. This will help communities establish more sophisticated human assessment protocols.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 不確実性のローピング:マルコフゲームにおけるロバストさと規則化

Roping in Uncertainty: Robustness and Regularization in Markov Games ( http://arxiv.org/abs/2406.08847v1 )

ライセンス: Link先を確認
Jeremy McMahan, Giovanni Artiglio, Qiaomin Xie, (参考訳) 頑健なマルコフゲーム(RMG)を$s$の正方形不確実性で研究する。 正方形RMGのロバストなナッシュ平衡(RNE)と、適切に構成された正規化MGのナッシュ平衡(NE)との一般的な等価性を示す。 等価性の結果は、$s$正方形RMGを解くための計画アルゴリズムと、正規化法を用いて計算されたポリシーに対する証明可能な堅牢性を保証する。 しかし、報酬のない2プレイヤーゼロサム行列ゲームであっても、RNEの計算はPPADハードであることを示す。 その結果,このクラスにおける2-player 0-sum RMG の RNE が多項式時間で有効に解けることを示す。 このクラスは、一般に使われる$L_1$や$L_\infty$ボールの不確実性集合を含む。

We study robust Markov games (RMG) with $s$-rectangular uncertainty. We show a general equivalence between computing a robust Nash equilibrium (RNE) of a $s$-rectangular RMG and computing a Nash equilibrium (NE) of an appropriately constructed regularized MG. The equivalence result yields a planning algorithm for solving $s$-rectangular RMGs, as well as provable robustness guarantees for policies computed using regularized methods. However, we show that even for just reward-uncertain two-player zero-sum matrix games, computing an RNE is PPAD-hard. Consequently, we derive a special uncertainty structure called efficient player-decomposability and show that RNE for two-player zero-sum RMG in this class can be provably solved in polynomial time. This class includes commonly used uncertainty sets such as $L_1$ and $L_\infty$ ball uncertainty sets.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 産業用会話アシスタントのためのゼロショットスロットフィリングシステムの構築

An Approach to Build Zero-Shot Slot-Filling System for Industry-Grade Conversational Assistants ( http://arxiv.org/abs/2406.08848v1 )

ライセンス: Link先を確認
G P Shrivatsa Bhargav, Sumit Neelam, Udit Sharma, Shajith Ikbal, Dheeraj Sreedhar, Hima Karanam, Sachindra Joshi, Pankaj Dhoolia, Dinesh Garg, Kyle Croutwater, Haode Qi, Eric Wayne, J William Murdock, (参考訳) 本稿では,多種多様な産業用アプリケーションを対象とした対話型アシスタントにおける対話状態追跡を行うために,LLMベースのスロット補完システムを構築するためのアプローチを提案する。 このシステムの主な要件は以下のとおりである。 1)低レイテンシ要件を満たすための小型モデルの使用、有用で費用対効果の高いクラウドおよび顧客環境のデプロイメントの実現、 2) さまざまなドメイン、スロットタイプ、会話シナリオにまたがって機能するゼロショット機能。 我々は,事前学習したLCMをタスク固有データを用いてスロット充足モデルに微調整する,微調整アプローチを採用する。 細調整データは、モデルが様々な領域にまたがって直面するであろう様々なスロット充足タスクシナリオをカバーするために、慎重に作成される。 データ準備とモデル構築プロセスの詳細を述べる。 また,実験結果の詳細な分析を行った。 その結果, スロット充填モデル構築に対する我々の所定のアプローチは, F1の基準値よりも6.9%向上し, 同時に遅延を57%低減できた。 さらに、私たちが作成したデータは、さまざまなスロットタイプでF1を平均4.2%改善するのに役立ちました。

We present an approach to build Large Language Model (LLM) based slot-filling system to perform Dialogue State Tracking in conversational assistants serving across a wide variety of industry-grade applications. Key requirements of this system include: 1) usage of smaller-sized models to meet low latency requirements and to enable convenient and cost-effective cloud and customer premise deployments, and 2) zero-shot capabilities to serve across a wide variety of domains, slot types and conversational scenarios. We adopt a fine-tuning approach where a pre-trained LLM is fine-tuned into a slot-filling model using task specific data. The fine-tuning data is prepared carefully to cover a wide variety of slot-filling task scenarios that the model is expected to face across various domains. We give details of the data preparation and model building process. We also give a detailed analysis of the results of our experimental evaluations. Results show that our prescribed approach for slot-filling model building has resulted in 6.9% relative improvement of F1 metric over the best baseline on a realistic benchmark, while at the same time reducing the latency by 57%. More over, the data we prepared has helped improve F1 on an average by 4.2% relative across various slot-types.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# COVE: 一貫性のあるビデオ編集のための拡散特徴対応を解き放つ

COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing ( http://arxiv.org/abs/2406.08850v1 )

ライセンス: Link先を確認
Jiangshan Wang, Yue Ma, Jiayi Guo, Yicheng Xiao, Gao Huang, Xiu Li, (参考訳) ビデオ編集は新たな課題であり、現在のほとんどのメソッドでは、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用して、ゼロショットでソースビデオを編集する。 大規模な努力にもかかわらず、通常のT2I拡散モデルに時間的制約がないため、編集ビデオの時間的一貫性を維持することは依然として困難である。 この問題に対処するため,我々は,高画質で一貫した映像編集を実現するために,固有の拡散特徴対応を活用し,COVE(Cor correspondingence-guided Video Editing)を提案する。 具体的には,ソースビデオの拡散特性におけるトークン間の類似性を計算し,フレーム間の高い対応性を持つトークンを同定する,効率的なスライドウインドウに基づく手法を提案する。 逆転・復調過程において, 共振器を用いて雑音に富んだ潜伏状態のトークンをサンプリングし, その内部で自己注意を行う。 さらに,GPUメモリ使用量を削減し,編集プロセスの高速化を図るため,時間次元トークンマージ戦略を導入し,冗長性を効果的に低減する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。 大規模な実験結果から,COVEは様々なビデオ編集シナリオにおいて,既存の手法を定量的かつ定性的に上回る,最先端のパフォーマンスを達成できることが判明した。 コードはhttps://github.com/wangjiangshan0725/COVEでリリースされる。

Video editing is an emerging task, in which most current methods adopt the pre-trained text-to-image (T2I) diffusion model to edit the source video in a zero-shot manner. Despite extensive efforts, maintaining the temporal consistency of edited videos remains challenging due to the lack of temporal constraints in the regular T2I diffusion model. To address this issue, we propose COrrespondence-guided Video Editing (COVE), leveraging the inherent diffusion feature correspondence to achieve high-quality and consistent video editing. Specifically, we propose an efficient sliding-window-based strategy to calculate the similarity among tokens in the diffusion features of source videos, identifying the tokens with high correspondence across frames. During the inversion and denoising process, we sample the tokens in noisy latent based on the correspondence and then perform self-attention within them. To save GPU memory usage and accelerate the editing process, we further introduce the temporal-dimensional token merging strategy, which can effectively reduce redundancy. COVE can be seamlessly integrated into the pre-trained T2I diffusion model without the need for extra training or optimization. Extensive experiment results demonstrate that COVE achieves the start-of-the-art performance in various video editing scenarios, outperforming existing methods both quantitatively and qualitatively. The code will be release at https://github.com/wangjiangshan0725/COVE
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 電子カルテからの精度の高い治療効果推定を可能にする深部列モデルによる治療重量の逆確率

Inverse Probability of Treatment Weighting with Deep Sequence Models Enables Accurate treatment effect Estimation from Electronic Health Records ( http://arxiv.org/abs/2406.08851v1 )

ライセンス: Link先を確認
Junghwan Lee, Simin Ma, Nicoleta Serban, Shihao Yang, (参考訳) 電子健康記録(EHR)の増大に伴う治療効果の推計には,観察データの利用が盛んに行われている。 しかしながら、EHRは通常、経年記録から成り、しばしば時間依存のコンファウンディングを導入し、治療効果の偏りのない推定を妨げている。 処理重み付けの逆確率 (IPTW) は、不偏処理効果の推定を提供し、その導出が容易であるため、広く用いられている確率スコア法である。 本研究では,IPTWを用いて,クレーム記録を用いた時間依存的コンファウンディングの存在下での処理効果を推定することを目的とする。 従来の研究では, 情報抽出にドメイン知識と追加資源を必要とする特徴処理を通じて, クレーム記録から派生した特徴を持つ確率スコア法を用いて, 正確さスコアを推定している。 ディープシーケンスモデル、特にリカレントニューラルネットワークと自己アテンションに基づくアーキテクチャは、さまざまな下流タスクのためのEHRをモデル化する上で、優れたパフォーマンスを示している。 我々は,これらの深部配列モデルを用いて,特徴処理を必要とせずに,クレームレコードからの適合度スコアを直接推定することにより,処理効果の精度の高い IPTW 推定が可能であることを提案する。 合成および半合成データセットを用いて包括的評価を行うことによりこれを実証的に実証する。

Observational data have been actively used to estimate treatment effect, driven by the growing availability of electronic health records (EHRs). However, EHRs typically consist of longitudinal records, often introducing time-dependent confoundings that hinder the unbiased estimation of treatment effect. Inverse probability of treatment weighting (IPTW) is a widely used propensity score method since it provides unbiased treatment effect estimation and its derivation is straightforward. In this study, we aim to utilize IPTW to estimate treatment effect in the presence of time-dependent confounding using claims records. Previous studies have utilized propensity score methods with features derived from claims records through feature processing, which generally requires domain knowledge and additional resources to extract information to accurately estimate propensity scores. Deep sequence models, particularly recurrent neural networks and self-attention-based architectures, have demonstrated good performance in modeling EHRs for various downstream tasks. We propose that these deep sequence models can provide accurate IPTW estimation of treatment effect by directly estimating the propensity scores from claims records without the need for feature processing. We empirically demonstrate this by conducting comprehensive evaluations using synthetic and semi-synthetic datasets.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 普遍微分方程式の不確かさ定量化の評価

Assessment of Uncertainty Quantification in Universal Differential Equations ( http://arxiv.org/abs/2406.08853v1 )

ライセンス: Link先を確認
Nina Schmid, David Fernandes del Pozo, Willem Waegeman, Jan Hasenauer, (参考訳) 科学機械学習(Scientific Machine Learning)は、物理知識とメカニスティックモデルとデータ駆動技術を統合し、複雑なプロセスの制御方程式を明らかにする新しいアプローチのクラスである。 利用可能なアプローチの中で、Universal Differential Equations (UDEs) は、機械式とニューラルネットワークのような普遍関数近似器という形で、事前の知識を結合するために用いられる。 UDEの有効性と一体化することは、経験的データを用いた機械的定式化と普遍関数近似器におけるパラメータの合同推定である。 しかし、結果モデルの堅牢性と適用性は、これらのパラメータに関連する不確実性の厳密な定量化と、全体モデルまたは構成成分の予測能力に左右される。 この研究により、UDEに対する不確実量化(UQ)の形式化を提供し、重要な頻繁性とベイズ的手法について検討する。 様々な複雑性の合成例を3つ分析することにより, アンサンブル, 変分推論, マルコフ連鎖モンテカルロサンプリングの有効性と効率を, UDEの疫学的UQ法として評価した。

Scientific Machine Learning is a new class of approaches that integrate physical knowledge and mechanistic models with data-driven techniques for uncovering governing equations of complex processes. Among the available approaches, Universal Differential Equations (UDEs) are used to combine prior knowledge in the form of mechanistic formulations with universal function approximators, like neural networks. Integral to the efficacy of UDEs is the joint estimation of parameters within mechanistic formulations and the universal function approximators using empirical data. The robustness and applicability of resultant models, however, hinge upon the rigorous quantification of uncertainties associated with these parameters, as well as the predictive capabilities of the overall model or its constituent components. With this work, we provide a formalisation of uncertainty quantification (UQ) for UDEs and investigate important frequentist and Bayesian methods. By analysing three synthetic examples of varying complexity, we evaluate the validity and efficiency of ensembles, variational inference and Markov chain Monte Carlo sampling as epistemic UQ methods for UDEs.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 農業における強化学習型Digital Twinsの現状と将来展望

Current applications and potential future directions of reinforcement learning-based Digital Twins in agriculture ( http://arxiv.org/abs/2406.08854v1 )

ライセンス: Link先を確認
Georg Goldenits, Kevin Mallinger, Sebastian Raubitzek, Thomas Neubauer, (参考訳) Digital Twinsは、機械学習モデルに依存して、シミュレーション、モニタリング、意思決定など、さまざまな業界で注目を集めている。 しかし、Digital Twinの実装は他の産業と比較して制限されている。 一方、機械学習、特に強化学習は、意思決定の最適化、タスクの自動化、リソース管理といった農業応用の可能性を示している。 Digital Twinsの重要な側面は、仮想環境における物理的資産やシステムを表現することである。 農業における強化学習は、農業分野における様々なデジタルツインの応用を可能にする。 本総説は, 農業環境における強化学習を活用した既存の研究を, ロボット工学, 温室管理, 灌水システム, 作物管理といった応用分野によって分類し, 強化学習に基づくデジタルツインズの将来分野を特定することを目的とする。 また、表式手法、ディープQネットワークワークス(DQN)、ポリシーグラディエント手法、アクター・クライブアルゴリズムなどの強化学習手法を分類し、現在採用されているモデルを概観する。 このレビューは、デジタルツインと農業における強化学習の統合、将来の研究のギャップと機会の特定、農業の課題への取り組みと農業の最適化のためのシナジーの探索、より効率的で持続可能な農業方法論への道を開くことの最先端に関する洞察を提供することを目指している。

Digital Twins have gained attention in various industries for simulation, monitoring, and decision-making, relying on ever-improving machine learning models. However, agricultural Digital Twin implementations are limited compared to other industries. Meanwhile, machine learning, particularly reinforcement learning, has shown potential in agricultural applications like optimizing decision-making, task automation, and resource management. A key aspect of Digital Twins is representing physical assets or systems in a virtual environment, which aligns well with reinforcement learning's need for environment representations to learn the best policy for a task. Reinforcement learning in agriculture can thus enable various Digital Twin applications in agricultural domains. This review aims to categorize existing research employing reinforcement learning in agricultural settings by application domains like robotics, greenhouse management, irrigation systems, and crop management, identifying potential future areas for reinforcement learning-based Digital Twins. It also categorizes the reinforcement learning techniques used, including tabular methods, Deep Q-Networks (DQN), Policy Gradient methods, and Actor-Critic algorithms, to overview currently employed models. The review seeks to provide insights into the state-of-the-art in integrating Digital Twins and reinforcement learning in agriculture, identifying gaps and opportunities for future research, and exploring synergies to tackle agricultural challenges and optimize farming, paving the way for more efficient and sustainable farming methodologies.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 単一励起を持つ一次元鎖における原子のアンサンブルの協調崩壊

Cooperative decay of an ensemble of atoms in a one-dimensional chain with a single excitation ( http://arxiv.org/abs/2406.08856v1 )

ライセンス: Link先を確認
Nicola Piovella, (参考訳) 単励起状態における1次元のN$2準位原子鎖の協調崩壊速度の近似式を新たに提案する。 そこから、原子-原子相互作用グリーン関数の固有値問題を解く必要なしに、超放射とサブ放射の干渉の性質が自然に生じる。 協調崩壊速度は、一励起多様体におけるN原子の一般化されたディック状態に対して評価された、系の有効非エルミートハミルトニアンの期待値の想像上の部分と解釈できる。 無限鎖のラジアント崩壊速度はゼロであるが、有限鎖の1/Nとして減少する。 格子定数 d と原子番号 N の関数として単純な近似式が得られ、結果はまずスカラーモデルに対して得られ、次にベクトル光モデルに拡張され、全ての双極子が整列すると仮定される。

We propose a new approximated expression of the cooperative decay rate of a one-dimensional chain of $N$ two-level atoms in the single-excitation configuration. From it, the interference nature of superradiance and subradiance arises naturally, without the need of solving the eigenvalue problem of the atom-atom interaction Green function. The cooperative decay rate can be interpreted as the imaginary part of the expectation value of the effective non-Hermitian Hamiltonian of the system, evaluated over a generalized Dicke state of N atoms in the single-excitation manifold. Whereas the subradiant decay rate is zero for an infinite chain, it decreases as 1/N for a finite chain. A simple approximated expression for the cooperative decay rate is obtained as a function of the lattice constant d and the atomic number N. The results are obtained first for the scalar model and then extended to the vectorial light model, assuming all the dipoles aligned.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# OmniH2O:ヒト-ヒト-ヒト-ヒト全体遠隔操作と学習

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning ( http://arxiv.org/abs/2406.08858v1 )

ライセンス: Link先を確認
Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi, (参考訳) 本報告では,OmniH2O(Omni Human-to-Humanoid)について述べる。 キネマティックポーズをユニバーサルコントロールインターフェースとして使用することで、OmniH2Oは、VRヘッドセットによるリアルタイム遠隔操作、口語指導、RGBカメラなど、人間の手によるフルサイズのヒューマノイドのコントロールを可能にする。 OmniH2Oはまた、遠隔操作されたデモから学習したり、GPT-4のようなフロンティアモデルとの統合によって完全な自律性を可能にする。 OmniH2Oは、複数のスポーツをしたり、物体を動かしたり操作したり、人間と対話したりといった、遠隔操作や自律性を通じて、現実世界全体のタスクにおける多彩さと器用さを実演している。 我々は,人間の動作データセットの大規模再ターゲティングと拡張を含むRLベースのsim-to-realパイプラインを開発し,特権的な教師ポリシーを模倣してスパースセンサー入力による実世界の展開可能なポリシを学習し,堅牢性と安定性を高めるための設計に報酬を与える。 6つの日常的なタスクを含む最初のヒューマノイド全体制御データセットOmniH2O-6をリリースし、遠隔操作データセットからヒューマノイド全体スキル学習を実演する。

We present OmniH2O (Omni Human-to-Humanoid), a learning-based system for whole-body humanoid teleoperation and autonomy. Using kinematic pose as a universal control interface, OmniH2O enables various ways for a human to control a full-sized humanoid with dexterous hands, including using real-time teleoperation through VR headset, verbal instruction, and RGB camera. OmniH2O also enables full autonomy by learning from teleoperated demonstrations or integrating with frontier models such as GPT-4. OmniH2O demonstrates versatility and dexterity in various real-world whole-body tasks through teleoperation or autonomy, such as playing multiple sports, moving and manipulating objects, and interacting with humans. We develop an RL-based sim-to-real pipeline, which involves large-scale retargeting and augmentation of human motion datasets, learning a real-world deployable policy with sparse sensor input by imitating a privileged teacher policy, and reward designs to enhance robustness and stability. We release the first humanoid whole-body control dataset, OmniH2O-6, containing six everyday tasks, and demonstrate humanoid whole-body skill learning from teleoperated datasets.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 視覚変換器における局所的・疎外的注意の融合

Fusion of regional and sparse attention in Vision Transformers ( http://arxiv.org/abs/2406.08859v1 )

ライセンス: Link先を確認
Nabil Ibtehaz, Ning Yan, Masood Mortazavi, Daisuke Kihara, (参考訳) 現代の視覚変換器は、元のViTで使われるグローバルな注目とは対照的に、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の局所的な相互作用を視覚的にインスピレーションする。 局所的な注意は特定の領域内のピクセル相互作用を制限するが、スパースな注意はスパースグリッドに分散する。 これらの異なるアプローチは、階層的な関係を維持することと、グローバルなコンテキストをキャプチャすることの間に課題を生じさせる。 本研究では,アトラス・コンボリューションからインスピレーションを得たアトラス・アテンション (Atrous Attention) を提案する。アトラス・アテンション (Atrous Attention) とは,アトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) の混合であり,アトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) とアトラス・アテンション (Atrous Attention) そこで我々はACC-ViTと呼ばれる多用途ハイブリッドビジョントランスフォーマーのバックボーンを導入する。 我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、8.4%のパラメータを必要としながら、最先端のMaxViTを0.42%上回った。

Modern vision transformers leverage visually inspired local interaction between pixels through attention computed within window or grid regions, in contrast to the global attention employed in the original ViT. Regional attention restricts pixel interactions within specific regions, while sparse attention disperses them across sparse grids. These differing approaches pose a challenge between maintaining hierarchical relationships vs. capturing a global context. In this study, drawing inspiration from atrous convolution, we propose Atrous Attention, a blend of regional and sparse attention that dynamically integrates both local and global information while preserving hierarchical structures. Based on this, we introduce a versatile, hybrid vision transformer backbone called ACC-ViT, tailored for standard vision tasks. Our compact model achieves approximately 84% accuracy on ImageNet-1K with fewer than 28.5 million parameters, outperforming the state-of-the-art MaxViT by 0.42% while requiring 8.4% fewer parameters.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# Plan, Generate and Complicate: 難易度ゼロショットデータ拡張による低リソース対話状態追跡の改善

Plan, Generate and Complicate: Improving Low-resource Dialogue State Tracking via Easy-to-Difficult Zero-shot Data Augmentation ( http://arxiv.org/abs/2406.08860v1 )

ライセンス: Link先を確認
Ming Gu, Yan Yang, (参考訳) データ拡張手法は、低リソースの対話状態追跡のための小型モデルの性能を向上させるための有望な方向である。 しかし、従来の手法は事前に定義されたユーザー目標に依存し、このタスクにおけるデータ複雑さの重要性を無視する。 本稿では,大規模な言語モデルを用いて異なるドメインの関係を自動的に把握し,対話データを生成する,低リソースの対話状態追跡のための,難易度ゼロショットデータ拡張フレームワークであるEDZ-DAを提案する。 また、ドメイン関係に基づいて対話を複雑化し、参照スロット追跡のためのモデルの能力を高める。 さらに、出力順序の影響と不完全値生成の問題を軽減するためにスロット値をパーミュートする。 実験結果から,MultiWOZにおける従来の強データ拡張ベースラインと比較して,提案手法の優位性を示した。

Data augmentation methods have been a promising direction to improve the performance of small models for low-resource dialogue state tracking. However, traditional methods rely on pre-defined user goals and neglect the importance of data complexity in this task. In this paper, we propose EDZ-DA, an Easy-to-Difficult Zero-shot Data Augmentation framework for low-resource dialogue state tracking that utilizes large language models to automatically catch the relationships of different domains and then generate the dialogue data. We also complicate the dialogues based on the domain relation to enhance the model's capability for co-reference slot tracking. Furthermore, we permute slot values to mitigate the influence of output orders and the problem of incomplete value generation. Experimental results illustrate the superiority of our proposed method compared to previous strong data augmentation baselines on MultiWOZ.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# 認知にインスパイアされたエネルギーベース世界モデル

Cognitively Inspired Energy-Based World Models ( http://arxiv.org/abs/2406.08862v1 )

ライセンス: Link先を確認
Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Aman Chadha, Jundong Li, Tariq Iqbal, (参考訳) 世界モデルをトレーニングする主要な方法の1つは、シーケンスの次の要素の出力空間における自己回帰予測である。 自然言語処理 (NLP) では、これは次のトークンを予測するLarge Language Models (LLM) の形をとり、コンピュータビジョン (CV) では、次のフレーム/トークン/ピクセルを予測する自動回帰モデルの形を取る。 しかし、このアプローチは人間の認識とはいくつかの点で異なる。 第一に、未来に関する人間の予測は、内的認知プロセスに積極的に影響を及ぼす。 第二に、人間は将来の状態に関する予測の妥当性を自然に評価する。 この能力と第3の能力に基づいて、予測が十分であるかどうかを評価することで、人間は予測を行うために動的な時間を割り当てる。 この適応過程は、心理学におけるシステム2の思考に類似している。 これらの能力は、高いレベルの推論と計画において、人間の成功に不可欠である。 そこで, 従来の自己回帰モデルでは, 人間の能力に欠ける限界に対処するため, エネルギーベース世界モデル(EBWM)を導入する。 EBWMは、与えられたコンテキストと予測される将来の状態の互換性を予測するために、エネルギーベースモデル(EBM)を訓練する。 そうすることで、EBWMはモデルが記述された人間の認知の3つの面すべてを達成することができる。 さらに,エネルギーベーストランス(EBT)と呼ばれるエネルギーベースモデルに適した,従来の自己回帰変換器の変種を開発した。 以上の結果から,EBWMは従来のCVの自己回帰変換器よりもデータやGPU時間でのスケーリングが優れていることが示され,EBWMはNLPの早期スケーリングを有望に提供している。 したがって、このアプローチは、システム2の思考と状態空間をインテリジェントに探索できる将来のモデルをトレーニングするためのエキサイティングな道を提供する。

One of the predominant methods for training world models is autoregressive prediction in the output space of the next element of a sequence. In Natural Language Processing (NLP), this takes the form of Large Language Models (LLMs) predicting the next token; in Computer Vision (CV), this takes the form of autoregressive models predicting the next frame/token/pixel. However, this approach differs from human cognition in several respects. First, human predictions about the future actively influence internal cognitive processes. Second, humans naturally evaluate the plausibility of predictions regarding future states. Based on this capability, and third, by assessing when predictions are sufficient, humans allocate a dynamic amount of time to make a prediction. This adaptive process is analogous to System 2 thinking in psychology. All these capabilities are fundamental to the success of humans at high-level reasoning and planning. Therefore, to address the limitations of traditional autoregressive models lacking these human-like capabilities, we introduce Energy-Based World Models (EBWM). EBWM involves training an Energy-Based Model (EBM) to predict the compatibility of a given context and a predicted future state. In doing so, EBWM enables models to achieve all three facets of human cognition described. Moreover, we developed a variant of the traditional autoregressive transformer tailored for Energy-Based models, termed the Energy-Based Transformer (EBT). Our results demonstrate that EBWM scales better with data and GPU Hours than traditional autoregressive transformers in CV, and that EBWM offers promising early scaling in NLP. Consequently, this approach offers an exciting path toward training future models capable of System 2 thinking and intelligently searching across state spaces.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# メカニカルCAD検索のための自己教師付きグラフニューラルネットワーク

Self-supervised Graph Neural Network for Mechanical CAD Retrieval ( http://arxiv.org/abs/2406.08863v1 )

ライセンス: Link先を確認
Yuhan Quan, Huan ZHao, Jinfeng Yi, Yuqiang Chen, (参考訳) CAD (Computer-Aided Design) は機械産業において重要な役割を担っている。 これらの部品を効果的に再利用することは、企業の設計と生産コストを減らすための鍵となる。 検索システムはCADの再利用に欠かせないが、CADモデルの複雑な形状はテキストやキーワードを正確に記述することは困難であり、従来の検索手法では有効ではない。 CADには既存の表現学習手法が開発されているが,これらの手法に類似したサンプルを手作業でラベル付けすることは高価である。 さらに,CADモデルのユニークなパラメータ化データ構造は,既存の3次元形状表現学習技術を直接適用する上での課題である。 本稿では,パラメータ化されたCAD原ファイルを直接モデル化する機械的CAD検索のための,自己教師付きコントラストグラフニューラルネットワークを用いたGC-CADを提案する。 GC-CADは、構造認識表現学習とコントラストグラフ学習フレームワークの2つの主要なモジュールから構成される。 この手法はグラフニューラルネットワークを利用してCADモデルから幾何学的および位相的情報を抽出し、特徴表現を生成する。 そこで我々は,手動ラベルを使わずにモデルをトレーニングし,検索可能な表現を生成する,シンプルで効果的なグラフ学習フレームワークを提案する。 人体評価を含む4つのデータセットの実験結果から,提案手法の精度は向上し,ベースライン法よりも最大100倍の効率向上が得られた。

CAD (Computer-Aided Design) plays a crucial role in mechanical industry, where large numbers of similar-shaped CAD parts are often created. Efficiently reusing these parts is key to reducing design and production costs for enterprises. Retrieval systems are vital for achieving CAD reuse, but the complex shapes of CAD models are difficult to accurately describe using text or keywords, making traditional retrieval methods ineffective. While existing representation learning approaches have been developed for CAD, manually labeling similar samples in these methods is expensive. Additionally, CAD models' unique parameterized data structure presents challenges for applying existing 3D shape representation learning techniques directly. In this work, we propose GC-CAD, a self-supervised contrastive graph neural network-based method for mechanical CAD retrieval that directly models parameterized CAD raw files. GC-CAD consists of two key modules: structure-aware representation learning and contrastive graph learning framework. The method leverages graph neural networks to extract both geometric and topological information from CAD models, generating feature representations. We then introduce a simple yet effective contrastive graph learning framework approach, enabling the model to train without manual labels and generate retrieval-ready representations. Experimental results on four datasets including human evaluation demonstrate that the proposed method achieves significant accuracy improvements and up to 100 times efficiency improvement over the baseline methods.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# コンピュータ深層学習に基づく心血管疾患早期警戒モデルに関する研究

Research on Early Warning Model of Cardiovascular Disease Based on Computer Deep Learning ( http://arxiv.org/abs/2406.08864v1 )

ライセンス: Link先を確認
Yuxiang Hu, Jinxin Hu, Ting Xu, Bo Zhang, Jiajie Yuan, Haozhang Deng, (参考訳) 本研究は,1次元畳み込みニューラルネットワークに基づく心血管疾患早期警戒モデルについて検討することを目的とする。 まず, 患者年齢, 血糖値, コレステロール値, 胸痛値などの生理・症状指標が欠落し, Zスコアが標準化された。 畳み込みニューラルネットワークを2次元行列に変換し、一階畳み込み演算には1,3,5の畳み込み関数を用い、次元減少にはMax Poolingアルゴリズムを採用する。 学習率と出力率を設定します。 これはAdamアルゴリズムによって最適化されている。 分類結果はソフト分類器によって出力される。 本研究はUCIデータベースと心疾患データベースのStatlogを用いて行った。 この手法の予測精度は従来の手法に比べて11.2%向上し,対数曲線の適合性も大幅に向上した。 新規アプローチの有効性と適用性は, 一次元畳み込みニューラルネットワークを用いた検討を通じて検証する。

This project intends to study a cardiovascular disease risk early warning model based on one-dimensional convolutional neural networks. First, the missing values of 13 physiological and symptom indicators such as patient age, blood glucose, cholesterol, and chest pain were filled and Z-score was standardized. The convolutional neural network is converted into a 2D matrix, the convolution function of 1,3, and 5 is used for the first-order convolution operation, and the Max Pooling algorithm is adopted for dimension reduction. Set the learning rate and output rate. It is optimized by the Adam algorithm. The result of classification is output by a soft classifier. This study was conducted based on Statlog in the UCI database and heart disease database respectively. The empirical data indicate that the forecasting precision of this technique has been enhanced by 11.2%, relative to conventional approaches, while there is a significant improvement in the logarithmic curve fitting. The efficacy and applicability of the novel approach are corroborated through the examination employing a one-dimensional convolutional neural network.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# ZoomとShiftは必要なすべて

Zoom and Shift are All You Need ( http://arxiv.org/abs/2406.08866v1 )

ライセンス: Link先を確認
Jiahao Qin, (参考訳) 特徴アライメントは、マルチモーダルデータを融合する主要なメカニズムとして機能する。 マルチモーダル情報の完全統合を実現する機能アライメントアプローチを提案する。 これは、共同特徴空間における一貫した統一表現を得るために、モダリティを越えて特徴表現をシフトおよび拡張する交互プロセスによって達成される。 提案手法は,異なるモダリティから派生した特徴間の高レベルな相互作用を確実に捉えることができる。 その結果,マルチモーダル学習性能が大幅に向上した。 さらに,様々なタスクにおいて,他の一般的なマルチモーダル・フュージョン・スキームに対するアプローチの優位性を示す。 時系列,画像,テキストを含むマルチモーダルデータセットを用いて行った実験により,本手法が最先端の成果を得られたことを示す。

Feature alignment serves as the primary mechanism for fusing multimodal data. We put forth a feature alignment approach that achieves full integration of multimodal information. This is accomplished via an alternating process of shifting and expanding feature representations across modalities to obtain a consistent unified representation in a joint feature space. The proposed technique can reliably capture high-level interplay between features originating from distinct modalities. Consequently, substantial gains in multimodal learning performance are attained. Additionally, we demonstrate the superiority of our approach over other prevalent multimodal fusion schemes on a range of tasks. Extensive experimental evaluation conducted on multimodal datasets comprising time series, image, and text demonstrates that our method achieves state-of-the-art results.
翻訳日:2024-06-14 19:03:54 公開日:2024-06-13
# EgoExo-Fitness:Egocentric and Exocentric Full-Body Action Understandingに向けて

EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding ( http://arxiv.org/abs/2406.08877v1 )

ライセンス: Link先を確認
Yuan-Ming Li, Wei-Jin Huang, An-Lan Wang, Ling-An Zeng, Jing-Ke Meng, Wei-Shi Zheng, (参考訳) EgoExo-Fitnessは、新しいフルボディアクション理解データセットで、同期型エゴセントリックカメラと固定型エゴセントリックカメラ(3人称)カメラから記録されたフィットネスシーケンスを特徴とする。 既存のフルボディのアクション理解データセットと比較すると、EgoExo-Fitnessは一人称視点のビデオだけでなく、リッチなアノテーションも提供する。 具体的には、各アクションのサブステップとともに、単一のアクションビデオをローカライズするために、2段階の時間境界が提供される。 さらに重要なのは、EgoExo-Fitnessは、技術的キーポイント検証、アクション実行に関する自然言語コメント、アクション品質スコアを含む、解釈可能なアクション判断のための革新的なアノテーションを導入している。 これらすべてを組み合わせることで、EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を"What"、"When"、"How well"の次元で研究するための新たなリソースを提供する。 本研究では,行動分類,行動ローカライゼーション,クロスビューシーケンス検証,クロスビュースキル決定,新たに提案されたガイダンスに基づく実行検証タスクなどの一連のタスクのベンチマークを,詳細な分析とともに構築する。 コードとデータはhttps://github.com/iSEE-Laboratory/EgoExo-Fitness/tree/mainで入手できる。

We present EgoExo-Fitness, a new full-body action understanding dataset, featuring fitness sequence videos recorded from synchronized egocentric and fixed exocentric (third-person) cameras. Compared with existing full-body action understanding datasets, EgoExo-Fitness not only contains videos from first-person perspectives, but also provides rich annotations. Specifically, two-level temporal boundaries are provided to localize single action videos along with sub-steps of each action. More importantly, EgoExo-Fitness introduces innovative annotations for interpretable action judgement--including technical keypoint verification, natural language comments on action execution, and action quality scores. Combining all of these, EgoExo-Fitness provides new resources to study egocentric and exocentric full-body action understanding across dimensions of "what", "when", and "how well". To facilitate research on egocentric and exocentric full-body action understanding, we construct benchmarks on a suite of tasks (i.e., action classification, action localization, cross-view sequence verification, cross-view skill determination, and a newly proposed task of guidance-based execution verification), together with detailed analysis. Code and data will be available at https://github.com/iSEE-Laboratory/EgoExo-Fitness/tree/main.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# CIMRL: 安全な自律運転のためのImitiationとReinforcement Learningを組み合わせた学習

CIMRL: Combining IMitiation and Reinforcement Learning for Safe Autonomous Driving ( http://arxiv.org/abs/2406.08878v1 )

ライセンス: Link先を確認
Jonathan Booher, Khashayar Rohanimanesh, Junhong Xu, Aleksandr Petiushko, (参考訳) 現代の自動運転のアプローチは、模倣学習を通じて大量の人間の運転データで訓練された学習されたコンポーネントに大きく依存している。 しかし、これらの手法には大量の高価なデータ収集が必要であり、ロングテールシナリオを安全に処理し、時間とともにエラーを複雑化するという課題に直面している。 同時に、純粋な強化学習(RL)手法は、運転のような報酬設定を疎外し、制約し、かつ決定し難いパフォーマンスポリシーを学習することができない。 これらの課題はどちらも、自動運転車のような安全上重要なアプリケーションに、純粋にクローン化されたポリシーを展開させる。 本稿では,模倣動作の先行と安全性制約を活用することで,シミュレーションにおける運転方針のトレーニングを可能にするCIMRL(Combining imitation and Reinforcement Learning)アプローチを提案する。 CIMRLは広範な報酬仕様を必要とせず、純粋なクローンメソッドの閉ループ挙動を改善している。 RLと模倣を組み合わせることで,本手法は閉ループシミュレーション駆動ベンチマークにおいて最先端の結果が得られることを示す。

Modern approaches to autonomous driving rely heavily on learned components trained with large amounts of human driving data via imitation learning. However, these methods require large amounts of expensive data collection and even then face challenges with safely handling long-tail scenarios and compounding errors over time. At the same time, pure Reinforcement Learning (RL) methods can fail to learn performant policies in sparse, constrained, and challenging-to-define reward settings like driving. Both of these challenges make deploying purely cloned policies in safety critical applications like autonomous vehicles challenging. In this paper we propose Combining IMitation and Reinforcement Learning (CIMRL) approach -- a framework that enables training driving policies in simulation through leveraging imitative motion priors and safety constraints. CIMRL does not require extensive reward specification and improves on the closed loop behavior of pure cloning methods. By combining RL and imitation, we demonstrate that our method achieves state-of-the-art results in closed loop simulation driving benchmarks.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# 視点なし, 知覚なし! パースペクティブ・アウェア・ヘルスケア・アンサー・サマリゼーション

No perspective, no perception!! Perspective-aware Healthcare Answer Summarization ( http://arxiv.org/abs/2406.08881v1 )

ライセンス: Link先を確認
Gauri Naik, Sharad Chandakacherla, Shweta Yadav, Md. Shad Akhtar, (参考訳) 医療コミュニティ質問回答(CQA)フォーラムは、様々な医療関連トピックに関する情報を求める個人に対して、アクセス可能なプラットフォームを提供する。 人々は、自己開示に適したプラットフォームを見つけ、医学的意見を求め、医療状況の説明を単純化し、他人の質問に答える。 しかしながら、これらのフォーラムでの回答は典型的には多様であり、話題外の議論をしがちである。 読者が多くの回答を抽出し、意味のある洞察を抽出することは、CQAフォーラムにとって重要なタスクである。 コミュニティの回答を要約するためにいくつかの努力がなされているが、そのほとんどはオープンドメインに限定されており、これらの回答によって提供される異なる視点を見落としている。 この問題に対処するため,本稿では,視点特異的回答要約という新たな課題を提案する。 我々は、医療関連反応の様々な視点を特定し、全ての反応を網羅した視点駆動の抽象的要約を作成する。 これを実現するため、PUMAデータセットに3167のCQAスレッドを6193の視点対応サマリで注釈付けした。 さらに,プロンプト駆動制御可能な要約モデルであるPLASMAを提案する。 パースペクティブ固有の条件をカプセル化するために,最適化のためのエネルギー制御損失関数を設計する。 また、プレフィックスチューナーを利用して、医療的視点の要約の複雑さを学習する。 評価の結果,PLASMAは1.5-21%の改善率で優れた性能を示した。 我々はアブレーションと定性的分析で実験を補足する。

Healthcare Community Question Answering (CQA) forums offer an accessible platform for individuals seeking information on various healthcare-related topics. People find such platforms suitable for self-disclosure, seeking medical opinions, finding simplified explanations for their medical conditions, and answering others' questions. However, answers on these forums are typically diverse and prone to off-topic discussions. It can be challenging for readers to sift through numerous answers and extract meaningful insights, making answer summarization a crucial task for CQA forums. While several efforts have been made to summarize the community answers, most of them are limited to the open domain and overlook the different perspectives offered by these answers. To address this problem, this paper proposes a novel task of perspective-specific answer summarization. We identify various perspectives, within healthcare-related responses and frame a perspective-driven abstractive summary covering all responses. To achieve this, we annotate 3167 CQA threads with 6193 perspective-aware summaries in our PUMA dataset. Further, we propose PLASMA, a prompt-driven controllable summarization model. To encapsulate the perspective-specific conditions, we design an energy-controlled loss function for the optimization. We also leverage the prefix tuner to learn the intricacies of the health-care perspective summarization. Our evaluation against five baselines suggests the superior performance of PLASMA by a margin of 1.5-21% improvement. We supplement our experiments with ablation and qualitative analysis.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# SA-DQAS: 自己アテンションを増強した微分可能な量子アーキテクチャ検索

SA-DQAS: Self-attention Enhanced Differentiable Quantum Architecture Search ( http://arxiv.org/abs/2406.08882v1 )

ライセンス: Link先を確認
Yize Sun, Jiarui Liu, Zixin Wu, Zifeng Ding, Yunpu Ma, Thomas Seidl, Volker Tresp, (参考訳) 本稿では、量子機械学習(QML)の課題に対して回路設計を最適化することを目的とした自己アテンション機構により、勾配に基づく微分量子アーキテクチャ探索(DQAS)を強化する新しいフレームワークであるSA-DQASを紹介する。 文中の単語の列に類似して、量子回路は量子ゲートを含むプレースホルダーの列と見なすことができる。 DQASとは異なり、各プレースホルダーは独立しており、SA-DQASの自己保持機構は、回路内のプレースホルダーに配置された各操作候補間の関係や依存情報をキャプチャするのに役立つ。 本研究では,ジョブショップスケジューリング問題 (JSSP) , 最大カット問題, 量子忠実度に関する実験を行った。 自己注意を組み込むことで、結果の量子回路の安定性と性能が向上し、高いノイズ耐性と忠実さで構造設計が洗練される。 我々の研究は、DQASとの自己意識の初めての統合に成功したことを実証している。

We introduce SA-DQAS in this paper, a novel framework that enhances the gradient-based Differentiable Quantum Architecture Search (DQAS) with a self-attention mechanism, aimed at optimizing circuit design for Quantum Machine Learning (QML) challenges. Analogous to a sequence of words in a sentence, a quantum circuit can be viewed as a sequence of placeholders containing quantum gates. Unlike DQAS, each placeholder is independent, while the self-attention mechanism in SA-DQAS helps to capture relation and dependency information among each operation candidate placed on placeholders in a circuit. To evaluate and verify, we conduct experiments on job-shop scheduling problems (JSSP), Max-cut problems, and quantum fidelity. Incorporating self-attention improves the stability and performance of the resulting quantum circuits and refines their structural design with higher noise resilience and fidelity. Our research demonstrates the first successful integration of self-attention with DQAS.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# 等角的分類のための逆確率の罰則

The Penalized Inverse Probability Measure for Conformal Classification ( http://arxiv.org/abs/2406.08884v1 )

ライセンス: Link先を確認
Paul Melki, Lionel Bombrun, Boubacar Diallo, Jérôme Dias, Jean-Pierre da Costa, (参考訳) 安全で信頼性の高い機械学習システム、特に複雑なブラックボックスニューラルネットワークを現実世界のアプリケーションにデプロイするには、パフォーマンスに対する信頼性と保証が必要である。 共形予測フレームワークは、任意の点を有効で有限セットの集合予測子に変換することで、選択された信頼度レベルで真のカバレッジを保証することによって、そのような形式的な保証を提供する。 この方法論の中心は非整合スコア関数の概念であり、前述した観測と比較すると、各例に 'strangeness' の尺度を割り当てている。 非整合性尺度、点予測器、データセットにかかわらず、カバー保証は維持されるが、以前の研究では、その効率(予測集合の平均サイズ)と情報性(シングルトンである予測集合の割合)によって測定された共形モデルの性能は、非整合性スコア関数の選択の影響を受けていることが示されている。 現在の研究では、Pinalized Inverse Probability(PIP)の非整合性スコアと、その正規化バージョンであるRePIPを導入し、効率性と情報性の両方を共同で最適化している。 本研究は, 農業用ロボットにおける雑草イメージ分類作業における玩具の事例と実証結果を通じて, PIPをベースとしたコンフォメーション分類器が, 他の非整合性対策と比較して正確に望ましい行動を示し, 情報性と効率のバランスが良好であることを示す。

The deployment of safe and trustworthy machine learning systems, and particularly complex black box neural networks, in real-world applications requires reliable and certified guarantees on their performance. The conformal prediction framework offers such formal guarantees by transforming any point into a set predictor with valid, finite-set, guarantees on the coverage of the true at a chosen level of confidence. Central to this methodology is the notion of the nonconformity score function that assigns to each example a measure of ''strangeness'' in comparison with the previously seen observations. While the coverage guarantees are maintained regardless of the nonconformity measure, the point predictor and the dataset, previous research has shown that the performance of a conformal model, as measured by its efficiency (the average size of the predicted sets) and its informativeness (the proportion of prediction sets that are singletons), is influenced by the choice of the nonconformity score function. The current work introduces the Penalized Inverse Probability (PIP) nonconformity score, and its regularized version RePIP, that allow the joint optimization of both efficiency and informativeness. Through toy examples and empirical results on the task of crop and weed image classification in agricultural robotics, the current work shows how PIP-based conformal classifiers exhibit precisely the desired behavior in comparison with other nonconformity measures and strike a good balance between informativeness and efficiency.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# ポリノミアル低減法とQAOA回路への影響

Polynomial Reduction Methods and their Impact on QAOA Circuits ( http://arxiv.org/abs/2406.08889v1 )

ライセンス: Link先を確認
Lukas Schmidbauer, Karen Wintersperger, Elisabeth Lobe, Wolfgang Mauerer, (参考訳) 抽象化レイヤはソフトウェアアーキテクチャにおいて最重要であり、ペイロード計算の高レベルな定式化を低レベルな詳細から保護している。 量子コンピューティング(QC)は、コンピュータ科学者に不慣れな多くの詳細を導入しているため、明らかに、QCの適切な抽象化層を考案することである。 離散的な最適化のために、そのような抽象化の一つは、様々な量子アプローチに対応可能な二次的非制約バイナリ最適化(QUBO)形式に問題をキャストすることである。 しかし、異なる数学的に等価な形式は、量子ハードウェア上の様々な振る舞いをもたらし、簡単に量子ビットにマッピングできるものから、パフォーマンスのスケーラビリティまで様々である。 本研究では、高次問題定式化(QUBOの定式化よりも最適化タスクのモデル化に優れた表現性を提供する)とそれらのQUBO形式への自動変換が、量子最適化のために望まれる異なる非機能的性質の優先順位付けにどのように活用できるかを示す。 定量的研究により,本手法はさまざまなトレードオフを満たすことが可能であり,今後の汎用抽象化の構築や,高レベルな問題記述から有用な量子回路の自動生成の可能性も示唆されている。

Abstraction layers are of paramount importance in software architecture, as they shield the higher-level formulation of payload computations from lower-level details. Since quantum computing (QC) introduces many such details that are often unaccustomed to computer scientists, an obvious desideratum is to devise appropriate abstraction layers for QC. For discrete optimisation, one such abstraction is to cast problems in quadratic unconstrained binary optimisation (QUBO) form, which is amenable to a variety of quantum approaches. However, different mathematically equivalent forms can lead to different behaviour on quantum hardware, ranging from ease of mapping onto qubits to performance scalability. In this work, we show how using higher-order problem formulations (that provide better expressivity in modelling optimisation tasks than plain QUBO formulations) and their automatic transformation into QUBO form can be used to leverage such differences to prioritise between different desired non-functional properties for quantum optimisation. Our quantitative study shows that the approach allows us to satisfy different trade-offs, and suggests various possibilities for the future construction of general-purpose abstractions and automatic generation of useful quantum circuits from high-level problem descriptions.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# OpenMaterial:3D再構成のための複合材料の包括的データセット

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction ( http://arxiv.org/abs/2406.08894v1 )

ライセンス: Link先を確認
Zheng Dang, Jialu Huang, Fei Wang, Mathieu Salzmann, (参考訳) 神経放射野や暗黙の神経表現などの深層学習の進歩は、3次元再構成の分野を著しく推進している。 しかし、金属やガラスのような複雑な光学特性を持つ物体を正確に再構成することは、その特異な仕様と光透過特性のため、依然として非常に難しい課題である。 295個の異なる材料(導体、誘電体、プラスチック、およびそれらの粗い変種を含む)からなる1001個のオブジェクトからなるOpenMaterialデータセットを導入し、723個の異なる照明条件下で捕獲する。 この目的のために、実験室計測された屈折率(IOR)を用いて物理ベースのレンダリングを行い、実世界の物体を密に再現する高忠実なマルチビュー画像を生成する。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。 これは、多種多様で挑戦的な材料を持つオブジェクト上で既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットであり、複雑な材料特性を扱うことができる3D再構成アルゴリズムの開発の道を開くものである。

Recent advances in deep learning such as neural radiance fields and implicit neural representations have significantly propelled the field of 3D reconstruction. However, accurately reconstructing objects with complex optical properties, such as metals and glass, remains a formidable challenge due to their unique specular and light-transmission characteristics. To facilitate the development of solutions to these challenges, we introduce the OpenMaterial dataset, comprising 1001 objects made of 295 distinct materials-including conductors, dielectrics, plastics, and their roughened variants- and captured under 723 diverse lighting conditions. To this end, we utilized physics-based rendering with laboratory-measured Indices of Refraction (IOR) and generated high-fidelity multiview images that closely replicate real-world objects. OpenMaterial provides comprehensive annotations, including 3D shape, material type, camera pose, depth, and object mask. It stands as the first large-scale dataset enabling quantitative evaluations of existing algorithms on objects with diverse and challenging materials, thereby paving the way for the development of 3D reconstruction algorithms capable of handling complex material properties.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# メタラーニングとマルコフ連鎖モンテカルロシミュレーションによるブラインド超解像

Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation ( http://arxiv.org/abs/2406.08896v1 )

ライセンス: Link先を確認
Jingyuan Xia, Zhixiong Yang, Shengxi Li, Shuanghui Zhang, Yaowen Fu, Deniz Gündüz, Xiang Li, (参考訳) 学習ベースのアプローチでは、ブラインド・シングル・イメージ・スーパーレゾリューション(SISR)タスクで大きな成功を収めている。 本稿では,メタラーニングとマルコフ・チェイン・モンテカルロ(MCMC)に基づくSISRアプローチを提案する。 具体的には、軽量ネットワークをカーネルジェネレータとして採用し、ランダムガウス分布のMCMCシミュレーションから学習することで最適化する。 この手順は、合理的な曖昧なカーネルの近似を提供し、ネットワークレベルのランゲヴィンダイナミクスをSISR最適化プロセスに導入する。 一方、カーネルジェネレータと画像復元器を最適化するために、メタラーニングに基づく交互最適化手法が提案されている。 従来の交替最小化戦略とは対照的に,適応最適化戦略の学習にメタラーニングベースのフレームワークを適用した。 これらの2つの手順は、初めてプラグアンドプレイで反復的に処理され、教師なし推論で学習ベースだがプラグアンドプレイのブラインドSISRソリューションを実現する。 大規模なシミュレーションでは, 提案手法を合成および実世界のデータセットの最先端技術と比較した場合, 優れた性能と一般化能力を示す。 コードはhttps://github.com/XYLGroup/MLMCで公開されている。

Learning-based approaches have witnessed great successes in blind single image super-resolution (SISR) tasks, however, handcrafted kernel priors and learning based kernel priors are typically required. In this paper, we propose a Meta-learning and Markov Chain Monte Carlo (MCMC) based SISR approach to learn kernel priors from organized randomness. In concrete, a lightweight network is adopted as kernel generator, and is optimized via learning from the MCMC simulation on random Gaussian distributions. This procedure provides an approximation for the rational blur kernel, and introduces a network-level Langevin dynamics into SISR optimization processes, which contributes to preventing bad local optimal solutions for kernel estimation. Meanwhile, a meta-learning-based alternating optimization procedure is proposed to optimize the kernel generator and image restorer, respectively. In contrast to the conventional alternating minimization strategy, a meta-learning-based framework is applied to learn an adaptive optimization strategy, which is less-greedy and results in better convergence performance. These two procedures are iteratively processed in a plug-and-play fashion, for the first time, realizing a learning-based but plug-and-play blind SISR solution in unsupervised inference. Extensive simulations demonstrate the superior performance and generalization ability of the proposed approach when comparing with state-of-the-arts on synthesis and real-world datasets. The code is available at https://github.com/XYLGroup/MLMC.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# グラフ分類のためのモチーフ駆動サブグラフ構造学習

Motif-driven Subgraph Structure Learning for Graph Classification ( http://arxiv.org/abs/2406.08897v1 )

ライセンス: Link先を確認
Zhiyao Zhou, Sheng Zhou, Bochao Mao, Jiawei Chen, Qingyun Sun, Yan Feng, Chun Chen, Can Wang, (参考訳) グラフ構造の最適部分性を軽減するため、グラフ構造学習(GSL)は、グラフ構造を改善し、下流タスクのパフォーマンスを高めるための有望なアプローチとして登場した。 多くのGSL法の提案にもかかわらず、この分野の進歩は主にノードレベルのタスクに集中しているが、グラフレベルのタスク(例えば、グラフ分類)はほとんど探索されていない。 特に、グラフ分類にノードレベルGSLを適用することは、複雑な構造学習のための詳細なガイダンスが欠如していることから、非自明である。 本稿では,グラフ分類における部分グラフの重要な役割に着想を得て,キー部分グラフ選択と構造最適化の課題に対処して,グラフ分類における部分グラフ構造学習の可能性を検討する。 グラフ分類のための新しいモチーフ駆動サブグラフ構造学習法(MOSGSL)を提案する。 具体的には、MOSGSLには、重要な部分グラフを適応的に選択できるサブグラフ構造学習モジュールが組み込まれている。 さらに、キーサブグラフレベルの構造パターン(モチーフ)をキャプチャし、パーソナライズされた構造学習を容易にするモチーフ駆動型構造ガイダンスモジュールが導入された。 大規模な実験は、ベースラインよりも顕著で一貫した改善と、様々なバックボーンや学習手順の柔軟性と一般化性を実証している。

To mitigate the suboptimal nature of graph structure, Graph Structure Learning (GSL) has emerged as a promising approach to improve graph structure and boost performance in downstream tasks. Despite the proposal of numerous GSL methods, the progresses in this field mostly concentrated on node-level tasks, while graph-level tasks (e.g., graph classification) remain largely unexplored. Notably, applying node-level GSL to graph classification is non-trivial due to the lack of find-grained guidance for intricate structure learning. Inspired by the vital role of subgraph in graph classification, in this paper we explore the potential of subgraph structure learning for graph classification by tackling the challenges of key subgraph selection and structure optimization. We propose a novel Motif-driven Subgraph Structure Learning method for Graph Classification (MOSGSL). Specifically, MOSGSL incorporates a subgraph structure learning module which can adaptively select important subgraphs. A motif-driven structure guidance module is further introduced to capture key subgraph-level structural patterns (motifs) and facilitate personalized structure learning. Extensive experiments demonstrate a significant and consistent improvement over baselines, as well as its flexibility and generalizability for various backbones and learning procedures.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# 自動ビーカウンティングのためのコンピュータビジョンアプローチ

Computer Vision Approaches for Automated Bee Counting Application ( http://arxiv.org/abs/2406.08898v1 )

ライセンス: Link先を確認
Simon Bilik, Ilona Janakova, Adam Ligocki, Dominik Ficek, Karel Horak, (参考訳) ミツバチコロニーの健康状態モニタリングからの多くの応用はコンピュータビジョン技術を用いて効率的に解決できる。 このような課題の1つは、ミツバチの入退避数を数える効率的な方法であり、ミツバチのコロニーの健康状態、開花期、農業散布の影響の調査など多くの傾向を分析するのに使用できる。 本稿では,2つのデータセットを数える自動蜂の3つの方法を比較する。 最も優れたパフォーマンスの方法は、BUT1データセットで87%、BUT2データセットで93%の精度を達成したResNet-50畳み込みニューラルネットワーク分類器に基づいている。

Many application from the bee colony health state monitoring could be efficiently solved using a computer vision techniques. One of such challenges is an efficient way for counting the number of incoming and outcoming bees, which could be used to further analyse many trends, such as the bee colony health state, blooming periods, or for investigating the effects of agricultural spraying. In this paper, we compare three methods for the automated bee counting over two own datasets. The best performing method is based on the ResNet-50 convolutional neural network classifier, which achieved accuracy of 87% over the BUT1 dataset and the accuracy of 93% over the BUT2 dataset.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# Delta-CoMe:大規模言語モデルの混合精度による訓練不要デルタ圧縮

Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models ( http://arxiv.org/abs/2406.08903v1 )

ライセンス: Link先を確認
Bowen Ping, Shuo Wang, Hanqing Wang, Xu Han, Yuzhuang Xu, Yukun Yan, Yun Chen, Baobao Chang, Zhiyuan Liu, Maosong Sun, (参考訳) ファインチューニングは、大規模言語モデル(LLM)を多様なアプリケーションに適用するための重要なプロセスである。 マルチテナントサービスのような特定のシナリオでは、複雑な要求を満たすために複数のLSMをデプロイする必要がある。 近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。 本研究では,従来の低ランク圧縮法と低ビット圧縮法が,タスク固有の微調整LDM(例えばWizardMath)のモデル性能を著しく損なうことを観察する。 デルタ重みの特異値の長いテール分布を動機として、混合精度を用いたデルタ量子化手法を提案する。 この方法はより大きい特異値に対応する特異ベクトルに対して高ビット表現を用いる。 我々は,数学 LLM やコード LLM ,チャット LLM ,さらには VLM など,様々な微調整 LLM に対するアプローチを評価した。 実験により,本手法は低ランクベースラインと低ビットベースラインの両方をかなりのマージンで上回り,完全微調整LDMに対して両立可能であることが示された。 さらに,本手法はLlama-2,Llama-3,MistralなどのバックボーンLLMと互換性があり,その一般化性を強調している。

Fine-tuning is a crucial process for adapting large language models (LLMs) to diverse applications. In certain scenarios, such as multi-tenant serving, deploying multiple LLMs becomes necessary to meet complex demands. Recent studies suggest decomposing a fine-tuned LLM into a base model and corresponding delta weights, which are then compressed using low-rank or low-bit approaches to reduce costs. In this work, we observe that existing low-rank and low-bit compression methods can significantly harm the model performance for task-specific fine-tuned LLMs (e.g., WizardMath for math problems). Motivated by the long-tail distribution of singular values in the delta weights, we propose a delta quantization approach using mixed-precision. This method employs higher-bit representation for singular vectors corresponding to larger singular values. We evaluate our approach on various fine-tuned LLMs, including math LLMs, code LLMs, chat LLMs, and even VLMs. Experimental results demonstrate that our approach performs comparably to full fine-tuned LLMs, surpassing both low-rank and low-bit baselines by a considerable margin. Additionally, we show that our method is compatible with various backbone LLMs, such as Llama-2, Llama-3, and Mistral, highlighting its generalizability.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# AdaPTwin:トランスフォーマーにおける製品ツインの低コスト適応圧縮

AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers ( http://arxiv.org/abs/2406.08904v1 )

ライセンス: Link先を確認
Emil Biju, Anirudh Sriram, Mert Pilanci, (参考訳) 大きなトランスフォーマーベースのモデルは、話者に依存しない音声認識において顕著な性能を示したが、その大きなサイズと計算上の要求により、リソース制約された設定での使用は高価または実用的ではない。 本研究では,トランスアテンション層内の積依存重み行列を共同圧縮するAdaPTwinという低ランク適応圧縮手法を提案する。 提案手法は,新しい話者と音響条件に対する一般化性を維持しつつ,特定の話者に対する圧縮モデルの性能を優先することができる。 特に,本手法では,20分以内で達成できる微調整に8時間程度の音声データしか必要とせず,他の圧縮法と比較してコスト効率が高い。 本稿では,WhisperモデルとDistil-Whisperモデルを最大45%圧縮し,単語誤り率を2%以下に抑える手法の有効性を示す。

While large transformer-based models have exhibited remarkable performance in speaker-independent speech recognition, their large size and computational requirements make them expensive or impractical to use in resource-constrained settings. In this work, we propose a low-rank adaptive compression technique called AdaPTwin that jointly compresses product-dependent pairs of weight matrices in the transformer attention layer. Our approach can prioritize the compressed model's performance on a specific speaker while maintaining generalizability to new speakers and acoustic conditions. Notably, our technique requires only 8 hours of speech data for fine-tuning, which can be accomplished in under 20 minutes, making it highly cost-effective compared to other compression methods. We demonstrate the efficacy of our approach by compressing the Whisper and Distil-Whisper models by up to 45% while incurring less than a 2% increase in word error rate.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# 3次元視覚接地における二重属性-空間関係アライメント

Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding ( http://arxiv.org/abs/2406.08907v1 )

ライセンス: Link先を確認
Yue Xu, Kaizhi Yang, Jiebo Luo, Xuejin Chen, (参考訳) 3Dビジュアルグラウンドティング(3D visual grounding)は、3D物理世界と自然言語を結びつけることに特化した、新たな研究分野である。 本稿では,DASANet,Dual Attribute-Spatial Relation Alignment Networkを提案する。 言語と3Dポイントクラウドの両方の入力を2つの別々の部分に分解し、クロスアテンションによる属性空間的特徴融合におけるグローバルコンテキストを保ちながら、分解された入力を個別にモデル化するデュアルブランチアテンションモジュールを設計する。 我々のDASANetは、最高の競合相手よりも1.3%高い、Nr3Dデータセットで65.1%の接地精度を達成した。 さらに,2つの枝の可視化により,本手法が効率的かつ高い解釈可能であることを証明した。

3D visual grounding is an emerging research area dedicated to making connections between the 3D physical world and natural language, which is crucial for achieving embodied intelligence. In this paper, we propose DASANet, a Dual Attribute-Spatial relation Alignment Network that separately models and aligns object attributes and spatial relation features between language and 3D vision modalities. We decompose both the language and 3D point cloud input into two separate parts and design a dual-branch attention module to separately model the decomposed inputs while preserving global context in attribute-spatial feature fusion by cross attentions. Our DASANet achieves the highest grounding accuracy 65.1% on the Nr3D dataset, 1.3% higher than the best competitor. Besides, the visualization of the two branches proves that our method is efficient and highly interpretable.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# イベントカメラにおけるデノイング評価のためのラベルフリー・非モノトニックメトリック

A Label-Free and Non-Monotonic Metric for Evaluating Denoising in Event Cameras ( http://arxiv.org/abs/2406.08909v1 )

ライセンス: Link先を確認
Chenyang Shi, Shasha Guo, Boyi Wei, Hanxiao Liu, Yibo Zhang, Ningfang Song, Jing Jin, (参考訳) イベントカメラは、スパースで非同期なイベントストリームを出力するため、その高い効率で有名である。 しかし、特に低照度環境では騒々しい出来事に悩まされている。 denoisingはイベントカメラにとって必須のタスクだが、denoisingパフォーマンスを評価することは難しい。 ラベルに依存した騒音測定は、クリーンなシーケンスに人工的にノイズを追加し、評価を複雑にする。 さらに、これらの指標の大部分はモノトニックであり、かなりのノイズと有効なイベントを取り除いてスコアをインフレーションすることができる。 これらの制限を克服するために, 連続コントラスト曲線(AOCC)の面積を, 時間間隔の異なるイベントフレームコントラスト曲線で囲む面積を用いて, ラベルフリーかつ非単調な評価指標を提案する。 このメトリクスは、イベントが時間分解能の高いシーンやオブジェクトの端の輪郭をキャプチャする方法にインスパイアされている。 効果的なデノナイジング法は、これらのエッジ・コントラストイベントを排除せずにノイズを除去し、イベントフレームのコントラストを保存する。 したがって、様々な時間帯のコントラストは、聴覚効果を評価する指標として機能する。 時間間隔が長くなると、曲線は最初上昇し、その後下降する。 提案された計量は、理論的および実験的証拠の両方を通じて検証される。

Event cameras are renowned for their high efficiency due to outputting a sparse, asynchronous stream of events. However, they are plagued by noisy events, especially in low light conditions. Denoising is an essential task for event cameras, but evaluating denoising performance is challenging. Label-dependent denoising metrics involve artificially adding noise to clean sequences, complicating evaluations. Moreover, the majority of these metrics are monotonic, which can inflate scores by removing substantial noise and valid events. To overcome these limitations, we propose the first label-free and non-monotonic evaluation metric, the area of the continuous contrast curve (AOCC), which utilizes the area enclosed by event frame contrast curves across different time intervals. This metric is inspired by how events capture the edge contours of scenes or objects with high temporal resolution. An effective denoising method removes noise without eliminating these edge-contour events, thus preserving the contrast of event frames. Consequently, contrast across various time ranges serves as a metric to assess denoising effectiveness. As the time interval lengthens, the curve will initially rise and then fall. The proposed metric is validated through both theoretical and experimental evidence.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# 低資源シナリオ下におけるTSシステムの言語適応化に関する一検討

An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios ( http://arxiv.org/abs/2406.08911v1 )

ライセンス: Link先を確認
Cheng Gong, Erica Cooper, Xin Wang, Chunyu Qiang, Mengzhe Geng, Dan Wells, Longbiao Wang, Jianwu Dang, Marc Tessier, Aidan Pine, Korin Richmond, Junichi Yamagishi, (参考訳) 膨大な多言語モデルの自己教師付き学習(SSL)表現は、低リソース言語音声タスクに有望なソリューションを提供する。 進歩にもかかわらず、TSシステムにおける言語適応は未解決の問題である。 本稿では,ZMM-TTSの言語適応性について検討する。 様々な微調整構成の限られたデータを用いて12言語で実験を行った。 本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。 さらに,微調整データセットのサイズや話者数も適応性に影響を与えることがわかった。 また,音声のみのデータと比較して,ペアデータによる微調整が常に最適であるとは限らないことも明らかになった。 音声の可知性以外にも、話者の類似性、言語識別、予測されたMOSについても分析を行った。

Self-supervised learning (SSL) representations from massively multilingual models offer a promising solution for low-resource language speech tasks. Despite advancements, language adaptation in TTS systems remains an open problem. This paper explores the language adaptation capability of ZMM-TTS, a recent SSL-based multilingual TTS system proposed in our previous work. We conducted experiments on 12 languages using limited data with various fine-tuning configurations. We demonstrate that the similarity in phonetics between the pre-training and target languages, as well as the language category, affects the target language's adaptation performance. Additionally, we find that the fine-tuning dataset size and number of speakers influence adaptability. Surprisingly, we also observed that using paired data for fine-tuning is not always optimal compared to audio-only data. Beyond speech intelligibility, our analysis covers speaker similarity, language identification, and predicted MOS.
翻訳日:2024-06-14 18:54:07 公開日:2024-06-13
# 雑音・残響多話者音声認識のための音声分離モデルの転写不要微調整

Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition ( http://arxiv.org/abs/2406.08914v1 )

ライセンス: Link先を確認
William Ravenscroft, George Close, Stefan Goetze, Thomas Hain, Mohammad Soleymanpour, Anurag Chowdhury, Mark C. Fuhs, (参考訳) 重なり合う話者の自動音声認識(ASR)の解決策の1つは、音声を分離し、分離された信号でASRを実行することである。 一般的に、セパレータは、ASR性能を劣化させるアーティファクトを生成する。 この問題に対処するには、通常、分離とASRネットワークを共同で訓練するために参照転写が必要である。 これは、参照書き起こし情報が常に利用できるとは限らない実世界のドメイン内オーディオのトレーニングには有効ではないことが多い。 本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。 提案手法は,GPIT ( Guided PIT) と呼ばれる変分不変トレーニング (PIT) への修正を提案することで,事前学習したASRエンコーダの組込み差を損失として利用する。 本手法は,信号レベル損失に対する単語誤り率(WER)の6.4%向上を実現し,短時間客観的インテリジェンス(STOI)のような知覚的尺度の改善を示す。

One solution to automatic speech recognition (ASR) of overlapping speakers is to separate speech and then perform ASR on the separated signals. Commonly, the separator produces artefacts which often degrade ASR performance. Addressing this issue typically requires reference transcriptions to jointly train the separation and ASR networks. This is often not viable for training on real-world in-domain audio where reference transcript information is not always available. This paper proposes a transcription-free method for joint training using only audio signals. The proposed method uses embedding differences of pre-trained ASR encoders as a loss with a proposed modification to permutation invariant training (PIT) called guided PIT (GPIT). The method achieves a 6.4% improvement in word error rate (WER) measures over a signal-level loss and also shows enhancement improvements in perceptual measures such as short-time objective intelligibility (STOI).
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# GluPredKit:血糖予測のための標準化ソフトウェアの開発とユーザ評価

GluPredKit: Development and User Evaluation of a Standardization Software for Blood Glucose Prediction ( http://arxiv.org/abs/2406.08915v1 )

ライセンス: Link先を確認
Miriam K. Wolff, Sam Royston, Anders Lyngvi Fougner, Hans Georg Schaathun, Martin Steinert, Rune Volden, (参考訳) 血糖予測は、自動インスリンデリバリーシステムで糖尿病を管理するためのバイオメディカル技術の重要な構成要素である。 機械学習とディープラーニングアルゴリズムは、この技術を前進させる可能性を秘めている。 しかし、標準化手法の欠如は、新しいアルゴリズムの直接比較を妨げている。 本研究は、血糖予測アルゴリズムのトレーニング、テスト、比較を標準化するソフトウェアプラットフォームであるGluPredKitを開発することで、この問題に対処する。 GluPredKitは,コマンドラインインターフェース,包括的なドキュメント,ユーザビリティ向上のためのビデオチュートリアルなどを備えた,モジュール形式のオープンソースアーキテクチャを備えている。 プラットフォームの有効性とユーザフレンドリ性を確保するため,予備試験とユーザスタディを実施した。 本研究では、4人の参加者がGluPredKitと対話し、SUS(System Usability Scale)とオープンエンドの質問を通じてフィードバックを提供した。 この結果は、GluPredKitが標準化の課題に効果的に対応し、高いユーザビリティを提供し、異なるアルゴリズム間の直接比較を容易にすることを示唆している。 さらに、先進的な方法論をより利用しやすくすることで、教育的な目的を果たす。 今後の方向性には、ユーザのフィードバックに基づいてソフトウェアを継続的に拡張することが含まれる。 我々はまた、GluPredKitを最先端のコンポーネントでさらに拡張し、血糖予測研究を標準化するための協力的な取り組みを促進するために、コミュニティからのコントリビューションも求めています。

Blood glucose prediction is an important component of biomedical technology for managing diabetes with automated insulin delivery systems. Machine learning and deep learning algorithms hold the potential to advance this technology. However, the lack of standardized methodologies impedes direct comparisons of emerging algorithms. This study addresses this challenge by developing GluPredKit, a software platform designed to standardize the training, testing, and comparison of blood glucose prediction algorithms. GluPredKit features a modular, open-source architecture, complemented by a command-line interface, comprehensive documentation, and a video tutorial to enhance usability. To ensure the platform's effectiveness and user-friendliness, we conducted preliminary testing and a user study. In this study, four participants interacted with GluPredKit and provided feedback through the System Usability Scale (SUS) and open-ended questions. The findings indicate that GluPredKit effectively addresses the standardization challenge and offers high usability, facilitating direct comparisons between different algorithms. Additionally, it serves an educational purpose by making advanced methodologies more accessible. Future directions include continuously enhancing the software based on user feedback. We also invite community contributions to further expand GluPredKit with state-of-the-art components and foster a collaborative effort in standardizing blood glucose prediction research, leading to more comparable studies.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# 機械学習を用いたインバータ制御電力グリッドの故障発生確率予測

Predicting Fault-Ride-Through Probability of Inverter-Dominated Power Grids using Machine Learning ( http://arxiv.org/abs/2406.08917v1 )

ライセンス: Link先を確認
Christian Nauck, Anna Büttner, Sebastian Liemann, Frank Hellmann, Michael Lindner, (参考訳) 再生可能エネルギーのシェアが増大しているため、電力グリッドの動的挙動の解析の重要性が高まっている。 効果的なリスク評価は、多数の障害シナリオの分析を必要とする。 動的シミュレーションに固有の計算コストは、分析できる構成の数に制約を課す。 機械学習(ML)は複雑な電力グリッド特性を効率的に予測できることが証明されている。 そこで我々は,インバータの大きな共有で将来の電力グリッドの動的安定性を予測するMLの可能性を分析する。 この目的のために、我々は合成電力グリッドモデルからなる新しいデータセットを作成し、動的シミュレーションを行う。 MLトレーニングの目標として,バスの故障が解消された後,ライドスルー曲線内に留まる確率として定義するフォールトライドスルー確率を算出する。 重要なことは、MLモデルが合成電力グリッドのフォールトライドスルー確率を正確に予測できることである。 最後に、MLモデルがIEEE-96テストシステムに一般化されることを示し、電力グリッドの確率的安定性を研究するためのMLメソッドのデプロイの可能性を強調した。

Due to the increasing share of renewables, the analysis of the dynamical behavior of power grids gains importance. Effective risk assessments necessitate the analysis of large number of fault scenarios. The computational costs inherent in dynamic simulations impose constraints on the number of configurations that can be analyzed. Machine Learning (ML) has proven to efficiently predict complex power grid properties. Hence, we analyze the potential of ML for predicting dynamic stability of future power grids with large shares of inverters. For this purpose, we generate a new dataset consisting of synthetic power grid models and perform dynamical simulations. As targets for the ML training, we calculate the fault-ride-through probability, which we define as the probability of staying within a ride-through curve after a fault at a bus has been cleared. Importantly, we demonstrate that ML models accurately predict the fault-ride-through probability of synthetic power grids. Finally, we also show that the ML models generalize to an IEEE-96 Test System, which emphasizes the potential of deploying ML methods to study probabilistic stability of power grids.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# 校正点を超えて:差分プライバシーのメカニズム比較

Beyond the Calibration Point: Mechanism Comparison in Differential Privacy ( http://arxiv.org/abs/2406.08918v1 )

ライセンス: Link先を確認
Georgios Kaissis, Stefan Kolek, Borja Balle, Jamie Hayes, Daniel Rueckert, (参考訳) 微分プライベート(DP)機械学習では、DPメカニズムのプライバシー保証が報告され、単一の$(\varepsilon, \delta)$-pairに基づいて比較されることが多い。 このプラクティスは、DPの保証は、与えられた$(\varepsilon, \delta)$}を共有するメカニズム間で実質的には \emph{even であり、検出されないプライバシーの脆弱性を導入する可能性があることを見落としている。 このことは、そのような場合のDP保証を比較するための堅牢で厳密な方法の必要性を動機付けている。 ここでは、$(\varepsilon, \delta)$, $f$-DP、新たに提示されたベイズ解釈の観点から、あるメカニズムを他のメカニズムよりも選択するという最悪の場合の過剰なプライバシー上の脆弱性を定量化するメカニズム間の$\Delta$-divergenceを導入する。 さらに、ブラックウェルの定理の一般化として、強い決定論的基礎が与えられる。 DP-SGDの現在の実践は、しばしば過剰なプライバシ脆弱性を持つメカニズムを選択する結果になるので、アプリケーションの例を通して、我々の技術は情報的意思決定を促進し、現在のプライバシリスクに対する理解のギャップを明らかにすることができる。

In differentially private (DP) machine learning, the privacy guarantees of DP mechanisms are often reported and compared on the basis of a single $(\varepsilon, \delta)$-pair. This practice overlooks that DP guarantees can vary substantially \emph{even between mechanisms sharing a given $(\varepsilon, \delta)$}, and potentially introduces privacy vulnerabilities which can remain undetected. This motivates the need for robust, rigorous methods for comparing DP guarantees in such cases. Here, we introduce the $\Delta$-divergence between mechanisms which quantifies the worst-case excess privacy vulnerability of choosing one mechanism over another in terms of $(\varepsilon, \delta)$, $f$-DP and in terms of a newly presented Bayesian interpretation. Moreover, as a generalisation of the Blackwell theorem, it is endowed with strong decision-theoretic foundations. Through application examples, we show that our techniques can facilitate informed decision-making and reveal gaps in the current understanding of privacy risks, as current practices in DP-SGD often result in choosing mechanisms with high excess privacy vulnerabilities.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# AV-GS:新しい視点音響合成に先立つ学習教材と幾何学

AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis ( http://arxiv.org/abs/2406.08920v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu, (参考訳) 新しいビュー音響合成(NVAS)は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でバイノーラルオーディオを描画することを目的としている。 既存の手法では、バイノーラルオーディオを合成するための条件として視覚的手がかりを利用するために、NeRFベースの暗黙モデルが提案されている。 しかし, ヘビーNeRFレンダリングによる低効率化に加えて, 室内形状, 材料特性, リスナーと音源の空間的関係など, シーン環境全体を特徴付ける能力に制限がある。 これらの問題に対処するために,我々は新しいオーディオ・ビジュアル・ガウス・スプラッティング(AV-GS)モデルを提案する。 音声合成のための材料認識および幾何認識条件を得るため,局所初期化ガウス点の音響誘導パラメータを用いて,聞き手と音源の空間関係を考慮した明示的なポイントベースシーン表現を学習する。 視覚的シーンモデルに適応させるため,ガウス点を最適に分配する点密度化およびプルーニング戦略を提案し,音の伝搬に寄与する点数(例えば,壁面のテクスチャに必要となる点数)について検討した。 大規模な実験により、実世界のRWASおよびシミュレーションベースのSoundSpacesデータセット上の既存の代替品よりもAV-GSの方が優れていることが検証された。

Novel view acoustic synthesis (NVAS) aims to render binaural audio at any target viewpoint, given a mono audio emitted by a sound source at a 3D scene. Existing methods have proposed NeRF-based implicit models to exploit visual cues as a condition for synthesizing binaural audio. However, in addition to low efficiency originating from heavy NeRF rendering, these methods all have a limited ability of characterizing the entire scene environment such as room geometry, material properties, and the spatial relation between the listener and sound source. To address these issues, we propose a novel Audio-Visual Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware condition for audio synthesis, we learn an explicit point-based scene representation with an audio-guidance parameter on locally initialized Gaussian points, taking into account the space relation from the listener and sound source. To make the visual scene model audio adaptive, we propose a point densification and pruning strategy to optimally distribute the Gaussian points, with the per-point contribution in sound propagation (e.g., more points needed for texture-less wall surfaces as they affect sound path diversion). Extensive experiments validate the superiority of our AV-GS over existing alternatives on the real-world RWAS and simulation-based SoundSpaces datasets.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# シャドウをナビゲートする - 現代のAIコンテンツ検出装置に効果的な障害をもたらす

Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors ( http://arxiv.org/abs/2406.08922v1 )

ライセンス: Link先を確認
Ying Zhou, Ben He, Le Sun, (参考訳) ChatGPTのローンチにより、大きな言語モデル(LLM)が世界的な注目を集めている。 記事執筆の領域では、LLMは広範囲な利用を目撃し、知的財産保護、個人のプライバシー、学術的整合性に関する懸念を引き起こしている。 これに反応して、人間と機械が生成したコンテンツを区別するために、AIテキスト検出が出現した。 しかし、最近の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別するのに苦労していることを示している。 現在、実世界のアプリケーションにおける検出性能に関する体系的な評価が欠如しており、摂動技術と検出器の堅牢性に関する総合的な検討も欠落している。 このギャップを埋めるために、我々の研究は非公式とプロの両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。 さらに,12個のブラックボックステキスト摂動法を構築し,様々な摂動粒度にまたがる電流検出モデルのロバスト性を評価する。 さらに, 逆学習実験を通じて, 摂動データ増大がAIテキスト検出装置の堅牢性に及ぼす影響について検討した。 コードとデータはhttps://github.com/zhouying20/ai-text-detector-evaluationで公開しています。

With the launch of ChatGPT, large language models (LLMs) have attracted global attention. In the realm of article writing, LLMs have witnessed extensive utilization, giving rise to concerns related to intellectual property protection, personal privacy, and academic integrity. In response, AI-text detection has emerged to distinguish between human and machine-generated content. However, recent research indicates that these detection systems often lack robustness and struggle to effectively differentiate perturbed texts. Currently, there is a lack of systematic evaluations regarding detection performance in real-world applications, and a comprehensive examination of perturbation techniques and detector robustness is also absent. To bridge this gap, our work simulates real-world scenarios in both informal and professional writing, exploring the out-of-the-box performance of current detectors. Additionally, we have constructed 12 black-box text perturbation methods to assess the robustness of current detection models across various perturbation granularities. Furthermore, through adversarial learning experiments, we investigate the impact of perturbation data augmentation on the robustness of AI-text detectors. We have released our code and data at https://github.com/zhouying20/ai-text-detector-evaluation.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# 対人訓練による大規模画像の学習

Learning Images Across Scales Using Adversarial Training ( http://arxiv.org/abs/2406.08924v1 )

ライセンス: Link先を確認
Krzysztof Wolski, Adarsh Djeacoumar, Alireza Javanmardi, Hans-Peter Seidel, Christian Theobalt, Guillaume Cordonnier, Karol Myszkowski, George Drettakis, Xingang Pan, Thomas Leimkühler, (参考訳) 現実世界は多くの観測範囲にまたがって豊富な構造と詳細を示す。 しかし、通常の画像を用いて広い範囲のスケールを捉え、表現することは困難である。 本研究では,通常の画像の非構造的コレクションからマグニチュード・オブ・マグニチュード・スケールを捉える表現を学習するための新しいパラダイムを考案する。 我々は,このコレクションを,逆行訓練を用いて学習するスケール空間スライス分布として扱うとともに,スライス間のコヒーレンシーを強制する。 提案手法は,出現する連続スケール空間を対話的に探索することのできる,慎重に挿入された手続き周波数コンテンツを持つマルチスケールジェネレータに依存している。 非常に異なるスケールでのトレーニングは安定性に関する課題を生じさせます。 筆者らのジェネレータは,マルチスケール生成モデルとして利用でき,非構造化パッチからのスケール空間の再構成にも利用できることを示す。 最先端技術よりも顕著に優れており,高品質かつスケールの整合性において最大256倍のズームイン係数を示す。

The real world exhibits rich structure and detail across many scales of observation. It is difficult, however, to capture and represent a broad spectrum of scales using ordinary images. We devise a novel paradigm for learning a representation that captures an orders-of-magnitude variety of scales from an unstructured collection of ordinary images. We treat this collection as a distribution of scale-space slices to be learned using adversarial training, and additionally enforce coherency across slices. Our approach relies on a multiscale generator with carefully injected procedural frequency content, which allows to interactively explore the emerging continuous scale space. Training across vastly different scales poses challenges regarding stability, which we tackle using a supervision scheme that involves careful sampling of scales. We show that our generator can be used as a multiscale generative model, and for reconstructions of scale spaces from unstructured patches. Significantly outperforming the state of the art, we demonstrate zoom-in factors of up to 256x at high quality and scale consistency.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# ハイブリッド変圧器を用いた自己教師付き単眼深度推定のための多重事前表現学習

Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer ( http://arxiv.org/abs/2406.08928v1 )

ライセンス: Link先を確認
Guodong Sun, Junjie Liu, Mingxuan Liu, Moyun Liu, Yang Zhang, (参考訳) 自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。 しかし、ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。 事前情報は、この問題を緩和し、モデルがシーン構造とテクスチャを理解することを強化する可能性がある。 それにもかかわらず、複雑なシーンを扱う場合、単一の事前情報にのみ依存することは、しばしば不足し、一般化性能の改善を必要とする。 これらの課題に対処するために,空間的,文脈的,意味的な次元にまたがる表現能力に,複数の先行情報を活用する,新しい自己教師付き単眼深度推定モデルを導入する。 具体的には,ハイブリッドトランスと軽量ポーズネットワークを用いて,空間次元における長距離空間先行値を求める。 次に、コンテキスト事前の注意は、特に複雑な構造や無テクスチャ領域において、一般化を改善するように設計されている。 さらにセマンティックな境界損失を利用してセマンティックな事前情報を導入し、セマンティックな事前注意を補足し、デコーダによって抽出されたセマンティックな特徴をさらに洗練する。 3つの多様なデータセットの実験は、提案モデルの有効性を示す。 複数の事前情報を統合して、表現能力を包括的に強化し、深さ推定の精度と信頼性を向上させる。 コードは以下の通り。 \url{https://github.com/MVME-HBUT/MPRLNet}

Self-supervised monocular depth estimation aims to infer depth information without relying on labeled data. However, the lack of labeled information poses a significant challenge to the model's representation, limiting its ability to capture the intricate details of the scene accurately. Prior information can potentially mitigate this issue, enhancing the model's understanding of scene structure and texture. Nevertheless, solely relying on a single type of prior information often falls short when dealing with complex scenes, necessitating improvements in generalization performance. To address these challenges, we introduce a novel self-supervised monocular depth estimation model that leverages multiple priors to bolster representation capabilities across spatial, context, and semantic dimensions. Specifically, we employ a hybrid transformer and a lightweight pose network to obtain long-range spatial priors in the spatial dimension. Then, the context prior attention is designed to improve generalization, particularly in complex structures or untextured areas. In addition, semantic priors are introduced by leveraging semantic boundary loss, and semantic prior attention is supplemented, further refining the semantic features extracted by the decoder. Experiments on three diverse datasets demonstrate the effectiveness of the proposed model. It integrates multiple priors to comprehensively enhance the representation ability, improving the accuracy and reliability of depth estimation. Codes are available at: \url{https://github.com/MVME-HBUT/MPRLNet}
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# Step-by-Step Diffusion: 基本的なチュートリアル

Step-by-Step Diffusion: An Elementary Tutorial ( http://arxiv.org/abs/2406.08929v1 )

ライセンス: Link先を確認
Preetum Nakkiran, Arwen Bradley, Hattie Zhou, Madhu Advani, (参考訳) 拡散経験のない技術的聴衆を対象として,拡散モデルと機械学習のためのフローマッチングに関する第1講座を開催する。 我々は、正しいアルゴリズムを導き出すのに十分な精度を維持しながら、可能な限り数学的詳細(時にはヒューリスティックに)を単純化しようと試みている。

We present an accessible first course on diffusion models and flow matching for machine learning, aimed at a technical audience with no diffusion experience. We try to simplify the mathematical details as much as possible (sometimes heuristically), while retaining enough precision to derive correct algorithms.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# 循環器系信号の欠測に対する高能率多視点融合とフレキシブル適応

Efficient Multi-View Fusion and Flexible Adaptation to View Missing in Cardiovascular System Signals ( http://arxiv.org/abs/2406.08930v1 )

ライセンス: Link先を確認
Qihan Hu, Daomiao Wang, Hong Wu, Jian Liu, Cuiwei Yang, (参考訳) 深層学習の進展とセンサの普及により、心血管系(CVS)信号に関する自動多視点融合(MVF)が促進された。 しかし、一般的なMVFモデルアーキテクチャは、しばしば同じ時間ステップからCVS信号と一致するが、統合された表現への異なる視点は、循環器イベントの非同期性やビュー間の固有の不均一性を無視し、破滅的な視点の混乱をもたらす。 MVFモデルの総合的な表現を達成するための効果的な訓練戦略は、同時に考慮する必要がある。 重要なことに、現実世界のデータはしばしば不完全なビューで届きます。 したがって、View-Centric Transformer (VCT) と Multitask Masked Autoencoder (M2AE) は、各ビューの中央性を強調し、ラベルのないデータを利用してより優れた融合表現を実現するように設計されている。 さらに, 見落とし問題が初めて体系的に定義され, 様々な見落としシナリオに柔軟に対応して, 事前学習したMVFモデルを支援するプロンプト技術が導入された。 心房細動の検出,血圧推定,睡眠時ステージング型健康モニタリングタスクを併用した厳密な実験を行った。 特に、プロンプト技術では、モデル全体のデータの3%未満の微調整が必要であり、完全な再トレーニングの必要性を回避しながら、モデルのレジリエンスを著しく強化する。 その結果,本手法の有効性が示され,循環器系健康モニタリングの実用化の可能性も浮き彫りにされている。 コードとモデルはURLでリリースされる。

The progression of deep learning and the widespread adoption of sensors have facilitated automatic multi-view fusion (MVF) about the cardiovascular system (CVS) signals. However, prevalent MVF model architecture often amalgamates CVS signals from the same temporal step but different views into a unified representation, disregarding the asynchronous nature of cardiovascular events and the inherent heterogeneity across views, leading to catastrophic view confusion. Efficient training strategies specifically tailored for MVF models to attain comprehensive representations need simultaneous consideration. Crucially, real-world data frequently arrives with incomplete views, an aspect rarely noticed by researchers. Thus, the View-Centric Transformer (VCT) and Multitask Masked Autoencoder (M2AE) are specifically designed to emphasize the centrality of each view and harness unlabeled data to achieve superior fused representations. Additionally, we systematically define the missing-view problem for the first time and introduce prompt techniques to aid pretrained MVF models in flexibly adapting to various missing-view scenarios. Rigorous experiments involving atrial fibrillation detection, blood pressure estimation, and sleep staging-typical health monitoring tasks-demonstrate the remarkable advantage of our method in MVF compared to prevailing methodologies. Notably, the prompt technique requires finetuning less than 3% of the entire model's data, substantially fortifying the model's resilience to view missing while circumventing the need for complete retraining. The results demonstrate the effectiveness of our approaches, highlighting their potential for practical applications in cardiovascular health monitoring. Codes and models are released at URL.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# マルチタスク学習におけるマルチリンガル未知話者感情認識の活用

Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning ( http://arxiv.org/abs/2406.08931v1 )

ライセンス: Link先を確認
Arnav Goel, Medha Hira, Anubha Gupta, (参考訳) 現代の深層学習技術の進歩は、音声感情認識(SER)の分野で進歩をもたらした。 しかし、この分野で広く使われているほとんどのシステムは、訓練中に見えない話者に一般化することができない。 本研究は,多言語SERの課題,特に目に見えない話者に対処することに焦点を当てる。 本稿では,コアテンションに基づく融合とマルチタスク学習を利用した新しいアーキテクチャであるCAMuLeNetを紹介する。 さらに,Whisper, HuBERT, Wav2Vec2.0, WavLMの事前訓練エンコーダを,IEMOCAP, RAVDESS, CREMA-D, EmoDB, CaFEの5つの既存ベンチマークデータセットに対して10倍のピークアウトクロスバリデーションを用いてベンチマークし,ヒンディー語(BhavVani)でSER用の新しいデータセットをリリースする。 CAMuLeNetは、我々のクロスバリデーション戦略によって決定された未確認話者のベンチマークを平均8%改善したことを示している。

Advent of modern deep learning techniques has given rise to advancements in the field of Speech Emotion Recognition (SER). However, most systems prevalent in the field fail to generalize to speakers not seen during training. This study focuses on handling challenges of multilingual SER, specifically on unseen speakers. We introduce CAMuLeNet, a novel architecture leveraging co-attention based fusion and multitask learning to address this problem. Additionally, we benchmark pretrained encoders of Whisper, HuBERT, Wav2Vec2.0, and WavLM using 10-fold leave-speaker-out cross-validation on five existing multilingual benchmark datasets: IEMOCAP, RAVDESS, CREMA-D, EmoDB and CaFE and, release a novel dataset for SER on the Hindi language (BhavVani). CAMuLeNet shows an average improvement of approximately 8% over all benchmarks on unseen speakers determined by our cross-validation strategy.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# LaCoOT: 最適輸送による層崩壊

LaCoOT: Layer Collapse through Optimal Transport ( http://arxiv.org/abs/2406.08933v1 )

ライセンス: Link先を確認
Victor Quétu, Nour Hezbri, Enzo Tartaglione, (参考訳) ディープニューラルネットワークは複雑なタスクに取り組む上での卓越したパフォーマンスで知られているが、計算リソースへの飢餓は依然として大きなハードルであり、エネルギー消費の問題を引き起こし、リソース制限されたデバイスへの展開を制限する。 本稿では,過度にパラメータ化された深層ニューラルネットワークの深さを低減し,計算負荷を軽減するための最適輸送手法を提案する。 具体的には、ニューラルネットワークにおける中間特徴分布間の距離を最小化するために、Max-Sliced Wasserstein距離に基づく新たな正規化戦略を提案する。 この距離を最小化することで、ネットワーク内の中間層を完全に取り除くことができ、性能損失はほとんどなく、微調整も不要であることを示す。 従来の画像分類設定における手法の有効性を評価する。 この記事の受理時にソースコードをリリースすることを約束します。

Although deep neural networks are well-known for their remarkable performance in tackling complex tasks, their hunger for computational resources remains a significant hurdle, posing energy-consumption issues and restricting their deployment on resource-constrained devices, which stalls their widespread adoption. In this paper, we present an optimal transport method to reduce the depth of over-parametrized deep neural networks, alleviating their computational burden. More specifically, we propose a new regularization strategy based on the Max-Sliced Wasserstein distance to minimize the distance between the intermediate feature distributions in the neural network. We show that minimizing this distance enables the complete removal of intermediate layers in the network, with almost no performance loss and without requiring any finetuning. We assess the effectiveness of our method on traditional image classification setups. We commit to releasing the source code upon acceptance of the article.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# ワッサーシュタイン空間におけるミラーおよびプレコンディショニンググラディエント蛍光

Mirror and Preconditioned Gradient Descent in Wasserstein Space ( http://arxiv.org/abs/2406.08938v1 )

ライセンス: Link先を確認
Clément Bonet, Théo Uscidda, Adam David, Pierre-Cyril Aubin-Frankowski, Anna Korba, (参考訳) ワッサーシュタイン空間上の函数を最小化する問題は機械学習における多くの応用を含んでいるため、$\mathbb{R}^d$ 上の異なる最適化アルゴリズムはワッサーシュタイン空間上の類似したアナログを受け取った。 ここでは、ミラー降下とプレコンディショニング勾配という、2つの明示的なアルゴリズムを持ち上げることに焦点をあてる。 これらのアルゴリズムは、関数の幾何学をよりよく捉えて最小化し、適切な(すなわち相対的な)滑らかさと凸性条件の下で証明的に収束する。 これらの概念をワッサーシュタイン空間に適応させることで、対象汎函数と正則化器の新しいペアリングに対するワッサーシュタイン勾配に基づく離散時間スキームの収束を保証する。 ここでの困難さは、どの曲線が滑らかで凸であるべきかを慎重に選択することである。 本稿では,正規化器によって誘導される幾何を不規則な最適化タスクに適応させることの利点について述べるとともに,単一セルを整列させる計算生物学タスクにおいて,異なる相違点と測度を選択することの改善について述べる。

As the problem of minimizing functionals on the Wasserstein space encompasses many applications in machine learning, different optimization algorithms on $\mathbb{R}^d$ have received their counterpart analog on the Wasserstein space. We focus here on lifting two explicit algorithms: mirror descent and preconditioned gradient descent. These algorithms have been introduced to better capture the geometry of the function to minimize and are provably convergent under appropriate (namely relative) smoothness and convexity conditions. Adapting these notions to the Wasserstein space, we prove guarantees of convergence of some Wasserstein-gradient-based discrete-time schemes for new pairings of objective functionals and regularizers. The difficulty here is to carefully select along which curves the functionals should be smooth and convex. We illustrate the advantages of adapting the geometry induced by the regularizer on ill-conditioned optimization tasks, and showcase the improvement of choosing different discrepancies and geometries in a computational biology task of aligning single-cells.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# 英和同時解釈における語順:チャンクワイド単調翻訳を用いた分析と評価

Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation ( http://arxiv.org/abs/2406.08940v1 )

ライセンス: Link先を確認
Kosuke Doi, Yuka Ko, Mana Makinae, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) 本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。 単語の順序の違いは、特に英語と日本語のような大きな構造的な違いを持つ言語ペアにおいて、SIにおける最大の課題の1つである。 NAIST 英語-日本語文法翻訳評価データセットを用いてモノトニック翻訳の特徴を分析し,英語-日本語 SI においてモノトニック翻訳が困難となる文法構造を発見した。 さらに,既存の音声翻訳(ST)および同時音声翻訳(simulST)モデルからの出力をNAIST英語-日本語同時翻訳評価データセットおよび既存のテストセット上で評価することにより,単調翻訳の特徴について検討した。 その結果、既存のSIベースのテストセットはモデルの性能を過小評価していることがわかった。 また、モノトニック翻訳に基づくデータセットは、モデル性能を過小評価するために、オフラインベースのテストセットを使用することで、シミュレータモデルの評価をより良く評価することを示した。

This paper analyzes the features of monotonic translations, which follow the word order of the source language, in simultaneous interpreting (SI). The word order differences are one of the biggest challenges in SI, especially for language pairs with significant structural differences like English and Japanese. We analyzed the characteristics of monotonic translations using the NAIST English-to-Japanese Chunk-wise Monotonic Translation Evaluation Dataset and found some grammatical structures that make monotonic translation difficult in English-Japanese SI. We further investigated the features of monotonic translations through evaluating the output from the existing speech translation (ST) and simultaneous speech translation (simulST) models on NAIST English-to-Japanese Chunk-wise Monotonic Translation Evaluation Dataset as well as on existing test sets. The results suggest that the existing SI-based test set underestimates the model performance. We also found that the monotonic-translation-based dataset would better evaluate simulST models, while using an offline-based test set for evaluating simulST models underestimates the model performance.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# ニューラルネ波圧縮

Neural NeRF Compression ( http://arxiv.org/abs/2406.08943v1 )

ライセンス: Link先を確認
Tuan Pham, Stephan Mandt, (参考訳) NeRF(Neural Radiance Fields)は、連続的なボリューム表現を通じて詳細な3Dシーンをキャプチャする強力なツールとして登場した。 最近のNeRFは、レンダリング品質とスピードを改善するために機能グリッドを使用しているが、これらの表現はストレージオーバーヘッドを著しく引き起こしている。 本稿では,グリッドベースのNeRFモデルを効率よく圧縮する新しい手法を提案する。 提案手法は,モデルの特徴格子の圧縮にニューラル圧縮を用いる非線形変換符号化パラダイムに基づく。 多くのi.i.dシーンを含むトレーニングデータが不足しているため、軽量デコーダを使用して、個々のシーンに対してエンコーダフリーでエンドツーエンド最適化されたアプローチを設計する。 潜在特徴格子の空間的不均一性を活用するために,マスキング機構を用いた重み付き速度歪み目標とスパースエントロピーモデルを導入する。 実験の結果,提案手法はグリッド型NeRF圧縮の有効性と再現性の観点から,既存手法よりも優れていることがわかった。

Neural Radiance Fields (NeRFs) have emerged as powerful tools for capturing detailed 3D scenes through continuous volumetric representations. Recent NeRFs utilize feature grids to improve rendering quality and speed; however, these representations introduce significant storage overhead. This paper presents a novel method for efficiently compressing a grid-based NeRF model, addressing the storage overhead concern. Our approach is based on the non-linear transform coding paradigm, employing neural compression for compressing the model's feature grids. Due to the lack of training data involving many i.i.d scenes, we design an encoder-free, end-to-end optimized approach for individual scenes, using lightweight decoders. To leverage the spatial inhomogeneity of the latent feature grids, we introduce an importance-weighted rate-distortion objective and a sparse entropy model employing a masking mechanism. Our experimental results validate that our proposed method surpasses existing works in terms of grid-based NeRF compression efficacy and reconstruction quality.
翻訳日:2024-06-14 18:44:22 公開日:2024-06-13
# 長距離相互作用系におけるリーブ・シュルツ・マティス理論の妥当性

Validity of the Lieb-Schultz-Mattis Theorem in Long-Range Interacting Systems ( http://arxiv.org/abs/2406.08948v1 )

ライセンス: Link先を確認
Yi-Neng Zhou, Xingyu Li, (参考訳) リーブ=シュルツ=マティスの定理(LSM)は、システムの顕微鏡的詳細はシステムの低エネルギー特性に非自明な制約を課すことができると主張している。 従来の短距離相互作用系では、局所性によって大きなシステムサイズ制限のスペクトルギャップが消滅することを保証するが、LSM定理に対する長距離相互作用の影響は未解決のままである。 長距離相互作用は、リドベルク原子、双極子量子ガス、極性分子、光学キャビティ、閉じ込められたイオンなどの実験プラットフォームでよく見られ、相互作用崩壊指数を実験的に調整することができる。 一次元の LSM 定理を長距離相互作用系に拡張し、LSM 定理が崩壊指数 $\alpha > 2$ との指数的あるいは強法的な二体相互作用に対して成り立つことを発見した。 しかし、$\alpha < 2$ とのパワー・ロー相互作用では、基底状態の LSM 定理の制約は適用されない。 また,LSM対称性要件を満たすHeisenbergモデルとMagumdar-Ghoshモデルの長距離モデルの数値シミュレーションも提供する。 この結果から, 可変長距離相互作用を持つシステムにおいて, LSM定理を実験的に検証するための有望な方向が示唆された。

The Lieb-Schultz-Mattis (LSM) theorem asserts that microscopic details of the system can impose non-trivial constraints on the system's low-energy properties. While traditionally applied to short-range interaction systems, where locality ensures a vanishing spectral gap in large system size limit, the impact of long-range interactions on the LSM theorem remains an open question. Long-range interactions are prevalent in experimental platforms such as Rydberg atoms, dipolar quantum gases, polar molecules, optical cavities, and trapped ions, where the interaction decay exponent can be experimentally tuned. We extend the LSM theorem in one dimension to long-range interacting systems and find that the LSM theorem holds for exponentially or power-law two-body interactions with a decay exponent $\alpha > 2$. However, for power-law interactions with $\alpha < 2$, the constraints of the LSM theorem on the ground state do not apply. Numerical simulations of long-range versions of the Heisenberg and Majumdar-Ghosh models, both satisfying the LSM symmetry requirements, are also provided. Our results suggest promising directions for experimental validation of the LSM theorem in systems with tunable long-range interactions.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 汎用3D編集のための変分スコアによるアイデンティティの保存

Preserving Identity with Variational Score for General-purpose 3D Editing ( http://arxiv.org/abs/2406.08953v1 )

ライセンス: Link先を確認
Duong H. Le, Tuan Pham, Aniruddha Kembhavi, Stephan Mandt, Wei-Chiu Ma, Jiasen Lu, (参考訳) 本稿では,拡散モデルに基づく画像や3次元モデルを編集する新しい最適化手法であるPivaについて述べる。 具体的には,最近提案された2次元画像編集手法であるDelta Denoising Score (DDS)に着想を得た。 2次元および3次元の編集におけるDDSの限界を指摘し、細かな損失と過飽和を引き起こす。 そこで本稿では,ID保存を強制する追加のスコア蒸留項を提案する。 これにより、より安定した編集プロセスが実現し、重要な入力特性を維持しながら、ターゲットプロンプトにマッチするようにNeRFモデルを徐々に最適化する。 ゼロショット画像とニューラルフィールド編集におけるアプローチの有効性を実証する。 提案手法は,視覚特性の変化,微妙かつ実質的な要素の追加,形状の変換,標準2次元および3次元の編集ベンチマークにおける競合的な結果の獲得に成功している。 さらに,本手法はマスクや事前学習などの制約を課さず,広範囲の事前学習拡散モデルと互換性がある。 これにより、ニューラルフィールドからメッシュへの変換を必要とせず、よりユーザフレンドリなエクスペリエンスを提供する、汎用的な編集が可能になる。

We present Piva (Preserving Identity with Variational Score Distillation), a novel optimization-based method for editing images and 3D models based on diffusion models. Specifically, our approach is inspired by the recently proposed method for 2D image editing - Delta Denoising Score (DDS). We pinpoint the limitations in DDS for 2D and 3D editing, which causes detail loss and over-saturation. To address this, we propose an additional score distillation term that enforces identity preservation. This results in a more stable editing process, gradually optimizing NeRF models to match target prompts while retaining crucial input characteristics. We demonstrate the effectiveness of our approach in zero-shot image and neural field editing. Our method successfully alters visual attributes, adds both subtle and substantial structural elements, translates shapes, and achieves competitive results on standard 2D and 3D editing benchmarks. Additionally, our method imposes no constraints like masking or pre-training, making it compatible with a wide range of pre-trained diffusion models. This allows for versatile editing without needing neural field-to-mesh conversion, offering a more user-friendly experience.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 超音波マイクロホンアレイとCNNを用いたCNC旋回動作時の工具摩耗予測

Tool Wear Prediction in CNC Turning Operations using Ultrasonic Microphone Arrays and CNNs ( http://arxiv.org/abs/2406.08957v1 )

ライセンス: Link先を確認
Jan Steckel, Arne Aerts, Erik Verreycken, Dennis Laurijssen, Walter Daems, (参考訳) 本稿では,超音波マイクロホンアレイと畳み込みニューラルネットワーク(CNN)を組み合わせたCNC回転動作におけるツール摩耗予測手法を提案する。 ビームフォーミング技術を用いて、0kHzから60kHzの高周波音響放射を増強し、信号対雑音比を向上する。 処理された音響データはCNNによって分析され、切断工具の残留有用寿命(RUL)を予測する。 1つの炭化物挿入で加工された350個のワークピースのデータに基づいて、モデルは炭化物挿入のRULを正確に予測することができる。 以上の結果から,CNC加工における精度の高い保守作業を実現するため,高度な超音波センサと深層学習を統合することで得られる可能性が示唆された。

This paper introduces a novel method for predicting tool wear in CNC turning operations, combining ultrasonic microphone arrays and convolutional neural networks (CNNs). High-frequency acoustic emissions between 0 kHz and 60 kHz are enhanced using beamforming techniques to improve the signal- to-noise ratio. The processed acoustic data is then analyzed by a CNN, which predicts the Remaining Useful Life (RUL) of cutting tools. Trained on data from 350 workpieces machined with a single carbide insert, the model can accurately predict the RUL of the carbide insert. Our results demonstrate the potential gained by integrating advanced ultrasonic sensors with deep learning for accurate predictive maintenance tasks in CNC machining.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 医療記録の監視レベル説明可能性に対する教師なしアプローチ

An Unsupervised Approach to Achieve Supervised-Level Explainability in Healthcare Records ( http://arxiv.org/abs/2406.08958v1 )

ライセンス: Link先を確認
Joakim Edin, Maria Maistro, Lars Maaløe, Lasse Borgholt, Jakob D. Havtorn, Tuukka Ruotsalo, (参考訳) 電子医療記録は、患者の安全のために必要不可欠であり、自由テキストと医療コードの両方で条件、計画、手続きを文書化している。 言語モデルは、そのようなレコードの処理を大幅に強化し、ワークフローを合理化し、手動のデータ入力を減らすことで、医療提供者にとって重要なリソースを節約している。 しかし、これらのモデルのブラックボックスの性質は、医療専門家が彼らを信用することをためらうことが多い。 最先端の説明可能性の手法はモデルの透明性を高めるが、人間による注釈付きエビデンスに頼っている。 本研究では,このようなアノテーションを必要とせず,妥当かつ忠実な説明を提示する手法を提案する。 本稿では,対人ロバスト性トレーニングが説明可能性を向上させる自動化医療コーディングタスクについて紹介し,従来よりも優れた新しい説明手法であるAttInGradを紹介した。 両コントリビューションを完全に教師なしのセットアップで組み合わせることで、教師付きアプローチに匹敵する品質、あるいはより良い品質の説明を生成する。 コードとモデルの重みを解放します。

Electronic healthcare records are vital for patient safety as they document conditions, plans, and procedures in both free text and medical codes. Language models have significantly enhanced the processing of such records, streamlining workflows and reducing manual data entry, thereby saving healthcare providers significant resources. However, the black-box nature of these models often leaves healthcare professionals hesitant to trust them. State-of-the-art explainability methods increase model transparency but rely on human-annotated evidence spans, which are costly. In this study, we propose an approach to produce plausible and faithful explanations without needing such annotations. We demonstrate on the automated medical coding task that adversarial robustness training improves explanation plausibility and introduce AttInGrad, a new explanation method superior to previous ones. By combining both contributions in a fully unsupervised setup, we produce explanations of comparable quality, or better, to that of a supervised approach. We release our code and model weights.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 推奨を超えて - パイロットの意思決定プロセスの後方から前方へのAIサポート

Beyond Recommendations: From Backward to Forward AI Support of Pilots' Decision-Making Process ( http://arxiv.org/abs/2406.08959v1 )

ライセンス: Link先を確認
Zelun Tony Zhang, Sebastian S. Feger, Lucas Dullenkopf, Rulu Liao, Lukas Süsslin, Yuanting Liu, Andreas Butz, (参考訳) AIは、航空のような高度な領域における人間の意思決定を強化することが期待されているが、不適切な依存やユーザの意思決定との整合性の低下といった課題によって、採用が妨げられることが多い。 最近の研究によると、根底にある問題は、多くのAIシステムのレコメンデーション中心の設計、すなわち、エンドツーエンドのレコメンデーションを与え、残りの意思決定プロセスを無視していることである。 代替的なサポートパラダイムはまれであり、レコメンデーション中心のサポートと比較して、存在するものはほとんどない。 本研究は,航空における転倒の文脈において,代替パラダイムである継続的支援とレコメンデーション中心のサポートを実証的に比較することを目的とした。 現実的な条件下で,32名のパイロットと混合メソドス実験を行った。 研究シナリオの品質を確保するため,研究に先立って4人のパイロットによるフォーカスグループを実施した。 継続的サポートは、パイロットの意思決定を前方に支援し、システムの限界を超えて、推奨と組み合わせることでより迅速な意思決定を可能にするが、前方サポートは破壊される可能性がある。 参加者の発言は、デザイン目標が推奨を提供することから、迅速な情報収集をサポートすることへのシフトをさらに示唆している。 私たちの結果は、エンドツーエンドのレコメンデーションを超えて、より便利で効果的なAI意思決定サポートを設計する方法を示しています。

AI is anticipated to enhance human decision-making in high-stakes domains like aviation, but adoption is often hindered by challenges such as inappropriate reliance and poor alignment with users' decision-making. Recent research suggests that a core underlying issue is the recommendation-centric design of many AI systems, i.e., they give end-to-end recommendations and ignore the rest of the decision-making process. Alternative support paradigms are rare, and it remains unclear how the few that do exist compare to recommendation-centric support. In this work, we aimed to empirically compare recommendation-centric support to an alternative paradigm, continuous support, in the context of diversions in aviation. We conducted a mixed-methods study with 32 professional pilots in a realistic setting. To ensure the quality of our study scenarios, we conducted a focus group with four additional pilots prior to the study. We found that continuous support can support pilots' decision-making in a forward direction, allowing them to think more beyond the limits of the system and make faster decisions when combined with recommendations, though the forward support can be disrupted. Participants' statements further suggest a shift in design goal away from providing recommendations, to supporting quick information gathering. Our results show ways to design more helpful and effective AI decision support that goes beyond end-to-end recommendations.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# AirPlanes: 3D-Consistent Embeddingsによる正確な平面推定

AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings ( http://arxiv.org/abs/2406.08960v1 )

ライセンス: Link先を確認
Jamie Watson, Filippo Aleotti, Mohamed Sayed, Zawar Qureshi, Oisin Mac Aodha, Gabriel Brostow, Michael Firman, Sara Vicente, (参考訳) 3Dシーンから飛行機を抽出することは、ロボット工学や拡張現実における下流作業に有用である。 本稿では,画像から平面面を推定する問題に取り組む。 最初の発見は、一般的なクラスタリングアルゴリズムと最近の3次元幾何推定の改善を組み合わせた驚くほど競争力のあるベースライン結果である。 しかし、そのような純粋幾何学的手法は、異なる平面を識別するために不可欠である平面意味論には理解し難い。 この制限を克服するために,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。 我々は,ScanNetV2データセットを広範囲に評価することにより,新しい手法が既存の手法および平面推定タスクの強力な幾何学的ベースラインより優れていることを示す。

Extracting planes from a 3D scene is useful for downstream tasks in robotics and augmented reality. In this paper we tackle the problem of estimating the planar surfaces in a scene from posed images. Our first finding is that a surprisingly competitive baseline results from combining popular clustering algorithms with recent improvements in 3D geometry estimation. However, such purely geometric methods are understandably oblivious to plane semantics, which are crucial to discerning distinct planes. To overcome this limitation, we propose a method that predicts multi-view consistent plane embeddings that complement geometry when clustering points into planes. We show through extensive evaluation on the ScanNetV2 dataset that our new method outperforms existing approaches and our strong geometric baseline for the task of plane estimation.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# SIU: バイオアクティビティ予測のための大規模構造分子-タンパク質相互作用データセット

SIU: A Million-Scale Structural Small Molecule-Protein Interaction Dataset for Unbiased Bioactivity Prediction ( http://arxiv.org/abs/2406.08961v1 )

ライセンス: Link先を確認
Yanwen Huang, Bowen Gao, Yinjun Jia, Hongbo Ma, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan, (参考訳) 小分子は現代医学において重要な役割を担い、タンパク質標的との相互作用を精査することは、新規な生命維持療法の発見と発展に不可欠である。 生体活性」という用語は、結合反応と機能反応の両方を含む、これらの相互作用から生じる様々な生物学的効果を含んでいる。 生物活性の大きさは、小さな分子の治療または毒性の薬理学的結果を決定し、安全で効果的な薬物の開発に不可欠な正確な生物活性予測を導出する。 しかしながら、小さな分子-タンパク質相互作用の既存の構造データセットは、しばしば大規模に制限され、体系的に組織化された生物活性ラベルが欠如しているため、これらの相互作用の理解と正確な生物活性予測が妨げられる。 本研究では,100万以上の結合構造からなり,それぞれに実際の生物活性ラベルを付加した小さな分子-タンパク質相互作用の包括的データセットを提案する。 このデータセットは、バイアスのない生物活性予測を促進するように設計されている。 このデータセット上でいくつかの古典的モデルを評価した結果, 生物活性予測の非バイアス化の課題は不可欠であることがわかった。

Small molecules play a pivotal role in modern medicine, and scrutinizing their interactions with protein targets is essential for the discovery and development of novel, life-saving therapeutics. The term "bioactivity" encompasses various biological effects resulting from these interactions, including both binding and functional responses. The magnitude of bioactivity dictates the therapeutic or toxic pharmacological outcomes of small molecules, rendering accurate bioactivity prediction crucial for the development of safe and effective drugs. However, existing structural datasets of small molecule-protein interactions are often limited in scale and lack systematically organized bioactivity labels, thereby impeding our understanding of these interactions and precise bioactivity prediction. In this study, we introduce a comprehensive dataset of small molecule-protein interactions, consisting of over a million binding structures, each annotated with real biological activity labels. This dataset is designed to facilitate unbiased bioactivity prediction. We evaluated several classical models on this dataset, and the results demonstrate that the task of unbiased bioactivity prediction is challenging yet essential.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 危機的インフラに対する偽情報をウェポンする

Weaponizing Disinformation Against Critical Infrastructures ( http://arxiv.org/abs/2406.08963v1 )

ライセンス: Link先を確認
Lorenzo Alvisi, John Bianchi, Sara Tibidò, Maria Vittoria Zucca, (参考訳) ほぼ10年間、偽情報が社会的な議論を支配しており、その有害な影響はより明確になっている。 1月6日の米国議会議事堂攻撃やRohingya genocideのようなエピソードは、この現象がいかに武器化されたかを示している。 社会的な言論や少数派の迫害に対する影響にかなりの注意が払われているが、重要なインフラをターゲットとする悪意のあるハイブリッドツールとしての役割の分析には相変わらず差がある。 本稿では,送電網を含む仮説シナリオ,交通管理への攻撃,XZ Utilsバックドアの3つのケーススタディを提示することにより,このギャップに対処する。 さらに、このような攻撃を誘発する犯罪のプロファイルを理解するために犯罪学的分析を行い、人権の観点からその影響を評価する。 本研究は、これらの新興脅威に対して重要なインフラを保護するため、技術的解決と防犯対策を包含する包括的緩和戦略の必要性を強調した。

For nearly a decade, disinformation has dominated social debates, with its harmful impacts growing more evident. Episodes like the January 6 United States Capitol attack and the Rohingya genocide exemplify how this phenomenon has been weaponized. While considerable attention has been paid to its impact on societal discourse and minority persecution, there remains a gap in analyzing its role as a malicious hybrid tool targeting critical infrastructures. This article addresses this gap by presenting three case studies: a hypothetical scenario involving the electric grid, an attack on traffic management, and XZ Utils backdoor. Additionally, the study undertakes a criminological analysis to comprehend the criminal profiles driving such attacks, while also assessing their implications from a human rights perspective. The research findings highlight the necessity for comprehensive mitigation strategies encompassing technical solutions and crime prevention measures in order to safeguard critical infrastructures against these emerging threats.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 等価ニューラルネットワークの分離パワー

Separation Power of Equivariant Neural Networks ( http://arxiv.org/abs/2406.08966v1 )

ライセンス: Link先を確認
Marco Pacini, Xiaowen Dong, Bruno Lepri, Gabriele Santin, (参考訳) 機械学習モデルの分離能力は、異なる入力を区別する能力を指し、しばしば表現力のプロキシとして使用される。 本稿では,同変ニューラルネットのポイントワイド・アクティベーションを用いた分離パワーに関する理論的枠組みを提案する。 提案手法を用いて、ニューラルネットワークの族が与えられたアーキテクチャで区別できない入力を明示的に記述し、非ポリノミカルアクティベーション関数の選択によって影響を受けないことを示す。 分離性においてアクティベーション関数が果たす役割を理解することができる。 実際、ReLUやSigmoidのような全ての非ポリノミカルな活性化は、表現性の観点から等価であり、最大識別能力に達することを示す。 本稿では,同変ニューラルネットワークの分離パワーの評価を単純化し,最小表現の分離パワーを評価する方法を示す。 これらの最小限のコンポーネントが分離パワーの階層を形成する方法を示して結論付けます。

The separation power of a machine learning model refers to its capacity to distinguish distinct inputs, and it is often employed as a proxy for its expressivity. In this paper, we propose a theoretical framework to investigate the separation power of equivariant neural networks with point-wise activations. Using the proposed framework, we can derive an explicit description of inputs indistinguishable by a family of neural networks with given architecture, demonstrating that it remains unaffected by the choice of non-polynomial activation function employed. We are able to understand the role played by activation functions in separability. Indeed, we show that all non-polynomial activations, such as ReLU and sigmoid, are equivalent in terms of expressivity, and that they reach maximum discrimination capacity. We demonstrate how assessing the separation power of an equivariant neural network can be simplified to evaluating the separation power of minimal representations. We conclude by illustrating how these minimal components form a hierarchy in separation power.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセット

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning ( http://arxiv.org/abs/2406.08973v1 )

ライセンス: Link先を確認
Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov, (参考訳) 大規模言語およびコンピュータビジョンモデルにおけるコンテキスト内学習パラダイムの成功に続き、近年、コンテキスト内強化学習の分野が急速に成長している。 しかしながら、その開発は、単純な環境や小規模なデータセットですべての実験が行われたため、挑戦的なベンチマークの欠如によって妨げられている。 この問題を解決する第一歩として,XLand-MiniGrid環境に基づく大規模コンテキスト強化学習用データセットである \textbf{XLand-100B} を提案する。 これには3万ドル近い異なるタスクのための完全な学習履歴が含まれ、100ドルBの移行と2.5ドルBのエピソードをカバーしている。 データセットの収集には5万ドルを要した。 データセットとともに、さらにそれを再生または拡張するためのユーティリティを提供します。 この大きな取り組みにより、急速に成長するインコンテキスト強化学習分野の研究を民主化し、さらなるスケーリングのための確かな基盤を提供することを目指している。 コードはオープンソースで,Apache 2.0ライセンス下でhttps://github.com/dunno-lab/xland-minigrid-datasetsで公開されている。

Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present \textbf{XLand-100B}, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly $30,000$ different tasks, covering $100$B transitions and $2.5$B episodes. It took $50,000$ GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling. The code is open-source and available under Apache 2.0 licence at https://github.com/dunno-lab/xland-minigrid-datasets.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# チーム間のコラボレーションによるマルチエージェントソフトウェア開発

Multi-Agent Software Development through Cross-Team Collaboration ( http://arxiv.org/abs/2406.08979v1 )

ライセンス: Link先を確認
Zhuoyun Du, Chen Qian, Wei Liu, Zihao Xie, Yifei Wang, Yufan Dang, Weize Chen, Cheng Yang, (参考訳) Large Language Models (LLMs) の最新のブレークスルー。 ChatDev氏は、特にソフトウェア開発のためのマルチエージェントコラボレーションを通じて、大きな変革を触媒しました。 LLMエージェントは、人間のようなチームで協力し、ウォーターフォールモデルに従い、要求分析、開発、レビュー、テスト、その他のフェーズで自律的なソフトウェア生成を実行する。 しかし、エージェントチームにとって、単一の開発プロセスの各フェーズは1つの可能な結果しか得られない。 これにより、開発チェーンが1つだけ完成し、ソリューション空間内の複数の潜在的な決定経路を探索する機会を失うことになる。 その結果、最適以下の結果が得られる可能性がある。 この課題に対処するために、私たちはスケーラブルなマルチチームフレームワークであるクロスチームコラボレーション(CTC)を紹介します。 ソフトウェア開発の実験結果から,最先端のベースラインに比べて品質が顕著に向上し,フレームワークの有効性が強調された。 ストーリー生成の大幅な改善は、様々な領域にわたるフレームワークの有望な一般化能力を示している。 私たちは、LLMエージェントをチーム横断パラダイムに導き、ソフトウェア開発に限らず、その大きな成長に貢献することを期待しています。 コードとデータはhttps://github.com/OpenBMB/ChatDevで入手できる。

The latest breakthroughs in Large Language Models (LLMs), eg., ChatDev, have catalyzed profound transformations, particularly through multi-agent collaboration for software development. LLM agents can collaborate in teams like humans, and follow the waterfall model to sequentially work on requirements analysis, development, review, testing, and other phases to perform autonomous software generation. However, for an agent team, each phase in a single development process yields only one possible outcome. This results in the completion of only one development chain, thereby losing the opportunity to explore multiple potential decision paths within the solution space. Consequently, this may lead to obtaining suboptimal results. To address this challenge, we introduce Cross-Team Collaboration (CTC), a scalable multi-team framework that enables orchestrated teams to jointly propose various decisions and communicate with their insights in a cross-team collaboration environment for superior content generation. Experimental results in software development reveal a notable increase in quality compared to state-of-the-art baselines, underscoring the efficacy of our framework. The significant improvements in story generation demonstrate the promising generalization ability of our framework across various domains. We anticipate that our work will guide LLM agents towards a cross-team paradigm and contribute to their significant growth in but not limited to software development. The code and data will be available at https://github.com/OpenBMB/ChatDev.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 理論から治療へ: 実践的メトリクスによるSBDDモデル評価の緩和

From Theory to Therapy: Reframing SBDD Model Evaluation via Practical Metrics ( http://arxiv.org/abs/2406.08980v1 )

ライセンス: Link先を確認
Bowen Gao, Haichuan Tan, Yanwen Huang, Minsi Ren, Xiao Huang, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan, (参考訳) 近年のSBDD(Structure-based drug design)の進歩により、特定のタンパク質ポケットに結合するように調整された分子を生成することにより、薬物発見の効率と精度が著しく向上した。 これらの技術的進歩にもかかわらず、これらの分子の合成と試験の複雑さのため、現実の薬物開発における実践的応用は依然として困難である。 結合能力を評価するための現在の標準であるVinaドッキングスコアの信頼性は、過度に適合する可能性があるため、ますます疑問視されている。 これらの制約に対処するため, 生成分子と既知の活性化合物との類似性の評価, 仮想スクリーニングに基づく仮想配置指標の導入, 結合親和性の再評価を含む包括的評価フレームワークを提案する。 我々の実験によると、現在のSBDDモデルは高いVinaスコアを達成しているが、実際のユーザビリティの指標では不足しており、理論的な予測と実世界の適用性の間に大きなギャップが浮かび上がっている。 提案したメトリクスとデータセットは、このギャップを埋め、将来のSBDDモデルの実践的適用性を高め、医薬品研究と開発のニーズをより緊密に調整することを目的としています。

Recent advancements in structure-based drug design (SBDD) have significantly enhanced the efficiency and precision of drug discovery by generating molecules tailored to bind specific protein pockets. Despite these technological strides, their practical application in real-world drug development remains challenging due to the complexities of synthesizing and testing these molecules. The reliability of the Vina docking score, the current standard for assessing binding abilities, is increasingly questioned due to its susceptibility to overfitting. To address these limitations, we propose a comprehensive evaluation framework that includes assessing the similarity of generated molecules to known active compounds, introducing a virtual screening-based metric for practical deployment capabilities, and re-evaluating binding affinity more rigorously. Our experiments reveal that while current SBDD models achieve high Vina scores, they fall short in practical usability metrics, highlighting a significant gap between theoretical predictions and real-world applicability. Our proposed metrics and dataset aim to bridge this gap, enhancing the practical applicability of future SBDD models and aligning them more closely with the needs of pharmaceutical research and development.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 表面符号症候群統計による一般雑音モデルパラメータのベイズ推定

Bayesian Inference of General Noise Model Parameters from Surface Code's Syndrome Statistics ( http://arxiv.org/abs/2406.08981v1 )

ライセンス: Link先を確認
Takumi Kobori, Synge Todo, (参考訳) 表面符号のアクティブな研究は、ノイズモデルの情報を活用し、グリッド形状と復号アルゴリズムを最適化することにより、その復号性能を著しく向上できることを示している。 通常、量子誤り訂正符号のノイズモデルのパラメータは、量子プロセストモグラフィーのようないくつかの方法を用いて別々に作成されなければならない。 トモグラフィー前処置の要求を回避するため,デコード中の症候群計測と並行してノイズモデル推定を行う必要がある。 シンドローム計測統計に基づくノイズモデル推定はパウリのノイズに対して十分に研究されているが、振幅減衰のようなより複雑なノイズモデルについては未検討である。 本稿では,モンテカルロサンプリング手法を用いて,表面符号のテンソルネットワークシミュレータを効率的にシミュレートできる一般雑音モデルベイズ推論手法を提案する。 雑音パラメータが一定であり変化しない定常雑音に対しては,マルコフ連鎖モンテカルロに基づく手法を提案する。 より現実的な状況である時間変化ノイズに対しては、シーケンシャルなモンテカルロに基づく別の手法を導入する。 提案手法を静的,時変,非一様などの様々なノイズモデルに適用し,その性能を詳細に評価する。

Active research on the surface code shows that its decoding performance can be significantly enhanced by utilizing the information of the noise model and optimizing the grid shape and decoding algorithm. Usually, the parameters in the noise model for the quantum error correction code must be prepared separately using some method, such as the quantum process tomography. There is a strong need to perform noise model estimation in parallel with the syndrome measurement during decoding to avoid the demanding prior tomography procedure. While noise model estimation based on syndrome measurement statistics is well-explored for Pauli noise, it remains under-studied for more complex noise models like amplitude damping. In this paper, we propose general noise model Bayesian inference methods that integrate the surface code's tensor network simulator, which can efficiently simulate various noise models, with Monte Carlo sampling techniques. For stationary noise, where the noise parameters are constant and do not change, we propose a method based on the Markov chain Monte Carlo. For time-varying noise, which is a more realistic situation, we introduce another method based on the sequential Monte Carlo. We present the numerical results of applying the proposed methods to various noise models, such as static, time-varying, and non-uniform cases, and evaluate their performance in detail.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 新しい量子LSTMネットワーク

A Novel Quantum LSTM Network ( http://arxiv.org/abs/2406.08982v1 )

ライセンス: Link先を確認
Yifan Zhou, Chong Cheng Xu, Mingi Song, Yew Kee Wong, Kangsong Du, (参考訳) 人工知能の急速な進化は、シーケンシャルなデータ処理の有効性で知られるLong Short-Term Memory(LSTM)ネットワークの普及につながった。 しかし、LSTMは、消失する勾配問題やかなりの計算要求のような固有の制限によって制約される。 量子コンピューティングの出現は、これらの障害を克服するための革命的なアプローチを示している。 本稿では,従来のLSTMネットワークと量子コンピューティングの原理を統合した量子LSTM(Quantum LSTM)モデルを提案する。 量子コンピューティングは、重畳と絡み合うことで複数の状態に同時に存在する量子ビットを利用して直接物理的相互作用を伴わずに複雑な相関を表現し、古典的なバイナリコンピューティングよりも深い進歩をもたらす。 我々のqLSTMモデルは従来のLSTMの限界に対処することを目的としており、より効率的で効率的なシーケンシャルデータ処理のための堅牢なフレームワークを提供する。

The rapid evolution of artificial intelligence has led to the widespread adoption of Long Short-Term Memory (LSTM) networks, known for their effectiveness in processing sequential data. However, LSTMs are constrained by inherent limitations such as the vanishing gradient problem and substantial computational demands. The advent of quantum computing presents a revolutionary approach to overcoming these obstacles. This paper introduces the Quantum LSTM (qLSTM) model, which integrates quantum computing principles with traditional LSTM networks to significantly enhance computational efficiency and model performance in sequence learning tasks. Quantum computing leverages qubits, which can exist in multiple states simultaneously through superposition and entangle these states to represent complex correlations without direct physical interaction, offering a profound advancement over classical binary computing. Our qLSTM model aims to address the limitations of traditional LSTMs, providing a robust framework for more efficient and effective sequential data processing.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# 多目的最適化の次世代に向けて--進化的演算子のアーキテクトとしての大規模言語モデル

Towards Next Era of Multi-objective Optimization: Large Language Models as Architects of Evolutionary Operators ( http://arxiv.org/abs/2406.08987v1 )

ライセンス: Link先を確認
Yuxiao Huang, Shenghao Wu, Wenjie Zhang, Jibin Wu, Liang Feng, Kay Chen Tan, (参考訳) 多目的最適化問題(MOP)は、競合する目的のバランスをとる高度なソリューションを必要とする、様々な現実世界のアプリケーションで広く用いられている。 伝統的な進化的アルゴリズム(EA)は効果的であるが、しばしばドメイン固有の専門知識と反復的チューニングに依存しており、新しいMOPに遭遇する際に革新を妨げる可能性がある。 ごく最近、LLM(Large Language Models)の出現は、プログラムの自律的開発と洗練を可能にすることによって、ソフトウェア工学に革命をもたらした。 この進歩を活かして,多種多様なMOPに対応するために設計された,EA演算子を進化させる新しいLCMベースのフレームワークを提案する。 このフレームワークは、専門家の介入を必要とせず、EAオペレータの生産を容易にし、設計プロセスを合理化します。 提案手法の有効性を検証するため,MOPの様々なカテゴリにまたがる広範な実証実験を行った。 その結果, LLM を進化させた演算子の堅牢性と優れた性能が示された。

Multi-objective optimization problems (MOPs) are prevalent in various real-world applications, necessitating sophisticated solutions that balance conflicting objectives. Traditional evolutionary algorithms (EAs), while effective, often rely on domain-specific expert knowledge and iterative tuning, which can impede innovation when encountering novel MOPs. Very recently, the emergence of Large Language Models (LLMs) has revolutionized software engineering by enabling the autonomous development and refinement of programs. Capitalizing on this advancement, we propose a new LLM-based framework for evolving EA operators, designed to address a wide array of MOPs. This framework facilitates the production of EA operators without the extensive demands for expert intervention, thereby streamlining the design process. To validate the efficacy of our approach, we have conducted extensive empirical studies across various categories of MOPs. The results demonstrate the robustness and superior performance of our LLM-evolved operators.
翻訳日:2024-06-14 18:34:37 公開日:2024-06-13
# BTS: 時系列データセットの構築 - 大規模構築分析の強化

BTS: Building Timeseries Dataset: Empowering Large-Scale Building Analytics ( http://arxiv.org/abs/2406.08990v1 )

ライセンス: Link先を確認
Arian Prabowo, Xiachong Lin, Imran Razzak, Hao Xue, Emily W. Yap, Matthew Amos, Flora D. Salim, (参考訳) 建物は人間の健康に重要な役割を担い、住民の快適さ、健康、安全に影響を及ぼす。 さらに、世界のエネルギー消費に大きく貢献し、総エネルギー使用量の3分の1を占める。 建築性能の最適化は、気候変動と闘い、人間の繁栄を促進する重要な機会である。 しかし、分析構築の研究は、複数のビルディング操作におけるアクセス可能で、利用可能な、そして包括的な現実世界のデータセットの欠如によって妨げられている。 本稿では,BTS(Building TimeSeries)データセットを紹介する。 私たちのデータセットは3年間にわたって3つの建物をカバーしており、数百のユニークなオントロジーを持つ1万以上の時系列データポイントで構成されています。 さらにメタデータはBrickスキーマを使って標準化されている。 このデータセットの有用性を実証するために、時系列オントロジー分類とゼロショット予測という2つのタスクのベンチマークを行った。 これらのタスクは、分析を構築する際の相互運用性に関連する課題に対処する上で、不可欠な最初のステップである。 データセットとベンチマークに使用されるコードへのアクセスは以下の通りである。

Buildings play a crucial role in human well-being, influencing occupant comfort, health, and safety. Additionally, they contribute significantly to global energy consumption, accounting for one-third of total energy usage, and carbon emissions. Optimizing building performance presents a vital opportunity to combat climate change and promote human flourishing. However, research in building analytics has been hampered by the lack of accessible, available, and comprehensive real-world datasets on multiple building operations. In this paper, we introduce the Building TimeSeries (BTS) dataset. Our dataset covers three buildings over a three-year period, comprising more than ten thousand timeseries data points with hundreds of unique ontologies. Moreover, the metadata is standardized using the Brick schema. To demonstrate the utility of this dataset, we performed benchmarks on two tasks: timeseries ontology classification and zero-shot forecasting. These tasks represent an essential initial step in addressing challenges related to interoperability in building analytics. Access to the dataset and the code used for benchmarking are available here: https://github.com/cruiseresearchgroup/DIEF_BTS .
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 古典的なGNNは強力なベースライン:ノード分類のためのGNNの再評価

Classic GNNs are Strong Baselines: Reassessing GNNs for Node Classification ( http://arxiv.org/abs/2406.08993v1 )

ライセンス: Link先を確認
Yuankai Luo, Lei Shi, Xiao-Ming Wu, (参考訳) グラフトランスフォーマー(GT)は、理論上優れた表現力と標準ノード分類ベンチマークで報告された印象的なパフォーマンスのため、従来のメッセージパスグラフニューラルネットワーク(GNN)の代替として最近人気が高まっている。 本稿では,GTに対する3つの古典的GNNモデル(GCN, GAT, GraphSAGE)の性能を再評価するために,徹底的な実験分析を行う。 以上の結果から,GNNの極小パラメータ設定により,GTsの優位性が過大評価された可能性が示唆された。 注目すべきは、わずかなハイパーパラメータチューニングによって、これらの古典的なGNNモデルは、調査された18の多様なデータセットのうち17のGTのマッチングや、さらにはそれを超える、最先端のパフォーマンスを達成することである。 さらに,ノード分類性能に対する正規化,ドロップアウト,残差接続,ネットワーク深さ,ジャンプナレッジモードなどのGNN構成の影響を詳細に検討する。 本研究は,グラフ機械学習分野における経験的厳密性の向上をめざし,モデル能力のより正確な比較と評価を促進することを目的とする。

Graph Transformers (GTs) have recently emerged as popular alternatives to traditional message-passing Graph Neural Networks (GNNs), due to their theoretically superior expressiveness and impressive performance reported on standard node classification benchmarks, often significantly outperforming GNNs. In this paper, we conduct a thorough empirical analysis to reevaluate the performance of three classic GNN models (GCN, GAT, and GraphSAGE) against GTs. Our findings suggest that the previously reported superiority of GTs may have been overstated due to suboptimal hyperparameter configurations in GNNs. Remarkably, with slight hyperparameter tuning, these classic GNN models achieve state-of-the-art performance, matching or even exceeding that of recent GTs across 17 out of the 18 diverse datasets examined. Additionally, we conduct detailed ablation studies to investigate the influence of various GNN configurations, such as normalization, dropout, residual connections, network depth, and jumping knowledge mode, on node classification performance. Our study aims to promote a higher standard of empirical rigor in the field of graph machine learning, encouraging more accurate comparisons and evaluations of model capabilities.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 身体的手作りダイアログ管理システムにおける脳様概念の導入

Introducing Brain-like Concepts to Embodied Hand-crafted Dialog Management System ( http://arxiv.org/abs/2406.08996v1 )

ライセンス: Link先を確認
Frank Joublin, Antonello Ceravola, Cristian Sandu, (参考訳) チャットボット、言語モデル、音声技術の開発とともに、自然言語や音声を介して人間とシームレスに対話できるシステムを構築する可能性と関心が高まっている。 本稿では,より広義のインテリジェンスにダイアログシステムの研究を組み込むことによって,手作りデザインと人工ニューラルネットワークを調合し,模倣や指導による学習といった新たな学習アプローチへの門戸を開く行動アーキテクチャを,神経生物学や神経心理学から取り入れることができることを実証したい。 そこで本稿では,グラフィカル言語を用いた手作りモデルに基づく混合イニシアティブダイアログとアクション生成を実現するニューラルビヘイビアエンジンを提案する。 このような脳のようなインスパイアされたアーキテクチャとグラフィカルなダイアログモデルの使用性のデモは、セミパブリック空間で動作する仮想レセプティストアプリケーションを通して記述される。

Along with the development of chatbot, language models and speech technologies, there is a growing possibility and interest of creating systems able to interface with humans seamlessly through natural language or directly via speech. In this paper, we want to demonstrate that placing the research on dialog system in the broader context of embodied intelligence allows to introduce concepts taken from neurobiology and neuropsychology to define behavior architecture that reconcile hand-crafted design and artificial neural network and open the gate to future new learning approaches like imitation or learning by instruction. To do so, this paper presents a neural behavior engine that allows creation of mixed initiative dialog and action generation based on hand-crafted models using a graphical language. A demonstration of the usability of such brain-like inspired architecture together with a graphical dialog model is described through a virtual receptionist application running on a semi-public space.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# マイクロ圧縮認識のための適応時間運動誘導グラフ畳み込みネットワーク

Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition ( http://arxiv.org/abs/2406.08997v1 )

ライセンス: Link先を確認
Fengyuan Zhang, Zhaopei Huang, Xinjie Zhang, Qin Jin, (参考訳) マイクロ表現は個人の真の感情状態を理解するための重要な手がかりとなる。 マイクロ表現の認識は、ビジネス交渉や心理療法などの分野での様々な応用により、研究の注目を集めている。 しかし、マイクロ表現の複雑で過渡的な性質は、その正確な認識に重大な課題をもたらす。 既存の作業の多くは、時間的依存を無視したり、クリップレベルの認識において冗長性の問題に悩まされている。 本研究では,ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)という,マイクロ圧縮認識のための新しいフレームワークを提案する。 本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。 具体的には,アダプティブ・テンポラル・モーション(Adaptive Temporal Motion)レイヤの統合により,マイクロ表現に固有のグローバル・ローカルな動作特徴を集約する。 実験結果から,ATM-GCNは既存の最先端手法,特にコンポジットデータセットを超越するだけでなく,最新のマイクロ圧縮データセットCAS(ME)$^3$に対して優れた性能を発揮することが示された。

Micro-expressions serve as essential cues for understanding individuals' genuine emotional states. Recognizing micro-expressions attracts increasing research attention due to its various applications in fields such as business negotiation and psychotherapy. However, the intricate and transient nature of micro-expressions poses a significant challenge to their accurate recognition. Most existing works either neglect temporal dependencies or suffer from redundancy issues in clip-level recognition. In this work, we propose a novel framework for micro-expression recognition, named the Adaptive Temporal Motion Guided Graph Convolution Network (ATM-GCN). Our framework excels at capturing temporal dependencies between frames across the entire clip, thereby enhancing micro-expression recognition at the clip level. Specifically, the integration of Adaptive Temporal Motion layers empowers our method to aggregate global and local motion features inherent in micro-expressions. Experimental results demonstrate that ATM-GCN not only surpasses existing state-of-the-art methods, particularly on the Composite dataset, but also achieves superior performance on the latest micro-expression dataset CAS(ME)$^3$.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 変分量子ハミルトン工学

Variational quantum Hamiltonian engineering ( http://arxiv.org/abs/2406.08998v1 )

ライセンス: Link先を確認
Benchi Zhao, Keisuke Fujii, (参考訳) 量子系のハミルトニアンは、系の運動エネルギーとポテンシャルエネルギーに対応する作用素の項で表される。 ハミルトニアンとハミルトニアンのシミュレーションの期待値は、量子計算における最も基本的な2つのタスクの1つである。 2つのタスクを実現するためのオーバーヘッドは、パウリ係数の絶対値をすべて和るハミルトンのパウリノルムによって決定される。 本研究では,変動量子ハミルトニアン・エンジニアリング (VQHE) と呼ばれる変分量子アルゴリズムを提案し,予測値推定とハミルトニアン・シミュレーションのオーバーヘッドを低減する。 まず,パウリのノルム最適化問題をベクトルL1-ノルム最小化問題にエンコードする理論を開発する。 次に、適切なコスト関数を考案し、パラメータ化量子回路(PQC)を用いてコスト関数を最小化する。 また、Ising Hamiltonian および molecules' Hamiltonian の Pauli ノルムを減少させる数値実験を行い、提案した VQHE の効率を示す。

The Hamiltonian of a quantum system is represented in terms of operators corresponding to the kinetic and potential energies of the system. The expectation value of a Hamiltonian and Hamiltonian simulation are two of the most fundamental tasks in quantum computation. The overheads for realizing the two tasks are determined by the Pauli norm of Hamiltonian, which sums over all the absolute values of Pauli coefficients. In this work, we propose a variational quantum algorithm (VQA) called variational quantum Hamiltonian engineering (VQHE) to minimize the Pauli norm of Hamiltonian, such that the overhead for executing expectation value estimation and Hamiltonian simulation can be reduced. First, we develop a theory to encode the Pauli norm optimization problem into the vector L1-norm minimization problem. Then we devise an appropriate cost function and utilize the parameterized quantum circuits (PQC) to minimize the cost function. We also conduct numerical experiments to reduce the Pauli norm of the Ising Hamiltonian and molecules' Hamiltonian to show the efficiency of the proposed VQHE.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# バイオメトリックス, 近接性, 無接触通信を利用したパスワードレスMFA

A Passwordless MFA Utlizing Biometrics, Proximity and Contactless Communication ( http://arxiv.org/abs/2406.09000v1 )

ライセンス: Link先を確認
Sneha Shukla, Gaurav Varshney, Shreya Singh, Swati Goel, (参考訳) より安全で強く推進されているにもかかわらず、2要素 (2FA) またはマルチファクタ (MFA) のスキームは、リアルタイムMITM、コントロール/リレーMITM、悪意のあるブラウザエクステンションベースのフィッシング攻撃、または/またはユーザーが追加のアカウント保護のために他のハードウェアを購入して運ばなければならないような、最近のフィッシングの脅威から保護できない。 NFCやBLE対応スマートフォンに先例のない人気を生かし、MFA方式を設計するための新たな地平を探る。 本稿では,BLE-NFC対応モバイルデバイスとともに,ユーザの顔の生体認証を生かしたユーザ認証手法を提案する。 BLE-NFC対応Androidデバイス上で,プロトタイプ認証システムを実装した。 このスキームは、ユーザビリティ、デプロイ可能性、セキュリティの観点から、Bonneau et alアセスメントフレームワークを使用した他の一般的なスキームと比較されている。

Despite being more secure and strongly promoted, two-factor (2FA) or multi-factor (MFA) schemes either fail to protect against recent phishing threats such as real-time MITM, controls/relay MITM, malicious browser extension-based phishing attacks, and/or need the users to purchase and carry other hardware for additional account protection. Leveraging the unprecedented popularity of NFC and BLE-enabled smartphones, we explore a new horizon for designing an MFA scheme. This paper introduces an advanced authentication method for user verification that utilizes the user's real-time facial biometric identity, which serves as an inherent factor, together with BLE- NFC-enabled mobile devices, which operate as an ownership factor. We have implemented a prototype authentication system on a BLE-NFC-enabled Android device, and initial threat modeling suggests that it is safe against known phishing attacks. The scheme has been compared with other popular schemes using the Bonneau et al. assessment framework in terms of usability, deployability, and security.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 段階的中間モード生成によるクロスモーダルファインチューニングの強化

Enhancing Cross-Modal Fine-Tuning with Gradually Intermediate Modality Generation ( http://arxiv.org/abs/2406.09003v1 )

ライセンス: Link先を確認
Lincan Cai, Shuang Li, Wenxuan Ma, Jingxuan Kang, Binhui Xie, Zixun Sun, Chengwei Zhu, (参考訳) 大規模事前訓練されたモデルは、テキストや画像などのデータ集約的なモダリティを扱う上で、非常に価値があることが証明されている。 しかし、タンパク質配列や宇宙線のような特定の特定のモダリティのためにこれらのモデルを微調整すると、ラベル付きデータの顕著なモダリティの相違と不足のために困難が生じる。 本稿では, 大規模事前学習モデルから様々な目標モードへの変換を目的とした, クロスモーダル微調整の高速化を目的とした, エンドツーエンドのPaReを提案する。 PaReは、ソースデータとターゲットデータの両方からキーパッチを選択するためのゲーティングメカニズムを採用している。 モダリティ非依存のパッチ置換スキームにより、これらのパッチは保存され、結合され、データに富む中間のモダリティが簡単からハードまで構築される。 段階的に中間モダリティ生成を行うことで、モダリティギャップを効果的にブリッジして、クロスモーダル微調整の安定性と伝達性を高めるだけでなく、リッチな中間モダリティデータを活用することで、目標モダリティにおける制限データの問題にも対処できる。 手書き、汎用、タスク特化、最先端のクロスモーダルな微調整アプローチと比較して、PaReは10以上のモダリティを含む3つの挑戦的なベンチマークで優れたパフォーマンスを示している。

Large-scale pretrained models have proven immensely valuable in handling data-intensive modalities like text and image. However, fine-tuning these models for certain specialized modalities, such as protein sequence and cosmic ray, poses challenges due to the significant modality discrepancy and scarcity of labeled data. In this paper, we propose an end-to-end method, PaRe, to enhance cross-modal fine-tuning, aiming to transfer a large-scale pretrained model to various target modalities. PaRe employs a gating mechanism to select key patches from both source and target data. Through a modality-agnostic Patch Replacement scheme, these patches are preserved and combined to construct data-rich intermediate modalities ranging from easy to hard. By gradually intermediate modality generation, we can not only effectively bridge the modality gap to enhance stability and transferability of cross-modal fine-tuning, but also address the challenge of limited data in the target modality by leveraging enriched intermediate modality data. Compared with hand-designed, general-purpose, task-specific, and state-of-the-art cross-modal fine-tuning approaches, PaRe demonstrates superior performance across three challenging benchmarks, encompassing more than ten modalities.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 量子速度限界に対する測定の影響

Effect of measurements on quantum speed limit ( http://arxiv.org/abs/2406.09004v1 )

ライセンス: Link先を確認
Abhay Srivastav, Vivek Pandey, Arun K Pati, (参考訳) 量子系の初期状態と最終状態を考えると、射影ヒルベルト空間における状態ベクトルの輸送速度は量子速度限界を支配している。 ここでは、連続的な測定プロセスにおいて量子速度制限に何が起こるのかを問う。 非エルミートハミルトニアンによる連続的な測定過程をモデル化し、測定過程下においても系Schr{\"o}dinger-like の進化を保っている。 この具体的な測定モデルを用いて、連続的な測定では、量子系の輸送速度がゼロになる傾向があることを示す。 興味深いことに、小型の時間スケールでは、測定強度が有限であっても量子速度が向上する。 我々の発見は、量子コンピューティングと量子制御に応用でき、ダイナミクスはユニタリプロセスと測定プロセスの両方で制御される。

Given the initial and final states of a quantum system, the speed of transportation of state vector in the projective Hilbert space governs the quantum speed limit. Here, we ask the question what happens to the quantum speed limit under continuous measurement process. We model the continuous measurement process by a non-Hermitian Hamiltonian which keeps the evolution of the system Schr{\"o}dinger-like even under the process of measurement. Using this specific measurement model, we prove that under continuous measurement, the speed of transportation of a quantum system tends to zero. Interestingly, we also find that for small time scale, there is an enhancement of quantum speed even if the measurement strength is finite. Our findings can have applications in quantum computing and quantum control where dynamics is governed by both unitary and measurement processes.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# プライバシを意識したメモリフォサイシクス

Privacy Aware Memory Forensics ( http://arxiv.org/abs/2406.09005v1 )

ライセンス: Link先を確認
Janardhan Kalikiri, Gaurav Varshney, Jaswinder Kour, Tarandeep Singh, (参考訳) 近年、企業におけるインサイダーの脅威や攻撃の頻度やコストが増加している。 悪意のあるインサイダーによるエンドツーエンドの暗号化インスタントメッセージングアプリケーション(WhatsApp、Telegram、VPN)の利用は、データ漏洩のインシデントを指数関数的に引き起こした。 インド証券取引委員会(SEBI)は、こうしたデータ漏洩事件の報告を調査し、WhatsAppメッセージを使って収益データと財務情報が漏洩した企業12社について報告した。 最近の調査によると、データ漏洩の60%は、主に悪意のあるインサイダーの脅威によって引き起こされている。 特に防衛環境の場合、内部からの情報漏えいが国の安全保障を危うくする。 ネットワークおよびホストベースのアクティビティのスニッフィングは、エンドツーエンドの暗号化のため、インサイダー脅威検出環境では機能しない。 メモリフォサイシクスは、エンドツーエンドの暗号化環境を通じて送信または受信されたメッセージへのアクセスを可能にするが、ユーザのプライバシーを全面的に侵害する。 本研究では,組織内のインサイダーによるデータ漏洩を検出する新しい手法を提案する。 当社のアプローチでは,インサイダーデバイスのRAMを捕捉し,ユーザのプライバシを維持しながら,ホストシステムからの機密情報漏洩を解析する。 センシティブなデータリークは、ディープラーニングモデルを用いてコンテキストと同一視される。 提案案の有効性と有効性は、軍事的ユースケースの助けを借りて実証されている。 しかし、提案されたアーキテクチャは、小さな変更を加えて様々なユースケースで利用することができる。

In recent years, insider threats and attacks have been increasing in terms of frequency and cost to the corporate business. The utilization of end-to-end encrypted instant messaging applications (WhatsApp, Telegram, VPN) by malicious insiders raised data breach incidents exponentially. The Securities and Exchange Board of India (SEBI) investigated reports on such data leak incidents and reported about twelve companies where earnings data and financial information were leaked using WhatsApp messages. Recent surveys indicate that 60% of data breaches are primarily caused by malicious insider threats. Especially, in the case of the defense environment, information leaks by insiders will jeopardize the countrys national security. Sniffing of network and host-based activities will not work in an insider threat detection environment due to end-to-end encryption. Memory forensics allows access to the messages sent or received over an end-to-end encrypted environment but with a total compromise of the users privacy. In this research, we present a novel solution to detect data leakages by insiders in an organization. Our approach captures the RAM of the insiders device and analyses it for sensitive information leaks from a host system while maintaining the users privacy. Sensitive data leaks are identified with context using a deep learning model. The feasibility and effectiveness of the proposed idea have been demonstrated with the help of a military use case. The proposed architecture can however be used across various use cases with minor modifications.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# LLMリーディングティーリーズ:大規模言語モデルによるトピックモデルの自動評価

LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models ( http://arxiv.org/abs/2406.09008v1 )

ライセンス: Link先を確認
Xiaohao Yang, He Zhao, Dinh Phung, Wray Buntine, Lan Du, (参考訳) トピックモデリングは教師なしテキスト分析に広く使われているツールである。 しかし、トピックモデルの包括的な評価は依然として困難である。 既存の評価手法は、異なるモデル(例えば、パープレキシティ)で比較できないか、モデルの特定の1つの側面(例えば、トピックの品質や文書表現の品質)だけに焦点を当てているか、モデル全体のパフォーマンスを反映するには不十分である。 本稿では,大規模言語モデル(LLM)のパワーを活用し,文書表現やトピックの意味的品質を協調的に考慮したトピックモデリングの新しい評価手法であるWALM(Words Agreement with Language Model)を提案する。 異なる種類のトピックモデルを含む広範な実験により、WALMは人間の判断と一致し、既存のモデルと補完的な評価手法として機能し、トピックモデリングに新たな視点をもたらすことができる。 私たちのソフトウェアパッケージはhttps://github.com/Xiaohao-Yang/Topic_Model_Evaluationで公開されます。

Topic modeling has been a widely used tool for unsupervised text analysis. However, comprehensive evaluations of a topic model remain challenging. Existing evaluation methods are either less comparable across different models (e.g., perplexity) or focus on only one specific aspect of a model (e.g., topic quality or document representation quality) at a time, which is insufficient to reflect the overall model performance. In this paper, we propose WALM (Words Agreement with Language Model), a new evaluation method for topic modeling that comprehensively considers the semantic quality of document representations and topics in a joint manner, leveraging the power of large language models (LLMs). With extensive experiments involving different types of topic models, WALM is shown to align with human judgment and can serve as a complementary evaluation method to the existing ones, bringing a new perspective to topic modeling. Our software package will be available at https://github.com/Xiaohao-Yang/Topic_Model_Evaluation, which can be integrated with many widely used topic models.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# Fredformer: 時系列予測のための周波数デバイアス変換器

Fredformer: Frequency Debiased Transformer for Time Series Forecasting ( http://arxiv.org/abs/2406.09009v1 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Taichi Murayama, Yasuko Matsubara, Yasushi Sakurai, (参考訳) Transformerモデルは時系列予測において主要なパフォーマンスを示している。 それでも複雑なシナリオでは、データ内の低周波の特徴を学習し、高周波の特徴を見落とし、周波数バイアスを示す傾向にある。 このバイアスは、モデルが重要な高周波データ特徴を正確にキャプチャすることを防ぐ。 本稿では,このバイアスを理解するための実験的な分析を行い,高エネルギーの周波数特性に着目したモデルによる周波数バイアスが不均等に発生することを発見した。 我々は,このバイアスを定式化し,周波数帯域の異なる特徴を均等に学習することで周波数バイアスを緩和するトランスフォーマーベースのフレームワークであるFredformerを提案する。 このアプローチは、モデルが正確な予測に重要な低振幅の特徴を見落としないようにする。 大規模な実験により,提案手法の有効性が示され,実世界の時系列データセットにおいて,他のベースラインよりも優れていることがわかった。 さらに,注目行列近似を用いたFredformerの軽量版を導入し,より少ないパラメータと少ない計算コストで同等の性能を実現する。 コードは、https://github.com/chenzRG/Fredformer.comで入手できる。

The Transformer model has shown leading performance in time series forecasting. Nevertheless, in some complex scenarios, it tends to learn low-frequency features in the data and overlook high-frequency features, showing a frequency bias. This bias prevents the model from accurately capturing important high-frequency data features. In this paper, we undertook empirical analyses to understand this bias and discovered that frequency bias results from the model disproportionately focusing on frequency features with higher energy. Based on our analysis, we formulate this bias and propose Fredformer, a Transformer-based framework designed to mitigate frequency bias by learning features equally across different frequency bands. This approach prevents the model from overlooking lower amplitude features important for accurate forecasting. Extensive experiments show the effectiveness of our proposed approach, which can outperform other baselines in different real-world time-series datasets. Furthermore, we introduce a lightweight variant of the Fredformer with an attention matrix approximation, which achieves comparable performance but with much fewer parameters and lower computation costs. The code is available at: https://github.com/chenzRG/Fredformer
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# LLMの予測器を用いたベイズ統計モデリング

Bayesian Statistical Modeling with Predictors from LLMs ( http://arxiv.org/abs/2406.09012v1 )

ライセンス: Link先を確認
Michael Franke, Polina Tsvilodub, Fausto Carcassi, (参考訳) State of the Art Large Language Model (LLMs) は、様々なベンチマークタスクにおいて印象的なパフォーマンスを示しており、LLMベースの予測が人間の判断や判断のプロキシとして機能する大規模アプリケーションのコンポーネントとしてますます利用されている。 このことは、LLMに由来する情報の人間的類似性、人間の直感との整合性、およびLLMが人間の認知または言語使用の説明モデル(の一部)として考慮できるかどうかという疑問を提起する。 そこで本研究では, ベイズ統計モデルの観点から, LLMの多選択決定課題に対する予測の人間的類似性について検討する。 実用的な言語使用に関する強制選択実験から得られた人的データを用いて, LLMは項目レベルでの人的データのばらつきを捉えないことがわかった。 本研究では, LLMの集合的, 条件レベルのデータに対して, 完全な分布予測を導出する方法を提案する。 これらの結果から,LLMの性能評価は方法論における一見微妙な選択に強く依存しており,LLMは集合的,条件レベルでの人間の行動の予測に最も適していると考えられる。

State of the art large language models (LLMs) have shown impressive performance on a variety of benchmark tasks and are increasingly used as components in larger applications, where LLM-based predictions serve as proxies for human judgements or decision. This raises questions about the human-likeness of LLM-derived information, alignment with human intuition, and whether LLMs could possibly be considered (parts of) explanatory models of (aspects of) human cognition or language use. To shed more light on these issues, we here investigate the human-likeness of LLMs' predictions for multiple-choice decision tasks from the perspective of Bayesian statistical modeling. Using human data from a forced-choice experiment on pragmatic language use, we find that LLMs do not capture the variance in the human data at the item-level. We suggest different ways of deriving full distributional predictions from LLMs for aggregate, condition-level data, and find that some, but not all ways of obtaining condition-level predictions yield adequate fits to human data. These results suggests that assessment of LLM performance depends strongly on seemingly subtle choices in methodology, and that LLMs are at best predictors of human behavior at the aggregate, condition-level, for which they are, however, not designed to, or usually used to, make predictions in the first place.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 深層学習によるセンサー融合による幼児運動分類の改善

Deep learning empowered sensor fusion to improve infant movement classification ( http://arxiv.org/abs/2406.09014v1 )

ライセンス: Link先を確認
Tomas Kulvicius, Dajie Zhang, Luise Poustka, Sven Bölte, Lennart Jahn, Sarah Flügge, Marc Kraft, Markus Zweckstetter, Karin Nielsen-Saines, Florentin Wörgötter, Peter B Marschik, (参考訳) 確立した臨床ツールの診断手順を容易にし、強化するためのAIソリューションの開発が最近ブームになっている。 発達期神経系の完全性を評価するため,幼少期における神経障害の診断において,Prechtl General Movement Assessment(GMA)の臨床的意義が認められている。 GMAは、その応用を拡大し、人間のアセスメントのトレーニングにおけるコストを回避し、自発的な運動パターンの分類を標準化しようとする機械学習アプローチを通じて、ますます強化されている。 利用可能なディープラーニングツールは、いずれも単一センサーのモダリティに基づいているが、しかしながら、十分に訓練された人間の評価ツールよりもかなり劣っている。 これらのアプローチは、すべてのモデルがプロプライエタリ/サイロデータセットで設計、訓練、評価されるのとほぼ同等である。 本研究では,3つの異なるセンサモード(圧力,慣性,視覚センサ)を比較し,FID(Fidgety Movement)を評価するためのセンサ融合手法を提案する。 乳幼児運動分類のための様々な組み合わせと2つのセンサフュージョンアプローチ(後期および初期融合)を試験し、マルチセンサーシステムが単一モダリティ評価を上回っているかどうかを検証した。 乳児の運動パターンを自動分類する手段としては, センサフュージョンアプローチが有望な方法であることを示唆し, 3センサフュージョンの性能(分類精度94.5\%)はどの単一モードよりも有意に高かった。 堅牢なセンサー融合システムの開発は、AIによる神経機能の初期認識を著しく向上させ、最終的には神経発達状態の自動検出の早期実装を促進する可能性がある。

There is a recent boom in the development of AI solutions to facilitate and enhance diagnostic procedures for established clinical tools. To assess the integrity of the developing nervous system, the Prechtl general movement assessment (GMA) is recognized for its clinical value in the diagnosis of neurological impairments in early infancy. GMA has been increasingly augmented through machine learning approaches intending to scale-up its application, circumvent costs in the training of human assessors and further standardize classification of spontaneous motor patterns. Available deep learning tools, all of which are based on single sensor modalities, are however still considerably inferior to that of well-trained human assessors. These approaches are hardly comparable as all models are designed, trained and evaluated on proprietary/ silo-data sets. We propose a sensor fusion approach for assessing fidgety movements (FMs) comparing three different sensor modalities (pressure, inertial, and visual sensors). Various combinations and two sensor fusion approaches (late and early fusion) for infant movement classification were tested to evaluate whether a multi-sensor system outperforms single modality assessments. The performance of the three-sensor fusion (classification accuracy of 94.5\%) was significantly higher than that of any single modality evaluated, suggesting the sensor fusion approach is a promising avenue for automated classification of infant motor patterns. The development of a robust sensor fusion system may significantly enhance AI-based early recognition of neurofunctions, ultimately facilitating early implementation of automated detection of neurodevelopmental conditions.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# AMSA-UNet:デブロアリングのための自己注意に基づく非対称多重スケールU-net

AMSA-UNet: An Asymmetric Multiple Scales U-net Based on Self-attention for Deblurring ( http://arxiv.org/abs/2406.09015v1 )

ライセンス: Link先を確認
Yingying Wang, (参考訳) 伝統的なイングルスケールのU-Netは、しばしば退色中に空間情報が失われる。 また、畳み込み法による長距離依存の捕捉の制限により、回復した画像の品質が低下する。 上記の問題に対処するために,自己アテンション(AMSA-UNet)に基づく非対称多重U-netを提案する。 マルチスケールなU字型アーキテクチャを導入することで、ネットワークはグローバルレベルでぼやけた領域に集中でき、ローカルレベルで画像の詳細を回復することができる。 情報の長距離依存性を捕捉する従来の畳み込み手法の限界を克服するため、バックボーンネットワークのデコーダ部に自己認識機構を導入し、モデルの受容領域を大幅に増加させ、画像の意味情報により多くの注意を払って、より正確で視覚的に満足な画像を生成する。 さらに、周波数領域に基づく計算手法を導入し、計算量を削減した。 実験の結果,提案手法は8つの優れた手法と比較して精度と速度の両面で有意な改善を示した。

The traditional ingle-scale U-Net often leads to the loss of spatial information during deblurring, which affects the deblurring accracy. Additionally, due to the convolutional method's limitation in capturing long-range dependencies, the quality of the recovered image is degraded. To address the above problems, an asymmetric multiple scales U-net based on self-attention (AMSA-UNet) is proposed to improve the accuracy and computational complexity. By introducing a multiple-scales U shape architecture, the network can focus on blurry regions at the global level and better recover image details at the local level. In order to overcome the limitations of traditional convolutional methods in capturing the long-range dependencies of information, a self-attention mechanism is introduced into the decoder part of the backbone network, which significantly increases the model's receptive field, enabling it to pay more attention to semantic information of the image, thereby producing more accurate and visually pleasing deblurred images. What's more, a frequency domain-based computation method was introduced to reduces the computation amount. The experimental results demonstrate that the proposed method exhibits significant improvements in both accuracy and speed compared to eight excellent methods
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# 溶融マグネシウム溶融プロセスにおける異常検出のためのクロスモーダル学習法とベンチマーク

Cross-Modal Learning for Anomaly Detection in Fused Magnesium Smelting Process: Methodology and Benchmark ( http://arxiv.org/abs/2406.09016v1 )

ライセンス: Link先を確認
Gaochang Wu, Yapeng Zhang, Lan Deng, Jingxin Zhang, Tianyou Chai, (参考訳) 溶融マグネシウム炉(FMF)はマグネシアの製造において重要な産業機器であり、その効率、安定性、安全性を確保する上で、異常検出が重要な役割を担っている。 既存の異常検出方法は、主にプロセス変数(アーク電流など)を用いて支配的な異常を分析することや、異常な視覚的特徴に基づいてニューラルネットワークを構築することに焦点を当てている。 本稿では, マグネシウム溶融プロセスの異常検出を容易にするクロスモーダルトランス (dubed FmFormer) を提案する。 提案手法は,3次元ビデオモダリティと1次元電流モダリティの実質的な次元ギャップをマルチスケールで効果的に橋渡しし,画素レベルの異常検出を階層的に再構築する,新しいトークン化パラダイムを提案する。 その後、FmFormerは自己アテンションを利用して各モダリティの内部特徴と双方向のクロスアテンションを学習し、モダリティ間の相関を捉える。 提案手法の有効性を検証するため,220万以上の試料に対して,同期的に取得したビデオおよび電流データを特徴とする溶融マグネシウム製錬プロセスの先駆的なクロスモーダルベンチマークを提案する。 クロスモーダル学習を活用して提案したFmFormerは異常検出における最先端性能を実現する。 提案された方法論とベンチマークは、いくつかの修正を加えて他の産業応用に適用することができる。 ベンチマークはhttps://github.com/GaochangWu/FMF-Benchmarkで公開される。

Fused Magnesium Furnace (FMF) is a crucial industrial equipment in the production of magnesia, and anomaly detection plays a pivotal role in ensuring its efficient, stable, and secure operation. Existing anomaly detection methods primarily focus on analyzing dominant anomalies using the process variables (such as arc current) or constructing neural networks based on abnormal visual features, while overlooking the intrinsic correlation of cross-modal information. This paper proposes a cross-modal Transformer (dubbed FmFormer), designed to facilitate anomaly detection in fused magnesium smelting processes by exploring the correlation between visual features (video) and process variables (current). Our approach introduces a novel tokenization paradigm to effectively bridge the substantial dimensionality gap between the 3D video modality and the 1D current modality in a multiscale manner, enabling a hierarchical reconstruction of pixel-level anomaly detection. Subsequently, the FmFormer leverages self-attention to learn internal features within each modality and bidirectional cross-attention to capture correlations across modalities. To validate the effectiveness of the proposed method, we also present a pioneering cross-modal benchmark of the fused magnesium smelting process, featuring synchronously acquired video and current data for over 2.2 million samples. Leveraging cross-modal learning, the proposed FmFormer achieves state-of-the-art performance in detecting anomalies, particularly under extreme interferences such as current fluctuations and visual occlusion caused by heavy water mist. The presented methodology and benchmark may be applicable to other industrial applications with some amendments. The benchmark will be released at https://github.com/GaochangWu/FMF-Benchmark.
翻訳日:2024-06-14 18:24:52 公開日:2024-06-13
# PCAに基づく顔表情の自動符号化のためのキーポイント追跡手法

A PCA based Keypoint Tracking Approach to Automated Facial Expressions Encoding ( http://arxiv.org/abs/2406.09017v1 )

ライセンス: Link先を確認
Shivansh Chandra Tripathi, Rahul Garg, (参考訳) 表情研究のための顔行動符号化システム(FACS)は手作業であり、かなりの努力と専門知識を必要とする。 本稿では,表情学習におけるアクション・ユニット(AU)の自動生成手法について検討する。 本研究では,プライマリコンポーネント分析(PCA)と顔キーポイント追跡に基づく教師なしアプローチを提案し,一般に利用可能なdisFAデータセットを用いてPCA AUと呼ばれるデータ駆動型AUを生成する。 PCA AUは顔面筋運動の方向に従っており、他の公開試験データセット(BP4D-SpontaneousおよびCK+)の92.83パーセント以上を説明でき、表情を一般化する能力を示している。 PCA AUは、テストデータセットに説明される分散の点でFACS AUのキーポイントベースの等価性に匹敵する。 本研究は,手動FACSラベリングに代わる自動化技術の可能性を示し,心理学や関連分野における表情の効率的なリアルタイム分析に繋がる可能性がある。 さらなる研究を促進するため、コードリポジトリを公開しました。

The Facial Action Coding System (FACS) for studying facial expressions is manual and requires significant effort and expertise. This paper explores the use of automated techniques to generate Action Units (AUs) for studying facial expressions. We propose an unsupervised approach based on Principal Component Analysis (PCA) and facial keypoint tracking to generate data-driven AUs called PCA AUs using the publicly available DISFA dataset. The PCA AUs comply with the direction of facial muscle movements and are capable of explaining over 92.83 percent of the variance in other public test datasets (BP4D-Spontaneous and CK+), indicating their capability to generalize facial expressions. The PCA AUs are also comparable to a keypoint-based equivalence of FACS AUs in terms of variance explained on the test datasets. In conclusion, our research demonstrates the potential of automated techniques to be an alternative to manual FACS labeling which could lead to efficient real-time analysis of facial expressions in psychology and related fields. To promote further research, we have made code repository publicly available.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# PT対称状態としての連続時間結晶と臨界例外点の出現

Continuous time crystals as a PT symmetric state and the emergence of critical exceptional points ( http://arxiv.org/abs/2406.09018v1 )

ライセンス: Link先を確認
Yuma Nakanishi, Ryo Hanai, Tomohiro Sasamoto, (参考訳) 連続時間変換対称性は、しばしば開量子系において自発的に破壊され、その出現の条件は積極的に研究されている。 しかし、その外観が完全に解明されている例はごくわずかである。 このレターでは、リンドラディアンパリティ時(PT)対称性が1成分スピンモデルにおいて、散逸連続時間結晶を含む周期的振動を一般に生成できることが示される。 非相互相転移に類似させることで、動的相からの遷移点が自発的PT対称性の破れと関連し、典型的には \textit{ critical exceptional point} に対応することを示す。 興味深いことに、PT対称相の周期軌道は中心型であり、初期状態に依存した振幅を意味する。 これらの結果は、顕微鏡レベルでのリンドブレディアンPT対称性が非線形PT対称性を意味することを証明し、遷移点付近で線形安定解析を行うことによって確立される。 この研究は、自発的な反単位対称性の破れを伴う物質と相転移の新しい非平衡相の理解をさらに進める。

Continuous time-translation symmetry is often spontaneously broken in open quantum systems, and the condition for their emergence has been actively investigated. However, there are only a few cases in which its condition for appearance has been fully elucidated. In this Letter, we show that a Lindladian parity-time (PT) symmetry can generically produce persistent periodic oscillations, including dissipative continuous time crystals, in one-collective spin models. By making an analogy to non-reciprocal phase transitions, we demonstrate that a transition point from the dynamical phase is associated with spontaneous PT symmetry breaking and typically corresponds to a \textit{critical exceptional point}. Interestingly, the periodic orbits in the PT-symmetric phase are found to be center-type, implying an initial-state-dependent amplitude. These results are established by proving that the Lindbladian PT symmetry at the microscopic level implies a non-linear PT symmetry, and by performing a linear stability analysis near the transition point. This research will further our understanding of novel non-equilibrium phases of matter and phase transitions with spontaneous anti-unitary symmetry breaking.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# 進化可能な開発エンコーディングのメタラーニング

Meta-Learning an Evolvable Developmental Encoding ( http://arxiv.org/abs/2406.09020v1 )

ライセンス: Link先を確認
Milton L. Montero, Erwan Plantec, Eleni Nisioti, Joachim W. Pedersen, Sebastian Risi, (参考訳) ブラックボックス最適化法(進化アルゴリズムなど)の表現は、伝統的に繊細な手作業で構築されている。 これは、生物の複雑さと進化性に耳を傾ける生物学的生物の表現型にDNAをマッピングする表現とは対照的である。 さらに、この過程の核は基本的にほぼ全ての生命体で同じであり、進化の起源の共有を反映している。 生成モデルはブラックボックス最適化のための学習可能な表現であることを示すが、それらが簡単に検索できるように設計されているわけではない。 本稿では,このような表現をメタ学習できるシステムを提案する。 より詳しくは、我々のメタラーニングアプローチは、開発中に細胞が「DNA」文字列ゲノムの異なる部分に参加することができる1つのニューラルセルラーオートマタを見つけることができ、異なる解像可能な2D迷路構造を成長させることができることを示す。 進化したジェノタイプからフェノタイプへのマッピングは、より高速な探索だけでなく、成長した人工物の品質や多様性も向上することを示す。

Representations for black-box optimisation methods (such as evolutionary algorithms) are traditionally constructed using a delicate manual process. This is in contrast to the representation that maps DNAs to phenotypes in biological organisms, which is at the hear of biological complexity and evolvability. Additionally, the core of this process is fundamentally the same across nearly all forms of life, reflecting their shared evolutionary origin. Generative models have shown promise in being learnable representations for black-box optimisation but they are not per se designed to be easily searchable. Here we present a system that can meta-learn such representation by directly optimising for a representation's ability to generate quality-diversity. In more detail, we show our meta-learning approach can find one Neural Cellular Automata, in which cells can attend to different parts of a "DNA" string genome during development, enabling it to grow different solvable 2D maze structures. We show that the evolved genotype-to-phenotype mappings become more and more evolvable, not only resulting in a faster search but also increasing the quality and diversity of grown artefacts.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# Schur's Positive-Definite Network:Deep Learning in the SPD cone with Structure

Schur's Positive-Definite Network: Deep Learning in the SPD cone with structure ( http://arxiv.org/abs/2406.09023v1 )

ライセンス: Link先を確認
Can Pouliquen, Mathurin Massias, Titouan Vayer, (参考訳) 対称正定値錐(SPD)における行列の推定は、コンピュータビジョンからグラフ学習まで、多くの応用において興味深い。 様々な凸最適化に基づく推定器が存在するが、モデルに基づくアプローチのため、表現性には制限がある。 ディープラーニングの成功により、多くの人がニューラルネットワークを使用して、データ駆動方式でSPD行列を見積もることを学ぶようになった。 構造化された出力を学習するために、ある有望な戦略は反復的アルゴリズムをアンロールすることで設計されたアーキテクチャであり、帰納的バイアス特性の恩恵を受ける可能性がある。 しかし、SPD学習のために正しいアンロールアーキテクチャを設計することは困難であり、出力が全ての所望の特性を持つことを保証しないか、重い計算に依存しているか、あるいは表現性を妨げている特定の行列に過剰に制限されているかである。 本稿では,SpodNetと呼ばれるSPD出力を保証した新しい汎用学習モジュールを提案する。 特に、SPDとスパース行列を共同で学習するという課題を解決する。 実験では,SpadNetレイヤの汎用性を実証した。

Estimating matrices in the symmetric positive-definite (SPD) cone is of interest for many applications ranging from computer vision to graph learning. While there exist various convex optimization-based estimators, they remain limited in expressivity due to their model-based approach. The success of deep learning has thus led many to use neural networks to learn to estimate SPD matrices in a data-driven fashion. For learning structured outputs, one promising strategy involves architectures designed by unrolling iterative algorithms, which potentially benefit from inductive bias properties. However, designing correct unrolled architectures for SPD learning is difficult: they either do not guarantee that their output has all the desired properties, rely on heavy computations, or are overly restrained to specific matrices which hinders their expressivity. In this paper, we propose a novel and generic learning module with guaranteed SPD outputs called SpodNet, that also enables learning a larger class of functions than existing approaches. Notably, it solves the challenging task of learning jointly SPD and sparse matrices. Our experiments demonstrate the versatility of SpodNet layers.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# デジタル透かしのステガナリシス:あなたの防衛は本当に必要か?

Steganalysis on Digital Watermarking: Is Your Defense Truly Impervious? ( http://arxiv.org/abs/2406.09026v1 )

ライセンス: Link先を確認
Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou, (参考訳) デジタル透かし技術は、特に生成AIモデルの時代において、画像の著作権保護とソース識別に不可欠である。 しかし、多くの既存の透かし手法、特に画像の内容に関係なく固定パターンを埋め込む内容に依存しないアプローチは、最小限の知覚歪みで透かしを抽出・除去できるステガナリシス攻撃に弱い。 本研究では,透かしアルゴリズムをコンテンツ適応型およびコンテンツ非依存型に分類し,透かし画像の集合の平均化が,その基盤となる透かしパターンを明らかにすることを実証する。 次に、この抽出したパターンを、複数の透かしパターンを含む場合でも、グレーボックスとブラックボックス設定の両方で効果的に透かしを除去するために利用する。 Tree-Ringの透かしのようなアルゴリズムでは、抽出されたパターンはきれいな画像に説得力のある透かしを作ることもできる。 12種類の透かし法における定量的および定性的な評価は, 内容に依存しない透かしへのステガナリシスによる脅威と, それらの解析的攻撃に耐性のある透かし法の設計の重要性を浮き彫りにしている。 本稿では,コンテンツ適応型透かし戦略とステガナリシスに対するセキュリティ評価を実施するためのセキュリティガイドラインを提案する。 また、ステガナリシスの脆弱性に対する潜在的な軽減策として、マルチキー割り当てを提案する。

Digital watermarking techniques are crucial for copyright protection and source identification of images, especially in the era of generative AI models. However, many existing watermarking methods, particularly content-agnostic approaches that embed fixed patterns regardless of image content, are vulnerable to steganalysis attacks that can extract and remove the watermark with minimal perceptual distortion. In this work, we categorize watermarking algorithms into content-adaptive and content-agnostic ones, and demonstrate how averaging a collection of watermarked images could reveal the underlying watermark pattern. We then leverage this extracted pattern for effective watermark removal under both graybox and blackbox settings, even when the collection contains multiple watermark patterns. For some algorithms like Tree-Ring watermarks, the extracted pattern can also forge convincing watermarks on clean images. Our quantitative and qualitative evaluations across twelve watermarking methods highlight the threat posed by steganalysis to content-agnostic watermarks and the importance of designing watermarking techniques resilient to such analytical attacks. We propose security guidelines calling for using content-adaptive watermarking strategies and performing security evaluation against steganalysis. We also suggest multi-key assignments as potential mitigations against steganalysis vulnerabilities.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# BiasedからUnbiased Dynamicsへ:無限小発電機アプローチ

From Biased to Unbiased Dynamics: An Infinitesimal Generator Approach ( http://arxiv.org/abs/2406.09028v1 )

ライセンス: Link先を確認
Timothée Devergne, Vladimir Kostic, Michele Parrinello, Massimiliano Pontil, (参考訳) 時間反転不変確率過程における進化作用素の固有関数の学習について検討する。 この方程式で説明される多くの物理的または化学的プロセスは、シミュレーション中にほとんど渡れない高い電位障壁によって分離された準安定状態間の遷移を含む。 このボトルネックを克服するために、データはより高速に状態空間を探索するバイアスドシミュレーションによって収集される。 本稿では,プロセスの無限小生成と関連する分解剤演算子に根ざした偏りのあるシミュレーションから学習するフレームワークを提案する。 我々は、転送演算子に基づくより一般的なものにアプローチを対比し、バイアスデータからバイアスのないシステムのスペクトル特性を確実に学習できることを示します。 実験では, 移動演算子を用いた手法の利点と, ジェネレータ学習に基づく最近の発展を取り上げ, 固有関数と固有値の推定の有効性を実証した。 重要なことは、最適下バイアスによるいくつかの関連する遷移のみを含むデータセットであっても、我々のアプローチは遷移機構に関する関連情報を回復することである。

We investigate learning the eigenfunctions of evolution operators for time-reversal invariant stochastic processes, a prime example being the Langevin equation used in molecular dynamics. Many physical or chemical processes described by this equation involve transitions between metastable states separated by high potential barriers that can hardly be crossed during a simulation. To overcome this bottleneck, data are collected via biased simulations that explore the state space more rapidly. We propose a framework for learning from biased simulations rooted in the infinitesimal generator of the process and the associated resolvent operator. We contrast our approach to more common ones based on the transfer operator, showing that it can provably learn the spectral properties of the unbiased system from biased data. In experiments, we highlight the advantages of our method over transfer operator approaches and recent developments based on generator learning, demonstrating its effectiveness in estimating eigenfunctions and eigenvalues. Importantly, we show that even with datasets containing only a few relevant transitions due to sub-optimal biasing, our approach recovers relevant information about the transition mechanism.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# Fair by Design: ライフサイクル全体にわたるAI対応システムのフェアネスを正当化するための社会技術的アプローチ

Fair by design: A sociotechnical approach to justifying the fairness of AI-enabled systems across the lifecycle ( http://arxiv.org/abs/2406.09029v1 )

ライセンス: Link先を確認
Marten H. L. Kaas, Christopher Burr, Zoe Porter, Berk Ozturk, Philippa Ryan, Michael Katell, Nuala Polo, Kalle Westerling, Ibrahim Habli, (参考訳) 公正性は、既存のAIガイドラインにおいて最も広く認識されている倫理原則の1つであり、公正なAI対応システムの開発は、新しいAI規制によって要求される。 しかし、AI対応システムの公正性に対処するほとんどのアプローチは、2つの重要な方法でスコープに制限されている。 我々の貢献は、AIライフサイクル全体にわたって公平な考慮の範囲を広げる実践的で透明な方法を実現するための保証フレームワークとツールを提供することであり、フェアネスの統計的概念を超越して、よりリッチな分析を実践的で文脈に依存した方法で検討することである。 本研究は,2型糖尿病患者の高血圧発症リスクを予測することを目的とした,AIを活用した臨床診断支援システム(CDSS)に,信頼と倫理の保証(TEA)の枠組みを最初に記述し,適用する。 これはオープンソースツールとフェアネス考慮マップによって補われ、AI対応システムのフェアネスを参加的な方法で推論するのに役立つ。 要するに、公正性の考慮事項を特定し、文書化し、正当化するための共有フレームワークを使用して、この熟考的なエクササイズを使用して保証ケースを構築することで、倫理的AIコミュニティ内の他の人々にとってAI公正性の研究は再利用され、一般化され、特にデジタルヘルスや医療における公正性と株式を達成するためのベストプラクティスを共有することができる。

Fairness is one of the most commonly identified ethical principles in existing AI guidelines, and the development of fair AI-enabled systems is required by new and emerging AI regulation. But most approaches to addressing the fairness of AI-enabled systems are limited in scope in two significant ways: their substantive content focuses on statistical measures of fairness, and they do not emphasize the need to identify and address fairness considerations across the whole AI lifecycle. Our contribution is to present an assurance framework and tool that can enable a practical and transparent method for widening the scope of fairness considerations across the AI lifecycle and move the discussion beyond mere statistical notions of fairness to consider a richer analysis in a practical and context-dependent manner. To illustrate this approach, we first describe and then apply the framework of Trustworthy and Ethical Assurance (TEA) to an AI-enabled clinical diagnostic support system (CDSS) whose purpose is to help clinicians predict the risk of developing hypertension in patients with Type 2 diabetes, a context in which several fairness considerations arise (e.g., discrimination against patient subgroups). This is supplemented by an open-source tool and a fairness considerations map to help facilitate reasoning about the fairness of AI-enabled systems in a participatory way. In short, by using a shared framework for identifying, documenting and justifying fairness considerations, and then using this deliberative exercise to structure an assurance case, research on AI fairness becomes reusable and generalizable for others in the ethical AI community and for sharing best practices for achieving fairness and equity in digital health and healthcare in particular.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# CUER: オフポリティ継続的深層強化学習アルゴリズムのための修正された一様体験リプレイ

CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms ( http://arxiv.org/abs/2406.09030v1 )

ライセンス: Link先を確認
Arda Sarp Yenicesu, Furkan B. Mutlu, Suleyman S. Kozat, Ozgur S. Oguz, (参考訳) 体験再生機構の利用により、エージェントは経験を効果的に活用することができる。 過去の研究では、遷移のサンプリング確率は相対的重要性に基づいて変化した。 反復後のリプレイバッファの遷移毎にサンプル確率を再割り当てするプロセスは、極めて非効率であると考えられる。 したがって、計算効率を向上させるために、経験的再生優先化アルゴリズムは、サンプルとしてトランジションの重要性を再評価する。 しかし、遷移の相対的な重要性は、エージェントのポリシーと値関数が反復的に更新されたときに動的に調整される。 さらに、経験的リプレイは、エージェントの過去のポリシーによって生成された遷移を保持するメカニズムであり、エージェントの最新のポリシーと大きく異なる可能性がある。 エージェントの最新のポリシーからの逸脱が増加すると、オフポリシー更新の頻度が高くなり、エージェントのパフォーマンスに悪影響を及ぼす。 そこで本稿では, サンプル状態の分布をよりポリティクスにすることで, 遷移重要度の動的性質を無視することなく, 保存された経験の公平性を考慮しつつ, 確率的に記憶された経験をサンプリングする新しいアルゴリズムであるCorrected Uniform Experience Replay (CUER) を開発する。 CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。

The utilization of the experience replay mechanism enables agents to effectively leverage their experiences on several occasions. In previous studies, the sampling probability of the transitions was modified based on their relative significance. The process of reassigning sample probabilities for every transition in the replay buffer after each iteration is considered extremely inefficient. Hence, in order to enhance computing efficiency, experience replay prioritization algorithms reassess the importance of a transition as it is sampled. However, the relative importance of the transitions undergoes dynamic adjustments when the agent's policy and value function are iteratively updated. Furthermore, experience replay is a mechanism that retains the transitions generated by the agent's past policies, which could potentially diverge significantly from the agent's most recent policy. An increased deviation from the agent's most recent policy results in a greater frequency of off-policy updates, which has a negative impact on the agent's performance. In this paper, we develop a novel algorithm, Corrected Uniform Experience Replay (CUER), which stochastically samples the stored experience while considering the fairness among all other experiences without ignoring the dynamic nature of the transition importance by making sampled state distribution more on-policy. CUER provides promising improvements for off-policy continuous control algorithms in terms of sample efficiency, final performance, and stability of the policy during the training.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# 総合的なグラフポーリングベンチマーク:有効性、ロバスト性、一般化可能性

A Comprehensive Graph Pooling Benchmark: Effectiveness, Robustness and Generalizability ( http://arxiv.org/abs/2406.09031v1 )

ライセンス: Link先を確認
Pengyun Wang, Junyu Luo, Yanxin Shen, Siyu Heng, Xiao Luo, (参考訳) グラフプーリングは、様々な下流タスクに有効なノードとグラフ表現を得る能力で注目を集めている。 最近のグラフプーリングアプローチの急増にもかかわらず、そのパフォーマンスを評価するための標準化された実験的設定と公正なベンチマークが欠如している。 この問題に対処するため、15のグラフプーリング方法と21のグラフデータセットを含む包括的なベンチマークを構築した。 このベンチマークは3次元のグラフプーリング法の性能を体系的に評価する。 まず,グラフ分類,グラフ回帰,ノード分類など,様々なタスクにまたがるグラフプーリング手法の性能評価を行った。 そこで本研究では,現実のシナリオにおいて,潜在的なノイズアタックとアウト・オブ・ディストリビューション・シフトの下での性能について検討する。 また、詳細な効率分析やパラメータ分析も行う。 広範囲にわたる実験により,様々なシナリオにおけるグラフプーリングアプローチの強い能力と適用性が検証され,深層幾何学的学習研究に有用な洞察とガイダンスが得られている。 ベンチマークのソースコードはhttps://github.com/goose315/Graph_Pooling_Benchmarkで公開されている。

Graph pooling has gained attention for its ability to obtain effective node and graph representations for various downstream tasks. Despite the recent surge in graph pooling approaches, there is a lack of standardized experimental settings and fair benchmarks to evaluate their performance. To address this issue, we have constructed a comprehensive benchmark that includes 15 graph pooling methods and 21 different graph datasets. This benchmark systematically assesses the performance of graph pooling methods in three dimensions, i.e., effectiveness, robustness, and generalizability. We first evaluate the performance of these graph pooling approaches across different tasks including graph classification, graph regression and node classification. Then, we investigate their performance under potential noise attacks and out-of-distribution shifts in real-world scenarios. We also involve detailed efficiency analysis and parameter analysis. Extensive experiments validate the strong capability and applicability of graph pooling approaches in various scenarios, which can provide valuable insights and guidance for deep geometric learning research. The source code of our benchmark is available at https://github.com/goose315/Graph_Pooling_Benchmark.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# 分散化がソーシャルプラットフォームにおけるユーザエージェンシーに与える影響

How Decentralization Affects User Agency on Social Platforms ( http://arxiv.org/abs/2406.09035v1 )

ライセンス: Link先を確認
Aditya Surve, Aneesh Shamraj, Swapneel Mehta, (参考訳) メインストリームのソーシャルメディアプラットフォームは、ユーザーエージェンシー、コントロール、データポータビリティを制限する「ウォールガーデン」エコシステムとして機能する。 彼らは、多くのオンライン被害に寄与する透明性の欠如を実証した。 本研究は,園芸プラットフォームの代替モデルとして,分散化が約束を果たす可能性について検討する。 具体的には,ブロックによるユーザ主導型コンテンツモデレーションを,分散型ソーシャルプラットフォームであるBluesky上でのエージェンシー表現として記述する。 われわれは、ユーザーがオンライン体験をよりきめ細やかなコントロールを提供することによる影響について検討する。 ユーザ主導型コンテンツモデレーションで識別されるパターンを記述し、さらなる研究の方向性を提案する。

Mainstream social media platforms function as "walled garden" ecosystems that restrict user agency, control, and data portability. They have demonstrated a lack of transparency that contributes to a multitude of online harms. Our research investigates how decentralization might present promise as an alternative model to walled garden platforms. Specifically, we describe the user-driven content moderation through blocks as an expression of agency on Bluesky, a decentralized social platform. We examine the impact of providing users with more granular control over their online experiences, including what they post, who can see it, and whose content they are exposed to. We describe the patterns identified in user-driven content moderation and suggest directions for further research.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# CGP++ : カルテシアン遺伝的プログラミングの最新のC++実装

CGP++ : A Modern C++ Implementation of Cartesian Genetic Programming ( http://arxiv.org/abs/2406.09038v1 )

ライセンス: Link先を確認
Roman Kalkreuth, Thomas Baeck, (参考訳) カルテシアン遺伝プログラミング(CGP)の参照実装はC言語で記述された。 C言語は本質的に手続き型プログラミングパラダイムに従っており、複雑な構造やメソッドに対して再利用可能なスケーラブルな実装モデルを提供する上での課題を伴っている。 さらに、C の制限要因のため、CGP の参照実装は汎用的なフレームワークを提供しておらず、したがって事前定義された評価型のセットに制限される。 参照実装の他に、提供される機能に関して、既存の実装が制限されていることも観察します。 そこで本研究では,オブジェクト指向設計と汎用プログラミングパラダイムを追求したCGPのC++実装の最初のバージョンを提案する。 我々は,新しい実装の提案により,CGP分野における解釈可能性,アクセシビリティ,再現性を全般的に促進することを目指している。

The reference implementation of Cartesian Genetic Programming (CGP) was written in the C programming language. C inherently follows a procedural programming paradigm, which entails challenges in providing a reusable and scalable implementation model for complex structures and methods. Moreover, due to the limiting factors of C, the reference implementation of CGP does not provide a generic framework and is therefore restricted to a set of predefined evaluation types. Besides the reference implementation, we also observe that other existing implementations are limited with respect to the features provided. In this work, we therefore propose the first version of a modern C++ implementation of CGP that pursues object-oriented design and generic programming paradigm to provide an efficient implementation model that can facilitate the discovery of new problem domains and the implementation of complex advanced methods that have been proposed for CGP over time. With the proposal of our new implementation, we aim to generally promote interpretability, accessibility and reproducibility in the field of CGP.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# FacEnhance: 反復DDPMによる表情強調

FacEnhance: Facial Expression Enhancing with Recurrent DDPMs ( http://arxiv.org/abs/2406.09040v1 )

ライセンス: Link先を確認
Hamza Bouzid, Lahoucine Ballihi, (参考訳) 非言語的人間のコミュニケーションに不可欠な表情は、仮想現実、ゲーム、感情的なAIアシスタントなど、さまざまなコンピュータビジョン分野に応用されている。 進歩にもかかわらず、多くの表情生成モデルは、低解像度(例えば、32x32または64x64ピクセル)、品質の低下、背景の詳細の欠如といった課題に直面している。 本稿では,既存の低解像度表情生成モデルにおける制約に対処する新しい拡散型アプローチであるFacEnhanceを紹介する。 FacEnhanceは低解像度の表情ビデオ(64x64ピクセル)を高解像度(192x192ピクセル)に拡張し、背景の詳細を取り入れ、全体的な品質を向上させる。 背景のない低解像度ビデオと1つの中性表現高解像度画像でガイドされた拡散フレームワーク内の条件記述を利用して、FacEnhanceは、中性画像から背景を持つ個人によって実行される低解像度映像から、表情を取り入れた映像を生成する。 軽量の低解像度モデルを補完することにより、FacEnhanceは計算効率と望ましい画像解像度と品質のバランスを取る。 MUG表情データベースの大規模な実験は、FacEnhanceが、コンテンツとアイデンティティの整合性を保ちながら、低解像度のモデル出力を最先端の品質に高める効果を実証している。 FacEnhanceは、リソース効率が高く、高忠実な表情生成への大きな進歩を示し、時代遅れの低解像度メソッドを最新の標準に更新する。

Facial expressions, vital in non-verbal human communication, have found applications in various computer vision fields like virtual reality, gaming, and emotional AI assistants. Despite advancements, many facial expression generation models encounter challenges such as low resolution (e.g., 32x32 or 64x64 pixels), poor quality, and the absence of background details. In this paper, we introduce FacEnhance, a novel diffusion-based approach addressing constraints in existing low-resolution facial expression generation models. FacEnhance enhances low-resolution facial expression videos (64x64 pixels) to higher resolutions (192x192 pixels), incorporating background details and improving overall quality. Leveraging conditional denoising within a diffusion framework, guided by a background-free low-resolution video and a single neutral expression high-resolution image, FacEnhance generates a video incorporating the facial expression from the low-resolution video performed by the individual with background from the neutral image. By complementing lightweight low-resolution models, FacEnhance strikes a balance between computational efficiency and desirable image resolution and quality. Extensive experiments on the MUG facial expression database demonstrate the efficacy of FacEnhance in enhancing low-resolution model outputs to state-of-the-art quality while preserving content and identity consistency. FacEnhance represents significant progress towards resource-efficient, high-fidelity facial expression generation, Renewing outdated low-resolution methods to up-to-date standards.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# ME-Switch: 大規模言語モデルのためのメモリ効率の良いエキスパートスイッチングフレームワーク

ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models ( http://arxiv.org/abs/2406.09041v1 )

ライセンス: Link先を確認
Jing Liu, Ruihao Gong, Mingyang Zhang, Yefei He, Jianfei Cai, Bohan Zhuang, (参考訳) LLMを開発する典型的なプロセスは、大量のデータに対する一般的な基礎モデルの事前学習と、専門的な専門家を作成するためのタスク固有のデータへの微調整である。 専門家全員をデバイスにロードすることは現実的ではなく、ユーザの要求に応じて専門家同士を頻繁に切り替えることによって、相当なI/Oコストが発生し、レイテンシとコストが増加する。 以前のアプローチでは、専門家の重量を事前訓練されたモデルウェイトと残差デルタウェイトに分解し、デルタウェイトを定量化してモデルサイズを減少させた。 しかし、これらの手法は、極低ビット幅での有意な量子化誤差を招き、ユーザ要求に適したモデルが事前に知られていると仮定することが多く、実用的ではない。 これらの問題に対処するために,LLMサービスのためのメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。 ME-Switchは混合精度の量子化を使用し、デルタ重みの非塩分入力チャネルを極端に低ビットに選択的に定量化し、静電容量を保ちながら性能を維持しながらストレージ要求を大幅に低減する。 さらに、モデル選択問題をドメイン分類問題に変換することにより、ユーザクエリを最も適した専門家に効率的に誘導するルーティング手法を開発する。 大規模な実験は、ME-Switchの有望なメモリ効率とルーティング性能を示している。 例えば、Mistral-7Bファミリーから3つのモデルを提供する場合、ME-Switchはモデルサイズを1.74倍に削減し、命令、数学的推論、コード生成タスクにおいてほとんど損失のない性能を維持する。 さらに、ME-Switchは1つのNVIDIA A100 GPU上で、Mistral-7Bファミリーから16のモデルを効率的に提供することができる。

The typical process for developing LLMs involves pre-training a general foundation model on massive data, followed by fine-tuning on task-specific data to create specialized experts. Serving these experts poses challenges, as loading all experts onto devices is impractical, and frequent switching between experts in response to user requests incurs substantial I/O costs, increasing latency and expenses. Previous approaches decompose expert weights into pre-trained model weights and residual delta weights, then quantize the delta weights to reduce model size. However, these methods often lead to significant quantization errors at extremely low bitwidths and assume the appropriate model for a user request is known in advance, which is not practical. To address these issues, we introduce ME-Switch, a memory-efficient expert switching framework for LLM serving. ME-Switch uses mixed-precision quantization, selectively quantizing non-salient input channels of delta weights to extremely low bits while keeping salient ones intact, significantly reducing storage demands while maintaining performance. Additionally, we develop a routing method that efficiently directs user queries to the most suitable expert by transforming the model selection problem into a domain classification problem. Extensive experiments show ME-Switch's promising memory efficiency and routing performance. For example, when serving three models from the Mistral-7B family, ME-Switch reduces model size by 1.74x while maintaining nearly lossless performance on instruction, mathematical reasoning, and code generation tasks. Furthermore, ME-Switch can efficiently serve 16 models from the Mistral-7B family on a single NVIDIA A100 GPU.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# 言語モデルはクロスワードソルバーである

Language Models are Crossword Solvers ( http://arxiv.org/abs/2406.09043v1 )

ライセンス: Link先を確認
Soumadeep Saha, Sutanoya Chakraborty, Saptarshi Saha, Utpal Garain, (参考訳) クロスワード(Crosswords)は、自然言語理解、ワードプレイ、推論、世界知識において高い習熟度を示すために解法を必要とする単語パズルの一種であり、文字や長さの制約に固執している。 本稿では,Large Language Models (LLM) を用いたクロスワードの解法について述べる。 現状の最先端技術 (SoTA) 言語モデルでは, 暗号的クロスワードの手がかりを解読する能力が大きく, 関連するベンチマークでは2~3倍の精度で, 従来報告されていたSoTA結果よりも優れていたことが実証された。 また,ニューヨーク・タイムズのクロスワードパズルにおいて,初めて全クロスワードグリッドをLLMで解く問題に対処するために,この性能を利用した検索アルゴリズムを開発した。 LLMが人間の専門家のパフォーマンスを著しく低下させるというこの領域の以前の研究とは対照的に、我々の研究は、このギャップがより狭くなっていることを示唆している。

Crosswords are a form of word puzzle that require a solver to demonstrate a high degree of proficiency in natural language understanding, wordplay, reasoning, and world knowledge, along with adherence to character and length constraints. In this paper we tackle the challenge of solving crosswords with Large Language Models (LLMs). We demonstrate that the current generation of state-of-the art (SoTA) language models show significant competence at deciphering cryptic crossword clues, and outperform previously reported SoTA results by a factor of 2-3 in relevant benchmarks. We also develop a search algorithm that builds off this performance to tackle the problem of solving full crossword grids with LLMs for the very first time, achieving an accuracy of 93\% on New York Times crossword puzzles. Contrary to previous work in this area which concluded that LLMs lag human expert performance significantly, our research suggests this gap is a lot narrower.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# MiLoRA:パラメータ効率の良いLDMファインタニングのための小さな特異成分のハーネス化

MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning ( http://arxiv.org/abs/2406.09044v1 )

ライセンス: Link先を確認
Hanqing Wang, Zeguan Xiao, Yixia Li, Shuo Wang, Guanhua Chen, Yun Chen, (参考訳) 大規模言語モデル(LLM)の効率的な微調整は、計算量とメモリコストを削減してLLMに適応することを目的としている。 以前のLoRAベースのアプローチでは、元の重量行列を凍結させながら、ガウス分布とゼロ値を持つ低ランク行列を初期化していた。 しかし、誘導されていない部分空間に最適化された訓練可能なモデルパラメータは、事前訓練された重み行列の十分に学習された部分空間と干渉する可能性がある。 本稿では, 軽量行列の特異成分のみを更新し, 基本特異成分を凍結させつつ, 単純かつ効果的なLCM微調整手法であるMiLoRAを提案する。 基本行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。 MiLoRAは、原理行列に直交する部分空間内の低ランク行列を初期化するので、事前学習された知識は十分に保存される。 微調整の間、MiLoRAは微調整データセットを学習するために最適化されていないサブスペースを最大限に活用する。 提案手法の優れた性能を示すために,コモンセンス推論,数理推論,およびベンチマークによる指導に関する広範囲な実験を行った。

Efficient finetuning of large language models (LLMs) aims to adapt the LLMs with reduced computation and memory cost. Previous LoRA-based approaches initialize the low-rank matrices with gaussian distribution and zero values, while keeping the original weight matrices frozen. However, the trainable model parameters optimized in an unguided subspace might have interference with the well-learned subspace of the pretrained weight matrix. In this paper, we propose MiLoRA, a simple yet effective LLM finetuning approach that only updates the minor singular components of the weight matrix while keeping the principle singular components frozen. It is observed that the minor matrix corresponds to the noisy or long-tail information, while the principle matrix contains important knowledge. The MiLoRA initializes the low-rank matrices within a subspace that is orthogonal to the principle matrix, thus the pretrained knowledge is expected to be well preserved. During finetuning, MiLoRA makes the most use of the less-optimized subspace for learning the finetuning dataset. Extensive experiments on commonsense reasoning, math reasoning and instruction following benchmarks present the superior performance of our method.
翻訳日:2024-06-14 18:15:03 公開日:2024-06-13
# CUDRT:人間対大言語モデル生成テキストのベンチマーク

CUDRT: Benchmarking the Detection of Human vs. Large Language Models Generated Texts ( http://arxiv.org/abs/2406.09056v1 )

ライセンス: Link先を確認
Zhen Tao, Zhiyu Li, Dinghao Xi, Wei Xu, (参考訳) 大規模言語モデル(LLM)の普及は、様々な産業でテキスト生成能力を大幅に向上させた。 しかしながら、これらのモデルが人間のようなテキストを生成する能力は、人間とAIの著者の区別に重大な課題をもたらす。 既存のAI生成テキスト検出器の有効性にもかかわらず、その開発は包括的な公開ベンチマークの欠如によって妨げられている。 現在のベンチマークは、質問応答やテキスト研磨のような特定のシナリオに限定されており、主に英語のテキストに焦点を当てており、LLMの多様な応用や言語的ニュアンスを捉えていない。 これらの制約に対処するために、中国語と英語の両方で包括的なバイリンガル・ベンチマークを構築し、主流のAI生成テキスト検出器を評価する。 LLMのテキスト生成は、Create, Update, Delete, Rewrite, Translate(CUDRT)の5つの異なる操作に分類する。 また、スケーラブルで再現可能な実験をサポートするために、堅牢なベンチマーク評価フレームワークを構築しました。 各CUDRTカテゴリに対して,検出性能を徹底的に評価するための広範囲なデータセットを開発した。 各言語固有の最新のLLMを利用することで、データセットは徹底的な評価環境を提供する。 大規模な実験結果は、AI生成したテキスト検出器を最適化するための重要な洞察を与え、様々なシナリオにおける検出精度と一般化性を改善するための今後の研究方向を提案する。

The proliferation of large language models (LLMs) has significantly enhanced text generation capabilities across various industries. However, these models' ability to generate human-like text poses substantial challenges in discerning between human and AI authorship. Despite the effectiveness of existing AI-generated text detectors, their development is hindered by the lack of comprehensive, publicly available benchmarks. Current benchmarks are limited to specific scenarios, such as question answering and text polishing, and predominantly focus on English texts, failing to capture the diverse applications and linguistic nuances of LLMs. To address these limitations, this paper constructs a comprehensive bilingual benchmark in both Chinese and English to evaluate mainstream AI-generated text detectors. We categorize LLM text generation into five distinct operations: Create, Update, Delete, Rewrite, and Translate (CUDRT), encompassing all current LLMs activities. We also establish a robust benchmark evaluation framework to support scalable and reproducible experiments. For each CUDRT category, we have developed extensive datasets to thoroughly assess detector performance. By employing the latest mainstream LLMs specific to each language, our datasets provide a thorough evaluation environment. Extensive experimental results offer critical insights for optimizing AI-generated text detectors and suggest future research directions to improve detection accuracy and generalizability across various scenarios.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 長周期処理における状態空間モデリング:変圧器時代の再帰に関する調査

State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era ( http://arxiv.org/abs/2406.09062v1 )

ライセンス: Link先を確認
Matteo Tiezzi, Michele Casoni, Alessandro Betti, Marco Gori, Stefano Melacci, (参考訳) シーケンシャルデータから効果的に学習することは、特に長いシーケンスの場合、人工知能の長年の目標である。 機械学習の夜明けから、何人かの研究者が、パターンのシーケンスを処理し、過去の入力に関する情報を保持しながら、重要な長期的依存関係や相関を失うことなく、今後のデータを活用するアルゴリズムとアーキテクチャの探索に従事した。 このような究極のゴールは、感覚情報の連続的なリアルタイム処理という人間の目印に着想を得たものであるが、いくつかのソリューションは、処理されたコンテキストを人工的に制限したり、あらかじめ与えられた制限された長さのシーケンスを扱うことによって学習パラダイムを単純化した。 これらの解は、最初はリカレントニューラルネットワークの役割を陰にしていたトランスフォーマーの大きなユビキティによってさらに強調された。 しかし、リカレントネットワークは、現在ユビキタステクノロジーのいくつかの限界を越えているリカレント計算に基づいて、(深層)状態空間モデルや大コンテキストトランスフォーマーの新規インスタンスの人気が高まっているため、近年、強力なリカレントリバイバルに直面している。 実際、大規模言語モデルの迅速な開発は、時間とともにデータを処理する効率的なソリューションへの関心を高めました。 このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。 アーキテクチャおよびアルゴリズム的解法の最新動向に関する完全な分類学を報告し、議論し、この魅力的な研究分野の研究者を導く。 新たな図は、標準のバックプロパゲーション・トゥ・タイムから外れた学習アルゴリズムによって構成される新しいルートを考える余地があることを示唆している。

Effectively learning from sequential data is a longstanding goal of Artificial Intelligence, especially in the case of long sequences. From the dawn of Machine Learning, several researchers engaged in the search of algorithms and architectures capable of processing sequences of patterns, retaining information about the past inputs while still leveraging the upcoming data, without losing precious long-term dependencies and correlations. While such an ultimate goal is inspired by the human hallmark of continuous real-time processing of sensory information, several solutions simplified the learning paradigm by artificially limiting the processed context or dealing with sequences of limited length, given in advance. These solutions were further emphasized by the large ubiquity of Transformers, that have initially shaded the role of Recurrent Neural Nets. However, recurrent networks are facing a strong recent revival due to the growing popularity of (deep) State-Space models and novel instances of large-context Transformers, which are both based on recurrent computations to go beyond several limits of currently ubiquitous technologies. In fact, the fast development of Large Language Models enhanced the interest in efficient solutions to process data over time. This survey provides an in-depth summary of the latest approaches that are based on recurrent models for sequential data processing. A complete taxonomy over the latest trends in architectural and algorithmic solutions is reported and discussed, guiding researchers in this appealing research field. The emerging picture suggests that there is room for thinking of novel routes, constituted by learning algorithms which depart from the standard Backpropagation Through Time, towards a more realistic scenario where patterns are effectively processed online, leveraging local-forward computations, opening to further research on this topic.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 拡張量子温度計によるアンルー効果の測定について

On the Measurement of the Unruh Effect Through Extended Quantum Thermometers ( http://arxiv.org/abs/2406.09063v1 )

ライセンス: Link先を確認
M. Cardi, P. Solinas, N. Zanghì, (参考訳) ウンルー効果は、加速系の熱貯水池を予測し、量子系を温度計として含む測定プロセスのより洗練された理解を求めている。 従来のモデルは、加速された拡張量子系に関連する複雑さを無視して、温度計の本質的な空間範囲を説明できない。 私たちの作品はベル、ヒューズ、ライナスの独創的な作品に基づいています。 本研究では,スピンが温度指標として機能するスピン1/2粒子を用いた精密温度計モデルを提案する。 この洗練されたモデルは、特定の現実的な条件下で効果的に温度を測定する能力を示し、温度計として働く拡張量子系全体の局所的なウンルー温度を本質的に平均化するユニークな値を提供する。

The Unruh effect, predicting a thermal reservoir for accelerating systems, calls for a more refined understanding of measurement processes involving quantum systems as thermometers. Conventional models fail to account for the inherent spatial extent of the thermometer, neglecting the complexities associated with accelerated extended quantum systems. Our work builds upon the seminal work of Bell, Hughes, and Leinaas. We propose a refined thermometer model incorporating a spin-1/2 particle where the spin acts as a temperature indicator. This refined model demonstrates the ability to effectively measure the temperature under specific, realistic conditions, providing a unique value that essentially averages the local Unruh temperatures throughout the extended quantum system acting as the thermometer.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 人文科学のための工学デジタルシステム : 挑戦と機会

Engineering Digital Systems for Humanity: Challenges and Opportunities ( http://arxiv.org/abs/2406.09065v1 )

ライセンス: Link先を確認
Martina De Sanctis, Paola Inverardi, Patrizio Pelliccione, (参考訳) 欧州のAI法のような新しい規制によって証明されたように、(自律的な)ソフトウェア技術の社会的影響に関する懸念は、公衆の懸念になってきた。 従来のソフトウェア行動と品質に加えて、社会的価値と人的価値は、持続可能性と長期的な幸福のためにますます重要視されている。 本稿では,人間のために設計すべき,現在および将来のデジタルシステムにおけるマクロおよび技術的課題と機会を特定する。 課題を特定する上での具体的視点は、人間に焦点をあて、デジタルシステムとの共存におけるその役割に焦点を当てることである。 第一の課題は、人間がデジタルシステムと対話する際、すなわち、出来事に反応するのではなく、物事を起こすためのイニシアチブを取る際に、積極的な役割を担っていると考えることである。 第二に、人間はデジタルシステムとの相互作用、すなわちイベントに対する反応としてデジタルシステムと相互作用する人間に対して、積極的な役割を担っている。 第3の課題は、受動的役割を持つ人間、すなわち、デジタルシステムの決定や行動について経験し、楽しんだり、苦しんだりすることに焦点を当てている。 信頼と信頼の両立と、デジタルシステムの展開と利用に深刻な影響を及ぼす可能性のある法律の遵守という2つの超越的な課題が検討されている。

As testified by new regulations like the European AI act, the worries about the societal impact of (autonomous) software technologies are becoming of public concern. Social and human values, besides the traditional software behaviour and quality, are increasingly recognized as important for sustainability and long-term well-being. In this paper, we identify the macro and technological challenges and opportunities of present and future digital systems that should be engineered for humanity. Our specific perspective in identifying the challenges is to focus on humans and on their role in their co-existence with digital systems. The first challenge considers humans in a proactive role when interacting with the digital systems, i.e., taking initiative in making things happening instead of reacting to events. The second concerns humans having an active role in the interaction with the digital systems i.e., on humans that interact with digital systems as a reaction to events. The third challenge focuses on humans that have a passive role i.e., they experience, enjoy or even suffer the decisions and/or actions of digital systems. Two further transversal challenges are considered: the duality of trust and trustworthiness and the compliance to legislation that both may seriously affect the deployment and use of digital systems.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 不完全な識別子: ソースコードの理解とリファクタリングの強化

Impermanent Identifiers: Enhanced Source Code Comprehension and Refactoring ( http://arxiv.org/abs/2406.09066v1 )

ライセンス: Link先を確認
Eduardo Martins Guerra, Andre A. S. Ivo, Fernando O. Pereira, Romain Robbes, Andrea Janes, Fabio Fagundes Silveira, (参考訳) この記事では、現代のソフトウェア開発における一般的な課題に対応するために、命令型識別子を中心としたコード拡張に対する革新的なアプローチを紹介します。 第一の目的は、コンテキストの変化に適応する動的な識別子を導入し、開発者とソースコードの間のより効率的なインタラクションを促進し、最終的にソフトウェア開発における理解、保守、コラボレーションを促進することで、ソフトウェア開発エクスペリエンスを強化することです。 さらに,本研究では,ソフトウェア開発現場における不整合識別子の採用と受容について,厳密に評価する。 包括的実証試験を通じて、開発者がこのアプローチを日々のプログラミングプラクティスに認識し、統合し、認識されるメリット、潜在的な障壁、導入に影響を与える要因を探索する方法について調査する。 要約すると、この記事では、コード拡張のための新しいコースをグラフ化し、Imbermanent Identifiersをその基盤として提案し、開発者間の実現可能性と受け入れを評価します。 この学際的な研究は、ソフトウェア開発プラクティスの継続的な改善とコード拡張技術の進歩に貢献しようとしている。

In response to the prevailing challenges in contemporary software development, this article introduces an innovative approach to code augmentation centered around Impermanent Identifiers. The primary goal is to enhance the software development experience by introducing dynamic identifiers that adapt to changing contexts, facilitating more efficient interactions between developers and source code, ultimately advancing comprehension, maintenance, and collaboration in software development. Additionally, this study rigorously evaluates the adoption and acceptance of Impermanent Identifiers within the software development landscape. Through a comprehensive empirical examination, we investigate how developers perceive and integrate this approach into their daily programming practices, exploring perceived benefits, potential barriers, and factors influencing its adoption. In summary, this article charts a new course for code augmentation, proposing Impermanent Identifiers as its cornerstone while assessing their feasibility and acceptance among developers. This interdisciplinary research seeks to contribute to the continuous improvement of software development practices and the progress of code augmentation technology.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 変換器を用いた視覚エンコーダにおける表現はどの程度構造化されているか? 視覚言語モデルにおける多目的表現の分析

How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models ( http://arxiv.org/abs/2406.09067v1 )

ライセンス: Link先を確認
Tarun Khajuria, Braian Olmiro Dias, Jaan Aru, (参考訳) 記号のような構造表現を推論に用いたり、用いたりすることは、新しい入力を一般化するのに不可欠であると考えられている。 トレーニングデータ配布外の一般化を可能にする主要なツールは、無関係な情報をタスクに関連するコンパクトな形式に抽象化する能力である。 そのような抽象表現の極端な形は記号である。 人間は、情報を一貫して有意義に活用するために無関係な部分を抽象化しながら、情報をバインドするためにシンボルを利用する。 この研究は、視覚エンコーダにおけるそのような構造化された表現の状態を推定する。 具体的には,LLMに記述された記号的構造的推論の基準を画像モデルに適用することにより,視覚言語による事前学習モデルにおける画像エンコーダの評価を行い,どの表現に望ましい特性が欠けているかという問題に対処する。 VIT,BLIP,CLIP,FLAVAなどの画像エンコーダの表現空間を検証し,これらのモデルにおけるオブジェクト表現の分布を特徴付ける。 特に,COCOデータセットから多目的シーンを用いてデコードタスクを作成し,トークン空間をシーン内のさまざまなオブジェクトの入力内容に関連付ける。 これらのタスクを使用して、ネットワークのトークンとレイヤワイド情報モデリングを特徴付ける。 我々の分析では、ダウンストリームタスクに使用されるCLSトークンは、トレーニングされたダウンストリームタスクに必要ないくつかのオブジェクトのみに焦点を当てている。 それでも、他の個々のオブジェクトは、それらのオブジェクトから派生したネットワーク内のトークンによって、別々にモデル化されている。 さらに,シーン情報の広範分布も観察した。 これは、情報はシンボルに似たオブジェクトを表現するのに最適なものよりもトークンでずっと絡み合っていることを示している。 これらのシンボル特性を考慮に入れれば、マルチオブジェクトシーンにおける基本的な下流タスクにおいて、これらのモデルの障害モードを引き起こすネットワークダイナミクスを示す。

Forming and using symbol-like structured representations for reasoning has been considered essential for generalising over novel inputs. The primary tool that allows generalisation outside training data distribution is the ability to abstract away irrelevant information into a compact form relevant to the task. An extreme form of such abstract representations is symbols. Humans make use of symbols to bind information while abstracting away irrelevant parts to utilise the information consistently and meaningfully. This work estimates the state of such structured representations in vision encoders. Specifically, we evaluate image encoders in large vision-language pre-trained models to address the question of which desirable properties their representations lack by applying the criteria of symbolic structured reasoning described for LLMs to the image models. We test the representation space of image encoders like VIT, BLIP, CLIP, and FLAVA to characterise the distribution of the object representations in these models. In particular, we create decoding tasks using multi-object scenes from the COCO dataset, relating the token space to its input content for various objects in the scene. We use these tasks to characterise the network's token and layer-wise information modelling. Our analysis highlights that the CLS token, used for the downstream task, only focuses on a few objects necessary for the trained downstream task. Still, other individual objects are well-modelled separately by the tokens in the network originating from those objects. We further observed a widespread distribution of scene information. This demonstrates that information is far more entangled in tokens than optimal for representing objects similar to symbols. Given these symbolic properties, we show the network dynamics that cause failure modes of these models on basic downstream tasks in a multi-object scene.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 標準ベースラインと評価によるオフラインMARLの進展のミラー化

Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation ( http://arxiv.org/abs/2406.09068v1 )

ライセンス: Link先を確認
Claude Formanek, Callum Rhys Tilbury, Louise Beyers, Jonathan Shock, Arnu Pretorius, (参考訳) オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに大いに期待できる分野である。 残念なことに、オフラインMARLにおける現在の研究状況は、ベースラインと評価プロトコルの不整合に悩まされているため、究極的には、進捗を正確に評価し、新しく提案されたイノベーションを信頼し、研究者が事前の作業を容易に構築することが困難になる。 本稿では,新しいアルゴリズムの性能を計測するための既存の手法の重大な欠点を,オフラインMARLの成果を代表して検討する。 第二に、この先行研究と直接比較することにより、単純で十分に実装されたベースラインが、幅広いタスクにわたって、最先端(SOTA)の結果を達成できることを実証する。 具体的には、前処理で使用される47のデータセットのうち35のデータセット(ほぼ75%)において、現在報告されているSOTAの性能と一致または上回っていることを示す。 興味深いことに、私たちのベースラインは、しばしばこれらのより洗練されたアルゴリズムを大幅に上回っている。 最後に、この前の作業で強調された欠点を、評価のための単純な標準化された方法論を導入し、いくつかのシナリオで統計的に堅牢な結果でベースライン実装を提供することで、将来の作業の比較に役立ちます。 提案手法は, 安定なベースラインと比較結果と組み合わせることで, オフラインMARLにおける経験科学の全体的な厳密さを大幅に改善できる, 単純かつ合理的なステップを含む。

Offline multi-agent reinforcement learning (MARL) is an emerging field with great promise for real-world applications. Unfortunately, the current state of research in offline MARL is plagued by inconsistencies in baselines and evaluation protocols, which ultimately makes it difficult to accurately assess progress, trust newly proposed innovations, and allow researchers to easily build upon prior work. In this paper, we firstly identify significant shortcomings in existing methodologies for measuring the performance of novel algorithms through a representative study of published offline MARL work. Secondly, by directly comparing to this prior work, we demonstrate that simple, well-implemented baselines can achieve state-of-the-art (SOTA) results across a wide range of tasks. Specifically, we show that on 35 out of 47 datasets used in prior work (almost 75% of cases), we match or surpass the performance of the current purported SOTA. Strikingly, our baselines often substantially outperform these more sophisticated algorithms. Finally, we correct for the shortcomings highlighted from this prior work by introducing a straightforward standardised methodology for evaluation and by providing our baseline implementations with statistically robust results across several scenarios, useful for comparisons in future work. Our proposal includes simple and sensible steps that are easy to adopt, which in combination with solid baselines and comparative results, could substantially improve the overall rigour of empirical science in offline MARL moving forward.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# 大域的特徴効果説明のロバスト性について

On the Robustness of Global Feature Effect Explanations ( http://arxiv.org/abs/2406.09069v1 )

ライセンス: Link先を確認
Hubert Baniecki, Giuseppe Casalicchio, Bernd Bischl, Przemyslaw Biecek, (参考訳) 本研究では,表層データに基づいて学習した予測モデルに対するグローバルなポストホック説明の堅牢性について検討する。 ブラックボックス教師あり学習における予測機能の影響は、応用科学におけるモデルデバッグと科学的発見に不可欠な診断ツールである。 しかし、データやモデルの摂動に対してどれほど脆弱かは、まだオープンな研究課題である。 部分依存プロットのロバスト性の評価と局所効果の蓄積に関する理論的考察を紹介する。 人工的および実世界のデータセットによる実験結果は、世界規模で機械学習予測を解釈する(ミス)最良のシナリオと最悪のシナリオのギャップを定量化する。

We study the robustness of global post-hoc explanations for predictive models trained on tabular data. Effects of predictor features in black-box supervised learning are an essential diagnostic tool for model debugging and scientific discovery in applied sciences. However, how vulnerable they are to data and model perturbations remains an open research question. We introduce several theoretical bounds for evaluating the robustness of partial dependence plots and accumulated local effects. Our experimental results with synthetic and real-world datasets quantify the gap between the best and worst-case scenarios of (mis)interpreting machine learning predictions globally.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# EquiPrompt: 思考の連鎖における反復的ブートストラップによる拡散モデルのデバイアス

EquiPrompt: Debiasing Diffusion Models via Iterative Bootstrapping in Chain of Thoughts ( http://arxiv.org/abs/2406.09070v1 )

ライセンス: Link先を確認
Zahraa Al Sahili, Ioannis Patras, Matthew Purver, (参考訳) テキスト・ツー・イメージ生成モデル(英語版)の領域では、トレーニングデータセットに固有のバイアスの意図しない伝播は、特に社会的に敏感なコンテンツの生成において重大な倫理的課題を引き起こす。 本稿では,テキスト・ツー・イメージ生成モデルにおけるバイアスを低減するために,思考の連鎖(CoT)推論を用いた新しい手法であるEquiPromptを紹介する。 EquiPromptは反復的なブートストラップとバイアス対応の模範選択を使用して、創造性と倫理的責任のバランスを取る。 反復的推論改善と制御された評価手法を統合し、センシティブな文脈におけるゼロショットCoT問題に対処する。 数世代にわたるタスクの実験では、EquiPromptは、生成品質を維持しながらバイアスを効果的に減らし、倫理的AIと社会的に責任を負う創造プロセスを前進させ、コードは一般公開される。

In the domain of text-to-image generative models, the inadvertent propagation of biases inherent in training datasets poses significant ethical challenges, particularly in the generation of socially sensitive content. This paper introduces EquiPrompt, a novel method employing Chain of Thought (CoT) reasoning to reduce biases in text-to-image generative models. EquiPrompt uses iterative bootstrapping and bias-aware exemplar selection to balance creativity and ethical responsibility. It integrates iterative reasoning refinement with controlled evaluation techniques, addressing zero-shot CoT issues in sensitive contexts. Experiments on several generation tasks show EquiPrompt effectively lowers bias while maintaining generative quality, advancing ethical AI and socially responsible creative processes.Code will be publically available.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-13
# モーメントに生きる: 大規模言語モデルでGraspのコテンポラル推論は可能か?

Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? ( http://arxiv.org/abs/2406.09072v1 )

ライセンス: Link先を確認
Zhaochen Su, Juntao Li, Jun Zhang, Tong Zhu, Xiaoye Qu, Pan Zhou, Yan Bowen, Yu Cheng, Min zhang, (参考訳) 時間的推論は、世界を理解するための大きな言語モデル(LLM)の基本である。 現在の時間的推論データセットは、単一または孤立した事象に関する質問に限られており、同時性や複雑な時間的相互関係を含む現実的な時間的特性の反映に不足している。 本稿では,4つの時空間シナリオ(Equal, Overlap, During, Mix)を含む総合的時空間質問応答(QA)ベンチマークであるCoTempQAについて,LLMの時空間理解と推論能力を評価するための4,748のサンプルについて紹介する。 大規模な実験により,現在のLLMの性能と,CoTempQAタスクにおける人間レベルの推論との間に大きなギャップがあることが判明した。 Chain of Thought(CoT)方法論で強化されたとしても、モデルは我々のタスクに一貫して苦労します。 予備的な調査では, 数学的推論が時間的事象を扱う上で重要な役割を担い, 数学的観点からLLMの時間的推論を促進する戦略を提案した。 当社のCoTempQAデータセットは,LCMの時間的推論能力の向上にさらなる進歩を期待する。 私たちのコードはhttps://github.com/zhaochen0110/Cotempqa.comで公開されています。

Temporal reasoning is fundamental for large language models (LLMs) to comprehend the world. Current temporal reasoning datasets are limited to questions about single or isolated events, falling short in mirroring the realistic temporal characteristics involving concurrent nature and intricate temporal interconnections. In this paper, we introduce CoTempQA, a comprehensive co-temporal Question Answering (QA) benchmark containing four co-temporal scenarios (Equal, Overlap, During, Mix) with 4,748 samples for evaluating the co-temporal comprehension and reasoning abilities of LLMs. Our extensive experiments reveal a significant gap between the performance of current LLMs and human-level reasoning on CoTempQA tasks. Even when enhanced with Chain of Thought (CoT) methodologies, models consistently struggle with our task. In our preliminary exploration, we discovered that mathematical reasoning plays a significant role in handling co-temporal events and proposed a strategy to boost LLMs' co-temporal reasoning from a mathematical perspective. We hope that our CoTempQA datasets will encourage further advancements in improving the co-temporal reasoning capabilities of LLMs. Our code is available at https://github.com/zhaochen0110/Cotempqa.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# アンラーニングの進展か?最初のNeurIPSアンラーニングコンペティションから

Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition ( http://arxiv.org/abs/2406.09073v1 )

ライセンス: Link先を確認
Eleni Triantafillou, Peter Kairouz, Fabian Pedregosa, Jamie Hayes, Meghdad Kurmanji, Kairan Zhao, Vincent Dumoulin, Julio Jacques Junior, Ioannis Mitliagkas, Jun Wan, Lisheng Sun Hosoya, Sergio Escalera, Gintare Karolina Dziugaite, Peter Triantafillou, Isabelle Guyon, (参考訳) 我々は,新しいアルゴリズムの開発を刺激し,形式的および堅牢な評価方法論に関する議論を開始することを目的とした,初回NeurIPSコンペティションの成果を提示する。 世界中から1200人近いチームが参加し、様々な特徴を持つ斬新で想像力に富んだソリューションが貢献した。 本稿では、トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げる。 コンペティションのために開発した評価手法は, 総合評価のためのモデルユーティリティを取り入れたまま, 学習の形式的概念に従って品質を忘れる尺度である。 本稿では,この評価フレームワークの異なるインスタンス化の有効性を,関連する計算コストに比例して分析し,評価の標準化の意義について論じる。 この枠組みの様々なバリエーションの下で, 先行手法のランク付けは安定であり, 評価のコスト削減の道筋を示す。 総じて, 評価枠組みの下では, 既存のアルゴリズムを上回り, 成績の高いコンペのエントリーが, 未学習の進展を示唆している。 我々は、新しいデータセットへの一般化可能性の観点から、異なるアルゴリズムと強みまたは弱みによって作られたトレードオフを分析し、この重要な領域におけるベンチマークとアルゴリズム開発の両方を前進させる道を開く。

We present the findings of the first NeurIPS competition on unlearning, which sought to stimulate the development of novel algorithms and initiate discussions on formal and robust evaluation methodologies. The competition was highly successful: nearly 1,200 teams from across the world participated, and a wealth of novel, imaginative solutions with different characteristics were contributed. In this paper, we analyze top solutions and delve into discussions on benchmarking unlearning, which itself is a research problem. The evaluation methodology we developed for the competition measures forgetting quality according to a formal notion of unlearning, while incorporating model utility for a holistic evaluation. We analyze the effectiveness of different instantiations of this evaluation framework vis-a-vis the associated compute cost, and discuss implications for standardizing evaluation. We find that the ranking of leading methods remains stable under several variations of this framework, pointing to avenues for reducing the cost of evaluation. Overall, our findings indicate progress in unlearning, with top-performing competition entries surpassing existing algorithms under our evaluation framework. We analyze trade-offs made by different algorithms and strengths or weaknesses in terms of generalizability to new datasets, paving the way for advancing both benchmarking and algorithm development in this important area.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# 3M:ゲームイベント検出のためのマルチモーダルマルチタスクマルチ教師学習

3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection ( http://arxiv.org/abs/2406.09076v1 )

ライセンス: Link先を確認
Thye Shan Ng, Feiqi Cao, Soyeon Caren Han, (参考訳) Esportsはグローバルな現象として急速に発展し、YouTubeなどのプラットフォームを通じて視聴者が拡大している。 ゲームの本質的な複雑さの性質から、新参者がイベントが持つものを理解することは困難である。 オンラインチャットのカオス性、ゲームコメンテーターの速やかなスピーチ、ゲーム固有のユーザインターフェースは、ゲームプレイの理解の難しさをさらに複雑にしている。 これらの課題を克服するためには、プラットフォームからMulti-Modal(MM)情報を統合し、イベントを理解することが重要です。 本稿では,ゲーム状況の理解を深める包括的フレームワークを構築することを目的とした,MM多教師型ゲームイベント検出フレームワークを提案する。 従来のMMモデルは,一貫した目標に向けて,同時学習によるMMデータの整合を優先するが,本フレームワークでは,異なるタスクを個別に訓練した複数の教師を活用して,ゲームイベント検出を実現する。 この実験により,提案フレームワークの有効性が明らかとなった。

Esports has rapidly emerged as a global phenomenon with an ever-expanding audience via platforms, like YouTube. Due to the inherent complexity nature of the game, it is challenging for newcomers to comprehend what the event entails. The chaotic nature of online chat, the fast-paced speech of the game commentator, and the game-specific user interface further compound the difficulty for users in comprehending the gameplay. To overcome these challenges, it is crucial to integrate the Multi-Modal (MM) information from the platform and understand the event. The paper introduces a new MM multi-teacher-based game event detection framework, with the ultimate goal of constructing a comprehensive framework that enhances the comprehension of the ongoing game situation. While conventional MM models typically prioritise aligning MM data through concurrent training towards a unified objective, our framework leverages multiple teachers trained independently on different tasks to accomplish the Game Event Detection. The experiment clearly shows the effectiveness of the proposed MM multi-teacher framework.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# 対称性を考慮した神経逆流変換を用いた二次元相互作用格子電子の分光学的研究

Spectroscopy of two-dimensional interacting lattice electrons using symmetry-aware neural backflow transformations ( http://arxiv.org/abs/2406.09077v1 )

ライセンス: Link先を確認
Imelda Romero, Jannes Nys, Giuseppe Carleo, (参考訳) ニューラルネットワークは、フェルミオン系を含む量子多体系の基底状態を表す強力なツールであることが示されている。 本研究では,ニューラル・スレーター・バックフロー・ジャストロー波動関数のアンサーゼに格子対称性を埋め込むためのフレームワークを導入する。 ハミルトニアン対称性を捉えるために、群同変バックフロー変換を導入する。 半充填から離れた正方形格子上でのt-Vモデルの低エネルギー励起スペクトルについて検討し、我々の対称性を考慮した逆流が基底状態のエネルギーを著しく改善し、最大10×10の格子に対して正確な低エネルギー励起状態が得られることを示した。 さらに、2点密度相関関数と構造因子を計算し、位相遷移を検出し臨界点を決定する。 最後に,Vスコアを用いてモデルの変動精度を定量化する。

Neural networks have shown to be a powerful tool to represent ground state of quantum many-body systems, including for fermionic systems. In this work, we introduce a framework for embedding lattice symmetries in Neural Slater-Backflow-Jastrow wavefunction ansatzes, and demonstrate how our model allows us to target the ground state and low-lying excited states. To capture the Hamiltonian symmetries, we introduce group-equivariant backflow transformations. We study the low-energy excitation spectrum of the t-V model on a square lattice away from half-filling, and find that our symmetry-aware backflow significantly improves the ground-state energies, and yields accurate low-lying excited states for up to 10x10 lattices. We additionally compute the two-point density-correlation function and the structure factor to detect the phase transition and determine the critical point. Finally, we quantify the variational accuracy of our model using the V-score.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# 潜伏支援ネットワーク:RLにおける双曲的タンジェントの再発見

Latent Assistance Networks: Rediscovering Hyperbolic Tangents in RL ( http://arxiv.org/abs/2406.09079v1 )

ライセンス: Link先を確認
Jacob E. Kooi, Mark Hoogendoorn, Vincent François-Lavet, (参考訳) 活性化関数は、ニューラルネットワークの重要な構成要素の1つである。 最も一般的に使用される活性化関数は、連続的な微分可能(eg tanh)と線形単位関数(eg ReLU)のカテゴリに分類できる。 強化学習では、連続的な微分可能なアクティベーションの性能は、線形単位関数と比較して低下することが多い。 本論文は,最後の隠蔽層における活性化の観点から,この準最適性に関する知見を提供し,活性化機能が死んだ神経細胞の発生と有効ランクの大きさにどのように影響するかを考察する。 さらに、独立活性化値の積を利用する新しいニューラルアーキテクチャを提案する。 Atariドメインでは、学習の高速化、死んだ神経細胞の減少、効果的なランクの向上が示される。

Activation functions are one of the key components of a neural network. The most commonly used activation functions can be classed into the category of continuously differentiable (e.g. tanh) and linear-unit functions (e.g. ReLU), both having their own strengths and drawbacks with respect to downstream performance and representation capacity through learning (e.g. measured by the number of dead neurons and the effective rank). In reinforcement learning, the performance of continuously differentiable activations often falls short as compared to linear-unit functions. From the perspective of the activations in the last hidden layer, this paper provides insights regarding this sub-optimality and explores how activation functions influence the occurrence of dead neurons and the magnitude of the effective rank. Additionally, a novel neural architecture is proposed that leverages the product of independent activation values. In the Atari domain, we show faster learning, a reduction in dead neurons and increased effective rank.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# プラグインハイブリッド電気自動車におけるデータ駆動モデリングと監督制御システム最適化

Data-driven modeling and supervisory control system optimization for plug-in hybrid electric vehicles ( http://arxiv.org/abs/2406.09082v1 )

ライセンス: Link先を確認
Hao Zhang, Nuo Lei, Boli Chen, Bingbing Li, Rulong Li, Zhi Wang, (参考訳) プラグインハイブリッド電気自動車(PHEV)のための学習型インテリジェントエネルギー管理システムは,効率的なエネルギー利用の実現に不可欠である。 しかし、それらのアプリケーションは実際の世界でシステム信頼性の課題に直面しており、元の機器メーカー(OEM)が広く受け入れられることを防いでいる。 本稿では,高忠実度トレーニング環境に着目し,物理モデルとデータ駆動モデルに基づくPHEVモデルの構築から始める。 そこで本研究では,水平延長型強化学習(RL)に基づくエネルギー管理と等価消費最小化戦略(ECMS)を併用した実車用アプリケーション指向制御フレームワークを提案する。 最後に,アダプティブECMSとルールベースの戦略に対して,燃料経済における制御フレームワークの利点を示す総合シミュレーションとハードウェア・イン・ザ・ループ・バリデーションを行う。 パワートレインコンポーネントを直接制御する従来のRLアーキテクチャと比較して、提案手法は同様の最適性を達成するだけでなく、エネルギー管理システムの耐障害性を著しく向上させ、OEMによる実車への適用を目的としたRLベースのエネルギー管理戦略の効果的な制御フレームワークを提供する。

Learning-based intelligent energy management systems for plug-in hybrid electric vehicles (PHEVs) are crucial for achieving efficient energy utilization. However, their application faces system reliability challenges in the real world, which prevents widespread acceptance by original equipment manufacturers (OEMs). This paper begins by establishing a PHEV model based on physical and data-driven models, focusing on the high-fidelity training environment. It then proposes a real-vehicle application-oriented control framework, combining horizon-extended reinforcement learning (RL)-based energy management with the equivalent consumption minimization strategy (ECMS) to enhance practical applicability, and improves the flawed method of equivalent factor evaluation based on instantaneous driving cycle and powertrain states found in existing research. Finally, comprehensive simulation and hardware-in-the-loop validation are carried out which demonstrates the advantages of the proposed control framework in fuel economy over adaptive-ECMS and rule-based strategies. Compared to conventional RL architectures that directly control powertrain components, the proposed control method not only achieves similar optimality but also significantly enhances the disturbance resistance of the energy management system, providing an effective control framework for RL-based energy management strategies aimed at real-vehicle applications by OEMs.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# マルコフ拡散モデルに対する演算子インフォームドスコアマッチング

Operator-informed score matching for Markov diffusion models ( http://arxiv.org/abs/2406.09084v1 )

ライセンス: Link先を確認
Zheyang Shen, Chris J. Oates, (参考訳) 拡散モデルは一般にスコアマッチングを用いて訓練されるが、スコアマッチングはモデルを定義する特定のフォワードプロセスとは無関係である。 本稿では、マルコフ拡散モデルが他の種類の拡散モデルよりも有利であり、関連する演算子をトレーニングプロセスを改善するために利用することができることを論じる。 特に i) 時間に依存したカーネル平均埋め込みのシーケンスとして、フォワードプロセスに対する明示的な公式な解が存在すること。 (II)スコアマッチングと関連する推定器の導出を合理化することができる。 建築 (i)我々は、少なくとも低次元の文脈において、神経スコア近似の必要性を改善するリーマン拡散核平滑化(Riemannian diffusion kernel smoothing)を提案する。 本研究では,低次元と高次元の拡散モデルの両方で容易に実装できる分散還元手法である演算子インフォームドスコアマッチングを提案し,実証的な概念実証において,スコアマッチングを改善することを実証した。

Diffusion models are typically trained using score matching, yet score matching is agnostic to the particular forward process that defines the model. This paper argues that Markov diffusion models enjoy an advantage over other types of diffusion model, as their associated operators can be exploited to improve the training process. In particular, (i) there exists an explicit formal solution to the forward process as a sequence of time-dependent kernel mean embeddings; and (ii) the derivation of score-matching and related estimators can be streamlined. Building upon (i), we propose Riemannian diffusion kernel smoothing, which ameliorates the need for neural score approximation, at least in the low-dimensional context; Building upon (ii), we propose operator-informed score matching, a variance reduction technique that is straightforward to implement in both low- and high-dimensional diffusion modeling and is demonstrated to improve score matching in an empirical proof-of-concept.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# ソフトウェアシステムにおけるシンボリックコンピューティングの展望

A Symbolic Computing Perspective on Software Systems ( http://arxiv.org/abs/2406.09085v1 )

ライセンス: Link先を確認
Arthur C. Norman, Stephen M. Watt, (参考訳) シンボリック数学計算システムは、60年以上にわたって、ソフトウェアシステムの石炭鉱山の運河として機能してきた。 彼らは動的メモリ管理、任意の精度算術、依存型といったアイデアをプログラム言語に導入または導入してきた。 これらのシステムは、非常に複雑であると同時に、結果が明確に定義され、明確な検証が可能な領域で操作する特徴を持っている。 これらのソフトウェアシステムは、命令スケジューリングやキャッシュ圧力から、代数幾何学における構成のアルゴリズム的な複雑さまで、様々な抽象化層にまたがっている。 主要な記号的数理計算システムには、算術やメモリ管理などのプリミティブのための低レベルコード、bespokeプログラミング言語のコンパイラやインタプリタ、高レベルの数理アルゴリズムのライブラリ、ユーザインタフェースなどが含まれる。 これらの部品は、それぞれ複数の深い問題を発生させる。 アーキテクチャと数十年にわたるソフトウェアの移植性 * 受け入れと回避のためのインフラストラクチャ * 構築するベース抽象化の選択 * 小さなコードベースから最大限に活用する方法 * コードの最適化と検証を行うコンパイラの開発は、常に重要であり、多くの課題を抱えている。

Symbolic mathematical computing systems have served as a canary in the coal mine of software systems for more than sixty years. They have introduced or have been early adopters of programming language ideas such ideas as dynamic memory management, arbitrary precision arithmetic and dependent types. These systems have the feature of being highly complex while at the same time operating in a domain where results are well-defined and clearly verifiable. These software systems span multiple layers of abstraction with concerns ranging from instruction scheduling and cache pressure up to algorithmic complexity of constructions in algebraic geometry. All of the major symbolic mathematical computing systems include low-level code for arithmetic, memory management and other primitives, a compiler or interpreter for a bespoke programming language, a library of high level mathematical algorithms, and some form of user interface. Each of these parts invokes multiple deep issues. We present some lessons learned from this environment and free flowing opinions on topics including: * Portability of software across architectures and decades; * Infrastructure to embrace and infrastructure to avoid; * Choosing base abstractions upon which to build; * How to get the most out of a small code base; * How developments in compilers both to optimise and to validate code have always been and remain of critical importance, with plenty of remaining challenges; * The way in which individuals including in particular Alan Mycroft who has been able to span from hand-crafting Z80 machine code up to the most abstruse high level code analysis techniques are needed, and * Why it is important to teach full-stack thinking to the next generation.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# コンピュータビジョンにおける感性 : 予備調査

Suitability of KANs for Computer Vision: A preliminary investigation ( http://arxiv.org/abs/2406.09087v1 )

ライセンス: Link先を確認
Basim Azam, Naveed Akhtar, (参考訳) Kolmogorov-Arnold Networks(KAN)は、ニューラルネットワークの伝統的なノード中心のアクティベーションから切り離して、ネットワークのエッジで学習可能な関数を実装するニューラルネットワークのパラダイムを導入している。 本研究は,画像認識タスクに焦点をあて,視覚モデルにおけるkansの適用性と有効性を評価する。 我々は,従来の畳み込み層と線形層の構成要素とともに,感性の概念を用いて構築されたネットワークアーキテクチャの性能と効率を主に分析し,従来のモデルとの比較分析を可能にした。 本研究の目的は,コンピュータビジョンにおけるkansの可能性の理解に寄与することであり,その強みとさらなる研究の領域を明らかにすることである。 評価の結果,MNISTのような単純なビジョンデータセットでは,KANをベースとしたアーキテクチャが,CIFAR-10のようなより複雑なデータセットにおいても,パフォーマンスとモデル複雑性の要求に対してインラインで動作することが示唆された。

Kolmogorov-Arnold Networks (KANs) introduce a paradigm of neural modeling that implements learnable functions on the edges of the networks, diverging from the traditional node-centric activations in neural networks. This work assesses the applicability and efficacy of KANs in visual modeling, focusing on the image recognition task. We mainly analyze the performance and efficiency of different network architectures built using KAN concepts along with conventional building blocks of convolutional and linear layers, enabling a comparative analysis with the conventional models. Our findings are aimed at contributing to understanding the potential of KANs in computer vision, highlighting both their strengths and areas for further research. Our evaluation shows that whereas KAN-based architectures perform in-line with the original claims of KAN paper for performance and model-complexity in the case of simpler vision datasets like MNIST, the advantages seem to diminish even for slightly more complex datasets like CIFAR-10.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# DiffPoGAN:オフライン強化学習のためのジェネレーティブ・アドバイサル・ネットワークを用いた拡散政策

DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning ( http://arxiv.org/abs/2406.09089v1 )

ライセンス: Link先を確認
Xuemin Hu, Shen Li, Yingfen Xu, Bo Tang, Long Chen, (参考訳) オフライン強化学習(RL)は、環境と相互作用することなく、事前コンパイルされたオフラインデータセットから最適なポリシーを学習することができるが、エージェントのサンプリングされたアクションは、与えられた状態下でのアクション分布をカバーできないため、外挿エラーの問題が発生する。 近年の研究では、GAN(Generative Adversarial Network)を用いてこの問題に対処している。 しかし、これらの手法は、政策探索と行動方針の不正確な表現に関する不十分な制約に悩まされることが多い。 さらに、GANのジェネレータは、ポリシーの期待したリターンを最大化しながら、判別器を騙すことに失敗する。 強力な特徴表現性を持つ生成モデルである拡散に触発されて、生成逆ネットワーク(DiffPoGAN)を用いたDiffusion Policiesと呼ばれる新しいオフラインRL法を提案する。 このアプローチでは、拡散は行動の多様な分布を生成するためのポリシージェネレータとして機能し、最大極大推定(MLE)に基づく正規化手法を開発し、行動ポリシーの分布を近似するデータを生成する。 また、政策改善のための政策探索を効果的に制約するために、差別者出力に基づく追加の正規化項を導入する。 深層データ駆動強化学習(D4RL)のデータセットについて総合実験を行い、DiffPoGANがオフラインRLの最先端手法より優れていることを示す実験結果を得た。

Offline reinforcement learning (RL) can learn optimal policies from pre-collected offline datasets without interacting with the environment, but the sampled actions of the agent cannot often cover the action distribution under a given state, resulting in the extrapolation error issue. Recent works address this issue by employing generative adversarial networks (GANs). However, these methods often suffer from insufficient constraints on policy exploration and inaccurate representation of behavior policies. Moreover, the generator in GANs fails in fooling the discriminator while maximizing the expected returns of a policy. Inspired by the diffusion, a generative model with powerful feature expressiveness, we propose a new offline RL method named Diffusion Policies with Generative Adversarial Networks (DiffPoGAN). In this approach, the diffusion serves as the policy generator to generate diverse distributions of actions, and a regularization method based on maximum likelihood estimation (MLE) is developed to generate data that approximate the distribution of behavior policies. Besides, we introduce an additional regularization term based on the discriminator output to effectively constrain policy exploration for policy improvement. Comprehensive experiments are conducted on the datasets for deep data-driven reinforcement learning (D4RL), and experimental results show that DiffPoGAN outperforms state-of-the-art methods in offline RL.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# 分散位相参照量子鍵分布プロトコルのシミュレーション

Simulations of distributed-phase-reference quantum key distribution protocols ( http://arxiv.org/abs/2406.09091v1 )

ライセンス: Link先を確認
Venkat Abhignan, Abhishek Jamunkar, Gokul Nair, Mohit Mittal, Megha Shrivastava, (参考訳) 量子技術は、量子鍵分布を用いて暗号化目的のセキュアな通信を可能にする。 量子鍵配布プロトコルは、量子力学の法則によって保証されるセキュリティを持つ2人のユーザー間で秘密鍵を提供する。 特定の暗号プロトコルを用いて量子鍵配信システムの適切な実装を定義するためには、使用するコンポーネントの技術的制限により、デバイスの性能を重要かつ慎重に評価することが重要である。 ANSYSインターコネクションプラットフォーム上でシミュレーションを行い、分散位相参照プロトコルとコヒーレントワンウェイ量子鍵分布を用いて、これらのデバイスの実装を特徴付ける。 さらに, 盗難防止の試み, バックフラッシュ攻撃, トロイの木馬攻撃, 検出器盲検攻撃について, デバイス不完全性を利用した簡単な記述とシミュレーションを行った。

Quantum technology can enable secure communication for cryptography purposes using quantum key distribution. Quantum key distribution protocols provide a secret key between two users with security guaranteed by the laws of quantum mechanics. To define the proper implementation of a quantum key distribution system using a particular cryptography protocol, it is crucial to critically and meticulously assess the device's performance due to technological limitations in the components used. We perform simulations on the ANSYS Interconnect platform to characterise the practical implementation of these devices using distributed-phase-reference protocols differential-phase-shift and coherent-one-way quantum key distribution. Further, we briefly describe and simulate some possible eavesdropping attempts, backflash attack, trojan-horse attack and detector-blinding attack exploiting the device imperfections.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# テキスト生成のためのコントラスト学習による論理的比較関係のモデル化

Modeling Comparative Logical Relation with Contrastive Learning for Text Generation ( http://arxiv.org/abs/2406.09095v1 )

ライセンス: Link先を確認
Yuhao Dan, Junfeng Tian, Jie Zhou, Ming Yan, Ji Zhang, Qin Chen, Liang He, (参考訳) 古典的な自然言語生成問題であるData-to-Text Generation (D2T) は,テーブルなどの構造化された入力データに対して,流動的な記述を生成することを目的としている。 既存のD2Tは主に、エンティティ間の表面的な連想関係を記述することに焦点を当て、Aのような深い論理的関係を無視することは、私たちの日常生活において非常に一般的な、対応する意見を持つある面において、Bよりも優れている。 本稿では,比較論理関係生成(CLRG)と呼ばれる新しいD2Tタスクを提案する。 さらに,比較論理(CoLo)に基づくテキスト生成手法を提案する。 具体的には, 様々な正・負のサンプルを, 実体, 側面, 意見の微細な摂動によって構築する。 そこで,我々は,エンコーダ層において,比較論理関係をよりよく理解するためにコントラスト学習を行い,それをデコーダ層に統合してモデルを誘導し,関係を正しく生成する。 データ不足の問題に言及し、高品質な人間アノテーション付きデータセットである中国比較論理関係データセット(CLRD)を構築し、その比較論理関係について複数のエンティティやアノテーションを記述したテキスト生成に挑戦する。 大規模な実験により, 自動評価と人的評価の両方において, 優れた性能が得られた。

Data-to-Text Generation (D2T), a classic natural language generation problem, aims at producing fluent descriptions for structured input data, such as a table. Existing D2T works mainly focus on describing the superficial associative relations among entities, while ignoring the deep comparative logical relations, such as A is better than B in a certain aspect with a corresponding opinion, which is quite common in our daily life. In this paper, we introduce a new D2T task named comparative logical relation generation (CLRG). Additionally, we propose a Comparative Logic (CoLo) based text generation method, which generates texts following specific comparative logical relations with contrastive learning. Specifically, we first construct various positive and negative samples by fine-grained perturbations in entities, aspects and opinions. Then, we perform contrastive learning in the encoder layer to have a better understanding of the comparative logical relations, and integrate it in the decoder layer to guide the model to correctly generate the relations. Noting the data scarcity problem, we construct a Chinese Comparative Logical Relation Dataset (CLRD), which is a high-quality human-annotated dataset and challenging for text generation with descriptions of multiple entities and annotations on their comparative logical relations. Extensive experiments show that our method achieves impressive performance in both automatic and human evaluations.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# 一定導電率をもつ$N$$δ$-プレートのカシミールエネルギー

Casimir energy of $N$ $δ$-plates with constant conductivity ( http://arxiv.org/abs/2406.09096v1 )

ライセンス: Link先を確認
Venkat Abhignan, (参考訳) N$$\delta$関数プレートのカシミールエネルギーは、多重散乱パラメータ$\Delta$に依存する。 この$N$体間相互作用は、N-1$の分割とその置換に基づく近接散乱と隣り合う隣り合う隣りの散乱との2つの体間相互作用に分配された。 この手法を実装し,グラフェンに比例した一定導電率を有する多層板のカシミールエネルギーについて検討した。 また、完全な磁気伝導体と多重導電率$\delta$プレートの間のカシミール相互作用について検討し、ボイジャーの反発をもたらす。 理想的な境界条件に対する漸近極限では、多重散乱パラメータ $\Delta$ が近接散乱項のみからなる場合、結果は単純になる。

The Casimir energy for $N$ $\delta$-function plates depends on multiple scattering parameter $\Delta$. This $N$ body interaction was distributed into two body interactions with nearest neighbour scattering and next-to-nearest neighbour scattering based on partitions of $N-1$ and its permutations. Implementing this methodology, we investigate Casimir energy for multiple plates with constant conductivity relatable to Graphene. We also study Casimir interaction between a perfect magnetic conductor and multiple constant conductivity $\delta$ plates, which results in Boyer repulsion. In the asymptotic limit for ideal boundary conditions, the results become simple where multiple scattering parameter $\Delta$ consists only of nearest neighbour scattering term.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# SciKnowEval:大規模言語モデルの多段階科学的知識の評価

SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models ( http://arxiv.org/abs/2406.09098v1 )

ライセンス: Link先を確認
Kehua Feng, Keyan Ding, Weijie Wang, Xiang Zhuang, Zeyuan Wang, Ming Qin, Yu Zhao, Jianhua Yao, Qiang Zhang, Huajun Chen, (参考訳) 科学研究におけるLarge Language Models (LLM) の利用は、科学的知識の理解と応用を包括的に評価できる高度なベンチマークを必要とする。 SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの段階の科学的知識を体系的に評価する新しいフレームワークである。 これらのレベルは、LLMにおける科学知識の広さと深さを評価することを目的としており、知識カバレッジ、調査と探索能力、リフレクションと推論能力、倫理的および安全性の考慮、および練習の熟練度を含む。 具体的には、SciKnowEvalの2つの例として生物学と化学を取り上げ、50万の多段階の科学的問題と解を含むデータセットを構築した。 このデータセットを活用することで、ゼロショットと少数ショットのプロンプト戦略を使用して、20のオープンソースおよびプロプライエタリなLCMをベンチマークします。 その結果、最先端の性能を達成しているにもかかわらず、プロプライエタリなLLMには、特に科学計算や応用に対処するための十分な改善の余地があることが判明した。 我々はSciKnowEvalが科学研究と発見においてLLMをベンチマークするための包括的な標準を確立し、科学知識と強力な安全意識を統合するLLMの開発を促進することを期待する。 データセットとコードはhttps://github.com/hicai-zju/sciknoweval.comで公開されている。

The burgeoning utilization of Large Language Models (LLMs) in scientific research necessitates advanced benchmarks capable of evaluating their understanding and application of scientific knowledge comprehensively. To address this need, we introduce the SciKnowEval benchmark, a novel framework that systematically evaluates LLMs across five progressive levels of scientific knowledge: studying extensively, inquiring earnestly, thinking profoundly, discerning clearly, and practicing assiduously. These levels aim to assess the breadth and depth of scientific knowledge in LLMs, including knowledge coverage, inquiry and exploration capabilities, reflection and reasoning abilities, ethic and safety considerations, as well as practice proficiency. Specifically, we take biology and chemistry as the two instances of SciKnowEval and construct a dataset encompassing 50K multi-level scientific problems and solutions. By leveraging this dataset, we benchmark 20 leading open-source and proprietary LLMs using zero-shot and few-shot prompting strategies. The results reveal that despite achieving state-of-the-art performance, the proprietary LLMs still have considerable room for improvement, particularly in addressing scientific computations and applications. We anticipate that SciKnowEval will establish a comprehensive standard for benchmarking LLMs in science research and discovery, and promote the development of LLMs that integrate scientific knowledge with strong safety awareness. The dataset and code are publicly available at https://github.com/hicai-zju/sciknoweval .
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# 散逸性双極子結合スピン系における超輝度の発生

Emergence of superradiance in dissipative dipolar-coupled spin systems ( http://arxiv.org/abs/2406.09100v1 )

ライセンス: Link先を確認
Saptarshi Saha, Yeshma Ibrahim, Rangeet Bhattacharyya, (参考訳) 超放射能現象では、相互作用しない原子の集まりは、共通の放射場との相互作用による集団散逸を示し、非単調な崩壊プロファイルをもたらす。 この研究は、散逸性双極子カップリング系が、双極子カップリングの非分子部分によって支援される同一の集合散逸を示すことを示している。 スピンペア間の双極子相互作用が同一であると仮定した、単純化された双極子ネットワークを考える。 したがって、力学はブロック対角のヒルベルト空間に閉じ込められている。 初期条件を適切に選択するためには、結果のダイナミクスはより小さな部分空間を扱う必要があり、解析をより大きなスピンネットワークに拡張するのに役立つ。 非分子双極子緩和を含むためには、ゆらぎ制御された量子マスター方程式を用いる。 この系における超放射能の観測には弱い系-バス結合が必要であることに留意する。 さらに、Nスピンのアンサンブルでは、放射の最大強度がほぼ2次スケーリング(N^2)を示し、双極緩和時間は逆2乗比例(1/N^2)に従うことが判明した。 本結果は, 種々の系で実験的に観察された純スピン超放射能の標準結果とよく一致した。

In the superradiance phenomenon, a collection of non-interacting atoms exhibits collective dissipation due to interaction with a common radiation field, resulting in a non-monotonic decay profile. This work shows that dissipative dipolar-coupled systems exhibit an identical collective dissipation aided by the nonsecular part of the dipolar coupling. We consider a simplified dipolar network where the dipolar interaction between the spin-pairs is assumed to be identical. Hence the dynamics remain confined in the block diagonal Hilbert spaces. For a suitable choice of the initial condition, the resulting dynamics require dealing with a smaller subspace which helps extend the analysis to a larger spin network. To include the nonsecular dipolar relaxation, we use a fluctuation-regulated quantum master equation. We note that a successful observation of superradiance in this system requires a weak system-bath coupling. Moreover, we find that for an ensemble of N spins, the maximum intensity of the radiation exhibits a nearly quadratic scaling (N^2), and the dipolar relaxation time follows an inverse square proportionality (1/N^2); these two observations help characterize the emergence of superradiance. Our results agree well with the standard results of pure spin superradiance observed experimentally in various systems.
翻訳日:2024-06-14 17:54:00 公開日:2024-06-13
# CoT(Chain-of-Though)の医療的誤り検出・修正戦略

Chain-of-Though (CoT) prompting strategies for medical error detection and correction ( http://arxiv.org/abs/2406.09103v1 )

ライセンス: Link先を確認
Zhaolong Wu, Abul Hasan, Jinge Wu, Yunsoo Kim, Jason P. Y. Cheung, Teng Zhang, Honghan Wu, (参考訳) 本稿では,MEDIQA-CORR 2024共有課題に対する臨床ノートにおける医療ミスの自動検出と修正について述べる。 本報告では,Chain-of-Thought (CoT) を付加したマイクロショット・インコンテキスト・ラーニング (ICL) と,大規模言語モデル (LLM) を用いた推論の3つの手法について報告する。 第1の手法では,手動で列車と検証データセットのサブセットを分析し,臨床ノートのエラータイプを調べて3つのCoTプロンプトを推定する。 第2の手法では、トレーニングデータセットを利用してLCMにそれらの正確さや誤りの理由を推測する。 構築されたCoTと理由はICLの例で拡張され、エラー検出、スパン識別、エラー訂正のタスクが解決される。 最後に,ルールに基づくアンサンブル法を用いて2つの手法を組み合わせる。 3つのサブタスク全体で、我々のアンサンブル法はサブタスク1と2の両方で3位を獲得し、サブタスク3では7位を確保している。

This paper describes our submission to the MEDIQA-CORR 2024 shared task for automatically detecting and correcting medical errors in clinical notes. We report results for three methods of few-shot In-Context Learning (ICL) augmented with Chain-of-Thought (CoT) and reason prompts using a large language model (LLM). In the first method, we manually analyse a subset of train and validation dataset to infer three CoT prompts by examining error types in the clinical notes. In the second method, we utilise the training dataset to prompt the LLM to deduce reasons about their correctness or incorrectness. The constructed CoTs and reasons are then augmented with ICL examples to solve the tasks of error detection, span identification, and error correction. Finally, we combine the two methods using a rule-based ensemble method. Across the three sub-tasks, our ensemble method achieves a ranking of 3rd for both sub-task 1 and 2, while securing 7th place in sub-task 3 among all submissions.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# INS-MMBench:保険におけるLVLMの性能評価のための総合ベンチマーク

INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance ( http://arxiv.org/abs/2406.09105v1 )

ライセンス: Link先を確認
Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo, (参考訳) LVLM(Large Vision-Language Models)は、画像認識や視覚的推論など、様々な汎用マルチモーダルアプリケーションにおいて優れた性能を示しており、特殊領域において有望な可能性を示している。 しかし、豊富なアプリケーションシナリオと豊富なマルチモーダルデータによって特徴付けられる保険分野におけるLVLMの適用可能性については、効果的に検討されていない。 保険領域におけるマルチモーダルタスクの体系的なレビューや、保険におけるLVLMの能力を評価するためのベンチマークはない。 このギャップは、保険領域内のLVLMの開発を妨げる。 本稿では, 自動車保険, 不動産保険, 健康保険, 農業保険の4種類の代表的な保険について, マルチモーダルタスクを体系的に検討し, 蒸留する。 InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。 INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。 さらに、GPT-4oのようなクローズドソースモデルやBLIP-2のようなオープンソースモデルを含む複数の代表的なLVLMを評価した。 この評価は,我々のベンチマークの有効性を検証するだけでなく,保険領域における様々なマルチモーダルタスクにおける,現在のLVLMの詳細な性能解析も提供する。 我々は,INS-MMBenchが,保険分野におけるLVLMのさらなる適用を促進し,学際発展を促すことを願っている。 データセットと評価コードはhttps://github.com/FDU-INS/INS-MMBench.comで公開されています。

Large Vision-Language Models (LVLMs) have demonstrated outstanding performance in various general multimodal applications such as image recognition and visual reasoning, and have also shown promising potential in specialized domains. However, the application potential of LVLMs in the insurance domain-characterized by rich application scenarios and abundant multimodal data-has not been effectively explored. There is no systematic review of multimodal tasks in the insurance domain, nor a benchmark specifically designed to evaluate the capabilities of LVLMs in insurance. This gap hinders the development of LVLMs within the insurance domain. In this paper, we systematically review and distill multimodal tasks for four representative types of insurance: auto insurance, property insurance, health insurance, and agricultural insurance. We propose INS-MMBench, the first comprehensive LVLMs benchmark tailored for the insurance domain. INS-MMBench comprises a total of 2.2K thoroughly designed multiple-choice questions, covering 12 meta-tasks and 22 fundamental tasks. Furthermore, we evaluate multiple representative LVLMs, including closed-source models such as GPT-4o and open-source models like BLIP-2. This evaluation not only validates the effectiveness of our benchmark but also provides an in-depth performance analysis of current LVLMs on various multimodal tasks in the insurance domain. We hope that INS-MMBench will facilitate the further application of LVLMs in the insurance domain and inspire interdisciplinary development. Our dataset and evaluation code are available at https://github.com/FDU-INS/INS-MMBench.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# ワンウェイ関数からの量子情報伝達のための実用的プロトコル

A Practical Protocol for Quantum Oblivious Transfer from One-Way Functions ( http://arxiv.org/abs/2406.09110v1 )

ライセンス: Link先を確認
Eleni Diamanti, Alex B. Grilo, Adriano Innocenzi, Pascal Lefebvre, Verena Yacoub, Álvaro Yángüez, (参考訳) 平板モデルにおける一方向関数に基づく新しいシミュレーションセキュアな量子オブリバスト転送(QOT)プロトコルを提案する。 実践的な実装に焦点をあてて、我々のプロトコルは、実現可能な実験的実現を約束する、これまでの効率性に勝っている。 我々は、必要となる量子資源の分析を容易にする分析式を提供することにより、潜在的な実験誤差とその補正に対処する。 技術的には、等価かつ緩和可能な量子ビットコミットメントにより、QOTのシミュレーションセキュリティを実現する。

We present a new simulation-secure quantum oblivious transfer (QOT) protocol based on one-way functions in the plain model. With a focus on practical implementation, our protocol surpasses prior works in efficiency, promising feasible experimental realization. We address potential experimental errors and their correction, offering analytical expressions to facilitate the analysis of the required quantum resources. Technically, we achieve simulation security for QOT through an equivocal and relaxed-extractable quantum bit commitment.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# 一般化された量子テクスチュアリティの最適実証

Optimal demonstration of generalized quantum contextuality ( http://arxiv.org/abs/2406.09111v1 )

ライセンス: Link先を確認
Soumyabrata Hazra, Debashis Saha, Anubhav Chaturvedi, Subhankar Bera, A. S. Majumdar, (参考訳) 非文脈性の一般化された概念を満たす理論によって満たされる経験的基準の集合を見つけることは、操作的および基礎的重要性の両方において難しい課題である。 関連する非コンテキストポリトープからファセット不等式を導出する従来のアプローチは、計算的に要求される。 特に、非文脈ポリトープは2つのポリトープの積であり、1つは準備用、もう1つは測定用であり、前者の次元は測定数とともに多項式的に増加する。 本研究は、実際の非コンテクストポリトープを包含するポリトープを構築するための代替手法として、測定数や結果サイズに関わらず、準備に関連するポリトープの寸法が一定であることを保証する。 特に、このポリトープの面の不等式は、非文脈性に必要な条件である。 提案手法の有効性を実証するために,4~9準備と2~3測定を含む9つの異なる文脈性シナリオに適用し,それぞれの面の不等式を求める。 さらに、これらの不等式の最大量子違反を回収する。 我々の研究は、多くの新しい非自明な非文脈的不等式を発見し、量子文脈相関の興味深い側面と応用を明らかにしている。

Finding a set of empirical criteria fulfilled by any theory that satisfies the generalized notion of noncontextuality is a challenging task of both operational and foundational importance. The conventional approach of deriving facet inequalities from the relevant noncontextual polytope is computationally demanding. Specifically, the noncontextual polytope is a product of two polytopes, one for preparations and the other for measurements, and the dimension of the former typically increases polynomially with the number of measurements. This work presents an alternative methodology for constructing a polytope that encompasses the actual noncontextual polytope while ensuring that the dimension of the polytope associated with the preparations remains constant regardless of the number of measurements and their outcome size. In particular, the facet inequalities of this polytope serve as necessary conditions for noncontextuality. To demonstrate the efficacy of our methodology, we apply it to nine distinct contextuality scenarios involving four to nine preparations and two to three measurements to obtain the respective sets of facet inequalities. Additionally, we retrieve the maximum quantum violations of these inequalities. Our investigation uncovers many novel non-trivial noncontextuality inequalities and reveals intriguing aspects and applications of quantum contextual correlations.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# オープンセット画像分類手法の大規模評価

Large-Scale Evaluation of Open-Set Image Classification Techniques ( http://arxiv.org/abs/2406.09112v1 )

ライセンス: Link先を確認
Halil Bisgin, Andres Palechor, Mike Suter, Manuel Günther, (参考訳) 分類の目標は、ラベルを見えないサンプルに正しく割り当てることである。 しかし、ほとんどのメソッドはサンプルを目に見えないラベルで分類し、既知のクラスの1つに割り当てます。 Open-Set Classification (OSC)アルゴリズムは、クローズドとオープンセットの両方の認識能力を最大化することを目的としている。 近年の研究では、このようなアルゴリズムが小規模なデータセット上で有効であることが示されているが、実験が限定されているため、実世界の問題における性能評価は困難である。 本稿では,トレーニングベース (SoftMax, Garbage, EOS) や後処理手法 (Maximum SoftMax Scores, Maximum Logit Scores, OpenMax, EVM, PROSER) を含むOSCアルゴリズムの総合的な比較を行った。 我々は、実世界の課題を模倣する3つの大規模プロトコルの評価を行い、既知の、負のオープンセットサンプルをトレーニングし、既知の、未知のインスタンスをテストする。 以上の結果から,EOSは後処理アルゴリズムの性能向上に有効であることが示唆された。 特に、OpenMaxとPROSERは、より訓練されたネットワークを活用でき、ハイブリッドモデルの実用性を実証することができる。 しかし、ほとんどのアルゴリズムは負のテストサンプル -- トレーニング中に見られるオープンセットクラスのサンプル -- でうまく機能するが、以前は見つからなかった未知のクラスのサンプル、特に困難な状況でテストすると、パフォーマンスが低下する傾向にある。

The goal for classification is to correctly assign labels to unseen samples. However, most methods misclassify samples with unseen labels and assign them to one of the known classes. Open-Set Classification (OSC) algorithms aim to maximize both closed and open-set recognition capabilities. Recent studies showed the utility of such algorithms on small-scale data sets, but limited experimentation makes it difficult to assess their performances in real-world problems. Here, we provide a comprehensive comparison of various OSC algorithms, including training-based (SoftMax, Garbage, EOS) and post-processing methods (Maximum SoftMax Scores, Maximum Logit Scores, OpenMax, EVM, PROSER), the latter are applied on features from the former. We perform our evaluation on three large-scale protocols that mimic real-world challenges, where we train on known and negative open-set samples, and test on known and unknown instances. Our results show that EOS helps to improve performance of almost all post-processing algorithms. Particularly, OpenMax and PROSER are able to exploit better-trained networks, demonstrating the utility of hybrid models. However, while most algorithms work well on negative test samples -- samples of open-set classes seen during training -- they tend to perform poorly when tested on samples of previously unseen unknown classes, especially in challenging conditions.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# リンドブラッド力学の量子時空ポアンカレ不等式

Quantum space-time Poincaré inequality for Lindblad dynamics ( http://arxiv.org/abs/2406.09115v1 )

ライセンス: Link先を確認
Bowen Li, Jianfeng Lu, (参考訳) 原始低圧リンドブラッド力学の混合特性について検討する。 アンダーダム化ランゲヴィン力学のためにもともと開発された変分フレームワークを拡張することで、非可換な$L^2$-ノルムの収束に対する完全に明示的で建設的な指数的減衰推定を導出する。 我々の解析は、時空のポアンカー='{e}不等式の量子アナログを確立することに依存する。 これらの低圧推定を補完するために、リンドブラッド力学のスペクトルギャップの制限挙動をコヒーレントな寄与で解析し、この漸近的状態においてより鋭い収束率推定を提供する。 理論的結果の応用例として, 具体例をいくつか挙げる。

We investigate the mixing properties of primitive hypocoercive Lindblad dynamics. By extending the variational framework originally developed for underdamped Langevin dynamics, we derive fully explicit and constructive exponential decay estimates for the convergence in the noncommutative $L^2$-norm. Our analysis relies on establishing a quantum analog of space-time Poincar\'{e} inequalities. To complement these hypocoercive estimates, we also analyze the limiting behavior of the spectral gap for Lindblad dynamics with a large coherent contribution, providing sharper convergence rate estimates in this asymptotic regime. A number of concrete examples are provided as applications of our theoretical results.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# パラメトリック超曲面に対するインジェクティブフロー

Injective Flows for parametric hypersurfaces ( http://arxiv.org/abs/2406.09116v1 )

ライセンス: Link先を確認
Marcello Massimo Negri, Jonathan Aellen, Volker Roth, (参考訳) 正規化フロー(NF)は密度推定のための強力で効率的なモデルである。 多様体上の密度をモデル化する場合、NFは射影流に一般化できるが、ヤコビ行列式は計算的に禁じられる。 現在のアプローチでは、ログのような境界を考えるか、ジャコビアン行列式の近似に依存する。 対照的に、パラメトリック超曲面に対する射影流を提案し、そのような多様体に対して、NFsと同じコストでジャコビアン行列式を正確に効率的に計算できることを示す。 さらに、星状多様体のサブクラスに対して、提案されたフレームワークを拡張して、常に密度のカルテシアン表現を許すことを示す。 2つの設定で超曲面上の密度のモデル化の妥当性を示す。 まず、ペナルティのレベルセットを星型多様体として解釈することで、ペナルティ化された可能性モデルに対する新しい客観的ベイズ的アプローチを導入する。 第二に、ベイズ混合モデルについて考察し、確率的単純度に基づいて混合重みの後方を定義することによって、変分推論の一般的な方法を提案する。

Normalizing Flows (NFs) are powerful and efficient models for density estimation. When modeling densities on manifolds, NFs can be generalized to injective flows but the Jacobian determinant becomes computationally prohibitive. Current approaches either consider bounds on the log-likelihood or rely on some approximations of the Jacobian determinant. In contrast, we propose injective flows for parametric hypersurfaces and show that for such manifolds we can compute the Jacobian determinant exactly and efficiently, with the same cost as NFs. Furthermore, we show that for the subclass of star-like manifolds we can extend the proposed framework to always allow for a Cartesian representation of the density. We showcase the relevance of modeling densities on hypersurfaces in two settings. Firstly, we introduce a novel Objective Bayesian approach to penalized likelihood models by interpreting level-sets of the penalty as star-like manifolds. Secondly, we consider Bayesian mixture models and introduce a general method for variational inference by defining the posterior of mixture weights on the probability simplex.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# PC-LoRA:知識蒸留によるプログレッシブモデル圧縮のための低ランク適応

PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation ( http://arxiv.org/abs/2406.09117v1 )

ライセンス: Link先を確認
Injoon Hwang, Haewon Park, Youngwan Lee, Jooyoung Yang, SunJae Maeng, (参考訳) 低ランク適応(LoRA)は、パラメータ効率の良い微調整のために、凍結した事前学習された重みに少数の学習可能なパラメータを追加する顕著な方法である。 本稿では,ローランク適応(LoRA)を用いてモデル圧縮と微調整を同時に行うプログレッシブ圧縮LoRA~(PC-LoRA)を紹介する。 PC-LoRA法は、トレーニングプロセス中にトレーニング済みの重みを徐々に除去し、最終的には低ランクのアダプタのみを最後に残す。 したがって、これらの低ランクアダプタは、事前訓練された重量全体を置き換え、圧縮と微調整の目標を同時に達成する。 PC-LoRAは、視覚モデルでは94.36%/89.1%、言語モデルでは93.42%/84.2%、言語モデルでは93.42%/84.2%である。

Low-rank adaption (LoRA) is a prominent method that adds a small number of learnable parameters to the frozen pre-trained weights for parameter-efficient fine-tuning. Prompted by the question, ``Can we make its representation enough with LoRA weights solely at the final phase of finetuning without the pre-trained weights?'' In this work, we introduce Progressive Compression LoRA~(PC-LoRA), which utilizes low-rank adaptation (LoRA) to simultaneously perform model compression and fine-tuning. The PC-LoRA method gradually removes the pre-trained weights during the training process, eventually leaving only the low-rank adapters in the end. Thus, these low-rank adapters replace the whole pre-trained weights, achieving the goals of compression and fine-tuning at the same time. Empirical analysis across various models demonstrates that PC-LoRA achieves parameter and FLOPs compression rates of 94.36%/89.1% for vision models, e.g., ViT-B, and 93.42%/84.2% parameters and FLOPs compressions for language models, e.g., BERT.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# MMRel:MLLM時代のデータセットとベンチマークの関連性

MMRel: A Relation Understanding Dataset and Benchmark in the MLLM Era ( http://arxiv.org/abs/2406.09121v1 )

ライセンス: Link先を確認
Jiahao Nie, Gongjie Zhang, Wenbin An, Yap-Peng Tan, Alex C. Kot, Shijian Lu, (参考訳) MLLM(Multi-modal Large Language Models)の最近の進歩にもかかわらず、オブジェクト間の関係、すなわち異なるオブジェクト間の相互作用や関連を理解することは、そのようなモデルにとって大きな課題である。 この問題は彼らの高度な推論能力を著しく損なうものであり、主にMLLMの訓練と評価に不可欠な大規模で高品質で多様なマルチモーダルデータがないためである。 本稿では、オブジェクト間関係の分類法を提供し、MLLMとオブジェクト間関係を研究するための大規模で高品質で多様なデータを提供することにより、このギャップを橋渡しする包括的データセットであるマルチモーダル関係理解(MMRel)を導入する。 MMRelには3つの特徴がある。 (i)3つの異なる領域から派生した15万以上の質問応答対を含み、大規模かつ高い多様性を確保すること。 二 極めて特異な関係を特徴とする部分集合であって、MLLMは幻覚のためにしばしば失敗するので、非常に困難である。 三 オブジェクト間関係について、手作業で検証された高品質なラベルを提供する。 これらの特徴により、MMRelは、関係理解に基づくMLLMの評価や、関係理解を強化するためにMLLMの微調整に使われ、また様々な視覚言語タスクにおける全体的なパフォーマンスの恩恵を受けるのに最適である。 MLLMの多種多様な実験により, MMRelの有効性が検証された。 MMRelデータセットと完全なラベリングスクリプトの両方が公開されている。

Despite the recent advancements in Multi-modal Large Language Models (MLLMs), understanding inter-object relations, i.e., interactions or associations between distinct objects, remains a major challenge for such models. This issue significantly hinders their advanced reasoning capabilities and is primarily due to the lack of large-scale, high-quality, and diverse multi-modal data essential for training and evaluating MLLMs. In this paper, we provide a taxonomy of inter-object relations and introduce Multi-Modal Relation Understanding (MMRel), a comprehensive dataset designed to bridge this gap by providing large-scale, high-quality and diverse data for studying inter-object relations with MLLMs. MMRel features three distinctive attributes: (i) It includes over 15K question-answer pairs, which are sourced from three distinct domains, ensuring large scale and high diversity; (ii) It contains a subset featuring highly unusual relations, on which MLLMs often fail due to hallucinations, thus are very challenging; (iii) It provides manually verified high-quality labels for inter-object relations. Thanks to these features, MMRel is ideal for evaluating MLLMs on relation understanding, as well as being used to fine-tune MLLMs to enhance relation understanding and even benefit overall performance in various vision-language tasks. Extensive experiments on various popular MLLMs validate the effectiveness of MMRel. Both MMRel dataset and the complete labeling scripts have been made publicly available.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# LiDAR点に対するオートボキャブラリセグメンテーション

Auto-Vocabulary Segmentation for LiDAR Points ( http://arxiv.org/abs/2406.09126v1 )

ライセンス: Link先を確認
Weijie Wei, Osman Ülger, Fatemeh Karimi Najadasl, Theo Gevers, Martin R. Oswald, (参考訳) 既存の自動運転の認識手法は、トレーニングデータに含まれていない未知の物体を認識するには不十分である。 Open-vocabularyメソッドは、任意のオブジェクトを検知する有望な機能を提供するが、ターゲットクラスを表すユーザが指定したクエリによって制限される。 自動オブジェクトクラス認識とオープンなセグメンテーションのためのフレームワークであるAutoVoc3Dを提案する。 nuScenesの評価では、AutoVoc3Dが正確なセマンティッククラスと正確なポイントワイドセグメンテーションを生成する能力を示している。 さらに,テキスト・ポイント・セマンティック・類似性(Text-Point Semantic similarity)を導入し,テキストとポイント・クラウドのセマンティック・類似性を評価する。

Existing perception methods for autonomous driving fall short of recognizing unknown entities not covered in the training data. Open-vocabulary methods offer promising capabilities in detecting any object but are limited by user-specified queries representing target classes. We propose AutoVoc3D, a framework for automatic object class recognition and open-ended segmentation. Evaluation on nuScenes showcases AutoVoc3D's ability to generate precise semantic classes and accurate point-wise segmentation. Moreover, we introduce Text-Point Semantic Similarity, a new metric to assess the semantic similarity between text and point cloud without eliminating novel classes.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# 沿岸科学文献における複数学際的用語抽出コーパス

CoastTerm: a Corpus for Multidisciplinary Term Extraction in Coastal Scientific Literature ( http://arxiv.org/abs/2406.09128v1 )

ライセンス: Link先を確認
Julien Delaunay, Hanh Thi Hong Tran, Carlos-Emiliano González-Gallardo, Georgeta Bordea, Mathilde Ducos, Nicolas Sidere, Antoine Doucet, Senja Pollak, Olivier De Viron, (参考訳) 気候変動が沿岸地域、特に活動的だが脆弱な地域に与える影響は、効果的な環境保護政策を定式化するために、多様な利害関係者と規律の協力を必要としている。 本研究では,沿岸域に関する410の科学的要約から2,491文の専門コーパスを導入し,自動用語抽出(ATE)タスクと分類(ATC)タスクについて紹介する。 アクター,資源,ダイナミクス,インタラクションの識別に焦点をあてたARDIフレームワークに着想を得て,単言語および多言語トランスフォーマーモデルを用いて,沿岸システムの機能におけるドメイン用語とその役割を自動抽出する。 評価は、自動項抽出のF1スコアが約80%、項抽出のF1スコアが70%、ラベル抽出のF1スコアが一貫した結果を示す。 これらの発見は、沿岸地域に特化した専門知識ベースの開発に向けた最初の一歩であり、有望である。

The growing impact of climate change on coastal areas, particularly active but fragile regions, necessitates collaboration among diverse stakeholders and disciplines to formulate effective environmental protection policies. We introduce a novel specialized corpus comprising 2,491 sentences from 410 scientific abstracts concerning coastal areas, for the Automatic Term Extraction (ATE) and Classification (ATC) tasks. Inspired by the ARDI framework, focused on the identification of Actors, Resources, Dynamics and Interactions, we automatically extract domain terms and their distinct roles in the functioning of coastal systems by leveraging monolingual and multilingual transformer models. The evaluation demonstrates consistent results, achieving an F1 score of approximately 80\% for automated term extraction and F1 of 70\% for extracting terms and their labels. These findings are promising and signify an initial step towards the development of a specialized Knowledge Base dedicated to coastal areas.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# 不変学習を用いたアウト・オブ・ディストリビューション一般化のための時系列予測

Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning ( http://arxiv.org/abs/2406.09130v1 )

ライセンス: Link先を確認
Haoxin Liu, Harshavardhan Kamarthi, Lingkai Kong, Zhiyuan Zhao, Chao Zhang, B. Aditya Prakash, (参考訳) 時系列予測(TSF)は、現実世界のシナリオにおいて幅広い応用を見出す。 時系列データの動的な性質から、過去のトレーニングデータと将来のテストデータが異なる分布を持つため、アウト・オブ・ディストリビューション(OOD)の一般化能力を備えたTSFモデルを装備することが重要である。 本稿では,TSFにおける固有のOOD問題を不変学習を用いて緩和することを目的とする。 TSFにおける不変学習の基本課題を明らかにする。 第一に、TSFのターゲット変数は、TSFの観測されていないコア変数による入力によって十分に決定されない可能性があり、従来の不変学習の仮定を破る。 第2に、時系列データセットは適切な環境ラベルを欠いているが、既存の環境推論手法はTLFには適していない。 これらの課題に対処するために、不変学習によるアウト・オブ・ディストリビューションの一般化のための時系列予測を可能にするモデルに依存しないフレームワークFOILを提案する。 FOILは、観測されていない変数の影響を軽減するために、新しい代理損失を用いる。 さらに、FOILは、時間的隣接構造を保ちつつ、マルチヘッドネットワークで環境を効果的に推論し、OOD一般化TSFの推論環境全体にわたる不変表現を学習することにより、共同最適化を実現する。 提案するFOILは,様々なTSFモデルの性能を著しく向上し,最大85%のゲインを達成できることを示す。

Time-series forecasting (TSF) finds broad applications in real-world scenarios. Due to the dynamic nature of time-series data, it is crucial to equip TSF models with out-of-distribution (OOD) generalization abilities, as historical training data and future test data can have different distributions. In this paper, we aim to alleviate the inherent OOD problem in TSF via invariant learning. We identify fundamental challenges of invariant learning for TSF. First, the target variables in TSF may not be sufficiently determined by the input due to unobserved core variables in TSF, breaking the conventional assumption of invariant learning. Second, time-series datasets lack adequate environment labels, while existing environmental inference methods are not suitable for TSF. To address these challenges, we propose FOIL, a model-agnostic framework that enables timeseries Forecasting for Out-of-distribution generalization via Invariant Learning. FOIL employs a novel surrogate loss to mitigate the impact of unobserved variables. Further, FOIL implements a joint optimization by alternately inferring environments effectively with a multi-head network while preserving the temporal adjacency structure, and learning invariant representations across inferred environments for OOD generalized TSF. We demonstrate that the proposed FOIL significantly improves the performance of various TSF models, achieving gains of up to 85%.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# OLGA: 1-cLassグラフオートエンコーダ

OLGA: One-cLass Graph Autoencoder ( http://arxiv.org/abs/2406.09131v1 )

ライセンス: Link先を確認
M. P. S. Gôlo, J. G. B. M. Junior, D. F. Silva, R. M. Marcacini, (参考訳) ワンクラスラーニング(英: One-class learning、OCL)は、現実世界の問題に1つの関心のクラスがある場合に適用される一連のテクニックである。 OCLの通常の手順は、このクラスのインスタンスを含むハイパースフィアを学習し、理想的には、他のクラスから見えないインスタンスを再現する。 さらに、グラフ表現学習が様々な分野で成功して以来、グラフのためのOCLアルゴリズムがいくつか提案されている。 これらのメソッドは、最初はグラフを表現し、2番目のステップでノードを分類する2段階の戦略を使用することができる。 一方、エンドツーエンドの手法では、ノードを1つの学習プロセスで分類しながらノード表現を学習する。 グラフのOCLに関する文献の3つの主要なギャップを強調します。 i) OCLの非カスタマイズ表現 (II)ハイパースフィアパラメータ学習における制約の欠如 (三)解釈可能性の欠如及び可視化。 本稿では,One-cLass Graph Autoencoder (OLGA)を提案する。 OLGAはエンドツーエンドであり、2つの損失関数を組み合わせることで、関心のインスタンスをカプセル化しながらグラフノードの表現を学習する。 そこで本研究では,関心事をカプセル化するハイパースフィアロス関数を提案する。 OLGAは、この新たなハイパースフィアロスとグラフオートエンコーダ再構築損失を組み合わせて、モデル学習を改善する。 OLGAは最先端の結果を達成し、5つの手法と統計的に有意な差がある他の6つの手法よりも優れていた。 さらに、OLGAは、解釈可能なモデル表現学習と結果を用いて分類性能を維持する低次元表現を学習する。

One-class learning (OCL) comprises a set of techniques applied when real-world problems have a single class of interest. The usual procedure for OCL is learning a hypersphere that comprises instances of this class and, ideally, repels unseen instances from any other classes. Besides, several OCL algorithms for graphs have been proposed since graph representation learning has succeeded in various fields. These methods may use a two-step strategy, initially representing the graph and, in a second step, classifying its nodes. On the other hand, end-to-end methods learn the node representations while classifying the nodes in one learning process. We highlight three main gaps in the literature on OCL for graphs: (i) non-customized representations for OCL; (ii) the lack of constraints on hypersphere parameters learning; and (iii) the methods' lack of interpretability and visualization. We propose One-cLass Graph Autoencoder (OLGA). OLGA is end-to-end and learns the representations for the graph nodes while encapsulating the interest instances by combining two loss functions. We propose a new hypersphere loss function to encapsulate the interest instances. OLGA combines this new hypersphere loss with the graph autoencoder reconstruction loss to improve model learning. OLGA achieved state-of-the-art results and outperformed six other methods with a statistically significant difference from five methods. Moreover, OLGA learns low-dimensional representations maintaining the classification performance with an interpretable model representation learning and results.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# ヤコビアン強化ニューラルネットワーク

Jacobian-Enhanced Neural Networks ( http://arxiv.org/abs/2406.09132v1 )

ライセンス: Link先を確認
Steven H. Berguin, (参考訳) ヤコビアン強化ニューラルネットワーク(JENN)は密結合された多層パーセプトロンであり、そのトレーニングプロセスは偏微分を正確に予測するために修正される。 その主な利点は、標準のニューラルネットワークに比べてトレーニングポイントが少なくて精度が良いことだ。 これらの特性はコンピュータ支援設計の分野において特に望ましいものであり、計算コストのかかる物理モデルにサロゲートモデルやメタモデルとして知られる高速な近似を置き換える必要性がしばしばある。 シュロゲートは元のモデルをほぼリアルタイムで正確にエミュレートするため、より高速な関数呼び出しの順序付けに使用できる速度の利点が得られる。 しかし、勾配拡大法の特殊な場合、部分微分が正確であるという付加価値命題があり、これは1つの重要なユースケースにとって重要な性質である。 この研究は完全理論を導出し、サロゲートに基づく最適化のための標準ニューラルネットよりも優位性を実証する。

Jacobian-Enhanced Neural Networks (JENN) are densely connected multi-layer perceptrons, whose training process is modified to predict partial derivatives accurately. Their main benefit is better accuracy with fewer training points compared to standard neural networks. These attributes are particularly desirable in the field of computer-aided design, where there is often the need to replace computationally expensive, physics-based models with fast running approximations, known as surrogate models or meta-models. Since a surrogate emulates the original model accurately in near-real time, it yields a speed benefit that can be used to carry out orders of magnitude more function calls quickly. However, in the special case of gradient-enhanced methods, there is the additional value proposition that partial derivatives are accurate, which is a critical property for one important use-case: surrogate-based optimization. This work derives the complete theory and exemplifies its superiority over standard neural nets for surrogate-based optimization.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# RH-SQL: テキストからSQLへの変換スキーマとハードネスプロンプト

RH-SQL: Refined Schema and Hardness Prompt for Text-to-SQL ( http://arxiv.org/abs/2406.09133v1 )

ライセンス: Link先を確認
Jiawen Yi, Guo Chen, Zixiang Shen, (参考訳) Text-to-SQLは、自然言語クエリを構造化クエリ言語SQLに変換する技術である。 最近注目された新しい研究アプローチは、SQLクエリの複雑さに基づいたメソッドに焦点を当て、注目すべきパフォーマンス改善を実現している。 しかし、既存の手法ではストレージとトレーニングにかなりのコストがかかるため、実用性を損なうことになる。 この問題に対処するために,Refined Schema と Hardness Prompt に基づく Text-to-SQL の手法を提案する。 低関連スキーマ情報を洗練されたスキーマでフィルタリングし、言語モデル(LM)を通してクエリの難易度を特定してプロンプトを形成することにより、性能を維持しながら、ストレージとトレーニングコストを削減できる。 この方法は、任意のシーケンス・ツー・シーケンス(seq2seq) LMに適用可能であることに注意してください。 スパイダーデータセットに関する実験は、特に大規模なLMを用いて、82.6%の例外的実行精度(EX)を達成し、実世界の応用における我々の方法の有効性と適合性を実証した。

Text-to-SQL is a technology that converts natural language queries into the structured query language SQL. A novel research approach that has recently gained attention focuses on methods based on the complexity of SQL queries, achieving notable performance improvements. However, existing methods entail significant storage and training costs, which hampers their practical application. To address this issue, this paper introduces a method for Text-to-SQL based on Refined Schema and Hardness Prompt. By filtering out low-relevance schema information with a refined schema and identifying query hardness through a Language Model (LM) to form prompts, this method reduces storage and training costs while maintaining performance. It's worth mentioning that this method is applicable to any sequence-to-sequence (seq2seq) LM. Our experiments on the Spider dataset, specifically with large-scale LMs, achieved an exceptional Execution accuracy (EX) of 82.6%, demonstrating the effectiveness and greater suitability of our method for real-world applications.
翻訳日:2024-06-14 17:44:14 公開日:2024-06-13
# AdaRevD: 可逆デコーダを出力するアダプティブパッチ

AdaRevD: Adaptive Patch Exiting Reversible Decoder Pushes the Limit of Image Deblurring ( http://arxiv.org/abs/2406.09135v1 )

ライセンス: Link先を確認
Xintian Mao, Qingli Li, Yan Wang, (参考訳) 画像デブロアリングの有効性を向上する最近の進歩にもかかわらず、制限された復号化能力はState-Of-The-Art(SOTA)法の上限を制限している。 本稿では,AdaRevD (Adaptive Patch Exiting Reversible Decoder) の先駆的手法を提案する。 十分に訓練されたエンコーダの重みを継承することにより、単一デコーダのトレーニングをスケールアップし、GPUメモリに優しいマルチデコーダのトレーニングに拡大する可逆デコーダをリファクタリングする。 一方, 可逆構造は, 高次劣化度と低次ぼかしパターン(ぼかし画像とそのシャープ画像の残差)を, コンパクトな劣化表現から徐々に切り離すことを示す。 さらに、空間的に変化する運動ぼけカーネルのため、異なるぼやけのパッチは様々な難易度を有する。 さらに、画像パッチの劣化度を学習するための分類器を導入し、異なるサブデコーダから退避してスピードアップを行う。 実験の結果、AdaRevDはGoProデータセット上でPSNRで34.60dBを達成した画像劣化の限界を押し上げます。

Despite the recent progress in enhancing the efficacy of image deblurring, the limited decoding capability constrains the upper limit of State-Of-The-Art (SOTA) methods. This paper proposes a pioneering work, Adaptive Patch Exiting Reversible Decoder (AdaRevD), to explore their insufficient decoding capability. By inheriting the weights of the well-trained encoder, we refactor a reversible decoder which scales up the single-decoder training to multi-decoder training while remaining GPU memory-friendly. Meanwhile, we show that our reversible structure gradually disentangles high-level degradation degree and low-level blur pattern (residual of the blur image and its sharp counterpart) from compact degradation representation. Besides, due to the spatially-variant motion blur kernels, different blur patches have various deblurring difficulties. We further introduce a classifier to learn the degradation degree of image patches, enabling them to exit at different sub-decoders for speedup. Experiments show that our AdaRevD pushes the limit of image deblurring, e.g., achieving 34.60 dB in PSNR on GoPro dataset.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# 選好最適化の連鎖:LLMにおけるチェーン・オブ・ソート推論の改善

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs ( http://arxiv.org/abs/2406.09136v1 )

ライセンス: Link先を確認
Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin, (参考訳) 近年のチェーン・オブ・ソート(CoT)デコーディングにより、大規模言語モデル(LLM)は複雑な問題解決のための論理的推論経路を明示的に生成できるようになった。 しかし、研究はこれらの経路が必ずしも故意で最適であるとは限らないことを示唆している。 ツリー・オブ・シント (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路を見出す。 しかし、この議論は推論の複雑さを大幅に増大させるコストが伴う。 本研究では,ToT が構築した探索木を利用した微調整 LLM により,CoT が類似あるいは良好な性能を達成できることを示す。 これは、CPO(Chain of Preference Optimization)によって実現され、木探索プロセスにおいて固有の嗜好情報を用いて、COT推論パスの各ステップをToTのステップと整列するように、LLMを微調整する。 CPOは,質問応答,事実検証,算術的推論など,様々な複雑な問題の解法において,LLMの性能を著しく向上することを示す。 私たちのコードはhttps://github.com/sail-sg/CPO.comで公開されています。

The recent development of chain-of-thought (CoT) decoding has enabled large language models (LLMs) to generate explicit logical reasoning paths for complex problem-solving. However, research indicates that these paths are not always deliberate and optimal. The tree-of-thought (ToT) method employs tree-searching to extensively explore the reasoning space and find better reasoning paths that CoT decoding might overlook. This deliberation, however, comes at the cost of significantly increased inference complexity. In this work, we demonstrate that fine-tuning LLMs leveraging the search tree constructed by ToT allows CoT to achieve similar or better performance, thereby avoiding the substantial inference burden. This is achieved through Chain of Preference Optimization (CPO), where LLMs are fine-tuned to align each step of the CoT reasoning paths with those of ToT using the inherent preference information in the tree-search process. Extensive experimental results show that CPO significantly improves LLM performance in solving a variety of complex problems, including question answering, fact verification, and arithmetic reasoning, demonstrating its effectiveness. Our code is available at https://github.com/sail-sg/CPO.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# サブ線形更新時間における動的相関クラスタリング

Dynamic Correlation Clustering in Sublinear Update Time ( http://arxiv.org/abs/2406.09137v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Silvio Lattanzi, Andreas Maggiori, Nikos Parotsidis, (参考訳) 動的ノードストリームにおける相関クラスタリングの古典的問題について検討する。 この設定では、ノードは時間とともに追加またはランダムに削除され、各ノードペアは正または負のエッジで接続される。 目的は、クラスタを横断する正のエッジとクラスタ内の負のエッジの合計を最小化するパーティションを継続的に見つけることである。 我々は,$O(1)$-approximationを$O$(polylog $n$)アモートした更新時間で維持するアルゴリズムを提案する。 私たちの研究に先立ち、Behnezhad氏、Charikar氏、Ma氏、L. Tan氏は、エッジストリームの予測更新時間として$O(1)$$を5ドルで達成しました。 最後に、実世界のデータに関する実験で理論解析を補完する。

We study the classic problem of correlation clustering in dynamic node streams. In this setting, nodes are either added or randomly deleted over time, and each node pair is connected by a positive or negative edge. The objective is to continuously find a partition which minimizes the sum of positive edges crossing clusters and negative edges within clusters. We present an algorithm that maintains an $O(1)$-approximation with $O$(polylog $n$) amortized update time. Prior to our work, Behnezhad, Charikar, Ma, and L. Tan achieved a $5$-approximation with $O(1)$ expected update time in edge streams which translates in node streams to an $O(D)$-update time where $D$ is the maximum possible degree. Finally we complement our theoretical analysis with experiments on real world data.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# Commonsense-Augmented Dialogue Modelにおける推論統合のための明示的推論の活用

Leveraging Explicit Reasoning for Inference Integration in Commonsense-Augmented Dialogue Models ( http://arxiv.org/abs/2406.09138v1 )

ライセンス: Link先を確認
Sarah E. Finch, Jinho D. Choi, (参考訳) オープンドメイン対話システムは、人間のユーザに対して効果的に理解し、応答するために、社会的常識を理解する必要がある。 対話文脈から常識知識を推定し,応答品質を向上させることを目的とした対話モデルが提案されている。 しかし、既存のコモンセンス拡張ダイアログへのアプローチは、応答生成中にコモンセンス推論を統合する暗黙の推論に依存している。 本研究では,対話応答生成におけるコモンセンスに対する暗黙的推論に対する明示的推論の影響について検討する。 本研究は,コモンセンス推論を反応生成,選択,統合するための明示的なステップに分割することで,対話の対話性の向上,自然性,エンゲージメント,特異性,全体的な品質の向上につながることを示した。 これらの結果から,各種コモンセンスの応答生成における有効性や,コモンセンス統合の明示的推論によって強化された特定の応答特性に関する知見が得られた。 本研究は,コモンセンス強化応答生成における新しい最先端技術の実現により,オープンドメイン対話の研究を進める。

Open-domain dialogue systems need to grasp social commonsense to understand and respond effectively to human users. Commonsense-augmented dialogue models have been proposed that aim to infer commonsense knowledge from dialogue contexts in order to improve response quality. However, existing approaches to commonsense-augmented dialogue rely on implicit reasoning to integrate commonsense inferences during response generation. In this study, we explore the impact of explicit reasoning against implicit reasoning over commonsense for dialogue response generation. Our findings demonstrate that separating commonsense reasoning into explicit steps for generating, selecting, and integrating commonsense into responses leads to better dialogue interactions, improving naturalness, engagement, specificity, and overall quality. Subsequent analyses of these findings unveil insights into the effectiveness of various types of commonsense in generating responses and the particular response traits enhanced through explicit reasoning for commonsense integration. Our work advances research in open-domain dialogue by achieving a new state-of-the-art in commonsense-augmented response generation.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# 並列データのみを訓練した大規模言語モデルの翻訳能力の検討

Investigating the translation capabilities of Large Language Models trained on parallel data only ( http://arxiv.org/abs/2406.09140v1 )

ライセンス: Link先を確認
Javier García Gilabert, Carlos Escolano, Aleix Sant Savall, Francesca De Luca Fornaciari, Audrey Mash, Xixian Liao, Maite Melero, (参考訳) 近年、Large Language Models (LLMs) は、機械翻訳を含む幅広い自然言語処理(NLP)タスクにおいて、例外的な習熟度を示している。 しかし、従来の手法は命令の微調整や連続的な事前訓練といった反復的なプロセスに大きく依存しており、LLMを並列データのみにトレーニングするという課題は未解明のままであった。 本研究では,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションであるPLUME(Parallel Language Model)を紹介する。 これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。 このモデルを用いて, LLMの翻訳能力, 性能, プロンプトの異なる要素の影響, および言語間表現空間について, 徹底的に検討する。

In recent years, Large Language Models (LLMs) have demonstrated exceptional proficiency across a broad spectrum of Natural Language Processing (NLP) tasks, including Machine Translation. However, previous methods predominantly relied on iterative processes such as instruction fine-tuning or continual pre-training, leaving unexplored the challenges of training LLMs solely on parallel data. In this work, we introduce PLUME (Parallel Language Model), a collection of three 2B LLMs featuring varying vocabulary sizes (32k, 128k, and 256k) trained exclusively on Catalan-centric parallel examples. These models perform comparably to previous encoder-decoder architectures on 16 supervised translation directions and 56 zero-shot ones. Utilizing this set of models, we conduct a thorough investigation into the translation capabilities of LLMs, probing their performance, the impact of the different elements of the prompt, and their cross-lingual representation space.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# ディープ・ガレルキンフィードバック法の下でのエージェントベースダイナミクスの最適制御

Optimal Control of Agent-Based Dynamics under Deep Galerkin Feedback Laws ( http://arxiv.org/abs/2406.09141v1 )

ライセンス: Link先を確認
Frederik Kelbel, (参考訳) 動的プログラミングの概念が導入されて以来、高次元制御問題に適切に対処することが最も難しい課題の1つとなっている。 次元の増大に伴い、ディープニューラルネットワークの利用は、それ以外は指数関数的に増加する複雑性の問題を回避することを約束する。 本稿では,Deep Galerkin法が適用すべきサンプリング問題を具体的に検討する。 高分散政策近似の症状を軽減するためのドリフト緩和に基づくサンプリング手法を提案する。 これは平均場制御問題、すなわち、Sznajd と Hegselmann-Krause モデルによって提示される意見力学のバリエーションで検証される。 結果として、手動で最適化された制御関数よりも大幅なコスト削減がもたらされ、Deep FBSDEアプローチよりも線形量子レギュレータの問題が改善された。

Ever since the concepts of dynamic programming were introduced, one of the most difficult challenges has been to adequately address high-dimensional control problems. With growing dimensionality, the utilisation of Deep Neural Networks promises to circumvent the issue of an otherwise exponentially increasing complexity. The paper specifically investigates the sampling issues the Deep Galerkin Method is subjected to. It proposes a drift relaxation-based sampling approach to alleviate the symptoms of high-variance policy approximations. This is validated on mean-field control problems; namely, the variations of the opinion dynamics presented by the Sznajd and the Hegselmann-Krause model. The resulting policies induce a significant cost reduction over manually optimised control functions and show improvements on the Linear-Quadratic Regulator problem over the Deep FBSDE approach.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# ワクチン接種・症例・死亡に対するワクチンツイートの効果

Effects of Antivaccine Tweets on COVID-19 Vaccinations, Cases, and Deaths ( http://arxiv.org/abs/2406.09142v1 )

ライセンス: Link先を確認
John Bollenbacher, Filippo Menczer, John Bryden, (参考訳) ワクチンは新型コロナウイルス(COVID-19)感染拡大に伴う入院率と死亡率の低下に重要だった。 アメリカ合衆国で広く利用できるようになったにも拘わらず、2021年にはアメリカ人の62%がワクチン接種をしないことを選んだ。 新型コロナウイルスに関するオンラインの誤報はワクチンの根絶と相関するが、実際の接種とワクチン摂取との因果関係を調査する以前の研究はほとんどない。 本稿では,ワクチン接種,ワクチン接種,抗接種内容への曝露を含む分節感染モデルを提案する。 我々は、このモデルを観察データに適用し、米国全郡にわたるオンライン抗ワクチンコンテンツに対する地理的な露出パターンが、同じ郡におけるワクチン摂取の減少パターンの原因であると判断する。 その結果、米国では2021年2月から8月にかけて、約75万人がワクチン接種を拒否し、少なくとも29,000人が追加で、さらに430人が死亡した。 この研究は、オンライン音声とオフライン流行の結果をリンクするための方法論を提供する。 調査結果は、ソーシャルメディアのモデレーション政策と公衆衛生の介入を知らせるべきである。

Vaccines were critical in reducing hospitalizations and mortality during the COVID-19 pandemic. Despite their wide availability in the United States, 62% of Americans chose not to be vaccinated during 2021. While online misinformation about COVID-19 is correlated to vaccine hesitancy, little prior work has explored a causal link between real-world exposure to antivaccine content and vaccine uptake. Here we present a compartmental epidemic model that includes vaccination, vaccine hesitancy, and exposure to antivaccine content. We fit the model to observational data to determine that a geographical pattern of exposure to online antivaccine content across US counties is responsible for a pattern of reduced vaccine uptake in the same counties. We find that exposure to antivaccine content on Twitter caused about 750,000 people to refuse vaccination between February and August 2021 in the US, resulting in at least 29,000 additional cases and 430 additional deaths. This work provides a methodology for linking online speech to offline epidemic outcomes. Our findings should inform social media moderation policy as well as public health interventions.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# ビジョンランゲージモデルを用いたAIベースのプロンプト進化工学設計最適化

Generative AI-based Prompt Evolution Engineering Design Optimization With Vision-Language Model ( http://arxiv.org/abs/2406.09143v1 )

ライセンス: Link先を確認
Melvin Wong, Thiago Rios, Stefan Menzel, Yew Soon Ong, (参考訳) 工学設計の最適化には、3次元形状表現、最適化アルゴリズム、設計性能評価手法の効率的な組み合わせが必要である。 本稿では, 車両設計シナリオにおいて, 生成モデルにより合成された非現実車設計のペナルティ化に視覚言語モデルを利用する, 即時進化設計最適化(PEDO)フレームワークを提案する。 我々のフレームワークのバックボーンは、物理に基づく解法と、生成車の設計における実用的あるいは機能的なガイダンスのための視覚言語モデルからなる最適化目的関数と組み合わせた進化的戦略である。 迅速な進化的探索において、最適化者は複数のテキストプロンプトを反復的に生成し、3Dカーの設計の空力性能と視覚的嗜好にユーザ仕様を埋め込む。 そして、計算流体力学シミュレーションに加えて、事前学習された視覚言語モデルを用いて、非現実的な設計をペナルティ化し、より実用的な設計を求める進化的アルゴリズムを育成する。 カーデザイン最適化問題に関する調査では,初期個体群における設計の多様性が良好であることや,視覚言語モデルを用いないベースラインフレームワークと比較して,実用設計の確率が20倍以上増加する可能性が示唆された。 性能評価結果に対する設計の視覚的検査は、設計仕様や嗜好を自然言語インターフェースで定義する上で、優れた最適化性能を持つ新規設計を見つけるための、非常に有望なパラダイムとして、迅速な進化を示す。

Engineering design optimization requires an efficient combination of a 3D shape representation, an optimization algorithm, and a design performance evaluation method, which is often computationally expensive. We present a prompt evolution design optimization (PEDO) framework contextualized in a vehicle design scenario that leverages a vision-language model for penalizing impractical car designs synthesized by a generative model. The backbone of our framework is an evolutionary strategy coupled with an optimization objective function that comprises a physics-based solver and a vision-language model for practical or functional guidance in the generated car designs. In the prompt evolutionary search, the optimizer iteratively generates a population of text prompts, which embed user specifications on the aerodynamic performance and visual preferences of the 3D car designs. Then, in addition to the computational fluid dynamics simulations, the pre-trained vision-language model is used to penalize impractical designs and, thus, foster the evolutionary algorithm to seek more viable designs. Our investigations on a car design optimization problem show a wide spread of potential car designs generated at the early phase of the search, which indicates a good diversity of designs in the initial populations, and an increase of over 20\% in the probability of generating practical designs compared to a baseline framework without using a vision-language model. Visual inspection of the designs against the performance results demonstrates prompt evolution as a very promising paradigm for finding novel designs with good optimization performance while providing ease of use in specifying design specifications and preferences via a natural language interface.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# 多モードデータ分布に対する弱教師付き異常検出

Weakly-supervised anomaly detection for multimodal data distributions ( http://arxiv.org/abs/2406.09147v1 )

ライセンス: Link先を確認
Xu Tan, Junqi Chen, Sylwan Rahardja, Jiawei Yang, Susanto Rahardja, (参考訳) 弱教師付き異常検出は、非常に少数のラベル付き異常の助けを借りて、既存の教師なしの手法よりも優れており、研究者の注目を惹きつける。 しかし、これらの手法は実世界のデータ分布のマルチモデルの性質に影響を及ぼさないため、既存の弱教師付き異常検出法は制限されている。 そこで本研究では,WVAD(Wakly-supervised Variational-mixture-based Anomaly Detector)を提案する。 WVADはマルチモーダルデータセットで優れている。 深部変分混合モデルと異常スコア推定器の2つのコンポーネントで構成されている。 深部変動混合モデルは、異なるクラスタからデータの様々な特徴をキャプチャし、これらの特徴を異常スコア推定器に配信し、異常レベルを評価する。 3つの実世界のデータセットの実験結果は、WVADの優位性を示している。

Weakly-supervised anomaly detection can outperform existing unsupervised methods with the assistance of a very small number of labeled anomalies, which attracts increasing attention from researchers. However, existing weakly-supervised anomaly detection methods are limited as these methods do not factor in the multimodel nature of the real-world data distribution. To mitigate this, we propose the Weakly-supervised Variational-mixture-model-based Anomaly Detector (WVAD). WVAD excels in multimodal datasets. It consists of two components: a deep variational mixture model, and an anomaly score estimator. The deep variational mixture model captures various features of the data from different clusters, then these features are delivered to the anomaly score estimator to assess the anomaly levels. Experimental results on three real-world datasets demonstrate WVAD's superiority.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# EncCluster: 重みクラスタリングと確率的フィルタによるフェデレーション学習におけるスケーラブルな関数暗号化

EncCluster: Scalable Functional Encryption in Federated Learning through Weight Clustering and Probabilistic Filters ( http://arxiv.org/abs/2406.09152v1 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Samaneh Mohammadi, Ali Balador, Tanir Ozcelebi, Francesco Flammini, Nirvana Meratnia, (参考訳) フェデレートラーニング(FL)は、アグリゲーションサーバにのみローカルモデルの更新を通信することで、分散デバイス間のモデルトレーニングを可能にする。 このような制限されたデータ共有により、FLは集中的なアプローチよりも安全になるが、FLはモデル更新送信時の推論攻撃に弱いままである。 既存のセキュアアグリゲーションアプローチは、個々のクライアントデータを保護するために、差分プライバシや機能暗号化(FE)のような暗号スキームに依存している。 しかし、そのような戦略は、限られたリソースを持つエッジデバイス上で実行されているクライアントに対して、パフォーマンスを低下させるか、許容できない計算と通信のオーバーヘッドを導入することができる。 本研究では,重みクラスタリングによるモデル圧縮と近年の分散FEと,確率的フィルタを用いたプライバシエンシングデータエンコーディングを統合し,モデル性能に影響を与えることなくFL内の強力なプライバシ保証を実現する新しい手法であるEncClusterを提案する。 暗号化レベルを越えたEncClusterのスケーラビリティを実証するため、さまざまなデータセットやアーキテクチャにまたがる包括的な評価を実施しました。 以上の結果から,EncClusterは通信コストを従来のFedAvgよりも大幅に削減し,すべてのベースラインで暗号化を4倍以上高速化する一方で,高いモデル精度とプライバシー保証の強化を維持していることがわかった。

Federated Learning (FL) enables model training across decentralized devices by communicating solely local model updates to an aggregation server. Although such limited data sharing makes FL more secure than centralized approached, FL remains vulnerable to inference attacks during model update transmissions. Existing secure aggregation approaches rely on differential privacy or cryptographic schemes like Functional Encryption (FE) to safeguard individual client data. However, such strategies can reduce performance or introduce unacceptable computational and communication overheads on clients running on edge devices with limited resources. In this work, we present EncCluster, a novel method that integrates model compression through weight clustering with recent decentralized FE and privacy-enhancing data encoding using probabilistic filters to deliver strong privacy guarantees in FL without affecting model performance or adding unnecessary burdens to clients. We performed a comprehensive evaluation, spanning various datasets and architectures, to demonstrate EncCluster's scalability across encryption levels. Our findings reveal that EncCluster significantly reduces communication costs - below even conventional FedAvg - and accelerates encryption by more than four times over all baselines; at the same time, it maintains high model accuracy and enhanced privacy assurances.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# LASER:コンテンツ関連課題改善のための自己指示型音声表現のアライメントによる学習

LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks ( http://arxiv.org/abs/2406.09153v1 )

ライセンス: Link先を確認
Amit Meghanani, Thomas Hain, (参考訳) 自己教師付き学習(SSL)ベースの音声モデルは、フルスタック音声処理に広く利用されている。 しかし、コンテンツ関連タスクにおけるラベルなし音声によるSSLベースの音声表現の改善は困難であり、計算コストも高いことが観察されている。 近年、コスト効率のよい自己監督型微調整(SSFT)アプローチでこの問題に対処する試みが試みられている。 この方向に進み、費用対効果の高いSSFT手法「LASER:Learning by Aligning Self-supervised Representations」が提示される。 LASERは、時間的正規化項によるソフトDTWアライメント損失に基づいている。 HuBERT と WavLM モデルを用いて実験を行い,SUPERB ベンチマークで自動音声認識 (ASR) と音素認識 (PR) の2つの内容関連タスクについて評価した。 HuBERTの3.7%と8.2%、WavLMの4.1%と11.7%の相対的な改善は、それぞれASRとPRのタスクで見られ、1つのGPUで3時間以下の微調整しか行われていない。

Self-supervised learning (SSL)-based speech models are extensively used for full-stack speech processing. However, it has been observed that improving SSL-based speech representations using unlabeled speech for content-related tasks is challenging and computationally expensive. Recent attempts have been made to address this issue with cost-effective self-supervised fine-tuning (SSFT) approaches. Continuing in this direction, a cost-effective SSFT method named "LASER: Learning by Aligning Self-supervised Representations" is presented. LASER is based on the soft-DTW alignment loss with temporal regularisation term. Experiments are conducted with HuBERT and WavLM models and evaluated on the SUPERB benchmark for two content-related tasks: automatic speech recognition (ASR) and phoneme recognition (PR). A relative improvement of 3.7% and 8.2% for HuBERT, and 4.1% and 11.7% for WavLM are observed, for the ASR and PR tasks respectively, with only < 3 hours of fine-tuning on a single GPU.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# 拡散ガウス混合オーディオ

Diffusion Gaussian Mixture Audio Denoise ( http://arxiv.org/abs/2406.09154v1 )

ライセンス: Link先を確認
Pu Wang, Junhui Li, Jialu Li, Liangdong Guo, Youshan Zhang, (参考訳) 近年の拡散モデルでは,音声復調作業において有望な性能が達成されている。 逆過程のユニークな性質は、クリーンな信号を回復することができた。 しかし、実世界の雑音の分布は1つのガウス分布に従わない。 ガウス雑音条件のサンプリングは応用シナリオを制限する。 これらの課題を克服するために,拡散モデルとガウス混合モデルに基づくデノナイジングモデルであるDiffGMMモデルを提案する。 逆過程を用いてガウス混合モデルのパラメータを推定する。 まず1D-U-Netを用いて特徴を抽出し、線形層を訓練し、ガウス混合モデルのパラメータを推定し、実雑音分布を近似する。 推定ノイズからノイズ信号を連続的に減算してクリーンオーディオ信号を出力する。 実験結果から,提案したDiffGMMモデルが最先端性能を実現することを示す。

Recent diffusion models have achieved promising performances in audio-denoising tasks. The unique property of the reverse process could recover clean signals. However, the distribution of real-world noises does not comply with a single Gaussian distribution and is even unknown. The sampling of Gaussian noise conditions limits its application scenarios. To overcome these challenges, we propose a DiffGMM model, a denoising model based on the diffusion and Gaussian mixture models. We employ the reverse process to estimate parameters for the Gaussian mixture model. Given a noisy audio signal, we first apply a 1D-U-Net to extract features and train linear layers to estimate parameters for the Gaussian mixture model, and we approximate the real noise distributions. The noisy signal is continuously subtracted from the estimated noise to output clean audio signals. Extensive experimental results demonstrate that the proposed DiffGMM model achieves state-of-the-art performance.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# DefAn: LLMの幻覚評価のための決定的回答データセット

DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation ( http://arxiv.org/abs/2406.09155v1 )

ライセンス: Link先を確認
A B M Ashikur Rahman, Saeed Anwar, Muhammad Usman, Ajmal Mian, (参考訳) 大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。 しかし、幻覚を起こす傾向があり、確立した事実に矛盾する主張を生じさせ、プロンプトから逸脱し、同じプロンプトが複数回提示されたときに一貫性のない応答を生じさせる。 これらの問題に対処することは、包括的で容易に評価可能なベンチマークデータセットがないため、難しい。 既存のデータセットの多くは小さく、複数選択の質問に依存しており、LLMの生成能力を評価するには不十分である。 LLMにおける幻覚を測定するために,8つの領域にまたがる75,000以上のプロンプトからなる総合的なベンチマークデータセットを提案する。 これらのプロンプトは、決定的、簡潔で、情報的な答えを引き出すように設計されている。 データセットは2つのセグメントに分けられる。ひとつはLLMのパフォーマンスをテストおよび評価するために公開され、もうひとつは様々なLLMをベンチマークするための隠れセグメントである。 実験では, LLMs-GPT-3.5, LLama 2, LLama 3, Gemini, Mixtral, Zephyrの6つの実験を行った。 急激な幻覚は、公開データセットの6%から95%、隠されたデータセットの17%から94%まで様々である。 平均一貫性は21%から61%、それぞれ22%から63%である。 ドメインワイド分析により, LLMの性能は, 人, 場所, 日付の問い合わせを適度に行いながら, 特定の数値情報を求めると著しく低下することが示された。 本データセットはその有効性を示し,LLM性能評価のための総合的なベンチマークとして機能する。 我々のデータセットとLCMのレスポンスは、 \href{https://github.com/ashikiut/DefAn}{https://github.com/ashikiut/DefAn}で確認できる。

Large Language Models (LLMs) have demonstrated remarkable capabilities, revolutionizing the integration of AI in daily life applications. However, they are prone to hallucinations, generating claims that contradict established facts, deviating from prompts, and producing inconsistent responses when the same prompt is presented multiple times. Addressing these issues is challenging due to the lack of comprehensive and easily assessable benchmark datasets. Most existing datasets are small and rely on multiple-choice questions, which are inadequate for evaluating the generative prowess of LLMs. To measure hallucination in LLMs, this paper introduces a comprehensive benchmark dataset comprising over 75,000 prompts across eight domains. These prompts are designed to elicit definitive, concise, and informative answers. The dataset is divided into two segments: one publicly available for testing and assessing LLM performance and a hidden segment for benchmarking various LLMs. In our experiments, we tested six LLMs-GPT-3.5, LLama 2, LLama 3, Gemini, Mixtral, and Zephyr-revealing that overall factual hallucination ranges from 59% to 82% on the public dataset and 57% to 76% in the hidden benchmark. Prompt misalignment hallucination ranges from 6% to 95% in the public dataset and 17% to 94% in the hidden counterpart. Average consistency ranges from 21% to 61% and 22% to 63%, respectively. Domain-wise analysis shows that LLM performance significantly deteriorates when asked for specific numeric information while performing moderately with person, location, and date queries. Our dataset demonstrates its efficacy and serves as a comprehensive benchmark for LLM performance evaluation. Our dataset and LLMs responses are available at \href{https://github.com/ashikiut/DefAn}{https://github.com/ashikiut/DefAn}.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# 多言語音声-視覚的質問応答に向けて

Towards Multilingual Audio-Visual Question Answering ( http://arxiv.org/abs/2406.09156v1 )

ライセンス: Link先を確認
Orchid Chetia Phukan, Priyabrata Mallick, Swarup Ranjan Behera, Aalekhya Satya Narayani, Arun Balaji Buduru, Rajesh Sharma, (参考訳) 本稿では,Audio-Visual Question Answering (AVQA) を多言語設定に拡張する。 既存のAVQA研究は、英語を中心に進化し、他の言語でのAVQAに対処するためには、かなりのリソースの割り当てが必要である。 スケーラブルなソリューションとして、マシン翻訳を活用し、既存のベンチマークAVQAデータセットから生成された8つの言語に対して、2つの多言語AVQAデータセットを提示します。 これにより、質問や回答を手作業で収集する、追加の人間のアノテーション作業が防止される。 そこで本稿では,複数の言語におけるAVQAの映像・音声・テキスト基盤モデルを活用したMERAフレームワークを提案する。 提案したデータセットをベンチマークするために,様々なモデルアーキテクチャを備えたMERA-L, MERA-C, MERA-T というモデルスイートを導入する。 我々は,本研究が新たな研究方向を開拓し,多言語AVQAにおける今後の研究の基準ベンチマークとして機能すると信じている。

In this paper, we work towards extending Audio-Visual Question Answering (AVQA) to multilingual settings. Existing AVQA research has predominantly revolved around English and replicating it for addressing AVQA in other languages requires a substantial allocation of resources. As a scalable solution, we leverage machine translation and present two multilingual AVQA datasets for eight languages created from existing benchmark AVQA datasets. This prevents extra human annotation efforts of collecting questions and answers manually. To this end, we propose, MERA framework, by leveraging state-of-the-art (SOTA) video, audio, and textual foundation models for AVQA in multiple languages. We introduce a suite of models namely MERA-L, MERA-C, MERA-T with varied model architectures to benchmark the proposed datasets. We believe our work will open new research directions and act as a reference benchmark for future works in multilingual AVQA.
翻訳日:2024-06-14 17:34:25 公開日:2024-06-13
# 対称性付き \r{ho}-絶対分散と修正ウィグナー・ヤネーゼスキュー情報に基づく量子チャネルの不確かさ

Uncertainty of quantum channels based on symmetrized \r{ho}-absolute variance and modified Wigner-Yanase skew information ( http://arxiv.org/abs/2406.09157v1 )

ライセンス: Link先を確認
Cong Xu, Qing-Hua Zhang, Shao-Ming Fei, (参考訳) 我々は、任意の作用素(必ずしもエルミート的ではない)の量子チャネルに対する不確実性関係を一般化する対称性付き \r{ho}-絶対分散の観点で不確実性関係を示す。 Zhang et al (Quantum Inf. Process. 22 456, 2023) によって提唱された量 |U\r{ho}|({\Phi}) は、より量子力学的性質の項を含む。 また、コーシー=シュワルツの不等式を用いて量子チャネルのより厳密な不確実性関係を確立する。 結果の厳密さを示す詳細な例が提供されている。

We present the uncertainty relations in terms of the symmetrized \r{ho}-absolute variance, which generalizes the uncertainty relations for arbitrary operator (not necessarily Hermitian) to quantum channels. By recalling the quantity |U\r{ho}|({\Phi}) proposed by Zhang et al. (Quantum Inf. Process. 22 456, 2023), which involves terms of more quantum mechanical nature. We also establish the tighter uncertainty relations for quantum channels by using Cauchy-Schwarz inequality. Detailed examples are provided to illustrate the tightness of our results.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# チップ上の自由空間量子情報プラットフォーム

Free-space quantum information platform on a chip ( http://arxiv.org/abs/2406.09158v1 )

ライセンス: Link先を確認
Volkan Gurses, Samantha I. Davis, Neil Sinclair, Maria Spiropulu, Ali Hajimiri, (参考訳) 量子物理学を利用する新しい技術は、センシング、通信、コンピューティングを含む情報処理タスクを根本的に強化する。 本稿では、位相アレーと波面工学の動作原理を量子場に一般化した量子位相アレーを紹介し、最初の量子位相アレー技術デモを報告する。 集積フォトニック電子システムは、自由空間量子情報を操作して、独立したコンパクトなフォームファクターで再構成可能な無線量子リンクを確立するために使用される。 このような堅牢でスケーラブルで統合された量子プラットフォームは、高い接続性を持つ量子技術の広範な展開を可能にし、ユースケースを現実世界のアプリケーションに拡張する可能性がある。 550 x 550$\mathrm{\mu m}^2$物理開口に50,000超のサブ波長のナノフォトニック素子を持つ32個のメタマテリアルアンテナによって実現された量子リンクのための自由空間-チップインタフェースについて報告する。 我々は、30.3dBのショットノイズクリアランスと90.2dBのコモンモード拒絶比を持つ32チャネルの量子コヒーレント受信器を実装し、ホモダイン検出により量子光学情報をダウンコンバートし、それを無線周波数領域でコヒーレントに処理する。 我々のプラットフォームでは、量子センシングのための32ピクセルの光の撮像、量子通信のための再構成可能な自由空間リンク、測定ベースの量子コンピューティングのための概念の絡み合い生成を実証する。 このアプローチは、無線量子技術を可能にする統合量子システムに対して、ターゲットとなるリアルタイムで動的に調整可能な自由空間機能を提供する。

Emerging technologies that employ quantum physics offer fundamental enhancements in information processing tasks, including sensing, communications, and computing. Here, we introduce the quantum phased array, which generalizes the operating principles of phased arrays and wavefront engineering to quantum fields, and report the first quantum phased array technology demonstration. An integrated photonic-electronic system is used to manipulate free-space quantum information to establish reconfigurable wireless quantum links in a standalone, compact form factor. Such a robust, scalable, and integrated quantum platform can enable broad deployment of quantum technologies with high connectivity, potentially expanding their use cases to real-world applications. We report the first, to our knowledge, free-space-to-chip interface for quantum links, enabled by 32 metamaterial antennas with more than 500,000 sub-wavelength engineered nanophotonic elements over a 550 x 550 $\mathrm{\mu m}^2$ physical aperture. We implement a 32-channel array of quantum coherent receivers with 30.3 dB shot noise clearance and 90.2 dB common-mode rejection ratio that downconverts the quantum optical information via homodyne detection and processes it coherently in the radio-frequency domain. With our platform, we demonstrate 32-pixel imaging of squeezed light for quantum sensing, reconfigurable free-space links for quantum communications, and proof-of-concept entanglement generation for measurement-based quantum computing. This approach offers targeted, real-time, dynamically-adjustable free-space capabilities to integrated quantum systems that can enable wireless quantum technologies.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# ALPHAGMUT:突然変異効果評価のためのライタリーガイド型アルファ形状グラフニューラルネットワーク

ALPHAGMUT: A Rationale-Guided Alpha Shape Graph Neural Network to Evaluate Mutation Effects ( http://arxiv.org/abs/2406.09159v1 )

ライセンス: Link先を確認
Boshen Wang, Bowei Ye, Lin Xu, Jie Liang, (参考訳) ミスセンス突然変異の突然変異効果を評価するシリコ法では、個人ゲノムの変異を理解し、疾患関連バイオマーカーを同定するための重要なアプローチを提供する。 しかし、ディープラーニングを含む既存の手法は、シーケンス認識情報に大きく依存しており、利用可能な3D構造情報の可能性を十分に活用していない。 さらに、これらの手法は、配列ベースの埋め込みを定式化することが難しい領域における突然変異を予測することができない可能性がある。 そこで本研究では,新たな有理グラフニューラルネットワークAlphaGMutを導入し,突然変異効果を評価し,中性突然変異と病原性突然変異を区別する。 タンパク質構造のα形状を計算し、原子分解能のエッジ結合性を求め、それらを正確な残基レベルグラフ表現にマッピングする。 次に、グラフのノード属性として割り当てられる変異部位の構造的、位相的、生物物理学的、およびシーケンス特性を計算する。 これらのノード属性は、短いトレーニング期間でk-hopメッセージパッシングを使用して、病気と中立突然変異の違いを学習するために、グラフニューラルネットワークを効果的に導くことができる。 我々は、AlphaGMutがDeepMindのAlphaMissenseを含む最先端の手法よりも多くのパフォーマンス指標で優れていることを示す。 さらに、AlphaGMutはアライメントのない設定でうまく機能する利点があり、深いシーケンス認識情報を必要とする現在の方法と比較して、より広範な予測カバレッジとより優れた一般化を提供する。

In silico methods evaluating the mutation effects of missense mutations are providing an important approach for understanding mutations in personal genomes and identifying disease-relevant biomarkers. However, existing methods, including deep learning methods, heavily rely on sequence-aware information, and do not fully leverage the potential of available 3D structural information. In addition, these methods may exhibit an inability to predict mutations in domains difficult to formulate sequence-based embeddings. In this study, we introduce a novel rationale-guided graph neural network AlphaGMut to evaluate mutation effects and to distinguish pathogenic mutations from neutral mutations. We compute the alpha shapes of protein structures to obtain atomic-resolution edge connectivities and map them to an accurate residue-level graph representation. We then compute structural-, topological-, biophysical-, and sequence properties of the mutation sites, which are assigned as node attributes in the graph. These node attributes could effectively guide the graph neural network to learn the difference between pathogenic and neutral mutations using k-hop message passing with a short training period. We demonstrate that AlphaGMut outperforms state-of-the-art methods, including DeepMind's AlphaMissense, in many performance metrics. In addition, AlphaGMut has the advantage of performing well in alignment-free settings, which provides broader prediction coverage and better generalization compared to current methods requiring deep sequence-aware information.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# 辺境を越えて - フロアプランから学ぶことにより、管理グリッドから見えない壁を予測する

Beyond the Frontier: Predicting Unseen Walls from Occupancy Grids by Learning from Floor Plans ( http://arxiv.org/abs/2406.09160v1 )

ライセンス: Link先を確認
Ludvig Ericson, Patric Jensfelt, (参考訳) 本稿では,360{\deg} LIDARセンサの軌跡に沿って集積された占有格子を条件とした2次元線分として,部分観測環境の見えない壁面の予測に挑戦する。 大学キャンパスからのオフィススケールフロアプランのコレクションにおいて、ランダムにサンプリングされたウェイポイントのセット間で仮想ロボットをナビゲートすることにより、そのような占有グリッドとその対象壁セグメントのデータセットを収集する。 行セグメント予測タスクを自己回帰シーケンス予測タスクとして定式化し、データセット上で注目ベースのディープネットワークをトレーニングする。 シーケンスベースの自己回帰定式化は、フロンティアベースの自律探索のような予測情報ゲインを通じて評価され、文献で見られる非予測的推定と畳み込みに基づく画像予測の両方に対して顕著な改善が示されている。 キーコンポーネントのアブレーション、センサ範囲、占有グリッドのメートル法面積を評価した。 最後に、現実のオフィス環境において、現場で再構築された新しいフロアプランの壁を予測し、モデル一般性を検証する。

In this paper, we tackle the challenge of predicting the unseen walls of a partially observed environment as a set of 2D line segments, conditioned on occupancy grids integrated along the trajectory of a 360{\deg} LIDAR sensor. A dataset of such occupancy grids and their corresponding target wall segments is collected by navigating a virtual robot between a set of randomly sampled waypoints in a collection of office-scale floor plans from a university campus. The line segment prediction task is formulated as an autoregressive sequence prediction task, and an attention-based deep network is trained on the dataset. The sequence-based autoregressive formulation is evaluated through predicted information gain, as in frontier-based autonomous exploration, demonstrating significant improvements over both non-predictive estimation and convolution-based image prediction found in the literature. Ablations on key components are evaluated, as well as sensor range and the occupancy grid's metric area. Finally, model generality is validated by predicting walls in a novel floor plan reconstructed on-the-fly in a real-world office environment.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# EMMA: テキストと画像の拡散モデルがマルチモードのプロンプトを秘かに受け入れる

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts ( http://arxiv.org/abs/2406.09162v1 )

ライセンス: Link先を確認
Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang, (参考訳) 近年、画像生成の進歩により、テキスト条件から高品質な画像を作成することが可能になった。 しかし、テキストと参照の外観の組み合わせのようなマルチモーダルな条件に直面している場合、既存の手法は複数の条件を効果的にバランスさせるのに苦労する。 この課題に対処するために,最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダル・プロンプトを受け入れる新しい画像生成モデル EMMA を紹介する。 EMMAは、テキストと共に追加のモダリティをシームレスに組み込んで、特別な注意機構を用いてテキストと補足的なモダリティ情報を効果的に統合する、革新的なマルチモーダル・フィーチャー・コネクター設計を通じて画像生成を誘導する。 元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。 この興味深い性質は、異なる既存のフレームワークへの適応を容易にし、EMMAをパーソナライズされたコンテキスト対応の画像やビデオを作成するための柔軟で効果的なツールにする。 さらに、学習したEMMAモジュールを組み立て、複数のモードで条件付き画像を同時に生成する戦略を導入し、混合マルチモーダルプロンプトによる追加トレーニングの必要性を排除した。 広範囲な実験により、EMMAは高忠実度と高精細な画像を生成する上での有効性を示し、高度なマルチモーダル条件付き画像生成タスクの堅牢なソリューションとしての可能性を示している。

Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# カロジェロ・サザーランドモデルの拡張クラスに対するゼロエネルギー正規化状態を支持するQESポテンシャルの生成

Generating QES potentials supporting zero energy normalizable states for an extended class of truncated Calogero Sutherland model ( http://arxiv.org/abs/2406.09164v1 )

ライセンス: Link先を確認
Satish Yadav, Sudhanshu Shekhar, Bijan Bagchi, Bhabani Prasad Mandal, (参考訳) 一般に、エネルギー$E = 0$の量子状態は連続体に属する。 しかしながら、ゼロエネルギー状態がポテンシャルを定義する結合定数の一定の制限を受けると、いくつかの状況が報告されている。 本研究は,QESポテンシャル系に対する正則ゼロエネルギー正規化解の存在が,有理に拡張された多体トラカート付きカロジェロ・サザランドモデルに対応する別の証拠を示す。 提案手法は, 2, 1)$構造を基本としたポテンシャル群アプローチに基づいて, ポイント正準変換を有益に行なえるように誘導された3つのケースを利用する。 結合パラメータを適切に制限することで、各ケースを別々に扱う。

It is commonly held that quantum states with energy $E = 0$ would belong to the continuum. However, several situations have been reported when a zero-energy state becomes bound subject to certain restrictions on the coupling constants defining the potential. In the present work, we present another evidence of the existence of regular zero-energy normalizable solutions for a system of QES potentials that correspond to rationally extended many-body truncated Calogero-Sutherland model. Our procedure is based upon the potential group approach with an underlying so$(2, 1)$ structure that utilizes the three cases guided by it on profitably carrying out a point canonical transformation. We deal with each case separately by suitably restricting the coupling parameters.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# 特徴構造を持つ細粒領域一般化

Fine-Grained Domain Generalization with Feature Structuralization ( http://arxiv.org/abs/2406.09166v1 )

ライセンス: Link先を確認
Wenlong Yu, Dongyue Chen, Qilong Wang, Qinghua Hu, (参考訳) 細粒度領域一般化(FGDG)は、クラス間差が小さく、クラス内差が比較的大きいため、より困難な課題である。 ドメイン分布が変化すると、微妙な特徴の脆弱さがモデル性能の顕著な低下につながるが、一方で、人間は本質的に、分布外データへの一般化能力を示し、カテゴリ内の共通性と特異性の両方を識別することから生じる構造化された多粒性知識を活用し、特徴的構造的ドメイン一般化(FSDG)モデルを提案する。 具体的には,不整合セグメントのデコリレーション関数,共通特徴整合性の制約,特徴特異性,粒度の予測校正操作によって特徴構造化(FS)を実現する。 これらの規定を課すことにより、FSDGは多粒度知識に基づいて特徴を歪め、整列させ、カテゴリー間の頑健な微妙な区別を促進する。 3つのベンチマークでの大規模な実験は、FGDGのパフォーマンスの面で平均6.1%の改善とともに、最先端のベンチマークよりもFSDGの方が優れていることを一貫して検証している。 さらに、様々な主流モデルアーキテクチャに関する説明可能性分析と実験により、FSの有効性が確認された。

Fine-grained domain generalization (FGDG) is a more challenging task due to its small inter-class variations and relatively large intra-class disparities. When domain distribution changes, the fragility of subtle features leads to a pronounced deterioration in model performance.Nevertheless, humans inherently demonstrate the capacity for generalizing to out-of-distribution data, leveraging structured multi-granularity knowledge that emerges from discerning both the commonality and specificity within categories.Likewise, we propose a Feature Structuralized Domain Generalization (FSDG) model, wherein features experience structuralization into common, specific, and confounding segments, harmoniously aligned with their relevant semantic concepts, to elevate performance in FGDG. Specifically, feature structuralization (FS) is achieved through a decorrelation function on disentangled segments, constraints on common feature consistency, specific feature distinctiveness, and a prediction calibration operation across granularities. By imposing these stipulations, FSDG is prompted to disentangle and align features based on multi-granularity knowledge, facilitating robust subtle distinctions among categories. Extensive experimentation on three benchmarks consistently validates the superiority of FSDG over state-of-the-art counterparts, with an average improvement of 6.1% in terms of FGDG performance. Beyond that, the explainability analysis and experiments on various mainstream model architectures confirm the validity of FS.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# SR-CACO-2-共焦点蛍光顕微鏡画像超解像のデータセット

SR-CACO-2: A Dataset for Confocal Fluorescence Microscopy Image Super-Resolution ( http://arxiv.org/abs/2406.09168v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Mara KM Whitford, Phuong Hoang, Shakeeb Murtaza, Luke McCaffrey, Eric Granger, (参考訳) 共焦点蛍光顕微鏡(Confocal fluorescence microscopy)は、生物学的プロセスの研究において最も利用しやすく広く使われているイメージング技術の一つである。 走査型共焦点顕微鏡は、3Dサンプルから高品質な画像を取り出すことができるが、強力な光露光による試料の光漂白や光毒性といった、よく知られた限界に悩まされている。 セルの損傷は、しばしば画質を犠牲にして、光の露出を減らすために画像パラメータを変更することで軽減される。 低解像度(LR)画像をアップスケーリングして高解像度画像(HR)を生成することにより、画像品質の回復に、一像超解像(SISR)のマシン/ディープ学習法を適用することができる。 これらのSISR法は, 公開データの豊富さを理由として, フォトリアリスティック画像に適用されている。 対照的に、公開データの欠如は、その応用と共焦点顕微鏡の走査の成功を部分的に制限している。 本稿では,3種類の蛍光マーカーに印加された低解像度と高解像度の画像対からなる,SR-CACO-2と呼ばれる大規模な走査共焦点顕微鏡データセットを提案する。 3種類のアップスケーリングレベル(X2, X4, X8)でSISR法の性能を評価することができる。 SR-CACO-2はヒト上皮細胞株Caco-2(ATCC HTB-37)を含み、SISR法による実験のために9,937枚の画像パッチの形で翻訳された22個のタイルからなる。 新しいSR-CACO-2データセットから、主要なSISRファミリーを代表する15の最先端メソッドのベンチマーク結果も提供する。 その結果,これらの手法は高分解能なテクスチャの生成に限界があり,SR-CACO-2は難しい問題であることがわかった。 データセット、コード、事前トレーニングされたウェイトは、https://github.com/sbelharbi/sr-caco-2.comで利用可能です。

Confocal fluorescence microscopy is one of the most accessible and widely used imaging techniques for the study of biological processes. Scanning confocal microscopy allows the capture of high-quality images from 3D samples, yet suffers from well-known limitations such as photobleaching and phototoxicity of specimens caused by intense light exposure, which limits its use in some applications, especially for living cells. Cellular damage can be alleviated by changing imaging parameters to reduce light exposure, often at the expense of image quality. Machine/deep learning methods for single-image super-resolution (SISR) can be applied to restore image quality by upscaling lower-resolution (LR) images to produce high-resolution images (HR). These SISR methods have been successfully applied to photo-realistic images due partly to the abundance of publicly available data. In contrast, the lack of publicly available data partly limits their application and success in scanning confocal microscopy. In this paper, we introduce a large scanning confocal microscopy dataset named SR-CACO-2 that is comprised of low- and high-resolution image pairs marked for three different fluorescent markers. It allows the evaluation of performance of SISR methods on three different upscaling levels (X2, X4, X8). SR-CACO-2 contains the human epithelial cell line Caco-2 (ATCC HTB-37), and it is composed of 22 tiles that have been translated in the form of 9,937 image patches for experiments with SISR methods. Given the new SR-CACO-2 dataset, we also provide benchmarking results for 15 state-of-the-art methods that are representative of the main SISR families. Results show that these methods have limited success in producing high-resolution textures, indicating that SR-CACO-2 represents a challenging problem. Our dataset, code and pretrained weights are available: https://github.com/sbelharbi/sr-caco-2.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# テスト・オブ・タイム:時間的推論におけるLCMの評価ベンチマーク

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning ( http://arxiv.org/abs/2406.09170v1 )

ライセンス: Link先を確認
Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi, (参考訳) 大規模言語モデル(LLM)は、顕著な推論能力を示したが、特に複雑な時間的論理を含む時間的推論タスクにおいて、エラーの影響を受けやすいままである。 既存の研究では、多様なデータセットとベンチマークを用いた時間的推論におけるLLM性能について検討している。 しかし、これらの研究は、LLMが事前訓練中に遭遇したかもしれない実世界のデータや、事実の矛盾を必然的に導入できる匿名化技術に頼っていることが多い。 本研究では,様々なシナリオにおいてLLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを導入することにより,これらの制約に対処する。 これらのデータセットにまたがる質問タイプの多様性は、問題構造、サイズ、質問タイプ、事実順序、その他の要因がLLMのパフォーマンスに与える影響を体系的に調査することができる。 本研究は, 時間的推論作業におけるLLMの強みと弱みについて, 貴重な知見を提供するものである。 この分野のさらなる研究を促進するため、私たちは、実験で使用されるデータセットと評価フレームワークをオープンソース化しています。

Large language models (LLMs) have showcased remarkable reasoning capabilities, yet they remain susceptible to errors, particularly in temporal reasoning tasks involving complex temporal logic. Existing research has explored LLM performance on temporal reasoning using diverse datasets and benchmarks. However, these studies often rely on real-world data that LLMs may have encountered during pre-training or employ anonymization techniques that can inadvertently introduce factual inconsistencies. In this work, we address these limitations by introducing novel synthetic datasets specifically designed to assess LLM temporal reasoning abilities in various scenarios. The diversity of question types across these datasets enables systematic investigation into the impact of the problem structure, size, question type, fact order, and other factors on LLM performance. Our findings provide valuable insights into the strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster further research in this area, we are open-sourcing the datasets and evaluation framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# 不確実性定量化レンズによる生成的対判別的モデリング

Generative vs. Discriminative modeling under the lens of uncertainty quantification ( http://arxiv.org/abs/2406.09172v1 )

ライセンス: Link先を確認
Elouan Argouarc'h, François Desbouvries, Eric Barat, Eiji Kawasaki, (参考訳) 与えられたデータセットからパラメトリックモデルを学習することで、パラメトリック条件確率分布を介して確率変数間の固有の依存関係をキャプチャし、次に与えられたラベル変数の値を予測することができる。 本稿では,その構成と基盤となる推論問題の構造が異なる生成的および識別的アプローチの比較分析を行う。 本研究の目的は,両手法が様々な情報源から得られる情報を利用して,後部予測分布を通した認識不確実性を考慮した推論を行う能力を比較することである。 本研究では, 事前分布, 生成事例では明示的であり, 識別事例では暗黙的であり, 不均衡なデータセットに苦しむ識別モデルに関する議論に繋がる。 次に、観測変数による生成事例における二重の役割について検討し、両アプローチの半教師付き学習との整合性について考察する。 また, モデル選択が後続予測分布からのサンプリングに与える影響について検討した。 そこで本研究では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。 本稿では,アフィン回帰例を用いた議論と結論について概説し,ニューラルネットワークモデルを用いた分類シミュレーションを用いて比較分析を行った。

Learning a parametric model from a given dataset indeed enables to capture intrinsic dependencies between random variables via a parametric conditional probability distribution and in turn predict the value of a label variable given observed variables. In this paper, we undertake a comparative analysis of generative and discriminative approaches which differ in their construction and the structure of the underlying inference problem. Our objective is to compare the ability of both approaches to leverage information from various sources in an epistemic uncertainty aware inference via the posterior predictive distribution. We assess the role of a prior distribution, explicit in the generative case and implicit in the discriminative case, leading to a discussion about discriminative models suffering from imbalanced dataset. We next examine the double role played by the observed variables in the generative case, and discuss the compatibility of both approaches with semi-supervised learning. We also provide with practical insights and we examine how the modeling choice impacts the sampling from the posterior predictive distribution. With regard to this, we propose a general sampling scheme enabling supervised learning for both approaches, as well as semi-supervised learning when compatible with the considered modeling approach. Throughout this paper, we illustrate our arguments and conclusions using the example of affine regression, and validate our comparative analysis through classification simulations using neural network based models.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# Potion: ポゾン・アンラーニングを目指して

Potion: Towards Poison Unlearning ( http://arxiv.org/abs/2406.09173v1 )

ライセンス: Link先を確認
Stefan Schoepf, Jack Foster, Alexandra Brintrup, (参考訳) トレーニングデータセットに毒のトリガーを導入するなど、悪意のあるアクターによる機械学習システムに対する攻撃は、重大なリスクを引き起こす。 このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。 これにより、既に訓練済みのモデルから有毒データのサブセットのみを除去する手法、すなわち未学習の毒物トリガーを開発する必要がある。 このタスクの要件は、モデルによって忘れられるすべてのデータが知られているプライバシー重視のアンラーニングから著しく逸脱する。 これまでの研究では、未発見の毒素サンプルが未学習の方法の確立に失敗し、選択的シナプスダンピング(Selective Synaptic Dampening, SSD)という1つの手法しか成功しなかったことが示されている。 特定された毒を除去した後の完全な再訓練でさえ、未発見の毒のサンプルがモデル内の毒の引き金の再導入につながるため、この課題には対処できない。 我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。 まず、SSDをベースとして、モデル保護と未学習性能を大幅に改善する新規な外れ値耐性手法を提案する。 第二に,ポゾントリガーニュートラライゼーション (PTN) 探索, 高速で並列可能なハイパーパラメータ探索を導入し, 特徴的「学習対モデル保護」のトレードオフを利用して, ディックセットのサイズが不明で, 保持セットが汚染された場合に, 適切なハイパーパラメータを求める。 CIFAR10ではResNet-9、CIFAR100ではWideResNet-28x10を用いてコントリビューションをベンチマークする。 実験の結果,本法はSSD83.41%,フルリトレーニング40.68%と比較して93.72%の毒性を治癒することがわかった。 また、未学習による平均モデルの精度低下を5.68%から1.41%に下げる。

Adversarial attacks by malicious actors on machine learning systems, such as introducing poison triggers into training datasets, pose significant risks. The challenge in resolving such an attack arises in practice when only a subset of the poisoned data can be identified. This necessitates the development of methods to remove, i.e. unlearn, poison triggers from already trained models with only a subset of the poison data available. The requirements for this task significantly deviate from privacy-focused unlearning where all of the data to be forgotten by the model is known. Previous work has shown that the undiscovered poisoned samples lead to a failure of established unlearning methods, with only one method, Selective Synaptic Dampening (SSD), showing limited success. Even full retraining, after the removal of the identified poison, cannot address this challenge as the undiscovered poison samples lead to a reintroduction of the poison trigger in the model. Our work addresses two key challenges to advance the state of the art in poison unlearning. First, we introduce a novel outlier-resistant method, based on SSD, that significantly improves model protection and unlearning performance. Second, we introduce Poison Trigger Neutralisation (PTN) search, a fast, parallelisable, hyperparameter search that utilises the characteristic "unlearning versus model protection" trade-off to find suitable hyperparameters in settings where the forget set size is unknown and the retain set is contaminated. We benchmark our contributions using ResNet-9 on CIFAR10 and WideResNet-28x10 on CIFAR100. Experimental results show that our method heals 93.72% of poison compared to SSD with 83.41% and full retraining with 40.68%. We achieve this while also lowering the average model accuracy drop caused by unlearning from 5.68% (SSD) to 1.41% (ours).
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# 一元連結クラスタ・ダブルス理論における欠測単数励起の補正法

An attractive way to correct for missing singles excitations in unitary coupled cluster doubles theory ( http://arxiv.org/abs/2406.09174v1 )

ライセンス: Link先を確認
Zachary W. Windom, Daniel Claudino, Rodney J. Bartlett, (参考訳) 二重励起にのみ基づく結合クラスター法は、典型的には動的電子相関効果の大部分を捉えることができるため、比較的「チープ」で興味深いモデル化学である。 このような近似のトレードオフは、無視された励起、特に単一励起の効果がかなり大きいことである。 標準および電子対制限の$T_2$演算子を用いて、ユニタリ結合クラスタ二重法(UCCD)の2つのフレーバーを定義する。 我々の分析は、欠落した単一励起の摂動的推定を定義する基礎として用いられる有限次UCCエネルギー汎関数の導出を含む。 これは新しいUCCD[4S]法とUCCD[6S]法につながり、MBPTの4階と6階の単体励起のエネルギー補正をそれぞれ検討している。 また、電子対制限アンザッツにも同様の手法を適用するが、改善は極端に限られる。 以上の結果より, UCCDの術後摂動補正によりUCCDを増大させると, UCCSD品質が向上する可能性が示唆された。

Coupled cluster methods based exclusively on double excitations are comparatively "cheap" and interesting model chemistries, as they are typically able to capture the bulk of the dynamical electron correlation effects. The trade-off in such approximations is that the effect of neglected excitations, particularly single excitations, can be considerable. Using standard and electron pair-restricted $T_2$ operators to define two flavors of unitary coupled cluster doubles (UCCD) methods, we investigate the extent in which missing single excitations can be recovered from low-order corrections in many-body perturbation theory (MBPT) within the unitary coupled cluster (UCC) formalism. Our analysis includes the derivations of finite-order, UCC energy functionals which are used as a basis to define perturbative estimates of missed single excitations. This leads to the novel UCCD[4S] and UCCD[6S] methods, which consider energy corrections for missing singles excitations through fourth- and sixth-order in MBPT, respectively. We also apply the same methodology to the electron pair-restricted ansatz, but the improvements are only marginal. Our findings show that augmenting UCCD with these post hoc perturbative corrections can lead to UCCSD-quality results.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# ReMI:複数画像による推論のためのデータセット

ReMI: A Dataset for Reasoning with Multiple Images ( http://arxiv.org/abs/2406.09175v1 )

ライセンス: Link先を確認
Mehran Kazemi, Nishanth Dikkala, Ankit Anand, Petar Devic, Ishita Dasgupta, Fangyu Liu, Bahare Fatemi, Pranjal Awasthi, Dee Guo, Sreenivas Gollapudi, Ahmed Qureshi, (参考訳) 大規模言語モデル(LLM)の継続的な進歩により、拡張能力を効果的に評価し、改善すべき領域を特定するために、新しいベンチマークを作成することが不可欠である。 この研究は、最先端のLLMにおける新たな能力であるマルチイメージ推論に焦点を当てている。 本稿では,複数画像を用いたLLMの推論能力を評価するためのデータセットであるReMIを紹介する。 このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。 また、マルチイメージ推論のシナリオで見られる幅広い特徴についてもカバーしている。 我々はReMIを用いていくつかの最先端LCMのベンチマークを行い、その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。 これは、マルチイメージ推論の課題と、さらなる研究の必要性を強調している。 私たちの分析では、異なるモデルの長所と短所を明らかにし、現在達成可能な推論のタイプと、将来のモデルが改善を必要とする領域に光を当てています。 この分野のさらなる研究を促進するため、私たちはReMIを公開しています。

With the continuous advancement of large language models (LLMs), it is essential to create new benchmarks to effectively evaluate their expanding capabilities and identify areas for improvement. This work focuses on multi-image reasoning, an emerging capability in state-of-the-art LLMs. We introduce ReMI, a dataset designed to assess LLMs' ability to Reason with Multiple Images. This dataset encompasses a diverse range of tasks, spanning various reasoning domains such as math, physics, logic, code, table/chart understanding, and spatial and temporal reasoning. It also covers a broad spectrum of characteristics found in multi-image reasoning scenarios. We have benchmarked several cutting-edge LLMs using ReMI and found a substantial gap between their performance and human-level proficiency. This highlights the challenges in multi-image reasoning and the need for further research. Our analysis also reveals the strengths and weaknesses of different models, shedding light on the types of reasoning that are currently attainable and areas where future models require improvement. To foster further research in this area, we are releasing ReMI publicly: https://huggingface.co/datasets/mehrankazemi/ReMI.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# 適応性の効率的なテストによるスケーラブルでフレキシブルな因果発見

Scalable and Flexible Causal Discovery with an Efficient Test for Adjacency ( http://arxiv.org/abs/2406.09177v1 )

ライセンス: Link先を確認
Alan Nawzad Amin, Andrew Gordon Wilson, (参考訳) 多くの変数の系における正確な予測、メカニズム理解、設計介入を行うため、大規模データから因果グラフを学習したい。 残念なことに、すべての因果グラフの空間は、非常に辛抱強く、正確にデータに最適なものを探すことは難しい。 原則として、変数の条件付き独立性をテストすることによって、探索空間を大幅に減らしたり、グラフを完全に学習したりすることができる。 しかし、因果グラフに2つの変数が隣接しているかどうかを決定するには指数関数的な数のテストが必要になる。 ここでは、2つの変数が因果グラフ(DAT)に隣接しているかどうかを評価するためのスケーラブルで柔軟な方法を構築している。 DATは指数関数的な数のテストを、証明可能な等価な緩和問題に置き換える。 次に、2つのニューラルネットワークをトレーニングすることで、この問題を解決する。 DAT, DAT-Graphに基づくグラフ学習手法を構築し, 介入したデータからも学習できる。 DAT-Graphは1000変数のグラフを最先端の精度で学習することができる。 DAT-Graphが学習したグラフを用いて、大規模なRNAシークエンシングデータに対する介入の効果をより正確に予測するモデルを構築する。

To make accurate predictions, understand mechanisms, and design interventions in systems of many variables, we wish to learn causal graphs from large scale data. Unfortunately the space of all possible causal graphs is enormous so scalably and accurately searching for the best fit to the data is a challenge. In principle we could substantially decrease the search space, or learn the graph entirely, by testing the conditional independence of variables. However, deciding if two variables are adjacent in a causal graph may require an exponential number of tests. Here we build a scalable and flexible method to evaluate if two variables are adjacent in a causal graph, the Differentiable Adjacency Test (DAT). DAT replaces an exponential number of tests with a provably equivalent relaxed problem. It then solves this problem by training two neural networks. We build a graph learning method based on DAT, DAT-Graph, that can also learn from data with interventions. DAT-Graph can learn graphs of 1000 variables with state of the art accuracy. Using the graph learned by DAT-Graph, we also build models that make much more accurate predictions of the effects of interventions on large scale RNA sequencing data.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# 制御によるアンラーニング:大規模言語モデルのアンラーニングにおける実世界のユーティリティの評価

Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning ( http://arxiv.org/abs/2406.09179v1 )

ライセンス: Link先を確認
Qizhou Wang, Bo Han, Puning Yang, Jianing Zhu, Tongliang Liu, Masashi Sugiyama, (参考訳) 望ましくないデータ行動の根絶という魅力的なゴールは、通常のモデル機能を維持しながら、大きな言語モデル(LLM)のドメイン内での機械学習の重要性を強調している。 最近の研究は、勾配上昇(GA)を介してLLMアンラーニングにアプローチし始めており、学習対象とするトレーニング文字列の予測リスクを高め、パラメータ化された応答を消去している。 その単純さと効率性にもかかわらず、GAベースの手法は過剰な未学習の傾向に直面することを示唆し、破滅的な忘れなど、様々な望ましくないモデル行動をもたらし、実用性を低下させる。 本稿では,実世界のユーティリティの複数の側面を捉えることのできるメトリクスのセットを提案し,過剰な未学習の程度を制御できるいくつかの制御方法を提案する。 そこで本研究では,過剰な未学習が起こらないような未学習の手続き/未学習モデルを制御し,未学習の有効性を評価することによって,様々な未学習手法の実践的効果をよりよく反映する一般的な枠組みを提案する。 確立されたベンチマークの実験分析により,GAベースの手法は,モデルユーティリティを阻害するコストが高くなるため,実際は完璧には程遠いことが明らかとなった。 我々は、まだ実用的で効果的なLLMアンラーニングには長い道のりがあり、この分野ではより多くの努力が必要であると結論付けている。

The compelling goal of eradicating undesirable data behaviors, while preserving usual model functioning, underscores the significance of machine unlearning within the domain of large language models (LLMs). Recent research has begun to approach LLM unlearning via gradient ascent (GA) -- increasing the prediction risk for those training strings targeted to be unlearned, thereby erasing their parameterized responses. Despite their simplicity and efficiency, we suggest that GA-based methods face the propensity towards excessive unlearning, resulting in various undesirable model behaviors, such as catastrophic forgetting, that diminish their practical utility. In this paper, we suggest a set of metrics that can capture multiple facets of real-world utility and propose several controlling methods that can regulate the extent of excessive unlearning. Accordingly, we suggest a general framework to better reflect the practical efficacy of various unlearning methods -- we begin by controlling the unlearning procedures/unlearned models such that no excessive unlearning occurs and follow by the evaluation for unlearning efficacy. Our experimental analysis on established benchmarks revealed that GA-based methods are far from perfect in practice, as strong unlearning is at the high cost of hindering the model utility. We conclude that there is still a long way towards practical and effective LLM unlearning, and more efforts are required in this field.
翻訳日:2024-06-14 17:24:35 公開日:2024-06-13
# ネットワーク侵入検出のための検出レート強調多目的進化的特徴選択

Detection-Rate-Emphasized Multi-objective Evolutionary Feature Selection for Network Intrusion Detection ( http://arxiv.org/abs/2406.09180v1 )

ライセンス: Link先を確認
Zi-Hang Cheng, Haopu Shang, Chao Qian, (参考訳) ネットワーク侵入検知はサイバーセキュリティの分野で最も重要な問題の一つであり、様々な機械学習技術が侵入検知システムの構築に応用されている。 しかし、ネットワーク接続を記述する機能の数が多いため、一部の機能は冗長あるいはノイズが多いため、そのようなシナリオでは機能の選択が必要であるため、効率と精度が向上する。 近年,多目的進化アルゴリズム (MOEA) を用いて特徴を抽出することに注力する研究者もいる。 しかし、通常は、目的として特徴の数と分類精度だけを考慮し、クリティカルメトリック、検出率において満足のいくパフォーマンスをもたらす。 これにより、多くの実際の攻撃が失われ、ネットワークシステムに大きな損失をもたらすことになる。 本稿では,ネットワーク侵入検出における特徴選択問題を,特徴数,精度,検出率を同時に最適化する3目的最適化問題としてモデル化するDR-MOFSを提案する。 NSL-KDDとUNSW-NB15の2つの一般的なネットワーク侵入検出データセットの実験では、ほとんどの場合、提案手法は従来の手法よりも優れている。

Network intrusion detection is one of the most important issues in the field of cyber security, and various machine learning techniques have been applied to build intrusion detection systems. However, since the number of features to describe the network connections is often large, where some features are redundant or noisy, feature selection is necessary in such scenarios, which can both improve the efficiency and accuracy. Recently, some researchers focus on using multi-objective evolutionary algorithms (MOEAs) to select features. But usually, they only consider the number of features and classification accuracy as the objectives, resulting in unsatisfactory performance on a critical metric, detection rate. This will lead to the missing of many real attacks and bring huge losses to the network system. In this paper, we propose DR-MOFS to model the feature selection problem in network intrusion detection as a three-objective optimization problem, where the number of features, accuracy and detection rate are optimized simultaneously, and use MOEAs to solve it. Experiments on two popular network intrusion detection datasets NSL-KDD and UNSW-NB15 show that in most cases the proposed method can outperform previous methods, i.e., lead to fewer features, higher accuracy and detection rate.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 顔偽造検出のための大規模ユニバーサル評価ベンチマーク

A Large-scale Universal Evaluation Benchmark For Face Forgery Detection ( http://arxiv.org/abs/2406.09181v1 )

ライセンス: Link先を確認
Yijun Bei, Hengrui Lou, Jinsong Geng, Erteng Liu, Lechao Cheng, Jie Song, Mingli Song, Zunlei Feng, (参考訳) AIGC技術の急速な発展に伴い、人間の視覚的知覚を欺く現実的な偽の顔画像やビデオの制作が可能になった。 その結果、このような偽の顔内容を特定するために、様々な顔偽造検出技術が提案されている。 しかし,これらの検出手法の有効性と一般化性は依然として大きな課題である。 そこで我々は,顔偽造検出の有効性を定量的に評価し,偽造検出技術の反復的開発を容易にするために,DeepFaceGenという大規模評価ベンチマークを構築した。 DeepFaceGenは776,990の実顔画像/ビデオサンプルと773,812の顔偽画像/ビデオサンプルで構成され、34の主流顔生成技術を用いて生成される。 建設過程では、DeepFaceGenの汎用性と利便性を確保するため、コンテンツ多様性、民族間の公正性、包括的ラベルの提供など重要な要素を慎重に検討する。 次に,DeepFaceGenを用いて,13の顔偽造検出技術の性能を様々な観点から評価・解析する。 広範な実験分析を通じて,重要な知見を導き,今後の研究の方向性を示唆する。 DeepFaceGenのコードとデータセットはhttps://anonymous.4open.science/r/DeepFaceGen-47D1で公開されている。

With the rapid development of AI-generated content (AIGC) technology, the production of realistic fake facial images and videos that deceive human visual perception has become possible. Consequently, various face forgery detection techniques have been proposed to identify such fake facial content. However, evaluating the effectiveness and generalizability of these detection techniques remains a significant challenge. To address this, we have constructed a large-scale evaluation benchmark called DeepFaceGen, aimed at quantitatively assessing the effectiveness of face forgery detection and facilitating the iterative development of forgery detection technology. DeepFaceGen consists of 776,990 real face image/video samples and 773,812 face forgery image/video samples, generated using 34 mainstream face generation techniques. During the construction process, we carefully consider important factors such as content diversity, fairness across ethnicities, and availability of comprehensive labels, in order to ensure the versatility and convenience of DeepFaceGen. Subsequently, DeepFaceGen is employed in this study to evaluate and analyze the performance of 13 mainstream face forgery detection techniques from various perspectives. Through extensive experimental analysis, we derive significant findings and propose potential directions for future research. The code and dataset for DeepFaceGen are available at https://anonymous.4open.science/r/DeepFaceGen-47D1.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# パーソナライズされたセマンティックコミュニケーションのためのフェデレーションコントラスト学習

Federated Contrastive Learning for Personalized Semantic Communication ( http://arxiv.org/abs/2406.09182v1 )

ライセンス: Link先を確認
Yining Wang, Wanli Ni, Wenqiang Yi, Xiaodong Xu, Ping Zhang, Arumugam Nallanathan, (参考訳) 本稿では、パーソナライズされたセマンティックコミュニケーションを支援することを目的としたFedCL(Federated contrastive Learning)フレームワークを設計する。 我々のFedCLは、複数のクライアントにまたがるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。 このフレームワークはクライアント側モデルアグリゲーションを必要としないため、異種セマンティックエンコーダをサポートしている。 さらに、分散クライアント間の異種データセットから生じる意味的不均衡問題に対処するために、コントラスト学習を用いてセマンティック・セントロイド・ジェネレータ(SCG)を訓練する。 セマンティック内コンパクト性とセマンティック間セパビリティを示す代表的グローバルセマンティックセントロイドを得る。 これにより、識別的局所的な意味的特徴を学習するための優れた監督を提供する。 さらに,FedCLの収束性能を定量化するために理論的解析を行う。 シミュレーションの結果,他の分散学習ベンチマークと比較して,クライアント数やチャネル条件の違いによるタスク性能やロバスト性,特に低信号対雑音比やヘテロジニアスなデータシナリオに比較して,FedCLフレームワークの優位性を検証した。

In this letter, we design a federated contrastive learning (FedCL) framework aimed at supporting personalized semantic communication. Our FedCL enables collaborative training of local semantic encoders across multiple clients and a global semantic decoder owned by the base station. This framework supports heterogeneous semantic encoders since it does not require client-side model aggregation. Furthermore, to tackle the semantic imbalance issue arising from heterogeneous datasets across distributed clients, we employ contrastive learning to train a semantic centroid generator (SCG). This generator obtains representative global semantic centroids that exhibit intra-semantic compactness and inter-semantic separability. Consequently, it provides superior supervision for learning discriminative local semantic features. Additionally, we conduct theoretical analysis to quantify the convergence performance of FedCL. Simulation results verify the superiority of the proposed FedCL framework compared to other distributed learning benchmarks in terms of task performance and robustness under different numbers of clients and channel conditions, especially in low signal-to-noise ratio and highly heterogeneous data scenarios.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 相関因子回帰モデルにおけるリッジ補間 --正確なリスク解析

Ridge interpolators in correlated factor regression models -- exact risk analysis ( http://arxiv.org/abs/2406.09183v1 )

ライセンス: Link先を確認
Mihailo Stojnic, (参考訳) 相関した 'emph{factor} 回帰モデル (FRM) について検討し, 古典的リッジ補間器の性能解析を行った。 強力な \emph{Random Duality Theory} (RDT) の数学的エンジンを用いて、基礎となる最適化問題と関連する全ての最適化量の閉形式特徴付けを得る。 特に、すべてのキーモデルパラメータ、共分散行列、負荷、次元への依存を明確に示す「emph{excess prediction risk}」の特性を提供する。 過パラメトリゼーション比の関数として、一般化最小二乗(GLS)リスクはよく知られた 'emph{double-descent} (非単調) の挙動を示す。 古典線形回帰モデル(LRM)と同様に、最適に調整されたリッジ正則化により、そのようなFRM現象を滑らかにすることができることを示す。 理論的結果は数値シミュレーションで補足され, 両者の差は良好である。 さらに、''ridge smootenhing' は、既に5ドル以上の過パラメトリゼーション比に対して制限効果があり、10ドル以上のものに対しては事実上効果がない。 このことは、最近最も人気のあるニューラルネットワークパラダイムの1つである \emph{zero-training (interpolating) generalize well} が、FRM推定/予測コンテキストに含まれるものを含むより広範な適用性を持っている、という考えを固めるものだ。

We consider correlated \emph{factor} regression models (FRM) and analyze the performance of classical ridge interpolators. Utilizing powerful \emph{Random Duality Theory} (RDT) mathematical engine, we obtain \emph{precise} closed form characterizations of the underlying optimization problems and all associated optimizing quantities. In particular, we provide \emph{excess prediction risk} characterizations that clearly show the dependence on all key model parameters, covariance matrices, loadings, and dimensions. As a function of the over-parametrization ratio, the generalized least squares (GLS) risk also exhibits the well known \emph{double-descent} (non-monotonic) behavior. Similarly to the classical linear regression models (LRM), we demonstrate that such FRM phenomenon can be smoothened out by the optimally tuned ridge regularization. The theoretical results are supplemented by numerical simulations and an excellent agrement between the two is observed. Moreover, we note that ``ridge smootenhing'' is often of limited effect already for over-parametrization ratios above $5$ and of virtually no effect for those above $10$. This solidifies the notion that one of the recently most popular neural networks paradigms -- \emph{zero-training (interpolating) generalizes well} -- enjoys wider applicability, including the one within the FRM estimation/prediction context.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 外科的位相認識のための胸部手術映像解析

Thoracic Surgery Video Analysis for Surgical Phase Recognition ( http://arxiv.org/abs/2406.09185v1 )

ライセンス: Link先を確認
Syed Abdul Mateen, Niharika Malvia, Syed Abdul Khader, Danny Wang, Deepti Srinivasan, Chi-Fu Jeffrey Yang, Lana Schumacher, Sandeep Manjanna, (参考訳) 本稿では,自動ワークフロー解析のための手術手順を包括的に理解することを目的とした,ビデオデータを用いた外科的位相認識のためのアプローチを提案する。 ロボット手術の出現、デジタル化された手術室、膨大な量のデータの生成は、手術ビデオの分析に機械学習とコンピュータビジョンを応用するための扉を開いた。 これらの進歩の中で、外科的位相認識(SPR)は、進行中の外科的シナリオを認識して評価し、手術を要約し、外科的スキルを評価し、外科的決定支援を提供し、医療訓練を促進する新しい技術として注目されている。 本稿では,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識を解析・評価する。 具体的には、画像ベース分類に ImageNet ViT を使用し、ビデオベース分類のベースラインモデルとして VideoMAE を用いる。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。 これらの知見は,画像に基づく分類器の手術相認識タスクに対する効果を裏付けるものである。

This paper presents an approach for surgical phase recognition using video data, aiming to provide a comprehensive understanding of surgical procedures for automated workflow analysis. The advent of robotic surgery, digitized operating rooms, and the generation of vast amounts of data have opened doors for the application of machine learning and computer vision in the analysis of surgical videos. Among these advancements, Surgical Phase Recognition(SPR) stands out as an emerging technology that has the potential to recognize and assess the ongoing surgical scenario, summarize the surgery, evaluate surgical skills, offer surgical decision support, and facilitate medical training. In this paper, we analyse and evaluate both frame-based and video clipping-based phase recognition on thoracic surgery dataset consisting of 11 classes of phases. Specifically, we utilize ImageNet ViT for image-based classification and VideoMAE as the baseline model for video-based classification. We show that Masked Video Distillation(MVD) exhibits superior performance, achieving a top-1 accuracy of 72.9%, compared to 52.31% achieved by ImageNet ViT. These findings underscore the efficacy of video-based classifiers over their image-based counterparts in surgical phase recognition tasks.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# GuardAgent: ナレッジ付き推論によるガードエージェントによるLLMエージェントの保護

GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning ( http://arxiv.org/abs/2406.09187v1 )

ライセンス: Link先を確認
Zhen Xiang, Linzhi Zheng, Yanjie Li, Junyuan Hong, Qinbin Li, Han Xie, Jiawei Zhang, Zidi Xiong, Chulin Xie, Carl Yang, Dawn Song, Bo Li, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、多数のアプリケーションにまたがるLLMエージェントの展開が促進され、その安全性と信頼性に関する新たな懸念が高まった。 LLMの安全性を高める既存の方法は、様々な目的や出力モダリティのために、LSMを動力とするエージェントに直接転送することはできない。 本稿では,他のLSMエージェントに対するガードレールとしての最初のLSMエージェントであるGardAgentを提案する。 特に、GuardAgentは、その入力/出力が、ユーザが定義した一連のガード要求を満たすかどうかを確認することで、ターゲットLLMエージェントを監督する。 GuardAgentは2つのステップから構成される。 1 提供された警護要請を分析して業務計画を作成すること。 2) タスク計画に基づいてガードレールコードを生成し、APIを呼び出すか、外部エンジンを使用してコードを実行する。 どちらのステップでも、LLMはコア推論コンポーネントとして使われ、メモリモジュールから取得したコンテキスト内デモによって補完される。 このようなナレッジ対応推論により、GuardAgentはさまざまなテキストガード要求を理解し、信頼できるガードレールを提供する実行可能なコードに正確に“翻訳”することができる。 さらに、GuardAgentは機能とAPIを含む拡張可能なツールボックスを備えており、その一般化能力と運用上のオーバーヘッドの低さを裏付ける追加のLLMトレーニングを必要としない。 さらに,医療エージェントのプライバシ関連アクセス制御評価のためのEICU-ACベンチマークと,Webエージェントの安全性評価のためのMind2Web-SCベンチマークの2つの新しいベンチマークを提案する。 ここでは,これらの2種類のベンチマークにおけるガードエージェントの有効性を98.7%,90.0%の精度で示す。 また、GuardAgentは、緊急LLMエージェントやガードリクエストへの適応において、その強力な一般化能力の基盤となる新しい関数を定義することができることを示す。

The rapid advancement of large language models (LLMs) has catalyzed the deployment of LLM-powered agents across numerous applications, raising new concerns regarding their safety and trustworthiness. Existing methods for enhancing the safety of LLMs are not directly transferable to LLM-powered agents due to their diverse objectives and output modalities. In this paper, we propose GuardAgent, the first LLM agent as a guardrail to other LLM agents. Specifically, GuardAgent oversees a target LLM agent by checking whether its inputs/outputs satisfy a set of given guard requests defined by the users. GuardAgent comprises two steps: 1) creating a task plan by analyzing the provided guard requests, and 2) generating guardrail code based on the task plan and executing the code by calling APIs or using external engines. In both steps, an LLM is utilized as the core reasoning component, supplemented by in-context demonstrations retrieved from a memory module. Such knowledge-enabled reasoning allows GuardAgent to understand various textual guard requests and accurately "translate" them into executable code that provides reliable guardrails. Furthermore, GuardAgent is equipped with an extendable toolbox containing functions and APIs and requires no additional LLM training, which underscores its generalization capabilities and low operational overhead. Additionally, we propose two novel benchmarks: an EICU-AC benchmark for assessing privacy-related access control for healthcare agents and a Mind2Web-SC benchmark for safety evaluation for web agents. We show the effectiveness of GuardAgent on these two benchmarks with 98.7% and 90.0% accuracy in moderating invalid inputs and outputs for the two types of agents, respectively. We also show that GuardAgent is able to define novel functions in adaption to emergent LLM agents and guard requests, which underscores its strong generalization capabilities.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# ゼロショット合成画像検索のためのテキストエンコーダのタスク差の低減

Reducing Task Discrepancy of Text Encoders for Zero-Shot Composed Image Retrieval ( http://arxiv.org/abs/2406.09188v1 )

ライセンス: Link先を確認
Jaeseok Byun, Seokhyeon Jeong, Wonjae Kim, Sanghyuk Chun, Taesup Moon, (参考訳) Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な検索を可能にする。 CIRトレーレットの高価なデータセット構築コストのため、ゼロショット(ZS)のCIR設定は、人間が収集したトリプルトデータセットを不要にするために活発に研究されている。 ZS-CIRの主流は、CLIPエンコーダを修正しながら、CLIPテキストトークンの埋め込みスペースにCLIPイメージを投影する効率的なプロジェクションモジュールを使用している。 投影された画像埋め込みを用いて、事前訓練されたテキストエンコーダを用いて、画像テキスト合成機能を生成する。 しかし、彼らのCLIPイメージとテキストエンコーダは、事前トレーニングタスク(text $\leftrightarrow$ image)とターゲットのCIRタスク(image + text $\leftrightarrow$ image)との間のタスクの相違に悩まされる。 概念的には、差分を減らすために高価な三重項サンプルが必要ですが、代わりに安価なテキスト三重項を使用し、テキストエンコーダを更新します。 そこで,本稿では,テキストエンコーダのプラグイン・アンド・プレイ・トレーニング方式であるComposeed Image Retrieval (RTD) のためのテキストエンコーダのタスク離散化について紹介する。 また,提案手法を改善するための2つの手法を提案する。 RTDを最先端のプロジェクションベースのZS-CIR手法に統合することで、さまざまなデータセットやバックボーンのパフォーマンスが大幅に向上し、その効率性と一般化性を示す。

Composed Image Retrieval (CIR) aims to retrieve a target image based on a reference image and conditioning text, enabling controllable searches. Due to the expensive dataset construction cost for CIR triplets, a zero-shot (ZS) CIR setting has been actively studied to eliminate the need for human-collected triplet datasets. The mainstream of ZS-CIR employs an efficient projection module that projects a CLIP image embedding to the CLIP text token embedding space, while fixing the CLIP encoders. Using the projected image embedding, these methods generate image-text composed features by using the pre-trained text encoder. However, their CLIP image and text encoders suffer from the task discrepancy between the pre-training task (text $\leftrightarrow$ image) and the target CIR task (image + text $\leftrightarrow$ image). Conceptually, we need expensive triplet samples to reduce the discrepancy, but we use cheap text triplets instead and update the text encoder. To that end, we introduce the Reducing Task Discrepancy of text encoders for Composed Image Retrieval (RTD), a plug-and-play training scheme for the text encoder that enhances its capability using a novel target-anchored text contrastive learning. We also propose two additional techniques to improve the proposed learning scheme: a hard negatives-based refined batch sampling strategy and a sophisticated concatenation scheme. Integrating RTD into the state-of-the-art projection-based ZS-CIR methods significantly improves performance across various datasets and backbones, demonstrating its efficiency and generalizability.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# Smooth Iductive Biasを用いた物理インフォームドラーニングによる固定次元のベンジングオーバーフィッティング

Bengining overfitting in Fixed Dimension via Physics-Informed Learning with Smooth Iductive Bias ( http://arxiv.org/abs/2406.09194v1 )

ライセンス: Link先を確認
Honam Wong, Wendao Wu, Fanghui Liu, Yiping Lu, (参考訳) 機械学習理論の最近の進歩は、過度にパラメータ化された機械学習アルゴリズムを用いたノイズの多いサンプルへの補間が常に矛盾することを示している。 しかし、この研究は、補間された機械学習が物理の法則を記述する偏微分方程式(PDE)によって制御される教師付きタスクに物理インフォームドラーニングを用いることで、良心的な過剰適合と一貫性を示すことを驚くほど発見している。 解析は、楕円型PDEを含む線形逆問題に対処するカーネルリッジ(レス)回帰のための漸近的なソボレフノルム学習曲線を提供する。 その結果、PDE演算子は分散を安定させ、標準回帰設定とは対照的に、固定次元問題に対して良性オーバーフィッティングをもたらすことが判明した。 また,異なるソボレフノルムを暗黙の正則化として最小化することによって生じる様々な帰納バイアスの影響についても検討した。 特に、収束速度は、隆起と隆起のない回帰の両方に対して特定の(滑らかな)誘導バイアスとは独立である。 正則化最小二乗推定器の場合、正則化パラメータが適切に選択されたとき、すべての(十分に滑らかな)帰納的バイアスは最適収束率を達成することができる。 滑らか性要件はベイズの設定で以前に見つかった条件を回復し、結論を最小ノルム補間推定器に拡張する。

Recent advances in machine learning theory showed that interpolation to noisy samples using over-parameterized machine learning algorithms always leads to inconsistency. However, this work surprisingly discovers that interpolated machine learning can exhibit benign overfitting and consistency when using physics-informed learning for supervised tasks governed by partial differential equations (PDEs) describing laws of physics. An analysis provides an asymptotic Sobolev norm learning curve for kernel ridge(less) regression addressing linear inverse problems involving elliptic PDEs. The results reveal that the PDE operators can stabilize variance and lead to benign overfitting for fixed-dimensional problems, contrasting standard regression settings. The impact of various inductive biases introduced by minimizing different Sobolev norms as implicit regularization is also examined. Notably, the convergence rate is independent of the specific (smooth) inductive bias for both ridge and ridgeless regression. For regularized least squares estimators, all (smooth enough) inductive biases can achieve optimal convergence rates when the regularization parameter is properly chosen. The smoothness requirement recovers a condition previously found in the Bayesian setting and extends conclusions to minimum norm interpolation estimators.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 適応スロット注意:動的スロット数によるオブジェクト発見

Adaptive Slot Attention: Object Discovery with Dynamic Slot Number ( http://arxiv.org/abs/2406.09196v1 )

ライセンス: Link先を確認
Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang, (参考訳) オブジェクト中心学習(OCL)は、低レベルの知覚的特徴を抽象化するための、柔軟性と解釈性の例外的なブレンドを提供する、スロット付きオブジェクトの表現を抽出する。 OCLで広く採用されている手法はスロットアテンションであり、注意機構を利用してスロット表現を反復的に洗練する。 しかし、スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。 これはデータセットの事前の知識を必要とするだけでなく、各インスタンスに存在するオブジェクトの数に固有の変動性を見落としている。 この基本的な制限を克服するために、我々は新しい複雑性を意識したオブジェクト自動エンコーダフレームワークを提案する。 本フレームワークでは,データの内容に基づいて最適なスロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。 これは、候補リストから適切な数のスロットを選択する責任を持つ離散スロットサンプリングモジュールを提案することで達成される。 さらに,デコード処理中に未選択のスロットを抑制するマスク付きスロットデコーダを導入する。 我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。 さらに,本手法は各インスタンスの複雑さに応じてスロット番号を動的に適応させる能力を示し,スロットアテンション研究におけるさらなる探索の可能性を示す。 プロジェクトはhttps://kfan21.github.io/AdaSlot/で公開される。

Object-centric learning (OCL) extracts the representation of objects with slots, offering an exceptional blend of flexibility and interpretability for abstracting low-level perceptual features. A widely adopted method within OCL is slot attention, which utilizes attention mechanisms to iteratively refine slot representations. However, a major drawback of most object-centric models, including slot attention, is their reliance on predefining the number of slots. This not only necessitates prior knowledge of the dataset but also overlooks the inherent variability in the number of objects present in each instance. To overcome this fundamental limitation, we present a novel complexity-aware object auto-encoder framework. Within this framework, we introduce an adaptive slot attention (AdaSlot) mechanism that dynamically determines the optimal number of slots based on the content of the data. This is achieved by proposing a discrete slot sampling module that is responsible for selecting an appropriate number of slots from a candidate list. Furthermore, we introduce a masked slot decoder that suppresses unselected slots during the decoding process. Our framework, tested extensively on object discovery tasks with various datasets, shows performance matching or exceeding top fixed-slot models. Moreover, our analysis substantiates that our method exhibits the capability to dynamically adapt the slot number according to each instance's complexity, offering the potential for further exploration in slot attention research. Project will be available at https://kfan21.github.io/AdaSlot/
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# CLIP-Driven Cloth-Agnostic Feature Learning for Cloth-Changing Person Re-Identification

CLIP-Driven Cloth-Agnostic Feature Learning for Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2406.09198v1 )

ライセンス: Link先を確認
Shuang Li, Jiaxu Leng, Guozhang Li, Ji Gan, Haosheng chen, Xinbo Gao, (参考訳) CLIP(Contrastive Language- Image Pre-Training)は、歩行者の高度な意味的特徴を抽出する能力により、短期的人物認識(ReID)において顕著な性能を示したが、CLIPのイメージエンコーダが衣服の手がかりに過度に焦点をあてることにより、その直接的応用は課題に直面している。 そこで我々は,CC-ReIDのためのCLIP-Driven Cloth-Agnostic Feature Learning (CCAF) という新しいフレームワークを提案する。 これにより、Invariant Feature Prompting (IFP) と Clothes Feature Minimization (CFM) の2つのモジュールがカスタム設計された。 これらのモジュールは, 衣服関連特徴を肯定的に抽出し, 衣服関連特徴を否定的に減少させる。 具体的には、IFPは、原画像から衣服とは無関係な細粒な意味的特徴を抽出し、布を含まないテキストプロンプトでガイドする。 このモジュールは、まず、ピクセルレベルの生画像の衣服をカバーし、遮蔽画像を取得し、次にCLIPの知識を利用して布を知らないテキストプロンプトを生成する。 その後、特徴空間における原画像テキストと原画像シールド画像とを整列させ、アイデンティティに関連する識別的手がかりを強調するが、衣服とは無関係である。 さらに、CFMは、衣料品の特徴を抽出する画像エンコーダの能力を検査し、弱めるように設計されている。 まず、衣服のピクセルに対応するテキストプロンプトを生成する。 そして、これらの衣服のテキストプロンプトに導かれ、歩行者の特徴から衣服の特徴を反復的に分析し、切り離し、最終的に固有の差別的特徴を保持する。 大規模な実験により提案されたCCAFの有効性が実証され、いくつかのCC-ReIDベンチマークで新たな最先端性能を実現した。

Contrastive Language-Image Pre-Training (CLIP) has shown impressive performance in short-term Person Re-Identification (ReID) due to its ability to extract high-level semantic features of pedestrians, yet its direct application to Cloth-Changing Person Re-Identification (CC-ReID) faces challenges due to CLIP's image encoder overly focusing on clothes clues. To address this, we propose a novel framework called CLIP-Driven Cloth-Agnostic Feature Learning (CCAF) for CC-ReID. Accordingly, two modules were custom-designed: the Invariant Feature Prompting (IFP) and the Clothes Feature Minimization (CFM). These modules guide the model to extract cloth-agnostic features positively and attenuate clothes-related features negatively. Specifically, IFP is designed to extract fine-grained semantic features unrelated to clothes from the raw image, guided by the cloth-agnostic text prompts. This module first covers the clothes in the raw image at the pixel level to obtain the shielding image and then utilizes CLIP's knowledge to generate cloth-agnostic text prompts. Subsequently, it aligns the raw image-text and the raw image-shielding image in the feature space, emphasizing discriminative clues related to identity but unrelated to clothes. Furthermore, CFM is designed to examine and weaken the image encoder's ability to extract clothes features. It first generates text prompts corresponding to clothes pixels. Then, guided by these clothes text prompts, it iteratively examines and disentangles clothes features from pedestrian features, ultimately retaining inherent discriminative features. Extensive experiments have demonstrated the effectiveness of the proposed CCAF, achieving new state-of-the-art performance on several popular CC-ReID benchmarks without any additional inference time.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 重相関下における尾根補間器の精密解析-ランダム二重性理論の観点から

Precise analysis of ridge interpolators under heavy correlations -- a Random Duality Theory view ( http://arxiv.org/abs/2406.09199v1 )

ライセンス: Link先を確認
Mihailo Stojnic, (参考訳) 完全行/カラム関連線形回帰モデルを検討し、いくつかの古典的推定器(最小ノルム補間器(GLS)、通常最小二乗法(LS)、リッジ回帰器など)について検討する。 提案手法は, 有意値の最大化量(検定や一般化誤差)を含むすべての推定値について, 厳密な閉形式的特徴量を得るのに有効であることを示す。 定性的レベルのアウトでは、特徴/サンプルサイズ比が増加するにつれて、リスクのよく知られた非単調(いわゆる二重発振)な振る舞いが回復する。 定量レベルでは, リスクが問題次元や共分散行列を含むすべての主要なモデルパラメータに明示的に依存することを示す。 さらに, [6,16,17,24] のスペクトル法を用いて得られた結果と, サンプル内(または時系列)相関が存在しない場合に, 精度良く一致した結果が得られた。

We consider fully row/column-correlated linear regression models and study several classical estimators (including minimum norm interpolators (GLS), ordinary least squares (LS), and ridge regressors). We show that \emph{Random Duality Theory} (RDT) can be utilized to obtain precise closed form characterizations of all estimators related optimizing quantities of interest, including the \emph{prediction risk} (testing or generalization error). On a qualitative level out results recover the risk's well known non-monotonic (so-called double-descent) behavior as the number of features/sample size ratio increases. On a quantitative level, our closed form results show how the risk explicitly depends on all key model parameters, including the problem dimensions and covariance matrices. Moreover, a special case of our results, obtained when intra-sample (or time-series) correlations are not present, precisely match the corresponding ones obtained via spectral methods in [6,16,17,24].
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 自己教師型音声表現における話者情報と音声情報の直交性と等方性

Orthogonality and isotropy of speaker and phonetic information in self-supervised speech representations ( http://arxiv.org/abs/2406.09200v1 )

ライセンス: Link先を確認
Mukhtar Mohamed, Oli Danyi Liu, Hao Tang, Sharon Goldwater, (参考訳) 自己教師型音声表現は、下流の音声技術に多大な恩恵をもたらすが、それらに役立つ性質はいまだによく理解されていない。 表現空間の幾何学に関連する2つの候補特性は、下流のタスクとよく相関していると仮定されている:(1) 話者セントロイドと電話セントロイドによって広がる部分空間の間の直交性の度合い、(2) 空間の等方性、すなわち、すべての次元が有効に活用される度合い。 そこで本研究では,両特性の評価に使用できるCRV(Cumulative Residual Variance)を新たに導入する。 話者と電話IDの線形分類器を用いて、6つの異なる自己教師付きモデルと2つの非訓練ベースラインの表現を探索し、直交性か等方性かが線形探索精度と相関するかどうかを問う。 両測度は音韻探索精度と相関するが, 等方性に関する結果はより微妙である。

Self-supervised speech representations can hugely benefit downstream speech technologies, yet the properties that make them useful are still poorly understood. Two candidate properties related to the geometry of the representation space have been hypothesized to correlate well with downstream tasks: (1) the degree of orthogonality between the subspaces spanned by the speaker centroids and phone centroids, and (2) the isotropy of the space, i.e., the degree to which all dimensions are effectively utilized. To study them, we introduce a new measure, Cumulative Residual Variance (CRV), which can be used to assess both properties. Using linear classifiers for speaker and phone ID to probe the representations of six different self-supervised models and two untrained baselines, we ask whether either orthogonality or isotropy correlate with linear probing accuracy. We find that both measures correlate with phonetic probing accuracy, though our results on isotropy are more nuanced.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# オブジェクト検出の強化:V3Det Challenge 2024におけるVast Vocabulary Object Detection Trackの検討

Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024 ( http://arxiv.org/abs/2406.09201v1 )

ライセンス: Link先を確認
Peixi Wu, Bosong Chai, Xuan Nie, Longquan Yan, Zeyu Wang, Qifan Zhou, Boning Wang, (参考訳) 本稿では,Vast Vocabulary Visual Detection (V3Det) データセットを用いて,教師付きVast Vocabulary Visual Detectionタスクについて検討した。 このトラックでは、複雑なカテゴリや検出ボックスの扱いが困難になっている。 オリジナルの管制検出器は、この作業には適していない。 ネットワーク構造の調整、損失関数の変更、トレーニング戦略の設計など、一連の改善を設計しました。 我々のモデルは,V3Det Challenge 2024のVast Vocabulary Object Detection(Supervised)トラックとOpen Vocabulary Object Detection(OVD)トラックの両方において,ベースラインを改良し,Leadboardの優れたランキングを達成した。

In this technical report, we present our findings from the research conducted on the Vast Vocabulary Visual Detection (V3Det) dataset for Supervised Vast Vocabulary Visual Detection task. How to deal with complex categories and detection boxes has become a difficulty in this track. The original supervised detector is not suitable for this task. We have designed a series of improvements, including adjustments to the network structure, changes to the loss function, and design of training strategies. Our model has shown improvement over the baseline and achieved excellent rankings on the Leaderboard for both the Vast Vocabulary Object Detection (Supervised) track and the Open Vocabulary Object Detection (OVD) track of the V3Det Challenge 2024.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 言語複雑度と音声認識精度:orthographic Complexity Hurts, Phonological Complexity does't not

Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't ( http://arxiv.org/abs/2406.09202v1 )

ライセンス: Link先を確認
Chihiro Taguchi, David Chiang, (参考訳) 本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。 正書法と音韻学の複雑さはどちらも精度を低下させるという仮説を立てる。 そこで本研究では,25言語と15の書記システムを用いた多言語自己教師型モデルWav2Vec2-XLSR-53を微調整し,それらのASR精度,グラフエム数,ユニグラムグラフエントロピー,ログラフ性(記述システムでワード/モーフィムレベルの情報がどの程度符号化されているか),音素数を比較した。 その結果, 音韻複雑度はASRの精度と有意な相関を示したが, 音韻複雑度には有意な相関は認められなかった。

We investigate what linguistic factors affect the performance of Automatic Speech Recognition (ASR) models. We hypothesize that orthographic and phonological complexities both degrade accuracy. To examine this, we fine-tune the multilingual self-supervised pretrained model Wav2Vec2-XLSR-53 on 25 languages with 15 writing systems, and we compare their ASR accuracy, number of graphemes, unigram grapheme entropy, logographicity (how much word/morpheme-level information is encoded in the writing system), and number of phonemes. The results demonstrate that orthographic complexities significantly correlate with low ASR accuracy, while phonological complexity shows no significant correlation.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# 運転のための視覚的質問応答モデルの最適化:人間と機械の注意パターンのギャップを埋める

Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns ( http://arxiv.org/abs/2406.09203v1 )

ライセンス: Link先を確認
Kaavya Rekanar, Martin Hayes, Ganesh Sistu, Ciaran Eising, (参考訳) 視覚質問応答(VQA)モデルは、車両がテキストクエリと並行して視覚入力を解析し、車両とその利用者または他の道路利用者との自然な相互作用と信頼を促進することによって、自律運転システムの知覚能力を高める上で重要な役割を担っている。 本研究では、運転関連質問に答える際のVQAモデルと比較して、人間の注意パターンについて検討し、観察対象の相違を明らかにする。 本稿では,モデルの注意機構を最適化するためにフィルタを統合する手法を提案し,関連オブジェクトの優先順位付けと精度の向上を図る。 ケーススタディにおいて,LXMERTモデルを用いて,NuImagesデータセットの画像を用いた人間の回答とともに,事前学習およびフィルタ統合モデルの注意パターンを比較し,特徴優先順位付けの洞察を得た。 我々は,特徴エンコーダフィルタの統合により,その注意機構を改良することにより,VQAモデルの性能が向上したことを示す主観的スコアリングフレームワークを用いてモデルを評価した。

Visual Question Answering (VQA) models play a critical role in enhancing the perception capabilities of autonomous driving systems by allowing vehicles to analyze visual inputs alongside textual queries, fostering natural interaction and trust between the vehicle and its occupants or other road users. This study investigates the attention patterns of humans compared to a VQA model when answering driving-related questions, revealing disparities in the objects observed. We propose an approach integrating filters to optimize the model's attention mechanisms, prioritizing relevant objects and improving accuracy. Utilizing the LXMERT model for a case study, we compare attention patterns of the pre-trained and Filter Integrated models, alongside human answers using images from the NuImages dataset, gaining insights into feature prioritization. We evaluated the models using a Subjective scoring framework which shows that the integration of the feature encoder filter has enhanced the performance of the VQA model by refining its attention mechanisms.
翻訳日:2024-06-14 17:14:49 公開日:2024-06-13
# ReadCtrl: 可読性制御型命令学習によるテキスト生成のパーソナライズ

ReadCtrl: Personalizing text generation with readability-controlled instruction learning ( http://arxiv.org/abs/2406.09205v1 )

ライセンス: Link先を確認
Hieu Tran, Zonghai Yao, Lingxi Li, Hong Yu, (参考訳) ユーザの可読性に対するコンテンツ生成条件付けはパーソナライズのための重要なアプリケーションである。 大規模言語モデル (LLM) の時代には, LLM に基づく可読性制御によるテキスト生成がますます重要になっている。 本稿では,可読性学習(Readability-Controlled Instruction Learning,ReadCtrl)と呼ばれる新しい手法を提案する。 一般的な分類学的可読性調整に重点を置いている従来の手法とは異なり、ReadCtrlは、LLMが様々な(ほぼ連続的な)複雑さレベルでコンテンツを生成できる動的なフレームワークを導入し、異なるアプリケーション間でのそれらの汎用性を高める。 以上の結果から,ReadCtrl-Mistral-7BモデルはGPT-4やClaude-3などの強力なベースラインモデルよりも有意に優れており,GPT-4に対する勝利率は52.1%:35.7%であった。 さらにRead-Ctrlは、より良い可読性指標(例えば、FOG、FKGL)と生成品質指標(例えば、BLEU、SARI、SummaC-Factuality、UniEval-Consistency、Coherence)によって証明されたように、自動評価の大幅な改善を示している。 これらの結果は、LLMを用いたパーソナライズされたコンテンツ生成において、ターゲットの可読性レベルと密に一致した高品質で文脈的に適切なアウトプットを生成する上で、Read-Ctrlの有効性と忍耐性を裏付けるものである。

Content generation conditioning on users's readability is an important application for personalization. In an era of large language models (LLMs), readability-controlled text generation based on LLMs has become increasingly important. This paper introduces a novel methodology called "Readability-Controlled Instruction Learning (ReadCtrl)," which aims to instruction-tune LLMs to tailor users' readability levels. Unlike the traditional methods, which primarily focused on categorical readability adjustments typically classified as high, medium, and low or expert and layperson levels with limited success, ReadCtrl introduces a dynamic framework that enables LLMs to generate content at various (near continuous level) complexity levels, thereby enhancing their versatility across different applications. Our results show that the ReadCtrl-Mistral-7B models significantly outperformed strong baseline models such as GPT-4 and Claude-3, with a win rate of 52.1%:35.7% against GPT-4 in human evaluations. Furthermore, Read-Ctrl has shown significant improvements in automatic evaluations, as evidenced by better readability metrics (e.g., FOG, FKGL) and generation quality metrics (e.g., BLEU, SARI, SummaC-Factuality, UniEval-Consistency and Coherence). These results underscore Read-Ctrl's effectiveness and tenacity in producing high-quality, contextually appropriate outputs that closely align with targeted readability levels, marking a significant advancement in personalized content generation using LLMs.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 事前学習言語モデルを用いたテキスト分類のためのサンプル能動学習のための自己学習

Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models ( http://arxiv.org/abs/2406.09206v1 )

ライセンス: Link先を確認
Christopher Schröder, Gerhard Heyer, (参考訳) アクティブラーニング(英: Active Learning)は、ラベル付きデータがないにもかかわらず、小さなラベル付きサブセットを得るために使われる反復的なラベリングプロセスであり、それによってテキスト分類などの教師付きタスクのモデルを訓練することができる。 近年、事前訓練された言語モデルによる改善により、アクティブラーニングは大幅に進歩しているが、通常は小さなラベル付きデータよりもかなり大きな量で利用できるが、しばしば無視されたラベル付きデータの一部に潜在的な可能性はない。 本稿では,テキスト分類における能動的学習の効率向上のために,ラベルのないデータから擬似ラベルを得るためのモデルを用いた半教師付き学習手法である自己学習について検討する。 HASTは、4つのテキスト分類ベンチマークで評価され、再現された自己学習アプローチより優れ、4つのデータセットのうち3つに匹敵する分類結果が得られる。

Active learning is an iterative labeling process that is used to obtain a small labeled subset, despite the absence of labeled data, thereby enabling to train a model for supervised tasks such as text classification. While active learning has made considerable progress in recent years due to improvements provided by pre-trained language models, there is untapped potential in the often neglected unlabeled portion of the data, although it is available in considerably larger quantities than the usually small set of labeled data. Here we investigate how self-training, a semi-supervised approach where a model is used to obtain pseudo-labels from the unlabeled data, can be used to improve the efficiency of active learning for text classification. Starting with an extensive reproduction of four previous self-training approaches, some of which are evaluated for the first time in the context of active learning or natural language processing, we devise HAST, a new and effective self-training strategy, which is evaluated on four text classification benchmarks, on which it outperforms the reproduced self-training approaches and reaches classification results comparable to previous experiments for three out of four datasets, using only 25% of the data.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# ベイジアンネットワーク構造学習によるセプシスの潜在的な原因の解明

Investigating potential causes of Sepsis with Bayesian network structure learning ( http://arxiv.org/abs/2406.09207v1 )

ライセンス: Link先を確認
Bruno Petrungaro, Neville K. Kitson, Anthony C. Constantinou, (参考訳) セプシスは命の危険で深刻な世界的な健康問題である。 本研究は、政策決定に影響を及ぼすセプシスの潜在的な原因を調査するために、利用可能な病院データと知識を組み合わせる。 臨床専門知識とスコアベース,制約ベース,ハイブリッド構造学習アルゴリズムを組み合わせることで,この問題の根底にある因果構造を考察する。 因果推論のためのコンセンサス構造に到達するために,モデル平均化と知識に基づく制約を新たに導入した。 構造学習プロセスは、臨床専門知識とともに、データ駆動アプローチを探求することの重要性を強調した。 これには、臨床的観点から予期せぬ、合理的な関係を発見することが含まれる。 慢性閉塞性肺疾患、アルコール依存症、糖尿病に対する仮説的介入は、これらの危険因子のいずれかが患者のセプシスの可能性を高めることを示唆している。 この発見は、これらのリスク要因がセプシスに与える影響を測ると共に、潜在的に政策に影響を及ぼす可能性がある。 セプシスに関連する健康結果を改善する上での予測の重要性を認識し、構築されたモデルはセプシスを予測する能力において評価される。 コンセンサスモデルにより生成された予測は,精度,感度,特異性について評価した。 これら3つの指標はすべて約70%の結果であり、AUCは80%であった。

Sepsis is a life-threatening and serious global health issue. This study combines knowledge with available hospital data to investigate the potential causes of Sepsis that can be affected by policy decisions. We investigate the underlying causal structure of this problem by combining clinical expertise with score-based, constraint-based, and hybrid structure learning algorithms. A novel approach to model averaging and knowledge-based constraints was implemented to arrive at a consensus structure for causal inference. The structure learning process highlighted the importance of exploring data-driven approaches alongside clinical expertise. This includes discovering unexpected, although reasonable, relationships from a clinical perspective. Hypothetical interventions on Chronic Obstructive Pulmonary Disease, Alcohol dependence, and Diabetes suggest that the presence of any of these risk factors in patients increases the likelihood of Sepsis. This finding, alongside measuring the effect of these risk factors on Sepsis, has potential policy implications. Recognising the importance of prediction in improving Sepsis related health outcomes, the model built is also assessed in its ability to predict Sepsis. The predictions generated by the consensus model were assessed for their accuracy, sensitivity, and specificity. These three indicators all had results around 70%, and the AUC was 80%, which means the causal structure of the model is reasonably accurate given that the models were trained on data available for commissioning purposes only.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# WildlifeReID-10k:10万個体による野生生物の再同定データセット

WildlifeReID-10k: Wildlife re-identification dataset with 10k individual animals ( http://arxiv.org/abs/2406.09211v1 )

ライセンス: Link先を確認
Lukáš Adam, Vojtěch Čermák, Kostas Papafitsoros, Lukas Picek, (参考訳) 野生生物再同定データセットWildlifeReID-10kを導入し、10k個体の214k以上の画像を紹介した。 これは、30の既存の野生生物の再識別データセットのコレクションであり、追加の処理ステップがある。 野生生物ReID-10kには海産カメ、霊長類、鳥類、アフリカの草食動物、海洋哺乳類、家畜など多様な動物が含まれている。 データセットに類似した画像が多種多様であるため、標準(ランダム)はトレーニングに分割され、テストセットは野生生物の再識別には不十分であり、抽出された特徴の類似性に基づいた新しい類似性認識分割を提案する。 公正なメソッド比較を促進するために、クローズドセットとオープンセットの設定の両方で類似性を認識した分割、ベースラインのパフォーマンスにMegaDescriptor(野生生物の再識別の基礎モデル)を使用し、最高の結果でリーダーボードをホストします。 WildlifeReID-10kは、高いキュレートと使いやすさの両方を実現するために、ワイルドライフデータセットライブラリでデータセットとコードを作成するために使用されるコードを公開しています。

We introduce a new wildlife re-identification dataset WildlifeReID-10k with more than 214k images of 10k individual animals. It is a collection of 30 existing wildlife re-identification datasets with additional processing steps. WildlifeReID-10k contains animals as diverse as marine turtles, primates, birds, African herbivores, marine mammals and domestic animals. Due to the ubiquity of similar images in datasets, we argue that the standard (random) splits into training and testing sets are inadequate for wildlife re-identification and propose a new similarity-aware split based on the similarity of extracted features. To promote fair method comparison, we include similarity-aware splits both for closed-set and open-set settings, use MegaDescriptor - a foundational model for wildlife re-identification - for baseline performance and host a leaderboard with the best results. We publicly publish the dataset and the codes used to create it in the wildlife-datasets library, making WildlifeReID-10k both highly curated and easy to use.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# プライバシ保護による生産経路問題の解決のためのマルチエージェントネゴシエーションの適用

Applying Multi-Agent Negotiation to Solve the Production Routing Problem With Privacy Preserving ( http://arxiv.org/abs/2406.09214v1 )

ライセンス: Link先を確認
Luiza Pellin Biasoto, Vinicius Renan de Carvalho, Jaime Simão Sichman, (参考訳) 本稿では,プライチェーン最適化におけるプライバシ保護による生産経路問題(PRPPP)に対する新たなアプローチを提案する。 実業界アプリケーションにおける生産、在庫、流通、ルーティング決定の統合最適化は、複雑さの増加、計画と実行の相違、情報共有の制約など、いくつかの課題をもたらす。 これらの課題を軽減するため、最適化アルゴリズムと統合されたハイブリッドマルチエージェントシステム(MAS)におけるインテリジェントエージェントネゴシエーションの利用を提案する。 MASは、エンティティ間のコミュニケーションと協調を促進し、プライベート情報をカプセル化し、交渉を可能にする。 これにより最適化アルゴリズムとともに、最適なソリューションを確立するための魅力的なフレームワークとなる。 この手法は、MASと最適化手法の実際の応用と相乗効果に支えられ、複雑なサプライチェーン最適化問題に対処する上での有効性を示す。

This paper presents a novel approach to address the Production Routing Problem with Privacy Preserving (PRPPP) in supply chain optimization. The integrated optimization of production, inventory, distribution, and routing decisions in real-world industry applications poses several challenges, including increased complexity, discrepancies between planning and execution, and constraints on information sharing. To mitigate these challenges, this paper proposes the use of intelligent agent negotiation within a hybrid Multi-Agent System (MAS) integrated with optimization algorithms. The MAS facilitates communication and coordination among entities, encapsulates private information, and enables negotiation. This, along with optimization algorithms, makes it a compelling framework for establishing optimal solutions. The approach is supported by real-world applications and synergies between MAS and optimization methods, demonstrating its effectiveness in addressing complex supply chain optimization problems.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 勧告に対するソフトマックス直接選好最適化について

On Softmax Direct Preference Optimization for Recommendation ( http://arxiv.org/abs/2406.09215v1 )

ライセンス: Link先を確認
Yuxin Chen, Junfei Tan, An Zhang, Zhengyi Yang, Leheng Sheng, Enzhi Zhang, Xiang Wang, Tat-Seng Chua, (参考訳) リコメンダシステムは、ユーザの好みデータに基づいて、パーソナライズされたランキングを予測することを目的としている。 言語モデル(LM)の台頭に伴い、LMベースの推薦者は、その豊富な世界知識と強力な推論能力のために広く研究されてきた。 LMベースのレコメンデータのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲットの応答として肯定的な項目とペアリングし、言語モデリングの損失を微調整する。 しかし、現在の目標は、好みデータを完全に活用できず、パーソナライズされたランキングタスクに最適化されていないため、LMベースのレコメンデータのパフォーマンスを損なう。 人選好アライメントにおける直接選好最適化(DPO)の現在の進歩と、リコメンデーションにおけるソフトマックスロスの成功にインスパイアされた我々は、LMにランキング情報を注入し、LMベースのレコメンデーターが好む項目をネガティブと区別するのに役立つよう、ソフトマックスDPO(\textbf{S-DPO})を提案する。 具体的には、ユーザ嗜好データに複数の負を組み込んで、軟質マックスサンプリング戦略に関連するLMベースのレコメンデータに適したDPO損失の代替版を考案する。 理論的には、S-DPOを負のサンプリングよりもソフトマックス損失で橋渡しし、ハードネガティブをマイニングする副作用があることを発見し、レコメンデーションタスクにおいてその例外的な能力を保証する。 実世界の3つのデータセットで実施された広範な実験は、S-DPOの優位性を示し、ユーザの好みを効果的にモデル化し、DPOのデータ可能性低下問題を緩和しつつ、推奨性能をさらに向上させる。 私たちのコードはhttps://github.com/chenyuxin 1999/S-DPO.comで公開されています。

Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (\textbf{S-DPO}) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has a side effect of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while mitigating the data likelihood decline issue of DPO. Our codes are available at https://github.com/chenyuxin1999/S-DPO.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# MGRQ: 混合粒度再構成による視力変換器の訓練後量子化

MGRQ: Post-Training Quantization For Vision Transformer With Mixed Granularity Reconstruction ( http://arxiv.org/abs/2406.09229v1 )

ライセンス: Link先を確認
Lianwei Yang, Zhikai Li, Junrui Xiao, Haisong Gong, Qingyi Gu, (参考訳) 後トレーニング量子化(PTQ)は視覚モデルを効率よく圧縮するが、残念ながらある程度の精度劣化を伴う。 再構成手法は、量子化モデルと完全精度モデルとのギャップを狭め、しばしば有望な結果をもたらすことによってモデル性能を向上させることを目的としている。 しかし,視覚変換器(ViT)の再構成によりPTQの性能を大幅に向上させる試みは,有効性に限界があることが示されている。 本稿では,この限界効果の理由を徹底的に分析し,MGRQ(Mixed Granularity Reconstruction Quantization)をこの問題に対する解決策として提案する。 従来の復元方式とは異なり、MGRQは混合粒度再構成方式を導入している。 特に、MGRQは、最適化ブロックワイドレコンストラクションに基づいて、Extra-Block Global SupervisionとIntra-Block Local Supervisionを導入し、PTQの性能を向上させる。 Extra-Block Global Supervisionはブロック出力とモデル出力の関係を考察し、グローバル監視によるブロックワイズ再構築を支援する。 一方、ブロック内局所スーパービジョンは、ブロック内の各層における出力の分布を整列することで、一般化誤差を低減する。 その後、MGRQはMixed Granularity Loss Fusionによる再構築のためにさらに最適化されている。 様々なViTモデルで実施された大規模な実験は、MGRQの有効性を示している。 特に、MGRQは低ビット量子化におけるロバストな性能を示し、量子化モデルの実用性を高める。

Post-training quantization (PTQ) efficiently compresses vision models, but unfortunately, it accompanies a certain degree of accuracy degradation. Reconstruction methods aim to enhance model performance by narrowing the gap between the quantized model and the full-precision model, often yielding promising results. However, efforts to significantly improve the performance of PTQ through reconstruction in the Vision Transformer (ViT) have shown limited efficacy. In this paper, we conduct a thorough analysis of the reasons for this limited effectiveness and propose MGRQ (Mixed Granularity Reconstruction Quantization) as a solution to address this issue. Unlike previous reconstruction schemes, MGRQ introduces a mixed granularity reconstruction approach. Specifically, MGRQ enhances the performance of PTQ by introducing Extra-Block Global Supervision and Intra-Block Local Supervision, building upon Optimized Block-wise Reconstruction. Extra-Block Global Supervision considers the relationship between block outputs and the model's output, aiding block-wise reconstruction through global supervision. Meanwhile, Intra-Block Local Supervision reduces generalization errors by aligning the distribution of outputs at each layer within a block. Subsequently, MGRQ is further optimized for reconstruction through Mixed Granularity Loss Fusion. Extensive experiments conducted on various ViT models illustrate the effectiveness of MGRQ. Notably, MGRQ demonstrates robust performance in low-bit quantization, thereby enhancing the practicality of the quantized model.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# Schrödinger-Newtonモデルにおける相関と信号

Correlations and Signaling in the Schrödinger-Newton Model ( http://arxiv.org/abs/2406.09230v1 )

ライセンス: Link先を確認
Jacek Aleksander Gruca, Ankit Kumar, Ray Ganardi, Paramasivan Arumugam, Karolina Kropielnicka, Tomasz Paterek, (参考訳) Schr\"odinger-Newtonモデル(英語版)は、相互のアトラクションに加えて、巨大な量子粒子が自身の重力場と相互作用する半古典理論である。 単一粒子の現象論には多くの研究があるが、多粒子系の相関ダイナミクスはほとんど解明されていない。 ここでは、Schr\"odinger-Newton相互作用は初期状態の積形式を保存するが、平均的には連続質量分布の古典力学と一致する。 これは、非生成物状態への二部構造重力の進化を検証することに基づく、モデルの簡単なテストにつながる。 現在アクセス可能な単一粒子パラメータを持つ標準量子力学を用いて、調和トラップから放出される2つの質量は、観測可能な絡み合いが蓄積される前によく相関することを示す。 したがって、シュリンガー・ニュートン模型は、コヒーレンス時間に対する要求が著しく緩和された重力絡みの観測を目的とした設定で試験することができる。 また,スーパールミナルシグナリングを回避する混合状態拡張法を提案する。

The Schr\"odinger-Newton model is a semi-classical theory in which, in addition to mutual attraction, massive quantum particles interact with their own gravitational fields. While there are many studies on the phenomenology of single particles, correlation dynamics in multipartite systems is largely unexplored. Here, we show that the Schr\"odinger-Newton interactions preserve the product form of initial states, yet on average it agrees with classical mechanics of continuous mass distributions. This leads to a simple test of the model, based on verifying bipartite gravitational evolution towards non-product states. We show using standard quantum mechanics that, with currently accessible single-particle parameters, two masses released from harmonic traps get correlated well before any observable entanglement is accumulated. Therefore, the Schr\"odinger-Newton model can be tested with setups aimed at observation of gravitational entanglement with significantly relaxed requirements on coherence time. We also present a mixed-state extension of the model that avoids superluminal signaling.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 量子コンピュータ上の弾性散乱

Elastic scattering on a quantum computer ( http://arxiv.org/abs/2406.09231v1 )

ライセンス: Link先を確認
Muhammad Yusf, Ling Gan, Cameron Moffat, Gautam Rupak, (参考訳) 散乱は量子系の内部構造を探索する。 量子コンピュータ上での短距離相互作用に対する2粒子弾性散乱位相シフトを計算する。 大きな散乱長または浅い境界状態を持つ短距離相互作用は、原子、凝縮物質、核、粒子物理学に興味を持つ普遍性クラスを記述する。 位相シフトは、相互作用する粒子の基底状態エネルギーをハーモニックトラップで関連付けて計算する。 この緩和法は基底状態計算のための変分量子固有解法として用いられる。 シュミット分解(Schmidt decomposition)は、数量子ビットから2量子ビットの回路に名目上要求される量子回路を減らし、量子測定におけるノイズを低減するために用いられる。 多体相互作用を持つ多粒子系の計算は、ノイズの多い量子プロセッサにおける量子ビットの減少の恩恵を受ける。

Scattering probes the internal structure of quantum systems. We calculate the two-particle elastic scattering phase shift for a short-ranged interaction on a quantum computer. Short-ranged interactions with a large scattering length or shallow bound state describe a universality class that is of interest in atomic, condensed matter, nuclear, and particle physics. The phase shift is calculated by relating the ground state energy of the interacting particles in a harmonic trap. The relaxation method is used as the variational quantum eigensolver for the ground state calculation. Schmidt decomposition is used to reduce quantum circuits nominally requiring tens of qubits to 2-qubit circuits, thus reducing the noise in quantum measurements. Calculations in multi-particle systems with many-body interactions would benefit from this reduction of qubits in noisy quantum processors.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 視覚インストラクションチューニングの比較

Comparison Visual Instruction Tuning ( http://arxiv.org/abs/2406.09240v1 )

ライセンス: Link先を確認
Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky, (参考訳) 共通性と差異(CaD)の観点で2つの画像を比較することは、高度な視覚的推論と解釈の基礎を形成する基本的な人間の能力である。 詳細で文脈に関連のある記述の生成、比較分析、新規性検出、視覚データに基づく情報的決定に不可欠である。 しかし、驚くべきことに、人間の視覚知能の最良の模倣であるLMM(Large Multimodal Models)において、これらの基本的な概念にはほとんど注意が払われていない。 本研究では,CaD-VIを用いて収集したCaD命令と349K画像対を含む命令追従データセットCaD-Instとともに,合成視覚命令を収集するための新しい2相アプローチCaD-VIを開発し,コントリビューションする。 我々のアプローチはLMMにおけるCaDスポッティング能力を著しく改善し、SOTAを最大17.5%まで改善する。 また、既存の差分のみの命令データセットを補完し、CaDチューニングの有効性を最大10%向上させることができる。 さらに,LMMのCaD理解能力を評価するために,7.5KのオープンエンドQAを用いた評価ベンチマークを提案する。

Comparing two images in terms of Commonalities and Differences (CaD) is a fundamental human capability that forms the basis of advanced visual reasoning and interpretation. It is essential for the generation of detailed and contextually relevant descriptions, performing comparative analysis, novelty detection, and making informed decisions based on visual data. However, surprisingly, little attention has been given to these fundamental concepts in the best current mimic of human visual intelligence - Large Multimodal Models (LMMs). We develop and contribute a new two-phase approach CaD-VI for collecting synthetic visual instructions, together with an instruction-following dataset CaD-Inst containing 349K image pairs with CaD instructions collected using CaD-VI. Our approach significantly improves the CaD spotting capabilities in LMMs, advancing the SOTA on a diverse set of related tasks by up to 17.5%. It is also complementary to existing difference-only instruction datasets, allowing automatic targeted refinement of those resources increasing their effectiveness for CaD tuning by up to 10%. Additionally, we propose an evaluation benchmark with 7.5K open-ended QAs to assess the CaD understanding abilities of LMMs.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 確率勾配勾配の長期分布について : 大規模偏差解析

What is the long-run distribution of stochastic gradient descent? A large deviations analysis ( http://arxiv.org/abs/2406.09241v1 )

ライセンス: Link先を確認
Waïss Azizian, Franck Iutzeler, Jérôme Malick, Panayotis Mertikopoulos, (参考訳) 本稿では,一般の非凸問題における確率勾配降下(SGD)の長期分布について検討する。 具体的には、問題の状態空間のどの領域がSGDに訪問されるか、どの程度の頻度で理解したいと考えている。 大規模偏差理論とランダムな摂動力学系に基づくアプローチを用いて、SGDの長期分布は、熱力学のボルツマン・ギブス分布と温度が、問題の目的と雑音の統計によって決定されるエネルギーレベルと等しくなることを示す。 特に、長い目で見てみましょう。 a) 問題の臨界領域は、どの非臨界領域よりも指数関数的に訪問される。 b) SGDの反復体は、問題の最小エネルギー状態の周りに指数関数的に集中している(これは常に目的のグローバルな最小値と一致するとは限らない)。 (c)他の臨界点の連結成分は全て、そのエネルギーレベルに指数的に比例する周波数で訪問される。 (d) 局所極大点やサドル点の任意の成分は、指数関数的に頻繁に訪れる局所極小点の成分によって「支配」される。

In this paper, we examine the long-run distribution of stochastic gradient descent (SGD) in general, non-convex problems. Specifically, we seek to understand which regions of the problem's state space are more likely to be visited by SGD, and by how much. Using an approach based on the theory of large deviations and randomly perturbed dynamical systems, we show that the long-run distribution of SGD resembles the Boltzmann-Gibbs distribution of equilibrium thermodynamics with temperature equal to the method's step-size and energy levels determined by the problem's objective and the statistics of the noise. In particular, we show that, in the long run, (a) the problem's critical region is visited exponentially more often than any non-critical region; (b) the iterates of SGD are exponentially concentrated around the problem's minimum energy state (which does not always coincide with the global minimum of the objective); (c) all other connected components of critical points are visited with frequency that is exponentially proportional to their energy level; and, finally (d) any component of local maximizers or saddle points is "dominated" by a component of local minimizers which is visited exponentially more often.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 異なるゲームにおけるモンテカルロ木探索性能のキャラクタリゼーションに向けて

Towards a Characterisation of Monte-Carlo Tree Search Performance in Different Games ( http://arxiv.org/abs/2406.09242v1 )

ライセンス: Link先を確認
Dennis J. N. J. Soemers, Guillaume Bams, Max Persoon, Marco Rietjens, Dimitar Sladić, Stefan Stefanov, Kurt Driessens, Mark H. M. Winands, (参考訳) モンテカルロ・ツリー・サーチ (MCTS) への多くの拡張が、およそ20年間にわたるゲームプレイやその他の人工知能の研究で提案されている。 しかし、ゲームがまだ不足しているゲームにおいて、どの変種がうまく機能しているかを特徴づけ、理解する能力がある。 本稿では,1494の異なるゲームにおいて,61の異なるエージェント間で268,386のプレイを行うという,そのような理解に向けて進むために構築した初期データセットについて述べる。 このデータセットの予備分析と予測モデルをトレーニングする作業に加えて、学習した教訓と、新しい改良版データセットの今後の計画について説明する。

Many enhancements to Monte-Carlo Tree Search (MCTS) have been proposed over almost two decades of general game playing and other artificial intelligence research. However, our ability to characterise and understand which variants work well or poorly in which games is still lacking. This paper describes work on an initial dataset that we have built to make progress towards such an understanding: 268,386 plays among 61 different agents across 1494 distinct games. We describe a preliminary analysis and work on training predictive models on this dataset, as well as lessons learned and future plans for a new and improved version of the dataset.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# OpenVLA: オープンソースのビジョンランゲージ・アクションモデル

OpenVLA: An Open-Source Vision-Language-Action Model ( http://arxiv.org/abs/2406.09246v1 )

ライセンス: Link先を確認
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn, (参考訳) インターネット規模の視覚言語データと多様なロボットデモの組み合わせで事前訓練された大規模なポリシーは、ロボットに新しいスキルを教える方法を変える可能性がある。 しかし、ロボット工学にVLAを広く採用することは困難である。 1)既存のVLAは、ほとんど閉鎖されており、一般にはアクセスできない。 2) 以前の作業では、新しいタスクのVLAを効率的に微調整する方法を探索することができない。 これらの課題に対処するため、我々はOpenVLAを紹介した。OpenVLAは7BパラメータのオープンソースVLAで、現実世界の970kのロボットデモの多様なコレクションをトレーニングしている。 OpenVLAは、DINOv2とSigLIPの事前学習機能を融合したビジュアルエンコーダを備えたLlama 2言語モデルの上に構築されている。 追加のデータ多様性と新しいモデルコンポーネントの産物として、OpenVLAは一般的な操作の強力な結果を示し、RT-2-X(55B)のようなクローズドモデルよりも16.5%向上し、29のタスクで絶対的なタスク成功率と複数のロボットの実施率、パラメータが7倍少ない。 さらに、複数のオブジェクトと強力な言語接地能力を含むマルチタスク環境において、特に強力な一般化結果が得られ、拡散政策のような非スクラッチな模倣学習方法よりも20.4%向上することを示す。 また、計算効率についても検討し、別のコントリビューションとして、OpenVLAは最新の低ランク適応手法により、コンシューマGPU上で微調整が可能であり、ダウンストリームの成功率を損なうことなく、量子化によって効率的に機能することを示す。 最後に、モデルチェックポイント、微調整ノートブック、およびOpen X-Embodimentデータセットで大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchコードベースをリリースします。

Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# ウィグナーエントロピー予想を検証するウィグナー非負状態

Wigner non-negative states that verify the Wigner entropy conjecture ( http://arxiv.org/abs/2406.09248v1 )

ライセンス: Link先を確認
Qipeng Qian, Christos N. Gagatsos, (参考訳) 我々は解析的な結果の形で、https://link.aps.org/doi/10.1103/PhysRevA.104.042211 とhttps://iopscience.iop.org/article/10.1088/1751-8121/aa852f/meta に設定されたウィグナーエントロピー予想についてさらなる進歩を示す。 サイード予想は、非負で物理的なウィグナー函数に対して定義される微分エントロピーは純粋ガウス状態によって最小化され、最小エントロピーは1+\ln\pi$に等しいと主張する。 非負のウィグナー函数に対応する Fock 状態 $|0\rangle$ と $|1\rangle$ によって形成される量子ビットに対するこの予想を証明する。 特に、ウィグナー非負の量子ビットの集合の境界上にある状態に対して、ウィグナーエントロピーの明示的な形式を導出する。 次に、一般混合状態を考え、ウィグナー非負性性に対する十分条件を導出する。 条件を満たす状態に対しては、予想が真であることを検証する。 最後に、我々の条件に従っている集合の状態について詳しく述べる。

We present further progress, in the form of analytical results, on the Wigner entropy conjecture set forth in https://link.aps.org/doi/10.1103/PhysRevA.104.042211 and https://iopscience.iop.org/article/10.1088/1751-8121/aa852f/meta. Said conjecture asserts that the differential entropy defined for non-negative, yet physical, Wigner functions is minimized by pure Gaussian states while the minimum entropy is equal to $1+\ln\pi$. We prove this conjecture for the qubits formed by Fock states $|0\rangle$ and $|1\rangle$ that correspond to non-negative Wigner functions. In particular, we derive an explicit form of the Wigner entropy for those states lying on the boundary of the set of Wigner non-negative qubits. We then consider general mixed states and derive a sufficient condition for Wigner non-negativity. For states satisfying our condition we verify that the conjecture is true. Lastly, we elaborate on the states of the set which is in accordance with our condition.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# MirrorCheck: ビジョンランゲージモデルのための効率的な敵防御

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models ( http://arxiv.org/abs/2406.09250v1 )

ライセンス: Link先を確認
Samar Fares, Klea Ziu, Toluwani Aremu, Nikita Durasov, Martin Takáč, Pascal Fua, Karthik Nandakumar, Ivan Laptev, (参考訳) ビジョンランゲージモデル(VLM)は、これらのモデルに対して様々な新しい攻撃戦略が提案されているため、敵の攻撃に対してますます脆弱になっている。 既存の防衛は単調な状況で優れているが、現在では敵の脅威に対するVLMの保護に不足している。 本稿では,この脆弱性を緩和するために,VLMの対向検体を検出するための,新しくてエレガントなアプローチを提案する。 本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。 次に,特徴空間における入力画像と生成画像の埋め込みの類似性を計算し,逆方向のサンプルを同定する。 異なるデータセットで実施した実証評価は,画像分類領域から適応したベースライン手法よりも優れた精度で,提案手法の有効性を検証した。 さらに,本手法を分類タスクに拡張し,適応性とモデルに依存しない性質を示す。 理論的解析と実証的な知見は、我々のアプローチの適応攻撃に対する弾力性を示し、敵の脅威に対する現実の展開のための優れた防御メカニズムとして位置づけている。

Vision-Language Models (VLMs) are becoming increasingly vulnerable to adversarial attacks as various novel attack strategies are being proposed against these models. While existing defenses excel in unimodal contexts, they currently fall short in safeguarding VLMs against adversarial threats. To mitigate this vulnerability, we propose a novel, yet elegantly simple approach for detecting adversarial samples in VLMs. Our method leverages Text-to-Image (T2I) models to generate images based on captions produced by target VLMs. Subsequently, we calculate the similarities of the embeddings of both input and generated images in the feature space to identify adversarial samples. Empirical evaluations conducted on different datasets validate the efficacy of our approach, outperforming baseline methods adapted from image classification domains. Furthermore, we extend our methodology to classification tasks, showcasing its adaptability and model-agnostic nature. Theoretical analyses and empirical findings also show the resilience of our approach against adaptive attacks, positioning it as an excellent defense mechanism for real-world deployment against adversarial threats.
翻訳日:2024-06-14 17:05:04 公開日:2024-06-13
# 構造予測のための深絞り出力カーネル回帰

Deep Sketched Output Kernel Regression for Structured Prediction ( http://arxiv.org/abs/2406.09253v1 )

ライセンス: Link先を確認
Tamim El Ahmad, Junjie Yang, Pierre Laforgue, Florence d'Alché-Buc, (参考訳) 出力空間におけるカーネルのトリックを活用することで、カーネルによる損失は、幅広い出力モダリティに対して構造化された出力予測タスクを定義するための原則的な方法を提供する。 特に、カーネルトリックが典型的には入力空間でも利用される非パラメトリック回帰の文脈でうまく使われている。 しかし、入力が画像やテキストである場合、ディープニューラルネットワークのような表現力のあるモデルは、非パラメトリック手法よりも適しているように見える。 本研究では、カーネルによる損失の汎用性と関連性から恩恵を受けながら、構造化された出力予測タスクを解決するためにニューラルネットワークをどのようにトレーニングするかという課題に取り組む。 我々は、カーネルによる損失から得られる無限次元の出力特徴空間の、データ依存有限次元部分空間において最後の層が予測される、新しいディープ・ニューラル・アーキテクチャのファミリーを設計する。 この部分空間は、経験的カーネル共分散作用素のランダム近似バージョンの固有関数のスパンとして選択される。 興味深いことに、このアプローチは、構造化された予測に勾配降下アルゴリズム(そして結果としてニューラルアーキテクチャ)をアンロックする。 実世界の教師付きグラフ予測問題と同様に, 合成課題に関する実験は, 提案手法の妥当性を示す。

By leveraging the kernel trick in the output space, kernel-induced losses provide a principled way to define structured output prediction tasks for a wide variety of output modalities. In particular, they have been successfully used in the context of surrogate non-parametric regression, where the kernel trick is typically exploited in the input space as well. However, when inputs are images or texts, more expressive models such as deep neural networks seem more suited than non-parametric methods. In this work, we tackle the question of how to train neural networks to solve structured output prediction tasks, while still benefiting from the versatility and relevance of kernel-induced losses. We design a novel family of deep neural architectures, whose last layer predicts in a data-dependent finite-dimensional subspace of the infinite-dimensional output feature space deriving from the kernel-induced loss. This subspace is chosen as the span of the eigenfunctions of a randomly-approximated version of the empirical kernel covariance operator. Interestingly, this approach unlocks the use of gradient descent algorithms (and consequently of any neural architecture) for structured prediction. Experiments on synthetic tasks as well as real-world supervised graph prediction problems show the relevance of our method.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# ビシニティにおけるモデル一般化の評価

Assessing Model Generalization in Vicinity ( http://arxiv.org/abs/2406.09257v1 )

ライセンス: Link先を確認
Yuchi Liu, Yifan Sun, Jingdong Wang, Liang Zheng, (参考訳) 本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。 一般的なアプローチは、信頼や不変性のような特定のモデルの性質に関連する教師なしの計量を計算することがあり、これは分布外精度と相関する。 しかしながら、これらのメトリクスは通常、各テストサンプルに対して個別に計算されるため、過度に高い、あるいは低い信頼度などの刺激的なモデル応答に起因する潜在的な問題が発生する。 この課題に対処するため,各試料の正当性評価に隣接する試験試料からの応答を取り入れることを提案する。 基本的に、モデルが近くのサンプルに対して高い正当性スコアを一貫して示すと、ターゲットサンプルを正確に予測する確率が高くなり、その逆も増加する。 結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。 ヴィジナル・リスク・プロキシ(Vivinal Risk proxy, VRP)は、ビジナル・リスク・プロキシ(vicinal risk proxy, VRP)と呼ばれる手法で開発され、ラベルを頼らずに精度を計算する。 従来の一般化指標(平均信頼度や有効不変性など)にVRP法を適用することで,これらのベースラインを方法論的にも実験的にも一貫して改善することを示す。 これにより、特にアウト・オブ・ディストリビューションテストセットの挑戦において、モデル精度との相関が強くなる。

This paper evaluates the generalization ability of classification models on out-of-distribution test sets without depending on ground truth labels. Common approaches often calculate an unsupervised metric related to a specific model property, like confidence or invariance, which correlates with out-of-distribution accuracy. However, these metrics are typically computed for each test sample individually, leading to potential issues caused by spurious model responses, such as overly high or low confidence. To tackle this challenge, we propose incorporating responses from neighboring test samples into the correctness assessment of each individual sample. In essence, if a model consistently demonstrates high correctness scores for nearby samples, it increases the likelihood of correctly predicting the target sample, and vice versa. The resulting scores are then averaged across all test samples to provide a holistic indication of model accuracy. Developed under the vicinal risk formulation, this approach, named vicinal risk proxy (VRP), computes accuracy without relying on labels. We show that applying the VRP method to existing generalization indicators, such as average confidence and effective invariance, consistently improves over these baselines both methodologically and experimentally. This yields a stronger correlation with model accuracy, especially on challenging out-of-distribution test sets.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 深部変圧器ネットワークによる船上UAVの単眼ポス推定

Deep Transformer Network for Monocular Pose Estimation of Ship-Based UAV ( http://arxiv.org/abs/2406.09260v1 )

ライセンス: Link先を確認
Maneesha Wickramasuriya, Taeyoung Lee, Murray Snyder, (参考訳) 本稿では,無人航空機 (UAV) の船体に対する相対的な6次元姿勢をモノクロ画像を用いて推定する深部変圧器ネットワークを提案する。 船舶画像の合成データセットを作成し、複数の船舶部品の2Dキーポイントで注釈を付ける。 トランスフォーマーニューラルネットワークモデルは、これらのキーポイントを検出し、各部分の6Dポーズを推定するために訓練される。 推定値はベイズ核融合を用いて統合される。 このモデルは合成データとその場での飛行実験でテストされ、様々な照明条件下で頑丈さと精度を実証している。 位置推定誤差はそれぞれ、合成データと飛行実験の船からの距離の0.8\%と1.0\%である。 この手法は、船舶による無人無人無人航空機の着陸と航行に応用できる可能性がある。

This paper introduces a deep transformer network for estimating the relative 6D pose of a Unmanned Aerial Vehicle (UAV) with respect to a ship using monocular images. A synthetic dataset of ship images is created and annotated with 2D keypoints of multiple ship parts. A Transformer Neural Network model is trained to detect these keypoints and estimate the 6D pose of each part. The estimates are integrated using Bayesian fusion. The model is tested on synthetic data and in-situ flight experiments, demonstrating robustness and accuracy in various lighting conditions. The position estimation error is approximately 0.8\% and 1.0\% of the distance to the ship for the synthetic data and the flight experiments, respectively. The method has potential applications for ship-based autonomous UAV landing and navigation.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# Deep Double Poisson Networks を用いたフレキシブル・ヘテロセダスティックカウント回帰

Flexible Heteroscedastic Count Regression with Deep Double Poisson Networks ( http://arxiv.org/abs/2406.09262v1 )

ライセンス: Link先を確認
Spencer Young, Porter Jenkins, Lonchao Da, Jeff Dotson, Hua Wei, (参考訳) 入力条件の不確実性表現を正確に生成できるニューラルネットワークは、現実世界のアプリケーションには不可欠である。 最近の不連続回帰の進歩は、画像回帰のような複雑なタスクにおける不確実性定量化を校正する大きな可能性を示している。 しかし、これらの手法が、クラウドカウント、評価予測、在庫推定などの離散回帰タスクに適用される場合、多くの病態を持つ予測分布を生成する傾向にある。 本稿では、ニューラルネットワークをトレーニングして、DDPN(Deep Double Poisson Network)と呼ばれるDouble Poisson分布のパラメータを出力することで、これらの問題を解決することを提案する。 ガウス陰対数(NLL)を最小化するために訓練された既存の手法とは対照的に、DDPNは離散出力よりも適切な確率質量関数を生成する。 さらに、DDPNは、より厳密なPoissonと負二項パラメータ化で訓練されたネットワークとは異なり、アンダー、オーバー、エクイ分散を自然にモデル化する。 DDPNをお見せします 1) 既存の離散モデルを大幅に上回る。 2) ガウスNLLで訓練されたネットワークの精度と柔軟性を満たすか、超えるか。 3) 個別の数に対して適切な予測分布を生成し、 4) より優れたアウト・オブ・ディストリビューション検出を示す。 DDPNは、表、画像、ポイントクラウド、テキストデータなど、さまざまなカウントレグレッションデータセットに容易に適用できる。

Neural networks that can produce accurate, input-conditional uncertainty representations are critical for real-world applications. Recent progress on heteroscedastic continuous regression has shown great promise for calibrated uncertainty quantification on complex tasks, like image regression. However, when these methods are applied to discrete regression tasks, such as crowd counting, ratings prediction, or inventory estimation, they tend to produce predictive distributions with numerous pathologies. We propose to address these issues by training a neural network to output the parameters of a Double Poisson distribution, which we call the Deep Double Poisson Network (DDPN). In contrast to existing methods that are trained to minimize Gaussian negative log likelihood (NLL), DDPNs produce a proper probability mass function over discrete output. Additionally, DDPNs naturally model under-, over-, and equi-dispersion, unlike networks trained with the more rigid Poisson and Negative Binomial parameterizations. We show DDPNs 1) vastly outperform existing discrete models; 2) meet or exceed the accuracy and flexibility of networks trained with Gaussian NLL; 3) produce proper predictive distributions over discrete counts; and 4) exhibit superior out-of-distribution detection. DDPNs can easily be applied to a variety of count regression datasets including tabular, image, point cloud, and text data.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 変圧器を用いた拡散モデルによる結晶構造の逆解析

Generative Inverse Design of Crystal Structures via Diffusion Models with Transformers ( http://arxiv.org/abs/2406.09263v1 )

ライセンス: Link先を確認
Izumi Takahara, Kiyou Shibata, Teruyasu Mizoguchi, (参考訳) 近年のディープラーニングの進歩により、テキスト、画像、オーディオの大規模なデータセット上で生成モデルをトレーニングすることで、現実的なデータ生成が可能になった。 これらのモデルは、斬新で可塑性なデータを生成する上で、例外的な性能を示してきたが、データ生成を通じて科学的発見を効果的に加速し、様々な科学分野に多大な進歩をもたらすことができるかどうかについては、未解決のままである。 特に、有望な性質を持つ新しい無機材料の発見は、科学的にも工業的にも重要な課題である。 しかし、テキストデータや画像データとは異なり、材料またはより具体的には結晶構造は、格子ベクトル、原子の位置、原子種を含む複数の種類の変数から構成される。 このようなデータの複雑さは、そのようなデータを表現し、生成するための様々なアプローチを生み出します。 したがって、結晶構造の生成モデルの設計選択は未解決の問題である。 そこで本研究では,トランスフォーマーアーキテクチャに基づくバックボーンを用いた,結晶構造の生成的逆設計のための新しいタイプの拡散モデルについて検討する。 我々のモデルは、所望の特性を持つ結晶構造を生成するための汎用性において、従来の方法よりも優れていることを実証する。 さらに,実験結果から,最適条件付け手法はデータセットによって異なることが示唆された。

Recent advances in deep learning have enabled the generation of realistic data by training generative models on large datasets of text, images, and audio. While these models have demonstrated exceptional performance in generating novel and plausible data, it remains an open question whether they can effectively accelerate scientific discovery through the data generation and drive significant advancements across various scientific fields. In particular, the discovery of new inorganic materials with promising properties poses a critical challenge, both scientifically and for industrial applications. However, unlike textual or image data, materials, or more specifically crystal structures, consist of multiple types of variables - including lattice vectors, atom positions, and atomic species. This complexity in data give rise to a variety of approaches for representing and generating such data. Consequently, the design choices of generative models for crystal structures remain an open question. In this study, we explore a new type of diffusion model for the generative inverse design of crystal structures, with a backbone based on a Transformer architecture. We demonstrate our models are superior to previous methods in their versatility for generating crystal structures with desired properties. Furthermore, our empirical results suggest that the optimal conditioning methods vary depending on the dataset.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 双方向AIアライメントに向けて: 明確化, 枠組み, 今後の方向性の体系的レビュー

Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions ( http://arxiv.org/abs/2406.09264v1 )

ライセンス: Link先を確認
Hua Shen, Tiffany Knearem, Reshmi Ghosh, Kenan Alkiek, Kundan Krishna, Yachuan Liu, Ziqiao Ma, Savvas Petridis, Yi-Hao Peng, Li Qiwei, Sushrita Rakshit, Chenglei Si, Yutong Xie, Jeffrey P. Bigham, Frank Bentley, Joyce Chai, Zachary Lipton, Qiaozhu Mei, Rada Mihalcea, Michael Terry, Diyi Yang, Meredith Ringel Morris, Paul Resnick, David Jurgens, (参考訳) 汎用AIの最近の進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。 しかしながら、人間-AIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の協調作業を妨げる重要な障害となる。 特に、MLと哲学指向のアライメント研究は、AIアライメントを、進行中の相互アライメント問題(429)ではなく、静的で一方向のプロセス(つまり、AIシステムの目的が人間と一致することを保証すること)とみなすことが多い。 この観点は、長期の相互作用とアライメントの動的変化を無視している。 これらのギャップを理解するために、2019年から2024年1月までに発行された400以上の論文を体系的にレビューし、ヒューマン・コンピュータ・インタラクション(HCI)、自然言語処理(NLP)、機械学習(ML)など複数のドメインにまたがる調査を行った。 人間のAIアライメントを特徴づけ、定義し、スコープ化します。 そこで本研究では,「双方向型AIアライメント」の概念的枠組みを提示し,文学を人間中心の視点から整理する。 このフレームワークは両方を包含する 1)AIを人間に合わせる従来の研究は、AIが人間によって決定された結果を生み出すことを確実にしている。 2) 個人や社会が認知的・行動的にAIの進歩に適応することを支援することを目的として,人間をAIに整合させる概念を提案する。 さらに,人的価値,インタラクション技術,評価に関する議論など,文献分析から得られた重要な知見を述べる。 今後の研究の道を開くために,今後の方向性に関する3つの重要な課題を思いつき,今後の解決策の例を提案する。

Recent advancements in general-purpose AI have highlighted the importance of guiding AI systems towards the intended goals, ethical principles, and values of individuals and groups, a concept broadly recognized as alignment. However, the lack of clarified definitions and scopes of human-AI alignment poses a significant obstacle, hampering collaborative efforts across research domains to achieve this alignment. In particular, ML- and philosophy-oriented alignment research often views AI alignment as a static, unidirectional process (i.e., aiming to ensure that AI systems' objectives match humans) rather than an ongoing, mutual alignment problem [429]. This perspective largely neglects the long-term interaction and dynamic changes of alignment. To understand these gaps, we introduce a systematic review of over 400 papers published between 2019 and January 2024, spanning multiple domains such as Human-Computer Interaction (HCI), Natural Language Processing (NLP), Machine Learning (ML), and others. We characterize, define and scope human-AI alignment. From this, we present a conceptual framework of "Bidirectional Human-AI Alignment" to organize the literature from a human-centered perspective. This framework encompasses both 1) conventional studies of aligning AI to humans that ensures AI produces the intended outcomes determined by humans, and 2) a proposed concept of aligning humans to AI, which aims to help individuals and society adjust to AI advancements both cognitively and behaviorally. Additionally, we articulate the key findings derived from literature analysis, including discussions about human values, interaction techniques, and evaluations. To pave the way for future studies, we envision three key challenges for future directions and propose examples of potential future solutions.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 共有事項:LLMにおける言語と課題におけるニューロンの分析

Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs ( http://arxiv.org/abs/2406.09265v1 )

ライセンス: Link先を確認
Weixuan Wang, Barry Haddow, Wei Peng, Alexandra Birch, (参考訳) 多言語大言語モデル (LLM) は、非英語タスクの性能を著しく向上させた。 しかし、これらのLLMにおける多言語主義のメカニズムは理解されていない。 特に興味深いのは、言語間で内部表現が共有される程度である。 LLMのニューロン解析に関する最近の研究はモノリンガルの場合に焦点を当てており、多言語の場合の限定的な研究はタスクと言語表現の相互作用を考慮していない。 本研究は、ニューロンを特定の入力のために異なる言語にまたがる応答に応じて4つの異なるグループに分類することで、言語間でニューロンの活性化がどのように共有されるかを検討する。 この分類は、ニューロンの属性の研究、すなわち、出力であるニューロン w.r.t の重要性と組み合わせられる。 我々の分析は以下の知見を明らかにしている。 一 言語的共有パターンは、タスクの種類に強く影響されるが、同じタスクであっても、異なる入力に対してニューロンの振る舞いが変化する。 (ii)全共有ニューロンは、正しい応答を発生させる上で重要な役割を担っている。 3) 全共有ニューロンの増大による多言語アライメントの促進は多言語タスクの精度を高めることができる。 コードはhttps://github.com/weixuan-wang123/multilingual-neuronsで公開されている。

Multilingual large language models (LLMs) have greatly increased the ceiling of performance on non-English tasks. However the mechanisms behind multilingualism in these LLMs are poorly understood. Of particular interest is the degree to which internal representations are shared between languages. Recent work on neuron analysis of LLMs has focused on the monolingual case, and the limited work on the multilingual case has not considered the interaction between tasks and linguistic representations. In our work, we investigate how neuron activation is shared across languages by categorizing neurons into four distinct groups according to their responses across different languages for a particular input: all-shared, partial-shared, specific, and non-activated. This categorization is combined with a study of neuron attribution, i.e. the importance of a neuron w.r.t an output. Our analysis reveals the following insights: (i) the linguistic sharing patterns are strongly affected by the type of task, but neuron behaviour changes across different inputs even for the same task; (ii) all-shared neurons play a key role in generating correct responses; (iii) boosting multilingual alignment by increasing all-shared neurons can enhance accuracy on multilingual tasks. The code is available at https://github.com/weixuan-wang123/multilingual-neurons.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# Nd1-xSrxNiO2およびYBa2Cu3O7デルタにおけるスピン励起-ハバードUの影響

Spin excitations in Nd1-xSrxNiO2 and YBa2Cu3O7-delta: the influence of Hubbard U ( http://arxiv.org/abs/2406.09271v1 )

ライセンス: Link先を確認
Francesco Rosa, Leonardo Martinelli, Guillaume Krieger, Lucio Braicovich, Nicholas B. Brookes, Giacomo Merzoni, Marco Moretti Sala, Flora Yakhou-Harris, Riccardo Arpaia, Daniele Preziosi, Marco Salluzzo, Maciej Fidrysiak, Giacomo Ghiringhelli, (参考訳) 我々は、共鳴非弾性X線散乱(RIXS)を用いて、不定層ニケレートの磁気励起のドーピング依存性と原型超伝導銅酸化物のドーピング依存性を比較する。 RIXSスペクトルの偏光解析は、どちらの場合も中赤外ピークの主スピンフリップ特性を確立する。 ホールドーピングは、2つの材料における磁気エネルギーの逆の挙動をもたらす。 データを元のHubbardベースのモデルと組み合わせることで、tは2つの材料で同等であり、Uはニケレートで約2倍大きいことがわかった。 この発見は、ニッケルの磁気帯域幅が小さく、ドーピング時の減少の原因となっている。

We use Resonant Inelastic X-ray Scattering (RIXS) to compare the doping dependence of magnetic excitations of an Infinite-Layer nickelate to those of a prototypical superconducting cuprate. The polarization analysis of RIXS spectra establishes the dominant spin-flip nature of the mid-infrared peak in both cases. Hole doping leads to opposite behavior of the magnetic energy in the two materials. By fitting the data with an original Hubbard-based model for dynamic susceptibility, we find that t is comparable in the two materials while U is about twice larger in the nickelate. This finding accounts for the smaller magnetic bandwidth of nickelates and for its decrease upon doping.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# Action2Sound:エゴセントリックビデオからのアクション音のアンビエント・アウェア・ジェネレーション

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos ( http://arxiv.org/abs/2406.09272v1 )

ライセンス: Link先を確認
Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwarth, Kristen Grauman, (参考訳) 人間のインタラクションのための現実的なオーディオを生成することは、映画や仮想現実ゲームのためのサウンドエフェクトを作成するなど、多くのアプリケーションにとって重要である。 既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定するが、多くの音は画面外で発生し、視覚とは全く一致しない。 環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。 本研究では,前庭動作音を周囲の背景音から遠ざけるための新しい音調和機構を考案した。 新たなサイレントビデオが提供されると、我々のモデルは検索拡張生成を用いて、視覚コンテンツを意味的にも時間的にも一致させるオーディオを生成する。 我々は,Ego4D と EPIC-KITCHENS の2つのビデオデータセット上で,我々のモデルを訓練し,評価する。 我々のモデルは,既存の手法より優れており,周囲の音を制御可能な生成が可能であり,コンピュータグラフィックスゲームクリップへの一般化の約束も示している。 全体として、自然の背景音を持つ未処理クリップからトレーニングを受けたにもかかわらず、観察された視覚コンテンツに忠実に焦点を合わせるのは、我々の研究が初めてである。

Generating realistic audio for human interactions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets Ego4D and EPIC-KITCHENS. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our work is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 低レイテンシ音声匿名化のためのエンドツーエンドストリーミングモデル

End-to-end Streaming model for Low-Latency Speech Anonymization ( http://arxiv.org/abs/2406.09277v1 )

ライセンス: Link先を確認
Waris Quamer, Ricardo Gutierrez-Osuna, (参考訳) 話者匿名化は、言語コンテンツを保持しながら話者識別に手がかりを隠蔽することを目的としている。 現在の機械学習ベースのアプローチは、リアルタイムストリーミングアプリケーションを妨げる、かなりの計算資源を必要とする。 これらの問題に対処するため,低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。 このシステムは、HuBERTのような情報を抽出する軽量コンテンツエンコーダ、話者識別を抽出する事前訓練された話者エンコーダ、ピッチとエネルギー情報を注入する分散エンコーダを用いて、エンドツーエンドのオートエンコーダ方式で訓練される。 これら3つの非絡み合った表現は、音声信号を再合成するデコーダに送られる。 本稿では,2つのシステムの実装,230msのレイテンシを実現するフルモデル,66msのレイテンシをさらに低減し,自然性,知性,プライバシ保護の最先端性能を維持しながら,そのレイテンシを66msに低減するライトバージョン(0.1倍)について評価する。

Speaker anonymization aims to conceal cues to speaker identity while preserving linguistic content. Current machine learning based approaches require substantial computational resources, hindering real-time streaming applications. To address these concerns, we propose a streaming model that achieves speaker anonymization with low latency. The system is trained in an end-to-end autoencoder fashion using a lightweight content encoder that extracts HuBERT-like information, a pretrained speaker encoder that extract speaker identity, and a variance encoder that injects pitch and energy information. These three disentangled representations are fed to a decoder that resynthesizes the speech signal. We present evaluation results from two implementations of our system, a full model that achieves a latency of 230ms, and a lite version (0.1x in size) that further reduces latency to 66ms while maintaining state-of-the-art performance in naturalness, intelligibility, and privacy preservation.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 量子相関媒体における情報伝達の促進

Boosting information transfer in a quantum correlated medium ( http://arxiv.org/abs/2406.09278v1 )

ライセンス: Link先を確認
Finn Schmolke, Etienne Springer, Eric Lutz, (参考訳) 情報の共有と受信は、科学技術において重要な役割を担っている。 量子通信は、非古典的な方法で情報を伝達する量子力学の原理に依存している。 既存の量子通信プロトコルは一般的に送信機と受信機の間で共有の絡み合った状態に基づいており、伝送媒体は古典的である。 ここでは, エンタングルメント分布を伴わない量子相関媒体において, 情報伝達が促進されることを実証する。 量子ワイヤとして機能するスピン鎖の最初の2本のスピン間の非古典的相関が情報フローを増加させ、伝播時間を短縮できることを具体的に示す。 この効果は,メディアを介した情報の拡散を特徴付ける,時間外相関器の空間対称性の破れに関連している。

Sharing and receiving information plays a pivotal role in science and technology. Quantum communication relies on the principles of quantum mechanics to transmit information in a nonclassical manner. Existing quantum communication protocols are commonly based on shared entangled states between sender and receiver, while the transmitting medium is classical. We here demonstrate that information transfer may be enhanced in a quantum correlated medium without entanglement distribution. We concretely show that nonclassical correlations, with nonzero discord, between the first two spins of a spin chain that acts as a quantum wire can increase the information flow and reduce the propagation time. We relate this effect to the breaking of the spatial symmetry of the out-of-time-order correlator that characterizes the spread of information through the medium.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# DPOとPPOを解き放つ: 優先フィードバックから学ぶためのベストプラクティス

Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback ( http://arxiv.org/abs/2406.09279v1 )

ライセンス: Link先を確認
Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi, (参考訳) 嗜好フィードバックからの学習は、現代言語モデル(LM)の生成品質と性能を改善するための重要なステップとして現れてきた。 広く使われているにもかかわらず、嗜好に基づく学習の適用方法は大きく異なり、異なるデータ、学習アルゴリズム、使用する評価が異なり、各側面の影響を解き放つことは困難である。 本研究では、嗜好データ、学習アルゴリズム、報酬モデル、ポリシートレーニングプロンプトの4つの基本的側面を特定し、これらのコンポーネントが下流モデルの性能に与える影響を体系的に調査し、嗜好フィードバックのための強い学習のレシピを提案する。 以上の結果から,学習アルゴリズムの選択,改善された報酬モデルの使用,そして最後には未ラベルのプロンプトを政策トレーニングに使用するなど,すべての側面がパフォーマンス上重要であることが示唆された。 特に、PPOはDPOを最大2.5%、一般ドメインでは1.2%で上回っている。 高品質な嗜好データは、命令の追従と真実性の最大8%の改善につながる。 報酬モデルをスケールアップする際の数学的評価において、最大5%の顕著な向上にもかかわらず、他のカテゴリの限界改善を驚くほど観察する。 トレーニングに使用されるコード(https://github.com/hamishivi/EasyLM)とモデル(https://github.com/allenai/open-instruct)とデータセット自体(https://huggingface.co/collections/allenai/tulu-v25-suite-66676520fd5780e126f618)を公開しています。

Learning from preference feedback has emerged as an essential step for improving the generation quality and performance of modern language models (LMs). Despite its widespread use, the way preference-based learning is applied varies wildly, with differing data, learning algorithms, and evaluations used, making disentangling the impact of each aspect difficult. In this work, we identify four core aspects of preference-based learning: preference data, learning algorithm, reward model, and policy training prompts, systematically investigate the impact of these components on downstream model performance, and suggest a recipe for strong learning for preference feedback. Our findings indicate that all aspects are important for performance, with better preference data leading to the largest improvements, followed by the choice of learning algorithm, the use of improved reward models, and finally the use of additional unlabeled prompts for policy training. Notably, PPO outperforms DPO by up to 2.5% in math and 1.2% in general domains. High-quality preference data leads to improvements of up to 8% in instruction following and truthfulness. Despite significant gains of up to 5% in mathematical evaluation when scaling up reward models, we surprisingly observe marginal improvements in other categories. We publicly release the code used for training (https://github.com/hamishivi/EasyLM) and evaluating (https://github.com/allenai/open-instruct) our models, along with the models and datasets themselves (https://huggingface.co/collections/allenai/tulu-v25-suite-66676520fd578080e126f618).
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 音声・テキスト基礎モデルにおける異種音源の影響について

On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models ( http://arxiv.org/abs/2406.09282v1 )

ライセンス: Link先を確認
Jinchuan Tian, Yifan Peng, William Chen, Kwanghee Choi, Karen Livescu, Shinji Watanabe, (参考訳) Open Whisperスタイルの音声モデル(OWSM)シリーズが導入された。 この目的のためにOWSMモデルは、複数の方法で異質な25の公開音声データセットでトレーニングされる。 本研究では、OWSM v3.2を導入してOWSMシリーズを前進させ、このデータの不均一性の影響を調査し、対処することによって先行モデルを改善する。 本研究は,データ品質向上のためのプロキシタスクによるデータフィルタリングと,オープンな大言語モデル(LLM)を用いた句読解と真のキャスティングという,2つの重要な戦略を導出したデータセットの詳細な分析から始まった。 他のすべての構成が同じであり、OWSM v3.2はトレーニングデータの15%削減とともにOWSM v3.1ベースラインのパフォーマンスを改善している。

The Open Whisper-style Speech Model (OWSM) series was introduced to achieve full transparency in building advanced speech-to-text (S2T) foundation models. To this end, OWSM models are trained on 25 public speech datasets, which are heterogeneous in multiple ways. In this study, we advance the OWSM series by introducing OWSM v3.2, which improves on prior models by investigating and addressing the impacts of this data heterogeneity. Our study begins with a detailed analysis of each dataset, from which we derive two key strategies: data filtering with proxy task to enhance data quality, and the incorporation of punctuation and true-casing using an open large language model (LLM). With all other configurations staying the same, OWSM v3.2 improves performance over the OWSM v3.1 baseline while using 15% less training data.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 大規模出力空間におけるゼロショット学習 : 大規模言語モデルからの間接的知識抽出の利用

Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models ( http://arxiv.org/abs/2406.09288v1 )

ライセンス: Link先を確認
Jinbin Zhang, Nasib Ullah, Rohit Babbar, (参考訳) Extreme Multi-label Learning (XMC) は、事前に定義されたラベルセットからインスタンスの最も関連性の高いラベルを割り当てるタスクである。 Extreme Zero-shot XMC (EZ-XMC) は、XMCの特別な設定であり、監視が不要で、インスタンス(文書の原文)と所定のラベルセットのみを付与する。 このシナリオは、分類とレコメンデーションにおけるコールドスタート問題に対処するために設計されている。 従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。 文書からのこれらのラベルは、ゼロショットバイエンコーダモデルをトレーニングするために使用される。 これらの生成されたラベルの主な問題は、タグ付けタスクとの相違である。 本研究では,大規模な言語モデル (LLM) からフィードバックを得て,文書とラベルをエンコードして検索する,小さなバイエンコーダモデルをトレーニングするフレームワークを提案する。 提案手法では,低品質なラベルを文書自体から抽出する代わりに,ラベルと文書の相関性を評価するため,LCMのゼロショット機能を活用している。 LLMの関与なしに高速な推論も保証する。 提案手法の性能は, 各種データセット上でのSOTA法よりも優れ, 大規模データセットのトレーニング時間も同等である。

Extreme Multi-label Learning (XMC) is a task that allocates the most relevant labels for an instance from a predefined label set. Extreme Zero-shot XMC (EZ-XMC) is a special setting of XMC wherein no supervision is provided; only the instances (raw text of the document) and the predetermined label set are given. The scenario is designed to address cold-start problems in categorization and recommendation. Traditional state-of-the-art methods extract pseudo labels from the document title or segments. These labels from the document are used to train a zero-shot bi-encoder model. The main issue with these generated labels is their misalignment with the tagging task. In this work, we propose a framework to train a small bi-encoder model via the feedback from the large language model (LLM), the bi-encoder model encodes the document and labels into embeddings for retrieval. Our approach leverages the zero-shot ability of LLM to assess the correlation between labels and the document instead of using the low-quality labels extracted from the document itself. Our method also guarantees fast inference without the involvement of LLM. The performance of our approach outperforms the SOTA methods on various datasets while retaining a similar training time for large datasets.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 脱獄の成功を理解する:大規模言語モデルにおける潜在空間ダイナミクスの研究

Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models ( http://arxiv.org/abs/2406.09289v1 )

ライセンス: Link先を確認
Sarah Ball, Frauke Kreuter, Nina Rimsky, (参考訳) 会話型大規模言語モデルは、有害な質問に答えることを拒否するように訓練されている。 しかし、緊急のジェイルブレイク技術は、モデルアライメントの継続的な課題として、安全でない出力を引き出す可能性がある。 異なるジェイルブレイクタイプがセーフガードを回避しているかをよりよく理解するために,異なるジェイルブレイク入力のモデルアクティベーションを解析する。 我々は、ジェイルブレイクの有効性を他のクラスから軽減するための単一のクラスからジェイルブレイクベクトルを抽出できることを発見した。 これは、異なる種類の効果的なジェイルブレイクが、同様の内部メカニズムを介して動作することを示しているかもしれない。 有害性特徴抑制の潜在的共通メカニズムについて検討し, 有害性ベクトル成分に着目してその存在を実証する。 これらの発見は、より堅牢なジェイルブレイク対策を開発するための実用的な洞察を与え、言語モデルにおけるジェイルブレイクのダイナミクスのより深く、機械的な理解の基礎を築いた。

Conversational Large Language Models are trained to refuse to answer harmful questions. However, emergent jailbreaking techniques can still elicit unsafe outputs, presenting an ongoing challenge for model alignment. To better understand how different jailbreak types circumvent safeguards, this paper analyses model activations on different jailbreak inputs. We find that it is possible to extract a jailbreak vector from a single class of jailbreaks that works to mitigate jailbreak effectiveness from other classes. This may indicate that different kinds of effective jailbreaks operate via similar internal mechanisms. We investigate a potential common mechanism of harmfulness feature suppression, and provide evidence for its existence by looking at the harmfulness vector component. These findings offer actionable insights for developing more robust jailbreak countermeasures and lay the groundwork for a deeper, mechanistic understanding of jailbreak dynamics in language models.
翻訳日:2024-06-14 16:55:18 公開日:2024-06-13
# 多言語放送と制度音声の自動書き起こしのための音声言語識別手法の探索

Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech ( http://arxiv.org/abs/2406.09290v1 )

ライセンス: Link先を確認
Martina Valente, Fabio Brugnara, Giovanni Morrone, Enrico Zovato, Leonardo Badino, (参考訳) 本稿は,SLI文献にはほとんど言及されていない,多言語放送および制度的音声の音声言語識別(SLI)と音声認識について述べる。 これらの領域における言語変化は、主に話者変化と関連していることを確認し、話者ダイアリゼーションと言語識別からなるカスケードシステムを提案し、より伝統的な言語識別と言語ダイアリゼーションシステムと比較する。 その結果、提案システムは、低言語分類と言語ダイアリゼーションエラー率(最大10%の相対言語ダイアリゼーションエラー率と60%の相対言語混乱率)を実現し、多言語テストセットにおけるWERの低下(8%以上の相対WER削減)を招き、同時にモノリンガル音声における音声認識に悪影響を及ぼさない(絶対的なWER増加は0.1%から0.7%)。

This paper addresses spoken language identification (SLI) and speech recognition of multilingual broadcast and institutional speech, real application scenarios that have been rarely addressed in the SLI literature. Observing that in these domains language changes are mostly associated with speaker changes, we propose a cascaded system consisting of speaker diarization and language identification and compare it with more traditional language identification and language diarization systems. Results show that the proposed system often achieves lower language classification and language diarization error rates (up to 10% relative language diarization error reduction and 60% relative language confusion reduction) and leads to lower WERs on multilingual test sets (more than 8% relative WER reduction), while at the same time does not negatively affect speech recognition on monolingual audio (with an absolute WER increase between 0.1% and 0.7% w.r.t. monolingual ASR).
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# グラフ製品とグラフ粗大化によるグラフGNNのフレキシブルで等価なフレームワーク

A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening ( http://arxiv.org/abs/2406.09291v1 )

ライセンス: Link先を確認
Guy Bar-Shalom, Yam Eitan, Fabrizio Frasca, Haggai Maron, (参考訳) グラフグラフニューラルネットワーク(サブグラフGNN)は,グラフをサブグラフの集合として表現することで,メッセージパスGNNの表現性を向上する。 彼らはいくつかのタスクで素晴らしいパフォーマンスを示しているが、その複雑さはアプリケーションをより大きなグラフに制限している。 以前のアプローチでは、ランダムにまたは学習可能なサンプリングによって選択されたサブグラフのサブセットのみを処理することを提案していた。 しかし、それらは準最適部分グラフ選択を行うか、非常に小さなサブセットサイズにしか対応できず、必然的に性能劣化を引き起こす。 本稿では,これらの問題に対処する新しいSubgraph GNNフレームワークを提案する。 クラスタノードを誘導接続したスーパーノードにグラフ粗化関数を適用する。 粗いグラフと元のグラフの間の積は暗黙の構造を示し、それによってグラフは特定のノードの集合に関連付けられる。 このようなグラフ製品上で一般化されたメッセージパッシングを実行することで,効率的かつ強力なサブグラフGNNを効果的に実装する。 粗い関数を制御することで、任意の数のサブグラフを有意義に選択できるが、従来の手法とは対照的に、標準的な訓練手法と完全に互換性がある。 特に、結果のノード特徴テンソルが新しい、未探索な置換対称性を示すことが分かる。 我々は、この構造を活用し、関連する線形同変層を特徴付け、それらをサブグラフGNNアーキテクチャの層に組み込む。 複数のグラフ学習ベンチマークの大規模な実験により,提案手法は従来手法よりもはるかに柔軟であり,任意のサブグラフをシームレスに扱える一方で,ベースライン手法よりも一貫して優れていることが示された。

Subgraph Graph Neural Networks (Subgraph GNNs) enhance the expressivity of message-passing GNNs by representing graphs as sets of subgraphs. They have shown impressive performance on several tasks, but their complexity limits applications to larger graphs. Previous approaches suggested processing only subsets of subgraphs, selected either randomly or via learnable sampling. However, they make suboptimal subgraph selections or can only cope with very small subset sizes, inevitably incurring performance degradation. This paper introduces a new Subgraph GNNs framework to address these issues. We employ a graph coarsening function to cluster nodes into super-nodes with induced connectivity. The product between the coarsened and the original graph reveals an implicit structure whereby subgraphs are associated with specific sets of nodes. By running generalized message-passing on such graph product, our method effectively implements an efficient, yet powerful Subgraph GNN. Controlling the coarsening function enables meaningful selection of any number of subgraphs while, contrary to previous methods, being fully compatible with standard training techniques. Notably, we discover that the resulting node feature tensor exhibits new, unexplored permutation symmetries. We leverage this structure, characterize the associated linear equivariant layers and incorporate them into the layers of our Subgraph GNN architecture. Extensive experiments on multiple graph learning benchmarks demonstrate that our method is significantly more flexible than previous approaches, as it can seamlessly handle any number of subgraphs, while consistently outperforming baseline approaches.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# ニューラルアセット:画像拡散モデルを用いた3次元多目的シーン合成

Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models ( http://arxiv.org/abs/2406.09292v1 )

ライセンス: Link先を確認
Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew A. Hudson, Igor Gilitschenski, Yusuf Aytar, Sjoerd van Steenkiste, Kelsey R. Allen, Thomas Kipf, (参考訳) 画像拡散モデルにおける多目的3次元ポーズ制御の問題に対処する。 テキストトークンのシーケンスを条件付けする代わりに、シーン内の個々のオブジェクトの3Dポーズを制御するために、オブジェクトごとの表現セットであるNeural Assetsを使用することを提案する。 ビデオ内のフレームなどの参照画像からオブジェクトの視覚的表現をプールすることで、ニューラルアセットを取得し、ビデオ内の後続のフレームなど、異なる画像内の各オブジェクトを再構成するように訓練する。 重要なことは、対象のフレームからのポーズを条件付けしながら、参照画像からオブジェクトの視覚を符号化する。 これにより、歪んだ外観とポーズの学習が可能になる。 視覚と3Dのポーズ表現をシーケンス・オブ・トークン形式で組み合わせることで,既存のモデルのテキスト・ツー・イメージアーキテクチャを,テキストトークンの代わりにニューラル・アセットで維持することが可能になる。 この情報を用いて事前学習したテキスト・画像拡散モデルを微調整することにより,シーン内の個々の物体の微細な3次元ポーズと配置制御を可能にする。 さらに、異なるシーンにまたがってニューラルアセットを転送し、再構成できることを実証する。 本モデルでは,合成3Dシーンデータセットと実世界の2つのビデオデータセット(Objectron,Waymo Open)を用いて,最先端のマルチオブジェクト編集結果を実現する。

We address the problem of multi-object 3D pose control in image diffusion models. Instead of conditioning on a sequence of text tokens, we propose to use a set of per-object representations, Neural Assets, to control the 3D pose of individual objects in a scene. Neural Assets are obtained by pooling visual representations of objects from a reference image, such as a frame in a video, and are trained to reconstruct the respective objects in a different image, e.g., a later frame in the video. Importantly, we encode object visuals from the reference image while conditioning on object poses from the target frame. This enables learning disentangled appearance and pose features. Combining visual and 3D pose representations in a sequence-of-tokens format allows us to keep the text-to-image architecture of existing models, with Neural Assets in place of text tokens. By fine-tuning a pre-trained text-to-image diffusion model with this information, our approach enables fine-grained 3D pose and placement control of individual objects in a scene. We further demonstrate that Neural Assets can be transferred and recomposed across different scenes. Our model achieves state-of-the-art multi-object editing results on both synthetic 3D scene datasets, as well as two real-world video datasets (Objectron, Waymo Open).
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# StableMaterials:セミスーパービジョンラーニングによる材料生成の多様性向上

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning ( http://arxiv.org/abs/2406.09293v1 )

ライセンス: Link先を確認
Giuseppe Vecchio, (参考訳) 本稿では,フォトリアリスティックな物理ベースレンダリング(PBR)素材を生成するための新しいアプローチであるStableMaterialsを紹介し,半教師付き学習とLDM(Latent Diffusion Models)を統合する。 提案手法では,既存の大規模画像生成モデルから知識を抽出し,注釈付きデータへの依存を最小限に抑え,生成の多様性を高めるために,逆行訓練を用いる。 この蒸留手法は、生成した材料の分布とSDXLモデルからのイメージテクスチャの分布を一致させ、初期トレーニングデータセットに存在しない新しい材料の生成を可能にする。 さらに,拡散型精細化モデルを用いて,試料の視覚的品質を向上し,高分解能な生成を実現する。 最後に、4段階の高速生成のための潜時整合モデルを蒸留し、拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。 既存の LDM フレームワークに半教師付きトレーニングを組み込んだ StableMaterials のアーキテクチャとトレーニングプロセスについて詳述するとともに,その利点について述べる。 State-of-the-artメソッドとの比較では、StableMaterialsの有効性が示され、コンピュータグラフィックスなどへの応用の可能性を強調している。 StableMaterialsはhttps://gvecchio.com/stable Materialsで公開されている。

We introduce StableMaterials, a novel approach for generating photorealistic physical-based rendering (PBR) materials that integrate semi-supervised learning with Latent Diffusion Models (LDMs). Our method employs adversarial training to distill knowledge from existing large-scale image generation models, minimizing the reliance on annotated data and enhancing the diversity in generation. This distillation approach aligns the distribution of the generated materials with that of image textures from an SDXL model, enabling the generation of novel materials that are not present in the initial training dataset. Furthermore, we employ a diffusion-based refiner model to improve the visual quality of the samples and achieve high-resolution generation. Finally, we distill a latent consistency model for fast generation in just four steps and propose a new tileability technique that removes visual artifacts typically associated with fewer diffusion steps. We detail the architecture and training process of StableMaterials, the integration of semi-supervised training within existing LDM frameworks and show the advantages of our approach. Comparative evaluations with state-of-the-art methods show the effectiveness of StableMaterials, highlighting its potential applications in computer graphics and beyond. StableMaterials is publicly available at https://gvecchio.com/stablematerials.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 自己監督型学習にデータ拡張は必要ない

You Don't Need Data-Augmentation in Self-Supervised Learning ( http://arxiv.org/abs/2406.09294v1 )

ライセンス: Link先を確認
Théo Moutakanni, Maxime Oquab, Marc Szafraniec, Maria Vakalopoulou, Piotr Bojanowski, (参考訳) JEA(Joint-Embedding Architectures)とSSL(Self-Supervised Learning)は、優れたパフォーマンスを実現している。 このパラダイムのすべてのインスタンス化は、強力で十分に確立された手作りのデータ拡張を使用してトレーニングされ、そのようなモデルの適切なトレーニングとパフォーマンスに必要である、という一般的な信念につながった。 一方, BEIT や MAE や I-JEPA などの統合埋め込み予測アーキテクチャのような生成的再構築モデルでは, マスキング以外のデータ拡張を使わずに, 高い性能を示した。 本研究では,大規模JEAにおける不変性とデータ拡張の重要性に挑戦する。 最近のSSL基盤モデルであるDINOv2でケーススタディを実行することで、トレーニングデータが十分に大きく、最先端の結果に到達し、文献で最小の増大量を使用することで、強い画像表現をJEAで得ることができ、最小限の収穫しか行えないことを示す。 本研究では,計算制約が実験的な深層学習研究の結果に与える影響についても考察し,それらが全く異なる結論をもたらすことを示す。

Self-Supervised learning (SSL) with Joint-Embedding Architectures (JEA) has led to outstanding performances. All instantiations of this paradigm were trained using strong and well-established hand-crafted data augmentations, leading to the general belief that they are required for the proper training and performance of such models. On the other hand, generative reconstruction-based models such as BEIT and MAE or Joint-Embedding Predictive Architectures such as I-JEPA have shown strong performance without using data augmentations except masking. In this work, we challenge the importance of invariance and data-augmentation in JEAs at scale. By running a case-study on a recent SSL foundation model - DINOv2 - we show that strong image representations can be obtained with JEAs and only cropping without resizing provided the training data is large enough, reaching state-of-the-art results and using the least amount of augmentation in the literature. Through this study, we also discuss the impact of compute constraints on the outcomes of experimental deep learning research, showing that they can lead to very different conclusions.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# AlignMMBench: 大規模視覚言語モデルにおける中国のマルチモーダルアライメントの評価

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models ( http://arxiv.org/abs/2406.09295v1 )

ライセンス: Link先を確認
Yuhang Wu, Wenmeng Yu, Yean Cheng, Yan Wang, Xiaohan Zhang, Jiazheng Xu, Ming Ding, Yuxiao Dong, (参考訳) 視覚言語モデル(VLM)のアライメント能力を評価することは,その有効性を決定する上で重要である。 しかし、既存のベンチマークは主に、Yes-noやMulti-choiceのような非言語的手法を用いた基本的な能力に焦点を当てている。 本稿では,中国の新興VLM向けに設計された総合的なアライメントベンチマークであるAlignMMBenchを導入することで,このギャップに対処する。 このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。 即時書き直し戦略を取り入れたAlignMMBenchは1,054のイメージと4,978の質問応答ペアを含んでいる。 評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。 最後に,AlignMMBench上でのVLMの代表的な性能について報告する。 すべての評価コードとデータはhttps://alignmmbench.github.ioで公開されている。

Evaluating the alignment capabilities of large Vision-Language Models (VLMs) is essential for determining their effectiveness as helpful assistants. However, existing benchmarks primarily focus on basic abilities using nonverbal methods, such as yes-no and multiple-choice questions. In this paper, we address this gap by introducing AlignMMBench, a comprehensive alignment benchmark specifically designed for emerging Chinese VLMs. This benchmark is meticulously curated from real-world scenarios and Chinese Internet sources, encompassing thirteen specific tasks across three categories, and includes both single-turn and multi-turn dialogue scenarios. Incorporating a prompt rewrite strategy, AlignMMBench encompasses 1,054 images and 4,978 question-answer pairs. To facilitate the evaluation pipeline, we propose CritiqueVLM, a rule-calibrated evaluator that exceeds GPT-4's evaluation ability. Finally, we report the performance of representative VLMs on AlignMMBench, offering insights into the capabilities and limitations of different VLM architectures. All evaluation codes and data are available on https://alignmmbench.github.io.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 基本モデルに対するパラメータ効率の良いアクティブラーニング

Parameter-Efficient Active Learning for Foundational models ( http://arxiv.org/abs/2406.09296v1 )

ライセンス: Link先を確認
Athmanarayanan Lakshmi Narayanan, Ranganath Krishnan, Amrutha Machireddy, Mahesh Subedar, (参考訳) 基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。 本研究は,高度に予算が制約された分類タスクにおけるサンプリング選択プロセスを進めるために,アクティブラーニング(AL)フレームワークにおけるパラメータ効率のよい微調整手法の適用に関する新たな研究である。 アウト・オブ・ディストリビューション特性で知られている画像データセットに注目することは、我々の研究に複雑さと関連性をもたらす。 より詳細な評価を通じて、これらの挑戦的なデータセット上でのAL性能の改善について説明し、パラメータを効率的に微調整する手法と基礎モデルを組み合わせるという戦略上の利点を強調した。 このことは、AL戦略の最適化に関する幅広い議論に寄与し、特定のドメインにおける効率的かつ効果的なデータアノテーションに基礎モデルを活用するための将来的な道のりを示す。

Foundational vision transformer models have shown impressive few shot performance on many vision tasks. This research presents a novel investigation into the application of parameter efficient fine-tuning methods within an active learning (AL) framework, to advance the sampling selection process in extremely budget constrained classification tasks. The focus on image datasets, known for their out-of-distribution characteristics, adds a layer of complexity and relevance to our study. Through a detailed evaluation, we illustrate the improved AL performance on these challenging datasets, highlighting the strategic advantage of merging parameter efficient fine tuning methods with foundation models. This contributes to the broader discourse on optimizing AL strategies, presenting a promising avenue for future exploration in leveraging foundation models for efficient and effective data annotation in specialized domains.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# MLKV: メモリ効率の良いトランスフォーマーデコーディングのための多層キーバリューヘッド

MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding ( http://arxiv.org/abs/2406.09297v1 )

ライセンス: Link先を確認
Zayd Muhammad Kawakibi Zuhri, Muhammad Farid Adilazuarda, Ayu Purwarianti, Alham Fikri Aji, (参考訳) トランスフォーマーの自動回帰推論はキーバリュー(KV)キャッシングから大きく恩恵を受けるが、モデルサイズ、バッチサイズ、シーケンス長が大きくなるなど、大きなメモリボトルネックにつながる可能性がある。 我々は,Multi-Query Attention (MQA) と Grouped-Query Attention (GQA) で可能であった以上のメモリ使用量を削減するために,トランスフォーマー層をまたいだKV共有を拡張した新しいアプローチであるMulti-Layer Key-Value(MLKV)の共有を導入する。 アップトレーニングされたPythia-160Mを用いた様々なNLPベンチマークと推論メトリクスの評価から、MLKVはパフォーマンス損失を最小限に抑えてメモリ使用量を著しく削減し、KVキャッシュサイズをMQAに比べて6倍に削減することが示された。 これらの結果は、MLKVが大規模トランスフォーマーモデルを効率的に展開する可能性を強調している。 私たちはhttps://github.com/zaydzuhri/pythia-mlkvでコードを提供しています。

Auto-regressive inference of transformers benefit greatly from Key-Value (KV) caching, but can lead to major memory bottlenecks as model size, batch size, and sequence length grow at scale. We introduce Multi-Layer Key-Value (MLKV) sharing, a novel approach extending KV sharing across transformer layers to reduce memory usage beyond what was possible with Multi-Query Attention (MQA) and Grouped-Query Attention (GQA). Evaluations on various NLP benchmarks and inference metrics using uptrained Pythia-160M variants demonstrate that MLKV significantly reduces memory usage with minimal performance loss, reducing KV cache size down to a factor of 6x compared to MQA. These results highlight MLKV's potential for efficient deployment of transformer models at scale. We provide code at https://github.com/zaydzuhri/pythia-mlkv
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 中間回路計測のためのパウリ雑音学習

Pauli Noise Learning for Mid-Circuit Measurements ( http://arxiv.org/abs/2406.09299v1 )

ライセンス: Link先を確認
Jordan Hines, Timothy Proctor, (参考訳) 現在のMCM(Mid-circuit Measurement)のベンチマークは、スケーラビリティや、それらが定量化できるエラーの種類に制限されており、パフォーマンスを定量化する新しいテクニックを必要としている。 本稿では,MCM におけるパウリ雑音の学習理論を紹介し,それを MCM のベンチマークを行うスケーラブルな手法である MCM サイクルベンチマークの作成に利用する。 MCMサイクルベンチマークは、ランダムにコンパイルされたMCMとクリフォードゲートのエラー率の詳細情報を抽出し、その結果を現在の量子ハードウェア上でのMCM間の相関誤差の定量化に利用することができることを示す。 提案手法は既存のパウリ雑音学習手法に統合され,MCMを含む幅広い回路の特性評価とベンチマークを行うことができる。

Current benchmarks for mid-circuit measurements (MCMs) are limited in scalability or the types of error they can quantify, necessitating new techniques for quantifying their performance. Here, we introduce a theory for learning Pauli noise in MCMs and use it to create MCM cycle benchmarking, a scalable method for benchmarking MCMs. MCM cycle benchmarking extracts detailed information about the rates of errors in randomly compiled layers of MCMs and Clifford gates, and we demonstrate how its results can be used to quantify correlated errors during MCMs on current quantum hardware. Our method can be integrated into existing Pauli noise learning techniques to scalably characterize and benchmark wide classes of circuits containing MCMs.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# Toffee: 主観駆動型テキスト画像生成のための100万単位の効率的なデータセット構築

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2406.09305v1 )

ライセンス: Link先を確認
Yufan Zhou, Ruiyi Zhang, Kaizhi Zheng, Nanxuan Zhao, Jiuxiang Gu, Zichao Wang, Xin Eric Wang, Tong Sun, (参考訳) 主題駆動のテキスト・ツー・イメージ生成では、多数の画像ペアを含む合成データセット上でモデルをトレーニングすることで、最近の研究は優れたパフォーマンスを実現している。 これらのデータセットに基づいてトレーニングされた生成モデルは、任意のテスト画像から特定の対象に対してゼロショットでテキスト整列画像を生成することができる。 さらに、テストイメージの微調整が必要なメソッドよりも優れています。 しかし、そのようなデータセットを作成するコストは、ほとんどの研究者にとって禁じられている。 単一のトレーニングペアを生成するために、現行の手法は、被写体画像に予め訓練済みのテキスト・ツー・イメージモデルを微調整し、細粒度の詳細をキャプチャし、次いで、細調整されたモデルを使用して、創造的なテキストプロンプトに基づいて同じ被写体のための画像を生成する。 そのため、数百万の被験者で大規模なデータセットを構築するには、数十万のGPU時間が必要になる。 この問題に対処するために、主観的編集・生成のためのデータセットを効率的に構築するToffeeを提案する。 具体的には、データセットの構築には主観レベルの微調整は必要ない。 2つの生成モデルを事前学習した後、無限個の高品質なサンプルを生成することができる。 我々は,500万枚の画像対,テキストプロンプト,マスクを含む,主観的画像編集・生成のための最初の大規模データセットを構築した。 データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。 また、提案したデータセットをテストするために、主観的画像編集と生成の両方が可能なモデルを提案する。 提案したデータセット上でモデルを簡単にトレーニングすることにより,提案したデータセット構築フレームワークの有効性を示す競争結果が得られる。

In subject-driven text-to-image generation, recent works have achieved superior performance by training the model on synthetic datasets containing numerous image pairs. Trained on these datasets, generative models can produce text-aligned images for specific subject from arbitrary testing image in a zero-shot manner. They even outperform methods which require additional fine-tuning on testing images. However, the cost of creating such datasets is prohibitive for most researchers. To generate a single training pair, current methods fine-tune a pre-trained text-to-image model on the subject image to capture fine-grained details, then use the fine-tuned model to create images for the same subject based on creative text prompts. Consequently, constructing a large-scale dataset with millions of subjects can require hundreds of thousands of GPU hours. To tackle this problem, we propose Toffee, an efficient method to construct datasets for subject-driven editing and generation. Specifically, our dataset construction does not need any subject-level fine-tuning. After pre-training two generative models, we are able to generate infinite number of high-quality samples. We construct the first large-scale dataset for subject-driven image editing and generation, which contains 5 million image pairs, text prompts, and masks. Our dataset is 5 times the size of previous largest dataset, yet our cost is tens of thousands of GPU hours lower. To test the proposed dataset, we also propose a model which is capable of both subject-driven image editing and generation. By simply training the model on our proposed dataset, it obtains competitive results, illustrating the effectiveness of the proposed dataset construction framework.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 医療における機械学習の公平性に関するチュートリアル

A tutorial on fairness in machine learning in healthcare ( http://arxiv.org/abs/2406.09307v1 )

ライセンス: Link先を確認
Jianhui Gao, Benson Chou, Zachary R. McCaw, Hilary Thurston, Paul Varghese, Chuan Hong, Jessica Gronsbell, (参考訳) OBJECTIVE: 機械学習(ML)アルゴリズムがすべての患者グループで安全かつ効果的であることを保証し、特定の患者に不利益を与えないこと。 本チュートリアルの目的は,臨床応用と実践に焦点をあて,医療情報化コミュニティをML内の公平性の共通概念に導入することである。 TARGET AUDIENCE: 様々な医療応用においてフェアネスのギャップが生じるにつれて、このチュートリアルは、現代の臨床データを利用する研究者や臨床医に、事前の知識を仮定することなく、フェアネスの理解を提供するように設計されている。 SCOPE: 医療におけるモデルが不公平である理由,フェアネスを定量化するための指標の要約と比較,進行中の研究の議論など,MLにおけるフェアネスを定義するための基本的な概念と手法について述べる。 本稿では、電子健康記録データセットにおける死亡予測のケーススタディを通じて導入された公平性について述べる。 最後に,総合的なグループフェアネス評価のためのユーザフレンドリーなRパッケージを提供することにより,研究者や臨床医が自身のML作業におけるフェアネスを評価することができる。

OBJECTIVE: Ensuring that machine learning (ML) algorithms are safe and effective within all patient groups, and do not disadvantage particular patients, is essential to clinical decision making and preventing the reinforcement of existing healthcare inequities. The objective of this tutorial is to introduce the medical informatics community to the common notions of fairness within ML, focusing on clinical applications and implementation in practice. TARGET AUDIENCE: As gaps in fairness arise in a variety of healthcare applications, this tutorial is designed to provide an understanding of fairness, without assuming prior knowledge, to researchers and clinicians who make use of modern clinical data. SCOPE: We describe the fundamental concepts and methods used to define fairness in ML, including an overview of why models in healthcare may be unfair, a summary and comparison of the metrics used to quantify fairness, and a discussion of some ongoing research. We illustrate some of the fairness methods introduced through a case study of mortality prediction in a publicly available electronic health record dataset. Finally, we provide a user-friendly R package for comprehensive group fairness evaluation, enabling researchers and clinicians to assess fairness in their own ML work.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# トランスフォーマーがニューラルアルゴリズム推論器と出会う

Transformers meet Neural Algorithmic Reasoners ( http://arxiv.org/abs/2406.09308v1 )

ライセンス: Link先を確認
Wilfried Bounsi, Borja Ibarz, Andrew Dudzik, Jessica B. Hamrick, Larisa Markeeva, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković, (参考訳) トランスフォーマーは、シンプルだが効果的なアーキテクチャで機械学習に革命をもたらした。 インターネットから大量のテキストデータセットを事前学習するトランスフォーマーは、自然言語理解(NLU)タスクの未整合の一般化につながっている。 しかし、そのような言語モデルは、アルゴリズム的な推論の形式を扱う際にも脆弱なままであり、計算は正確で堅牢でなければならない。 この制限に対処するために、Transformer言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。 このようなNARは、グラフ形式で指定されたアルゴリズムタスクの汎用的な解法として有効であることが証明された。 トランスフォーマーへの埋め込みを可能にするために,言語モデルのトークンをNARからのノード埋め込みにクロスアタッチ可能な,2段階のトレーニング手順を備えたハイブリッドアーキテクチャを提案する。 CLRS-30ベンチマークのテキストベースのバージョンであるCLRS-Text上で得られたTransNARモデルを評価し、分布内および外の両方のアルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。

Transformers have revolutionized machine learning with their simple yet effective architecture. Pre-training Transformers on massive text datasets from the Internet has led to unmatched generalization for natural language understanding (NLU) tasks. However, such language models remain fragile when tasked with algorithmic forms of reasoning, where computations must be precise and robust. To address this limitation, we propose a novel approach that combines the Transformer's language understanding with the robustness of graph neural network (GNN)-based neural algorithmic reasoners (NARs). Such NARs proved effective as generic solvers for algorithmic tasks, when specified in graph form. To make their embeddings accessible to a Transformer, we propose a hybrid architecture with a two-phase training procedure, allowing the tokens in the language model to cross-attend to the node embeddings from the NAR. We evaluate our resulting TransNAR model on CLRS-Text, the text-based version of the CLRS-30 benchmark, and demonstrate significant gains over Transformer-only models for algorithmic reasoning, both in and out of distribution.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 非計量空間におけるニューラルネットワーク

Neural networks in non-metric spaces ( http://arxiv.org/abs/2406.09310v1 )

ライセンス: Link先を確認
Luca Galimberti, (参考訳) arXiv:2109.13512v4で提案した無限次元ニューラルネットワークアーキテクチャを活用し、Fr'echet空間からの入力を処理し、それを示す普遍近似特性を用いることで、入力および出力空間の広大なクラスに対する普遍近似定理を証明し、このアーキテクチャの範囲を大きく広げる。 より正確には、入力空間 $\mathfrak X$ は、穏やかな条件 (quasi-Polish) のみを満たす一般的な位相空間であり、出力空間は別の準ポーランド空間 $\mathfrak Y$ あるいは位相ベクトル空間 $E$ のいずれかである。 arXiv:2109.13512v4と同様に、我々のニューラルネットワークアーキテクチャが任意の精度で「有限次元」部分空間に投影できることを示し、実装が容易で、高速な計算とフィッティングを可能にする近似ネットワークを得る。 結果として得られるニューラルネットワークアーキテクチャは、関数データに基づく予測タスクに適用できる。 我々の知る限り、これはこのような幅広い入力/出力空間を扱う最初の結果であり、同時に続くアーキテクチャの数値的実現性を保証する。 最後に、準ポーランド空間の圏が、無限次元空間上のアーキテクチャを構築することを目的としている場合、ある意味で正しい圏であることを示す閉塞結果が証明される。

Leveraging the infinite dimensional neural network architecture we proposed in arXiv:2109.13512v4 and which can process inputs from Fr\'echet spaces, and using the universal approximation property shown therein, we now largely extend the scope of this architecture by proving several universal approximation theorems for a vast class of input and output spaces. More precisely, the input space $\mathfrak X$ is allowed to be a general topological space satisfying only a mild condition ("quasi-Polish"), and the output space can be either another quasi-Polish space $\mathfrak Y$ or a topological vector space $E$. Similarly to arXiv:2109.13512v4, we show furthermore that our neural network architectures can be projected down to "finite dimensional" subspaces with any desirable accuracy, thus obtaining approximating networks that are easy to implement and allow for fast computation and fitting. The resulting neural network architecture is therefore applicable for prediction tasks based on functional data. To the best of our knowledge, this is the first result which deals with such a wide class of input/output spaces and simultaneously guarantees the numerical feasibility of the ensuing architectures. Finally, we prove an obstruction result which indicates that the category of quasi-Polish spaces is in a certain sense the correct category to work with if one aims at constructing approximating architectures on infinite-dimensional spaces $\mathfrak X$ which, at the same time, have sufficient expressive power to approximate continuous functions on $\mathfrak X$, are specified by a finite number of parameters only and are "stable" with respect to these parameters.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# VRアプリにおける立体視の不整合の軽減と検出

Less Cybersickness, Please: Demystifying and Detecting Stereoscopic Visual Inconsistencies in VR Apps ( http://arxiv.org/abs/2406.09313v1 )

ライセンス: Link先を確認
Shuqing Li, Cuiyun Gao, Jianping Zhang, Yujia Zhang, Yepang Liu, Jiazhen Gu, Yun Peng, Michael R. Lyu, (参考訳) VR(Virtual Reality)アプリの品質、特にGUI(VR Graphical User Interface)のレンダリング品質は不可欠です。 従来の2Dアプリとは異なり、VRアプリは、それぞれ左目と右目のために2つの異なる2D画像をレンダリングすることで、ユーザのための3Dデジタルシーンを作成します。 しかし、立体視的不整合("SVI"と表記される)は、ユーザの脳のレンダリング過程を損なうため、ユーザの不快感や健康への影響さえも生じる。 このような問題は一般的には存在するが、未解決のままである。 我々は15のVRプラットフォームから282のSVIバグレポートを解析し、15種類のマニフェストを要約した。 実験分析の結果,(1)トレーニングデータの欠如,(2)SVI問題の顕在化は多種多様で複雑で,しばしばアプリケーション固有のもの,(3)最もアクセスしやすいVRアプリはクローズドソースの商用ソフトウェアであるため,SVI問題の自動検出は困難であることが判明した。 既存のパターンに基づく教師付き分類アプローチは、SVI問題の検出には適用できないか、あるいは効果がない可能性がある。 これらの課題に対処するため、我々は、レンダリングされたGUI状態のみに基づいて立体視の不整合を識別する、StereoIDという教師なしブラックボックステストフレームワークを提案する。 ステレオIDは、実際の左目画像に基づいて合成右目画像を生成し、合成右目画像と実際の右目画像との距離を計算し、SVI問題を検出する。 本稿では,左目と右目の間で期待される視点シフトをキャプチャする画像生成プロセスを実現するための,奥行き認識型条件付きステレオ画像トランスレータを提案する。 実験のために、288の現実世界のVRアプリから171K以上の画像を持つ、大規模な未ラベルのVRステレオスクリーンショットデータセットを構築しました。 大規模な実験の後、StereoIDはユーザーレポートと野生のVRアプリの両方でSVI問題を検出する上で優れたパフォーマンスを示している。

The quality of Virtual Reality (VR) apps is vital, particularly the rendering quality of the VR Graphical User Interface (GUI). Different from traditional 2D apps, VR apps create a 3D digital scene for users, by rendering two distinct 2D images for the user's left and right eyes, respectively. Stereoscopic visual inconsistency (denoted as "SVI") issues, however, undermine the rendering process of the user's brain, leading to user discomfort and even adverse health effects. Such issues commonly exist but remain underexplored. We conduct an empirical analysis on 282 SVI bug reports from 15 VR platforms, summarizing 15 types of manifestations. The empirical analysis reveals that automatically detecting SVI issues is challenging, mainly because: (1) lack of training data; (2) the manifestations of SVI issues are diverse, complicated, and often application-specific; (3) most accessible VR apps are closed-source commercial software. Existing pattern-based supervised classification approaches may be inapplicable or ineffective in detecting the SVI issues. To counter these challenges, we propose an unsupervised black-box testing framework named StereoID to identify the stereoscopic visual inconsistencies, based only on the rendered GUI states. StereoID generates a synthetic right-eye image based on the actual left-eye image and computes distances between the synthetic right-eye image and the actual right-eye image to detect SVI issues. We propose a depth-aware conditional stereo image translator to power the image generation process, which captures the expected perspective shifts between left-eye and right-eye images. We build a large-scale unlabeled VR stereo screenshot dataset with larger than 171K images from 288 real-world VR apps for experiments. After substantial experiments, StereoID demonstrates superior performance for detecting SVI issues in both user reports and wild VR apps.
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 垂直ロラ:変圧器の高次期待-最大化解釈

Vertical LoRA: Dense Expectation-Maximization Interpretation of Transformers ( http://arxiv.org/abs/2406.09315v1 )

ライセンス: Link先を確認
Zhuolin Fu, (参考訳) 本稿では,変換器をベイズネット上での高密度期待-最大化アルゴリズムとして解釈する方法を示す。 以上の解釈に基づいて,性能を保ちながらパラメータ数を劇的に削減する新しいモデル設計パラダイムであるVertical LoRA(VLoRA)を提案する。 VLoRAでは、モデルはレイヤで構成され、それぞれが前のレイヤに基づいてインクリメントを再帰的に学習する。 次に、LoRA分解をインクリメントに適用する。 VLoRAは、LoRAと直交するベースモデルで動作する。 さまざまなタスクやモデルの実験を行います。 その結果は 1 VLoRAでは、Transformerモデルパラメータカウントを劇的に削減できる。 2) 原型の性能は保存される。 ソースコードは \url{https://github.com/neverUseThisName/vlora} で入手できる。

In this paper, we show how Transformers can be interpreted as dense Expectation-Maximization algorithms performed on Bayesian Nets. Based on the above interpretation, we propose a new model design paradigm, namely Vertical LoRA (VLoRA), which reduces the parameter count dramatically while preserving performance. In VLoRA, a model consists of layers, each of which recursively learns an increment based on the previous layer. We then apply LoRA decomposition to the increments. VLoRA works on the base model, which is orthogonal to LoRA, meaning they can be used together. We do experiments on various tasks and models. The results show that 1) with VLoRA, the Transformer model parameter count can be reduced dramatically and 2) the performance of the original model is preserved. The source code is available at \url{https://github.com/neverUseThisName/vlora}
翻訳日:2024-06-14 16:45:33 公開日:2024-06-13
# 単一量子ビットを用いたBose-Hubbardモデル

Bose-Hubbard model with a single qubit ( http://arxiv.org/abs/2406.09316v1 )

ライセンス: Link先を確認
R. M. Woloshyn, (参考訳) 量子多体系の基底状態エネルギーの計算における変分波関数のアンザッツとして1量子ビットパラメタライズド回路を用いることを,1次元ボース・ハバードモデルを用いて実証した。 古典的ニューラルネットワークを用いて変動波関数を生成する計算との比較を行う。 IBM Quantumハードウェア上で実行される計算についても紹介する。

The use of a single-qubit parametrized circuit as an Ansatz for the variational wave function in the calculation of the ground state energy of a quantum many-body system is demonstrated using the one-dimensional Bose-Hubbard model. Comparison is made to calculations where a classic neural network is used to generate the variational wave function. Computations carried out on IBM Quantum hardware are also presented.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# 400以上の疾患の知識を有するビジョン・ランゲージ・ファンデーションモデルを用いた共通および希少なファンドス病の同定

Common and Rare Fundus Diseases Identification Using Vision-Language Foundation Model with Knowledge of Over 400 Diseases ( http://arxiv.org/abs/2406.09317v1 )

ライセンス: Link先を確認
Meng Wang, Tian Lin, Kai Yu, Aidi Lin, Yuanyuan Peng, Lianyu Wang, Cheng Chen, Ke Zou, Huiyu Liang, Man Chen, Xue Yao, Meiqin Zhang, Binwei Huang, Chaoxin Zheng, Wei Chen, Yilong Luo, Yifan Chen, Jingcheng Wang, Yih Chung Tham, Dianbo Liu, Wendy Wong, Sahil Thakur, Beau Fenner, Yanda Meng, Yukun Zhou, Zehua Jiang, Minghui Qiu, Changqing Zhang, Xinjian Chen, Sophia Y. Wang, Cecilia S. Lee, Lucia Sobrin, Pearse A. Keane, Ching-Yu Cheng, Haoyu Chen, Huazhu Fu, (参考訳) 現在の網膜人工知能モデルは、限られた病気と限られた知識を持つデータを用いて訓練された。 本稿では,400以上の眼底疾患の知識を有する網膜視覚言語基盤モデル(RetiZero)を提案する。 具体的には、29の公開データセット、180の眼科書、オンラインリソースのテキスト記述と組み合わせた341,896の眼底画像を収集し、複数の国や民族で400以上の眼底疾患を網羅した。 RetiZeroは、ゼロショット網膜疾患認識、イメージ・ツー・イメージ検索、内部ドメインとクロスドメイン網膜疾患の分類、少数ショットの微調整など、さまざまな下流タスクで優れたパフォーマンスを達成した。 特に、ゼロショットのシナリオでは、RetiZeroは15と52のファンドス病でそれぞれ0.8430と0.7561のスコアを記録した。 画像検索タスクでは、RetiZeroは15と52の網膜疾患でそれぞれ0.9500と0.8860のTop5スコアを達成した。 さらに、異なる国の眼科専門家による臨床評価では、RetiZeroは、ゼロショットと画像検索の手法を用いて、モデル再トレーニングを必要とせず、経験豊富な眼科医に匹敵する性能を達成できることが示されている。 網膜疾患の診断能力は臨床実装におけるRetiZeroの基礎モデルを強化する。

The current retinal artificial intelligence models were trained using data with a limited category of diseases and limited knowledge. In this paper, we present a retinal vision-language foundation model (RetiZero) with knowledge of over 400 fundus diseases. Specifically, we collected 341,896 fundus images paired with text descriptions from 29 publicly available datasets, 180 ophthalmic books, and online resources, encompassing over 400 fundus diseases across multiple countries and ethnicities. RetiZero achieved outstanding performance across various downstream tasks, including zero-shot retinal disease recognition, image-to-image retrieval, internal domain and cross-domain retinal disease classification, and few-shot fine-tuning. Specially, in the zero-shot scenario, RetiZero achieved a Top5 score of 0.8430 and 0.7561 on 15 and 52 fundus diseases respectively. In the image-retrieval task, RetiZero achieved a Top5 score of 0.9500 and 0.8860 on 15 and 52 retinal diseases respectively. Furthermore, clinical evaluations by ophthalmology experts from different countries demonstrate that RetiZero can achieve performance comparable to experienced ophthalmologists using zero-shot and image retrieval methods without requiring model retraining. These capabilities of retinal disease identification strengthen our RetiZero foundation model in clinical implementation.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# 因果ゲームにおけるインターベンションの特徴

Characterising Interventions in Causal Games ( http://arxiv.org/abs/2406.09318v1 )

ライセンス: Link先を確認
Manuj Mishra, James Fox, Michael Wooldridge, (参考訳) 因果ゲームは、多エージェント設定で因果クエリを答えられる確率的グラフィカルモデルである。 因果ベイズネットワークを拡張し、エージェントの自由度と目的度を表す決定変数とユーティリティ変数を指定する。 マルチエージェント設定では、各エージェントが因果的介入を知る前に政策を決定するか否かが重要であり、それが政策に適応することで介入に反応できるかどうかに影響を及ぼす。 その結果、因果ゲームにおける以前の研究は、許容可能な介入に時間的制約を課した。 我々は、任意の任意に複雑な介入クエリの効果をマルチエージェント設定で研究できるように、音と基本的な因果的介入の完全なセットを概説することによって、これを緩和する。 我々はまた、因果メカニズムの設計とコミットメントを考慮し、安全なAIシステムの設計への応用を実証する。

Causal games are probabilistic graphical models that enable causal queries to be answered in multi-agent settings. They extend causal Bayesian networks by specifying decision and utility variables to represent the agents' degrees of freedom and objectives. In multi-agent settings, whether each agent decides on their policy before or after knowing the causal intervention is important as this affects whether they can respond to the intervention by adapting their policy. Consequently, previous work in causal games imposed chronological constraints on permissible interventions. We relax this by outlining a sound and complete set of primitive causal interventions so the effect of any arbitrarily complex interventional query can be studied in multi-agent settings. We also demonstrate applications to the design of safe AI systems by considering causal mechanism design and commitment.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# Khmer Semantic Search Engine: デジタル情報アクセスとドキュメント検索

Khmer Semantic Search Engine: Digital Information Access and Document Retrieval ( http://arxiv.org/abs/2406.09320v1 )

ライセンス: Link先を確認
Nimol Thuon, (参考訳) 検索エンジンプロセスは文書コンテンツ検索に不可欠である。 Khmerドキュメントでは、必須のキーワードを抽出するツールが必要である。 カンボジア人は、重要なクメールコンテンツを日々生成しているにもかかわらず、効果的なセマンティック検索ツールがないため、必要な文書を見つけるのに苦労している。 Googleでさえ、Khmerコンテンツに対して高い精度を提供していない。 セマンティック検索エンジンは、様々なコンテンツタイプを理解するために高度なアルゴリズムを用いて検索結果を改善する。 レポート、記事、ソーシャルメディアフィードバックなどのクメールのデジタルコンテンツの増加は、検索機能の向上に不可欠である。 本研究は,従来のKhmer検索手法を改善するために設計された,Khmer Semantic Search Engine(KSE)を提案する。 セマンティックマッチング技術と公式な注釈付きセマンティックコンテンツを利用して,ユーザクエリから意味のあるキーワードを抽出し,正確なマッチングを行い,最適なオフライン文書とオンラインURL文書を提供する。 キーワード抽出とセマンティック検索マッチングに基づく2つのセマンティック検索フレームワークを提案する。 さらに、文書の追加や手作業によるキーワード抽出など、データ準備のためのツールも開発した。 性能を評価するため,基礎的真理データセットを作成し,検索と意味探索に関する問題について議論した。 検索項のセマンティクスの理解がより正確な結果をもたらすことを示す。

The search engine process is crucial for document content retrieval. For Khmer documents, a tool is needed to extract essential keywords. Despite the daily generation of significant Khmer content, Cambodians struggle to find necessary documents due to the lack of an effective semantic searching tool. Even Google does not deliver high accuracy for Khmer content. Semantic search engines improve search results by employing advanced algorithms to understand various content types. With the rise in Khmer digital content such as reports, articles, and social media feedback enhanced search capabilities are essential. This research proposes the first Khmer Semantic Search Engine (KSE), designed to improve traditional Khmer search methods. Utilizing semantic matching techniques and formally annotated semantic content, our tool extracts meaningful keywords from user queries performs precise matching, and provides the best matching offline documents and online URL documents. We propose two semantic search frameworks based on keyword extraction and semantic search matching. Additionally, we developed tools for data preparation, including document addition and manual keyword extraction. To evaluate performance, we created a ground truth dataset and discussed issues related to searching and semantic search. Our findings show how understanding search term semantics can lead to more accurate results.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# JailbreakEval: 大規模言語モデルに対するJailbreakの試みを評価する統合ツールキット

JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models ( http://arxiv.org/abs/2406.09321v1 )

ライセンス: Link先を確認
Delong Ran, Jinyuan Liu, Yichen Gong, Jingyi Zheng, Xinlei He, Tianshuo Cong, Anyu Wang, (参考訳) 大規模言語モデル(LLM)を誘導し、LLMに重大な誤用の脅威を与え、禁止命令に対する有害な応答を発生させることを目標とする。 現在、ジェイルブレイクの攻撃と防衛に関する研究が増えているが、ジェイルブレイクの試みが成功したかどうかをどう評価するかについては(当然のことながら)合意が得られていない。 言い換えれば、LSMの応答の有害性を評価する方法は、手動のアノテーションやGPT-4を特定の方法で促すなど、様々である。 それぞれのアプローチには独自の長所と短所があり、時間と金銭的コストだけでなく、人的価値との整合性にも影響を与えます。 この評価の多様性は、研究者が適切な評価方法を選択し、異なるジェイルブレイク攻撃と防御で公正な比較を行う際の課題である。 本稿では,2023年5月から2024年4月までに公表された約90件のジェイルブレイク研究から,ジェイルブレイク評価手法の包括的分析を行った。 本研究は,ジェイルブレイク評価者の体系的な分類を導入し,その強みと弱みを詳細に把握し,適応の現況を考察する。 さらに、その後の研究を促進するために、ジェイルブレイクの試みの評価に焦点をあてたユーザフレンドリーなツールキットであるJailbreakEvalを提案する。 様々なよく知られた評価ツールが含まれており、ユーザーは単一のコマンドだけで評価結果を得ることができる。 JailbreakEvalでは、開発や比較が容易な統合フレームワークで、独自の評価ワークフローをカスタマイズすることもできる。 まとめると、JailbreakEvalは、jailbreak研究における評価プロセスを単純化し、コミュニティ内でのjailbreak評価の包括的標準を育成する触媒であると考えている。

Jailbreak attacks aim to induce Large Language Models (LLMs) to generate harmful responses for forbidden instructions, presenting severe misuse threats to LLMs. Up to now, research into jailbreak attacks and defenses is emerging, however, there is (surprisingly) no consensus on how to evaluate whether a jailbreak attempt is successful. In other words, the methods to assess the harmfulness of an LLM's response are varied, such as manual annotation or prompting GPT-4 in specific ways. Each approach has its own set of strengths and weaknesses, impacting their alignment with human values, as well as the time and financial cost. This diversity in evaluation presents challenges for researchers in choosing suitable evaluation methods and conducting fair comparisons across different jailbreak attacks and defenses. In this paper, we conduct a comprehensive analysis of jailbreak evaluation methodologies, drawing from nearly ninety jailbreak research released between May 2023 and April 2024. Our study introduces a systematic taxonomy of jailbreak evaluators, offering in-depth insights into their strengths and weaknesses, along with the current status of their adaptation. Moreover, to facilitate subsequent research, we propose JailbreakEval, a user-friendly toolkit focusing on the evaluation of jailbreak attempts. It includes various well-known evaluators out-of-the-box, so that users can obtain evaluation results with only a single command. JailbreakEval also allows users to customize their own evaluation workflow in a unified framework with the ease of development and comparison. In summary, we regard JailbreakEval to be a catalyst that simplifies the evaluation process in jailbreak research and fosters an inclusive standard for jailbreak evaluation within the community.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# 並列・同一機械のエネルギー効率制御のための能動推論会議

Active Inference Meeting Energy-Efficient Control of Parallel and Identical Machines ( http://arxiv.org/abs/2406.09322v1 )

ライセンス: Link先を確認
Yavar Taheri Yeganeh, Mohsen Jafari, Andrea Matta, (参考訳) 製造システムにおけるエネルギー効率制御剤開発における能動推論の適用について検討する。 能動推論は神経科学に根ざし、知覚、学習、行動と固有の不確実な定量化要素を統合する統一確率論の枠組みを提供する。 本研究は,ディープラーニングとアクティブ推論決定フレームワークを組み合わせた新たな分野である深層能動推論について検討する。 深部能動推論エージェントを活用することで、並列および同一のワークステーションを制御し、エネルギー効率を向上させる。 既存のエージェントアーキテクチャにカスタマイズされた拡張を導入することで、問題の確率的性質と政策応答の遅れによって引き起こされる課題に対処する。 具体的には、複雑な計画の必要性を軽減するために、多段階遷移法とハイブリッド地平線法を導入する。 実験の結果,これらの拡張の有効性を実証し,アクティブな推論に基づくアプローチの可能性を強調した。

We investigate the application of active inference in developing energy-efficient control agents for manufacturing systems. Active inference, rooted in neuroscience, provides a unified probabilistic framework integrating perception, learning, and action, with inherent uncertainty quantification elements. Our study explores deep active inference, an emerging field that combines deep learning with the active inference decision-making framework. Leveraging a deep active inference agent, we focus on controlling parallel and identical machine workstations to enhance energy efficiency. We address challenges posed by the problem's stochastic nature and delayed policy response by introducing tailored enhancements to existing agent architectures. Specifically, we introduce multi-step transition and hybrid horizon methods to mitigate the need for complex planning. Our experimental results demonstrate the effectiveness of these enhancements and highlight the potential of the active inference-based approach.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# トリックのバグ: LLMにおけるジェイルブレイク攻撃のベンチマーク

Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs ( http://arxiv.org/abs/2406.09324v1 )

ライセンス: Link先を確認
Zhao Xu, Fan Liu, Hao Liu, (参考訳) LLM(Large Language Models)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示しているが、それらはジェイルブレイク攻撃の影響を受けやすく、有害なアウトプットを生成するために操作できる。 最近、研究機関がジェイルブレイク攻撃をトークンレベルとプロンプトレベルに分類している。 しかし、以前の研究は主にジェイルブレイク攻撃の様々な主要な要因を見落としており、ほとんどの研究はLLMの脆弱性に集中し、防衛強化されたLLMの探索を欠いている。 これらの問題に対処するため,LLM性能に対する各種攻撃設定の影響を評価し,ジェイルブレイク攻撃の基準ベンチマークを提供し,標準化された評価フレームワークの採用を奨励する。 具体的には、ターゲットレベルとアタックレベルの両方の観点から、LDMに対してジェイルブレイク攻撃を行う8つの要因を評価する。 さらに、A800-80Gで約5万のGPU時間で約320の実験を含む、広く使用されている2つのデータセットにわたる6つの防御方法に対する7つの代表的なジェイルブレイク攻撃を実行します。 実験の結果,防衛強化LDMに対する攻撃を評価するため,標準化されたベンチマークの必要性が明らかになった。 私たちのコードはhttps://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking.orgから入手可能です。

Although Large Language Models (LLMs) have demonstrated significant capabilities in executing complex tasks in a zero-shot manner, they are susceptible to jailbreak attacks and can be manipulated to produce harmful outputs. Recently, a growing body of research has categorized jailbreak attacks into token-level and prompt-level attacks. However, previous work primarily overlooks the diverse key factors of jailbreak attacks, with most studies concentrating on LLM vulnerabilities and lacking exploration of defense-enhanced LLMs. To address these issues, we evaluate the impact of various attack settings on LLM performance and provide a baseline benchmark for jailbreak attacks, encouraging the adoption of a standardized evaluation framework. Specifically, we evaluate the eight key factors of implementing jailbreak attacks on LLMs from both target-level and attack-level perspectives. We further conduct seven representative jailbreak attacks on six defense methods across two widely used datasets, encompassing approximately 320 experiments with about 50,000 GPU hours on A800-80G. Our experimental results highlight the need for standardized benchmarking to evaluate these attacks on defense-enhanced LLMs. Our code is available at https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# REVS:語彙空間におけるランク編集による言語モデルにおける知覚的情報の学習

REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space ( http://arxiv.org/abs/2406.09325v1 )

ライセンス: Link先を確認
Tomer Ashuach, Martin Tutek, Yonatan Belinkov, (参考訳) 大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶・拡散し、プライバシー上の懸念を引き起こすリスクがある。 この問題に対処する現在のアプローチは、コストのかかるデータセットのスクラブや、アンラーニングやモデル編集によるモデルフィルタリングである。 LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。 REVSは、各機密情報に関連するニューロンの小さなサブセットを特定し、変更する。 これらのニューロンを語彙空間(埋め込み)に投影することで、生成を駆動するコンポーネントをピンポイントで特定する。 次に、非埋め込み行列の擬似逆数に基づいてモデル編集を計算し、ターゲットとする機密データの非プロモート生成に適用する。 本手法を真にセンシティブな情報に基づいて適切に評価するために,GPT-Jにより固有に記憶された電子メールデータセットと,モデルを記憶するように調整した合成社会保障番号データセットの2つのデータセットをキュレートする。 他の最先端モデル編集手法と比較して、REVSは機密情報の排除と抽出攻撃に対する堅牢性の両方において優れた性能を示し、基盤となるモデルの完全性を維持している。 コードとデモノートはhttps://technion-cs-nlp.github.io/REVS.comで公開されている。

Large language models (LLMs) risk inadvertently memorizing and divulging sensitive or personally identifiable information (PII) seen in training data, causing privacy concerns. Current approaches to address this issue involve costly dataset scrubbing, or model filtering through unlearning and model editing, which can be bypassed through extraction attacks. We propose REVS, a novel model editing method for unlearning sensitive information from LLMs. REVS identifies and modifies a small subset of neurons relevant for each piece of sensitive information. By projecting these neurons to the vocabulary space (unembedding), we pinpoint the components driving its generation. We then compute a model edit based on the pseudo-inverse of the unembedding matrix, and apply it to de-promote generation of the targeted sensitive data. To adequately evaluate our method on truly sensitive information, we curate two datasets: an email dataset inherently memorized by GPT-J, and a synthetic social security number dataset that we tune the model to memorize. Compared to other state-of-the-art model editing methods, REVS demonstrates superior performance in both eliminating sensitive information and robustness to extraction attacks, while retaining integrity of the underlying model. The code and a demo notebook are available at https://technion-cs-nlp.github.io/REVS.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# PianoMotion10M: ピアノ演奏における手の動き生成のためのデータセットとベンチマーク

PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance ( http://arxiv.org/abs/2406.09326v1 )

ライセンス: Link先を確認
Qijun Gan, Song Wang, Shengtao Wu, Jianke Zhu, (参考訳) 近年、教育のための人工知能技術が注目されている一方、効果的な楽器教育システムの設計には依然として未解決の問題が残っている。 キープレスは楽譜から直接引き出すことができるが、キープレス間の遷移運動はピアノ演奏においてより広範な指導を必要とする。 本研究では,ピアノ演奏のための手の動きと指の動きをガイドするピアノハンド動作生成ベンチマークを構築した。 この目的のために,1000万個の手ポーズを持つ鳥眼ビューから116時間のピアノ演奏ビデオからなる注釈付きデータセットPianoMotion10Mを収集した。 また,位置予測器と位置誘導ジェスチャジェネレータによってピアノオーディオから手の動きを生成する強力なベースラインモデルを導入する。 さらに, 運動類似性, 滑らか性, 左右手の位置精度, 運動分布の全体的忠実度など, ベースラインモデルの性能を評価するために, 一連の評価指標を設計した。 PianoMotion10Mは、ピアノの鍵盤を音楽の楽譜やオーディオに当てはめているが、ピアノの指で指導するためのガイダンスを提供する。 データセットとソースコードはhttps://agnjason.github.io/PianoMotion-pageでアクセスできる。

Recently, artificial intelligence techniques for education have been received increasing attentions, while it still remains an open problem to design the effective music instrument instructing systems. Although key presses can be directly derived from sheet music, the transitional movements among key presses require more extensive guidance in piano performance. In this work, we construct a piano-hand motion generation benchmark to guide hand movements and fingerings for piano playing. To this end, we collect an annotated dataset, PianoMotion10M, consisting of 116 hours of piano playing videos from a bird's-eye view with 10 million annotated hand poses. We also introduce a powerful baseline model that generates hand motions from piano audios through a position predictor and a position-guided gesture generator. Furthermore, a series of evaluation metrics are designed to assess the performance of the baseline model, including motion similarity, smoothness, positional accuracy of left and right hands, and overall fidelity of movement distribution. Despite that piano key presses with respect to music scores or audios are already accessible, PianoMotion10M aims to provide guidance on piano fingering for instruction purposes. The dataset and source code can be accessed at https://agnjason.github.io/PianoMotion-page.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# PET/CT画像におけるAI損傷追跡に向けて:PSMA PET/CTスキャンに応用したシームズベースのCNNパイプライン

Towards AI Lesion Tracking in PET/CT Imaging: A Siamese-based CNN Pipeline applied on PSMA PET/CT Scans ( http://arxiv.org/abs/2406.09327v1 )

ライセンス: Link先を確認
Stefan P. Hein, Manuel Schultheiss, Andrei Gafita, Raphael Zaum, Farid Yagubbayli, Isabel Rauscher, Matthias Eiber, Franz Pfeiffer, Wolfgang A. Weber, (参考訳) 全身療法による腫瘍反応の評価はPET/CTの主な応用の1つである。 定期的に、複数の病変のうち、インデックス病変の小さなサブセットのみが分析される。 しかし、この操作者による選択は、治療に対する反応の有意な転移間不均一性により、結果をバイアスする可能性がある。 自動AIベースの病変追跡アプローチは、より多くの病変の分析を可能にし、腫瘍反応のより良い評価を可能にすることを約束する。 本研究はPET/CTスキャン間の病変追跡のためのSamese CNNアプローチを導入する。 転移性前立腺癌に対する[177Lu]Lu-PSMA療法の2サイクル後の全身ベースラインおよび[68Ga]Ga-または[18F]F-PSMA PET/CTスキャンにおける骨病変の追跡について検討した。 データ準備には病変のセグメンテーションとアフィンの登録が含まれる。 本アルゴリズムは適切な病変のパッチを抽出し,対応する病変または非対応病変として病変のパッチペアを分類する訓練を施したシームズCNNに転送する。 異なる入力パッチタイプと2Dおよび3DのSiameseネットワークで実験が行われた。 CNNモデルは病変の特定に成功し、AUC=0.91の最良の構成で病変追跡精度は83 %に達した。 残存病変では, 再同定率は89 %であった。 我々は,PSMA PET/CTスキャンにおいて,CNNが多発病変の追跡を容易にすることを証明した。 治療結果の予測を改善するためには,今後の臨床研究が必要である。

Assessing tumor response to systemic therapies is one of the main applications of PET/CT. Routinely, only a small subset of index lesions out of multiple lesions is analyzed. However, this operator dependent selection may bias the results due to possible significant inter-metastatic heterogeneity of response to therapy. Automated, AI based approaches for lesion tracking hold promise in enabling the analysis of many more lesions and thus providing a better assessment of tumor response. This work introduces a Siamese CNN approach for lesion tracking between PET/CT scans. Our approach is applied on the laborious task of tracking a high number of bone lesions in full-body baseline and follow-up [68Ga]Ga- or [18F]F-PSMA PET/CT scans after two cycles of [177Lu]Lu-PSMA therapy of metastatic castration resistant prostate cancer patients. Data preparation includes lesion segmentation and affine registration. Our algorithm extracts suitable lesion patches and forwards them into a Siamese CNN trained to classify the lesion patch pairs as corresponding or non-corresponding lesions. Experiments have been performed with different input patch types and a Siamese network in 2D and 3D. The CNN model successfully learned to classify lesion assignments, reaching a lesion tracking accuracy of 83 % in its best configuration with an AUC = 0.91. For remaining lesions the pipeline accomplished a re-identification rate of 89 %. We proved that a CNN may facilitate the tracking of multiple lesions in PSMA PET/CT scans. Future clinical studies are necessary if this improves the prediction of the outcome of therapies.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# バリューラーニングは本当にオフラインRLの主な基盤なのだろうか?

Is Value Learning Really the Main Bottleneck in Offline RL? ( http://arxiv.org/abs/2406.09329v1 )

ライセンス: Link先を確認
Seohong Park, Kevin Frans, Sergey Levine, Aviral Kumar, (参考訳) 模倣学習は高品質なデータへのアクセスを必要とするが、オフライン強化学習(RL)は原則として、値関数を用いることで、データ品質を著しく低くする。 しかし、現在の結果から、オフラインRLは模倣学習よりも性能が悪く、オフラインRLの性能がどうなるかはよく分かっていない。 本研究の目的は,現在のオフラインRLアルゴリズムのボトルネックを理解することである。 オフラインRLの貧弱なパフォーマンスは、一般的に不完全な値関数に起因していますが、私たちは次のように尋ねます。 そこで本研究では,(1)価値学習,(2)政策抽出,(3)オフラインRL問題における政策一般化の体系的研究を行い,これらの要素がパフォーマンスに与える影響を解析した。 私たちは2つの驚くべき観察をします。 まず、ポリシー抽出アルゴリズムの選択がオフラインRLの性能とスケーラビリティに大きく影響していることが分かる。 例えば、共通値重み付き行動クローン目的(例えば、AWR)は学習した値関数を完全に活用せず、動作制約付きポリシー勾配目標(例えば、DDPG+BC)に切り替えると、しばしば性能とスケーラビリティが大幅に向上することを示す。 第二に、オフラインのRL性能を改善するための大きな障壁は、非流通状態のポリシー学習ではなく、トレーニングデータのサポートからテスト時の状態に対する不完全なポリシー一般化であることが多い。 次に、最適だが高カバレッジなデータやテスト時間ポリシートレーニング技術を用いることで、この一般化問題に実際に対処できることを示す。 具体的には,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能の向上につながることを示す。

While imitation learning requires access to high-quality data, offline reinforcement learning (RL) should, in principle, perform similarly or better with substantially lower data quality by using a value function. However, current results indicate that offline RL often performs worse than imitation learning, and it is often unclear what holds back the performance of offline RL. Motivated by this observation, we aim to understand the bottlenecks in current offline RL algorithms. While poor performance of offline RL is typically attributed to an imperfect value function, we ask: is the main bottleneck of offline RL indeed in learning the value function, or something else? To answer this question, we perform a systematic empirical study of (1) value learning, (2) policy extraction, and (3) policy generalization in offline RL problems, analyzing how these components affect performance. We make two surprising observations. First, we find that the choice of a policy extraction algorithm significantly affects the performance and scalability of offline RL, often more so than the value learning objective. For instance, we show that common value-weighted behavioral cloning objectives (e.g., AWR) do not fully leverage the learned value function, and switching to behavior-constrained policy gradient objectives (e.g., DDPG+BC) often leads to substantial improvements in performance and scalability. Second, we find that a big barrier to improving offline RL performance is often imperfect policy generalization on test-time states out of the support of the training data, rather than policy learning on in-distribution states. We then show that the use of suboptimal but high-coverage data or test-time policy training techniques can address this generalization issue in practice. Specifically, we propose two simple test-time policy improvement methods and show that these methods lead to better performance.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# 一般化可能なエンティティマッチングのための自然言語記述からの学習

Learning from Natural Language Explanations for Generalizable Entity Matching ( http://arxiv.org/abs/2406.09330v1 )

ライセンス: Link先を確認
Somin Wadhwa, Adit Krishnan, Runhui Wang, Byron C. Wallace, Chris Kong, (参考訳) エンティティマッチングは、同じ現実世界のエンティティを参照する異なるソースからのレコードをリンクするタスクである。 過去の研究は、エンティティリンクを標準教師付き学習問題として主に扱ってきた。 しかし、教師付きエンティティマッチングモデルは、新しいデータによく当てはまらないことが多く、徹底的なラベル付きトレーニングデータの収集は、しばしば費用がかかる。 さらに、近年の取り組みでは、LLMを少数のゼロショット設定で採用し、それらの一般的な知識を活用している。 しかし、LLMは現実のエンティティマッチングタスクのために大規模に推論を行うのに極めて高価である。 効率的な方法として、バイナリ分類とは対照的に、条件生成タスクとしてエンティティマッチングを再キャストする。 これにより、LLM推論を自然言語による説明を通じて、より小さなエンティティマッチングモデルに分割することが可能になる。 このアプローチは、特にドメイン外の一般化テスト(10.85% F-1)において、独立した生成方法が困難である場合において、高いパフォーマンスを達成する。 パフォーマンスとモデルの堅牢性の両方において、説明の重要性を強調した改善を行います。

Entity matching is the task of linking records from different sources that refer to the same real-world entity. Past work has primarily treated entity linking as a standard supervised learning problem. However, supervised entity matching models often do not generalize well to new data, and collecting exhaustive labeled training data is often cost prohibitive. Further, recent efforts have adopted LLMs for this task in few/zero-shot settings, exploiting their general knowledge. But LLMs are prohibitively expensive for performing inference at scale for real-world entity matching tasks. As an efficient alternative, we re-cast entity matching as a conditional generation task as opposed to binary classification. This enables us to "distill" LLM reasoning into smaller entity matching models via natural language explanations. This approach achieves strong performance, especially on out-of-domain generalization tests (10.85% F-1) where standalone generative methods struggle. We perform ablations that highlight the importance of explanations, both for performance and model robustness.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# 全スライド画像解析のためのメモリ効率の良いスパースピラミッド注意ネットワーク

Memory-Efficient Sparse Pyramid Attention Networks for Whole Slide Image Analysis ( http://arxiv.org/abs/2406.09333v1 )

ライセンス: Link先を確認
Weiyi Wu, Chongyang Gao, Xinwen Xu, Siting Li, Jiang Gui, (参考訳) ホイルスライド画像 (WSI) は現代の病理診断において重要であるが, ギガピクセルスケールの解像度と疎い情報領域は, 計算上の課題を生じさせる。 コンピュータビジョンや自然言語処理で広く使われている従来の高密度アテンション機構は、実質的なデータスケールと非形式領域の冗長な処理のため、WSI分析には実用的ではない。 これらの課題に対処するため、我々は、SPAN(Shifted Windows)を用いたメモリ効率の良いスパースピラミッドアテンションネットワークを提案し、他のドメインにおける最先端のスパースアテンション技術からインスピレーションを得た。 SPANはスパースピラミッドアテンションアーキテクチャを導入し、重要な機能を保持しながらメモリオーバーヘッドを減らすことを目的として、WSI内の情報領域に階層的にフォーカスする。 さらに、シフトウィンドウを組み込むことで、モデルが正確な分類に不可欠な長距離コンテキスト依存をキャプチャできる。 我々は、SPANを複数の公開WSIデータセット上で評価し、その競合性能を観察した。 メモリ制約による空間情報や文脈情報のモデル化に苦慮する既存手法とは異なり,本手法はこれらの重要な特徴の正確なモデリングを可能にする。 本研究は,WSI解析におけるSPANの有効性に大きく寄与する,シフトウインドウスキームや階層構造などの注意機構における重要な設計要素の重要性を強調した。 したがって、WSIデータのメモリ効率と効率的な分析のためのSPANの可能性を実証し、この研究の公開後、コードを公開する。

Whole Slide Images (WSIs) are crucial for modern pathological diagnosis, yet their gigapixel-scale resolutions and sparse informative regions pose significant computational challenges. Traditional dense attention mechanisms, widely used in computer vision and natural language processing, are impractical for WSI analysis due to the substantial data scale and the redundant processing of uninformative areas. To address these challenges, we propose Memory-Efficient Sparse Pyramid Attention Networks with Shifted Windows (SPAN), drawing inspiration from state-of-the-art sparse attention techniques in other domains. SPAN introduces a sparse pyramid attention architecture that hierarchically focuses on informative regions within the WSI, aiming to reduce memory overhead while preserving critical features. Additionally, the incorporation of shifted windows enables the model to capture long-range contextual dependencies essential for accurate classification. We evaluated SPAN on multiple public WSI datasets, observing its competitive performance. Unlike existing methods that often struggle to model spatial and contextual information due to memory constraints, our approach enables the accurate modeling of these crucial features. Our study also highlights the importance of key design elements in attention mechanisms, such as the shifted-window scheme and the hierarchical structure, which contribute substantially to the effectiveness of SPAN in WSI analysis. The potential of SPAN for memory-efficient and effective analysis of WSI data is thus demonstrated, and the code will be made publicly available following the publication of this work.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# ProxyLM:プロキシモデルによる多言語タスクにおける言語モデルのパフォーマンス予測

ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models ( http://arxiv.org/abs/2406.09334v1 )

ライセンス: Link先を確認
David Anugraha, Genta Indra Winata, Chenyue Li, Patrick Amadeus Irawan, En-Shiun Annie Lee, (参考訳) 性能予測は多言語言語モデル(LM)の性能を推定し、モデル容量と微調整のためのデータに関連する計算コストを軽減する手法である。 本稿では,多言語タスクにおけるプロキシモデルを用いて,LM性能を予測するスケーラブルなフレームワークであるProxyLMを紹介する。 これらのプロキシモデルはサロゲートとして機能し、特定の下流自然言語処理(NLP)タスクで微調整されたLMの性能を近似する。 ProxyLMは、プロキシモデルを活用することにより、タスク評価の計算オーバーヘッドを大幅に削減し、最小のプロキシモデルであっても、従来の手法と比較して37.08倍の高速化を実現します。 さらに,本手法は,事前学習したLMにおける未確認言語への適応性を示し,ルート平均二乗誤差(RMSE)によって測定された最先端性能を1.89倍に向上させる。 このフレームワークはモデル選択を合理化し、広範囲の計算資源を使わずに効率的なデプロイメントと反復的なLM拡張を可能にする。

Performance prediction is a method to estimate the performance of multilingual language models (LMs), mitigating computational costs associated with model capacity and data for fine-tuning. Our paper introduces ProxyLM, a scalable framework for predicting LM performance using proxy models in multilingual tasks. These proxy models act as surrogates, approximating the performance of fine-tuned LMs on specific downstream natural language processing (NLP) tasks. By leveraging proxy models, ProxyLM significantly reduces computational overhead on task evaluations, achieving up to a 37.08x speedup compared to traditional methods, even with our smallest proxy models. Additionally, our methodology showcases adaptability to previously unseen languages in pre-trained LMs, outperforming the state-of-the-art performance by 1.89x as measured by root-mean-square-error (RMSE). This framework streamlines model selection, enabling efficient deployment and iterative LM enhancements without extensive computational resources.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# 多発性硬化性病変の分節におけるインスタンスレベルの定量化

Instance-level quantitative saliency in multiple sclerosis lesion segmentation ( http://arxiv.org/abs/2406.09335v1 )

ライセンス: Link先を確認
Federico Spagnolo, Nataliia Molchanova, Roger Schaer, Meritxell Bach Cuadra, Mario Ocampo Pineda, Lester Melie-Garcia, Cristina Granziera, Vincent Andrearczyk, Adrien Depeursinge, (参考訳) 近年,人工知能(XAI)のための説明可能な手法が,分類タスクの場合のモデル決定機構を明らかにし,記述しようと試みている。 しかし、セマンティックセグメンテーションのためのXAI、特に単一インスタンスについては、これまではほとんど研究されていない。 単一のインスタンスの自動セグメンテーションの根底にあるプロセスを理解することは、特定の関心対象を検出し、セグメンテーションするためにどのような情報が使われたかを明らかにするために不可欠である。 本研究では,SmoothGrad法とGrad-CAM++法に基づくセマンティックセグメンテーションのための2つのインスタンスレベルの説明マップを提案する。 多発性硬化症(MS)におけるMRIバイオマーカーである白質病変(WML)の検出とセグメンテーションの関連について検討した。 スイスのバーゼル大学病院で計4043 FLAIR と MPRAGE MRI でMSと診断された687例を収集した。 データはトレーニング、検証、テストセットにランダムに分割され、MS病変のセグメンテーションのために3D U-Netをトレーニングした。 偽陽性は3050例,偽陽性は1818例,偽陰性は789例であった。 我々は,SmoothGradとGrad-CAM++をベースとした2つのXAI手法を開発し,セマンティックセグメンテーションのためのインスタンスレベルの説明マップを生成する。 調査を行った。 1) 両入力MRIシーケンスに対する唾液度マップの勾配分布 2 合成病変の場合におけるモデルの応答 3) 病変の分節に必要な回腸組織量について検討した。 FLAIRのSmoothGradをベースとした唾液マップでは, 病変内において正の値を示し, 近傍では負の値を示した。 これら4つの巻群で生成した塩分分布のピーク値は, 互いに大きく異なる分布を示し, 提案した塩分濃度の定量的性質を示唆した。 病変境界付近7mmの文脈情報が必要であった。

In recent years, explainable methods for artificial intelligence (XAI) have tried to reveal and describe models' decision mechanisms in the case of classification tasks. However, XAI for semantic segmentation and in particular for single instances has been little studied to date. Understanding the process underlying automatic segmentation of single instances is crucial to reveal what information was used to detect and segment a given object of interest. In this study, we proposed two instance-level explanation maps for semantic segmentation based on SmoothGrad and Grad-CAM++ methods. Then, we investigated their relevance for the detection and segmentation of white matter lesions (WML), a magnetic resonance imaging (MRI) biomarker in multiple sclerosis (MS). 687 patients diagnosed with MS for a total of 4043 FLAIR and MPRAGE MRI scans were collected at the University Hospital of Basel, Switzerland. Data were randomly split into training, validation and test sets to train a 3D U-Net for MS lesion segmentation. We observed 3050 true positive (TP), 1818 false positive (FP), and 789 false negative (FN) cases. We generated instance-level explanation maps for semantic segmentation, by developing two XAI methods based on SmoothGrad and Grad-CAM++. We investigated: 1) the distribution of gradients in saliency maps with respect to both input MRI sequences; 2) the model's response in the case of synthetic lesions; 3) the amount of perilesional tissue needed by the model to segment a lesion. Saliency maps (based on SmoothGrad) in FLAIR showed positive values inside a lesion and negative in its neighborhood. Peak values of saliency maps generated for these four groups of volumes presented distributions that differ significantly from one another, suggesting a quantitative nature of the proposed saliency. Contextual information of 7mm around the lesion border was required for their segmentation.
翻訳日:2024-06-14 16:35:35 公開日:2024-06-13
# メモリを用いた高次元マルコフ過程の影響グラフの学習

Learning the Influence Graph of a High-Dimensional Markov Process with Memory ( http://arxiv.org/abs/2406.09338v1 )

ライセンス: Link先を確認
Smita Bagewadi, Avhishek Chatterjee, (参考訳) ソーシャルネットワーク, 神経系, 金融リスク分析における複数の応用に動機付けられ, 高次元多変量離散時間マルコフ過程の基盤となる(直接)影響グラフや因果グラフの学習問題を考える。 任意の離散時間瞬間において、多変量プロセスの各観測変数はランダム長のバイナリ文字列であり、これは観測不能または[0,1]値の隠れスカラーによってパラメータ化される。 変数に対応する隠れスカラーは、ノードが変数である基礎となる影響グラフによって決定される離散時間線形確率力学に従って進化する。 我々は,このメモリを用いたマルコフ的設定にグラフィカルモデルを学習するための既存のアルゴリズムを拡張し,影響グラフの次数が有界である場合の対数(変数数やノード数)サンプルを用いて2値観測に基づいて影響グラフを学習できることを証明した。 この研究の重要な分析的貢献は、影響グラフのパラメータの観点から、観測されたマルコフ過程の収束率をその定常分布に上と下を境界にすることで得られるサンプル複雑性の導出である。

Motivated by multiple applications in social networks, nervous systems, and financial risk analysis, we consider the problem of learning the underlying (directed) influence graph or causal graph of a high-dimensional multivariate discrete-time Markov process with memory. At any discrete time instant, each observed variable of the multivariate process is a binary string of random length, which is parameterized by an unobservable or hidden [0,1]-valued scalar. The hidden scalars corresponding to the variables evolve according to discrete-time linear stochastic dynamics dictated by the underlying influence graph whose nodes are the variables. We extend an existing algorithm for learning i.i.d. graphical models to this Markovian setting with memory and prove that it can learn the influence graph based on the binary observations using logarithmic (in number of variables or nodes) samples when the degree of the influence graph is bounded. The crucial analytical contribution of this work is the derivation of the sample complexity result by upper and lower bounding the rate of convergence of the observed Markov process with memory to its stationary distribution in terms of the parameters of the influence graph.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# ギボンズホーキングのウィグナー関数法とウンルー効果

Wigner function method for the Gibbons-Hawking and the Unruh effect ( http://arxiv.org/abs/2406.09339v1 )

ライセンス: Link先を確認
Ziv Landau, Ulf Leonhardt, (参考訳) 膨張する宇宙と休んでいるオブザーバは、量子真空の中で余分なノイズを経験し、また(ミンコフスキー空間で)真空中で加速されたオブザーバも同様である。 文献は主に指数展開(デ・シッター空間)や等加速度(リンドラー軌道)の理想的な場合に焦点をあてるが、実際の宇宙膨張は非指数的であり、実加速度は非一様である。 ここでは、真空相関の周波数時間ウィグナー関数を用いて時間依存スペクトルを定義する。 現実的な宇宙論モデルのクラスに対して優れたプランクスペクトルを見出したが、実験室の類似で検証可能な標準シナリオに対しては、非プランク的、負のウィグナー関数も強く用いた。

An observer at rest with the expanding universe experiences some extra noise in the quantum vacuum, and so does an accelerated observer in a vacuum at rest (in Minkowski space). The literature mainly focuses on the ideal cases of exponential expansion (de-Sitter space) or uniform acceleration (Rindler trajectories) or both, but the real cosmic expansion is non-exponential and real accelerations are non-uniform. Here we use the frequency-time Wigner function of vacuum correlations to define time-dependent spectra. We found excellent Planck spectra for a class of realistic cosmological models, but also strongly non-Planckian, negative Wigner functions for a standard scenario testable with laboratory analogues.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# フォールトトレラント量子コンピュータにおけるNMRスペクトル予測の展望

Prospects for NMR Spectral Prediction on Fault-Tolerant Quantum Computers ( http://arxiv.org/abs/2406.09340v1 )

ライセンス: Link先を確認
Justin E. Elenewski, Christina M. Camara, Amir Kalev, (参考訳) 核磁気共鳴分光法は、化学、医学、固体物理学全般に応用される顕著な分析ツールである。 従来のNMR分光計は試料を疑問視するために大きな磁場を必要とするが、近年の原子磁気学の進歩は、この分光を地磁気の強度よりはるかに低いものにしている。 このゼロ・トゥ・ウルトラロー場(ZULF)は、コンパクト・ローオーバーヘッド・インスツルメンテーションを用いて、緩和を緩和し、他の方法では見えないスピンカップリングを明らかにするため、有利である。 結果のスペクトルは計算なしでは解釈が困難であり、これはベクトル結合や長距離スピンネットワークの存在によって課税される可能性がある。 最近の提案に続き、これらのスペクトルをシミュレートするために、フォールトトレラント量子計算をどのように使用できるかを示す。 我々の分析は、入力選択から量子力学に基づく明示的な回路の構成まで多岐にわたる。 実験条件と等価性を維持することにより、NMRスペクトル予測がフォールトトレラント量子コンピュータの早期応用であることを示す。

Nuclear magnetic resonance spectroscopy is a prominent analytical tool, with applications throughout chemistry, medicine and solid-state physics. While conventional NMR spectrometers require large magnetic fields to interrogate a sample, recent advances in atomic magnetometry have enabled this spectroscopy far below geomagnetic field strengths. This zero-to-ultralow (ZULF) field regime can be advantageous since it mitigates relaxation and reveals spin couplings that are otherwise obscured, all while using compact and lower-overhead instrumentation. The resulting spectra are nonetheless difficult to interpret without computation, which can be taxing due to the presence of vector couplings and long-range spin networks. Following recent proposals, we demonstrate how fault-tolerant quantum computation could be used to simulate these spectra. Our analysis spans from input selection to the construction of explicit circuits based on qubitized quantum dynamics. By maintaining parity with experimental requirements, we demonstrate how NMR spectral prediction might be an early application for fault-tolerant quantum computers.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# 誤差抑圧型量子ハードウェアにおける条件量子生成逆数ネットワークアルゴリズムによる配電負荷特性の検討

Investigate the Performance of Distribution Loading with Conditional Quantum Generative Adversarial Network Algorithm on Quantum Hardware with Error Suppression ( http://arxiv.org/abs/2406.09341v1 )

ライセンス: Link先を確認
Anh Pham, Andrew Vlasic, (参考訳) 本研究は、マルチモーダル分散ローディングアルゴリズムにおいて、IBMの量子コンピューティングプラットフォームと統合されたFire Opalエラー抑制とAI回路最適化システムの有効性について検討した。 Kullback-Leibler (KL) の偏差を定量的な誤差解析として用いた結果, 条件量子生成逆数アルゴリズムが生成する時間依存分布を, シミュレータの結果と比較して30~40倍改善できることが示唆された。 さらに、ファイア・オパールの性能は、より多くのトライアルを実行する必要があるにもかかわらず、複雑な回路に対して一貫している。 この研究は、Fire Opalのエラー抑制と回路最適化が量子コンピューティングプロセスを大幅に強化し、実用的な応用の可能性を強調していると結論付けている。 さらに、この研究は、ゼロノイズ外挿(ZNE)、確率的エラーキャンセル(PEC)、パウリ・ツワイルリング(Pauli twirling)、測定誤差緩和(Message error mitigation)、機械学習手法などの主要なエラー軽減戦略をレビューし、技術的実装、量子リソース、スケーラビリティの観点からそれらの利点と欠点を評価した。

The study examines the efficacy of the Fire Opal error suppression and AI circuit optimization system integrated with IBM's quantum computing platform for a multi-modal distribution loading algorithm. Using Kullback-Leibler (KL) divergence as a quantitative error analysis, the results indicate that Fire Opal can improve on the time-dependent distributions generated by our Conditional Quantum Generative Adversarial algorithm by 30-40\% in comparison with the results on the simulator. In addition, Fire Opal's performance remains consistent for complex circuits despite the needs to run more trials. The research concludes that Fire Opal's error suppression and circuit optimization significantly enhanced quantum computing processes, highlighting its potential for practical applications. In addition, the study also reviews leading error mitigation strategies, including zero noise extrapolation (ZNE), probabilistic error cancellation (PEC), Pauli twirling, measurement error mitigation, and machine learning methods, assessing their advantages and disadvantages in terms of technical implementation, quantum resources, and scalability.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# DiscreteSLU:音声理解のための自己監督型離散音声ユニットを備えた大規模言語モデル

DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding ( http://arxiv.org/abs/2406.09345v1 )

ライセンス: Link先を確認
Suwon Shon, Kwangyoun Kim, Yi-Te Hsu, Prashant Sridhar, Shinji Watanabe, Karen Livescu, (参考訳) 事前訓練されたテキストベース大規模言語モデル(LLM)と音声入力の統合により、多様な音声タスクのための命令フォロー機能を実現した。 この統合には、様々なタスクで訓練された音声エンコーダ、音声アダプタ、LLMを使用する必要がある。 本稿では,LLMトークン埋め込み空間に変換された連続値の音声エンコーダ出力ではなく,離散音声単位(DSU)を用いることを提案する。 我々は、自己教師付き音声エンコーダを用いてDSUを生成し、その後k平均クラスタリングを行う。 提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。 また、自己教師型音声エンコーダの異なる層から抽出した様々なDSUや、メル周波数ケプストラル係数(MFCC)についても検討する。 この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。

The integration of pre-trained text-based large language models (LLM) with speech input has enabled instruction-following capabilities for diverse speech tasks. This integration requires the use of a speech encoder, a speech adapter, and an LLM, trained on diverse tasks. We propose the use of discrete speech units (DSU), rather than continuous-valued speech encoder outputs, that are converted to the LLM token embedding space using the speech adapter. We generate DSU using a self-supervised speech encoder followed by k-means clustering. The proposed model shows robust performance on speech inputs from seen/unseen domains and instruction-following capability in spoken question answering. We also explore various types of DSU extracted from different layers of the self-supervised speech encoder, as well as Mel frequency Cepstral Coefficients (MFCC). Our findings suggest that the ASR task and datasets are not crucial in instruction-tuning for spoken question answering tasks.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# Scoreformer: 大規模ドッキングスコア予測のためのサロゲートモデル

Scoreformer: A Surrogate Model For Large-Scale Prediction of Docking Scores ( http://arxiv.org/abs/2406.09346v1 )

ライセンス: Link先を確認
Álvaro Ciudad, Adrián Morales-Pastor, Laura Malo, Isaac Filella-Mercè, Victor Guallar, Alexis Molina, (参考訳) 本研究では,分子ドッキングスコアを正確に予測し,薬物発見における高スループット仮想スクリーニング(HTVS)を最適化する新しいグラフトランスフォーマーモデルであるScoreFormerを提案する。 このアーキテクチャは、Principal Neborhood Aggregation (PNA)とLearningable Random Walk Positional Encodings (LRWPE)を統合し、複雑な分子構造とそれらのドッキングスコアとの関係を理解する能力を高める。 従来のHTVS手法や最近のグラフニューラルネットワーク(GNN)モデルを大きく上回る手法である。 この結果から,ScoreFormerはドッキングスコア予測の競争性能を向上し,既存のモデルに比べて1.65倍の推論時間を短縮できることがわかった。 種々の条件下でScoreFormerを複数のデータセットで評価し,薬剤候補の迅速同定における堅牢性と信頼性を確認した。

In this study, we present ScoreFormer, a novel graph transformer model designed to accurately predict molecular docking scores, thereby optimizing high-throughput virtual screening (HTVS) in drug discovery. The architecture integrates Principal Neighborhood Aggregation (PNA) and Learnable Random Walk Positional Encodings (LRWPE), enhancing the model's ability to understand complex molecular structures and their relationship with their respective docking scores. This approach significantly surpasses traditional HTVS methods and recent Graph Neural Network (GNN) models in both recovery and efficiency due to a wider coverage of the chemical space and enhanced performance. Our results demonstrate that ScoreFormer achieves competitive performance in docking score prediction and offers a substantial 1.65-fold reduction in inference time compared to existing models. We evaluated ScoreFormer across multiple datasets under various conditions, confirming its robustness and reliability in identifying potential drug candidates rapidly.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# 変圧器の表現能力とリカレントアーキテクチャの分離

Separations in the Representational Capabilities of Transformers and Recurrent Architectures ( http://arxiv.org/abs/2406.09347v1 )

ライセンス: Link先を確認
Satwik Bhattamishra, Michael Hahn, Phil Blunsom, Varun Kanade, (参考訳) トランスフォーマーアーキテクチャはファンデーションモデルで広く採用されている。 高い推論コストのため、効率的なリカレントアーキテクチャ(RNN)の可能性を探求することへの関心が高まっている。 本稿では,インデクシング・ルックアップ,近接隣接言語,有界ダイク言語認識,文字列平等など,実践的関連性のあるタスクにおけるトランスフォーマーとRNNの表現能力の違いを分析する。 検討したタスクに対しては、異なるアーキテクチャに必要なモデルのサイズに基づいて分離した結果を示す。 例えば、対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。 逆に、定数サイズのRNNは境界付きDyck言語を認識できるが、一層変換器はこのタスクに線形サイズを必要とすることを示す。 さらに、対数サイズの2層トランスフォーマーは、文字列等等式や不整合性などの決定タスクを実行できるが、一方、1層トランスフォーマーとリカレントモデルの両方は、これらのタスクに対して線形サイズを必要とする。 また、ログサイズ2層トランスは、その前方通過に最も近い隣り合うアルゴリズムを実装可能であることを示し、一方、リカレントモデルでは線形サイズを必要とする。 我々の構成は、$O(\log N)$次元空間におけるほぼ直交ベクトル$N$の存在に基づいており、下限は通信複雑性問題からの還元に基づいている。 我々は,これらのアーキテクチャの性能の違いを実規模シーケンスで明らかにする実験により,理論結果を補足する。

Transformer architectures have been widely adopted in foundation models. Due to their high inference costs, there is renewed interest in exploring the potential of efficient recurrent architectures (RNNs). In this paper, we analyze the differences in the representational capabilities of Transformers and RNNs across several tasks of practical relevance, including index lookup, nearest neighbor, recognizing bounded Dyck languages, and string equality. For the tasks considered, our results show separations based on the size of the model required for different architectures. For example, we show that a one-layer Transformer of logarithmic width can perform index lookup, whereas an RNN requires a hidden state of linear size. Conversely, while constant-size RNNs can recognize bounded Dyck languages, we show that one-layer Transformers require a linear size for this task. Furthermore, we show that two-layer Transformers of logarithmic size can perform decision tasks such as string equality or disjointness, whereas both one-layer Transformers and recurrent models require linear size for these tasks. We also show that a log-size two-layer Transformer can implement the nearest neighbor algorithm in its forward pass; on the other hand recurrent models require linear size. Our constructions are based on the existence of $N$ nearly orthogonal vectors in $O(\log N)$ dimensional space and our lower bounds are based on reductions from communication complexity problems. We supplement our theoretical results with experiments that highlight the differences in the performance of these architectures on practical-size sequences.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# 最小シナリオにおける量子統計

Quantum statistics in the minimal scenario ( http://arxiv.org/abs/2406.09350v1 )

ライセンス: Link先を確認
Victor Barizien, Jean-Daniel Bancal, (参考訳) 任意の実験シナリオにおいて、量子論の規則は、観測結果が従うであろう統計分布を提供する。 これらの分布によって形成された集合は、量子論のインプリントを含んでおり、その中心となる性質のいくつかを捉えている。 これまでのところ、最も単純なシナリオであっても、この集合について部分的な記述のみが知られている。 ここでは、極端点の観点からの完全量子統計量の解析的記述を得る。 これは、統計のみから特定できる全ての二部量子状態と二項測定のペアを見つけることで可能となる。 我々の記述は、量子論の性質と限界に関する直接的な洞察を与える。 これらはヒルベルト空間の項で表されるのではなく、測定観測統計学の項で直接表現される。

In any given experimental scenario, the rules of quantum theory provide statistical distributions that the observed outcomes are expected to follow. The set formed by all these distributions contains the imprint of quantum theory, capturing some of its core properties. So far, only partial descriptions have been known for this set, even in the simplest scenarios. Here, we obtain the analytical description of a complete set of quantum statistics in terms of extremal points. This is made possible by finding all bipartite quantum states and pairs of binary measurements which can be self-tested, i.e. identified from statistics only. Our description provides a direct insight into the properties and limitations of quantum theory. These are not expressed in terms of Hilbert spaces, but rather directly in terms of measurement observation statistics.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# レコンストラクショナルカラーリファインメントの表現性について

On the Expressibility of the Reconstructional Color Refinement ( http://arxiv.org/abs/2406.09351v1 )

ライセンス: Link先を確認
V. Arvind, Johannes Köbler, Oleg Verbitsky, (参考訳) 有名なウラムの再構成予想に関連する最も基本的な事実の1つは、グラフの連結性はその頂点が削除された部分グラフのデッキによって決定できることである。 色精細同型テストにおいて,デッキ内の部分グラフが同値となるとき,接続性は依然として決定可能であることを証明して,この結果を補強する。 このことは、リコンストラクション予想(Cotta, Morris, Ribeiro 2021)にインスパイアされた近年導入されたGNNアーキテクチャであるReコンストラクショングラフニューラルネットワークによって接続性が認識可能であることを示唆している。

One of the most basic facts related to the famous Ulam reconstruction conjecture is that the connectedness of a graph can be determined by the deck of its vertex-deleted subgraphs, which are considered up to isomorphism. We strengthen this result by proving that connectedness can still be determined when the subgraphs in the deck are given up to equivalence under the color refinement isomorphism test. Consequently, this implies that connectedness is recognizable by Reconstruction Graph Neural Networks, a recently introduced GNN architecture inspired by the reconstruction conjecture (Cotta, Morris, Ribeiro 2021).
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# ルビジウムの4D_J$状態を用いた光原子時計

An optical atomic clock using $4D_J$ states of rubidium ( http://arxiv.org/abs/2406.09352v1 )

ライセンス: Link先を確認
Alisher Duspayev, Carlos Owens, Bineet Dash, Georg Raithel, (参考訳) 2光子5S_{1/2} \rightarrow 4D_J$transitions in rubidium を用いて光原子時計の解析を行った。 微細構造状態4D_{3/2}$と4D_{5/2}$の4つの1色および2色の励起スキームを詳細に検討する。 Rbの4D_J$と5D_{5/2}の2光子クロックの主な特性を比較した。 4D_J$クロックは、2光子崩壊による高信号対雑音比、低dc電気および磁気感受性、最小限の黒体シフトを特徴としている。 クロック尋問レーザからのAc Starkシフトは、2色ラビ周波数マッチングによって補償される。 1060〜nm付近の「魔法の」波長を同定し,格子トラップによる低温原子によるドップラーフリーのクロック遷移検査を可能にする。 クロック統計とシステマティックスの分析から、積分時間$\tau$秒、相対精度$\sim 10^{-13}$の量子ノイズ制限相対クロック安定性を10^{-13}/\sqrt{\tau(s)}$レベルに予測する。 本稿では,光通信と長距離クロックの比較に寄与する1個のテレコムクロックレーザを1550〜nmで実現するための潜在的アーキテクチャについて述べる。 我々の研究は、小型でポータブルなRbクロックの実現と、Rb4D_J$状態の原子特性の高精度測定への取り組みに興味があるかもしれない。

We analyze an optical atomic clock using two-photon $5S_{1/2} \rightarrow 4D_J$ transitions in rubidium. Four one- and two-color excitation schemes to probe the fine-structure states $4D_{3/2}$ and $4D_{5/2}$ are considered in detail. We compare key characteristics of Rb $4D_J$ and $5D_{5/2}$ two-photon clocks. The $4D_J$ clock features a high signal-to-noise ratio due to two-photon decay at favorable wavelengths, low dc electric and magnetic susceptibilities, and minimal black-body shifts. Ac Stark shifts from the clock interrogation lasers are compensated by two-color Rabi-frequency matching. We identify a "magic" wavelength near 1060~nm, which allows for in-trap, Doppler-free clock-transition interrogation with lattice-trapped cold atoms. From our analysis of clock statistics and systematics, we project a quantum-noise-limited relative clock stability at the $10^{-13}/\sqrt{\tau(s)}$-level, with integration time $\tau$ in seconds, and a relative accuracy of $\sim 10^{-13}$. We describe a potential architecture for implementing the proposed clock using a single telecom clock laser at 1550~nm, which is conducive to optical communication and long-distance clock comparisons. Our work could be of interest in efforts to realize small and portable Rb clocks and in high-precision measurements of atomic properties of Rb $4D_J$-states.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# Prompt Gradient Alignmentによるドメイン適応の強化

Enhancing Domain Adaptation through Prompt Gradient Alignment ( http://arxiv.org/abs/2406.09353v1 )

ライセンス: Link先を確認
Hoang Phan, Lam Tran, Quyen Tran, Trung Le, (参考訳) 以前のUnsupervised Domain Adaptation (UDA) 手法は、しばしばドメイン不変の特徴抽出器を訓練することを目的としており、モデルが十分な差別的特徴を学習することを妨げる可能性がある。 これを解決するために、素早い学習に基づく一連の研究は、大規模な事前学習された視覚言語モデルの力を利用して、ドメインに依存しない、ドメイン固有の学習可能なプロンプトのセットを通じて、ドメイン不変性と特定の特徴の両方を学習する。 これらの研究は通常、そのようなプロンプトを学ぶために表現、出力、またはプロンプト空間に不変の制約を課す。 異なることに、我々はUDAを、各目的がドメイン損失によって表される多重目的最適化問題とみなした。 この新たな枠組みでは、目的ごとの勾配を整合させて、両者のコンセンサスを高めることを提案する。 さらに、このディープラーニングアーキテクチャを微調整する際の潜在的な過度な適合を防止するために、これらの勾配のノルムを罰する。 これらの目標を達成するために,単一ソースと複数ソースのUDAの下で動作可能な,実用的な段階的な更新手順を考案した。 経験的に、我々の手法は他のプロンプトベースベースラインを、異なる UDA ベンチマークで大きなマージンで一貫して上回っている。

Prior Unsupervised Domain Adaptation (UDA) methods often aim to train a domain-invariant feature extractor, which may hinder the model from learning sufficiently discriminative features. To tackle this, a line of works based on prompt learning leverages the power of large-scale pre-trained vision-language models to learn both domain-invariant and specific features through a set of domain-agnostic and domain-specific learnable prompts. Those studies typically enforce invariant constraints on representation, output, or prompt space to learn such prompts. Differently, we cast UDA as a multiple-objective optimization problem in which each objective is represented by a domain loss. Under this new framework, we propose aligning per-objective gradients to foster consensus between them. Additionally, to prevent potential overfitting when fine-tuning this deep learning architecture, we penalize the norm of these gradients. To achieve these goals, we devise a practical gradient update procedure that can work under both single-source and multi-source UDA. Empirically, our method consistently surpasses other prompt-based baselines by a large margin on different UDA benchmarks
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# CMC-Bench: 視覚信号圧縮の新しいパラダイムを目指して

CMC-Bench: Towards a New Paradigm of Visual Signal Compression ( http://arxiv.org/abs/2406.09356v1 )

ライセンス: Link先を確認
Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin, (参考訳) 超低ビットレート画像圧縮は困難で要求の多いトピックである。 大規模マルチモーダルモデル(LMM)の開発に伴い,画像テキスト画像の相互圧縮(CMC)パラダイムが出現している。 従来のコーデックと比較すると、このセマンティックレベルの圧縮は画像データサイズを0.1\%以下に減らし、強力な可能性を持つ。 しかし、CMCは、元の画像と知覚品質との整合性にある種の欠陥がある。 本稿では,画像圧縮のための画像テキスト(I2T)モデルとテキスト画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。 このベンチマークでは、それぞれ18,000と40,000の画像をカバーし、6つのメインストリームのI2Tと12のT2Iモデルを検証する。 超低ビットレートでは、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も高度な視覚信号コーデックを超えていることが証明されている。 我々はLMM開発者が視覚信号コーデックプロトコルの進化を促進するためにこのテストに参加することを推奨する。

Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# ベータ拡散によるグラフ生成の促進

Advancing Graph Generation through Beta Diffusion ( http://arxiv.org/abs/2406.09357v1 )

ライセンス: Link先を確認
Yilin He, Xinyang Liu, Bo Chen, Mingyuan Zhou, (参考訳) 拡散モデルは自然画像の生成に効果を示し、グラフを含む多様なデータ型を生成するように拡張されている。 拡散に基づくグラフ生成モデルの新世代は、変分オートエンコーダや生成対向ネットワークに依存する手法よりも大幅に性能が向上した。 しかし、これらのモデルのほとんどはガウス的あるいはカテゴリー的拡散プロセスを採用しており、スパースと長い尾を持つデータ分布に苦しむ可能性があることを認識しておくことが重要です。 本研究では,多彩なグラフ構造を抽出できる拡散型生成モデルであるGraph Beta Diffusion (GBD)を紹介した。 GBDは,グラフ隣接行列のスパースおよび範囲境界特性に合わせて,ベータ拡散プロセスを利用する。 さらに、重要なグラフ構造の生成を安定化し、他の場所での柔軟性を保ちながら、生成したグラフのリアリズムを高める変調技術を開発した。 3つの一般的なグラフベンチマークと2つの生化学グラフベンチマークにおけるGBDの卓越した性能は、実世界のグラフデータの複雑さを効果的に捉える能力を強調している。 コードはhttps://github.com/YH-UtMSB/Graph_Beta_Diffusionで公開される。

Diffusion models have demonstrated effectiveness in generating natural images and have been extended to generate diverse data types, including graphs. This new generation of diffusion-based graph generative models has demonstrated significant performance improvements over methods that rely on variational autoencoders or generative adversarial networks. It's important to recognize, however, that most of these models employ Gaussian or categorical diffusion processes, which can struggle with sparse and long-tailed data distributions. In our work, we introduce Graph Beta Diffusion (GBD), a diffusion-based generative model particularly adept at capturing diverse graph structures. GBD utilizes a beta diffusion process, tailored for the sparse and range-bounded characteristics of graph adjacency matrices. Furthermore, we have developed a modulation technique that enhances the realism of the generated graphs by stabilizing the generation of critical graph structures, while preserving flexibility elsewhere. The outstanding performance of GBD across three general graph benchmarks and two biochemical graph benchmarks highlights its capability to effectively capture the complexities of real-world graph data. The code will be made available at https://github.com/YH-UtMSB/Graph_Beta_Diffusion
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# モード補間による拡散モデルにおける幻覚の理解

Understanding Hallucinations in Diffusion Models through Mode Interpolation ( http://arxiv.org/abs/2406.09358v1 )

ライセンス: Link先を確認
Sumukh K Aithal, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter, (参考訳) 口語的に言えば、拡散過程に基づく画像生成モデルは、トレーニングデータでは起こり得ない「幻覚」を示すとしばしば言われる。 しかし、このような幻覚はどこから来るのか? 本稿では,拡散モデルにおける特定の障害モードについて検討し,これをモード補間と呼ぶ。 具体的には、拡散モデルがトレーニングセット内の近傍のデータモード間で円滑に「補間」され、元のトレーニング分布の支持外にあるサンプルが生成されることを発見し、この現象によって拡散モデルが実際のデータに存在しない人工物(幻覚)を生成する。 我々は,この現象の原因と発現について系統的に研究する。 1Dおよび2Dガウスの実験を通して、拡散モデルのデコーダにおける不連続な損失景観が、どんな滑らかな近似もそのような幻覚を引き起こす領域にどのように導かれるかを示す。 様々な形状の人工データセットの実験を通して、幻覚が、これまで存在しなかった形状の組み合わせをいかに生み出すかを示す。 最後に、拡散モデルが実際に、彼らがサポートをやめて幻覚になったときを知っていることを示す。 これは、最後の数個の後方サンプリングプロセスに向けて、生成されたサンプルの軌道の高ばらつきによって捉えられる。 この分散を捉えるために単純な測定値を用いることで、95%以上の幻覚を世代ごとに除去し、96%の非支持サンプルを保持できる。 本研究は,MNISTおよび2次元ガウスデータセットを用いた合成データに対する再帰的トレーニングの崩壊(および安定化)に対する幻覚(とその除去)の影響を示すことにより,本研究を結論付けている。 コードをhttps://github.com/locuslab/diffusion-model-hallucinationでリリースしています。

Colloquially speaking, image generation models based upon diffusion processes are frequently said to exhibit "hallucinations," samples that could never occur in the training data. But where do such hallucinations come from? In this paper, we study a particular failure mode in diffusion models, which we term mode interpolation. Specifically, we find that diffusion models smoothly "interpolate" between nearby data modes in the training set, to generate samples that are completely outside the support of the original training distribution; this phenomenon leads diffusion models to generate artifacts that never existed in real data (i.e., hallucinations). We systematically study the reasons for, and the manifestation of this phenomenon. Through experiments on 1D and 2D Gaussians, we show how a discontinuous loss landscape in the diffusion model's decoder leads to a region where any smooth approximation will cause such hallucinations. Through experiments on artificial datasets with various shapes, we show how hallucination leads to the generation of combinations of shapes that never existed. Finally, we show that diffusion models in fact know when they go out of support and hallucinate. This is captured by the high variance in the trajectory of the generated sample towards the final few backward sampling process. Using a simple metric to capture this variance, we can remove over 95% of hallucinations at generation time while retaining 96% of in-support samples. We conclude our exploration by showing the implications of such hallucination (and its removal) on the collapse (and stabilization) of recursive training on synthetic data with experiments on MNIST and 2D Gaussians dataset. We release our code at https://github.com/locuslab/diffusion-model-hallucination.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# 引用GPT:言語モデルによるテキストの引用機構

ElicitationGPT: Text Elicitation Mechanisms via Language Models ( http://arxiv.org/abs/2406.09363v1 )

ライセンス: Link先を確認
Yifan Wu, Jason Hartline, (参考訳) スコーリングルールは、未知の状態の確率的予測を実状態に対して評価し、情報の導入と機械学習モデルのトレーニングにおける基本的なビルディングブロックである。 本稿では,大規模言語モデル(特にChatGPT)に対するドメイン知識のない問合せを用いた提案文の真理テキストに対するスコアリング機構を開発し,人間の嗜好との整合性を実証的に評価する。 評価は、ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアと比較して行われる。

Scoring rules evaluate probabilistic forecasts of an unknown state against the realized state and are a fundamental building block in the incentivized elicitation of information and the training of machine learning models. This paper develops mechanisms for scoring elicited text against ground truth text using domain-knowledge-free queries to a large language model (specifically ChatGPT) and empirically evaluates their alignment with human preferences. The empirical evaluation is conducted on peer reviews from a peer-grading dataset and in comparison to manual instructor scores for the peer reviews.
翻訳日:2024-06-14 16:25:49 公開日:2024-06-13
# 最大マニフォールド容量表現の理解と活用に向けて

Towards an Improved Understanding and Utilization of Maximum Manifold Capacity Representations ( http://arxiv.org/abs/2406.09366v1 )

ライセンス: Link先を確認
Rylan Schaeffer, Victor Lecomte, Dhruv Bhandarkar Pai, Andres Carranza, Berivan Isik, Alyssa Unell, Mikail Khona, Thomas Yerxa, Yann LeCun, SueYeon Chung, Andrey Gromov, Ravid Shwartz-Ziv, Sanmi Koyejo, (参考訳) MMCR(Maximum Manifold Capacity Representations)は、MVSSLメソッドに適合または超える、最近の多視点自己教師型学習(MVSSL)手法である。 MMCRは、データ多様体の線形分離性に関する統計力学的観点から、共通のMVSSL系統のどれにもうまく適合しないので、興味深い。 本稿では,MMCRの理解と利用を改善することを目的とする。 MMCRをよりよく理解するために、高次元確率からツールを活用し、MMCRが学習した埋め込みのアライメントと均一性を動機付けることを示す。 次に、情報理論のツールを活用し、これらの埋め込みがビュー間の相互情報に対するよく知られた下界を最大化することを示し、その結果、MMCRの幾何学的視点とMVSSLでよく議論されている情報理論的視点を結びつける。 MMCRをより有効活用するために,非単調な非単調な損失の変化を,非定型ハイパーパラメータに関して,数学的に予測し,実験的に確認する。 また、グラデーションステップ、バッチサイズ、埋め込み次元、ビュー数などの関数として、事前学習損失を予測することができる計算スケーリング法則も発見する。 次に,画像データに適用されたMMCRが,マルチモーダル画像テキストデータ上で動作可能であることを示す。 MMCRの理論的および経験的挙動をより深く理解することにより,MVSSL法の改善に関する知見を明らかにする。

Maximum Manifold Capacity Representations (MMCR) is a recent multi-view self-supervised learning (MVSSL) method that matches or surpasses other leading MVSSL methods. MMCR is intriguing because it does not fit neatly into any of the commonplace MVSSL lineages, instead originating from a statistical mechanical perspective on the linear separability of data manifolds. In this paper, we seek to improve our understanding and our utilization of MMCR. To better understand MMCR, we leverage tools from high dimensional probability to demonstrate that MMCR incentivizes alignment and uniformity of learned embeddings. We then leverage tools from information theory to show that such embeddings maximize a well-known lower bound on mutual information between views, thereby connecting the geometric perspective of MMCR to the information-theoretic perspective commonly discussed in MVSSL. To better utilize MMCR, we mathematically predict and experimentally confirm non-monotonic changes in the pretraining loss akin to double descent but with respect to atypical hyperparameters. We also discover compute scaling laws that enable predicting the pretraining loss as a function of gradients steps, batch size, embedding dimension and number of views. We then show that MMCR, originally applied to image data, is performant on multimodal image-text data. By more deeply understanding the theoretical and empirical behavior of MMCR, our work reveals insights on improving MVSSL methods.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# Needle in a Video Haystack: ビデオMLLMのベンチマークのためのスケーラブルな合成フレームワーク

Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs ( http://arxiv.org/abs/2406.09367v1 )

ライセンス: Link先を確認
Zijia Zhao, Haoyu Lu, Yuqi Huo, Yifan Du, Tongtian Yue, Longteng Guo, Bingning Wang, Weipeng Chen, Jing Liu, (参考訳) ビデオ理解はマルチモーダル大言語モデル(MLLM)にとって重要な次のステップである。 ビデオ理解能力の特定の側面を探索するためには、既存のビデオベンチマークでは、ターゲット能力に基づいた慎重なビデオ選択と、特定のビデオコンテンツにマッチするクエリ応答ペアの厳密なアノテーションが必要である。 このプロセスは、挑戦的かつリソース集約的です。 本稿では,合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。 VideoNIAHは、関連のない画像/テキスト 'needles' を元のビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。 アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。 さらに、複数の針を挿入することで、VideoNIAHはモデルの時間的理解能力を厳格に評価する。 我々はVideoNIAHを使ってビデオベンチマークVNBenchをコンパイルし、検索、注文、カウントなどのタスクを含む。 VNBenchは、ビデオモデルの細粒度理解能力と時空間モデリング能力を効率よく評価できると同時に、長文評価もサポートできる。 さらに,最近のビデオ中心型マルチモーダル言語モデル (MLLM) を,オープンソースとプロプライエタリの両方で評価し,包括的分析を行った。 プロプライエタリなモデルはオープンソースモデルよりも大きなメリットがあるものの、既存のビデオモデルはすべて、長距離依存タスクではパフォーマンスが良くないことがわかった。 VideoNIAHはシンプルでスケーラブルなベンチマーク構築フレームワークです。 コードとデータはhttps://github.com/joez17/VideoNIAHで公開されている。

Video understanding is a crucial next step for multimodal large language models (MLLMs). To probe specific aspects of video understanding ability, existing video benchmarks typically require careful video selection based on the target capability, along with laborious annotation of query-response pairs to match the specific video content. This process is both challenging and resource-intensive. In this paper, we propose VideoNIAH (Video Needle In A Haystack), a benchmark construction framework through synthetic video generation. VideoNIAH decouples test video content from their query-responses by inserting unrelated image/text 'needles' into original videos. It generates annotations solely from these needles, ensuring diversity in video sources and a variety of query-responses. Additionally, by inserting multiple needles, VideoNIAH rigorously evaluates the temporal understanding capabilities of models. We utilized VideoNIAH to compile a video benchmark VNBench, including tasks such as retrieval, ordering, and counting. VNBench can efficiently evaluate the fine-grained understanding ability and spatio-temporal modeling ability of a video model, while also supporting the long-context evaluation. Additionally, we evaluated recent video-centric multimodal large language models (MLLMs), both open-source and proprietary, providing a comprehensive analysis. We found that although proprietary models have significant advantages over open-source models, all existing video models still perform poorly on long-distance dependency tasks. VideoNIAH is a simple yet highly scalable benchmark construction framework, and we believe it will inspire future video benchmark works. The code and data are available at https://github.com/joez17/VideoNIAH.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# CLIPAway: 拡散モデルによるオブジェクトの除去のための集中型埋め込みの調和

CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models ( http://arxiv.org/abs/2406.09368v1 )

ライセンス: Link先を確認
Yigit Ekin, Ahmet Burak Yildirim, Erdem Eren Caglar, Aykut Erdem, Erkut Erdem, Aysegul Dundar, (参考訳) 高度な画像編集技術、特に塗装は、視覚的整合性を維持しながら不要な要素をシームレスに除去するために不可欠である。 従来のGANベースの手法は顕著な成功を収めてきたが、近年の拡散モデルの進歩は大規模なデータセットのトレーニングによって優れた結果をもたらし、驚くほどリアルなインペイント画像の生成を可能にした。 その強みにもかかわらず、拡散モデルは明示的なガイダンスなしでオブジェクト除去タスクに苦しむことが多く、削除されたオブジェクトの意図しない幻覚につながる。 この問題を解決するために、CLIP埋め込みを利用した新しいアプローチであるCLIPAwayを紹介します。 CLIPAwayは、背景を優先する埋め込みを識別することで、ペイントの精度と品質を高め、シームレスなオブジェクト削除を実現する。 特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは様々な拡散ベースのインペイント技術と互換性のある柔軟なプラグアンドプレイソリューションを提供する。

Advanced image editing techniques, particularly inpainting, are essential for seamlessly removing unwanted elements while preserving visual integrity. Traditional GAN-based methods have achieved notable success, but recent advancements in diffusion models have produced superior results due to their training on large-scale datasets, enabling the generation of remarkably realistic inpainted images. Despite their strengths, diffusion models often struggle with object removal tasks without explicit guidance, leading to unintended hallucinations of the removed object. To address this issue, we introduce CLIPAway, a novel approach leveraging CLIP embeddings to focus on background regions while excluding foreground elements. CLIPAway enhances inpainting accuracy and quality by identifying embeddings that prioritize the background, thus achieving seamless object removal. Unlike other methods that rely on specialized training datasets or costly manual annotations, CLIPAway provides a flexible, plug-and-play solution compatible with various diffusion-based inpainting techniques.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# 継続的学習におけるデータ依存とOracleの前提

Data-dependent and Oracle Bounds on Forgetting in Continual Learning ( http://arxiv.org/abs/2406.09370v1 )

ライセンス: Link先を確認
Lior Friedman, Ron Meir, (参考訳) 継続的な学習では、知識はタスク間で保存および再利用され、将来のタスクへの適切な転送を維持し、以前に学習したタスクの忘れを最小化しなければならない。 この設定のためにいくつかの実践的なアルゴリズムが考案されているが、一般的な設定におけるフォーッティングの程度を定量化し、バウンドすることを目的とした理論的研究はほとんどない。 モデルとアルゴリズムの選択にかかわらず適用できるデータ依存上界とオラクル上界の両方と、ギブス後辺のバウンダリを提供する。 我々は境界にインスパイアされたアルゴリズムを導出し、我々のアプローチが前方および後方移動を改善することを実証的に実証した。

In continual learning, knowledge must be preserved and re-used between tasks, maintaining good transfer to future tasks and minimizing forgetting of previously learned ones. While several practical algorithms have been devised for this setting, there have been few theoretical works aiming to quantify and bound the degree of Forgetting in general settings. We provide both data-dependent and oracle upper bounds that apply regardless of model and algorithm choice, as well as bounds for Gibbs posteriors. We derive an algorithm inspired by our bounds and demonstrate empirically that our approach yields improved forward and backward transfer.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# LRM-Zero: 合成データによる大規模復元モデルの訓練

LRM-Zero: Training Large Reconstruction Models with Synthesized Data ( http://arxiv.org/abs/2406.09371v1 )

ライセンス: Link先を確認
Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan, (参考訳) 本稿では,LRM-Zeroについて述べる。LRM-Zeroは,合成した3Dデータに基づいて学習し,高品質なスパースビュー3D再構成を実現する。 LRM-Zeroのコアは手続き的な3DデータセットであるZeroverseで、ランダムなテクスチャと拡張(例えば、高さのフィールド、ブール差、ワイヤフレームなど)で単純なプリミティブな形状から自動的に合成されます。 従来の3Dデータセット(例:Objaverse)とは異なり、Zeroverseはリアルなグローバルなセマンティクスを完全に無視するが、局所的に実際のオブジェクトと似ているか、より複雑である複雑な幾何学的・テクスチャ的詳細に富んでいる。 我々は、完全に合成されたZeroverseでトレーニングしたLRM-Zeroが、Objaverseでトレーニングしたモデルと競合する現実世界のオブジェクトの再構築において、高い視覚的品質を実現することを実証した。 また、LRM-Zeroの能力と訓練安定性に寄与するZeroverseのいくつかの重要な設計選択についても分析する。 我々の研究は、3Dビジョンの中核となるタスクである3D再構成が、現実世界のオブジェクトの意味論なしで対処できることを実証している。 Zeroverseの手続き的な合成コードとインタラクティブな視覚化は、https://desaixie.github.io/lrm-zero/.com/で公開されている。

We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is automatically synthesized from simple primitive shapes with random texturing and augmentations (e.g., height fields, boolean differences, and wireframes). Unlike previous 3D datasets (e.g., Objaverse) which are often captured or crafted by humans to approximate real 3D data, Zeroverse completely ignores realistic global semantics but is rich in complex geometric and texture details that are locally similar to or even more intricate than real objects. We demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse, can achieve high visual quality in the reconstruction of real-world objects, competitive with models trained on Objaverse. We also analyze several critical design choices of Zeroverse that contribute to LRM-Zero's capability and training stability. Our work demonstrates that 3D reconstruction, one of the core tasks in 3D vision, can potentially be addressed without the semantics of real-world objects. The Zeroverse's procedural synthesis code and interactive visualization are available at: https://desaixie.github.io/lrm-zero/.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# 分散シフトによる学習のための効率的な離散性テスト

Efficient Discrepancy Testing for Learning with Distribution Shift ( http://arxiv.org/abs/2406.09373v1 )

ライセンス: Link先を確認
Gautam Chandrasekaran, Adam R. Klivans, Vasilis Kontonis, Konstantinos Stavropoulos, Arsen Vasilyan, (参考訳) 領域適応の分野における列車と試験分布間の距離の基本的な概念は、差分距離である。 一般に計算が難しいが、ここでは、固定出力分類器に対して誤差を計算し、局所的な一致距離をテストするための証明可能なアルゴリズムの最初のセットを提供する。 これらの結果は、Klivans et al (2023) が最近導入したTestable Learning with Distribution Shift (TDS) モデルにおいて、新しい効率的な学習アルゴリズムの幅広いセットを示唆している。 提案手法は,TDS学習におけるすべての先行研究を一般化し,改善する:(1)テスト分布の大規模クラスで同時に成功する普遍的な学習者を得る,(2)準最適誤差率を達成する,(3)一定の深度回路に対して指数関数的改善を与える。 提案手法はさらに半パラメトリックな設定にまで拡張され,低次元凸集合に対する最初の正の結果が示唆される。 さらに、学習とテストのフェーズを分離し、テスト時に完全に多項式時間で実行されるアルゴリズムを得る。

A fundamental notion of distance between train and test distributions from the field of domain adaptation is discrepancy distance. While in general hard to compute, here we provide the first set of provably efficient algorithms for testing localized discrepancy distance, where discrepancy is computed with respect to a fixed output classifier. These results imply a broad set of new, efficient learning algorithms in the recently introduced model of Testable Learning with Distribution Shift (TDS learning) due to Klivans et al. (2023). Our approach generalizes and improves all prior work on TDS learning: (1) we obtain universal learners that succeed simultaneously for large classes of test distributions, (2) achieve near-optimal error rates, and (3) give exponential improvements for constant depth circuits. Our methods further extend to semi-parametric settings and imply the first positive results for low-dimensional convex sets. Additionally, we separate learning and testing phases and obtain algorithms that run in fully polynomial time at test time.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# SSI深度を用いたスケール不変単分子深度推定

Scale-Invariant Monocular Depth Estimation via SSI Depth ( http://arxiv.org/abs/2406.09374v1 )

ライセンス: Link先を確認
S. Mahdi H. Miangoleh, Mahesh Reddy, Yağız Aksoy, (参考訳) スケール不変単分子深度推定(SI MDE)の既存の手法は、タスクの複雑さと、制限された非多変数データセットのためにしばしば苦労し、現実のシナリオにおける一般化性を妨げている。 これは、シフト・アンド・スケール・不変(SSI)深さ推定がタスクを単純化し、豊富なステレオデータセットによるトレーニングを可能にする一方で、高いパフォーマンスを実現する。 本稿では,SSI入力を利用してSI深度推定を強化し,ネットワークの役割を合理化し,SI深度推定のための組込み一般化を容易にする手法を提案する。 高解像度細部の生成を強調することで,SSI MDEにおける細部生成を大幅に改善し,既存のアプローチにおける限界に対処する,新しいスパース順序損失を導入する。 In-the-wild qualitative example and zero-shot evaluation we are understantiate the practical utility of our approach in computer photography applications, shows its ability to generate high detailed SI depth map and achieve generalization in various scenarios。

Existing methods for scale-invariant monocular depth estimation (SI MDE) often struggle due to the complexity of the task, and limited and non-diverse datasets, hindering generalizability in real-world scenarios. This is while shift-and-scale-invariant (SSI) depth estimation, simplifying the task and enabling training with abundant stereo datasets achieves high performance. We present a novel approach that leverages SSI inputs to enhance SI depth estimation, streamlining the network's role and facilitating in-the-wild generalization for SI depth estimation while only using a synthetic dataset for training. Emphasizing the generation of high-resolution details, we introduce a novel sparse ordinal loss that substantially improves detail generation in SSI MDE, addressing critical limitations in existing approaches. Through in-the-wild qualitative examples and zero-shot evaluation we substantiate the practical utility of our approach in computational photography applications, showcasing its ability to generate highly detailed SI depth maps and achieve generalization in diverse scenarios.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# 連続空間上の条件分布の学習

Learning conditional distributions on continuous spaces ( http://arxiv.org/abs/2406.09375v1 )

ライセンス: Link先を確認
Cyril Bénézet, Ziteng Cheng, Sebastian Jaimungal, (参考訳) 多次元単位箱上での条件分布のサンプルベース学習について検討し,特徴量と対象空間の異なる次元について検討した。 提案手法では,特徴空間における様々なクエリポイント付近のデータをクラスタリングして,対象空間における経験的測度を生成する。 我々は2つの異なるクラスタリングスキームを用いる: 1つは固定ラディウス球に基づいており、もう1つは近接する近傍にある。 両手法の収束率の上限を確立し、これらの境界から半径と近傍の数の最適構成を導出する。 我々は,ニューラルネットワークのトレーニングに近接する手法を取り入れることを提案する。 効率向上のために、我々のトレーニングプロセスは、ランダムな二分空間分割による近接した近傍探索を利用する。 さらに,Sinkhornアルゴリズムとスペーサ性強化輸送計画を用いる。 我々の経験的知見は、適切に設計された構造で、ニューラルネットワークはリプシッツ連続性の適切なレベルに局所的に適応できることを示している。 再現性のために、私たちのコードは \url{https://github.com/zcheng-a/LCD_kNN} で利用可能です。

We investigate sample-based learning of conditional distributions on multi-dimensional unit boxes, allowing for different dimensions of the feature and target spaces. Our approach involves clustering data near varying query points in the feature space to create empirical measures in the target space. We employ two distinct clustering schemes: one based on a fixed-radius ball and the other on nearest neighbors. We establish upper bounds for the convergence rates of both methods and, from these bounds, deduce optimal configurations for the radius and the number of neighbors. We propose to incorporate the nearest neighbors method into neural network training, as our empirical analysis indicates it has better performance in practice. For efficiency, our training process utilizes approximate nearest neighbors search with random binary space partitioning. Additionally, we employ the Sinkhorn algorithm and a sparsity-enforced transport plan. Our empirical findings demonstrate that, with a suitably designed structure, the neural network has the ability to adapt to a suitable level of Lipschitz continuity locally. For reproducibility, our code is available at \url{https://github.com/zcheng-a/LCD_kNN}.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# GGHead:高速で一般化可能な3Dガウシアンヘッド

GGHead: Fast and Generalizable 3D Gaussian Heads ( http://arxiv.org/abs/2406.09377v1 )

ライセンス: Link先を確認
Tobias Kirschstein, Simon Giebenhain, Jiapeng Tang, Markos Georgopoulos, Matthias Nießner, (参考訳) 大規模な2次元画像コレクションから3Dヘッドを学習することは、高品質な3D認識人間モデリングへの重要なステップである。 コア要件は、大規模なデータセットと大規模な画像解像度に十分対応可能な、効率的なアーキテクチャである。 残念ながら、既存の3D GANは、比較的遅い列車とレンダリング速度のために、高解像度でサンプルを生成するのに苦労しており、通常はグローバルな3D一貫性を犠牲にして2D超解像ネットワークに頼る必要がある。 これらの課題に対処するため、我々はGGHead(Generative Gaussian Heads)を提案し、3D GANフレームワーク内での最近の3D Gaussian Splatting表現を採用する。 3D表現を生成するために,テンプレートヘッドメッシュのUV空間におけるガウス特性を予測するために,強力な2D CNNジェネレータを用いる。 このようにして、GGHeadはテンプレートのUVレイアウトの規則性を利用して、非構造化の3Dガウスの集合を予測するという困難な作業を大幅に促進する。 さらに、描画されたUV座標に対する新しい総変分損失を伴って、生成した3次元表現の幾何学的忠実度を向上する。 直感的には、この正規化はテンプレートのUV空間内の隣接するガウスから隣接するレンダリングピクセルが派生することを奨励する。 私たちのパイプラインは、単一のビュー2D画像観察からのみ訓練された3Dヘッドを効率よく生成できる。 提案するフレームワークは,FFHQ上の既存の3DヘッドGANの品質に匹敵するが,ほぼ高速かつ完全3D一貫性を有する。 その結果,高品質な3Dコンセントヘッドのリアルタイム生成とレンダリングを初めて1024^2$で実証した。

Learning 3D head priors from large 2D image collections is an important step towards high-quality 3D-aware human modeling. A core requirement is an efficient architecture that scales well to large-scale datasets and large image resolutions. Unfortunately, existing 3D GANs struggle to scale to generate samples at high resolutions due to their relatively slow train and render speeds, and typically have to rely on 2D superresolution networks at the expense of global 3D consistency. To address these challenges, we propose Generative Gaussian Heads (GGHead), which adopts the recent 3D Gaussian Splatting representation within a 3D GAN framework. To generate a 3D representation, we employ a powerful 2D CNN generator to predict Gaussian attributes in the UV space of a template head mesh. This way, GGHead exploits the regularity of the template's UV layout, substantially facilitating the challenging task of predicting an unstructured set of 3D Gaussians. We further improve the geometric fidelity of the generated 3D representations with a novel total variation loss on rendered UV coordinates. Intuitively, this regularization encourages that neighboring rendered pixels should stem from neighboring Gaussians in the template's UV space. Taken together, our pipeline can efficiently generate 3D heads trained only from single-view 2D image observations. Our proposed framework matches the quality of existing 3D head GANs on FFHQ while being both substantially faster and fully 3D consistent. As a result, we demonstrate real-time generation and rendering of high-quality 3D-consistent heads at $1024^2$ resolution for the first time.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# マルチエージェントマルチモーダル自動運転:オープンMARSデータセット

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset ( http://arxiv.org/abs/2406.09383v1 )

ライセンス: Link先を確認
Yiming Li, Zhiheng Li, Nuo Chen, Moonjun Gong, Zonglin Lyu, Zehong Wang, Peili Jiang, Chen Feng, (参考訳) 大規模なデータセットは、AIベースの自動運転車研究の最近の進歩を後押ししている。 しかしながら、これらのデータセットは通常、1台の車両の特定の位置の1回限りのパスから収集され、マルチエージェントの相互作用や同じ場所の繰り返しのトラバーサルが欠如している。 このような情報は、自動運転車の認識、予測、計画能力の変革的な強化につながる可能性がある。 このギャップを埋めるために、自動運転企業のMay Mobilityと共同で、MultiAgent、MultiTraveRSal、マルチモーダル自動運転車研究を可能にするシナリオを統合するMARSデータセットを提示します。 より具体的には、MARSは特定の地理的領域内で運転する自動運転車の群れで収集される。 各車両は独自のルートを持ち、各車両は近くの場所に出現することがある。 各車両にはLiDARとサラウンドビューのRGBカメラが搭載されている。 我々はMARSの2つのサブセットをキュレートする: 1つは同一位置に存在する複数の車両との協調運転を容易にし、もう1つは複数の車両による同一位置の非同期トラバースによるメモリリフレクションを可能にする。 位置認識と神経再建の実験を行う。 さらに、MARSは、マルチトラバーサル3D再構成、マルチエージェント認識、教師なし物体発見など、新たな研究機会と課題を導入している。 私たちのデータとコードはhttps://ai4ce.github.io/MARS/で確認できます。

Large-scale datasets have fueled recent advancements in AI-based autonomous vehicle research. However, these datasets are usually collected from a single vehicle's one-time pass of a certain location, lacking multiagent interactions or repeated traversals of the same place. Such information could lead to transformative enhancements in autonomous vehicles' perception, prediction, and planning capabilities. To bridge this gap, in collaboration with the self-driving company May Mobility, we present the MARS dataset which unifies scenarios that enable MultiAgent, multitraveRSal, and multimodal autonomous vehicle research. More specifically, MARS is collected with a fleet of autonomous vehicles driving within a certain geographical area. Each vehicle has its own route and different vehicles may appear at nearby locations. Each vehicle is equipped with a LiDAR and surround-view RGB cameras. We curate two subsets in MARS: one facilitates collaborative driving with multiple vehicles simultaneously present at the same location, and the other enables memory retrospection through asynchronous traversals of the same location by multiple vehicles. We conduct experiments in place recognition and neural reconstruction. More importantly, MARS introduces new research opportunities and challenges such as multitraversal 3D reconstruction, multiagent perception, and unsupervised object discovery. Our data and codes can be found at https://ai4ce.github.io/MARS/.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# 事前学習モデルによるリハーサルなし連続学習の現状の考察

Reflecting on the State of Rehearsal-free Continual Learning with Pretrained Models ( http://arxiv.org/abs/2406.09384v1 )

ライセンス: Link先を確認
Lukas Thede, Karsten Roth, Olivier J. Hénaff, Matthias Bethge, Zeynep Akata, (参考訳) 近年のファンデーションモデルの普及に伴い、継続学習(CL)はスクラッチから事前訓練モデルへの継続的適応へと移行し、リハーサルのないCLベンチマーク(RFCL)で特に成功した。 これを実現するため,提案手法はパラメータ効率向上技術 (PEFT) を適応・再構成し,問題の連続的な性質に適合させる。 最も多くは、インプット条件のクエリ機構や、プロンプトまたはアダプタベースのPEFT上の正規化に基づいており、これらのPEFTスタイルのRFCL(P-RFCL)アプローチはピーク性能を報告し、しばしば既存のCL技術よりも圧倒的に優れている。 しかしながら、批判的な研究は、最近、最初のタスクや単純な非パラメトリックベースラインによるトレーニングによる競争結果を強調している。 その結果,P-RFCLの方法論的選択と高いベンチマークスコアの関係について疑問が持ち上がった。 本研究では,P-RFCL性能の強い背景にある真のドライバの配置,最近の第1タスク適応研究,EWCやSIといった以前のCL標準との関係をよりよく理解するために,これらの課題に取り組む。 特に,(1)P-RFCL手法は入力条件のクエリ機構に依存しているためではなく,標準のPEFTショートカットソリューションに崩壊することによるものである。 2) P-RFCL技術は, 単純かつ軽量なPEFTベースラインでマッチング可能であることを示す。 (3) このベースラインを用いて,PEFT法からRFCLアプローチを導出した場合の有意な有意な有意な有意な有意な有意な有意な有意な有意な有意な有意な有意差をP-RFCLの有効性の裏にある分母として同定する。 最後に,P-RFCL法に照らして,従来のRFCL法,すなわちEWC法やSI法をモチベートする。

With the advent and recent ubiquity of foundation models, continual learning (CL) has recently shifted from continual training from scratch to the continual adaptation of pretrained models, seeing particular success on rehearsal-free CL benchmarks (RFCL). To achieve this, most proposed methods adapt and restructure parameter-efficient finetuning techniques (PEFT) to suit the continual nature of the problem. Based most often on input-conditional query-mechanisms or regularizations on top of prompt- or adapter-based PEFT, these PEFT-style RFCL (P-RFCL) approaches report peak performances; often convincingly outperforming existing CL techniques. However, on the other end, critical studies have recently highlighted competitive results by training on just the first task or via simple non-parametric baselines. Consequently, questions arise about the relationship between methodological choices in P-RFCL and their reported high benchmark scores. In this work, we tackle these questions to better understand the true drivers behind strong P-RFCL performances, their placement w.r.t. recent first-task adaptation studies, and their relation to preceding CL standards such as EWC or SI. In particular, we show: (1) P-RFCL techniques relying on input-conditional query mechanisms work not because, but rather despite them by collapsing towards standard PEFT shortcut solutions. (2) Indeed, we show how most often, P-RFCL techniques can be matched by a simple and lightweight PEFT baseline. (3) Using this baseline, we identify the implicit bound on tunable parameters when deriving RFCL approaches from PEFT methods as a potential denominator behind P-RFCL efficacy. Finally, we (4) better disentangle continual versus first-task adaptation, and (5) motivate standard RFCL techniques s.a. EWC or SI in light of recent P-RFCL methods.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# ビジョン・ランゲージ・ジオファウンデーション・モデルに向けて:サーベイ

Towards Vision-Language Geo-Foundation Model: A Survey ( http://arxiv.org/abs/2406.09385v1 )

ライセンス: Link先を確認
Yue Zhou, Litong Feng, Yiping Ke, Xue Jiang, Junchi Yan, Xue Yang, Wayne Zhang, (参考訳) Vision-Language Foundation Models (VLFMs) は、画像キャプション、画像テキスト検索、視覚的質問応答、視覚的接地など、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。 しかし、ほとんどの手法は一般的な画像データセットによるトレーニングに依存しており、地理空間データの欠如は地球観測における性能の低下につながっている。 多数の地理空間的画像-テキストペアデータセットとVLFMを微調整したVLFMが最近提案されている。 これらの新しいアプローチは、大規模なマルチモーダルな地理空間データを活用し、多様な地理知覚能力を持つ多目的インテリジェントなモデルを構築することを目的としており、このモデルをVLGFM(Vision-Language Geo-Foundation Models)と呼ぶ。 本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。 特に,VLGFMの台頭の背後にある背景とモチベーションを紹介する。 次に,データ構築やモデルアーキテクチャ,マルチモーダルな地理空間タスクの応用など,VLGFMで採用されているコア技術を体系的に要約する。 最後に、今後の研究方向性に関する洞察、課題、議論をまとめる。 我々の知る限りでは、VLGFMの総合的な文献レビューはこれが初めてである。 関連作業はhttps://github.com/zytx121/Awesome-VLGFMで追跡しています。

Vision-Language Foundation Models (VLFMs) have made remarkable progress on various multimodal tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding. However, most methods rely on training with general image datasets, and the lack of geospatial data leads to poor performance on earth observation. Numerous geospatial image-text pair datasets and VLFMs fine-tuned on them have been proposed recently. These new approaches aim to leverage large-scale, multimodal geospatial data to build versatile intelligent models with diverse geo-perceptive capabilities, which we refer to as Vision-Language Geo-Foundation Models (VLGFMs). This paper thoroughly reviews VLGFMs, summarizing and analyzing recent developments in the field. In particular, we introduce the background and motivation behind the rise of VLGFMs, highlighting their unique research significance. Then, we systematically summarize the core technologies employed in VLGFMs, including data construction, model architectures, and applications of various multimodal geospatial tasks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To the best of our knowledge, this is the first comprehensive literature review of VLGFMs. We keep tracing related works at https://github.com/zytx121/Awesome-VLGFM.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# SimGen:シミュレータによる運転シーン生成

SimGen: Simulator-conditioned Driving Scene Generation ( http://arxiv.org/abs/2406.09386v1 )

ライセンス: Link先を確認
Yunsong Zhou, Michael Simon, Zhenghao Peng, Sicheng Mo, Hongzi Zhu, Minyi Guo, Bolei Zhou, (参考訳) 制御可能な合成データ生成は、自律運転研究・開発において、トレーニングデータのアノテーションコストを大幅に削減することができる。 以前の研究では、拡散モデルを使用して、3Dオブジェクトレイアウトで条件付けられた駆動画像を生成する。 しかしながら、これらのモデルは、外観やレイアウトの多様性に欠けるnuScenesのような小規模データセットでトレーニングされている。 さらに、トレーニングされたモデルでは、オーバーフィッティングが発生する可能性のあるデータセットの検証セットから、実際のレイアウトデータに基づいてのみ、イメージを生成することができる。 そこで本研究では,シミュレータと実世界のデータを混在させることで,多様な走行シーンを生成できるSimGenというシミュレータ条件付きシーン生成フレームワークを提案する。 これは新しいカスケード拡散パイプラインを使用して、挑戦的なsim-to-realギャップとマルチコンディション競合に対処する。 SimGenは世界中の73の場所から147.5時間以上の実世界の運転ビデオを収集し、MetaDriveシミュレータからの運転データをシミュレートする。 SimGenは、テキストプロンプトとシミュレータから取り出されたレイアウトに基づいて、制御性を維持しながら、優れた生成品質と多様性を達成する。 さらに,BEV検出およびセグメンテーションタスクにおける合成データ拡張のためのSimGenによる改善を実証し,安全クリティカルなデータ生成におけるその能力を示す。 コード、データ、モデルは利用可能になる。

Controllable synthetic data generation can substantially lower the annotation cost of training data in autonomous driving research and development. Prior works use diffusion models to generate driving images conditioned on the 3D object layout. However, those models are trained on small-scale datasets like nuScenes, which lack appearance and layout diversity. Moreover, the trained models can only generate images based on the real-world layout data from the validation set of the same dataset, where overfitting might happen. In this work, we introduce a simulator-conditioned scene generation framework called SimGen that can learn to generate diverse driving scenes by mixing data from the simulator and the real world. It uses a novel cascade diffusion pipeline to address challenging sim-to-real gaps and multi-condition conflicts. A driving video dataset DIVA is collected to enhance the generative diversity of SimGen, which contains over 147.5 hours of real-world driving videos from 73 locations worldwide and simulated driving data from the MetaDrive simulator. SimGen achieves superior generation quality and diversity while preserving controllability based on the text prompt and the layout pulled from a simulator. We further demonstrate the improvements brought by SimGen for synthetic data augmentation on the BEV detection and segmentation task and showcase its capability in safety-critical data generation. Code, data, and models will be made available.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# 圧縮タッカー分解のための空部分空間埋め込み

Oblivious subspace embeddings for compressed Tucker decompositions ( http://arxiv.org/abs/2406.09387v1 )

ライセンス: Link先を確認
Matthew Pietrosanu, Bei Jiang, Linglong Kong, (参考訳) 標準ポリアディクス(CP)テンソル分解に対するランダム埋め込み(低歪み次元減少のためのツール)に関するテンソル文献の強調は、より表現力のあるタッカー分解に類似した結果を残している。 この研究は、各モードに沿ってランダムな埋め込みが適用されるとき、タッカー分解を推定するための一般的なジョンソン・リンデンシュトラウス (JL) 型保証を確立する。 これらの埋め込みが JL 最適族から引き出されるとき、分解は最近の CP 結果と一致する埋め込み次元の制限の下で $\varepsilon$ の相対誤差で推定できる。 ランダム埋め込みを用いた高次直交反復法(HOOI)分解アルゴリズムを実装し,本手法の実用的メリットと,それ以外は禁止されたテンソル解析のアクセシビリティ向上の可能性を示す。 適度に大きな顔画像とfMRIのニューロイメージングデータセットでは、従来のHOOIに比べて再現誤差が最小限に増加し、相当な次元の縮小が可能であることが実証された(約5%の誤差、各モードに沿って50%の次元の縮小を有する大モデルの50%-60%の計算時間)。 特に大きなテンソルに対しては、従来の高階特異値分解(HOSVD)と最近提案したTensorSketch法より優れている。

Emphasis in the tensor literature on random embeddings (tools for low-distortion dimension reduction) for the canonical polyadic (CP) tensor decomposition has left analogous results for the more expressive Tucker decomposition comparatively lacking. This work establishes general Johnson-Lindenstrauss (JL) type guarantees for the estimation of Tucker decompositions when an oblivious random embedding is applied along each mode. When these embeddings are drawn from a JL-optimal family, the decomposition can be estimated within $\varepsilon$ relative error under restrictions on the embedding dimension that are in line with recent CP results. We implement a higher-order orthogonal iteration (HOOI) decomposition algorithm with random embeddings to demonstrate the practical benefits of this approach and its potential to improve the accessibility of otherwise prohibitive tensor analyses. On moderately large face image and fMRI neuroimaging datasets, empirical results show that substantial dimension reduction is possible with minimal increase in reconstruction error relative to traditional HOOI ($\leq$5% larger error, 50%-60% lower computation time for large models with 50% dimension reduction along each mode). Especially for large tensors, our method outperforms traditional higher-order singular value decomposition (HOSVD) and recently proposed TensorSketch methods.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# ヴィシオ言語合成のスペクトルの探索と認識

Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition ( http://arxiv.org/abs/2406.09388v1 )

ライセンス: Link先を確認
Youngtaek Oh, Pyunghwan Ahn, Jinhyung Kim, Gwangmo Song, Soonyoung Lee, In So Kweon, Junmo Kim, (参考訳) CLIPのような視覚と言語モデル(VLM)は、特に言語的理解ときめ細かい画像テキストアライメントにおいて、視覚言語学的構成性の課題に直面しながら、目覚しいゼロショット認識能力を示した。 本稿では,VLM能力の2つの重要な側面である,構成性と認識の複雑な関係について考察する。 我々は既存のVLMの総合的な評価を行い、認識を目的とした事前学習アプローチと、構成性の向上を目的とした微調整手法の両方を網羅する。 本評価では,合成性評価に12のベンチマーク,ゼロショット分類に21のベンチマーク,認識に2のベンチマークを用いた。 274のCLIPモデルチェックポイントから分析したところ、構成的理解と認識精度の間に出現するパターンとトレードオフが明らかになった。 最終的には、両方の能力を改善するモデルを開発するための戦略的努力と、構成性のベンチマークの綿密な定式化が必要である。 評価フレームワークはhttps://github.com/ytaek-oh/vl_compo.comで公開しています。

Vision and language models (VLMs) such as CLIP have showcased remarkable zero-shot recognition abilities yet face challenges in visio-linguistic compositionality, particularly in linguistic comprehension and fine-grained image-text alignment. This paper explores the intricate relationship between compositionality and recognition -- two pivotal aspects of VLM capability. We conduct a comprehensive evaluation of existing VLMs, covering both pre-training approaches aimed at recognition and the fine-tuning methods designed to improve compositionality. Our evaluation employs 12 benchmarks for compositionality, along with 21 zero-shot classification and two retrieval benchmarks for recognition. In our analysis from 274 CLIP model checkpoints, we reveal patterns and trade-offs that emerge between compositional understanding and recognition accuracy. Ultimately, this necessitates strategic efforts towards developing models that improve both capabilities, as well as the meticulous formulation of benchmarks for compositionality. We open our evaluation framework at https://github.com/ytaek-oh/vl_compo.
翻訳日:2024-06-14 16:15:58 公開日:2024-06-13
# Sagiri: 生成拡散による低ダイナミックレンジ画像強調

Sagiri: Low Dynamic Range Image Enhancement with Generative Diffusion Prior ( http://arxiv.org/abs/2406.09389v1 )

ライセンス: Link先を確認
Baiang Li, Sizhuo Ma, Yanhong Zeng, Xiaogang Xu, Youqing Fang, Zhao Zhang, Jian Wang, Kai Chen, (参考訳) 8ビットカメラを用いたハイダイナミックレンジ(HDR)の撮影は、しばしばオーバー/アンダー露、低ビット深度圧縮による細部の詳細の喪失、歪んだ色分布、暗黒領域の強いノイズに悩まされる。 従来のLDR画像強調法は主に色マッピングに重点を置いており、画像の色域を拡大し、明るさを調整することで視覚的表現を強化する。 しかし、これらの手法は、0または255に近いピクセル値を持つ領域であるダイナミックレンジ極端のコンテンツを効果的に復元することができない。 HDRイメージングにおける課題のすべてに対処し、現在のモデルの限界を超えるために、我々は新しい2段階のアプローチを提案する。 第1のステージは、既存の詳細を維持しながら色と明るさを適切な範囲にマッピングし、第2のステージは、キャプチャ中に失われたダイナミックレンジ極度のコンテンツを生成する前に拡散を利用する。 既存のLDRエンハンスメントモデルを強化・補完するプラグアンドプレイモジュールとしても使用できる。 提案手法はLDR画像の品質と細部を著しく改善し,厳密な実験検証により優れた性能を示す。 プロジェクトページはhttps://sagiri0208.github.ioにある。

Capturing High Dynamic Range (HDR) scenery using 8-bit cameras often suffers from over-/underexposure, loss of fine details due to low bit-depth compression, skewed color distributions, and strong noise in dark areas. Traditional LDR image enhancement methods primarily focus on color mapping, which enhances the visual representation by expanding the image's color range and adjusting the brightness. However, these approaches fail to effectively restore content in dynamic range extremes, which are regions with pixel values close to 0 or 255. To address the full scope of challenges in HDR imaging and surpass the limitations of current models, we propose a novel two-stage approach. The first stage maps the color and brightness to an appropriate range while keeping the existing details, and the second stage utilizes a diffusion prior to generate content in dynamic range extremes lost during capture. This generative refinement module can also be used as a plug-and-play module to enhance and complement existing LDR enhancement models. The proposed method markedly improves the quality and details of LDR images, demonstrating superior performance through rigorous experimental validation. The project page is at https://sagiri0208.github.io
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# LLAVIDAL:日々の生活活動のための大規模言語ビジョンモデルのベンチマーク

LLAVIDAL: Benchmarking Large Language Vision Models for Daily Activities of Living ( http://arxiv.org/abs/2406.09390v1 )

ライセンス: Link先を確認
Rajatsubhra Chakraborty, Arkaprava Sinha, Dominick Reilly, Manish Kumar Govind, Pu Wang, Francois Bremond, Srijan Das, (参考訳) LLVM(Large Language Vision Models)はインターネットビデオの処理において有効性を示したが、関連するデータセットと関連するキューに適したモデルのために、日常生活活動(ADL)に存在する視覚的に混乱するダイナミクスに苦慮している。 そこで本研究では,100K RGBビデオインストラクションペア,言語記述,3Dスケルトン,動作条件付きオブジェクトトラジェクトリからなるADL-Xを作成した。 LLAVIDALは,ADL内の複雑な時空間関係を理解するために,3次元ポーズと関連するオブジェクト軌跡を組み込むことができるLLVMである。 さらに,ADLシナリオにおけるLLVMの有効性を定量化するための新しいベンチマークであるADLMCQを提案する。 ADL-Xでトレーニングすると、LLAVIDALはすべてのADL評価指標に対して一貫して最先端のパフォーマンスを達成する。 質的分析により,ALD理解におけるLLAVIDALの時間的推論能力が明らかとなった。 データセットへのリンクは以下の通りである。

Large Language Vision Models (LLVMs) have demonstrated effectiveness in processing internet videos, yet they struggle with the visually perplexing dynamics present in Activities of Daily Living (ADL) due to limited pertinent datasets and models tailored to relevant cues. To this end, we propose a framework for curating ADL multiview datasets to fine-tune LLVMs, resulting in the creation of ADL-X, comprising 100K RGB video-instruction pairs, language descriptions, 3D skeletons, and action-conditioned object trajectories. We introduce LLAVIDAL, an LLVM capable of incorporating 3D poses and relevant object trajectories to understand the intricate spatiotemporal relationships within ADLs. Furthermore, we present a novel benchmark, ADLMCQ, for quantifying LLVM effectiveness in ADL scenarios. When trained on ADL-X, LLAVIDAL consistently achieves state-of-the-art performance across all ADL evaluation metrics. Qualitative analysis reveals LLAVIDAL's temporal reasoning capabilities in understanding ADL. The link to the dataset is provided at: https://adl-x.github.io/
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# 機械学習へのより実践的なアプローチ

A More Practical Approach to Machine Unlearning ( http://arxiv.org/abs/2406.09391v1 )

ライセンス: Link先を確認
David Zagardo, (参考訳) 機械学習モデルは、しばしば大量のデータを取り込み、重要なプライバシー上の懸念を引き起こす。 機械学習 — トレーニングされたモデルから特定のデータポイントの影響を取り除く能力 — は、これらの懸念に対処する。 本稿では,機械学習を実践するための実践的手法について考察する。 主な発見は以下のとおりである。 1. シングル対マルチエポック・アンラーニング: ファーストエポック・グラデーション・アンラーニングはマルチエポック・グラデーションよりも効果的である。 2. 層ベースアンラーニング: GPT-2 への埋め込み層は効果的なアンラーニングに不可欠である。 出力層(11,12)からの勾配は影響を受けない。 効率的なアンラーニングは埋め込み層だけで実現でき、空間の複雑さを半減させる。 3. 影響関数と Scoring: ヘッセンベクトル製品やアクティベーションの点積、テンソルといったテクニックは、未学習の定量化に使用される。 4. 漸進的漸進的考察: 未学習中にモデルを特定のデータポイントに過度に抽出しないように校正する必要がある。 5. ファジィマッチング vs. イテレーティブアンラーニング: ファジィマッチング技術はモデルを新しい最適なものにし、イテレーティブアンラーニングはより完全なモダリティを提供する。 実験により,機械学習における初等的勾配上昇は,モデル全体の勾配上昇よりも有効であることが確認された。 これらの結果は、データプライバシの強化とGDPRやCCPAなどの規制の遵守のための機械学習の可能性を強調している。 この研究は、学習過程を包括的に評価する形式的手法の重要性を浮き彫りにした。

Machine learning models often incorporate vast amounts of data, raising significant privacy concerns. Machine unlearning, the ability to remove the influence of specific data points from a trained model, addresses these concerns. This paper explores practical methods for implementing machine unlearning, focusing on a first-epoch gradient-ascent approach. Key findings include: 1. Single vs. Multi-Epoch Unlearning: First-epoch gradient unlearning is more effective than multi-epoch gradients. 2. Layer-Based Unlearning: The embedding layer in GPT-2 is crucial for effective unlearning. Gradients from the output layers (11 and 12) have no impact. Efficient unlearning can be achieved using only the embedding layer, halving space complexity. 3. Influence Functions & Scoring: Techniques like Hessian Vector Product and the dot product of activations and tensors are used for quantifying unlearning. 4. Gradient Ascent Considerations: Calibration is necessary to avoid overexposing the model to specific data points during unlearning, which could prematurely terminate the process. 5. Fuzzy Matching vs. Iterative Unlearning: Fuzzy matching techniques shift the model to a new optimum, while iterative unlearning provides a more complete modality. Our empirical evaluation confirms that first-epoch gradient ascent for machine unlearning is more effective than whole-model gradient ascent. These results highlight the potential of machine unlearning for enhancing data privacy and compliance with regulations such as GDPR and CCPA. The study underscores the importance of formal methods to comprehensively evaluate the unlearning process.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# 強い乱れを持つ量子多体系における絡み合いダイナミクスと固有状態相関

Entanglement dynamics and eigenstate correlations in strongly disordered quantum many-body systems ( http://arxiv.org/abs/2406.09392v1 )

ライセンス: Link先を確認
Bikram Pain, Sthitadhi Roy, (参考訳) 量子系の多体局在相は異常な動的相であり、系は熱分解に失敗するが、絡み合いは時間的に非常に緩やかに成長する。 我々は、多体局在状態における強い乱れ、相互作用する量子系の動的固有状態相関の観点から、この絡み合いの超低速成長の顕微鏡理論を提案する。 これらの相関は、4つ以上の固有状態の集合を含むため、通常、固有状態の熱化またはその欠如の文脈で研究される2つの固有状態のペアを含む相関を超える。 我々は、最小の場合、すなわち、初期積状態の第二R'enyiエントロピーと、時間進化作用素のエントロピーを考え、相関には4つの固有状態の四重項が含まれる。 エンタングルメントエントロピーの力学は、固有状態の特定の四重項内のスペクトル相関によって支配される。 これらの特殊四重項の空間構造と、それに続く固有状態間のスペクトル相関の統計を明らかにする。 これらの時間スケールの階層構造と非自明な分布は、多体局所化体制の特徴である絡み合いの時間的成長において対数論を生み出すことを意図していることを示す。 特殊四重項の集合の基底となる空間構造は、エンタングルメント成長の時空像の微視的理解も提供する。 したがって、この理論は、$$\ell$-bit 図に基づく一般的な現象学的アプローチと比較して、強い無秩序な系における絡み合い成長に関するより豊かな視点を提供する。

The many-body localised phase of quantum systems is an unusual dynamical phase wherein the system fails to thermalise and yet, entanglement grows unboundedly albeit very slowly in time. We present a microscopic theory of this ultraslow growth of entanglement in terms of dynamical eigenstate correlations of strongly disordered, interacting quantum systems in the many-body localised regime. These correlations involve sets of four or more eigenstates and hence, go beyond correlations involving pairs of eigenstates which are usually studied in the context of eigenstate thermalisation or lack thereof. We consider the minimal case, namely the second R\'enyi entropy of entanglement, of an initial product state as well as that of the time-evolution operator, wherein the correlations involve quartets of four eigenstates. We identify that the dynamics of the entanglement entropy is dominated by the spectral correlations within certain special quartets of eigenstates. We uncover the spatial structure of these special quartets and the ensuing statistics of the spectral correlations amongst the eigenstates therein, which reveals a hierarchy of timescales or equivalently, energyscales. We show that the hierarchy of these timescales along with their non-trivial distributions conspire to produce the logarithmic in time growth of entanglement, characteristic of the many-body localised regime. The underlying spatial structures in the set of special quartets also provides a microscopic understanding of the spacetime picture of the entanglement growth. The theory therefore provides a much richer perspective on entanglement growth in strongly disordered systems compared to the commonly employed phenomenological approach based on the $\ell$-bit picture.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# 動的Oracleによる自動回帰トレーニングの改善

Improving Autoregressive Training with Dynamic Oracles ( http://arxiv.org/abs/2406.09393v1 )

ライセンス: Link先を確認
Jianing Yang, Harshine Visvanathan, Yilin Wang, Xinyi Hu, Matthew Gormley, (参考訳) NLP内の多くのタスクは、シーケンスタグ付けからテキスト生成まで、シーケンシャルな決定問題としてフレーム化することができる。 しかし、多くのタスクにおいて、最大可能性(教師の強制)やスケジュールされたサンプリングを含む標準的なトレーニング方法は、露光バイアスとトレーニングと推論で使用されるメトリクスのミスマッチに悩まされる。 DAggerはこれらの問題を緩和するソリューションを提供するが、SpatベースのF1、ROUGE、BLEUのような多くの一般的なメトリクスには存在しないメトリック固有の動的オラクルアルゴリズムを必要とする。 本稿では,これらの新しい動的オラクルを開発し,DAggerがスパンベースF1のような分解可能なメトリクスを保証していないことを示す。 本研究では,名前付きエンティティ認識(NER),テキスト要約,機械翻訳(MT)におけるアルゴリズムの性能を評価する。 動的オラクルを持つDAggerは、MT実験においてあまり好ましくない結果をもたらすが、NERおよびテキスト要約におけるベースライン技術よりも優れている。

Many tasks within NLP can be framed as sequential decision problems, ranging from sequence tagging to text generation. However, for many tasks, the standard training methods, including maximum likelihood (teacher forcing) and scheduled sampling, suffer from exposure bias and a mismatch between metrics employed during training and inference. DAgger provides a solution to mitigate these problems, yet it requires a metric-specific dynamic oracle algorithm, which does not exist for many common metrics like span-based F1, ROUGE, and BLEU. In this paper, we develop these novel dynamic oracles and show they maintain DAgger's no-regret guarantee for decomposable metrics like span-based F1. We evaluate the algorithm's performance on named entity recognition (NER), text summarization, and machine translation (MT). While DAgger with dynamic oracle yields less favorable results in our MT experiments, it outperforms the baseline techniques in NER and text summarization.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# ワンダーワールド:1枚の画像からインタラクティブな3Dシーン生成

WonderWorld: Interactive 3D Scene Generation from a Single Image ( http://arxiv.org/abs/2406.09394v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Haoyi Duan, Charles Herrmann, William T. Freeman, Jiajun Wu, (参考訳) We present WonderWorld, a novel framework for \emph{interactive} 3D scene extrapolation that users to explore and shape virtual environment based on a single input image and user-specified text。 シーン生成の視覚的品質は大幅に改善されているが、既存のメソッドはオフラインで実行され、シーンを生成するのに何分から数時間かかる。 高速ガウスサーフェルスと誘導拡散に基づく深さ推定法を利用して、WonderWorldは幾何的に一貫した外挿を生成し、計算時間を著しく短縮する。 このフレームワークは,1つのA6000 GPU上で,接続された多種多様な3Dシーンを10秒未満で生成し,リアルタイムなユーザインタラクションと探索を可能にする。 我々は、仮想現実、ゲーム、クリエイティブデザインにおけるアプリケーションに対するWonderWorldの可能性を示し、ユーザーは単一の画像から没入的で潜在的に無限の仮想世界を素早く生成し、ナビゲートすることができる。 我々のアプローチはインタラクティブな3Dシーン生成において大きな進歩を示し、仮想環境におけるユーザ主導のコンテンツ作成と探索の新たな可能性を開く。 再現性のための完全なコードとソフトウェアをリリースします。 プロジェクトWebサイト: https://WonderWorld-2024.github.io/

We present WonderWorld, a novel framework for \emph{interactive} 3D scene extrapolation that enables users to explore and shape virtual environments based on a single input image and user-specified text. While significant improvements have been made to the visual quality of scene generation, existing methods are run offline, taking tens of minutes to hours to generate a scene. By leveraging Fast Gaussian Surfels and a guided diffusion-based depth estimation method, WonderWorld generates geometrically consistent extrapolation while significantly reducing computational time. Our framework generates connected and diverse 3D scenes in less than 10 seconds on a single A6000 GPU, enabling real-time user interaction and exploration. We demonstrate the potential of WonderWorld for applications in virtual reality, gaming, and creative design, where users can quickly generate and navigate immersive, potentially infinite virtual worlds from a single image. Our approach represents a significant advancement in interactive 3D scene generation, opening up new possibilities for user-driven content creation and exploration in virtual environments. We will release full code and software for reproducibility. Project website: https://WonderWorld-2024.github.io/
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# 自由視点合成のためのアンビエントシーンダイナミクスのモデリング

Modeling Ambient Scene Dynamics for Free-view Synthesis ( http://arxiv.org/abs/2406.09395v1 )

ライセンス: Link先を確認
Meng-Li Shih, Jia-Bin Huang, Changil Kim, Rajvi Shah, Johannes Kopf, Chen Gao, (参考訳) 本研究では,モノクルキャプチャから周囲のシーンを動的に自由視点で合成する手法を提案する。 本手法は, 複雑な静的シーンを忠実に再構築できる3次元ガウス散乱(3DGS)の最近の進歩に基づいている。 3DGSをダイナミックに拡張しようとする以前の試みは、境界付けられたシーンに制限されたり、マルチカメラのキャプチャが必要であったり、しばしば目に見えない動作に一般化できず、実用的応用が制限されたりしていた。 本手法は, 周囲運動の周期性を利用して運動軌跡モデルを学習し, 注意深い正規化を行うことにより, これらの制約を克服する。 また、ベースライン3DGS静的再構成の視覚的品質向上と、GPUメモリ集中学習において重要なメモリ効率向上のための重要な実用戦略を提案する。 複雑なテクスチャと微細な構造要素を持つ環境自然シーンの高品質なフォトリアリスティック・ノベルビュー合成を実証する。

We introduce a novel method for dynamic free-view synthesis of an ambient scenes from a monocular capture bringing a immersive quality to the viewing experience. Our method builds upon the recent advancements in 3D Gaussian Splatting (3DGS) that can faithfully reconstruct complex static scenes. Previous attempts to extend 3DGS to represent dynamics have been confined to bounded scenes or require multi-camera captures, and often fail to generalize to unseen motions, limiting their practical application. Our approach overcomes these constraints by leveraging the periodicity of ambient motions to learn the motion trajectory model, coupled with careful regularization. We also propose important practical strategies to improve the visual quality of the baseline 3DGS static reconstructions and to improve memory efficiency critical for GPU-memory intensive learning. We demonstrate high-quality photorealistic novel view synthesis of several ambient natural scenes with intricate textures and fine structural elements.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# フレームが多すぎて役に立たない:長めのビデオQAのための効率的な戦略

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA ( http://arxiv.org/abs/2406.09396v1 )

ライセンス: Link先を確認
Jongwoo Park, Kanchana Ranasinghe, Kumara Kahatapitiya, Wonjeong Ryoo, Donghyun Kim, Michael S. Ryoo, (参考訳) 広い時間間隔にまたがるロングフォームビデオは、非常に情報冗長であり、しばしばゆるやかな関係を持つ複数の異なるイベントやエンティティを含んでいる。 したがって、長文ビデオ質問応答(LVQA)を行う場合、正しい応答を生成するために必要な情報はすべて、フレームの小さなサブセットに含まれることが多い。 近年の文献では、ビデオ内のすべての視覚コンテンツを自然言語に変換するために視覚言語モデル(VLM)に依存しながら、LVQAベンチマークにおける大きな言語モデル(LLM)の使用を調査している。 このようなVLMは、長いビデオから一様にサンプリングされた大量のフレームを独立にキャプションすることが多いが、これは効率的ではなく、ほとんど冗長である。 これらの選択を問うことで、キーフレーム選択とシーケンス認識キャプションの最適戦略を探求し、これらの冗長性を著しく低減することができる。 本稿では,階層型鍵フレームセレクタと逐次型ビジュアルLLMという,各側面を改善する2つの新しいアプローチを提案する。 LVNetと呼ばれるフレームワークは、3つのベンチマークLVQAデータセットにまたがって最先端のパフォーマンスを実現する。 私たちのコードは公開されます。

Long-form videos that span across wide temporal intervals are highly information redundant and contain multiple distinct events or entities that are often loosely-related. Therefore, when performing long-form video question answering (LVQA),all information necessary to generate a correct response can often be contained within a small subset of frames. Recent literature explore the use of large language models (LLMs) in LVQA benchmarks, achieving exceptional performance, while relying on vision language models (VLMs) to convert all visual content within videos into natural language. Such VLMs often independently caption a large number of frames uniformly sampled from long videos, which is not efficient and can mostly be redundant. Questioning these decision choices, we explore optimal strategies for key-frame selection and sequence-aware captioning, that can significantly reduce these redundancies. We propose two novel approaches that improve each of aspects, namely Hierarchical Keyframe Selector and Sequential Visual LLM. Our resulting framework termed LVNet achieves state-of-the-art performance across three benchmark LVQA datasets. Our code will be released publicly.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# 検索における視覚モデルと人間の美学:ベンチマークとアルゴリズム

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms ( http://arxiv.org/abs/2406.09397v1 )

ライセンス: Link先を確認
Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu, Ji Li, Zheng Zhang, Qi Dai, Chong Luo, Xin Geng, Baining Guo, (参考訳) 現代のビジョンモデルは、非常に大きなノイズの多いデータセットで訓練されています。 これらのモデルは強力な能力を得るが、視覚美学、好みのスタイル、責任といった特定の側面において、望ましい結果を出力するユーザの意図に従わないかもしれない。 本稿では,視覚美学の領域を対象とし,視覚モデルと人間の審美基準の整合を図る。 高度な検索システムは、通常、審美モデルのカスケードをリランカーやフィルターとして採用するが、これは飽和のような低レベルな特徴に制限され、スタイリスティック、文化的、知識のコンテキストが絡むと、性能が悪くなる。 大規模言語モデル(LLM)の推論能力を利用して検索クエリをリフレッシュし,審美的期待を拡大することは,この欠点を補うことができる。 以上の知見に基づいて,視覚モデルと人間の美学との整合性を高めるために,LLMの推論と美学モデルの両方から知識を抽出するために,視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。 一方,検索システムを評価するために設計された希少なベンチマークでは,大規模マルチモーダリティモデル(LMM)を活用して,美的性能を高い能力で評価する。 審美評価は,LMMの堅牢性を評価する上で最も主観的な課題の1つとして,人間の美学との整合性を評価するためのHPIRという新しいデータセットを提案する。 実験により,本手法は視覚モデルの美的挙動を,いくつかの指標のもとで著しく向上させることが示された。 提案アルゴリズムは、視覚モデルと人間の価値を整合させる一般的な手法であると考えている。

Modern vision models are trained on very large noisy datasets. While these models acquire strong capabilities, they may not follow the user's intent to output the desired results in certain aspects, e.g., visual aesthetic, preferred style, and responsibility. In this paper, we target the realm of visual aesthetics and aim to align vision models with human aesthetic standards in a retrieval system. Advanced retrieval systems usually adopt a cascade of aesthetic models as re-rankers or filters, which are limited to low-level features like saturation and perform poorly when stylistic, cultural or knowledge contexts are involved. We find that utilizing the reasoning ability of large language models (LLMs) to rephrase the search query and extend the aesthetic expectations can make up for this shortcoming. Based on the above findings, we propose a preference-based reinforcement learning method that fine-tunes the vision models to distill the knowledge from both LLMs reasoning and the aesthetic models to better align the vision models with human aesthetics. Meanwhile, with rare benchmarks designed for evaluating retrieval systems, we leverage large multi-modality model (LMM) to evaluate the aesthetic performance with their strong abilities. As aesthetic assessment is one of the most subjective tasks, to validate the robustness of LMM, we further propose a novel dataset named HPIR to benchmark the alignment with human aesthetics. Experiments demonstrate that our method significantly enhances the aesthetic behaviors of the vision models, under several metrics. We believe the proposed algorithm can be a general practice for aligning vision models with human values.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# 実世界におけるリアルタイムディープフェイク検出

Real-Time Deepfake Detection in the Real-World ( http://arxiv.org/abs/2406.09398v1 )

ライセンス: Link先を確認
Bar Cavia, Eliahu Horwitz, Tal Reiss, Yedid Hoshen, (参考訳) 近年のジェネレーティブAIの改良により、偽画像の合成が容易になった。 本稿では,1つの9x9イメージパッチを受信し,そのディープフェイクスコアを出力する"Locally Aware Deepfake Detection Algorithm"(LaDeDa)を提案する。 イメージディープフェイクスコアは、パッチのプールされたスコアです。 単にパッチレベルの情報だけで、LaDeDaは最先端よりも大幅に改善され、現在のベンチマークで約99%のmAPを達成した。 LaDeDaのパッチレベル構造により、生成成果物は単純なモデルで検出できるという仮説を立てる。 そこで,LaDeDaをTiny-LaDeDaに蒸留した。 注目すべきなのは、Tiny-LaDeDaはFLOPが375倍少なく、LaDeDaよりもパラメータ効率が1万倍高いことだ。 これらのほぼ完璧なスコアが疑問を提起する。ディープフェイク検出のタスクは、解決に近づいているのだろうか? おそらく、我々の調査は、現在のトレーニングプロトコルがソーシャルメディアから抽出された現実世界のディープフェイクへのメソッドの一般化を防ぐことを明らかにしている。 この問題に対処するために、いくつかの人気のあるソーシャルネットワークからキュレートされた新しいディープフェイク検出データセットWildRFを導入する。 提案手法はWildRF上での93.7%mAPの最高性能を実現するが,完全精度との差が大きいことから,信頼性の高い実世界の深度検出は未解決であることが示された。

Recent improvements in generative AI made synthesizing fake images easy; as they can be used to cause harm, it is crucial to develop accurate techniques to identify them. This paper introduces "Locally Aware Deepfake Detection Algorithm" (LaDeDa), that accepts a single 9x9 image patch and outputs its deepfake score. The image deepfake score is the pooled score of its patches. With merely patch-level information, LaDeDa significantly improves over the state-of-the-art, achieving around 99% mAP on current benchmarks. Owing to the patch-level structure of LaDeDa, we hypothesize that the generation artifacts can be detected by a simple model. We therefore distill LaDeDa into Tiny-LaDeDa, a highly efficient model consisting of only 4 convolutional layers. Remarkably, Tiny-LaDeDa has 375x fewer FLOPs and is 10,000x more parameter-efficient than LaDeDa, allowing it to run efficiently on edge devices with a minor decrease in accuracy. These almost-perfect scores raise the question: is the task of deepfake detection close to being solved? Perhaps surprisingly, our investigation reveals that current training protocols prevent methods from generalizing to real-world deepfakes extracted from social media. To address this issue, we introduce WildRF, a new deepfake detection dataset curated from several popular social networks. Our method achieves the top performance of 93.7% mAP on WildRF, however the large gap from perfect accuracy shows that reliable real-world deepfake detection is still unsolved.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# OmniTokenizer:ビジュアルジェネレーションのための共同画像-ビデオトケナイザ

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation ( http://arxiv.org/abs/2406.09399v1 )

ライセンス: Link先を確認
Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang, (参考訳) トケナイザーは複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳機として機能し、視覚生成モデルの中核に位置する。 本稿では,既存のトークン化装置が画像入力やビデオ入力に適合していることから,コンバータをベースとしたコンバータトークン化システムであるOmniTokenizerを提案する。 OmniTokenizerは空間的・時間的疎結合なアーキテクチャで設計されており、空間的・時間的モデリングのために窓と因果的注意を統合する。 画像データと映像データの相補的な性質を活用するために,OmniTokenizer は空間符号化能力を向上させるために,まず固定解像度の画像データに基づいて訓練し,複数の解像度の画像データと映像データを共同で訓練して時間的ダイナミクスを学習する,プログレッシブトレーニング戦略を提案する。 OmniTokenizerは、初めて統合されたフレームワーク内で画像とビデオの両方の入力を処理し、それらのシナジーを実現する可能性を証明する。 大規模な実験により,OmniTokenizer は ImageNet 上の1.11再構成 FID と UCF-101 上の42再構成 FVD など,様々な画像およびビデオデータセット上でのSOTA (State-of-the-art) 再構成性能を達成し,従来のSOTA 法を 13% と 26% で上回った。 さらに,OmniTokenizerと統合すると,言語モデルに基づくアプローチと拡散モデルの両方が高度な視覚合成性能を実現し,本手法の優位性と汎用性を示す。 コードはhttps://github.com/FoundationVision/OmniTokenizerで入手できる。

Tokenizer, serving as a translator to map the intricate visual data into a compact latent space, lies at the core of visual generative models. Based on the finding that existing tokenizers are tailored to image or video inputs, this paper presents OmniTokenizer, a transformer-based tokenizer for joint image and video tokenization. OmniTokenizer is designed with a spatial-temporal decoupled architecture, which integrates window and causal attention for spatial and temporal modeling. To exploit the complementary nature of image and video data, we further propose a progressive training strategy, where OmniTokenizer is first trained on image data on a fixed resolution to develop the spatial encoding capacity and then jointly trained on image and video data on multiple resolutions to learn the temporal dynamics. OmniTokenizer, for the first time, handles both image and video inputs within a unified framework and proves the possibility of realizing their synergy. Extensive experiments demonstrate that OmniTokenizer achieves state-of-the-art (SOTA) reconstruction performance on various image and video datasets, e.g., 1.11 reconstruction FID on ImageNet and 42 reconstruction FVD on UCF-101, beating the previous SOTA methods by 13% and 26%, respectively. Additionally, we also show that when integrated with OmniTokenizer, both language model-based approaches and diffusion models can realize advanced visual synthesis performance, underscoring the superiority and versatility of our method. Code is available at https://github.com/FoundationVision/OmniTokenizer.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# Yo'LLaVA: パーソナライズされた言語とビジョンアシスタント

Yo'LLaVA: Your Personalized Language and Vision Assistant ( http://arxiv.org/abs/2406.09400v1 )

ライセンス: Link先を確認
Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee, (参考訳) 大規模マルチモーダルモデル(LMM)は、様々なタスク(例えば、画像キャプション、視覚的質問応答)で顕著な機能を示している。 広義の知識は依然として一般的であり(例:犬を認識する)、パーソナライズされた対象(例:ユーザのペットを認識する)を扱えない。 対照的に人間の推論は、通常、周囲の特定の主題の文脈内で機能します。 例えば、「自分の犬の誕生日に何を買うべきか?」と尋ねると、「犬の誕生日に何を買うべきか?」という一般的な質問とは対照的である。 同様に、友人のイメージを見るとき、興味は彼らの活動を見ること(例えば、私の友人は猫を抱いている)であり、単に一般的な人間の行動を観察すること(例えば、男が猫を抱いている)ではない。 本稿では,LMMをパーソナライズする新たな課題を紹介する。 提案するYo'LLaVAは,一握りのサンプル画像から,パーソナライズされた被写体を潜在トークンの集合に埋め込むことを学習する。 定性的かつ定量的な分析により,Yo'LLaVAはより少ないトークンを用いてより効率的に概念を学習し,強力なプロンプトベースライン(例えばLLaVA)に比べて視覚特性を効果的に符号化できることがわかった。

Large Multimodal Models (LMMs) have shown remarkable capabilities across a variety of tasks (e.g., image captioning, visual question answering). While broad, their knowledge remains generic (e.g., recognizing a dog), and they are unable to handle personalized subjects (e.g., recognizing a user's pet dog). Human reasoning, in contrast, typically operates within the context of specific subjects in our surroundings. For example, one might ask, "What should I buy for my dog's birthday?"; as opposed to a generic inquiry about "What should I buy for a dog's birthday?". Similarly, when looking at a friend's image, the interest lies in seeing their activities (e.g., "my friend is holding a cat"), rather than merely observing generic human actions (e.g., "a man is holding a cat"). In this paper, we introduce the novel task of personalizing LMMs, so that they can have conversations about a specific subject. We propose Yo'LLaVA, which learns to embed a personalized subject into a set of latent tokens given a handful of example images of the subject. Our qualitative and quantitative analyses reveal that Yo'LLaVA can learn the concept more efficiently using fewer tokens and more effectively encode the visual attributes compared to strong prompting baselines (e.g., LLaVA).
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# MMScan:階層的な基底言語アノテーションを備えたマルチモーダル3Dシーンデータセット

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations ( http://arxiv.org/abs/2406.09401v1 )

ライセンス: Link先を確認
Ruiyuan Lyu, Tai Wang, Jingli Lin, Shuai Yang, Xiaohan Mao, Yilun Chen, Runsen Xu, Haifeng Huang, Chenming Zhu, Dahua Lin, Jiangmiao Pang, (参考訳) LLMの出現と他のデータモダリティとの統合により、物理世界との接続性により、マルチモーダル3D知覚がより注目され、急速に進歩する。 しかし、これまでの研究は既存のデータセットに限られており、主に3Dシーンにおけるオブジェクトの特性やオブジェクト間の空間的関係を理解することに焦点を当てていた。 この問題に対処するため,本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。 空間的および属性的理解の全体的側面を網羅し、単一のターゲットからターゲット間関係まで、領域からオブジェクトレベルまでのトップダウン論理に基づいて構築される。 パイプライン全体は、慎重に設計されたプロンプトを通じて強力なVLMを組み込んで、アノテーションを効率的に初期化し、アノテーションが自然で正確で包括的なものであることを保証するために、人間の修正をループに巻き込む。 既存の3Dスキャンデータに基づいて構築されたマルチモーダル3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。 我々は、ベンチマークで代表的ベースラインを評価し、異なる側面でそれらの能力を分析し、今後対処すべき重要な問題を提示する。 さらに、この高品質なデータセットを用いて、最先端の3DビジュアルグラウンドとLLMをトレーニングし、既存のベンチマークと地中評価の両方で顕著な性能改善を得る。 コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/EmbodiedScan.comから入手できる。

With the emergence of LLMs and their integration with other data modalities, multi-modal 3D perception attracts more attention due to its connectivity to the physical world and makes rapid progress. However, limited by existing datasets, previous works mainly focus on understanding object properties or inter-object spatial relationships in a 3D scene. To tackle this problem, this paper builds the first largest ever multi-modal 3D scene dataset and benchmark with hierarchical grounded language annotations, MMScan. It is constructed based on a top-down logic, from region to object level, from a single target to inter-target relationships, covering holistic aspects of spatial and attribute understanding. The overall pipeline incorporates powerful VLMs via carefully designed prompts to initialize the annotations efficiently and further involve humans' correction in the loop to ensure the annotations are natural, correct, and comprehensive. Built upon existing 3D scanning data, the resulting multi-modal 3D dataset encompasses 1.4M meta-annotated captions on 109k objects and 7.7k regions as well as over 3.04M diverse samples for 3D visual grounding and question-answering benchmarks. We evaluate representative baselines on our benchmarks, analyze their capabilities in different aspects, and showcase the key problems to be addressed in the future. Furthermore, we use this high-quality dataset to train state-of-the-art 3D visual grounding and LLMs and obtain remarkable performance improvement both on existing benchmarks and in-the-wild evaluation. Codes, datasets, and benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# Instruct 4D-to-4D:Editing 4D Scenes as Pseudo-3D Scenes using 2D Diffusion

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion ( http://arxiv.org/abs/2406.09402v1 )

ライセンス: Link先を確認
Linzhan Mou, Jun-Kun Chen, Yu-Xiong Wang, (参考訳) 本稿では,2次元拡散モデルの4次元認識と時空間整合性を実現し,高品質な指導誘導動的シーン編集結果を生成するインストラクション4D-to-4Dを提案する。 動的シーン編集における2次元拡散モデルの伝統的な応用は、主にフレーム単位の編集手法によって、矛盾をもたらすことが多い。 命令誘導編集を4Dに拡張する複雑さに対処するために、我々の重要な洞察は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性と擬似3Dシーンへのそれらの編集の適用の2つのサブプロブレムに分解することである。 次に、まず、バッチ処理と一貫した編集のためのアンカー認識アテンションモジュールを備えたインストラクト-Pix2Pix(IP2P)モデルを拡張する。 さらに、より正確なフレーム・ツー・フレーム編集を行うために、光フロー誘導外界伝搬をスライディングウインドウ方式で統合し、奥行きに基づくプロジェクションを組み込んで擬似3Dシーンの広範囲なデータを管理し、次いで反復的編集を行い収束を図る。 提案手法を様々な場面で広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。 特に、インストラクション4D-to-4Dは一般的なもので、モノクラーシーンと挑戦的なマルチカメラシーンの両方に適用できる。 コードやその他の結果はImmortalco.github.io/Instruct-4D-to-4Dで公開されている。

This paper proposes Instruct 4D-to-4D that achieves 4D awareness and spatial-temporal consistency for 2D diffusion models to generate high-quality instruction-guided dynamic scene editing results. Traditional applications of 2D diffusion models in dynamic scene editing often result in inconsistency, primarily due to their inherent frame-by-frame editing methodology. Addressing the complexities of extending instruction-guided editing to 4D, our key insight is to treat a 4D scene as a pseudo-3D scene, decoupled into two sub-problems: achieving temporal consistency in video editing and applying these edits to the pseudo-3D scene. Following this, we first enhance the Instruct-Pix2Pix (IP2P) model with an anchor-aware attention module for batch processing and consistent editing. Additionally, we integrate optical flow-guided appearance propagation in a sliding window fashion for more precise frame-to-frame editing and incorporate depth-based projection to manage the extensive data of pseudo-3D scenes, followed by iterative editing to achieve convergence. We extensively evaluate our approach in various scenes and editing instructions, and demonstrate that it achieves spatially and temporally consistent editing results, with significantly enhanced detail and sharpness over the prior art. Notably, Instruct 4D-to-4D is general and applicable to both monocular and challenging multi-camera scenes. Code and more results are available at immortalco.github.io/Instruct-4D-to-4D.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# Visual Sketchpad:マルチモーダル言語モデルのための思考の視覚的チェーンとしてのスケッチ

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models ( http://arxiv.org/abs/2406.09403v1 )

ライセンス: Link先を確認
Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna, (参考訳) 人間は推論を容易にするために、幾何学的問題を解決する際に補助線を描き、地図を推論する際に線をマークし、円を描き、スケッチを使ってアイデアを増幅し、限られた能力の作業記憶を緩和する。 しかし、そのような行動は現在のマルチモーダル言語モデル(LM)では欠落している。 現在のチェーン・オブ・シンクとツール・ユース・パラダイムは、中間的推論ステップとしてテキストのみを使用する。 本研究では,マルチモーダルLMにスケッチパッドを描画するためのビジュアルスケッチパッドとツールを提供するフレームワークであるSketchpadを紹介する。 LMは、描画した視覚的アーティファクトに従って、計画と推論を行います。 LMの描画を可能にするテキスト・ツー・イメージモデルを使用する以前の作業とは異なり、SketchpadはLMを人間のスケッチに近い線、ボックス、マークなどで描画し、推論を容易にする。 スケッチパッドはまた、スケッチ処理中に専門的な視覚モデル(例えば、オブジェクト検出モデルによる境界ボックスの描画、セグメンテーションモデルによるマスクの描画)を使用することで、視覚的知覚と推論をさらに強化することができる。 我々は、幾何学、関数、グラフ、チェスを含む幅広い数学タスクと複雑な視覚的推論タスクを実験した。 Sketchpadは、スケッチのない強力なベースモデルで全てのタスクのパフォーマンスを大幅に改善し、数学のタスクで平均12.7%、視覚タスクで平均8.6%向上した。 Sketchpad を使用した GPT-4o では、V*Bench (80.3%)、BLINK空間推論 (83.9%)、視覚対応 (80.8%) など、すべてのタスクに新たな最先端技術が設定されている。 すべてのコードとデータはhttps://visualsketchpad.github.io/にある。

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity working memory. However, such actions are missing in current multimodal language models (LMs). Current chain-of-thought and tool-use paradigms only use text as intermediate reasoning steps. In this work, we introduce Sketchpad, a framework that gives multimodal LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts planning and reasoning according to the visual artifacts it has drawn. Different from prior work, which uses text-to-image models to enable LMs to draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is closer to human sketching and better facilitates reasoning. Sketchpad can also use specialist vision models during the sketching process (e.g., draw bounding boxes with object detection models, draw masks with segmentation models), to further enhance visual perception and reasoning. We experiment with a wide range of math tasks (including geometry, functions, graphs, and chess) and complex visual reasoning tasks. Sketchpad substantially improves performance on all tasks over strong base models with no sketching, yielding an average gain of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in https://visualsketchpad.github.io/.
翻訳日:2024-06-14 16:06:12 公開日:2024-06-13
# ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing (特集:3D-Consistent)

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing ( http://arxiv.org/abs/2406.09404v1 )

ライセンス: Link先を確認
Jun-Kun Chen, Samuel Rota Bulò, Norman Müller, Lorenzo Porzi, Peter Kontschieder, Yu-Xiong Wang, (参考訳) 本稿では,3次元認識と3次元整合性を備えた2次元拡散モデルを実現する新しいフレームワークであるConsistDreamerを提案する。 2次元拡散モデルにおける3次元の整合性の欠如の根本的な限界を克服するために、我々の重要な洞察は、2次元拡散モデルの入力を3次元認識に拡張し、トレーニングプロセス中に3次元の整合性を明確に強制する3つの相乗的戦略を導入することである。 具体的には、2次元拡散モデルに対して周囲のビューをコンテキストリッチな入力として設計し、画像に依存しないノイズの代わりに3次元一貫性のある構造ノイズを生成する。 さらに、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。 広範に評価した結果,ScanNet++の複雑な屋内シーンにおいて,様々なシーンにわたる指導誘導シーンの編集や編集指導の最先端性能を実現し,シャープさやきめ細かなテクスチャを著しく改善した。 特にConsistDreamerは、複雑なパターン(例えば、格子/チェッカー)をうまく編集できる最初の作品である。 プロジェクトページはImmortalco.github.io/ConsistDreamerにあります。

This paper proposes ConsistDreamer - a novel framework that lifts 2D diffusion models with 3D awareness and 3D consistency, thus enabling high-fidelity instruction-guided scene editing. To overcome the fundamental limitation of missing 3D consistency in 2D diffusion models, our key insight is to introduce three synergetic strategies that augment the input of the 2D diffusion model to become 3D-aware and to explicitly enforce 3D consistency during the training process. Specifically, we design surrounding views as context-rich input for the 2D diffusion model, and generate 3D-consistent, structured noise instead of image-independent noise. Moreover, we introduce self-supervised consistency-enforcing training within the per-scene editing procedure. Extensive evaluation shows that our ConsistDreamer achieves state-of-the-art performance for instruction-guided scene editing across various scenes and editing instructions, particularly in complicated large-scale indoor scenes from ScanNet++, with significantly improved sharpness and fine-grained textures. Notably, ConsistDreamer stands as the first work capable of successfully editing complex (e.g., plaid/checkered) patterns. Our project page is at immortalco.github.io/ConsistDreamer.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# なぜ学習率を温めるのか : メカニズムと改善

Why Warmup the Learning Rate? Underlying Mechanisms and Improvements ( http://arxiv.org/abs/2406.09405v1 )

ライセンス: Link先を確認
Dayal Singh Kalra, Maissam Barkeshli, (参考訳) ディープラーニングでは、学習率を$\eta$、しばしば$\eta_{\text{init}} = 0$と所定のターゲットである$\eta_{\text{trgt}}$の間の線形スケジュールでウォームアップするのが一般的である。 本稿では、SGDとAdamを用いた系統的な実験を通して、ネットワークが損失ランドスケープのよりよく条件付けられた領域に強制されることで、ネットワークがより大きな$\eta_{\text{trgt}}$を許容することによるウォームアップの圧倒的な利点が生じることを示した。 より大きな$\eta_{\text{trgt}}$を扱う能力は、最終的なパフォーマンスを改善しながら、ハイパーパラメータチューニングをより堅牢にする。 ウォームアップ期間中に,初期化とパラメータ化に依存する急激なシャープニングまたはシャープネス低減フェーズでトレーニングを開始するかによって異なる操作条件を明らかにする。 これらの知見を用いて、損失カタパルト機構を利用して$\eta_{\text{init}}$を適切に選択する方法を示す。 我々はまた、ウォームアップと同様の利点を提供するAdamにおける分散の初期化を提案する。

It is common in deep learning to warm up the learning rate $\eta$, often by a linear schedule between $\eta_{\text{init}} = 0$ and a predetermined target $\eta_{\text{trgt}}$. In this paper, we show through systematic experiments using SGD and Adam that the overwhelming benefit of warmup arises from allowing the network to tolerate larger $\eta_{\text{trgt}}$ by forcing the network to more well-conditioned areas of the loss landscape. The ability to handle larger $\eta_{\text{trgt}}$ makes hyperparameter tuning more robust while improving the final performance. We uncover different regimes of operation during the warmup period, depending on whether training starts off in a progressive sharpening or sharpness reduction phase, which in turn depends on the initialization and parameterization. Using these insights, we show how $\eta_{\text{init}}$ can be properly chosen by utilizing the loss catapult mechanism, which saves on the number of warmup steps, in some cases completely eliminating the need for warmup. We also suggest an initialization for the variance in Adam which provides benefits similar to warmup.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 4M-21: タスクとモダリティの対話型ビジョンモデル

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities ( http://arxiv.org/abs/2406.09406v1 )

ライセンス: Link先を確認
Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir, (参考訳) 4MやUnifiedIOのような現在のマルチモーダルおよびマルチタスク基盤モデルは、有望な結果を示しているが、実際には、様々な入力を受け入れ、多様なタスクを実行する能力は、訓練対象のモダリティやタスクの数によって制限される。 本稿では,数十種類の多種多様なモダリティを単一モデルで学習し,大規模マルチモーダルデータセットとテキストコーパスで協調学習を行うことにより,それらの能力を拡張する。 この中には、DINOv2やImageBindのような最近の最先端モデルのフィーチャーマップ、SAMや4DHumansのようなスペシャリストモデルの擬似ラベル、モデルと対話し、画像メタデータやカラーパレットなどの生成を制御できる新しいモダリティなど、いくつかの意味的および幾何学的モダリティのトレーニングが含まれている。 このプロセスの重要なステップは、画像のような、ニューラルネットワークの特徴マップ、ベクトル、インスタンスのセグメンテーションや人間のポーズのような構造化されたデータ、あるいはテキストとして表現できるデータなど、さまざまなモダリティに対して離散的なトークン化を実行することだ。 これにより、マルチモーダルモデルのアウト・オブ・ボックス機能を拡張し、特に1つのモデルで既存のモデルよりも3倍以上のタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを行う可能性を示す。 これにより、よりきめ細かな制御可能なマルチモーダル生成が可能となり、多様なデータと目的に基づいて訓練されたモデルの蒸留を統一されたモデルに研究することができる。 数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。 得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。

Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 視覚状態空間モデルのロバスト性評価に向けて

Towards Evaluating the Robustness of Visual State Space Models ( http://arxiv.org/abs/2406.09407v1 )

ライセンス: Link先を確認
Hashmat Shadab Malik, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, Fahad Shahbaz Khan, Salman Khan, (参考訳) 視覚状態空間モデル(VSSM)は、リカレントニューラルネットワークと潜伏変数モデルの強みを組み合わせた新しいアーキテクチャであり、長距離依存を効率的にキャプチャし、複雑な視覚力学をモデル化することにより、視覚知覚タスクにおいて顕著なパフォーマンスを示した。 しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。 本稿では,オクルージョン,イメージ構造,共通汚職,敵対的攻撃など,様々な摂動シナリオ下でのVSSMの頑健さを包括的に評価し,その性能をトランスフォーマーや畳み込みニューラルネットワークなどの確立したアーキテクチャと比較する。 さらに、複雑な視覚シーンにおけるモデル性能をテストするために設計された高度なベンチマークにおいて、VSSMのオブジェクト指向合成変化に対するレジリエンスについて検討する。 また、実世界のシナリオを模倣した破損したデータセットを用いて、オブジェクトの検出とセグメンテーションタスクに対するロバスト性を評価する。 我々は,VSSMの対向的堅牢性をより深く理解するために,敵攻撃の周波数解析を行い,その性能を低周波・高周波摂動に対して評価する。 我々の研究は、複雑な視覚的汚職を扱うVSSMの長所と短所を強調し、将来の研究やこの将来性のある分野の改善に価値ある洞察を提供する。 私たちのコードとモデルはhttps://github.com/HashmatShadab/MambaRobustness.comで公開されます。

Vision State Space Models (VSSMs), a novel architecture that combines the strengths of recurrent neural networks and latent variable models, have demonstrated remarkable performance in visual perception tasks by efficiently capturing long-range dependencies and modeling complex visual dynamics. However, their robustness under natural and adversarial perturbations remains a critical concern. In this work, we present a comprehensive evaluation of VSSMs' robustness under various perturbation scenarios, including occlusions, image structure, common corruptions, and adversarial attacks, and compare their performance to well-established architectures such as transformers and Convolutional Neural Networks. Furthermore, we investigate the resilience of VSSMs to object-background compositional changes on sophisticated benchmarks designed to test model performance in complex visual scenes. We also assess their robustness on object detection and segmentation tasks using corrupted datasets that mimic real-world scenarios. To gain a deeper understanding of VSSMs' adversarial robustness, we conduct a frequency analysis of adversarial attacks, evaluating their performance against low-frequency and high-frequency perturbations. Our findings highlight the strengths and limitations of VSSMs in handling complex visual corruptions, offering valuable insights for future research and improvements in this promising field. Our code and models will be available at https://github.com/HashmatShadab/MambaRobustness.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 非学習型合成画像によるテキスト・画像モデルのデータの属性

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images ( http://arxiv.org/abs/2406.09408v1 )

ライセンス: Link先を確認
Sheng-Yu Wang, Aaron Hertzmann, Alexei A. Efros, Jun-Yan Zhu, Richard Zhang, (参考訳) テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。 ある出力に対して、その出力の最も影響力のあるイメージなしでモデルがゼロから再トレーニングされた場合、その出力画像の生成に失敗する、という「影響」を定義することができる。 残念ながら、これらの影響のある画像を直接検索することは、スクラッチから繰り返し再トレーニングする必要があるため、計算不可能である。 本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。 具体的には、合成画像の非学習をシミュレートし、他の無関係な概念を破滅的に忘れることなく、出力画像のトレーニング損失を増やす方法を提案する。 そして、プロキシによって忘れられたトレーニングイメージを見つけ、学習プロセス後に大きな損失偏差があるものを識別し、それらを影響力のあるものとしてラベル付けする。 計算量が多いが,スクラッチからの「ゴールドスタンダード」再トレーニングにより評価し,従来の手法に比べて,本手法の利点を実証した。

The goal of data attribution for text-to-image models is to identify the training images that most influence the generation of a new image. We can define "influence" by saying that, for a given output, if a model is retrained from scratch without that output's most influential images, the model should then fail to generate that output image. Unfortunately, directly searching for these influential images is computationally infeasible, since it would require repeatedly retraining from scratch. We propose a new approach that efficiently identifies highly-influential images. Specifically, we simulate unlearning the synthesized image, proposing a method to increase the training loss on the output image, without catastrophic forgetting of other, unrelated concepts. Then, we find training images that are forgotten by proxy, identifying ones with significant loss deviations after the unlearning process, and label these as influential. We evaluate our method with a computationally intensive but "gold-standard" retraining from scratch and demonstrate our method's advantages over previous methods.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# CodedEvents: イベントカメラを用いた3Dトラックのための最適ポイント・スプレッド・ファンクションエンジニアリング

CodedEvents: Optimal Point-Spread-Function Engineering for 3D-Tracking with Event Cameras ( http://arxiv.org/abs/2406.09409v1 )

ライセンス: Link先を確認
Sachin Shah, Matthew Albert Chan, Haoming Cai, Jingxi Chen, Sakshum Kulshrestha, Chahat Deep Singh, Yiannis Aloimonos, Christopher Metzler, (参考訳) ポイント・スプレッド・ファンクション(PSF)技術(英: Point-spread-function)は、位相マスクやその他の光学素子を用いて、従来のCMOSイメージセンサで捉えた画像に余分な情報(例えば深さ)を埋め込む、よく確立された計算イメージング技術である。 しかし、これまでPSFエンジニアリングは、光の対数強度の変化に対応する強力な画像センシング技術であるニューロモルフィックなイベントカメラには適用されなかった。 本稿では,PSF搭載イベントカメラによる3次元点位置定位と追跡に関する理論的限界(Cram\'er Rao bounds)を確立する。 これらの境界を用いて、既存のフィッシャー相マスクは、蛍光分子を点滅させる静的点源(例えば、点滅する蛍光分子)の局在化に既に最適であることを示す。 そして,既存の設計が移動点源の追跡に最適であることを示すとともに,この課題に最適な位相マスクと2値振幅マスクを設計するために我々の理論を利用する。 設計問題の非凸性を克服するために、位相と振幅マスクの暗黙的ニューラル表現に基づくパラメータ化を利用する。 広範囲なシミュレーションにより, 設計の有効性を実証する。 また,本手法を簡単なプロトタイプで検証する。

Point-spread-function (PSF) engineering is a well-established computational imaging technique that uses phase masks and other optical elements to embed extra information (e.g., depth) into the images captured by conventional CMOS image sensors. To date, however, PSF-engineering has not been applied to neuromorphic event cameras; a powerful new image sensing technology that responds to changes in the log-intensity of light. This paper establishes theoretical limits (Cram\'er Rao bounds) on 3D point localization and tracking with PSF-engineered event cameras. Using these bounds, we first demonstrate that existing Fisher phase masks are already near-optimal for localizing static flashing point sources (e.g., blinking fluorescent molecules). We then demonstrate that existing designs are sub-optimal for tracking moving point sources and proceed to use our theory to design optimal phase masks and binary amplitude masks for this task. To overcome the non-convexity of the design problem, we leverage novel implicit neural representation based parameterizations of the phase and amplitude masks. We demonstrate the efficacy of our designs through extensive simulations. We also validate our method with a simple prototype.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 大規模VHR衛星画像におけるシーングラフ生成:大規模データセットとコンテキスト認識アプローチ

Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach ( http://arxiv.org/abs/2406.09410v1 )

ライセンス: Link先を確認
Yansheng Li, Linlin Wang, Tingzhu Wang, Xue Yang, Junwei Luo, Qi Wang, Youming Deng, Wenbin Wang, Xian Sun, Haifeng Li, Bo Dang, Yongjun Zhang, Yi Yu, Junchi Yan, (参考訳) 衛星画像(SAI)におけるシーングラフ生成(SGG)は、認識から認識までの地理空間シナリオのインテリジェントな理解を促進する。 SAIでは、物体はスケールとアスペクト比に大きな変化を示し、(空間的に不連続な物体の間であっても)物体の間にリッチな関係があり、大容量超高分解能(VHR)SAIにおいてSGGを水平に行う必要がある。 しかし,大規模VHR SAIによるSGGデータセットの欠如は,SAIにおけるSGGの進歩を妨げている。 大規模VHR SAIの複雑さのため, 大規模VHR SAIにおけるマイニング三重項<subject, relationship, object>は長距離文脈推論に大きく依存している。 したがって、小型の自然画像用に設計されたSGGモデルは、大型のVHR SAIには直接適用されない。 画像サイズは512 x 768から27,860 x 31,096ピクセル(RSG)で,210,000点以上のオブジェクトと40,000点以上のトリプルを含む。 大規模VHR SAIにおいてSGGを実現するために、オブジェクト検出(OBD)、ペアプルーニング、関係予測という3つのレベルでSAIを理解する文脈認識カスケード認知(CAC)フレームワークを提案する。 大規模SAIにおけるSGGの基本的な前提条件として,マルチスケールコンテキストを柔軟に統合可能な総合的多クラスオブジェクト検出ネットワーク(HOD-Net)を提案する。 大規模SAIには多数のオブジェクトペアが存在するが、意味のある関係を持つオブジェクトペアは少数に限られているため、高値ペアを選択するために対提案生成(PPG)ネットワークを設計する。 さらに、これらのペアの関係型を予測するために、コンテキスト対応メッセージング(RPCM)を用いた関係予測ネットワークを提案する。

Scene graph generation (SGG) in satellite imagery (SAI) benefits promoting intelligent understanding of geospatial scenarios from perception to cognition. In SAI, objects exhibit great variations in scales and aspect ratios, and there exist rich relationships between objects (even between spatially disjoint objects), which makes it necessary to holistically conduct SGG in large-size very-high-resolution (VHR) SAI. However, the lack of SGG datasets with large-size VHR SAI has constrained the advancement of SGG in SAI. Due to the complexity of large-size VHR SAI, mining triplets <subject, relationship, object> in large-size VHR SAI heavily relies on long-range contextual reasoning. Consequently, SGG models designed for small-size natural imagery are not directly applicable to large-size VHR SAI. To address the scarcity of datasets, this paper constructs a large-scale dataset for SGG in large-size VHR SAI with image sizes ranging from 512 x 768 to 27,860 x 31,096 pixels, named RSG, encompassing over 210,000 objects and more than 400,000 triplets. To realize SGG in large-size VHR SAI, we propose a context-aware cascade cognition (CAC) framework to understand SAI at three levels: object detection (OBD), pair pruning and relationship prediction. As a fundamental prerequisite for SGG in large-size SAI, a holistic multi-class object detection network (HOD-Net) that can flexibly integrate multi-scale contexts is proposed. With the consideration that there exist a huge amount of object pairs in large-size SAI but only a minority of object pairs contain meaningful relationships, we design a pair proposal generation (PPG) network via adversarial reconstruction to select high-value pairs. Furthermore, a relationship prediction network with context-aware messaging (RPCM) is proposed to predict the relationship types of these pairs.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# MuirBench:ロバストなマルチイメージ理解のための総合ベンチマーク

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding ( http://arxiv.org/abs/2406.09411v1 )

ライセンス: Link先を確認
Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen, (参考訳) マルチモーダルLLMの堅牢なマルチイメージ理解機能に焦点を当てた総合ベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例:シーン理解、順序付け)で構成され、それは10のカテゴリのマルチイメージ関係(例:マルチビュー、時間的関係)を含んでいる。 11,264のイメージと2,600の多重選択質問を含むMuirBenchは、ペア方式で作成される。 その結果, GPT-4o や Gemini Pro などの高性能モデルでも MuirBench の精度は68.0% と 49.3% であることがわかった。 シングルイメージで訓練されたオープンソースのマルチモーダルLLMは、33.3%未満の精度で、マルチイメージの質問にほとんど一般化できない。 これらの結果は、コミュニティが単一のイメージを超えて見えるマルチモーダル LLM を開発することを奨励する上で、MuirBench の重要性を強調し、今後の改善の道筋を示唆している。

We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# Omni-modal Pretraining(Omni-modal Pretraining)の限界を探る

Explore the Limits of Omni-modal Pretraining at Scale ( http://arxiv.org/abs/2406.09412v1 )

ライセンス: Link先を確認
Yiyuan Zhang, Handong Li, Jing Liu, Xiangyu Yue, (参考訳) 我々は、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダルインテリジェンスを構築することを提案する。 具体的には,マルチモーダルコンテキスト(Multimodal Context,MiCo)と呼ばれる拡張性のある事前学習パラダイムを提案する。 MiCoでは、事前訓練されたモデルは、次のタスクで評価されるマルチモーダル学習において重要な創発的能力を示す。 一 10の異なるモダリティの単一モダリティ知覚ベンチマーク 二十五 検索、質問回答、キャプション及び横断的理解業務 三 マルチモーダル大言語モデルベンチマーク 18。 我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。 我々の研究がオムニ・モーダル・インテリジェンスの発展に寄与することを期待している。 Code and Models are at https://github.com/invictus717/MiCo

We propose to build omni-modal intelligence, which is capable of understanding any modality and learning universal representations. In specific, we propose a scalable pretraining paradigm, named Multimodal Context (MiCo), which can scale up the numbers of modalities and amount of data, together with the model parameters, in the pretraining process. With MiCo, the pretrained models show significant emergent abilities in multimodal learning, which are evaluated on the following tasks: i) single-modality perception benchmarks of 10 different modalities, ii) 25 cross-modality understanding tasks of retrieval, question-answering, captioning, and iii) 18 multimodal large language model benchmarks. Our models establish 37 new records for state-of-the-art performance. We hope that our research could contribute to the development of omni-modal intelligence. Code and Models are at https://github.com/invictus717/MiCo
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# カスタマイズ拡散モデルにおける重み空間の解釈

Interpreting the Weight Space of Customized Diffusion Models ( http://arxiv.org/abs/2406.09413v1 )

ライセンス: Link先を確認
Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman, (参考訳) 本研究では,多種多様な拡散モデルによる重みの空間について検討する。 私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。 これらの重みの基底多様体を部分空間としてモデル化し、重み2重みと呼ぶ。 我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。 まず、空間の各点が恒等式に対応するので、そこから重みの集合をサンプリングすると、新しい恒等式を符号化するモデルが得られる。 次に、この空間における線形方向は、アイデンティティのセマンティックな編集(例えば、ひげを加える)に対応する。 これらの編集は、生成されたサンプルにまたがって出現し続ける。 最後に、入力画像が分布外である場合でも、この空間に単一のイメージを反転させることで、現実的なアイデンティティが再構築されることを示す(例えば、絵画)。 この結果は、微調整拡散モデルの重み空間が、解釈可能な潜在性空間として振る舞うことを示唆している。

We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 深さV2

Depth Anything V2 ( http://arxiv.org/abs/2406.09414v1 )

ライセンス: Link先を確認
Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao, (参考訳) この研究は、Depth Anything V2を提示する。 先進的な手法を追求することなく、強力な単分子深度推定モデルを構築するための重要な発見を明らかにすることを目的としている。 特に、V1と比較すると、このバージョンは3つの重要なプラクティスを通じて、はるかに微細でより堅牢な深度予測を生成する。 1)全てのラベル付き実像を合成画像に置き換える。 2)教師モデルの容量を拡大し、 3)大規模擬似ラベル実画像の橋渡しによる学生モデル指導 Stable Diffusionで作られた最新のモデルと比較して、われわれのモデルははるかに効率が良く(10倍速い)、正確だ。 幅広いシナリオをサポートするため、さまざまなスケール(25Mから1.3Bのパラム)のモデルを提供しています。 その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。 我々のモデルに加えて、現在のテストセットにおける限られた多様性と頻繁なノイズを考慮して、正確なアノテーションと多様なシーンを用いた多目的評価ベンチマークを構築し、将来の研究を容易にする。

This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more robust depth predictions through three key practices: 1) replacing all labeled real images with synthetic images, 2) scaling up the capacity of our teacher model, and 3) teaching student models via the bridge of large-scale pseudo-labeled real images. Compared with the latest models built on Stable Diffusion, our models are significantly more efficient (more than 10x faster) and more accurate. We offer models of different scales (ranging from 25M to 1.3B params) to support extensive scenarios. Benefiting from their strong generalization capability, we fine-tune them with metric depth labels to obtain our metric depth models. In addition to our models, considering the limited diversity and frequent noise in current test sets, we construct a versatile evaluation benchmark with precise annotations and diverse scenes to facilitate future research.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 16x16パッチ以上の画像:個々のピクセルでトランスフォーマーを探索する

An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels ( http://arxiv.org/abs/2406.09415v1 )

ライセンス: Link先を確認
Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen, (参考訳) この仕事は新しい方法を導入しない。 その代わりに、現代のコンピュータビジョンアーキテクチャにおける帰納バイアス、すなわち局所性の必要性に疑問を呈する興味深い発見を提示します。 具体的には,各画素を直接トークンとして扱うことで,バニラ変換器を動作させることで,高い性能が得られることを示す。 これは、ConvNetsからローカル地区(例えば、16x16パッチをトークンとして扱うなど)への誘導バイアスを維持するVision Transformerの一般的な設計とは大きく異なる。 コンピュータビジョンにおける3つのよく研究された課題(オブジェクト分類のための教師付き学習、マスク付きオートエンコーディングによる自己教師付き学習、拡散モデルによる画像生成)にまたがる画素・アズ・トークンの有効性を主に示す。 個々のピクセルを直接操作することは、計算的にはあまり実践的ではありませんが、コンピュータビジョンのための次世代のニューラルネットワークを開発する際には、この驚くべき知識をコミュニティは認識しなければならないと考えています。

This work does not introduce a new method. Instead, we present an interesting finding that questions the necessity of the inductive bias -- locality in modern computer vision architectures. Concretely, we find that vanilla Transformers can operate by directly treating each individual pixel as a token and achieve highly performant results. This is substantially different from the popular design in Vision Transformer, which maintains the inductive bias from ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a token). We mainly showcase the effectiveness of pixels-as-tokens across three well-studied tasks in computer vision: supervised learning for object classification, self-supervised learning via masked autoencoding, and image generation with diffusion models. Although directly operating on individual pixels is less computationally practical, we believe the community must be aware of this surprising piece of knowledge when devising the next generation of neural architectures for computer vision.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 多解拡散モデルによる画像生成の歪み緩和

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models ( http://arxiv.org/abs/2406.09416v1 )

ライセンス: Link先を確認
Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen, (参考訳) 本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。 高忠実度画像生成における拡散モデルの有効性が注目されている。 従来のアプローチは畳み込みU-Netアーキテクチャに依存していたが、最近のTransformerベースの設計では性能とスケーラビリティが向上している。 しかし、入力データをトークン化するトランスフォーマーアーキテクチャは、トークン長に関する自己注意操作の二次的な性質のため、視覚的忠実度と計算複雑性のトレードオフに直面している。 パッチサイズが大きくなれば、注意力の計算効率が向上するが、細粒度の視覚的詳細を捉えるのに苦労し、画像の歪みを生じさせる。 この課題に対処するために,複数の解像度にまたがって機能を洗練し,低解像度から高解像度まで詳細を段階的に向上するフレームワークであるMulti-Resolution Network (DiMR)による拡散モデルの拡張を提案する。 さらに,時間依存型階層正規化(TD-LN)を導入し,時間依存型パラメータを階層正規化に組み込んで時間情報を注入し,優れた性能を実現する。 提案手法の有効性は,ImageNet 256 x 256,ImageNet 512 x 512では2.89,ImageNet 256 x 512では1.70,DMR-XL 変種が先行拡散モデルより優れていた。 プロジェクトページ:https://qihao067.github.io/projects/DiMR

This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via "patchification"), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method's efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# イメージ分布の橋渡しとしてのスコア蒸留の再考

Rethinking Score Distillation as a Bridge Between Image Distributions ( http://arxiv.org/abs/2406.09417v1 )

ライセンス: Link先を確認
David McAllister, Songwei Ge, Jia-Bin Huang, David W. Jacobs, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa, (参考訳) スコア蒸留サンプリング(SDS)は重要なツールとして証明されており、データ・プール領域で動作するタスクに大規模な拡散先行処理を使用することが可能である。 残念なことに、SDSは汎用アプリケーションにおいてその有用性を制限する多くの特徴的アーティファクトを持っている。 本稿では、ソース分布からターゲット分布への最適コスト輸送経路を解くものとして、SDSとその変種について理解を深める。 この新たな解釈の下で、これらの手法は、破損した画像(ソース)を自然画像分布(ターゲット)に転送する。 提案手法の特徴は,(1)最適経路の線形近似と(2)音源分布の貧弱な推定によって引き起こされていると論じる。 ソース分布のテキストコンディショニングを校正することで,オーバーヘッドの少ない高品質な生成および翻訳結果が得られることを示す。 本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。 テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。 本手法を既存の蒸留法と比較し,実色で高頻度の細部を生成可能であることを示す。

Score distillation sampling (SDS) has proven to be an important tool, enabling the use of large-scale diffusion priors for tasks operating in data-poor domains. Unfortunately, SDS has a number of characteristic artifacts that limit its usefulness in general-purpose applications. In this paper, we make progress toward understanding the behavior of SDS and its variants by viewing them as solving an optimal-cost transport path from a source distribution to a target distribution. Under this new interpretation, these methods seek to transport corrupted images (source) to the natural image distribution (target). We argue that current methods' characteristic artifacts are caused by (1) linear approximation of the optimal path and (2) poor estimates of the source distribution. We show that calibrating the text conditioning of the source distribution can produce high-quality generation and translation results with little extra overhead. Our method can be easily applied across many domains, matching or beating the performance of specialized methods. We demonstrate its utility in text-to-2D, text-based NeRF optimization, translating paintings to real images, optical illusion generation, and 3D sketch-to-real. We compare our method to existing approaches for score distillation sampling and show that it can produce high-frequency details with realistic colors.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# VideoGPT+: 画像とビデオエンコーダの統合によるビデオ理解の強化

VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding ( http://arxiv.org/abs/2406.09418v1 )

ライセンス: Link先を確認
Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Khan, (参考訳) 言語モデルの進歩に基づいて、LMM(Large Multimodal Models)は、ビデオ理解の大幅な改善に貢献している。 現在のビデオLMMは、高度なLarge Language Models (LLM) を使用しているが、視覚入力を処理するには画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。 画像エンコーダは、フレームシーケンスから豊富な空間的詳細を捉えるのが得意だが、複雑なアクションシーケンスを持つビデオでは重要な、明示的な時間的コンテキストが欠如している。 一方、ビデオエンコーダは時間的コンテキストを提供するが、低解像度のスパースフレームしか処理できない計算制約によって制限され、文脈的・空間的理解が減少する。 この目的のために,画像エンコーダとビデオエンコーダの相補的利点(詳細空間理解のための)を組み合わせたビデオGPT+(グローバル時空間モデリングのためのビデオエンコーダ)を導入する。 このモデルは、ビデオを小さなセグメントに分割して処理し、画像エンコーダとビデオエンコーダの両方で抽出された特徴に適応的なプーリング戦略を適用する。 本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。 さらに,新しい半自動アノテーションパイプラインを用いた112Kビデオインストラクションセットを開発し,モデルの性能をさらに向上させる。 さらに、ビデオLMMを包括的に評価するために、VCGBench-Diverseを紹介し、ライフスタイル、スポーツ、科学、ゲーム、監視ビデオなどの18の幅広いビデオカテゴリについて紹介する。 この4,354組の質問応答対によるベンチマークは、高密度ビデオキャプション、空間的および時間的理解、複雑な推論における既存のLMMの一般化を評価し、多様なビデオタイプやダイナミックスに対する包括的評価を保証する。 コード:https://github.com/mbzuai-oryx/VideoGPT-plus

Building on the advances of language models, Large Multimodal Models (LMMs) have contributed significant improvements in video understanding. While the current video LMMs utilize advanced Large Language Models (LLMs), they rely on either image or video encoders to process visual inputs, each of which has its own limitations. Image encoders excel at capturing rich spatial details from frame sequences but lack explicit temporal context, which can be important in videos with intricate action sequences. On the other hand, video encoders provide temporal context but are often limited by computational constraints that lead to processing only sparse frames at lower resolutions, resulting in reduced contextual and spatial understanding. To this end, we introduce VideoGPT+, which combines the complementary benefits of the image encoder (for detailed spatial understanding) and the video encoder (for global temporal context modeling). The model processes videos by dividing them into smaller segments and applies an adaptive pooling strategy on features extracted by both image and video encoders. Our architecture showcases improved performance across multiple video benchmarks, including VCGBench, MVBench and Zero-shot question-answering. Further, we develop 112K video-instruction set using a novel semi-automatic annotation pipeline which further improves the model performance. Additionally, to comprehensively evaluate video LMMs, we present VCGBench-Diverse, covering 18 broad video categories such as lifestyle, sports, science, gaming, and surveillance videos. This benchmark with 4,354 question-answer pairs evaluates the generalization of existing LMMs on dense video captioning, spatial and temporal understanding, and complex reasoning, ensuring comprehensive assessment across diverse video types and dynamics. Code: https://github.com/mbzuai-oryx/VideoGPT-plus.
翻訳日:2024-06-14 15:56:26 公開日:2024-06-13
# 光子数分解量子貯留層計算

Photon Number-Resolving Quantum Reservoir Computing ( http://arxiv.org/abs/2402.06339v3 )

ライセンス: Link先を確認
Sam Nerenberg, Oliver D. Neill, Giulia Marcucci, Daniele Faccio, (参考訳) ニューロモルフィックプロセッサは、物理人工ニューロンの実装を通じて機械学習アルゴリズムの効率を改善し、計算を行う。 しかし、効率的な古典的ニューロモルフィックプロセッサが様々な形で実証されている一方で、実用的な量子ニューロモルフィックプラットフォームはまだ開発の初期段階にある。 本稿では、光子数分解された出力状態の検出によって可能となるフォトニック量子貯水池計算のための固定光ネットワークを提案する。 これは、高次元ヒルベルト空間にアクセスしながら入力量子状態に必要な複雑さを著しく減少させる。 このアプローチは、現在利用可能なテクノロジで実装可能であり、量子機械学習への参入障壁を低くする。

Neuromorphic processors improve the efficiency of machine learning algorithms through the implementation of physical artificial neurons to perform computations. However, whilst efficient classical neuromorphic processors have been demonstrated in various forms, practical quantum neuromorphic platforms are still in the early stages of development. Here we propose a fixed optical network for photonic quantum reservoir computing that is enabled by photon number-resolved detection of the output states. This significantly reduces the required complexity of the input quantum states while still accessing a high-dimensional Hilbert space. The approach is implementable with currently available technology and lowers the barrier to entry to quantum machine learning.
翻訳日:2024-06-14 13:51:19 公開日:2024-06-13
# 未知目標に対する予測線形オンライントラッキング

Predictive Linear Online Tracking for Unknown Targets ( http://arxiv.org/abs/2402.10036v3 )

ライセンス: Link先を確認
Anastasios Tsiamis, Aren Karapetyan, Yueshan Li, Efe C. Balta, John Lygeros, (参考訳) 本稿では,リニア制御システムにおけるオンライントラッキングの問題について検討する。 古典的追跡制御とは異なり、ターゲットは非定常的であり、その状態は順次明らかにされ、オンラインの非確率的制御の枠組みに適合する。 本稿では,2次コストの場合を考慮し,予測線形オンライントラッキング(PLOT)と呼ばれる新しいアルゴリズムを提案する。 このアルゴリズムは、指数的忘れを伴う再帰最小二乗を用いて、ターゲットの時間変化動的モデルを学ぶ。 学習モデルは、後退水平制御の枠組みの下で最適な政策で使用される。 PLOTスケールの動的後悔を$\mathcal{O}(\sqrt{TV_T})$で示します。 これまでの研究とは違って、理論的な結果は非定常目標に当てはまる。 PLOTを実機に実装し,オープンソースソフトウェアを提供することにより,実機上でのオンライン制御手法の最初の成功例の1つを示す。

In this paper, we study the problem of online tracking in linear control systems, where the objective is to follow a moving target. Unlike classical tracking control, the target is unknown, non-stationary, and its state is revealed sequentially, thus, fitting the framework of online non-stochastic control. We consider the case of quadratic costs and propose a new algorithm, called predictive linear online tracking (PLOT). The algorithm uses recursive least squares with exponential forgetting to learn a time-varying dynamic model of the target. The learned model is used in the optimal policy under the framework of receding horizon control. We show the dynamic regret of PLOT scales with $\mathcal{O}(\sqrt{TV_T})$, where $V_T$ is the total variation of the target dynamics and $T$ is the time horizon. Unlike prior work, our theoretical results hold for non-stationary targets. We implement PLOT on a real quadrotor and provide open-source software, thus, showcasing one of the first successful applications of online control methods on real hardware.
翻訳日:2024-06-14 13:51:18 公開日:2024-06-13
# 密度行列ベクトル化による無条件デコヒーレンスフリー量子誤差緩和

Unconditionally decoherence-free quantum error mitigation by density matrix vectorization ( http://arxiv.org/abs/2405.07592v3 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Cai-Sheng Cheng, (参考訳) NISQデバイスが実用的な量子応用を実証するためには、ノイズに対する闘いが不可欠である。 本研究では,密度行列のベクトル化に基づく量子誤差緩和の新しいパラダイムを提案する。 ノイズのない情報をノイズの多い量子状態から抽出しようとする既存の量子誤差緩和法とは異なり,本提案では,ノイズの多い量子状態の密度行列をノイズのない純粋状態に直接変換する。 我々のプロトコルは、ノイズモデルに関する知識、ノイズ強度を調整する能力、複雑な制御ユニタリのためのアンシラキュービットを必要としない。 我々のエンコーディングでは、NISQデバイスは、多くのタスクにおいて優れたパフォーマンスを持つように、変分量子アルゴリズムに非常に望ましいリソースである純粋量子状態を準備している。 我々は、このプロトコルを変分量子アルゴリズムにどのように適合させるかを示す。 本提案に適合するいくつかの具体的なアンザッツ構造を提示し,サンプリング複雑性,表現性,訓練性に関する理論的解析を行った。 また、このプロトコルが大きなノイズの影響や、他の量子エラー軽減プロトコルとどのようにうまく組み合わせられるかについても論じる。 本提案の有効性は, 種々の数値実験により実証された。

Fighting against noise is crucial for NISQ devices to demonstrate practical quantum applications. In this work, we give a new paradigm of quantum error mitigation based on the vectorization of density matrices. Different from the ideas of existing quantum error mitigation methods that try to distill noiseless information from noisy quantum states, our proposal directly changes the way of encoding information and maps the density matrices of noisy quantum states to noiseless pure states, which is realized by a novel and NISQ-friendly measurement protocol and a classical post-processing procedure. Our protocol requires no knowledge of the noise model, no ability to tune the noise strength, and no ancilla qubits for complicated controlled unitaries. Under our encoding, NISQ devices are always preparing pure quantum states which are highly desired resources for variational quantum algorithms to have good performance in many tasks. We show how this protocol can be well-fitted into variational quantum algorithms. We give several concrete ansatz constructions that are suitable for our proposal and do theoretical analysis on the sampling complexity, the expressibility, and the trainability. We also give a discussion on how this protocol is influenced by large noise and how it can be well combined with other quantum error mitigation protocols. The effectiveness of our proposal is demonstrated by various numerical experiments.
翻訳日:2024-06-14 13:51:18 公開日:2024-06-13
# Xmodel-LM技術報告

Xmodel-LM Technical Report ( http://arxiv.org/abs/2406.02856v3 )

ライセンス: Link先を確認
Yichuan Wang, Yang Liu, Yu Yan, Qun Wang, Shulei Wu, Xucheng Huang, Ling Jiang, (参考訳) 約2兆個のトークンで事前トレーニングした,コンパクトで効率的な1.1B言語モデルであるXmodel-LMを紹介する。 ダウンストリームタスク最適化に基づいて、中国語と英語のコーパスのバランスをとる自己構築データセット(Xdata)に基づいて、Xmodel-LMは、そのサイズが小さいにもかかわらず、顕著なパフォーマンスを示す。 特に、同様の規模の既存のオープンソース言語モデルを上回っている。 私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelLMで公開されています。

We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on around 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM.
翻訳日:2024-06-14 13:51:18 公開日:2024-06-13
# 大規模分類を用いたマルチラベル要求分類

Multi-Label Requirements Classification with Large Taxonomies ( http://arxiv.org/abs/2406.04797v2 )

ライセンス: Link先を確認
Waleed Abdeen, Michael Unterkalmsteiner, Krzysztof Wnuk, Alexandros Chirtoglou, Christoph Schimanski, Heja Goli, (参考訳) 分類は、アクセスと検索を容易にするためにクラス内の要求を整理することで、ソフトウェア開発活動を支援する。 要求分類研究の大部分は、これまでのところバイナリ分類やマルチクラス分類に重点を置いている。 大きく分類された多ラベル分類は、要求のトレーサビリティを助長するが、教師付きトレーニングでは違法にコストがかかる。 そこで本研究では,ゼロショート学習を用いて,大規模分類を用いたマルチラベル要求分類の実現可能性について検討する。 業界の専門家らとともに,250~1183の分類群から769のラベルを持つ129の要件について検討した。 そこで,分類器の種類,階層構造,分類特性が分類性能に及ぼす影響について検討した。 その結果,(1) 文ベース分類器は単語ベース分類器に比べて有意に高いリコール率を示したが,精度とF1スコアは改善しなかった。 2)階層的分類戦略は要求分類の性能を必ずしも改善しなかった。 (3) 分類学の総ノードと葉ノードは,階層型文ベース分類器のリコールと負の相関が強い。 本研究では,大規模な分類学による多言語要件分類の問題について検討し,業界参加者による根本的真理の体系的プロセスを示し,ゼロショット学習を用いた異なる分類パイプラインの分析を行った。

Classification aids software development activities by organizing requirements in classes for easier access and retrieval. The majority of requirements classification research has, so far, focused on binary or multi-class classification. Multi-label classification with large taxonomies could aid requirements traceability but is prohibitively costly with supervised training. Hence, we investigate zero-short learning to evaluate the feasibility of multi-label requirements classification with large taxonomies. We associated, together with domain experts from the industry, 129 requirements with 769 labels from taxonomies ranging between 250 and 1183 classes. Then, we conducted a controlled experiment to study the impact of the type of classifier, the hierarchy, and the structural characteristics of taxonomies on the classification performance. The results show that: (1) The sentence-based classifier had a significantly higher recall compared to the word-based classifier; however, the precision and F1-score did not improve significantly. (2) The hierarchical classification strategy did not always improve the performance of requirements classification. (3) The total and leaf nodes of the taxonomies have a strong negative correlation with the recall of the hierarchical sentence-based classifier. We investigate the problem of multi-label requirements classification with large taxonomies, illustrate a systematic process to create a ground truth involving industry participants, and provide an analysis of different classification pipelines using zero-shot learning.
翻訳日:2024-06-14 13:51:18 公開日:2024-06-13
# アライメントとジェイルブレイクの仕組み: 中間的隠蔽状態によるLCMの安全性の説明

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States ( http://arxiv.org/abs/2406.05644v2 )

ライセンス: Link先を確認
Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Yongbin Li, (参考訳) 大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。 残念なことに、ジェイルブレイクは安全ガードレールを回避できるため、LSMは有害なコンテンツを生成し、LSMの安全性に対する懸念を高めることになる。 しばしばブラックボックスと見なされる言語モデルのため、アライメントとジェイルブレイクのメカニズムは解明が難しい。 本稿では,LLMの安全性を中間隠蔽状態を通して説明するために弱い分類器を用いる。 まず、LCMがアライメントではなく事前学習中に倫理的概念を学習し、初期層における悪意のある入力と正常な入力を識別できることを確認した。 アライメントは、初期の概念と中層における感情の推測を関連付け、安全な世代のために特定の拒否トークンに洗練します。 脱獄は初期の非倫理的な分類から否定的な感情への転換を妨げている。 7Bから70Bまでのモデルに対して,様々なモデルファミリで実験を行い,その結論を実証した。 本稿は, LLMの安全性の本質的なメカニズムと, ジェイルブレイクによる安全ガードレールの回避方法を示し, LLMの安全性と懸念軽減の新たな視点を提供する。 私たちのコードはhttps://github.com/ydyjya/LLM-IHS-Explanationで公開しています。

Large language models (LLMs) rely on safety alignment to avoid responding to malicious user inputs. Unfortunately, jailbreak can circumvent safety guardrails, resulting in LLMs generating harmful content and raising concerns about LLM safety. Due to language models with intensive parameters often regarded as black boxes, the mechanisms of alignment and jailbreak are challenging to elucidate. In this paper, we employ weak classifiers to explain LLM safety through the intermediate hidden states. We first confirm that LLMs learn ethical concepts during pre-training rather than alignment and can identify malicious and normal inputs in the early layers. Alignment actually associates the early concepts with emotion guesses in the middle layers and then refines them to the specific reject tokens for safe generations. Jailbreak disturbs the transformation of early unethical classification into negative emotions. We conduct experiments on models from 7B to 70B across various model families to prove our conclusion. Overall, our paper indicates the intrinsical mechanism of LLM safety and how jailbreaks circumvent safety guardrails, offering a new perspective on LLM safety and reducing concerns. Our code is available at https://github.com/ydyjya/LLM-IHS-Explanation.
翻訳日:2024-06-14 13:51:18 公開日:2024-06-13
# 言語モデルのアライメント

Language Models Resist Alignment ( http://arxiv.org/abs/2406.06144v2 )

ライセンス: Link先を確認
Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Yaodong Yang, (参考訳) 大きな言語モデル(LLM)は望ましくない振る舞いを示す。 近年の取り組みは、有害な発生を防ぐためにこれらのモデルを調整することに重点を置いている。 これらの努力にもかかわらず、よく導かれたアライメントプロセスでさえ、意図的であろうと誤っても容易に回避できることが研究によって示されている。 アライメント微調整はモデルに堅牢な影響をもたらすのか、それとも単に表面的なものなのか? 本研究では, 理論的および経験的両手段を用いて, この疑問に答える。 実験により, 後配向モデルの弾力性, すなわち, 更なる微調整を行う前に, 事前学習時に生じる挙動分布に逆戻りする傾向を示す。 圧縮理論を用いて、このような微調整プロセスが、事前学習と比較して、おそらくは桁違いの順序でアライメントを損なうことを正式に導いた。 様々な種類や大きさのモデルにまたがって弾性が存在することを確認するための実験的な検証を行う。 具体的には, モデル性能はトレーニング前の分布に戻る前に急速に低下し, その後の低下率は著しく低下することがわかった。 さらに, モデルサイズの増加と事前学習データの拡張と, 弾性が正の相関関係があることを明らかにした。 我々の発見は, LLMの固有弾性性を活用することの重要性を示唆し, LLMのアライメント微調整に対する耐性を克服するものである。

Large language models (LLMs) may exhibit undesirable behaviors. Recent efforts have focused on aligning these models to prevent harmful generation. Despite these efforts, studies have shown that even a well-conducted alignment process can be easily circumvented, whether intentionally or accidentally. Do alignment fine-tuning have robust effects on models, or are merely superficial? In this work, we answer this question through both theoretical and empirical means. Empirically, we demonstrate the elasticity of post-alignment models, i.e., the tendency to revert to the behavior distribution formed during the pre-training phase upon further fine-tuning. Using compression theory, we formally derive that such fine-tuning process disproportionately undermines alignment compared to pre-training, potentially by orders of magnitude. We conduct experimental validations to confirm the presence of elasticity across models of varying types and sizes. Specifically, we find that model performance declines rapidly before reverting to the pre-training distribution, after which the rate of decline drops significantly. We further reveal that elasticity positively correlates with increased model size and the expansion of pre-training data. Our discovery signifies the importance of taming the inherent elasticity of LLMs, thereby overcoming the resistance of LLMs to alignment finetuning.
翻訳日:2024-06-14 13:51:18 公開日:2024-06-13
# Fermi-Hubbardモデルを用いた強相関系の耐故障性シミュレーションの定量化

Quantifying fault tolerant simulation of strongly correlated systems using the Fermi-Hubbard model ( http://arxiv.org/abs/2406.06511v2 )

ライセンス: Link先を確認
Anjali A. Agrawal, Joshua Job, Tyler L. Wilson, S. N. Saadatmand, Mark J. Hodson, Josh Y. Mutus, Athena Caesura, Peter D. Johnson, Justin E. Elenewski, Kaitlyn J. Morrell, Alexander F. Kemper, (参考訳) 強い相関を持つ物質の物理学を理解することは、今日の物理学の大きな課題の1つである。 高いT_c$超伝導体からスピン液体まで、多くの科学的に興味深い物質が中性から強い相関関係を持ち、これらの物質を総合的に理解することは非常に重要である。 運動エネルギーとクーロン反発の競合によって妨げられ、相互作用する物質を記述するのに不十分な解析的手法と数値的手法の両方が引き起こされる。 フォールトトレラントな量子コンピュータはこれらの困難を克服するための道として提案されているが、この潜在的な能力はまだ十分に評価されていない。 本稿では,多軌道モデルであるFermi-Hubbardモデルを代表モデルおよび拡張性のある問題仕様の情報源として利用し,相関関数推定などの実験的な量の取得にフォールトトレラント量子コンピュータを使用するために必要な資源コストを推定する。 量子アルゴリズムとハードウェアの進歩は、量子資源を減らし、実用規模の問題インスタンスに対処するために必要となる。

Understanding the physics of strongly correlated materials is one of the grand challenge problems for physics today. A large class of scientifically interesting materials, from high-$T_c$ superconductors to spin liquids, involve medium to strong correlations, and building a holistic understanding of these materials is critical. Doing so is hindered by the competition between the kinetic energy and Coulomb repulsion, which renders both analytic and numerical methods unsatisfactory for describing interacting materials. Fault-tolerant quantum computers have been proposed as a path forward to overcome these difficulties, but this potential capability has not yet been fully assessed. Here, using the multi-orbital Fermi-Hubbard model as a representative model and a source of scalable problem specifications, we estimate the resource costs needed to use fault-tolerant quantum computers for obtaining experimentally relevant quantities such as correlation function estimation. We find that advances in quantum algorithms and hardware will be needed in order to reduce quantum resources and feasibly address utility-scale problem instances.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# ASTRA: サンプリングなしのアサーのための音声とテキスト表現のアライメント

ASTRA: Aligning Speech and Text Representations for Asr without Sampling ( http://arxiv.org/abs/2406.06664v2 )

ライセンス: Link先を確認
Neeraj Gaur, Rohan Agrawal, Gary Wang, Parisa Haghani, Andrew Rosenberg, Bhuvana Ramabhadran, (参考訳) 本稿では,テキスト注入による音声認識(ASR)の改良手法であるASTRAを紹介する。 代わりに、CTC/RNNTモデルで学んだ固有のアライメントを活用する。 このアプローチは、アップサンプリングから生じる可能性のある音声とテキストの特徴の潜在的な不一致を回避し、サブワードトークンの期間を正確に予測するモデルの必要性を排除し、以下の2つの利点を提供する。 重み付けされたRNNTの目的とするモダリティ(長さ)マッチングの新規な定式化は、FLEURSベンチマークにおける最先端の持続時間に基づく手法の性能と一致し、音声処理における他の研究の道を開く。

This paper introduces ASTRA, a novel method for improving Automatic Speech Recognition (ASR) through text injection.Unlike prevailing techniques, ASTRA eliminates the need for sampling to match sequence lengths between speech and text modalities. Instead, it leverages the inherent alignments learned within CTC/RNNT models. This approach offers the following two advantages, namely, avoiding potential misalignment between speech and text features that could arise from upsampling and eliminating the need for models to accurately predict duration of sub-word tokens. This novel formulation of modality (length) matching as a weighted RNNT objective matches the performance of the state-of-the-art duration-based methods on the FLEURS benchmark, while opening up other avenues of research in speech processing.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# 大規模言語モデルに対するバックドア攻撃と防衛に関する調査:セキュリティ対策の意義

A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures ( http://arxiv.org/abs/2406.06852v2 )

ライセンス: Link先を確認
Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan, (参考訳) 人間の言語理解と複雑な問題解決のギャップを埋める大きな言語モデル(LLM)は、いくつかのNLPタスク、特にショットやゼロショットの設定において最先端のパフォーマンスを達成する。 LMMの実証可能な有効性にもかかわらず、計算リソースの制約のため、ユーザはオープンソースの言語モデルに関わり、トレーニングプロセス全体をサードパーティのプラットフォームにアウトソースする必要がある。 しかし、研究は言語モデルが潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。 バックドア攻撃は、トレーニングサンプルやモデルウェイトを悪用することにより、ターゲットとする脆弱性を言語モデルに導入し、悪意のあるトリガーを通じてモデル応答を操作できるようにするように設計されている。 バックドア攻撃に関する既存の調査は包括的概要を提供するが、LDMを対象とするバックドア攻撃の詳細な調査は欠如している。 本稿では,このギャップを埋め,現場の最新動向を把握するために,微調整手法に着目して,LSMのバックドア攻撃に対する新たな視点を示す。 具体的には,バックドア攻撃を全パラメータ細調整,パラメータ効率のよい微調整,微調整のない攻撃の3つのカテゴリに分類する。 大規模なレビューから得られた知見に基づき、より詳細なチューニングを必要としない攻撃アルゴリズムの探索や、より隠蔽的な攻撃アルゴリズムの開発など、バックドア攻撃に関する今後の研究における重要な課題についても論じる。

The large language models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several NLP tasks, particularly in few-shot and zero-shot settings. Despite the demonstrable efficacy of LMMs, due to constraints on computational resources, users have to engage with open-source language models or outsource the entire training process to third-party platforms. However, research has demonstrated that language models are susceptible to potential security vulnerabilities, particularly in backdoor attacks. Backdoor attacks are designed to introduce targeted vulnerabilities into language models by poisoning training samples or model weights, allowing attackers to manipulate model responses through malicious triggers. While existing surveys on backdoor attacks provide a comprehensive overview, they lack an in-depth examination of backdoor attacks specifically targeting LLMs. To bridge this gap and grasp the latest trends in the field, this paper presents a novel perspective on backdoor attacks for LLMs by focusing on fine-tuning methods. Specifically, we systematically classify backdoor attacks into three categories: full-parameter fine-tuning, parameter-efficient fine-tuning, and attacks without fine-tuning. Based on insights from a substantial review, we also discuss crucial issues for future research on backdoor attacks, such as further exploring attack algorithms that do not require fine-tuning, or developing more covert attack algorithms.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# ロバストステレオマッチングのためのステップワイズ回帰と事前訓練エッジ

Stepwise Regression and Pre-trained Edge for Robust Stereo Matching ( http://arxiv.org/abs/2406.06953v2 )

ライセンス: Link先を確認
Weiqing Xiao, Wei Zhao, (参考訳) 実検体と地上の真理を得るのが難しいため、実世界のアプリケーションにおけるステレオマッチング手法の実現には、一般化性能と微調整性能が不可欠である。 しかし、異なるデータセット間での実質的な格差分布と密度の変動の存在は、モデルの一般化と微調整に重大な課題をもたらす。 本稿では, SR-Stereoと呼ばれる新しいステレオマッチング手法を提案する。この手法は, 差分クリップの予測により, 異なるデータセット間の分布差を緩和し, 差分クリップの精度を向上させるために, 回帰目標スケールに関連する損失重みを用いる。 さらに、この段階的な回帰アーキテクチャは、構造を変更することなく、既存のイテレーションベースのメソッドに容易に拡張でき、パフォーマンスを向上させることができる。 さらに, 未熟な土台真実に基づく微調整モデルのエッジぼかしを軽減するために, 事前学習エッジに基づくドメイン適応を提案する。 具体的には、予測不一致とRGB画像を用いて、対象領域画像のエッジマップを推定する。 エッジマップをフィルタリングしてエッジマップ背景の擬似ラベルを生成し、対象領域におけるスパース基底の真相の相違とともに、事前訓練されたステレオマッチングモデルを協調的に微調整する監督を行う。 これらの手法は,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。 SR-Stereoは、競争格差推定性能と最先端のクロスドメイン一般化性能を達成する。 一方,DAPEは,特にテクスチャレス領域とディテール領域において,微調整モデルの分散度推定性能を著しく向上させる。

Due to the difficulty in obtaining real samples and ground truth, the generalization performance and the fine-tuned performance are critical for the feasibility of stereo matching methods in real-world applications. However, the presence of substantial disparity distributions and density variations across different datasets presents significant challenges for the generalization and fine-tuning of the model. In this paper, we propose a novel stereo matching method, called SR-Stereo, which mitigates the distributional differences across different datasets by predicting the disparity clips and uses a loss weight related to the regression target scale to improve the accuracy of the disparity clips. Moreover, this stepwise regression architecture can be easily extended to existing iteration-based methods to improve the performance without changing the structure. In addition, to mitigate the edge blurring of the fine-tuned model on sparse ground truth, we propose Domain Adaptation Based on Pre-trained Edges (DAPE). Specifically, we use the predicted disparity and RGB image to estimate the edge map of the target domain image. The edge map is filtered to generate edge map background pseudo-labels, which together with the sparse ground truth disparity on the target domain are used as a supervision to jointly fine-tune the pre-trained stereo matching model. These proposed methods are extensively evaluated on SceneFlow, KITTI, Middbury 2014 and ETH3D. The SR-Stereo achieves competitive disparity estimation performance and state-of-the-art cross-domain generalisation performance. Meanwhile, the proposed DAPE significantly improves the disparity estimation performance of fine-tuned models, especially in the textureless and detail regions.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# 深層強化学習に基づく車両インターネットにおけるセマンティック・アウェアスペクトル共有

Semantic-Aware Spectrum Sharing in Internet of Vehicles Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2406.07213v2 )

ライセンス: Link先を確認
Zhiyu Shao, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief, (参考訳) 本研究の目的は、車両間通信(V2V)と車両間通信(V2I)のスペクトル共有に着目し、高速移動体インターネット(IoV)環境における意味コミュニケーションを検討することである。 本稿では、スペクトル不足とネットワークトラフィックに対処し、深部強化学習(DRL)に基づく意味認識スペクトル共有アルゴリズム(SSS)を提案する。 まず,意味情報の抽出について検討する。 第二に、IoV環境でのV2VとV2Iのスペクトル共有における意味情報のメトリクスを再定義し、高速な意味スペクトル効率(HSSE)と意味伝達率(HSR)を導入する。 最後に、意味情報に基づくV2VおよびV2Iスペクトル共有における決定最適化にSACアルゴリズムを用いる。 この最適化は、V2VとV2Iの共有戦略の最適リンク、V2VのHSSEを最大化し、V2Vの効果的な意味情報伝達(SRS)の成功率を高めることを目的として、セマンティック情報を送信する車両の送信パワーと送信セマンティックシンボルの長さを含む。 実験の結果,SSSアルゴリズムは,従来の通信方式のスペクトル共有アルゴリズムや,他の強化学習手法を用いたスペクトル共有アルゴリズムなど,他のベースラインアルゴリズムよりも優れていた。 SSSアルゴリズムは、HSSEの15%増加、SRSの約7%増加を示す。

This work aims to investigate semantic communication in high-speed mobile Internet of vehicles (IoV) environments, with a focus on the spectrum sharing between vehicle-to-vehicle (V2V) and vehicle-to-infrastructure (V2I) communications. We specifically address spectrum scarcity and network traffic and then propose a semantic-aware spectrum sharing algorithm (SSS) based on the deep reinforcement learning (DRL) soft actor-critic (SAC) approach. Firstly, we delve into the extraction of semantic information. Secondly, we redefine metrics for semantic information in V2V and V2I spectrum sharing in IoV environments, introducing high-speed semantic spectrum efficiency (HSSE) and semantic transmission rate (HSR). Finally, we employ the SAC algorithm for decision optimization in V2V and V2I spectrum sharing based on semantic information. This optimization encompasses the optimal link of V2V and V2I sharing strategies, the transmission power for vehicles sending semantic information and the length of transmitted semantic symbols, aiming at maximizing HSSE of V2I and enhancing success rate of effective semantic information transmission (SRS) of V2V. Experimental results demonstrate that the SSS algorithm outperforms other baseline algorithms, including other traditional-communication-based spectrum sharing algorithms and spectrum sharing algorithm using other reinforcement learning approaches. The SSS algorithm exhibits a 15% increase in HSSE and approximately a 7% increase in SRS.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# OphNet:眼科手術ワークフロー理解のための大規模ビデオベンチマーク

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding ( http://arxiv.org/abs/2406.07471v3 )

ライセンス: Link先を確認
Ming Hu, Peng Xia, Lin Wang, Siyuan Yan, Feilong Tang, Zhongxing Xu, Yimin Luo, Kaimin Song, Jurgen Leitner, Xuelian Cheng, Jun Cheng, Chi Liu, Kaijing Zhou, Zongyuan Ge, (参考訳) ビデオによる手術シーンの認識は、ロボット手術、遠隔手術、AI支援手術、特に眼科において重要である。 しかし、多種多様な注釈付きビデオデータセットの不足は、外科的ワークフロー分析のためのインテリジェントシステムの開発を妨げている。 手術ワークフロー分析のための既存のデータセットは、通常、小さなスケール、手術やフェーズカテゴリーの多様性の欠如、時間的局所的なアノテーションの欠如といった課題に直面し、複雑で多様な実世界の手術シナリオにおける行動理解とモデル一般化の検証の要件を制限している。 このギャップに対処するため,眼科手術ワークフロー理解のための大規模,専門家によるビデオベンチマークであるOphNetを紹介した。 OphNetの機能: 1)白内障,緑内障,角膜手術を対象とする2,278本の多彩な手術ビデオ集。 2) 手術,フェーズ,手術ごとに連続的かつ階層的なアノテーションを提供し,包括的理解と解釈性の向上を可能にする。 3)OphNetは時間的局所化アノテーションを提供し,外科的ワークフロー内での時間的局所化と予測作業を容易にする。 OphNetの手術用ビデオは約205時間で、既存の最大の外科用ワークフロー分析ベンチマークの約20倍の大きさだ。 我々のデータセットとコードは、以下の通り利用可能になった。

Surgical scene perception via videos are critical for advancing robotic surgery, telesurgery, and AI-assisted surgery, particularly in ophthalmology. However, the scarcity of diverse and richly annotated video datasets has hindered the development of intelligent systems for surgical workflow analysis. Existing datasets for surgical workflow analysis, which typically face challenges such as small scale, a lack of diversity in surgery and phase categories, and the absence of time-localized annotations, limit the requirements for action understanding and model generalization validation in complex and diverse real-world surgical scenarios. To address this gap, we introduce OphNet, a large-scale, expert-annotated video benchmark for ophthalmic surgical workflow understanding. OphNet features: 1) A diverse collection of 2,278 surgical videos spanning 66 types of cataract, glaucoma, and corneal surgeries, with detailed annotations for 102 unique surgical phases and 150 granular operations; 2) It offers sequential and hierarchical annotations for each surgery, phase, and operation, enabling comprehensive understanding and improved interpretability; 3) Moreover, OphNet provides time-localized annotations, facilitating temporal localization and prediction tasks within surgical workflows. With approximately 205 hours of surgical videos, OphNet is about 20 times larger than the largest existing surgical workflow analysis benchmark. Our dataset and code have been made available at: \url{https://github.com/minghu0830/OphNet-benchmark}.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# MLLMGuard:マルチモーダル大言語モデルのための多次元安全評価スイート

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models ( http://arxiv.org/abs/2406.07594v2 )

ライセンス: Link先を確認
Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang, (参考訳) LLM(Large Language Models)やMLLM(Multimodal Large Language Models)の顕著な進歩によって、多様体のタスクにおける印象的な能力が示される。 しかし、MLLMの実践的な応用シナリオは複雑であり、悪意のある命令に晒され、それによって安全性のリスクが生じる。 現在のベンチマークには特定の安全性の考慮事項が含まれているが、包括的なカバレッジが欠如しており、必要な厳密さと堅牢性を示すことができないことが多い。 例えば、評価対象と評価対象のモデルの両方にGPT-4Vを用いるという一般的な実践は、自分自身の反応に偏りを示す傾向があるため、信頼性に欠ける。 本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardについて述べる。 MLLMGuardの評価は、2つの言語(英語と中国語)と5つの重要な安全次元(Privacy, Bias, Toxicity, Truthfulness, Legality)を包括的にカバーしている。 これらの次元に着目して、評価データセットは主にソーシャルメディアなどのプラットフォームから作成されており、テキストベースおよび画像ベースのレッドチーム技術と、人間の専門家による巧妙なアノテーションを統合している。 これにより、オープンソースのデータセットを使用する際のデータ漏洩による不正確な評価が防止され、ベンチマークの品質と課題の性質が保証される。 さらに、完全に自動化された軽量評価器であるGuardRankが開発され、GPT-4よりも高い評価精度を実現している。 13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。

Powered by remarkable advancements in Large Language Models (LLMs), Multimodal Large Language Models (MLLMs) demonstrate impressive capabilities in manifold tasks. However, the practical application scenarios of MLLMs are intricate, exposing them to potential malicious instructions and thereby posing safety risks. While current benchmarks do incorporate certain safety considerations, they often lack comprehensive coverage and fail to exhibit the necessary rigor and robustness. For instance, the common practice of employing GPT-4V as both the evaluator and a model to be evaluated lacks credibility, as it tends to exhibit a bias toward its own responses. In this paper, we present MLLMGuard, a multidimensional safety evaluation suite for MLLMs, including a bilingual image-text evaluation dataset, inference utilities, and a lightweight evaluator. MLLMGuard's assessment comprehensively covers two languages (English and Chinese) and five important safety dimensions (Privacy, Bias, Toxicity, Truthfulness, and Legality), each with corresponding rich subtasks. Focusing on these dimensions, our evaluation dataset is primarily sourced from platforms such as social media, and it integrates text-based and image-based red teaming techniques with meticulous annotation by human experts. This can prevent inaccurate evaluation caused by data leakage when using open-source datasets and ensures the quality and challenging nature of our benchmark. Additionally, a fully automated lightweight evaluator termed GuardRank is developed, which achieves significantly higher evaluation accuracy than GPT-4. Our evaluation results across 13 advanced models indicate that MLLMs still have a substantial journey ahead before they can be considered safe and responsible.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# リアルタイム3次元知覚とベイジアンペイオフ推定を用いた個人化製品アソシエーション

Personalized Product Assortment with Real-time 3D Perception and Bayesian Payoff Estimation ( http://arxiv.org/abs/2406.07769v2 )

ライセンス: Link先を確認
Porter Jenkins, Michael Selander, J. Stockton Jenkins, Andrew Merrill, Kyle Armstrong, (参考訳) 品揃えの選択は、物理的な小売業者にとって重要な課題だ。 在庫と買い物客の好みを効果的に合わせることは、売上を増やし、外貨を減らせる。 しかし、現実の環境では、製品アソシエーションの可能性の組合せが爆発的に爆発するため、この問題は困難である。 消費者の嗜好は、通常、空間と時間にわたって異質であり、在庫と価格の調整を困難にしている。 さらに、既存の戦略は、集約される傾向があり、解像度が低く、レイテンシが高いため、シンジケートされたデータに依存している。 これらの課題を解決するために,EdgeRec3Dと呼ばれるリアルタイムレコメンデーションシステムを導入する。 本システムは,3次元コンピュータビジョンの最近の進歩を,認識と自動的,きめ細かな販売推定に活用する。 これらの知覚的コンポーネントはネットワークの端で動作し、リアルタイムの報酬信号を促進する。 さらに,3次元LIDARデータからのノイズ推定を考慮したベイズペイオフモデルを構築した。 我々は,異種消費者の嗜好に適応するための空間クラスタリングと,組合せ探索問題に対処するためのグラフベースの候補生成アルゴリズムを利用する。 ドリンク製品を用いた2~8週間のA/Bテストで実店舗でテストを行い,それぞれ35%,27%の売り上げ増を示した。 最後に,28週間にわたる観察調査を行い,9.4%の売り上げ増を示した。

Product assortment selection is a critical challenge facing physical retailers. Effectively aligning inventory with the preferences of shoppers can increase sales and decrease out-of-stocks. However, in real-world settings the problem is challenging due to the combinatorial explosion of product assortment possibilities. Consumer preferences are typically heterogeneous across space and time, making inventory-preference alignment challenging. Additionally, existing strategies rely on syndicated data, which tends to be aggregated, low resolution, and suffer from high latency. To solve these challenges, we introduce a real-time recommendation system, which we call EdgeRec3D. Our system utilizes recent advances in 3D computer vision for perception and automatic, fine grained sales estimation. These perceptual components run on the edge of the network and facilitate real-time reward signals. Additionally, we develop a Bayesian payoff model to account for noisy estimates from 3D LIDAR data. We rely on spatial clustering to allow the system to adapt to heterogeneous consumer preferences, and a graph-based candidate generation algorithm to address the combinatorial search problem. We test our system in real-world stores across two, 6-8 week A/B tests with beverage products and demonstrate a 35% and 27% increase in sales respectively. Finally, we monitor the deployed system for a period of 28 weeks with an observational study and show a 9.4% increase in sales.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# 適応機構設計による炭素市場シミュレーション

Carbon Market Simulation with Adaptive Mechanism Design ( http://arxiv.org/abs/2406.07875v2 )

ライセンス: Link先を確認
Han Wang, Wenhao Li, Hongyuan Zha, Baoxiang Wang, (参考訳) 炭素市場(英: carbon market)は、地球温暖化に対処する二酸化炭素排出量を減らすことで、個々の利益をグローバルなユーティリティーと整合させる経済エージェントにインセンティブを与える、市場ベースのツールである。 キャップ・アンド・トレードは、カーボン・コンパタンス(炭素排出量クレジット)の割り当てと取引に基づく重要な原則であり、経済エージェントが計画された排出をフォローし、過剰な排出をペナルティ化することを可能にする。 中央の権威は、資本と貿易にこれらの手当を導入し配分する責任を負う。 しかし、炭素市場ダイナミクスの複雑さは正確なシミュレーションを難なくし、結果として効果的なアロケーション戦略の設計を妨げる。 そこで本研究では,階層型モデルフリーマルチエージェント強化学習(MARL)を用いて市場をシミュレートする適応機構設計フレームワークを提案する。 政府エージェントは炭素クレジットを割り当て、企業は経済活動や炭素取引に従事している。 このフレームワークは、エージェントの振る舞いを包括的に説明します。 MARLは、政府エージェントが生産性、平等、二酸化炭素排出のバランスをとることができることを示している。 私たちのプロジェクトはhttps://github.com/xwanghan/Carbon-Simulator.comで利用可能です。

A carbon market is a market-based tool that incentivizes economic agents to align individual profits with the global utility, i.e., reducing carbon emissions to tackle climate change. Cap and trade stands as a critical principle based on allocating and trading carbon allowances (carbon emission credit), enabling economic agents to follow planned emissions and penalizing excess emissions. A central authority is responsible for introducing and allocating those allowances in cap and trade. However, the complexity of carbon market dynamics makes accurate simulation intractable, which in turn hinders the design of effective allocation strategies. To address this, we propose an adaptive mechanism design framework, simulating the market using hierarchical, model-free multi-agent reinforcement learning (MARL). Government agents allocate carbon credits, while enterprises engage in economic activities and carbon trading. This framework illustrates agents' behavior comprehensively. Numerical results show MARL enables government agents to balance productivity, equality, and carbon emissions. Our project is available at https://github.com/xwanghan/Carbon-Simulator.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# A$^{2}$-MAE:アンカー・アウェア・マスク付きオートエンコーダを用いた空間・時空間統合型リモートセンシング事前学習法

A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder ( http://arxiv.org/abs/2406.08079v2 )

ライセンス: Link先を確認
Lixian Zhang, Yi Zhao, Runmin Dong, Jinxiao Zhang, Shuai Yuan, Shilei Cao, Mengxuan Chen, Juepeng Zheng, Weijia Li, Wei Liu, Litong Feng, Haohuan Fu, (参考訳) 大規模なリモートセンシング(RS)データは、土地利用監視、防災、環境変化の緩和といった世界規模の課題に対処するために欠かせない重要な空間、時間、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。 RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。 RSデータの可能性を解き明かすため、複数のRSソースの組み込み、多様なカバレッジ、画像集合内の統一された位置、画像内の不均一性を特徴とする空間-時間-スペクトル構造データセット(STSSD)を構築した。 この構造的データセットに基づいて、異なる種類の画像と地理情報から固有の補完情報を活用するアンカー・アウェア・マスク付きオートエンコーダ法(A$^{2}$-MAE)を提案し、事前学習期間中にマスク付きパッチを再構築する。 A$^{2}$-MAEはアンカー対応マスキング戦略と地理符号化モジュールを統合し、RS画像の特性を包括的に活用する。 具体的には,事前に選択したアンカー画像のメタ情報に基づいて,アンカー認識マスキング戦略を動的に適応させることにより,モデル内の多様なRSソースから取得した画像のトレーニングを容易にする。 さらに,正確な空間パターンを活用するための地理符号化手法を提案し,一般的に位置関係の低い下流アプリケーションに対して,モデル一般化能力を向上する。 画像分類,セマンティックセグメンテーション,変化検出タスクなど,既存のRS事前学習手法と比較して,提案手法は様々なダウンストリームタスクを網羅的に改善することを示した。

Vast amounts of remote sensing (RS) data provide Earth observations across multiple dimensions, encompassing critical spatial, temporal, and spectral information which is essential for addressing global-scale challenges such as land use monitoring, disaster prevention, and environmental change mitigation. Despite various pre-training methods tailored to the characteristics of RS data, a key limitation persists: the inability to effectively integrate spatial, temporal, and spectral information within a single unified model. To unlock the potential of RS data, we construct a Spatial-Temporal-Spectral Structured Dataset (STSSD) characterized by the incorporation of multiple RS sources, diverse coverage, unified locations within image sets, and heterogeneity within images. Building upon this structured dataset, we propose an Anchor-Aware Masked AutoEncoder method (A$^{2}$-MAE), leveraging intrinsic complementary information from the different kinds of images and geo-information to reconstruct the masked patches during the pre-training phase. A$^{2}$-MAE integrates an anchor-aware masking strategy and a geographic encoding module to comprehensively exploit the properties of RS images. Specifically, the proposed anchor-aware masking strategy dynamically adapts the masking process based on the meta-information of a pre-selected anchor image, thereby facilitating the training on images captured by diverse types of RS sources within one model. Furthermore, we propose a geographic encoding method to leverage accurate spatial patterns, enhancing the model generalization capabilities for downstream applications that are generally location-related. Extensive experiments demonstrate our method achieves comprehensive improvements across various downstream tasks compared with existing RS pre-training methods, including image classification, semantic segmentation, and change detection tasks.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# 脳波による情報ニーズの実現予測

Prediction of the Realisation of an Information Need: An EEG Study ( http://arxiv.org/abs/2406.08105v2 )

ライセンス: Link先を確認
Niall McGuire, Dr Yashar Moshfeghi, (参考訳) 情報検索 (IR) の基本的な目的の1つは、探索者の情報要求 (IN) を満たすことである。 INが物理的にどのように現れるかを理解することは、長い間複雑で解明されたプロセスであった。 しかし、脳波(EEG)データを利用した最近の研究は、INに関連する神経過程についてリアルタイムに洞察を与えている。 残念ながら、この洞察が検索体験にどう役立つかはまだ実証されていない。 そこで本研究では,質問応答(Q/A)タスクを受講しながら,脳波データ内でのINの実現を予測する能力について検討した。 さらに、最適な予測性能をもたらす脳波特徴の組み合わせについて検討し、また、被験者のINの実現がより顕著なQ/Aクエリ内の領域を特定する。 この結果から、脳波データは、73.5%(SD 2.6%)、90.1%(SD 22.1%)の精度で、すべての被験者のINの実現をリアルタイムに予測するのに十分であることが示された。 この研究は、情報検索の実践において明確な改善を施した理論的神経科学の進歩をブリッジすることでギャップを埋め、INの実現をリアルタイムで予測する道を開くことで、ギャップを埋めるのに役立つ。

One of the foundational goals of Information Retrieval (IR) is to satisfy searchers' Information Needs (IN). Understanding how INs physically manifest has long been a complex and elusive process. However, recent studies utilising Electroencephalography (EEG) data have provided real-time insights into the neural processes associated with INs. Unfortunately, they have yet to demonstrate how this insight can practically benefit the search experience. As such, within this study, we explore the ability to predict the realisation of IN within EEG data across 14 subjects whilst partaking in a Question-Answering (Q/A) task. Furthermore, we investigate the combinations of EEG features that yield optimal predictive performance, as well as identify regions within the Q/A queries where a subject's realisation of IN is more pronounced. The findings from this work demonstrate that EEG data is sufficient for the real-time prediction of the realisation of an IN across all subjects with an accuracy of 73.5% (SD 2.6%) and on a per-subject basis with an accuracy of 90.1% (SD 22.1%). This work helps to close the gap by bridging theoretical neuroscientific advancements with tangible improvements in information retrieval practices, paving the way for real-time prediction of the realisation of IN.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# 話者埋め込みにおける対向的摂動を用いた非同期音声匿名化

Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding ( http://arxiv.org/abs/2406.08200v2 )

ライセンス: Link先を確認
Rui Wang, Liping Chen, Kong AiK Lee, Zhen-Hua Ling, (参考訳) 音声の匿名化は、音声信号における話者の音声を擬似話者の音声に置き換え、機械認識や人間の知覚から本来の音声属性を隠蔽することにより、プライバシーを守る技術として開発されている。 本稿では,人間の知覚を維持しながら,音声認識に対する音声特性の変化に着目した。 これを非同期音声匿名化と呼ぶ。 この目的のために、話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。 話者属性は、話者埋め込みに印加された対角摂動によって変更され、人間の知覚は摂動の強度を制御して保持される。 LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。

Voice anonymization has been developed as a technique for preserving privacy by replacing the speaker's voice in a speech signal with that of a pseudo-speaker, thereby obscuring the original voice attributes from machine recognition and human perception. In this paper, we focus on altering the voice attributes against machine recognition while retaining human perception. We referred to this as the asynchronous voice anonymization. To this end, a speech generation framework incorporating a speaker disentanglement mechanism is employed to generate the anonymized speech. The speaker attributes are altered through adversarial perturbation applied on the speaker embedding, while human perception is preserved by controlling the intensity of perturbation. Experiments conducted on the LibriSpeech dataset showed that the speaker attributes were obscured with their human perception preserved for 60.71% of the processed utterances.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# プログラミングは LLM によって解決されるか?

Is Programming by Example solved by LLMs? ( http://arxiv.org/abs/2406.08316v2 )

ライセンス: Link先を確認
Wen-Ding Li, Kevin Ellis, (参考訳) PBE(Programming-by-Examples)は、入力出力の例からアルゴリズムを生成することを目的としている。 エンドユーザーの観点からは数百万人にデプロイされ、AIの観点からは、PBEは数発の帰納的推論の非常に一般的な形式に対応する。 コード生成タスクにおけるLarge Language Models(LLMs)の成功を踏まえ、LLMがPBEを「解決した」と言える範囲について検討する。 我々は、リストや文字列のような古典的なドメインと、一般的な事前学習データではよく表現されない非一般的なグラフィックプログラミングドメインを実験する。 事前学習したモデルはPBEでは有効ではないが, テスト問題が分散している場合, はるかに高い性能で微調整できることがわかった。 我々は、これらのモデルが成功して失敗する原因を実証的に分析し、より良いアウト・オブ・ディストリビューションの一般化を実現する方法を理解するための一歩を踏み出した。 これらの結果は、PLEタスクの典型的な組の解決に向けてLLMが大きな進歩をし、PLEシステムの柔軟性と適用性を高めつつ、LSMが依然として不足している方法を特定することを示唆している。

Programming-by-Examples (PBE) aims to generate an algorithm from input-output examples. Such systems are practically and theoretically important: from an end-user perspective, they are deployed to millions of people, and from an AI perspective, PBE corresponds to a very general form of few-shot inductive inference. Given the success of Large Language Models (LLMs) in code-generation tasks, we investigate here the extent to which LLMs can be said to have `solved' PBE. We experiment on classic domains such as lists and strings, and an uncommon graphics programming domain not well represented in typical pretraining data. We find that pretrained models are not effective at PBE, but that they can be fine-tuned for much higher performance, provided the test problems are in-distribution. We analyze empirically what causes these models to succeed and fail, and take steps toward understanding how to achieve better out-of-distribution generalization. Collectively these results suggest that LLMs make strong progress toward solving the typical suite of PBE tasks, potentially increasing the flexibility and applicability of PBE systems, while also identifying ways in which LLMs still fall short.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# MMWorld:ビデオにおける多分野多面世界モデル評価を目指して

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos ( http://arxiv.org/abs/2406.08407v2 )

ライセンス: Link先を確認
Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang, (参考訳) マルチモーダル言語モデル(MLLM)は、「世界モデル」の出現する能力を示し、複雑な実世界の力学を解釈し推論する。 これらの能力を評価するために、実世界の力学と因果関係の豊かな表現をカプセル化したビデオが理想的なメディアである。 そこで本稿では,マルチディシプリンドなマルチモーダルビデオ理解のための新しいベンチマークであるMMWorldを紹介する。 MMWorldは,(1)包括的理解のためにドメインの専門知識を必要とする様々な分野をカバーする多分野,(2)説明,反現実的思考,将来の予測などを含む多面的推論,という2つの独特な利点で,従来のビデオ理解ベンチマークと差別化を図っている。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 MMWorldは7つの幅広い分野にわたる1,910の動画と69のサブディシプリンは合わせて6,627の質問応答ペアと関連するキャプションで構成されている。 この評価には2つのプロプライエタリなMLLMと10個のオープンソースMLLMが含まれており、MMWorld(例えば、GPT-4Vは52.3\%の精度で最高の性能を発揮し、改善の余地が大きい。 さらなるアブレーション研究は、人間の異なるスキルセットのモデルのような他の興味深い発見を明らかにしている。 MMWorldがビデオにおける世界モデル評価に不可欠なステップになることを願っている。

Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# Real2Code: コード生成によるArticulated Objectの再構築

Real2Code: Reconstruct Articulated Objects via Code Generation ( http://arxiv.org/abs/2406.08474v2 )

ライセンス: Link先を確認
Zhao Mandi, Yijia Weng, Dominik Bauer, Shuran Song, (参考訳) コード生成による音声オブジェクトの再構成のための新しいアプローチであるReal2Codeを提案する。 対象物の視覚的観察から,まず画像分割モデルと形状完備モデルを用いて部分形状を再構成する。 次に,オブジェクト指向言語モデル (LLM) に入力された有向境界ボックスを用いて対象部品を表現し,コードとしての関節音節の予測を行う。 事前学習された視覚と言語モデルを利用することで, 合成学習データから非構造化環境における実世界オブジェクトへの一般化を行う。 実験結果から,Real2Codeは従来の再現精度を著しく上回り,トレーニングセットにおけるオブジェクトの構造的複雑さを超越し,最大10個の明瞭なパーツでオブジェクトを再構成する最初のアプローチであることがわかった。 ステレオ再構成モデルに組み込むと、Real2Codeは、深度やカメラ情報を必要とせずに、少数のマルチビューRGB画像から現実世界のオブジェクトに一般化する。

We present Real2Code, a novel approach to reconstructing articulated objects via code generation. Given visual observations of an object, we first reconstruct its part geometry using an image segmentation model and a shape completion model. We then represent the object parts with oriented bounding boxes, which are input to a fine-tuned large language model (LLM) to predict joint articulation as code. By leveraging pre-trained vision and language models, our approach scales elegantly with the number of articulated parts, and generalizes from synthetic training data to real world objects in unstructured environments. Experimental results demonstrate that Real2Code significantly outperforms previous state-of-the-art in reconstruction accuracy, and is the first approach to extrapolate beyond objects' structural complexity in the training set, and reconstructs objects with up to 10 articulated parts. When incorporated with a stereo reconstruction model, Real2Code also generalizes to real world objects from a handful of multi-view RGB images, without the need for depth or camera information.
翻訳日:2024-06-14 13:45:10 公開日:2024-06-13
# Follow-Your-Pose v2:Stable Pose Controlのためのマルチコンディション誘導文字アニメーション

Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control ( http://arxiv.org/abs/2406.03035v3 )

ライセンス: Link先を確認
Jingyun Xue, Hongfa Wang, Qi Tian, Yue Ma, Andong Wang, Zhiyuan Zhao, Shaobo Min, Wenzhe Zhao, Kaihao Zhang, Heung-Yeung Shum, Wei Liu, Mengyang Liu, Wenhan Luo, (参考訳) ソーシャルメディアプラットフォームにおける自動広告やコンテンツ作成などの分野への広範な応用により、ポーズコントロール可能なキャラクタビデオ生成が要求されている。 ポーズシーケンスと参照画像を用いた既存のキャラクタ画像アニメーション手法は有望なパフォーマンスを示しているが、複数のキャラクタアニメーションやボディーオブクルージョンといった複雑なシナリオでは、非一貫性のアニメーションに苦労する傾向がある。 さらに、現在の方法では、トレーニングデータセットとして安定したバックグラウンドと時間的一貫性を備えた大規模な高品質なビデオが要求される。 これら2つの課題は、文字画像アニメーションツールの実用化を妨げている。 本稿では,インターネット上で容易に利用できるノイズの多いオープンソースビデオに基づいてトレーニング可能な,実用的で堅牢なフレームワークFollow-Your-Pose v2を提案する。 マルチコンディションガイドは,背景安定性,マルチキャラクタ生成時の身体閉塞,キャラクタの外観の整合性といった課題に対処するように設計されている。 さらに,マルチキャラクタポーズアニメーションの公平な評価のギャップを埋めるために,約4,000フレームからなる新しいベンチマークを提案する。 大規模な実験により、我々の手法は2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。 一方, 質的評価では, 生成ビデオの品質が著しく向上し, 特に複雑な背景やマルチキャラクタの身体閉塞などのシナリオにおいて, アプローチの優位性が示唆された。

Pose-controllable character video generation is in high demand with extensive applications for fields such as automatic advertising and content creation on social media platforms. While existing character image animation methods using pose sequences and reference images have shown promising performance, they tend to struggle with incoherent animation in complex scenarios, such as multiple character animation and body occlusion. Additionally, current methods request large-scale high-quality videos with stable backgrounds and temporal consistency as training datasets, otherwise, their performance will greatly deteriorate. These two issues hinder the practical utilization of character image animation tools. In this paper, we propose a practical and robust framework Follow-Your-Pose v2, which can be trained on noisy open-sourced videos readily available on the internet. Multi-condition guiders are designed to address the challenges of background stability, body occlusion in multi-character generation, and consistency of character appearance. Moreover, to fill the gap of fair evaluation of multi-character pose animation, we propose a new benchmark comprising approximately 4,000 frames. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods by a margin of over 35% across 2 datasets and on 7 metrics. Meanwhile, qualitative assessments reveal a significant improvement in the quality of generated video, particularly in scenarios involving complex backgrounds and body occlusion of multi-character, suggesting the superiority of our approach.
翻訳日:2024-06-14 11:39:29 公開日:2024-06-13
# データ駆動状態表現による未知の量子状態の制御

Controlling Unknown Quantum States via Data-Driven State Representations ( http://arxiv.org/abs/2406.05711v2 )

ライセンス: Link先を確認
Yan Zhu, Tailong Xiao, Guihua Zeng, Giulio Chiribella, Ya-Dong Wu, (参考訳) 量子状態の正確な制御は、量子コンピューティングや他の量子技術にとって重要である。 基本的なシナリオでは、そのタスクは、制御操作のシーケンスを通じて、量子システムを目標状態に向けて操ることである。 しかし、適切な操作を決定するには、一般にシステムの初期状態に関する情報が必要となる。 初期状態が既知でない場合、この情報を集めることは、一般にサイズが大きくなる量子系にとって困難である。 この問題に対処するために,少量の測定データを用いてシステム状態の表現を構築する機械学習アルゴリズムを開発した。 このアルゴリズムは、このデータ駆動表現と対象状態の表現を比較し、強化学習を用いて適切な制御操作を出力し、未知の多体量子状態と非ガウス連続変数状態の正確な制御を実現するアルゴリズムの有効性を示す。

Accurate control of quantum states is crucial for quantum computing and other quantum technologies. In the basic scenario, the task is to steer a quantum system towards a target state through a sequence of control operations. Determining the appropriate operations, however, generally requires information about the initial state of the system. When the initial state is not {\em a priori} known, gathering this information is generally challenging for quantum systems of increasing size. To address this problem, we develop a machine-learning algorithm that uses a small amount of measurement data to construct a representation of the system's state. The algorithm compares this data-driven representation with the representation of the target state, and uses reinforcement learning to output the appropriate control operations.We illustrate the effectiveness of the algorithm showing that it achieves accurate control of unknown many-body quantum states and non-Gaussian continuous-variable states using data from a limited set of quantum measurements.
翻訳日:2024-06-14 11:39:29 公開日:2024-06-13
# MaLa-ASR:マルチメディアLLMベースのASR

MaLa-ASR: Multimedia-Assisted LLM-Based ASR ( http://arxiv.org/abs/2406.05839v2 )

ライセンス: Link先を確認
Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen, (参考訳) ビデオのような情報に富むデータがますます多くなり、音声タスクの強化にマルチモーダル補助情報を利用するようになり、研究の関心が高まっている。 LLMベースのオーディオモデルに関する最近の研究の急増は、オーディオタスクに取り組むための新しい視点を提供する。 LLMが複数の入力を柔軟に取り込み得ることを考慮し、会議内容の認識を改善するためにプレゼンテーションスライドから抽出したテキストキーワードを統合可能なLLMベースのASRモデルであるMaLa-ASRを提案する。 MaLa-ASR の平均 WER は L95 と S95 のサブセットで 9.4% と 11.7% であり、SlideSpeech で報告されたベースラインモデルよりも 27.9% と 44.7% の相対的な WER の減少を示している。 MaLa-ASRは、LLMの音声タスクにおける強い性能と補助情報を便利に統合する能力を強調している。 入力プロンプトにキーワードを追加することで、バイアス付き単語誤り率(B-WER)は46.0%と44.2%と相対的に減少し、このデータセットに新しいSOTAを確立する。

As more and more information-rich data like video become available, utilizing multi-modal auxiliary information to enhance audio tasks has sparked widespread research interest. The recent surge in research on LLM-based audio models provides fresh perspectives for tackling audio tasks. Given that LLM can flexibly ingest multiple inputs, we propose MaLa-ASR, an LLM-based ASR model that can integrate textual keywords extracted from presentation slides to improve recognition of conference content. MaLa-ASR yields average WERs of 9.4% and 11.7% on the L95 and S95 subsets of the SlideSpeech corpus, representing a significant relative WER drop of 27.9% and 44.7% over the baseline model reported in SlideSpeech. MaLa-ASR underscores LLM's strong performance in speech tasks and the capability to integrate auxiliary information conveniently. By adding keywords to the input prompt, the biased word error rate (B-WER) reduces relatively by 46.0% and 44.2%, establishing a new SOTA on this dataset.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# MolX: マルチモーダル拡張による分子学習のための大規模言語モデルの実現

MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension ( http://arxiv.org/abs/2406.06777v2 )

ライセンス: Link先を確認
Khiem Le, Zhichun Guo, Kaiwen Dong, Xiaobao Huang, Bozhao Nan, Roshni Iyer, Xiangliang Zhang, Olaf Wiest, Wei Wang, Nitesh V. Chawla, (参考訳) 近年,タスクハンドリング能力の強いLarge Language Models (LLMs) は,自然言語理解を超えて,様々な分野において顕著な進歩を見せている。 しかしながら、化学領域におけるそれらの能力は、特にプロの分子関連タスクの解決において制限されている。 この課題は、共通テキスト表現(SMILES文字列)のみを使用する分子の解釈における固有の制限に起因する。 本研究では, 分子の理解能力を高めるために, 分子を多モード外部モジュール, MolX で設計し, 実装することを目的としている。 特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いてSMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出し,LLMに入力する。 さらに、その埋め込みドメイン知識を活用するために、ヒト定義分子指紋が組み込まれている。 次に、LLMが凍結されたモールXとLLMのテキスト入力空間のアライメントを確立するために、多種多様なタスクを含む多目的戦略を用いて、LLM全体を事前訓練する。 提案手法は,LLMを微調整することなく,分子間翻訳から逆合成まで,様々な下流分子関連タスクのベースラインを上回りながら,少数のトレーニング可能なパラメータしか導入しないことを示す。

Recently, Large Language Models (LLMs) with their strong task-handling capabilities have shown remarkable advancements across a spectrum of fields, moving beyond natural language understanding. However, their proficiency within the chemistry domain remains restricted, especially in solving professional molecule-related tasks. This challenge is attributed to their inherent limitations in comprehending molecules using only common textual representations, i.e., SMILES strings. In this study, we seek to enhance the ability of LLMs to comprehend molecules by designing and equipping them with a multi-modal external module, namely MolX. In particular, instead of directly using a SMILES string to represent a molecule, we utilize specific encoders to extract fine-grained features from both SMILES string and 2D molecular graph representations for feeding into an LLM. Moreover, a human-defined molecular fingerprint is incorporated to leverage its embedded domain knowledge. Then, to establish an alignment between MolX and the LLM's textual input space, the whole model in which the LLM is frozen, is pre-trained with a versatile strategy including a diverse set of tasks. Extensive experimental evaluations demonstrate that our proposed method only introduces a small number of trainable parameters while outperforming baselines on various downstream molecule-related tasks ranging from molecule-to-text translation to retrosynthesis, with and without fine-tuning the LLM.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# LLaMa-3 8Bを用いたモンテカルロ木自己精製によるGPT-4レベルのオリンピアド溶液のアクセス

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B ( http://arxiv.org/abs/2406.07394v2 )

ライセンス: Link先を確認
Di Zhang, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, (参考訳) 本稿では,モンテカルロ木探索 (MCTS) による大規模言語モデル (LLM) の革新的統合である MCT Self-Refine (MCTSr) アルゴリズムについて述べる。 LLMの正確性と信頼性の課題、特に戦略的および数学的推論において、MCTSrは、LLM内の意思決定フレームワークを改善するために、体系的な探索とヒューリスティックな自己決定機構を活用する。 このアルゴリズムは、探索と探索のバランスを最適化するために改良された上信頼境界(UCB)公式を利用して、選択、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通してモンテカルロ探索木を構築する。 GSM8K、GSM Hard、MATH、Olympiadレベルのベンチマーク(Math Odyssey、AIME、OlympiadBenchなど)を含む複数のデータセットにおける成功率を大幅に改善する。 この研究は、複雑な推論タスクにおけるLLMの適用を前進させ、将来のAI統合の基礎を確立し、LLM駆動アプリケーションの意思決定精度と信頼性を高める。

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# fNIRSによる画像の復号化に向けて

Progress Towards Decoding Visual Imagery via fNIRS ( http://arxiv.org/abs/2406.07662v2 )

ライセンス: Link先を確認
Michel Adamic, Wellington Avelino, Anna Brandenberger, Bryan Chiang, Hunter Davis, Stephen Fay, Andrew Gregory, Aayush Gupta, Raphael Hotter, Grace Jiang, Fiona Leng, Stephen Polcyn, Thomas Ribeiro, Paul Scotti, Michelle Wang, Marley Xiong, Jonathan Xu, (参考訳) 我々は,fNIRS脳活動からのイメージ再構成の可能性を示し,必要な仕様に適合するプロトタイプの構築に着手する。 縮小されたfMRIデータを用いて画像再構成モデルを訓練することにより,cmスケールの空間分解能は画像生成に十分であることがわかった。 その結果, フル解像度fMRIでは93%, 2cmでは20%の精度で検索精度は71%であった。 シミュレーションと高密度トモグラフィにより,時間領域fNIRSは連続波fNIRSの2cm分解能と比較して1cm分解能が得られることがわかった。 最後に,レーザードライバ,光子検出器,デジタルコンバータシステムからなるプロトタイプの時間領域fNIRSデバイスの設計を共有する。

We demonstrate the possibility of reconstructing images from fNIRS brain activity and start building a prototype to match the required specs. By training an image reconstruction model on downsampled fMRI data, we discovered that cm-scale spatial resolution is sufficient for image generation. We obtained 71% retrieval accuracy with 1-cm resolution, compared to 93% on the full-resolution fMRI, and 20% with 2-cm resolution. With simulations and high-density tomography, we found that time-domain fNIRS can achieve 1-cm resolution, compared to 2-cm resolution for continuous-wave fNIRS. Lastly, we share designs for a prototype time-domain fNIRS device, consisting of a laser driver, a single photon detector, and a time-to-digital converter system.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# YOLOv7に基づく全安全機器検出のための深層学習手法

A Deep Learning Approach to Detect Complete Safety Equipment For Construction Workers Based On YOLOv7 ( http://arxiv.org/abs/2406.07707v2 )

ライセンス: Link先を確認
Md. Shariful Islam, SM Shaqib, Shahriar Sultan Ramit, Shahrun Akter Khushbu, Mr. Abdus Sattar, Dr. Sheak Rashed Haider Noori, (参考訳) 建設部門では、労働者の安全を確保することが最も重要である。 本研究では, ヘルメット, ゴーグル, ジャケット, 手袋, 履物など, 建設作業員が着用する安全装備を同定するための深層学習技術を提案する。 推奨されるアプローチは、YOLO v7(You Only Look Once)オブジェクト検出アルゴリズムを使用して、これらの安全アイテムを正確に検出する。 この作業で使用されるデータセットは、トレーニング、テスト、検証セットに分割されたラベル付きイメージで構成されている。 各画像には、画像内の安全装置の位置を示すバウンディングボックスラベルがある。 モデルは、反復的なトレーニングアプローチを通じてラベル付きデータセットに基づいて安全装置を識別し、分類するように訓練されている。 このモデルをトレーニングするためにカスタムデータセットを使用しました。 トレーニングされたモデルでは,安全機器認識のための精度,リコール,F1スコアが良好に動作した。 また、モデルの評価は、mAP@0.5スコア87.7\%の励振結果を生み出した。 モデルは効果的に動作し、建設現場における安全装置の違反を迅速に識別することができる。 結果の徹底的な評価は、モデルの利点を明らかにし、開発の潜在的な領域を指摘します。 本研究は,自動かつ信頼性の高い安全機器検出手法を提供することにより,コンピュータビジョンと職場安全の分野に貢献する。 深層学習に基づくアプローチは、安全コンプライアンスを高め、建設業界における事故リスクを低減する

In the construction sector, ensuring worker safety is of the utmost significance. In this study, a deep learning-based technique is presented for identifying safety gear worn by construction workers, such as helmets, goggles, jackets, gloves, and footwears. The recommended approach uses the YOLO v7 (You Only Look Once) object detection algorithm to precisely locate these safety items. The dataset utilized in this work consists of labeled images split into training, testing and validation sets. Each image has bounding box labels that indicate where the safety equipment is located within the image. The model is trained to identify and categorize the safety equipment based on the labeled dataset through an iterative training approach. We used custom dataset to train this model. Our trained model performed admirably well, with good precision, recall, and F1-score for safety equipment recognition. Also, the model's evaluation produced encouraging results, with a mAP@0.5 score of 87.7\%. The model performs effectively, making it possible to quickly identify safety equipment violations on building sites. A thorough evaluation of the outcomes reveals the model's advantages and points up potential areas for development. By offering an automatic and trustworthy method for safety equipment detection, this research makes a contribution to the fields of computer vision and workplace safety. The proposed deep learning-based approach will increase safety compliance and reduce the risk of accidents in the construction industry
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# RLHFにおけるリワードと政策モデル間のシームレス性について

It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF ( http://arxiv.org/abs/2406.07971v2 )

ライセンス: Link先を確認
Taiming Lu, Lingfeng Shen, Xinyu Yang, Weiting Tan, Beidi Chen, Huaxiu Yao, (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback、RLHF)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。 PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を検証し、シームレス性の概念を導入することを提案する。 本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。 分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。 ヒトの努力を伴わずにPMとRMのシームレス性を計測するために,自動計量SEAMを提案する。 SEAMは、データサンプルによって誘導されるPMとRMの判断の相違を定量化する。 データ選択とモデル拡張におけるSEAMの有効性を検証する。 RLトレーニングにSEAMフィルタデータを用いることでRLHFの性能は4.5%向上し,(2)SEAM誘導モデル拡張は標準拡張法よりも4%向上することを示した。

Reinforcement Learning from Human Feedback (RLHF) involves training policy models (PMs) and reward models (RMs) to align language models with human preferences. Instead of focusing solely on PMs and RMs independently, we propose to examine their interactions during fine-tuning, introducing the concept of seamlessness. Our study starts with observing the saturation phenomenon, where continual improvements in RM and PM do not translate into RLHF progress. Our analysis shows that RMs fail to assign proper scores to PM responses, resulting in a 35% mismatch rate with human preferences, highlighting a significant discrepancy between PM and RM. To measure seamlessness between PM and RM without human effort, we propose an automatic metric, SEAM. SEAM quantifies the discrepancies between PM and RM judgments induced by data samples. We validate the effectiveness of SEAM in data selection and model augmentation. Our experiments demonstrate that (1) using SEAM-filtered data for RL training improves RLHF performance by 4.5%, and (2) SEAM-guided model augmentation results in a 4% performance improvement over standard augmentation methods.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# CoXQL: 会話型XAIシステムにおける説明要求を解析するためのデータセット

CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems ( http://arxiv.org/abs/2406.08101v2 )

ライセンス: Link先を確認
Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian Möller, (参考訳) 言語モデル(LLM)に基づく会話可能な人工知能(ConvXAI)システムは、自然言語処理(NLP)とヒューマンコンピュータインタラクション(HCI)の研究コミュニティから大きな関心を集めている。 このようなシステムは、対話における説明に関するユーザの質問に対する回答を提供し、ユーザの理解を深め、LCMの意思決定および生成プロセスに関するさらなる情報を提供する可能性がある。 現在利用可能なConvXAIシステムは、無料チャットではなく意図認識に基づいている。 しかし、ConvXAIでは、トレーニングデータがほとんどなく、ドメインが高度に特定されているため、要求をマッピングするXAIメソッドが広い範囲に存在するため、意図の認識は依然として課題となっている。 このギャップを埋めるために、私たちはConvXAIでユーザ意図認識のための最初のデータセットであるCoXQLを紹介します。 その後、テンプレート検証を取り入れた既存の解析手法を強化し、異なる解析戦略を用いて、CoXQL上で複数のLLMの評価を行う。 我々は,改良された解析手法 (MP+) が従来の手法よりも優れていると結論付けた。 また、複数のスロットを持つ意図はLLMにとって非常に困難なままである。

Conversational explainable artificial intelligence (ConvXAI) systems based on large language models (LLMs) have garnered significant interest from the research community in natural language processing (NLP) and human-computer interaction (HCI). Such systems can provide answers to user questions about explanations in dialogues, have the potential to enhance users' comprehension and offer more information about the decision-making and generation processes of LLMs. Currently available ConvXAI systems are based on intent recognition rather than free chat, as this has been found to be more precise and reliable in identifying users' intentions. However, the recognition of intents still presents a challenge in the case of ConvXAI, since little training data exist and the domain is highly specific, as there is a broad range of XAI methods to map requests onto. In order to bridge this gap, we present CoXQL, the first dataset for user intent recognition in ConvXAI, covering 31 intents, seven of which require filling multiple slots. Subsequently, we enhance an existing parsing approach by incorporating template validations, and conduct an evaluation of several LLMs on CoXQL using different parsing strategies. We conclude that the improved parsing approach (MP+) surpasses the performance of previous approaches. We also discover that intents with multiple slots remain highly challenging for LLMs.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# ショートロングコンボリューションは、ハードウェア効率の良いリニアアテンションで長いシーケンスにフォーカスするのに役立つ

Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences ( http://arxiv.org/abs/2406.08128v2 )

ライセンス: Link先を確認
Zicheng Liu, Siyuan Li, Li Wang, Zedong Wang, Yunfan Liu, Stan Z. Li, (参考訳) 長い列上の自己アテンション機構における計算複雑性を軽減するために、線形アテンションは計算トリックを利用して線形複雑性を実現する。 近年の研究では、これらを1つに組み合わせた優先順位が示されている。 しかし、線形注意の効率は因果関係において理論レベルに留まらず、SSMは特定のデータに対して効果的に操作するために様々な設計上の制約を必要とする。 したがって,ハイブリッド設計の真のパワーを明らかにするためには,(1)線形注意のためのハードウェア効率の良い実装,(2)SSMの安定化という2つの課題に対処する必要がある。 これを実現するために、タイリングと階層の考え方を活用して、短時間の畳み込みでSSMを置き換えるCHELA(short-long Convolutions with Hardware-Efficient Linear Attention)を提案する。 このアプローチは、線形複雑性を維持しつつ、安定なSSMと線形注意からのグローバルな抽象化とデータ依存の選択を享受する。 提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクに関する総合的な実験を行った。

To mitigate the computational complexity in the self-attention mechanism on long sequences, linear attention utilizes computation tricks to achieve linear complexity, while state space models (SSMs) popularize a favorable practice of using non-data-dependent memory pattern, i.e., emphasize the near and neglect the distant, to processing sequences. Recent studies have shown the priorities by combining them as one. However, the efficiency of linear attention remains only at the theoretical level in a causal setting, and SSMs require various designed constraints to operate effectively on specific data. Therefore, in order to unveil the true power of the hybrid design, the following two issues need to be addressed: (1) hardware-efficient implementation for linear attention and (2) stabilization of SSMs. To achieve this, we leverage the thought of tiling and hierarchy to propose CHELA (short-long Convolutions with Hardware-Efficient Linear Attention), which replaces SSMs with short-long convolutions and implements linear attention in a divide-and-conquer manner. This approach enjoys global abstraction and data-dependent selection from stable SSM and linear attention while maintaining real linear complexity. Our comprehensive experiments on the Long Range Arena benchmark and language modeling tasks demonstrate the effectiveness of the proposed method.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# 例外点を持つデュアル・ユニタリ量子回路の特殊相関関数

Exact Correlation Functions for Dual-Unitary Quantum circuits with exceptional points ( http://arxiv.org/abs/2406.08338v2 )

ライセンス: Link先を確認
Xi-Dan Hu, Dan-Bo Zhang, (参考訳) デュアルユニタリ量子回路は、転送行列から局所作用素の時空間相関関数を解析的に提供し、正確な解による量子力学の理解を深める。 それでも、例外的な点を持つ非対角変換行列が研究されていないため、完全な理解はいまだに欠けている。 本稿では、転送行列と局所ユニタリゲートの関係を確立することにより、転送行列に例外点を持つデュアルユニタリ量子回路を構築するための逆アプローチを提案する。 固有ベクトルの結合の結果、相関関数は多項式修飾指数減衰を示すが、これは純粋な指数崩壊とは大きく異なる。 さらに、蹴られたXXZスピン鎖のハミルトン的進化は、トロッター分解による例外点を持つ双対単位回路に概ねマッピング可能であることを指摘した。 最後に, ラプラス変換によって相関関数の挙動が異なることを示す。

Dual-unitary quantum circuits can provide analytic spatiotemporal correlation functions of local operators from transfer matrices, enriching our understanding of quantum dynamics with exact solutions. Nevertheless, a full understanding is still lacking as the case of a non-diagonalizable transfer matrix with exceptional points has less been investigated. In this paper, we give an inverse approach for constructing dual-unitary quantum circuits with exceptional points in the transfer matrices, by establishing relations between transfer matrices and local unitary gates. As a consequence of the coalesce of eigenvectors, the correlation functions exhibit a polynomial modified exponential decay, which is significantly different from pure exponential decay, especially at early stages. Moreover, we point out that the Hamiltonian evolution of a kicked XXZ spin chain can be approximately mapped to a dual-unitary circuit with exceptional points by Trotter decomposition. Finally, we investigate the dynamics approaching and at exceptional points, showing that behaviors of correlation functions are distinct by Laplace transformation.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# APSeg: クロスドメインなFew-Shotセマンティックセマンティックセグメンテーションのためのオートプロンプトネットワーク

APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2406.08372v2 )

ライセンス: Link先を確認
Weizhao He, Yang Zhang, Wei Zhuo, Linlin Shen, Jiaqi Yang, Songhe Deng, Liang Sun, (参考訳) Few-shot semantic segmentation (FSS) は、いくつかのラベル付きサンプルで未確認のクラスをセグメンテーションする試みである。 現在のFSSメソッドは、トレーニングとアプリケーションシナリオが類似したドメインを共有しているという仮定に基づいて構築されている。 そこで我々は,最先端の基盤モデルであるSAM(Segment Anything Model)を一般化の強化に活用することを提案する。 しかしSAMは、主に自然のシーン画像を構成するトレーニングデータとは異なる領域で不満足に動作し、対話的なプロンプト機構のため、特定のセマンティクスの自動セグメンテーションをサポートしない。 本研究では,クロスドメイン・マイクロショットセマンティックセマンティックセマンティックセマンティクス(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介した。 具体的には,Dual Prototype Anchor Transformation (DPAT)モジュールを提案する。このモジュールは,サポートプロトタイプとサイクル整合性に基づいて抽出された疑似クエリプロトタイプを融合し,より安定したドメインに依存しない空間に機能を変換することができる。 さらに、メタプロンプトジェネレータ(MPG)モジュールを導入して、手動による視覚的なプロンプトを不要にし、プロンプトの埋め込みを自動的に生成する。 我々は、微調整なしでターゲットドメインに直接適用できる効率的なモデルを構築した。 4つのクロスドメインデータセットの大規模な実験により、我々のモデルは1ショット設定と5ショット設定の平均精度をそれぞれ5.24%および3.10%向上させ、最先端のCD-FSS法より優れていることが示された。

Few-shot semantic segmentation (FSS) endeavors to segment unseen classes with only a few labeled samples. Current FSS methods are commonly built on the assumption that their training and application scenarios share similar domains, and their performances degrade significantly while applied to a distinct domain. To this end, we propose to leverage the cutting-edge foundation model, the Segment Anything Model (SAM), for generalization enhancement. The SAM however performs unsatisfactorily on domains that are distinct from its training data, which primarily comprise natural scene images, and it does not support automatic segmentation of specific semantics due to its interactive prompting mechanism. In our work, we introduce APSeg, a novel auto-prompt network for cross-domain few-shot semantic segmentation (CD-FSS), which is designed to be auto-prompted for guiding cross-domain segmentation. Specifically, we propose a Dual Prototype Anchor Transformation (DPAT) module that fuses pseudo query prototypes extracted based on cycle-consistency with support prototypes, allowing features to be transformed into a more stable domain-agnostic space. Additionally, a Meta Prompt Generator (MPG) module is introduced to automatically generate prompt embeddings, eliminating the need for manual visual prompts. We build an efficient model which can be applied directly to target domains without fine-tuning. Extensive experiments on four cross-domain datasets show that our model outperforms the state-of-the-art CD-FSS method by 5.24% and 3.10% in average accuracy on 1-shot and 5-shot settings, respectively.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13
# LLaVA-HDを超える:高分解能大規模マルチモーダルモデルへの分割

Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models ( http://arxiv.org/abs/2406.08487v2 )

ライセンス: Link先を確認
Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, (参考訳) 高解像度で明確に見ることは、視覚知覚と推論に不可欠であることが証明されたLMM(Large Multimodal Models)の基礎である。 既存の作業では、画像はグローバルとローカルのブランチで構成され、後者はスライスされたイメージパッチだが、前者と同じ解像度にリサイズされる。 これは、高解像度ではより局所的なパッチが必要であり、結果として計算コストが増大し、一方、局所的な画像トークンの優位性はグローバルな文脈を低下させる可能性があることを意味している。 本稿では,この問題を掘り下げ,新たなフレームワークと精巧な最適化戦略を提案する。 具体的には、異なるアダプタが異なるタスクで優れているという観察に基づいて、アダプタの混合を用いて、グローバルビューからコンテキスト情報を抽出する。 ローカルパッチに関しては、画像トークンを減らすために学習可能なクエリ埋め込みを導入し、ユーザ疑問に対処する最も重要なトークンは、類似性ベースのセレクタによってさらに選択される。 実験の結果は‘less is more’パターンを示し、より少ないがより情報的なローカル画像トークンを使用するとパフォーマンスが向上することを示している。 さらに、グローバルマイニングブロックと局所圧縮ブロックの同時エンドツーエンドトレーニングが最適な結果をもたらすことはないため、トレーニング戦略において重要な課題がある。 そこで我々は、グローバルな側面とローカルな側面のバランスの取れた学習を確実にする、交互に訓練する方法を提唱する。 最後に,画像の詳細化の要求の高いデータセットを導入し,局所的な圧縮層のトレーニングを強化した。 提案手法は,SliME(Sophisticated Tasks,ローカル画像圧縮,Mixture of Global Experts)を用いたLMMと呼ばれ,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。

Seeing clearly with high resolution is a foundation of Large Multimodal Models (LMMs), which has been proven to be vital for visual perception and reasoning. Existing works usually employ a straightforward resolution upscaling method, where the image consists of global and local branches, with the latter being the sliced image patches but resized to the same resolution as the former. This means that higher resolution requires more local patches, resulting in exorbitant computational expenses, and meanwhile, the dominance of local image tokens may diminish the global context. In this paper, we dive into the problems and propose a new framework as well as an elaborate optimization strategy. Specifically, we extract contextual information from the global view using a mixture of adapters, based on the observation that different adapters excel at different tasks. With regard to local patches, learnable query embeddings are introduced to reduce image tokens, the most important tokens accounting for the user question will be further selected by a similarity-based selector. Our empirical results demonstrate a `less is more' pattern, where \textit{utilizing fewer but more informative local image tokens leads to improved performance}. Besides, a significant challenge lies in the training strategy, as simultaneous end-to-end training of the global mining block and local compression block does not yield optimal results. We thus advocate for an alternating training way, ensuring balanced learning between global and local aspects. Finally, we also introduce a challenging dataset with high requirements for image detail, enhancing the training of the local compression layer. The proposed method, termed LMM with Sophisticated Tasks, Local image compression, and Mixture of global Experts (SliME), achieves leading performance across various benchmarks with only 2 million training data.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-13