このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231122となっている論文です。

PDF登録状況(公開日: 20231122)

TitleAuthorsAbstract論文公表日・翻訳日
# 最適形状とラベル付き攻撃木の自動生成

Automated generation of attack trees with optimal shape and labelling ( http://arxiv.org/abs/2311.13331v1 )

ライセンス: Link先を確認
Olga Gadyatskaya, Sjouke Mauw, Rolando Trujillo-Rasuac, Tim A. C. Willemse, (参考訳) この記事が扱う問題は、システムの正式な仕様を前提として、システムの攻撃方法を正しく明確に記述したアタックツリーの生成方法である。 正確性は、攻撃木によって表示された攻撃がシステム内の攻撃であることを意味する。 そこで本研究では,木の大きさとラベルの情報長を最小化できる攻撃木生成アルゴリズムを提案する。 代数的表現を分解する問題と木の大きさを最小化する問題との関連性を確立することでこれを実現できる。 特に、我々の生成アルゴリズムは、並列かつシーケンシャルにアクションを実行する複雑な攻撃を処理できる。 完全性のために、私たちは生成アプローチとうまく統合したシステムモデルを導入し、実行中の例を通して結果のフレームワークを検証する。

The problem this article addresses is, given a formal specification of a system, how to produce an attack tree that correctly and clearly describes the ways the system can be attacked. Correctness means that the attacks displayed by the attack tree are indeed attacks in the system; clarity means that the tree is efficient in communicating the attack scenario. To pursue clarity, we introduce an attack-tree generation algorithm that minimises the tree size and the information length of its labels without sacrificing correctness. We achieve this by establishing a connection between the problem of factorising algebraic expressions and the problem of minimising the tree size. Notably, our generation algorithm can handle complex attacks that execute actions in parallel and sequentially. For completeness, we introduce a system model that integrates well with our generation approach, and validate the resulting framework via a running example.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-22
# スマートコントラクトの経時的検証

Gradual Verification for Smart Contracts ( http://arxiv.org/abs/2311.13351v1 )

ライセンス: Link先を確認
Haojia Sun, Kunal Singh, Jan-Paul Ramos-Dávila, Jonathan Aldrich, Jenna DiVincenzo, (参考訳) ブロックチェーンはスマートコントラクトを通じてセキュアなリソーストランザクションを促進するが、これらのデジタル契約は、特に外部契約と対話する場合、脆弱性を伴いがちであり、実質的な金銭的損失をもたらす。 従来の検証技術は、外部契約の実装が不可能なため、包括的なセキュリティ保証、特に再エンタシーアタックの提供に不足している。 本稿では,段階的検証という段階的なアプローチを紹介する。 静的および動的検証技術を組み合わせて、セキュリティを強化し、健全性と柔軟性を確保し、スマートコントラクトインタラクションにおけるリソース使用量を最適化します。 pyTEAL言語を介してAlgorandスマートコントラクトを段階的に検証するプロトタイプを実装することで、我々のアプローチの有効性を実証し、スマートコントラクトの安全かつ効率的な実行に寄与する。

Blockchains facilitate secure resource transactions through smart contracts, yet these digital agreements are prone to vulnerabilities, particularly when interacting with external contracts, leading to substantial monetary losses. Traditional verification techniques fall short in providing comprehensive security assurances, especially against re-entrancy attacks, due to the unavailable implementations of external contracts. This paper introduces an incremental approach: gradual verification. We combine static and dynamic verification techniques to enhance security, guarantee soundness and flexibility, and optimize resource usage in smart contract interactions. By implementing a prototype for gradually verifying Algorand smart contracts via the pyTEAL language, we demonstrate the effectiveness of our approach, contributing to the safe and efficient execution of smart contracts.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-22
# プライバシサンドボックス属性レポートAPIの最適化に関する概要報告

Summary Reports Optimization in the Privacy Sandbox Attribution Reporting API ( http://arxiv.org/abs/2311.13586v1 )

ライセンス: Link先を確認
Hidayet Aksu, Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon, Avinash V Varadarajan, (参考訳) Privacy Sandbox Attribution Reporting APIは先頃,サードパーティクッキーの廃止後のアトリビューションレポート(コンバージョン測定)の基本的な広告機能をサポートするために,Google Chromeによってデプロイされたものだ。 このAPIは、コントリビューションバウンディングやノイズ注入を含む、プライバシ強化ガードレールのコレクションを実装している。 また、アナリストがコントリビューション予算を割り当てる柔軟性も提供します。 本稿では,属性レポートAPIからの要約レポートに対して,コントリビューション予算の配分を最適化する手法を提案する。 実世界のデータセットと、実世界の変換データを正確にキャプチャする合成データモデルで評価する。 以上の結果から,アナリストが設定できるパラメータを最適化することで,同一のプライバシ境界を満足しながらAPIをクエリすることで実現される利便性を著しく向上できることが示された。

The Privacy Sandbox Attribution Reporting API has been recently deployed by Google Chrome to support the basic advertising functionality of attribution reporting (aka conversion measurement) after deprecation of third-party cookies. The API implements a collection of privacy-enhancing guardrails including contribution bounding and noise injection. It also offers flexibility for the analyst to allocate the contribution budget. In this work, we present methods for optimizing the allocation of the contribution budget for summary reports from the Attribution Reporting API. We evaluate them on real-world datasets as well as on a synthetic data model that we find to accurately capture real-world conversion data. Our results demonstrate that optimizing the parameters that can be set by the analyst can significantly improve the utility achieved by querying the API while satisfying the same privacy bounds.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-22
# Molly:Cryptocolロール用の検証済みコンパイラ

Molly: A Verified Compiler for Cryptoprotocol Roles ( http://arxiv.org/abs/2311.13692v1 )

ライセンス: Link先を確認
Daniel J. Dougherty, Joshua D. Guttman, (参考訳) Mollyは、高レベルの表記法で書かれた暗号プロトコルのロールを中間レベルの命令型言語の直線プログラムにコンパイルするプログラムであり、従来のプログラミング言語の実装に適している。 我々は,ランタイムの公理化に基づいて,プロトコルの役割を意味論的に定義する。 このアプローチの注目すべき特徴は、暗号化がランダム化されていると仮定することです。 したがって、実行時レベルでは、暗号化は関数ではなく関係として扱う。 Molly は Coq で書かれており、マシンチェックによって構築された手順が実行時の意味論に関して正しいという証明を生成する。 Coqの抽出機構を使うことで、効率的なコンパイル機能プログラムを構築することができる。

Molly is a program that compiles cryptographic protocol roles written in a high-level notation into straight-line programs in an intermediate-level imperative language, suitable for implementation in a conventional programming language. We define a denotational semantics for protocol roles based on an axiomatization of the runtime. A notable feature of our approach is that we assume that encryption is randomized. Thus, at the runtime level we treat encryption as a relation rather than a function. Molly is written in Coq, and generates a machine-checked proof that the procedure it constructs is correct with respect to the runtime semantics. Using Coq's extraction mechanism, one can build an efficient functional program for compilation.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-22
# 自律型水中車両(AUV)の革命的水中探査と海底画像処理技術

Revolutionizing Underwater Exploration of Autonomous Underwater Vehicles (AUVs) and Seabed Image Processing Techniques ( http://arxiv.org/abs/2402.00004v1 )

ライセンス: Link先を確認
Rajesh Sharma R, Akey Sungheetha, Dr Chinnaiyan R(参考訳) 地球上の海は、世界の最後の国境の1つであり、その深さのほんの一部しか探検されていない。 技術の進歩により、自律型水中車両(AUV)は独立して運用でき、水中で複雑な作業を行うことができる。 これらの車両は水中での探査に革命をもたらし、これまでなかったような海の研究と理解を可能にしました。 AUVに加えて、海底とその特徴をよりよく理解するための画像処理技術も開発されている。 本稿では,AUV技術の最新技術と海底画像処理技術について概観する。 これらの進歩が海洋の探索や理解の仕方をいかに変えているか、そして海洋科学の将来への潜在的な影響について話し合う。 水中探査のエキサイティングな世界と、それを前進させる技術を見つけるために、この旅に参加してください。

The oceans in the Earth's in one of the last border lines on the World, with only a fraction of their depths having been explored. Advancements in technology have led to the development of Autonomous Underwater Vehicles (AUVs) that can operate independently and perform complex tasks underwater. These vehicles have revolutionized underwater exploration, allowing us to study and understand our oceans like never before. In addition to AUVs, image processing techniques have also been developed that can help us to better understand the seabed and its features. In this comprehensive survey, we will explore the latest advancements in AUV technology and seabed image processing techniques. We'll discuss how these advancements are changing the way we explore and understand our oceans, and their potential impact on the future of marine science. Join us on this journey to discover the exciting world of underwater exploration and the technologies that are driving it forward.
翻訳日:2024-02-11 17:26:25 公開日:2023-11-22
# SAM4UDASS:SAMがインテリジェントな車両のドメイン適応セマンティックセマンティックセマンティックセグメンテーションに遭遇

SAM4UDASS: When SAM Meets Unsupervised Domain Adaptive Semantic Segmentation in Intelligent Vehicles ( http://arxiv.org/abs/2401.08604v1 )

ライセンス: Link先を確認
Weihao Yan, Yeqiang Qian, Xingyuan Chen, Hanyang Zhuang, Chunxiang Wang, Ming Yang(参考訳) セマンティックセグメンテーションは、インテリジェントな車両が周囲の環境を理解するために重要な役割を果たす。 しかし、ディープラーニングベースの手法は通常、トレーニングにラベル付きデータがないため、ドメインシフトのシナリオでは不十分である。 非教師なし領域適応(UDA)技術は、異なる駆動シーン間のギャップを埋め、ラベルのないターゲット環境におけるモデル性能を向上させるために出現している。 自己学習型UDA法は最先端の結果を得たが、正確な擬似ラベルを生成するという課題は残る。 これらの擬似ラベルは多数派を好んでおり、希少なクラスや信号機や標識のような小さなオブジェクトのパフォーマンスを犠牲にしている。 この課題に対処するために,Segment Anything Model (SAM) を擬似ラベルを書き換える自己学習 UDA 手法に組み込んだ新しいアプローチ SAM4UDASS を紹介する。 Semantic-Guided Mask Labelingは、UDAの擬似ラベルを使用して、セマンティックラベルを未ラベルのSAMマスクに割り当てる。 さらに,SAMマスクと対象ドメイン間のセマンティックな粒度不整合を緩和するための融合戦略を考案した。 SAM4UDASSは、駆動シーンにおけるセマンティックセグメンテーションのためのSAMとUDAを革新的に統合し、既存の自己学習 UDA 方法論をシームレスに補完する。 合成-実-正規-逆駆動データセットに関する広範囲な実験は、その効果を示している。 DAFormerを使用すると、GTA5-to-Cityscapes、SynTHIA-to-Cityscapes、Cityscapes-to-ACDCで3%以上のmIoUが得られ、MICを使用するとSOTAが達成される。 コードはhttps://github.com/ywher/SAM4UDASSで入手できる。

Semantic segmentation plays a critical role in enabling intelligent vehicles to comprehend their surrounding environments. However, deep learning-based methods usually perform poorly in domain shift scenarios due to the lack of labeled data for training. Unsupervised domain adaptation (UDA) techniques have emerged to bridge the gap across different driving scenes and enhance model performance on unlabeled target environments. Although self-training UDA methods have achieved state-of-the-art results, the challenge of generating precise pseudo-labels persists. These pseudo-labels tend to favor majority classes, consequently sacrificing the performance of rare classes or small objects like traffic lights and signs. To address this challenge, we introduce SAM4UDASS, a novel approach that incorporates the Segment Anything Model (SAM) into self-training UDA methods for refining pseudo-labels. It involves Semantic-Guided Mask Labeling, which assigns semantic labels to unlabeled SAM masks using UDA pseudo-labels. Furthermore, we devise fusion strategies aimed at mitigating semantic granularity inconsistency between SAM masks and the target domain. SAM4UDASS innovatively integrate SAM with UDA for semantic segmentation in driving scenes and seamlessly complements existing self-training UDA methodologies. Extensive experiments on synthetic-to-real and normal-to-adverse driving datasets demonstrate its effectiveness. It brings more than 3% mIoU gains on GTA5-to-Cityscapes, SYNTHIA-to-Cityscapes, and Cityscapes-to-ACDC when using DAFormer and achieves SOTA when using MIC. The code will be available at https://github.com/ywher/SAM4UDASS.
翻訳日:2024-01-22 10:05:51 公開日:2023-11-22
# バイオインスパイアされたヘビアン学習のための分解エンコーダ設計における表現学習

Representation Learning in a Decomposed Encoder Design for Bio-inspired Hebbian Learning ( http://arxiv.org/abs/2401.08603v1 )

ライセンス: Link先を確認
Achref Jaziri, Sina Ditzel, Iuliia Pliushch, Visvanathan Ramesh(参考訳) 現代のデータ駆動機械学習システムは、アーキテクチャ構造、不変性と等価性の要求、タスク固有損失関数、計算最適化ツールの帰納バイアスを利用する。 従来の研究では、人間の特定準不変フィルタの形でエンコーダの初期層における帰納バイアスが、学習した分類器の堅牢性と透明性を高めるために強力な帰納バイアスとなることが示されている。 本稿では, 局所可塑性規則を用いた表現学習の文脈, バイオインスパイアされたヘビアン学習について検討する。 本稿では,バイオインスパイアされたコントラッシブな予測符号化(Hinge CLAPP Loss)を訓練したモジュラーフレームワークを提案する。 私たちのフレームワークは、異なる不変なビジュアル記述子をインダクティブバイアスとして利用する並列エンコーダで構成されています。 我々は,様々な困難の画像データ(GTSRB, STL10, CODEBRIM)と映像データ(UCF101)の分類シナリオを用いて,システムの表現学習能力を評価する。 このような帰納的バイアスは,局所可塑性規則とバックプロパゲーションモデルとのギャップを狭め,より強固な表現を学習する上で有益であることが示唆された。

Modern data-driven machine learning system designs exploit inductive biases on architectural structure, invariance and equivariance requirements, task specific loss functions, and computational optimization tools. Previous works have illustrated that inductive bias in the early layers of the encoder in the form of human specified quasi-invariant filters can serve as a powerful inductive bias to attain better robustness and transparency in learned classifiers. This paper explores this further in the context of representation learning with local plasticity rules i.e. bio-inspired Hebbian learning . We propose a modular framework trained with a bio-inspired variant of contrastive predictive coding (Hinge CLAPP Loss). Our framework is composed of parallel encoders each leveraging a different invariant visual descriptor as an inductive bias. We evaluate the representation learning capacity of our system in a classification scenario on image data of various difficulties (GTSRB, STL10, CODEBRIM) as well as video data (UCF101). Our findings indicate that this form of inductive bias can be beneficial in closing the gap between models with local plasticity rules and backpropagation models as well as learning more robust representations in general.
翻訳日:2024-01-22 10:05:17 公開日:2023-11-22
# カリキュラム開発と理解のための文書注文機能分析

Functional Analytics for Document Ordering for Curriculum Development and Comprehension ( http://arxiv.org/abs/2312.09457v1 )

ライセンス: Link先を確認
Arturo N. Villanueva Jr. and Steven J. Simske(参考訳) 本稿では,(1)カリキュラム開発のための自動文書注文生成手法と(2)学習,トレーニング,その他のコンテンツシーケンスアプリケーションにおける最適な読解順序作成手法を提案する。 このようなテクニックは、理解力の向上、説明が必要な領域の特定、カリキュラムの生成、検索結果の改善に使用することができる。 まず、様々な方法で文書の類似性を利用する。 2つ目は、Latent Dirichlet Allocation (LDA)を通じて生成されたトピックの背景に対するエントロピーである。 また, 要約文書についても同様の手法を試し, 完全な文書を用いて得られた結果と比較した。 本研究の結果から,本手法では,制御文書群(伝記,小説,ウィキペディア記事)の文書順序を予測できなかったが,テスト文書(教科書,コース,ジャーナル論文,論文)の方が信頼性が高かった。 また,要約文書は注文目的の完全な文書に対して,優れた補足であったことも実証した。

We propose multiple techniques for automatic document order generation for (1) curriculum development and for (2) creation of optimal reading order for use in learning, training, and other content-sequencing applications. Such techniques could potentially be used to improve comprehension, identify areas that need expounding, generate curricula, and improve search engine results. We advance two main techniques: The first uses document similarities through various methods. The second uses entropy against the backdrop of topics generated through Latent Dirichlet Allocation (LDA). In addition, we try the same methods on the summarized documents and compare them against the results obtained using the complete documents. Our results showed that while the document orders for our control document sets (biographies, novels, and Wikipedia articles) could not be predicted using our methods, our test documents (textbooks, courses, journal papers, dissertations) provided more reliability. We also demonstrated that summarized documents were good stand-ins for the complete documents for the purposes of ordering.
翻訳日:2024-01-15 14:11:53 公開日:2023-11-22
# 粒子加速器の条件モデリングによるロバスト不活性ビームの予測

Robust Errant Beam Prognostics with Conditional Modeling for Particle Accelerators ( http://arxiv.org/abs/2312.10040v1 )

ライセンス: Link先を確認
kishansingh Rajput, Malachi Schram, Willem Blokland, Yasir Alanazi, Pradeep Ramuhalli, Alexander Zhukov, Charles Peters, Ricardo Vilalta(参考訳) 粒子加速器は複雑で何千もの部品で構成されており、多くの機器が最大出力で動作している。 その結果、粒子加速器は様々な理由で故障や停止の可能性がある。 これらの欠陥は、スケジュールされた実行中の粒子加速器の可用性に影響を与え、効率と全体の科学出力を妨げる。 これらの故障を回避するために,異常な挙動を予測し,粒子加速器の総合可用性を向上させるためのプリエンプティブ動作を行う異常検出手法を適用した。 半教師付き機械学習(ML)に基づく自動エンコーダや変分自動エンコーダのような異常検出アプローチは、そのようなタスクによく使用される。 しかし、シームズニューラルネットワーク(SNN)モデルのような教師付きML技術は、ラベル情報を活用することにより、教師なしまたは半教師なしのアプローチよりも優れている。 粒子加速器の異常検出に特有の課題の1つは、システム構成の変更によるデータの変動である。 この課題に対処するために,条件付きシアムニューラルネット(csnn)モデルと条件変動オートエンコーダ(cvae)モデルを用いて,スパレーション中性子源(sns)の異常ビームパルスを異なるシステム構成条件下で予測し,その性能を比較する。 CSNNがCVAEより優れていることを示す。

Particle accelerators are complex and comprise thousands of components, with many pieces of equipment running at their peak power. Consequently, particle accelerators can fault and abort operations for numerous reasons. These faults impact the availability of particle accelerators during scheduled run-time and hamper the efficiency and the overall science output. To avoid these faults, we apply anomaly detection techniques to predict any unusual behavior and perform preemptive actions to improve the total availability of particle accelerators. Semi-supervised Machine Learning (ML) based anomaly detection approaches such as autoencoders and variational autoencoders are often used for such tasks. However, supervised ML techniques such as Siamese Neural Network (SNN) models can outperform unsupervised or semi-supervised approaches for anomaly detection by leveraging the label information. One of the challenges specific to anomaly detection for particle accelerators is the data's variability due to system configuration changes. To address this challenge, we employ Conditional Siamese Neural Network (CSNN) models and Conditional Variational Auto Encoder (CVAE) models to predict errant beam pulses at the Spallation Neutron Source (SNS) under different system configuration conditions and compare their performance. We demonstrate that CSNN outperforms CVAE in our application.
翻訳日:2024-01-15 13:58:39 公開日:2023-11-22
# 変圧器ニューラルネットワークの効率的なトレーニングと推論のための位置整合性を備えた入力圧縮

Input Compression with Positional Consistency for Efficient Training and Inference of Transformer Neural Networks ( http://arxiv.org/abs/2312.12385v1 )

ライセンス: Link先を確認
Amrit Nagarajan and Anand Raghunathan(参考訳) 近年、トランスフォーマーは急速に普及し、テキスト、画像、オーディオ、ビデオの処理において最先端のパフォーマンスを達成した。 しかし、トランスフォーマーはトレーニングと推論の両方において大きな計算要件を示しており、トレーニング中にオーバーフィットしがちである。 これらの課題に対処するため、従来の拡張手法とは異なり、一般化とトレーニング効率の両方を同時に改善する新しいデータ拡張手法であるICPC(Input Compression with Positional Consistency)を提案する。 icpcは、各エポックのトレーニングサンプルに、さまざまなレベルの圧縮を適用する。 これにより、Transformerによって処理される入力シーケンスが小さくなり、トレーニングが高速化されると同時に、各入力を異なる圧縮レベルにすることでオーバーフィッティングが軽減される。 ICPC に整合性を考慮した位置選択手法を導入し,基礎となる Transformer アーキテクチャを変更することなく,圧縮入力の正確な処理を可能にする。 本稿では,4つのモーダルの圧縮に基づく拡張手法について詳述する。テキストの単語プルーニング,画像の解像度変調,ビデオの時空間分解能変調,音声のスペクトルサイズ変調である。 icpcはまた、サンプルがまず高い圧縮レベルで推論され、より困難な入力のためにより低い圧縮で徐々に再評価される効率的な可変エフォート推論を可能にする。 4つの異なるモードにまたがる9つのタスクにおいて、ICPCは最大1%の精度向上を実現し、トレーニングと推論を最大2.9Xと2.6Xに加速する。 コードはhttps://github.com/amrnag/icpc。

Transformers have rapidly increased in popularity in recent years, achieving state-of-the-art performance in processing text, images, audio and video. However, Transformers present large computational requirements for both training and inference, and are prone to overfitting during training. To address these challenges, we present Input Compression with Positional Consistency (ICPC), a new data augmentation method that, unlike prior augmentation techniques, simultaneously improves both generalization and training efficiency. ICPC applies varying levels of compression to each training sample in each epoch. This leads to smaller input sequences being processed by the Transformer, and hence faster training, while also alleviating overfitting by presenting each input with different compression levels. We introduce a consistency-aware position selection method in ICPC that enables accurate processing of compressed inputs without any changes to the underlying Transformer architecture. We detail compression-based augmentation methods for four different modalities -- insignificant word pruning for text, resolution modulation for images, spatio-temporal resolution modulation for videos, and spectogram size modulation for audio. ICPC also enables efficient variable-effort inference, where samples are first inferred at high compression levels, and progressively re-evaluated with lower compression for more challenging inputs. On 9 diverse tasks spanning 4 different modalities, ICPC improves accuracy by up to 1%, while also accelerating training and inference by up to 2.9X and 2.6X, respectively. Code is available at https://github.com/amrnag/ICPC.
翻訳日:2024-01-15 13:28:49 公開日:2023-11-22
# ドッキングに基づく新規薬物候補探索における生成的アプローチ

Docking-based generative approaches in the search for new drug candidates ( http://arxiv.org/abs/2312.13944v1 )

ライセンス: Link先を確認
Tomasz Danel, Jan {\L}\k{e}ski, Sabina Podlewska, Igor T. Podolak(参考訳) 既存の複合ライブラリの仮想スクリーニングの人気は高いが、新しい薬物候補の探索は、様々なアルゴリズムを用いて新しい複合提案を列挙する生成プロトコルも活用している。 生成的アプローチの活性力を高めるために、最近は構造ベースの薬物設計の主要な方法論である分子ドッキングと組み合わされた。 本稿ではドッキングに基づく生成モデルが出現して以来の進歩を概説する。 本稿では,これらの手法の新たな分類法を提案し,コンピュータ支援薬物設計分野におけるその重要性について論じる。 さらに,ドッキングと組み合わせた生成プロトコルのさらなる開発に向けた最も有望な方向性についても論じる。

Despite the great popularity of virtual screening of existing compound libraries, the search for new potential drug candidates also takes advantage of generative protocols, where new compound suggestions are enumerated using various algorithms. To increase the activity potency of generative approaches, they have recently been coupled with molecular docking, a leading methodology of structure-based drug design. In this review, we summarize progress since docking-based generative models emerged. We propose a new taxonomy for these methods and discuss their importance for the field of computer-aided drug design. In addition, we discuss the most promising directions for further development of generative protocols coupled with docking.
翻訳日:2024-01-15 13:13:18 公開日:2023-11-22
# 市場予測のための最適量子貯水池計算:食料価格危機対策への応用

Optimal quantum reservoir computing for market forecasting: An application to fight food price crises ( http://arxiv.org/abs/2401.03347v1 )

ライセンス: Link先を確認
L. Domingo, M. Grande, G. Carlo, F. Borondo, and J. Borondo(参考訳) 量子貯水池コンピューティング(qrc)の新たな技術は、ノイズ-中間スケール量子時代(nisq)において、その優れた効率性と適応性で際立っている。 量子コンピューティングのパワーを活用することで、食品価格危機予測(食品廃棄物と持続可能な食品連鎖の確立への重要な取り組み)への応用において示されるように、複雑な経済市場を解き放つ大きな可能性を秘めている。 それでも、その成功の重要な考慮事項は、量子貯水池の最適設計であり、現在のデバイスとの高性能と互換性を確保することである。 本稿では,貯水池の複雑さに基づいて,その目的のための効率的な基準を提供する。 本研究は,アルゴリズムの性能,特に外部回帰変数の欠如における最適設計の重要な役割を強調し,量子コンピューティングを用いた時系列予測の分野における新しい洞察と変換的応用の可能性を示した。

The emerging technology of quantum reservoir computing (QRC) stands out in the noisy-intermediate scale quantum era (NISQ) for its exceptional efficiency and adaptability. By harnessing the power of quantum computing, it holds a great potential to untangle complex economic markets, as demonstrated here in an application to food price crisis prediction - a critical effort in combating food waste and establishing sustainable food chains. Nevertheless, a pivotal consideration for its success is the optimal design of the quantum reservoirs, ensuring both high performance and compatibility with current devices. In this paper, we provide an efficient criterion for that purpose, based on the complexity of the reservoirs. Our results emphasize the crucial role of optimal design in the algorithm performance, especially in the absence of external regressor variables, showcasing the potential for novel insights and transformative applications in the field of time series prediction using quantum computing.
翻訳日:2024-01-15 09:19:52 公開日:2023-11-22
# 最適線形信号: 線形信号でPnLを最適化する教師なし機械学習フレームワーク

Optimal Linear Signal: An Unsupervised Machine Learning Framework to Optimize PnL with Linear Signals ( http://arxiv.org/abs/2401.05337v1 )

ライセンス: Link先を確認
Pierre Renucci(参考訳) 本研究では、定量的ファイナンスにおける利益と損失(PnL)の最適化のための教師なし機械学習手法を提案する。 本アルゴリズムは,線形回帰の教師なし変種と同様に,外部変数から線形に構築した信号から生成されるpnlのシャープ比を最大化する。 この手法は、パラメータ最適化によるシャープ比の最大化を目的として、外因性変数と取引信号の線形関係を用いる。 米国債を代表するETFへの実証的な適用は、過剰適合を緩和する正規化技術によって支持されるモデルの有効性を示す。 この研究は、一般化された時間ステップと改善された修正項を含む、さらなる発展への潜在的な道のりを結論付けている。

This study presents an unsupervised machine learning approach for optimizing Profit and Loss (PnL) in quantitative finance. Our algorithm, akin to an unsupervised variant of linear regression, maximizes the Sharpe Ratio of PnL generated from signals constructed linearly from exogenous variables. The methodology employs a linear relationship between exogenous variables and the trading signal, with the objective of maximizing the Sharpe Ratio through parameter optimization. Empirical application on an ETF representing U.S. Treasury bonds demonstrates the model's effectiveness, supported by regularization techniques to mitigate overfitting. The study concludes with potential avenues for further development, including generalized time steps and enhanced corrective terms.
翻訳日:2024-01-15 09:08:36 公開日:2023-11-22
# 物理拘束型ニューラルネットワークによる剛体化学動力学のロバスト学習

A Physics-Constrained NeuralODE Approach for Robust Learning of Stiff Chemical Kinetics ( http://arxiv.org/abs/2312.00038v1 )

ライセンス: Link先を確認
Tadbhagya Kumar, Anuj Kumar, Pinaki Pal(参考訳) 詳細な化学の解法に関連する高い計算コストは、乱流反応流の予測計算流体力学(CFD)シミュレーションに重大な課題をもたらす。 これらのモデルは、しばしば結合された強常微分方程式(ODE)の系を必要とする。 より高速なサロゲートモデルを開発するためにディープラーニング技術が実験されているが、CFDソルバと確実に統合できないことが多い。 この不安定性は、深層学習手法がodeソルバとの互換性を保証せずにトレーニングエラーを最適化し、時間とともにエラーの蓄積につながるため生じる。 近年,neuralodeに基づく手法は,化学動力学を効果的にモデル化することで,有望な解決法を提供している。 本研究では,トレーニング中の損失関数に直接質量保存制約を組み込むことにより,強固な化学動力学のためのニューロデドフレームワークを拡張する。 これにより、総質量と元素質量が保存されることが保証され、cfdソルバとの信頼性の高い下流統合のための重要な要件となる。 以上の結果から, この強化は, 物質保存基準に対する物理的整合性を向上するだけでなく, より堅牢性を確保し, トレーニングプロセスをより効率的にすることを示す。

The high computational cost associated with solving for detailed chemistry poses a significant challenge for predictive computational fluid dynamics (CFD) simulations of turbulent reacting flows. These models often require solving a system of coupled stiff ordinary differential equations (ODEs). While deep learning techniques have been experimented with to develop faster surrogate models, they often fail to integrate reliably with CFD solvers. This instability arises because deep learning methods optimize for training error without ensuring compatibility with ODE solvers, leading to accumulation of errors over time. Recently, NeuralODE-based techniques have offered a promising solution by effectively modeling chemical kinetics. In this study, we extend the NeuralODE framework for stiff chemical kinetics by incorporating mass conservation constraints directly into the loss function during training. This ensures that the total mass and the elemental mass are conserved, a critical requirement for reliable downstream integration with CFD solvers. Our results demonstrate that this enhancement not only improves the physical consistency with respect to mass conservation criteria but also ensures better robustness and makes the training process more computationally efficient.
翻訳日:2023-12-11 03:57:05 公開日:2023-11-22
# マルチインテント音声言語理解のためのコガイド

Co-guiding for Multi-intent Spoken Language Understanding ( http://arxiv.org/abs/2312.03716v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) 近年のマルチインテントsluのグラフベースモデルでは,スロット充填の復号化に対する意図予測からガイダンスのモデル化により有望な結果が得られた。 しかし,既存の手法は(1)インテントからスロットへの一方向誘導のみをモデル化し,(2)インテントとスロットの間には双方向の相互相関が存在する;(2)スロットセマンティクスノードとインテントラベルノード間の相互作用をモデル化するために同質なグラフを採用し,性能を制限している。 本稿では,この2つのタスク間の相互ガイダンスを実現する2段階フレームワークを実装した,コガイドネットと呼ばれる新しいモデルを提案する。 第1段階では、両タスクの初期推定ラベルが生成され、その後第2段階で活用され、相互指導をモデル化する。 具体的には,提案する2つの異種セマンティクスラベルグラフに対して,セマンティクスノードとラベルノードの関係を効果的に表現する2つの異種グラフアテンションネットワークを提案する。 さらに,シングルタスクとデュアルタスクのセマンティクスを対比的に利用する共誘導sclネットを提案する。 第1段階では,単タスク教師ありコントラスト学習を提案し,第2段階では,コントラスト学習手順における2つのタスクの相互指導を考慮した共同ガイド型教師ありコントラスト学習を提案する。 マルチインテントslu実験の結果,本モデルが既存のモデルよりも高いマージンを示し,これまでのmixatisデータセットのベストモデルと比較して21.3%の相対的改善率を得た。 また,ゼロショット・クロスランガルのシナリオをモデルとして評価した結果,全9言語に対して平均33.5%の精度で最先端のモデルを改善できることが示唆された。

Recent graph-based models for multi-intent SLU have obtained promising results through modeling the guidance from the prediction of intents to the decoding of slot filling. However, existing methods (1) only model the unidirectional guidance from intent to slot, while there are bidirectional inter-correlations between intent and slot; (2) adopt homogeneous graphs to model the interactions between the slot semantics nodes and intent label nodes, which limit the performance. In this paper, we propose a novel model termed Co-guiding Net, which implements a two-stage framework achieving the mutual guidances between the two tasks. In the first stage, the initial estimated labels of both tasks are produced, and then they are leveraged in the second stage to model the mutual guidances. Specifically, we propose two heterogeneous graph attention networks working on the proposed two heterogeneous semantics label graphs, which effectively represent the relations among the semantics nodes and label nodes. Besides, we further propose Co-guiding-SCL Net, which exploits the single-task and dual-task semantics contrastive relations. For the first stage, we propose single-task supervised contrastive learning, and for the second stage, we propose co-guiding supervised contrastive learning, which considers the two tasks' mutual guidances in the contrastive learning procedure. Experiment results on multi-intent SLU show that our model outperforms existing models by a large margin, obtaining a relative improvement of 21.3% over the previous best model on MixATIS dataset in overall accuracy. We also evaluate our model on the zero-shot cross-lingual scenario and the results show that our model can relatively improve the state-of-the-art model by 33.5% on average in terms of overall accuracy for the total 9 languages.
翻訳日:2023-12-11 03:21:04 公開日:2023-11-22
# 変圧器算術における位置記述事項

Positional Description Matters for Transformers Arithmetic ( http://arxiv.org/abs/2311.14737v1 )

ライセンス: Link先を確認
Ruoqi Shen, S\'ebastien Bubeck, Ronen Eldan, Yin Tat Lee, Yuanzhi Li, Yi Zhang(参考訳) トランスフォーマーは、現代の自然言語処理の成功の中心であり、その膨大な能力にもかかわらず、算術的なタスクに固執することが多い。 決定的な課題は、少数の桁数で算術問題を解くために位置情報に頼ることであり、大きな数では性能が劣るということである。 本稿では, 位置符号化の役割を深く掘り下げ, 位置符号化を直接修正するか, あるいは算術的タスクの表現を変更し, 標準的な位置符号化を別々に活用することによって, 問題を解決する方法をいくつか提案する。 3つのタスクに対するこれらの修正の価値について検討する。 (i)古典的な乗法 (ii)長さの補間、及び (iii)自然言語の文脈での追加。 のために (i)小さなデータセット(100Mパラメータと300kサンプル)上の小さなモデルをトレーニングし、(直接、スクラッチパッドなしで)15桁の乗算に顕著な適性を持ち、本質的に12桁まで完璧である一方、この文脈での通常のトレーニングは、4桁の乗算で失敗するモデルを与える。 追加実験では、わずか120kのサンプルを使って示す。 (ii) 10桁から12桁の数字への外挿は、通常の訓練では外挿がなく、 (iii) ほぼ完全な精度は5桁までだが、通常のトレーニングでは3桁までしか修正できない(これは基本的に120kサンプルのトレーニングセットで記憶される)。

Transformers, central to the successes in modern Natural Language Processing, often falter on arithmetic tasks despite their vast capabilities --which paradoxically include remarkable coding abilities. We observe that a crucial challenge is their naive reliance on positional information to solve arithmetic problems with a small number of digits, leading to poor performance on larger numbers. Herein, we delve deeper into the role of positional encoding, and propose several ways to fix the issue, either by modifying the positional encoding directly, or by modifying the representation of the arithmetic task to leverage standard positional encoding differently. We investigate the value of these modifications for three tasks: (i) classical multiplication, (ii) length extrapolation in addition, and (iii) addition in natural language context. For (i) we train a small model on a small dataset (100M parameters and 300k samples) with remarkable aptitude in (direct, no scratchpad) 15 digits multiplication and essentially perfect up to 12 digits, while usual training in this context would give a model failing at 4 digits multiplication. In the experiments on addition, we use a mere 120k samples to demonstrate: for (ii) extrapolation from 10 digits to testing on 12 digits numbers while usual training would have no extrapolation, and for (iii) almost perfect accuracy up to 5 digits while usual training would be correct only up to 3 digits (which is essentially memorization with a training set of 120k samples).
翻訳日:2023-12-03 13:44:46 公開日:2023-11-22
# @ve:ラテン文字のチャットボット

@ve: A Chatbot for Latin ( http://arxiv.org/abs/2311.14741v1 )

ライセンス: Link先を確認
Oliver Bendel and Karim N'diaye(参考訳) 死語、絶滅語、絶滅危惧言語は、主に音声の保存とスクリプトの収集とデジタル化によって保存され、ターゲット言語獲得の取り組みを通じて促進されてきた。 もう一つの可能性は、これらの言語をマスターできる会話エージェントを構築することである。 これは、語彙と文法の知識を持ち、異なる方法で学習する人工的でアクティブな会話パートナーを提供する。 ラテン語でコミュニケーションできるチャットボット@veは、GPT-3.0に基づいて2022/2023年に開発された。 また、手作業による知識ベースも備えていた。 概念的基礎研究の後,本稿ではプロジェクトの準備と実施について述べる。 さらに、ラテンの専門家がチャットボットで行ったテストも要約している。 批判的な議論は長所と短所を詳述する。 veは、対話を通じて記憶に残る楽しい方法でラテン語を教えるための新しいツールになるかもしれない。 しかし、現在の実装は、スタンドアロンのusei.eの不具合に陥りやすい。 教師の伴奏なしに GPT-4の使用は、知識ベースの拡張と同様にソリューションになり得る。 結論として、会話エージェントは言語を促進・保存するための革新的なアプローチであると言える。

Dead, extinct, and endangered languages have been preserved primarily through audio conservation and the collection and digitization of scripts and have been promoted through targeted language acquisition efforts. Another possibility would be to build conversational agents that can master these languages. This would provide an artificial, active conversational partner which has knowledge of the vocabulary and grammar, and one learns with it in a different way. The chatbot @ve, with which one can communicate in Latin, was developed in 2022/2023 based on GPT-3.0. It was additionally equipped with a manually created knowledge base. After conceptual groundwork, this paper presents the preparation and implementation of the project. In addition, it summarizes the test that a Latin expert conducted with the chatbot. A critical discussion elaborates advantages and disadvantages. @ve could be a new tool for teaching Latin in a memorable and entertaining way through dialogue. However, the present implementation is still too prone to glitches for stand-alone use - i.e., without the accompaniment of a teacher. The use of GPT-4 could be a solution as well as the extension of the knowledge base. In conclusion, it can be argued that conversational agents are an innovative approach to promoting and preserving languages.
翻訳日:2023-12-03 13:27:37 公開日:2023-11-22
# AutoKG: 言語モデルのための効率的な知識グラフ生成

AutoKG: Efficient Automated Knowledge Graph Generation for Language Models ( http://arxiv.org/abs/2311.14740v1 )

ライセンス: Link先を確認
Bohan Chen and Andrea L. Bertozzi(参考訳) 大きな言語モデル(LLM)を意味的類似性探索によって知識ベースにリンクする従来の手法は、複雑な関係力学を捉えるには不十分であることが多い。 これらの制約に対処するため,自動知識グラフ構築のための軽量かつ効率的なアプローチであるAutoKGを導入する。 テキストブロックからなる与えられた知識ベースに対して、AutoKGはまずLLMを用いてキーワードを抽出し、グラフラプラス学習を用いて各キーワード間の関係重みを評価する。 我々は,ベクトル類似性とグラフに基づく関連性を組み合わせたハイブリッド探索手法を用いてLLM応答を増強する。 予備的な実験により、AutoKGは意味的類似性探索よりも包括的で相互接続された知識検索機構を提供しており、より洞察に富み、関連する出力を生成するLLMの能力を高めることが示されている。

Traditional methods of linking large language models (LLMs) to knowledge bases via the semantic similarity search often fall short of capturing complex relational dynamics. To address these limitations, we introduce AutoKG, a lightweight and efficient approach for automated knowledge graph (KG) construction. For a given knowledge base consisting of text blocks, AutoKG first extracts keywords using a LLM and then evaluates the relationship weight between each pair of keywords using graph Laplace learning. We employ a hybrid search scheme combining vector similarity and graph-based associations to enrich LLM responses. Preliminary experiments demonstrate that AutoKG offers a more comprehensive and interconnected knowledge retrieval mechanism compared to the semantic similarity search, thereby enhancing the capabilities of LLMs in generating more insightful and relevant outputs.
翻訳日:2023-12-03 13:27:22 公開日:2023-11-22
# エッジにおける高能率深部音声理解

Efficient Deep Speech Understanding at the Edge ( http://arxiv.org/abs/2311.17065v1 )

ライセンス: Link先を確認
Rongxiang Wang and Felix Lin(参考訳) リアルタイム音声入力をキャプチャするパイプラインは、ビーム検索によって拡張されたエンコーダ-デコーダアーキテクチャを備えたディープニューラルネットワークを包含する。 このネットワークは、注意度を定期的に評価し、コネクショニストの時間分類(CTC)は自己回帰出力のスコアを出力する。 本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。 デバイス上での実行を加速し、デバイス上のモデルの能力を超える入力を効率的に処理する。 これらの目標は十分に確立されているが、su特有の課題を具体的に解決する革新的なソリューションを導入する。 1. 遅延コンテキスト化: 入力の取り込み中にモデルの注意エンコーダの並列実行を可能にする。 2. パイロットデコード: 一時的な負荷不均衡を緩和する。 3. 自己回帰オフランプ:部分出力シーケンスに基づいてオフロード決定を行う。 我々の技術は既存のSUモデル、パイプライン、フレームワークとシームレスに統合され、独立的または複合的なアプリケーションを可能にします。 これらを合わせて,プロトタイプであるXYZで実証したエッジSUのハイブリッドソリューションを構成する。 6-8のArmコアを備えたプラットフォーム上で評価を行い,本システムではSOTA(State-of-the-Art)の精度を実現し,エンドツーエンドのレイテンシを2倍に削減し,オフロード要求を半減する。

Contemporary Speech Understanding (SU) involves a sophisticated pipeline: capturing real-time voice input, the pipeline encompasses a deep neural network with an encoder-decoder architecture enhanced by beam search. This network periodically assesses attention and Connectionist Temporal Classification (CTC) scores in its autoregressive output. This paper aims to enhance SU performance on edge devices with limited resources. It pursues two intertwined goals: accelerating on-device execution and efficiently handling inputs that surpass the on-device model's capacity. While these objectives are well-established, we introduce innovative solutions that specifically address SU's distinctive challenges: 1. Late contextualization: Enables the parallel execution of a model's attentive encoder during input ingestion. 2. Pilot decoding: Alleviates temporal load imbalances. 3. Autoregression offramps: Facilitate offloading decisions based on partial output sequences. Our techniques seamlessly integrate with existing SU models, pipelines, and frameworks, allowing for independent or combined application. Together, they constitute a hybrid solution for edge SU, exemplified by our prototype, XYZ. Evaluated on platforms equipped with 6-8 Arm cores, our system achieves State-of-the-Art (SOTA) accuracy, reducing end-to-end latency by 2x and halving offloading requirements.
翻訳日:2023-12-03 13:07:55 公開日:2023-11-22
# 学習推論スキルにおける長さ一般化条件

Conditions for Length Generalization in Learning Reasoning Skills ( http://arxiv.org/abs/2311.16173v1 )

ライセンス: Link先を確認
Changnan Xiao and Bing Liu(参考訳) 推論はAIエージェントの基本的な能力である。 近年,大規模言語モデル (LLM) は推論タスクの実行能力が著しく向上している。 しかし、LSMの推論能力に関する多くの評価もいくつかの制限を示している。 つまり、より小さい長さや大きさの推論問題を訓練すると、結果として得られるモデルはより大きなサイズや長さの問題に直面する。 これは推論スキルの学習における一般化の理論的限界を示す可能性がある。 これらの評価とその観察は、長さ一般化問題の理論的研究を動機づけた。 この研究は、マルコフ動的プロセス(MDP)および/または有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てた。 特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。 理論的結果を検証する実験も行われている。

Reasoning is a fundamental capability of AI agents. Recently, large language models (LLMs) have shown remarkable abilities to perform reasoning tasks. However, numerous evaluations of the reasoning capabilities of LLMs have also showed some limitations. An outstanding limitation is length generalization, meaning that when trained on reasoning problems of smaller lengths or sizes, the resulting models struggle with problems of larger sizes or lengths. This potentially indicates some theoretical limitations of generalization in learning reasoning skills. These evaluations and their observations motivated us to perform a theoretical study of the length generalization problem. This work focused on reasoning tasks that can be formulated as Markov dynamic processes (MDPs) and/or directed acyclic graphs (DAGs). It identifies and proves conditions that decide whether the length generalization problem can be solved or not for a reasoning task in a particular representation. Experiments are also conducted to verify the theoretical results.
翻訳日:2023-12-03 13:06:13 公開日:2023-11-22
# タンパク質設計のためのAlphaFold蒸留

AlphaFold Distillation for Protein Design ( http://arxiv.org/abs/2210.03488v2 )

ライセンス: Link先を確認
Igor Melnyk, Aurelie Lozano, Payel Das, Vijil Chenthamarakshan(参考訳) 逆タンパク質の折り畳み(逆タンパク質折り畳み)は、特定の3次元構造に折り畳まれる配列を設計するプロセスであり、バイオエンジニアリングと薬物発見に不可欠である。 従来の手法は実験的に解決された構造に依存しているが、これらはわずかにタンパク質配列をカバーするだけである。 alphafoldのような前方折り畳みモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。 しかし、これらのモデルはトレーニング中に逆折り畳みモデルの最適化ループに統合するには遅すぎる。 そこで本研究では,ptmやplddtスコアなど折り畳みモデルの信頼度指標に対する知識蒸留を用いて,より高速でエンドツーエンドの微分可能な蒸留モデルを作成することを提案する。 このモデルは、逆折り畳みモデルのトレーニングにおいて構造整合正則化器として使用できる。 我々の技術は汎用的で、配列ベースのタンパク質の注入など他の設計タスクにも適用できる。 実験結果から,本手法は非正規化ベースラインよりも優れた性能を示し,配列回復の最大3%,タンパク質多様性の最大45%,生成配列の構造的整合性を維持した。 コードはhttps://github.com/IBM/AFDistillで入手できる。

Inverse protein folding, the process of designing sequences that fold into a specific 3D structure, is crucial in bio-engineering and drug discovery. Traditional methods rely on experimentally resolved structures, but these cover only a small fraction of protein sequences. Forward folding models like AlphaFold offer a potential solution by accurately predicting structures from sequences. However, these models are too slow for integration into the optimization loop of inverse folding models during training. To address this, we propose using knowledge distillation on folding model confidence metrics, such as pTM or pLDDT scores, to create a faster and end-to-end differentiable distilled model. This model can then be used as a structure consistency regularizer in training the inverse folding model. Our technique is versatile and can be applied to other design tasks, such as sequence-based protein infilling. Experimental results show that our method outperforms non-regularized baselines, yielding up to 3% improvement in sequence recovery and up to 45% improvement in protein diversity while maintaining structural consistency in generated sequences. Code is available at https://github.com/IBM/AFDistill
翻訳日:2023-11-28 05:10:10 公開日:2023-11-22
# 発振器の高次発振器への最適符号化

Optimal encoding of oscillators into more oscillators ( http://arxiv.org/abs/2212.11970v4 )

ライセンス: Link先を確認
Jing Wu, Anthony J. Brady and Quntao Zhuang(参考訳) 量子情報の調和振動子へのボソニック符号化は、バトルノイズに対するハードウェア効率の良いアプローチである。 この点において、発振器-オシレータ符号はボソニック符号化における追加の機会を提供するだけでなく、量子センシングや通信においてユビキタスな連続可変状態への誤り訂正の適用性も拡張する。 本研究では,同種雑音に対するゴッテマン・キタエフ・プレススキル(GKP)-スタビライザー符号の一般家系間で最適な発振器・オシレータ符号を導出する。 任意のGKP安定化コードを一般化GKP2モードスケザリング(TMS)コードに還元できることを示す。 幾何平均誤差を最小限に抑える最適符号化は、最適化されたGKP格子とTMSゲインを持つGKP-TMS符号から構築することができる。 単一モードデータやアンシラに対しては,この最適符号設計問題を効率よく解くことができ,また,六角形GKP格子が従来採用されていた2乗格子よりも最適かつ厳密であることを示す数値的証拠も提供する。 マルチモードの場合、一般的なGKP格子最適化は困難である。 2モードデータとアンシラケースでは、d4格子(4次元密充填格子)を低次元格子の積よりも優れていると同定する。 副産物として, アンシラがGKP状態でない場合でも, ガウス符号に基づく任意の発振器-オシレータ符号に対する普遍的非閾値定理を証明できる。

Bosonic encoding of quantum information into harmonic oscillators is a hardware efficient approach to battle noise. In this regard, oscillator-to-oscillator codes not only provide an additional opportunity in bosonic encoding, but also extend the applicability of error correction to continuous-variable states ubiquitous in quantum sensing and communication. In this work, we derive the optimal oscillator-to-oscillator codes among the general family of Gottesman-Kitaev-Preskill (GKP)-stablizer codes for homogeneous noise. We prove that an arbitrary GKP-stabilizer code can be reduced to a generalized GKP two-mode-squeezing (TMS) code. The optimal encoding to minimize the geometric mean error can be constructed from GKP-TMS codes with an optimized GKP lattice and TMS gains. For single-mode data and ancilla, this optimal code design problem can be efficiently solved, and we further provide numerical evidence that a hexagonal GKP lattice is optimal and strictly better than the previously adopted square lattice. For the multimode case, general GKP lattice optimization is challenging. In the two-mode data and ancilla case, we identify the D4 lattice -- a 4-dimensional dense-packing lattice -- to be superior to a product of lower dimensional lattices. As a by-product, the code reduction allows us to prove a universal no-threshold-theorem for arbitrary oscillators-to-oscillators codes based on Gaussian encoding, even when the ancilla are not GKP states.
翻訳日:2023-11-28 04:57:17 公開日:2023-11-22
# 関数空間におけるスコアベース拡散モデル

Score-based Diffusion Models in Function Space ( http://arxiv.org/abs/2302.07400v2 )

ライセンス: Link先を確認
Jae Hyun Lim, Nikola B. Kovachki, Ricardo Baptista, Christopher Beckham, Kamyar Azizzadenesheli, Jean Kossaifi, Vikram Voleti, Jiaming Song, Karsten Kreis, Jan Kautz, Christopher Pal, Arash Vahdat, Anima Anandkumar(参考訳) 拡散モデルは最近、生成的モデリングの強力なフレームワークとして登場した。 これらはガウスホワイトノイズで入力データを摂動する前処理と、スコア関数を学習してサンプルを生成する逆処理から構成される。 その大きな成功にもかかわらず、ユークリッドのような有限次元空間で定式化され、科学計算や3次元幾何データ解析のような機能的な形式を持つ多くの領域にその応用を制限している。 本研究では,関数空間における拡散モデルを訓練するための数理的厳密なフレームワークであるdenoising diffusion operators (ddos)を提案する。 DDOでは、フォワードプロセスはガウス過程を用いて徐々に入力関数を摂動する。 生成過程は、関数値ランゲヴィンダイナミクスを統合することによって定式化される。 この手法には摂動データ分布に対するスコアの適切な概念が必要であり、無限次元の関数空間に一致する denoising score を一般化することで得られる。 データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。 我々は,ガウスランダム場(GRF)から強制力のプッシュフォワード分布と見なされるNavier-Stokes方程式に対する解の生成を含む,一連の問題に対する我々のアプローチの適用性について理論的に数値的に検証する。

Diffusion models have recently emerged as a powerful framework for generative modeling. They consist of a forward process that perturbs input data with Gaussian white noise and a reverse process that learns a score function to generate samples by denoising. Despite their tremendous success, they are mostly formulated on finite-dimensional spaces, e.g. Euclidean, limiting their applications to many domains where the data has a functional form such as in scientific computing and 3D geometric data analysis. In this work, we introduce a mathematically rigorous framework called Denoising Diffusion Operators (DDOs) for training diffusion models in function space. In DDOs, the forward process perturbs input functions gradually using a Gaussian process. The generative process is formulated by integrating a function-valued Langevin dynamic. Our approach requires an appropriate notion of the score for the perturbed data distribution, which we obtain by generalizing denoising score matching to function spaces that can be infinite-dimensional. We show that the corresponding discretized algorithm generates accurate samples at a fixed cost that is independent of the data resolution. We theoretically and numerically verify the applicability of our approach on a set of problems, including generating solutions to the Navier-Stokes equation viewed as the push-forward distribution of forcings from a Gaussian Random Field (GRF).
翻訳日:2023-11-28 04:43:46 公開日:2023-11-22
# カオスシステムの統計的予測におけるモデルスケールとドメイン知識

Model scale versus domain knowledge in statistical forecasting of chaotic systems ( http://arxiv.org/abs/2303.08011v3 )

ライセンス: Link先を確認
William Gilpin(参考訳) カオスと予測不能は伝統的に同義であるが、大規模な機械学習手法は最近、典型的な予測可能性の地平線を越えてカオスシステムを予測できる驚くべき能力を示している。 しかし、最近の研究は、リザーバコンピュータや神経常微分方程式のような力学系理論において、トランスフォーマーやリカレントニューラルネットワークのような汎用大規模学習法を上回っているかどうかに異を唱えている。 これらの先行研究は、個々のチョーセンカオス系の比較を行い、異なるカオス系の統計モデル選択と動的不変量がどのように経験的予測可能性を決定するかのロバストな定量化を導いた。 ここでは, カオス予測の古典的問題に対する予測手法について, 最新の比較研究を行い, クラウドソーシングによる135の低次元システムと17の予測指標の24の予測手法を比較検討した。 大規模でドメインに依存しない予測手法は、一貫して2ダース程度のリアプノフ時間まで正確な予測を生成し、古典的手法をはるかに超えた新たなロングホリゾン予測方式にアクセスする。 この方法では、精度はライプノフ指数のような予測可能性の古典的な不変量測度と相関する。 しかし, 長方形構造以外のデータ制限環境では, 物理学に基づくハイブリッド手法は, 強い帰納的バイアスのため, 比較優位であることがわかった。

Chaos and unpredictability are traditionally synonymous, yet large-scale machine learning methods recently have demonstrated a surprising ability to forecast chaotic systems well beyond typical predictability horizons. However, recent works disagree on whether specialized methods grounded in dynamical systems theory, such as reservoir computers or neural ordinary differential equations, outperform general-purpose large-scale learning methods such as transformers or recurrent neural networks. These prior studies perform comparisons on few individually-chosen chaotic systems, thereby precluding robust quantification of how statistical modeling choices and dynamical invariants of different chaotic systems jointly determine empirical predictability. Here, we perform the largest to-date comparative study of forecasting methods on the classical problem of forecasting chaos: we benchmark 24 state-of-the-art forecasting methods on a crowdsourced database of 135 low-dimensional systems with 17 forecast metrics. We find that large-scale, domain-agnostic forecasting methods consistently produce predictions that remain accurate up to two dozen Lyapunov times, thereby accessing a new long-horizon forecasting regime well beyond classical methods. We find that, in this regime, accuracy decorrelates with classical invariant measures of predictability like the Lyapunov exponent. However, in data-limited settings outside the long-horizon regime, we find that physics-based hybrid methods retain a comparative advantage due to their strong inductive biases.
翻訳日:2023-11-28 04:29:30 公開日:2023-11-22
# FAVANO: 非同期NOdesを使ったフェデレーションアベリング

FAVANO: Federated AVeraging with Asynchronous NOdes ( http://arxiv.org/abs/2305.16099v2 )

ライセンス: Link先を確認
Louis Leconte, Van Minh Nguyen, Eric Moulines(参考訳) 本稿では,資源制約環境下で深層ニューラルネットワーク(dnn)をトレーニングするための,新しい集中型非同期フェデレーション学習(fl)フレームワークfavanoを提案する。 その人気にもかかわらず、`classical'の連合学習は、大規模無線ネットワーク上での同期通信をスケールすることの難しさに直面している。 さらに、クライアントは一般的に異なるコンピューティングリソースを持つため、更新が非同期である場合には、大きなバイアス(‘fast’クライアントに有利)が発生する可能性がある。 したがって、FLの実践的な展開には、通信/リソース制約設定において、強力な計算速度を持つユーザを扱う必要がある。 我々は,スムースな非凸環境におけるfavanoの収束保証を提供し,得られた収束保証を既存の境界と比較する。 実験の結果,FAVANOアルゴリズムは標準ベンチマークにおける現在の手法よりも優れていることがわかった。

In this paper, we propose a novel centralized Asynchronous Federated Learning (FL) framework, FAVANO, for training Deep Neural Networks (DNNs) in resource-constrained environments. Despite its popularity, ``classical'' federated learning faces the increasingly difficult task of scaling synchronous communication over large wireless networks. Moreover, clients typically have different computing resources and therefore computing speed, which can lead to a significant bias (in favor of ``fast'' clients) when the updates are asynchronous. Therefore, practical deployment of FL requires to handle users with strongly varying computing speed in communication/resource constrained setting. We provide convergence guarantees for FAVANO in a smooth, non-convex environment and carefully compare the obtained convergence guarantees with existing bounds, when they are available. Experimental results show that the FAVANO algorithm outperforms current methods on standard benchmarks.
翻訳日:2023-11-28 04:19:13 公開日:2023-11-22
# WOT-Class: オープンワールドのテキスト分類を監督

WOT-Class: Weakly Supervised Open-world Text Classification ( http://arxiv.org/abs/2305.12401v2 )

ライセンス: Link先を確認
Tianle Wang, Zihan Wang, Weitang Liu and Jingbo Shang(参考訳) 最先端の教師付きテキスト分類法は、必要な人間の監督を著しく減らしたが、それでもすべての関心のクラスをカバーするために監督が必要である。 これは、人間が完全な写真なしで新しい大きなコーパスを探索するとき、実際に会うことは容易ではない。 本稿では,いくつかの既知のクラスを例に挙げた上で,機械が既知のクラスと未知のクラスの両方をテスト時間内に扱えるような,弱教師付きオープンワールドテキスト分類の新たな課題について検討する。 一般のオープンワールド分類は、主に画像分類を用いて研究されているが、既存の手法では、十分な既知のクラス監督と強力な未知のクラス事前知識(例えば、数とデータ分布)が利用できると想定されている。 本稿では,これらの強い仮定を浮き彫りにする新しいフレームワーク WOT-Class を提案する。 具体的には 反復的なプロセスに従います (a)新しいクラスへのテキストのクラスタリング。 b)各階級の指示語をマイニングし、ランク付けすること (c)重複した指示語をブリッジとして使用して冗長クラスをマージすること。 7つの人気のあるテキスト分類データセットに対する大規模な実験により、WOT-Classは強いベースラインと大きなマージンを一貫して上回り、すべてのデータセットにまたがる既存のアプローチよりも23.33%高い平均絶対マクロF1を達成した。 このような有能な精度は、テキスト分類に対する人間の努力をさらに減らす実用的な可能性を照らしている。

State-of-the-art weakly supervised text classification methods, while significantly reduced the required human supervision, still requires the supervision to cover all the classes of interest. This is never easy to meet in practice when human explore new, large corpora without complete pictures. In this paper, we work on a novel yet important problem of weakly supervised open-world text classification, where supervision is only needed for a few examples from a few known classes and the machine should handle both known and unknown classes in test time. General open-world classification has been studied mostly using image classification; however, existing methods typically assume the availability of sufficient known-class supervision and strong unknown-class prior knowledge (e.g., the number and/or data distribution). We propose a novel framework WOT-Class that lifts those strong assumptions. Specifically, it follows an iterative process of (a) clustering text to new classes, (b) mining and ranking indicative words for each class, and (c) merging redundant classes by using the overlapped indicative words as a bridge. Extensive experiments on 7 popular text classification datasets demonstrate that WOT-Class outperforms strong baselines consistently with a large margin, attaining 23.33% greater average absolute macro-F1 over existing approaches across all datasets. Such competent accuracy illuminates the practical potential of further reducing human effort for text classification.
翻訳日:2023-11-28 04:17:07 公開日:2023-11-22
# パラメータ依存ハミルトニアンの断熱駆動と並列輸送

Adiabatic driving and parallel transport for parameter-dependent Hamiltonians ( http://arxiv.org/abs/2305.01125v2 )

ライセンス: Link先を確認
A. D. Berm\'udez Manjarres and A. Botero(参考訳) 我々はVan Vleck-Primas摂動理論を用いてパラメータ依存ハミルトニアンの固有ベクトルの平行輸送の問題を研究する。 摂動的アプローチにより、固有ベクトルのユニタリ変換を通じて平行変換を生成する非アベル接続 $\mathcal{A}$ を定義することができる。 摂動アプローチによって得られる接続は、ハミルトニアンによって生成される1パラメータ部分群のマウラー・カルタン 1-形式の平均であることが示されている。 ヤン・ミルズ曲率と非アーベル・ストークスの定理を用いて、接続 $\mathcal{a}$ のホロノミーがベリー相と関連していることを示す。

We use the Van Vleck-Primas perturbation theory to study the problem of parallel transport of the eigenvectors of a parameter-dependent Hamiltonian. The perturbative approach allows us to define a non-Abelian connection $\mathcal{A}$ that generates parallel translation via unitary transformation of the eigenvectors. It is shown that the connection obtained via the perturbative approach is an average of the Maurer-Cartan 1-form of the one-parameter subgroup generated by the Hamiltonian. We use the Yang-Mills curvature and the non-Abelian Stokes' theorem to show that the holonomy of the connection $\mathcal{A}$ is related to the Berry phase.
翻訳日:2023-11-28 04:15:29 公開日:2023-11-22
# 野生のカメラを為す:野生のモノクロカメラのキャリブレーション

Tame a Wild Camera: In-the-Wild Monocular Camera Calibration ( http://arxiv.org/abs/2306.10988v2 )

ライセンス: Link先を確認
Shengjie Zhu, Abhinav Kumar, Masa Hu and Xiaoming Liu(参考訳) 例えば、深度推定や3次元物体検出といった単眼画像の3Dセンシングの重要性が高まっている。 しかし、未知の固有のパラメータは、開発とデプロイメントを妨げる。 単眼カメラのキャリブレーションの以前の方法は、チェッカーボードの使用やマンハッタンワールドの仮定の強制など、特定の3dオブジェクトや強い幾何学に先立って依存していた。 この研究は、モノクル3Dを前もって利用することで、問題を他の視点から解決する。 提案手法は仮定自由であり,dof(dof)内在パラメータを4ドルに満たしている。 まず,本質的解は2つのよく研究された単眼前駆体,すなわち単眼深度マップと表面正規写像から解くことを実証する。 しかし、この解は深さ推定の低バイアスかつ低分散要求を課す。 あるいは、3次元空間の点と2次元イメージング平面の画素の間の入射光として定義される新しい単分子3D前兆、入射場を導入する。 入射場は、画像のトリミングと再サイズに固有の不変量の画素単位のパラメトリゼーションである。 推定推定入射場により、ロバストなRANSACアルゴリズムが本質的に回復する。 合成およびゼロショットテストデータセットにおいて優れた性能を示すことにより,本手法の有効性を示す。 キャリブレーション以外にも,画像操作検出と復元,アンキャリブド2視点ポーズ推定,および3次元センシングにおける下流の応用例を示す。 コード、モデル、データはhttps://github.com/shngjz/wildcameraに保持される。

3D sensing for monocular in-the-wild images, e.g., depth estimation and 3D object detection, has become increasingly important. However, the unknown intrinsic parameter hinders their development and deployment. Previous methods for the monocular camera calibration rely on specific 3D objects or strong geometry prior, such as using a checkerboard or imposing a Manhattan World assumption. This work solves the problem from the other perspective by exploiting the monocular 3D prior. Our method is assumption-free and calibrates the complete $4$ Degree-of-Freedom (DoF) intrinsic parameters. First, we demonstrate intrinsic is solved from two well-studied monocular priors, i.e., monocular depthmap, and surface normal map. However, this solution imposes a low-bias and low-variance requirement for depth estimation. Alternatively, we introduce a novel monocular 3D prior, the incidence field, defined as the incidence rays between points in 3D space and pixels in the 2D imaging plane. The incidence field is a pixel-wise parametrization of the intrinsic invariant to image cropping and resizing. With the estimated incidence field, a robust RANSAC algorithm recovers intrinsic. We demonstrate the effectiveness of our method by showing superior performance on synthetic and zero-shot testing datasets. Beyond calibration, we demonstrate downstream applications in image manipulation detection & restoration, uncalibrated two-view pose estimation, and 3D sensing. Codes, models, and data will be held in https://github.com/ShngJZ/WildCamera.
翻訳日:2023-11-28 04:07:13 公開日:2023-11-22
# 圧縮埋め込み層のレビューとレコメンダシステムへの応用

Review of compressed embedding layers and their applications for recommender systems ( http://arxiv.org/abs/2306.13724v3 )

ライセンス: Link先を確認
Tamas Hajgato(参考訳) 本稿では,学習可能な圧縮埋め込み層に関する文献を概観し,巨大ニューラルネットワークリコメンデータシステムへの適用性について考察する。 また,圧縮埋め込み層を用いて測定した結果を報告する。

We review the literature on trainable, compressed embedding layers and discuss their applicability for compressing gigantic neural recommender systems. We also report the results we measured with our compressed embedding layers.
翻訳日:2023-11-28 03:51:09 公開日:2023-11-22
# 持続可能なAIの展望を広げる:AIシステムの総合的持続可能性基準と指標

Broadening the perspective for sustainable AI: Comprehensive sustainability criteria and indicators for AI systems ( http://arxiv.org/abs/2306.13686v2 )

ライセンス: Link先を確認
Friederike Rohde, Josephin Wagner, Andreas Meyer, Philipp Reinhard, Marcus Voss, Ulrich Petschow, Anne Mollen(参考訳) AIシステムの利用の増加は、多面的な社会、環境、経済的影響と関連している。 これには、透明でない意思決定プロセス、差別、不平等の増大、AIモデルの開発と応用におけるエネルギー消費と温室効果ガス排出量の増加、経済力の集中の増大が含まれる。 本稿では,サステナビリティの多次元性を考慮することで,持続可能なAIに対する包括的視点の要求を実証する。 SCAIS Framework(Sustainability Criteria and Indicators for Artificial Intelligence Systems)は、持続可能なAIのための19の持続可能性基準と、批判的なレビューと専門家ワークショップの結果に基づく67の指標を含んでいる。 この学際的アプローチは、持続可能なaiに関する談話の促進と構造化のために、ユニークな全体論的視点をもたらす。 さらに、aiシステムの意識的な開発と応用をサポートする標準とツールを開発するための基盤となる具体的なフレームワークを提供する。

The increased use of AI systems is associated with multi-faceted societal, environmental, and economic consequences. These include non-transparent decision-making processes, discrimination, increasing inequalities, rising energy consumption and greenhouse gas emissions in AI model development and application, and an increasing concentration of economic power. By considering the multi-dimensionality of sustainability, this paper takes steps towards substantiating the call for an overarching perspective on "sustainable AI". It presents the SCAIS Framework (Sustainability Criteria and Indicators for Artificial Intelligence Systems) which contains a set 19 sustainability criteria for sustainable AI and 67 indicators that is based on the results of a critical review and expert workshops. This interdisciplinary approach contributes a unique holistic perspective to facilitate and structure the discourse on sustainable AI. Further, it provides a concrete framework that lays the foundation for developing standards and tools to support the conscious development and application of AI systems.
翻訳日:2023-11-28 03:51:06 公開日:2023-11-22
# 量子部分情報分解

Quantum Partial Information Decomposition ( http://arxiv.org/abs/2308.04499v2 )

ライセンス: Link先を確認
S.J. van Enk(参考訳) 部分情報分解 (Partial Information Decomposition, PID) は、情報2変数$A,B$が持つ第3変数$T$を、一意、共有(または冗長)、相乗的情報という別の部分に分解するシャノンの理論の一歩を踏み出したものである。 ここでは、これらの概念を量子的に定義する方法を示す。 我々は、量子論的記述が生産的であることが証明された量子多体系のスクランブルに量子PIDを適用した。 特に特異な情報は、いわゆる三情報よりもスクランブルの詳細な記述を提供する。

The Partial Information Decomposition (PID) takes one step beyond Shannon's theory in decomposing the information two variables $A,B$ possess about a third variable $T$ into distinct parts: unique, shared (or redundant) and synergistic information. Here we show how these concepts can be defined in a quantum setting. We apply a quantum PID to scrambling in quantum many-body systems, for which a quantum-theoretic description has been proven productive. Unique information in particular provides a finer description of scrambling than does the so-called tri-information.
翻訳日:2023-11-28 03:39:44 公開日:2023-11-22
# 集中水文モデル生成のための学習

Learning to Generate Lumped Hydrological Models ( http://arxiv.org/abs/2309.09904v2 )

ライセンス: Link先を確認
Yang Yang and Ting Fong May Chui(参考訳) 流出水理モデル構造は、パラメータ値のセットが与えられた場合、外部強制下での捕獲の挙動を正確に予測する水理モデル関数を生成することができるため、生成モデルとみなすことができる。 少数の変数(すなわちモデルパラメータ)が、漁獲量の異なる行動特性の変化を十分に特徴付けることができると暗黙的に仮定される。 本研究では,この仮定を採用し,複数のキャッチメントの強制・流出データから水文モデリング関数の生成モデルを直接学習する深層学習手法を提案する。 学習された生成モデルは、少数の潜在変数を使用してキャッチメントの振る舞いを特徴付けるため、これらの潜在変数に値を割り当てることで、実世界のキャッチメントに似た水文学的モデリング関数を生成する。 学習された生成モデルは、ラッピングモデル構造、すなわち、キャリブレーションアルゴリズムを用いて最適なパラメータ値(または潜在変数)を推定することにより、キャッチメントの最適な水文モデリング関数を導出することができる。 本研究では,世界の3000以上の漁獲量から生成モデルを学習した。 このモデルは700以上の漁獲量の最適モデリング関数を導出するために使用された。 その結果得られたモデリング関数は、36種類の集中型モデル構造と同等かそれ以上の品質を示した。 全体として,漁獲量の水理挙動を少数の潜在変数を用いて効果的に記述し,これらの変数から適切な水理モデル関数を再構成できることを示した。

A lumped hydrological model structure can be considered a generative model because, given a set of parameter values, it can generate a hydrological modeling function that accurately predicts the behavior of a catchment under external forcing. It is implicitly assumed that a small number of variables (i.e., the model parameters) can sufficiently characterize variations in the behavioral characteristics of different catchments. This study adopts this assumption and uses a deep learning method to learn a generative model of hydrological modeling functions directly from the forcing and runoff data of multiple catchments. The learned generative model uses a small number of latent variables to characterize a catchment's behavior, so that assigning values to these latent variables produces a hydrological modeling function that resembles a real-world catchment. The learned generative model can be used similarly to a lumped model structure, i.e., the optimal hydrological modeling function of a catchment can be derived by estimating optimal parameter values (or latent variables) with a generic calibration algorithm. In this study, a generative model was learned from data from over 3,000 catchments worldwide. The model was then used to derive optimal modeling functions for over 700 different catchments. The resulting modeling functions generally showed a quality that was comparable to or better than 36 types of lumped model structures. Overall, this study demonstrates that the hydrological behavior of a catchment can be effectively described using a small number of latent variables, and that well-fitting hydrologic model functions can be reconstructed from these variables.
翻訳日:2023-11-28 03:30:17 公開日:2023-11-22
# シンプレクティック構造-ハミルトニアン(グラフ)埋め込み

Symplectic Structure-Aware Hamiltonian (Graph) Embeddings ( http://arxiv.org/abs/2309.04885v2 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Tianle Zhang, Xiaowei Huang(参考訳) 従来のグラフニューラルネットワーク(gnn)では、固定埋め込み多様体の仮定はしばしば、多様なグラフジオメトリへの適応性を制限する。 近年,ノード特徴更新に物理法則を組み込むことにより,そのような埋め込みの動的性質に対処するために,ハミルトン系システムに着想を得たGNNが提案されている。 我々は、より柔軟なノード特徴更新のためにハミルトン力学を一般化する新しいアプローチであるSymphlectic Structure-Aware Hamiltonian GNN (SAH-GNN)を提案する。 既存のハミルトン的アプローチとは異なり、SAH-GNNはシンプレクティック・スティーフェル多様体に対してリーマン的最適化を用い、基礎となるシンプレクティック構造を適応的に学習し、既定の標準シンプレクティック構造の形式に依存する既存のハミルトン的GNNの制限を回避する。 このイノベーションにより、SAH-GNNは広範なハイパーパラメータチューニングなしで、様々なグラフデータセットに自動的に適応できる。 さらに訓練中にエネルギーを節約するので、暗黙のハミルトニアン系は物理的に有意である。 最後に,複数のグラフデータセットにまたがるノード分類タスクにおいて,SAH-GNNの優越性と適応性を実証的に検証する。

In traditional Graph Neural Networks (GNNs), the assumption of a fixed embedding manifold often limits their adaptability to diverse graph geometries. Recently, Hamiltonian system-inspired GNNs have been proposed to address the dynamic nature of such embeddings by incorporating physical laws into node feature updates. We present Symplectic Structure-Aware Hamiltonian GNN (SAH-GNN), a novel approach that generalizes Hamiltonian dynamics for more flexible node feature updates. Unlike existing Hamiltonian approaches, SAH-GNN employs Riemannian optimization on the symplectic Stiefel manifold to adaptively learn the underlying symplectic structure, circumventing the limitations of existing Hamiltonian GNNs that rely on a pre-defined form of standard symplectic structure. This innovation allows SAH-GNN to automatically adapt to various graph datasets without extensive hyperparameter tuning. Moreover, it conserves energy during training meaning the implicit Hamiltonian system is physically meaningful. Finally, we empirically validate SAH-GNN's superiority and adaptability in node classification tasks across multiple types of graph datasets.
翻訳日:2023-11-28 03:28:31 公開日:2023-11-22
# 削除ネット:DNN指紋除去攻撃

RemovalNet: DNN Fingerprint Removal Attacks ( http://arxiv.org/abs/2308.12319v3 )

ライセンス: Link先を確認
Hongwei Yao, Zheng Li, Kunzhe Huang, Jian Lou, Zhan Qin, Kui Ren(参考訳) ディープニューラルネットワーク(DNN)の性能が著しく向上し、DNNは多くの分野で広く利用されている。 その結果、DNNモデルは貴重な資産となり、その知的財産は所有権認証技術(例えばDNNフィンガープリント)によって保護されている。 しかし、DNN指紋除去攻撃の可能性とその潜在的な影響は未解決のままである。 本稿では,dnn指紋除去攻撃に関する第1報を包括的に検討する。 一般的に、DNNモデルに含まれる知識は、一般的な意味と指紋固有の知識に分類することができる。 そこで本研究では,モデルオーナシップの検証を回避するため,min-maxバイレベル最適化に基づくDeleteNetと呼ばれるDNN指紋除去攻撃を提案する。 低レベルの最適化は、指紋特有の知識を取り除くように設計されている。 上位レベルの最適化では,サロゲートモデルの性能を維持するために,被害者モデルの一般的な意味知識を精査する。 我々は,6つの指標を用いた4つの先進防衛手法に対する除去網の忠実度,有効性,効率を評価するために,広範囲な実験を行った。 その結果,(1)除去ネットの有効性が示された。 dnn指紋除去攻撃後,ターゲットモデルとサロゲートモデルとのモデル距離は,ベースライン攻撃のx100倍であり,(2)除去ネットは効率的である。 代替データセットの0.2%(400サンプル)と1000回のイテレーションで攻撃を行います。 さらに、高度なモデル盗難攻撃と比較して、DeleteNetは最大で85%の計算資源を節約し、(3)DeleteNetはDNN指紋除去プロセス後に生成したサロゲートモデルが高い精度を維持することを達成している。 私たちのコードは、https://github.com/grasses/RemovalNet.comで利用可能です。

With the performance of deep neural networks (DNNs) remarkably improving, DNNs have been widely used in many areas. Consequently, the DNN model has become a valuable asset, and its intellectual property is safeguarded by ownership verification techniques (e.g., DNN fingerprinting). However, the feasibility of the DNN fingerprint removal attack and its potential influence remains an open problem. In this paper, we perform the first comprehensive investigation of DNN fingerprint removal attacks. Generally, the knowledge contained in a DNN model can be categorized into general semantic and fingerprint-specific knowledge. To this end, we propose a min-max bilevel optimization-based DNN fingerprint removal attack named RemovalNet, to evade model ownership verification. The lower-level optimization is designed to remove fingerprint-specific knowledge. While in the upper-level optimization, we distill the victim model's general semantic knowledge to maintain the surrogate model's performance. We conduct extensive experiments to evaluate the fidelity, effectiveness, and efficiency of the RemovalNet against four advanced defense methods on six metrics. The empirical results demonstrate that (1) the RemovalNet is effective. After our DNN fingerprint removal attack, the model distance between the target and surrogate models is x100 times higher than that of the baseline attacks, (2) the RemovalNet is efficient. It uses only 0.2% (400 samples) of the substitute dataset and 1,000 iterations to conduct our attack. Besides, compared with advanced model stealing attacks, the RemovalNet saves nearly 85% of computational resources at most, (3) the RemovalNet achieves high fidelity that the created surrogate model maintains high accuracy after the DNN fingerprint removal process. Our code is available at: https://github.com/grasses/RemovalNet.
翻訳日:2023-11-28 03:25:39 公開日:2023-11-22
# 動的マージン最大化とリプシッツ正規化の改善による認証ロバストネス

Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization ( http://arxiv.org/abs/2310.00116v2 )

ライセンス: Link先を確認
Mahyar Fazlyab, Taha Entesari, Aniket Roy, Rama Chellappa(参考訳) 逆摂動に対する深い分類器のロバスト性を改善するために、よりロバストな特性を持つ新しいアーキテクチャ(例えば、リプシッツ型ネットワーク)の設計や、トレーニングプロセス自体の変更(例えば、min-max最適化、制約付き学習、正規化)など、多くのアプローチが提案されている。 しかし、これらのアプローチは入力(機能)スペースのマージンを増やすのに効果的ではないかもしれない。 その結果、入力空間における決定境界を直接操作できる訓練手順の開発への関心が高まっている。 本稿では,弱い方向に沿ってモデルのリプシッツ定数を正則化しながら,出力(ロジット)空間のマージンを増大させることを目的とする頑健な学習アルゴリズムを開発することにより,このカテゴリの最近の発展の上に構築する。 これらの2つの目的が入力空間におけるより大きなマージンを直接促進できることを示す。 そこで本研究では,ニューラルネットワークのリプシッツ定数の微分可能上限を高精度かつ効率的に計算するスケーラブルな手法を開発した。 境界の相対的精度は過剰な正規化を防ぎ、決定境界をより直接的に操作できる。 さらに、このリプシッツ境界アルゴリズムでは、活性化層の単調性とリプシッツ連続性を利用して、リプシッツ定数に制御可能な境界を持つ新しい層を設計することができる。 MNIST, CIFAR-10 および Tiny-ImageNet データセットを用いた実験により,提案アルゴリズムが最先端技術と比較して競争力に向上した結果が得られることを確認した。

To improve the robustness of deep classifiers against adversarial perturbations, many approaches have been proposed, such as designing new architectures with better robustness properties (e.g., Lipschitz-capped networks), or modifying the training process itself (e.g., min-max optimization, constrained learning, or regularization). These approaches, however, might not be effective at increasing the margin in the input (feature) space. As a result, there has been an increasing interest in developing training procedures that can directly manipulate the decision boundary in the input space. In this paper, we build upon recent developments in this category by developing a robust training algorithm whose objective is to increase the margin in the output (logit) space while regularizing the Lipschitz constant of the model along vulnerable directions. We show that these two objectives can directly promote larger margins in the input space. To this end, we develop a scalable method for calculating guaranteed differentiable upper bounds on the Lipschitz constant of neural networks accurately and efficiently. The relative accuracy of the bounds prevents excessive regularization and allows for more direct manipulation of the decision boundary. Furthermore, our Lipschitz bounding algorithm exploits the monotonicity and Lipschitz continuity of the activation layers, and the resulting bounds can be used to design new layers with controllable bounds on their Lipschitz constant. Experiments on the MNIST, CIFAR-10, and Tiny-ImageNet data sets verify that our proposed algorithm obtains competitively improved results compared to the state-of-the-art.
翻訳日:2023-11-28 03:16:22 公開日:2023-11-22
# ビジュアル説明のためのXAIベンチマーク

XAI Benchmark for Visual Explanation ( http://arxiv.org/abs/2310.08537v2 )

ライセンス: Link先を確認
Yifei Zhang, Siyi Gu, James Song, Bo Pan, Guangji Bai, Liang Zhao(参考訳) ディープラーニングの台頭はコンピュータビジョン(cv)タスクの著しい進歩をもたらしたが、これらのモデルの"ブラックボックス"の性質はしばしば解釈可能性を妨げる。 この課題は、AIの意思決定プロセスの説明を生成することによって、説明可能な人工知能(XAI)の開発を加速させた。 説明は、真の推論過程(すなわち、忠実さ)を忠実に反映するだけでなく、人間の推論(すなわち、アライメント)と一致させることを目的としている。 XAI内では、視覚的な説明が視覚的な手がかりを用いて、特に画像処理において機械学習モデルの背後にある理由を明らかにする。 視覚的説明に関するかなりの研究にもかかわらず、それらを評価するための標準化されたベンチマークは深刻な未開発である。 特に、アライメントを評価するために、既存の作品は通常、少数の画像の視覚的な説明を説明するか、あるいは一部のレフェリーを雇って説明の質をアドホックなアンケートで報告する。 しかし、これは標準化され、定量的で包括的な評価はできない。 この問題に対処するため,本研究では,さまざまなドメインからの人的説明アノテーションを付加した8つのデータセットからなる視覚説明用ベンチマークを開発した。 さらに,データ読み込み,説明生成,メソッド評価を含む視覚的な説明パイプラインを考案する。 提案するベンチマークは,視覚的説明法の評価と比較を容易にする。 収集したデータセットに基づいて、既存の8つの視覚的説明手法をベンチマークし、6つのアライメントベースのメトリクスと因果関係に基づくメトリクスを使用して、選択した4つのデータセットを徹底的に比較した。 私たちのベンチマークは、私たちのwebサイトhttps://xaidataset.github.ioからアクセスできます。

The rise of deep learning has ushered in significant progress in computer vision (CV) tasks, yet the "black box" nature of these models often precludes interpretability. This challenge has spurred the development of Explainable Artificial Intelligence (XAI) by generating explanations to AI's decision-making process. An explanation is aimed to not only faithfully reflect the true reasoning process (i.e., faithfulness) but also align with humans' reasoning (i.e., alignment). Within XAI, visual explanations employ visual cues to elucidate the reasoning behind machine learning models, particularly in image processing, by highlighting images' critical areas important to predictions. Despite the considerable body of research in visual explanations, standardized benchmarks for evaluating them are seriously underdeveloped. In particular, to evaluate alignment, existing works usually merely illustrate a few images' visual explanations, or hire some referees to report the explanation quality under ad-hoc questionnaires. However, this cannot achieve a standardized, quantitative, and comprehensive evaluation. To address this issue, we develop a benchmark for visual explanation, consisting of eight datasets with human explanation annotations from various domains, accommodating both post-hoc and intrinsic visual explanation methods. Additionally, we devise a visual explanation pipeline that includes data loading, explanation generation, and method evaluation. Our proposed benchmarks facilitate a fair evaluation and comparison of visual explanation methods. Building on our curated collection of datasets, we benchmarked eight existing visual explanation methods and conducted a thorough comparison across four selected datasets using six alignment-based and causality-based metrics. Our benchmark will be accessible through our website https://xaidataset.github.io.
翻訳日:2023-11-28 03:04:37 公開日:2023-11-22
# 遅延からリッチトレーニングダイナミクスへの移行としてのグロッキング

Grokking as the Transition from Lazy to Rich Training Dynamics ( http://arxiv.org/abs/2310.06110v2 )

ライセンス: Link先を確認
Tanishq Kumar, Blake Bordelon, Samuel J. Gershman, Cengiz Pehlevan(参考訳) ニューラルネットの列車損失がテスト損失よりもずっと早く減少するグロッキング現象は,遅延トレーニングダイナミクスからリッチな特徴学習環境へ移行するニューラルネットワークによって生じる可能性がある。 このメカニズムを説明するために,従来の理論では説明できない方法で正規化せずにグラッキングを示す2層ニューラルネットワークを用いて,多項式回帰問題に対するバニラ勾配勾配の簡単な設定について検討した。 このようなネットワークのテスト損失に対する十分な統計を同定し、トレーニング上でこれらを追跡することで、ネットワークが最初の機能にカーネル回帰ソリューションを適合させようとすると、グロッキングが発生することが分かる。 我々は,高次元データに対する動的平均場理論(DMFT)を用いて,このモデルにおけるグルーキング力学の漸近的理論的記述を行う。 グロッキングの重要な決定要因は、ネットワークアウトプットをスケールするパラメータによって正確に制御できる特徴学習の速度と、最初の特徴と対象関数 $y(x)$ とのアライメントである。 この遅延一般化は,(1)初期ニューラルタンジェントカーネルの上位固有ベクトルとタスクラベルの$y(x)$が一致しない場合に生じるが,(2)データセットのサイズが十分に大きくなり,最終的にネットワークが一般化できるが,列車の損失が全てのエポックにおけるテスト損失を完全に追跡するほど大きくなく,(3)ネットワークが遅延状態のトレーニングを開始し,すぐに特徴を学習しない場合に生じる。 我々は、この遅延(線形モデル)からリッチトレーニング(フィーチャーラーニング)への移行が、MNISTや一層トランスフォーマー、学生教師ネットワークなど、より一般的な環境でのグラッキングを制御できることを示す。

We propose that the grokking phenomenon, where the train loss of a neural network decreases much earlier than its test loss, can arise due to a neural network transitioning from lazy training dynamics to a rich, feature learning regime. To illustrate this mechanism, we study the simple setting of vanilla gradient descent on a polynomial regression problem with a two layer neural network which exhibits grokking without regularization in a way that cannot be explained by existing theories. We identify sufficient statistics for the test loss of such a network, and tracking these over training reveals that grokking arises in this setting when the network first attempts to fit a kernel regression solution with its initial features, followed by late-time feature learning where a generalizing solution is identified after train loss is already low. We provide an asymptotic theoretical description of the grokking dynamics in this model using dynamical mean field theory (DMFT) for high dimensional data. We find that the key determinants of grokking are the rate of feature learning -- which can be controlled precisely by parameters that scale the network output -- and the alignment of the initial features with the target function $y(x)$. We argue this delayed generalization arises when (1) the top eigenvectors of the initial neural tangent kernel and the task labels $y(x)$ are misaligned, but (2) the dataset size is large enough so that it is possible for the network to generalize eventually, but not so large that train loss perfectly tracks test loss at all epochs, and (3) the network begins training in the lazy regime so does not learn features immediately. We conclude with evidence that this transition from lazy (linear model) to rich training (feature learning) can control grokking in more general settings, like on MNIST, one-layer Transformers, and student-teacher networks.
翻訳日:2023-11-28 03:03:16 公開日:2023-11-22
# 自動車の対話型共同計画

Interactive Joint Planning for Autonomous Vehicles ( http://arxiv.org/abs/2310.18301v4 )

ライセンス: Link先を確認
Yuxiao Chen, Sushant Veer, Peter Karkus, and Marco Pavone(参考訳) 高度にインタラクティブな運転シナリオでは、あるエージェントの行動は隣人の行動に大きく影響する。 このような対話的な環境で自動運転車の安全な動きを計画するには、エゴの意図した動き計画が近くのエージェントの行動に与える影響を推論する必要がある。 ディープラーニングモデルは最近、軌道予測で大きな成功を収めており、文献の多くのモデルは、自我条件付き予測を可能にしている。 しかしながら、ニューラルネットワークの複雑な性質から、ego条件付き予測の活用は下流計画において依然として困難であり、プランナー構造をサンプリングベースのプランナーのように単純なものに制限している。 細かい粒度の高い運動計画を生成する能力があるにもかかわらず、モデル予測制御(mpc)のような勾配に基づく計画アルゴリズムでは、反復的な性質と勾配の必要性から、エゴ条件付き予測を活用することが困難である。 IJP(Interactive Joint Planning)では、学習した予測モデルでMPCを橋渡し、両者の長所を提供する。 特に、IJPはエゴとその周辺エージェントの挙動を共同で最適化し、結合軌道最適化が近づこうとする事前予測として深層学習予測モデルを活用する。 さらに, ホモトピークラスを活用することで, 局所的なミニマに悩まされるのを避けるために, 多様な動きプランを探索する。 閉ループシミュレーションの結果、IJPは共同最適化やサンプリングベースプランニングを行わないベースラインよりも大幅に優れていた。

In highly interactive driving scenarios, the actions of one agent greatly influences those of its neighbors. Planning safe motions for autonomous vehicles in such interactive environments, therefore, requires reasoning about the impact of the ego's intended motion plan on nearby agents' behavior. Deep-learning-based models have recently achieved great success in trajectory prediction and many models in the literature allow for ego-conditioned prediction. However, leveraging ego-conditioned prediction remains challenging in downstream planning due to the complex nature of neural networks, limiting the planner structure to simple ones, e.g., sampling-based planner. Despite their ability to generate fine-grained high-quality motion plans, it is difficult for gradient-based planning algorithms, such as model predictive control (MPC), to leverage ego-conditioned prediction due to their iterative nature and need for gradient. We present Interactive Joint Planning (IJP) that bridges MPC with learned prediction models in a computationally scalable manner to provide us the best of both the worlds. In particular, IJP jointly optimizes over the behavior of the ego and the surrounding agents and leverages deep-learned prediction models as prediction priors that the join trajectory optimization tries to stay close to. Furthermore, by leveraging homotopy classes, our joint optimizer searches over diverse motion plans to avoid getting stuck at local minima. Closed-loop simulation result shows that IJP significantly outperforms the baselines that are either without joint optimization or running sampling-based planning.
翻訳日:2023-11-28 02:51:31 公開日:2023-11-22
# rustの自動証明合成に大規模な言語モデルを活用する

Leveraging Large Language Models for Automated Proof Synthesis in Rust ( http://arxiv.org/abs/2311.03739v2 )

ライセンス: Link先を確認
Jianan Yao, Ziqiao Zhou, Weiteng Chen, Weidong Cui(参考訳) 形式的検証は、重要なシステムソフトウェアの正しさを確実に保証するが、高い証明負担が長い間その普及を妨げてきた。 近年,大規模言語モデル(llm)がコード解析と合成に成功している。 本稿では,LLMと静的解析を組み合わせることで,Rustベースの公式検証フレームワークVerusの不変性,アサーション,その他の証明構造を合成する。 数ショット設定では、llmはポストコンディションの生成やループ不変量、特に短いコードスニペットの解析において印象的な論理能力を示している。 しかし、LLMには従来の静的解析の強みである文脈情報を保持・伝播する能力がない。 これらの観測に基づいて,OpenAIのGPT-4モデルに基づくプロトタイプを開発した。 プロトタイプでは,検証タスクを複数の小さなタスクに分割し,反復的にGPT-4をクエリし,出力と軽量な静的解析を組み合わせる。 20個のベクタ操作プログラムの自動化ループにおいて,プロトタイプを開発者によって評価した。 結果は、エントリレベルの証明コードを記述する人の労力を大幅に削減できることを示しています。

Formal verification can provably guarantee the correctness of critical system software, but the high proof burden has long hindered its wide adoption. Recently, Large Language Models (LLMs) have shown success in code analysis and synthesis. In this paper, we present a combination of LLMs and static analysis to synthesize invariants, assertions, and other proof structures for a Rust-based formal verification framework called Verus. In a few-shot setting, LLMs demonstrate impressive logical ability in generating postconditions and loop invariants, especially when analyzing short code snippets. However, LLMs lack the ability to retain and propagate context information, a strength of traditional static analysis. Based on these observations, we developed a prototype based on OpenAI's GPT-4 model. Our prototype decomposes the verification task into multiple smaller ones, iteratively queries GPT-4, and combines its output with lightweight static analysis. We evaluated the prototype with a developer in the automation loop on 20 vector-manipulating programs. The results demonstrate that it significantly reduces human effort in writing entry-level proof code.
翻訳日:2023-11-28 02:39:45 公開日:2023-11-22
# sea you later: uavベースのマルチオブジェクトトラッキングのためのメタデータガイド付き長期再識別

Sea You Later: Metadata-Guided Long-Term Re-Identification for UAV-Based Multi-Object Tracking ( http://arxiv.org/abs/2311.03561v2 )

ライセンス: Link先を確認
Cheng-Yen Yang, Hsiang-Wei Huang, Zhongyu Jiang, Heng-Cheng Kuo, Jie Mei, Chung-I Huang, Jenq-Neng Hwang(参考訳) 海中コンピュータビジョンにおけるUAVに対するマルチオブジェクト追跡(MOT)におけるReIDの再同定はいくつかの理由から困難である。 より具体的には、小型目標の特性の性質とドローンのジンバルの突然の動きにより、短期的再識別(ReID)は困難である。 長期的なReIDは、見た目の多様性の欠如に悩まされている。 これらの課題に対応するために,Metadata Guided MOT (MG-MOT) と呼ばれる適応型モーションベースMOTアルゴリズムを提案する。 このアルゴリズムは、短期追跡データをコヒーレントな長期追跡に効果的に統合し、gps位置、ドローン高度、カメラの向きなど、uavの重要なメタデータを活用する。 このMOTアルゴリズムの有効性を検証するために大規模な実験を行った。 上記のシナリオを包含するシードロネシー追跡データセットを利用することで、uavベースの海上物体追跡チャレンジの最新版において、69.5%の最先端のhotaと85.9%のidf1で、大幅な性能向上を達成している。

Re-identification (ReID) in multi-object tracking (MOT) for UAVs in maritime computer vision has been challenging for several reasons. More specifically, short-term re-identification (ReID) is difficult due to the nature of the characteristics of small targets and the sudden movement of the drone's gimbal. Long-term ReID suffers from the lack of useful appearance diversity. In response to these challenges, we present an adaptable motion-based MOT algorithm, called Metadata Guided MOT (MG-MOT). This algorithm effectively merges short-term tracking data into coherent long-term tracks, harnessing crucial metadata from UAVs, including GPS position, drone altitude, and camera orientations. Extensive experiments are conducted to validate the efficacy of our MOT algorithm. Utilizing the challenging SeaDroneSee tracking dataset, which encompasses the aforementioned scenarios, we achieve a much-improved performance in the latest edition of the UAV-based Maritime Object Tracking Challenge with a state-of-the-art HOTA of 69.5% and an IDF1 of 85.9% on the testing split.
翻訳日:2023-11-28 02:39:28 公開日:2023-11-22
# Compute at Scale: データセンター産業に関する広範な調査

Compute at Scale: A Broad Investigation into the Data Center Industry ( http://arxiv.org/abs/2311.02651v4 )

ライセンス: Link先を確認
Konstantin Pilz and Lennart Heim(参考訳) このレポートは、データセンター産業とそのAI開発における重要性を特徴づけるものである。 データセンターは大規模に効率的に計算を提供し、今日のデジタル経済のエンジンルームを構成する産業施設である。 大規模AIトレーニングと推論がますます計算コストが高くなるにつれて、これらのインフラストラクチャは、主にこの指定されたインフラストラクチャから実行されます。 データセンターの重要な機能には、大規模な冷却と大量の電力消費を必要とする大規模な計算クラスタ、データセンターとインターネットの両方で高速接続の必要性、セキュリティと信頼性の重視が含まれる。 世界の産業価値は約250億ドルで、今後7年間で倍増すると予想されている。 米国、ヨーロッパ、中国が最も重要な市場を構成しているため、全世界に約500カ所(約10MW)のデータセンターがある可能性が高い。 このレポートはさらに、重要なアクター、ビジネスモデル、主要なインプット、およびデータセンターの典型的な場所を取り上げている。

This report characterizes the data center industry and its importance for AI development. Data centers are industrial facilities that efficiently provide compute at scale and thus constitute the engine rooms of today's digital economy. As large-scale AI training and inference become increasingly computationally expensive, they are dominantly executed from this designated infrastructure. Key features of data centers include large-scale compute clusters that require extensive cooling and consume large amounts of power, the need for fast connectivity both within the data center and to the internet, and an emphasis on security and reliability. The global industry is valued at approximately $250B and is expected to double over the next seven years. There are likely about 500 large (above 10 MW) data centers globally, with the US, Europe, and China constituting the most important markets. The report further covers important actors, business models, main inputs, and typical locations of data centers.
翻訳日:2023-11-28 02:38:07 公開日:2023-11-22
# スマートエージェントに基づくモデリング:コンピュータシミュレーションにおける大規模言語モデルの利用について

Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations ( http://arxiv.org/abs/2311.06330v3 )

ライセンス: Link先を確認
Zengqing Wu, Run Peng, Xu Han, Shuyuan Zheng, Yixin Zhang, Chuan Xiao(参考訳) コンピュータシミュレーションは、様々な分野にわたる複雑なシステムを探索するための堅牢なツールセットを提供する。 この領域における特に影響力のあるアプローチはエージェントベースモデリング(abm)であり、個々のエージェントの相互作用を利用して複雑なシステムダイナミクスをエミュレートする。 ABMの強みはボトムアップ手法にあり、システムの個々のコンポーネントの振る舞いをモデル化することによって創発現象を照らす。 しかし、abmには独自の課題があり、特に自然言語の指示や数学的方程式や規則における常識のモデル化に苦慮している。 本稿では,GPT のような大規模言語モデル (LLM) を ABM に組み込むことにより,これらの境界を超越する手法を提案する。 この融合によって、新しいフレームワークであるスマートエージェントベースモデリング(SABM)が生まれた。 スマートエージェントの概念 - その知性、適応性、計算能力によって特徴づけられるエンティティ - に基づいて、私たちはLLMエージェントを使用して、ニュアンスとリアリズムを増大させた現実のシナリオをシミュレートする方向を探る。 本稿では,SABM技術の現状を解明し,SABMの可能性と方法論を紹介するとともに,SABM方法論を実証し,実世界のシステムモデリングにおけるその有効性を検証した3つのケーススタディ(https://github.com/Roihn/SABMで公開されているソースコード)を紹介する。 さらに、私たちはsabmの将来に関するいくつかの側面にビジョンを向け、その応用のより広い地平線を予測しました。 この取り組みを通じて、コンピュータシミュレーションの境界を再定義し、複雑なシステムのより深い理解を可能にしたいと考えています。

Computer simulations offer a robust toolset for exploring complex systems across various disciplines. A particularly impactful approach within this realm is Agent-Based Modeling (ABM), which harnesses the interactions of individual agents to emulate intricate system dynamics. ABM's strength lies in its bottom-up methodology, illuminating emergent phenomena by modeling the behaviors of individual components of a system. Yet, ABM has its own set of challenges, notably its struggle with modeling natural language instructions and common sense in mathematical equations or rules. This paper seeks to transcend these boundaries by integrating Large Language Models (LLMs) like GPT into ABM. This amalgamation gives birth to a novel framework, Smart Agent-Based Modeling (SABM). Building upon the concept of smart agents -- entities characterized by their intelligence, adaptability, and computation ability -- we explore in the direction of utilizing LLM-powered agents to simulate real-world scenarios with increased nuance and realism. In this comprehensive exploration, we elucidate the state of the art of ABM, introduce SABM's potential and methodology, and present three case studies (source codes available at https://github.com/Roihn/SABM), demonstrating the SABM methodology and validating its effectiveness in modeling real-world systems. Furthermore, we cast a vision towards several aspects of the future of SABM, anticipating a broader horizon for its applications. Through this endeavor, we aspire to redefine the boundaries of computer simulations, enabling a more profound understanding of complex systems.
翻訳日:2023-11-28 02:26:50 公開日:2023-11-22
# 野生の言語モデルエージェントを安全にテストする

Testing Language Model Agents Safely in the Wild ( http://arxiv.org/abs/2311.10538v2 )

ライセンス: Link先を確認
Silen Naihin, David Atkinson, Marc Green, Merwane Hamadi, Craig Swift, Douglas Schonholtz, Adam Tauman Kalai, David Bau(参考訳) 安全な自己完結のための前提条件は、安全な自己完結テストです。 しかし、現実の自律テストは、テスト中に危害をもたらす可能性があることや、現実世界や潜在的に悪意のあるアクターとの相互作用を通じて、新しい安全でないエージェントの振る舞いに遭遇するリスクなど、いくつかのユニークな安全上の課題に直面している。 我々は,オープンインターネット上で安全な自律エージェントテストを実施するための枠組みを提案する。エージェントアクションは,安全でないテストを止めるために厳密な安全境界を強制するコンテキスト依存モニタによって監査される。 我々は,既存のllmエージェントを監視するのに十分な柔軟性を有する基本安全監視装置(agentmonitor)を設計し,敵のシミュレーションエージェントを用いて安全でない状況を識別・停止する能力を測定する。 そして、エージェントモニターをautogptの実世界のテストのバッテリに適用し、自律エージェントの能力が高まるにつれて、安全な車内テストの作成に直面するいくつかの制限と課題を特定します。

A prerequisite for safe autonomy-in-the-wild is safe testing-in-the-wild. Yet real-world autonomous tests face several unique safety challenges, both due to the possibility of causing harm during a test, as well as the risk of encountering new unsafe agent behavior through interactions with real-world and potentially malicious actors. We propose a framework for conducting safe autonomous agent tests on the open internet: agent actions are audited by a context-sensitive monitor that enforces a stringent safety boundary to stop an unsafe test, with suspect behavior ranked and logged to be examined by humans. We a design a basic safety monitor (AgentMonitor) that is flexible enough to monitor existing LLM agents, and, using an adversarial simulated agent, we measure its ability to identify and stop unsafe situations. Then we apply the AgentMonitor on a battery of real-world tests of AutoGPT, and we identify several limitations and challenges that will face the creation of safe in-the-wild tests as autonomous agents grow more capable.
翻訳日:2023-11-28 02:14:30 公開日:2023-11-22
# song descriptionrデータセット:音楽・言語評価のための音声キャプションのコーパス

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation ( http://arxiv.org/abs/2311.10057v3 )

ライセンス: Link先を確認
Ilaria Manco, Benno Weck, SeungHeon Doh, Minz Won, Yixiao Zhang, Dmitry Bogdanov, Yusong Wu, Ke Chen, Philip Tovstogan, Emmanouil Benetos, Elio Quinton, Gy\"orgy Fazekas, Juhan Nam(参考訳) 楽曲と言語モデルの評価のために設計された,高品質なオーディオキャプチャペアのクラウドソースコーパスであるsong descriptionr dataset(sdd)を紹介する。 データセットは1.1kの人間による706曲の自然言語記述で構成され、全てクリエイティブ・コモン・ライセンスの下で公開されている。 データセットの使用例を示すために,3つの主要な音楽・言語タスク(音楽キャプション,テキスト・ツー・ミュージック生成,音楽言語検索)について,人気のあるモデルをベンチマークする。 実験では, クロスデータセット評価の重要性を強調し, SDDを用いたモデル性能の理解を深める方法について考察した。

We introduce the Song Describer dataset (SDD), a new crowdsourced corpus of high-quality audio-caption pairs, designed for the evaluation of music-and-language models. The dataset consists of 1.1k human-written natural language descriptions of 706 music recordings, all publicly accessible and released under Creative Common licenses. To showcase the use of our dataset, we benchmark popular models on three key music-and-language tasks (music captioning, text-to-music generation and music-language retrieval). Our experiments highlight the importance of cross-dataset evaluation and offer insights into how researchers can use SDD to gain a broader understanding of model performance.
翻訳日:2023-11-28 02:13:43 公開日:2023-11-22
# GazeForensics: 迷路誘導型空間不整合学習によるディープフェイク検出

GazeForensics: DeepFake Detection via Gaze-guided Spatial Inconsistency Learning ( http://arxiv.org/abs/2311.07075v2 )

ライセンス: Link先を確認
Qinlin He, Chunlei Peng, Decheng Liu, Nannan Wang, Xinbo Gao(参考訳) DeepFakeの検出は、個人のプライバシーと公衆の安全において重要である。 DeepFakeの技術が反復的に進歩するにつれ、高品質な偽造ビデオや画像はますます騙されつつある。 これまでの研究では、DeepFake検出の分野にバイオメトリックな特徴を取り入れようと、多くの研究者が試みてきた。 しかしながら、従来のバイオメトリックベースのアプローチは、一般的な特徴からバイオメトリックの特徴を分離し、バイオメトリックの特徴抽出器を凍結する傾向がある。 これらのアプローチは価値ある一般的な特徴を排除し、性能の低下を招き、ディープフェイク検出を支援する生体情報の可能性を完全に活用できなかった。 また,近年のディープフェイク検出領域における視線認証の精査にはあまり注意が払われていない。 本稿では,3次元視線推定モデルから得られた視線表現を利用して,我々のDeepFake検出モデル内の対応する表現を規則化し,一般特徴を同時統合してモデルの性能をさらに向上する,革新的なDeepFake検出手法であるGazeForensicsを紹介する。 実験の結果,提案したGazeForensicsは現在の最先端手法よりも優れていることがわかった。

DeepFake detection is pivotal in personal privacy and public safety. With the iterative advancement of DeepFake techniques, high-quality forged videos and images are becoming increasingly deceptive. Prior research has seen numerous attempts by scholars to incorporate biometric features into the field of DeepFake detection. However, traditional biometric-based approaches tend to segregate biometric features from general ones and freeze the biometric feature extractor. These approaches resulted in the exclusion of valuable general features, potentially leading to a performance decline and, consequently, a failure to fully exploit the potential of biometric information in assisting DeepFake detection. Moreover, insufficient attention has been dedicated to scrutinizing gaze authenticity within the realm of DeepFake detection in recent years. In this paper, we introduce GazeForensics, an innovative DeepFake detection method that utilizes gaze representation obtained from a 3D gaze estimation model to regularize the corresponding representation within our DeepFake detection model, while concurrently integrating general features to further enhance the performance of our model. Experiment results reveal that our proposed GazeForensics outperforms the current state-of-the-art methods.
翻訳日:2023-11-28 02:10:47 公開日:2023-11-22
# リアルタイムネットワークにおける動的リンク予測のための時間グラフ上の時間粒度探索

Exploring Time Granularity on Temporal Graphs for Dynamic Link Prediction in Real-world Networks ( http://arxiv.org/abs/2311.12255v2 )

ライセンス: Link先を確認
Xiangjian Jiang, Yanyi Pu(参考訳) 動的グラフニューラルネットワーク(DGNN)は、動的グラフ構造化データを処理するための主要なアプローチである。 しかしながら、モデルの性能と頑健性に対する時間的情報の影響は、特にモデルが時間的な粒度の異なる予測タスクをどのように扱うかに関して、十分に検討されていない。 本稿では,dgnnを動的グラフにトレーニングする場合の時間粒度の影響を広範囲な実験により検討する。 各種ドメインから派生したグラフについて検討し,3つの異なるDGNNと4つの異なる時間的粒度のベースラインモデルを比較した。 一般的な結論を得るために,時間粒度,モデルアーキテクチャ,負のサンプリング戦略の相互作用を主に検討する。 この結果から,DGNNが動的リンク予測タスクにおいて,競合的かつ堅牢な性能を実現するためには,高度なメモリ機構と適切な時間粒度が不可欠であることが判明した。 また、考慮されたモデルやデータセットの欠点を議論し、時間グラフの時間的粒度に関する今後の研究に期待できる方向性を提案する。

Dynamic Graph Neural Networks (DGNNs) have emerged as the predominant approach for processing dynamic graph-structured data. However, the influence of temporal information on model performance and robustness remains insufficiently explored, particularly regarding how models address prediction tasks with different time granularities. In this paper, we explore the impact of time granularity when training DGNNs on dynamic graphs through extensive experiments. We examine graphs derived from various domains and compare three different DGNNs to the baseline model across four varied time granularities. We mainly consider the interplay between time granularities, model architectures, and negative sampling strategies to obtain general conclusions. Our results reveal that a sophisticated memory mechanism and proper time granularity are crucial for a DGNN to deliver competitive and robust performance in the dynamic link prediction task. We also discuss drawbacks in considered models and datasets and propose promising directions for future research on the time granularity of temporal graphs.
翻訳日:2023-11-28 02:00:59 公開日:2023-11-22
# 変圧器の勾配漏洩に対する攻撃と防御に関する理論的考察

A Theoretical Insight into Attack and Defense of Gradient Leakage in Transformer ( http://arxiv.org/abs/2311.13624v1 )

ライセンス: Link先を確認
Chenyang Li, Zhao Song, Weixin Wang, Chiwun Yang(参考訳) 勾配(dlg)攻撃からの深い漏洩は,交換勾配を検査することにより感度の高いトレーニングデータを抽出する手段として広く,かつ効果的である。 このアプローチは、個人や組織のプライバシーにも重大な脅威をもたらします。 本研究は, 変圧器モデルに特に適用した場合の勾配漏洩法を包括的に解析する。 本研究は,厳密な調査を通じて,勾配のみから正確なデータ復元能力を示し,勾配攻撃の実施条件を厳密に調査し,説得力のある証拠を提供する。 さらに,勾配攻撃に対する保護策として,勾配に追加ノイズを導入する手法の再検討を行った。 そこで本研究では,差分プライバシーの枠組みにおいて関連するプライバシーコストを分析する理論的証明を概説する。 さらに,摂動勾配下での確率勾配降下 (sgd) アルゴリズムの収束性を確認した。 本研究の目的は,変圧器モデルに適したプライバシー保護技術の開発に積極的に貢献しつつ,勾配漏洩攻撃と防衛戦略の理解を深めることである。 本研究は, 勾配漏洩に伴う脆弱性や対策に光を当てることで, センシティブなデータの保護と, トランスフォーマーモデルにおけるプライバシの保持の促進を図る。

The Deep Leakage from Gradient (DLG) attack has emerged as a prevalent and highly effective method for extracting sensitive training data by inspecting exchanged gradients. This approach poses a substantial threat to the privacy of individuals and organizations alike. This research presents a comprehensive analysis of the gradient leakage method when applied specifically to transformer-based models. Through meticulous examination, we showcase the capability to accurately recover data solely from gradients and rigorously investigate the conditions under which gradient attacks can be executed, providing compelling evidence. Furthermore, we reevaluate the approach of introducing additional noise on gradients as a protective measure against gradient attacks. To address this, we outline a theoretical proof that analyzes the associated privacy costs within the framework of differential privacy. Additionally, we affirm the convergence of the Stochastic Gradient Descent (SGD) algorithm under perturbed gradients. The primary objective of this study is to augment the understanding of gradient leakage attack and defense strategies while actively contributing to the development of privacy-preserving techniques specifically tailored for transformer-based models. By shedding light on the vulnerabilities and countermeasures associated with gradient leakage, this research aims to foster advancements in safeguarding sensitive data and upholding privacy in the context of transformer-based models.
翻訳日:2023-11-28 01:50:07 公開日:2023-11-22
# オンライン連続学習課題に対する密度分布型学習フレームワーク

Density Distribution-based Learning Framework for Addressing Online Continual Learning Challenges ( http://arxiv.org/abs/2311.13623v1 )

ライセンス: Link先を確認
Shilin Zhang, Jiahui Wang(参考訳) 本稿では,密度分布に基づく学習フレームワークを導入することで,オンライン連続学習(CL)の課題に対処する。 CL、特にClass Incremental Learningは、単一のパストレーニングデータストリームから継続的に学習しながら、新しいテストディストリビューションへの適応を可能にする。 しかし、既存のCL手法は複雑なアルゴリズム設計のため、悲惨な忘れ込みと高い計算コストに悩まされ、その実用性は制限される。 提案するフレームワークは,CLと古典機械学習のパフォーマンスギャップを埋めることにより,平均精度と時間空間効率を向上することで,これらの制限を克服する。 具体的には、CLタスク毎に独立な生成カーネル密度推定(GKDE)モデルを採用する。 テスト段階では、GKDEは自己報告された最大確率密度値を使用して、入ってくるテストインスタンスの予測に責任があるかを判断する。 GKDEベースの学習目標により、同じラベルを持つサンプルがグループ化され、異種インスタンスはより遠くにプッシュされる。 複数のCLデータセットに対して行った大規模な実験により,提案フレームワークの有効性が検証された。 提案手法は,競合する時間空間効率を保ちながら,一般的なCL手法よりも優れた性能を示し,実世界のアプリケーションに適したフレームワークである。 コードはhttps://github.com/xxxx/xxxxで入手できる。

In this paper, we address the challenges of online Continual Learning (CL) by introducing a density distribution-based learning framework. CL, especially the Class Incremental Learning, enables adaptation to new test distributions while continuously learning from a single-pass training data stream, which is more in line with the practical application requirements of real-world scenarios. However, existing CL methods often suffer from catastrophic forgetting and higher computing costs due to complex algorithm designs, limiting their practical use. Our proposed framework overcomes these limitations by achieving superior average accuracy and time-space efficiency, bridging the performance gap between CL and classical machine learning. Specifically, we adopt an independent Generative Kernel Density Estimation (GKDE) model for each CL task. During the testing stage, the GKDEs utilize a self-reported max probability density value to determine which one is responsible for predicting incoming test instances. A GKDE-based learning objective can ensure that samples with the same label are grouped together, while dissimilar instances are pushed farther apart. Extensive experiments conducted on multiple CL datasets validate the effectiveness of our proposed framework. Our method outperforms popular CL approaches by a significant margin, while maintaining competitive time-space efficiency, making our framework suitable for real-world applications. Code will be available at https://github.com/xxxx/xxxx.
翻訳日:2023-11-28 01:49:46 公開日:2023-11-22
# TDiffDe: リモートセンシングハイパースペクトル画像デノイングのための縮小拡散モデル

TDiffDe: A Truncated Diffusion Model for Remote Sensing Hyperspectral Image Denoising ( http://arxiv.org/abs/2311.13622v1 )

ライセンス: Link先を確認
Jiang He, Yajie Li, Jie L, Qiangqiang Yuan(参考訳) ハイパースペクトル画像は精密農業、環境モニタリング、生態分析において重要な役割を果たす。 しかし、センサ装置や撮像環境のため、観測されたハイパースペクトル画像は様々なノイズによって必然的に劣化する。 本研究では,ハイパースペクトル画像における有用情報を徐々に回復させるため,TDiffDeと呼ばれる切り離された拡散モデルを提案する。 入力データは、純粋なノイズから始めるのではなく、ハイパースペクトル画像に画像情報を含む。 そこで我々は,有効な情報の破壊を避けるため,訓練された拡散モデルを小さな段階から切り離した。

Hyperspectral images play a crucial role in precision agriculture, environmental monitoring or ecological analysis. However, due to sensor equipment and the imaging environment, the observed hyperspectral images are often inevitably corrupted by various noise. In this study, we proposed a truncated diffusion model, called TDiffDe, to recover the useful information in hyperspectral images gradually. Rather than starting from a pure noise, the input data contains image information in hyperspectral image denoising. Thus, we cut the trained diffusion model from small steps to avoid the destroy of valid information.
翻訳日:2023-11-28 01:49:25 公開日:2023-11-22
# 暗面からの知識:均衡知識伝達のためのエントロピー重み付き知識蒸留

Knowledge From the Dark Side: Entropy-Reweighted Knowledge Distillation for Balanced Knowledge Transfer ( http://arxiv.org/abs/2311.13621v1 )

ライセンス: Link先を確認
Chi-Ping Su, Ching-Hsun Tseng, Shin-Jye Lee(参考訳) 知識蒸留(KD)は、より大きな「教師」モデルからコンパクトな「学生」モデルに知識を伝達し、教師のソフトな予測に現れる暗黙的な洞察を学生に「ダークナレッジ」$\unicode{x2014}で導く。 既存のKDは知識の伝達の可能性を示しているが、両者のギャップは依然として残っている。 一連の調査で、このギャップは生徒の予測の不信感の結果であり、微妙だが重要な暗黒の知識を軽視しながら、明瞭な特徴に不均衡な焦点を向けていると結論づけている。 そこで本研究では,教師の予測におけるエントロピーを利用して,KD損失をサンプルレベルで再加重する手法であるEntropy-Reweighted Knowledge Distillation (ER-KD)を導入する。 ER-KDは、教師のニュアンスな洞察に富む挑戦的な事例について、より単純な事例への重点を減らし、よりバランスの取れた知識伝達を可能にすることを、生徒に正確に再認識する。 その結果、ER-KDは様々な最先端KDメソッドとの互換性を示すだけでなく、無視できるコストでその性能をさらに向上させる。 このアプローチはkdの知識伝達プロセスを洗練するための合理的で効果的な戦略を提供し、暗黒の知識を巧妙に扱う新しいパラダイムを設定します。 私たちのコードはhttps://github.com/cpsu00/er-kdで利用可能です。

Knowledge Distillation (KD) transfers knowledge from a larger "teacher" model to a compact "student" model, guiding the student with the "dark knowledge" $\unicode{x2014}$ the implicit insights present in the teacher's soft predictions. Although existing KDs have shown the potential of transferring knowledge, the gap between the two parties still exists. With a series of investigations, we argue the gap is the result of the student's overconfidence in prediction, signaling an imbalanced focus on pronounced features while overlooking the subtle yet crucial dark knowledge. To overcome this, we introduce the Entropy-Reweighted Knowledge Distillation (ER-KD), a novel approach that leverages the entropy in the teacher's predictions to reweight the KD loss on a sample-wise basis. ER-KD precisely refocuses the student on challenging instances rich in the teacher's nuanced insights while reducing the emphasis on simpler cases, enabling a more balanced knowledge transfer. Consequently, ER-KD not only demonstrates compatibility with various state-of-the-art KD methods but also further enhances their performance at negligible cost. This approach offers a streamlined and effective strategy to refine the knowledge transfer process in KD, setting a new paradigm in the meticulous handling of dark knowledge. Our code is available at https://github.com/cpsu00/ER-KD.
翻訳日:2023-11-28 01:49:18 公開日:2023-11-22
# 多成分画像生成における画像生成モデルの課題

The Challenges of Image Generation Models in Generating Multi-Component Images ( http://arxiv.org/abs/2311.13620v1 )

ライセンス: Link先を確認
Tham Yik Foong, Shashank Kotyan, Po Yuan Mao, Danilo Vasconcellos Vargas(参考訳) テキストから画像へのジェネレータの最近の進歩は、画像生成に実質的な能力をもたらした。 しかし、プロンプトの複雑さは、生成された画像の品質のボトルネックとなる。 特定の未熟なファセットは、生成モデルが事前に与えられた複数のコンポーネントからなる高品質なイメージを作成する能力である。 本稿では、モデルが複数のコンポーネントを正しく生成できる範囲を評価するために、コンポーネント包摂スコア(CIS)と呼ばれるメトリクスを提案し、検証する。 その結果、評価されたモデルでは、複数のコンポーネントでプロンプトから全ての視覚要素を組み込むのに苦労していることがわかった。 また,成分数の増加に伴い,画像の質や文脈認識が著しく低下することが明らかとなった(入力スコアが15.91%減少し,フレシェ開始距離が9.62%増加した)。 この問題に対処するため、我々は、複数のコンポーネントを持つカスタム作成テストデータセット上で安定した拡散v2を微調整した。 結論として,既存のテキスト対画像生成装置では,複雑なプロンプトを用いて,単一の画像内で複数のコンポーネントを生成するという課題に光を当てている。

Recent advances in text-to-image generators have led to substantial capabilities in image generation. However, the complexity of prompts acts as a bottleneck in the quality of images generated. A particular under-explored facet is the ability of generative models to create high-quality images comprising multiple components given as a prior. In this paper, we propose and validate a metric called Components Inclusion Score (CIS) to evaluate the extent to which a model can correctly generate multiple components. Our results reveal that the evaluated models struggle to incorporate all the visual elements from prompts with multiple components (8.53% drop in CIS per component for all evaluated models). We also identify a significant decline in the quality of the images and context awareness within an image as the number of components increased (15.91% decrease in inception Score and 9.62% increase in Frechet Inception Distance). To remedy this issue, we fine-tuned Stable Diffusion V2 on a custom-created test dataset with multiple components, outperforming its vanilla counterpart. To conclude, these findings reveal a critical limitation in existing text-to-image generators, shedding light on the challenge of generating multiple components within a single image using a complex prompt.
翻訳日:2023-11-28 01:48:49 公開日:2023-11-22
# 微調整のために美術品を盗む? テキスト対画像モデルにおけるアート盗難の模倣検出のための透かしフレームワーク

Steal My Artworks for Fine-tuning? A Watermarking Framework for Detecting Art Theft Mimicry in Text-to-Image Models ( http://arxiv.org/abs/2311.13619v1 )

ライセンス: Link先を確認
Ge Luo, Junqiang Huang, Manman Zhang, Zhenxing Qian, Sheng Li, Xinpeng Zhang(参考訳) テキストから画像へのモデルの進歩は、驚くべき芸術的パフォーマンスを生み出した。 しかし、いくつかのスタジオやウェブサイトはこれらのモデルを違法に微調整し、アーティストの作品を模倣して利益を上げ、アーティストの著作権を侵害し、オリジナル作品を制作する動機を減らした。 現在、この問題に焦点を当てた研究の欠如が顕著である。 本稿では,微調整によるテキスト・画像モデルの模倣を検出する新しい透かしフレームワークを提案する。 このフレームワークは、微妙な透かしをデジタルアートワークに埋め込んで、アーティストの視覚的表現を維持しながら著作権を保護する。 アーティストのスタイルを模倣するトレーニングデータとして透かしのアートワークを利用すれば、これらの透かしは検出可能な指標として機能する。 一連の画像中のこれらの透かしの分布を分析することで、盗難被害者データを用いた微調整模倣行為が露見される。 様々な微妙なシナリオやウォーターマーク攻撃法に対して,人工的に生成された画像中のウォーターマークの分布を分析することで,不正な模倣を確実に検出できることを確認した。

The advancement in text-to-image models has led to astonishing artistic performances. However, several studios and websites illegally fine-tune these models using artists' artworks to mimic their styles for profit, which violates the copyrights of artists and diminishes their motivation to produce original works. Currently, there is a notable lack of research focusing on this issue. In this paper, we propose a novel watermarking framework that detects mimicry in text-to-image models through fine-tuning. This framework embeds subtle watermarks into digital artworks to protect their copyrights while still preserving the artist's visual expression. If someone takes watermarked artworks as training data to mimic an artist's style, these watermarks can serve as detectable indicators. By analyzing the distribution of these watermarks in a series of generated images, acts of fine-tuning mimicry using stolen victim data will be exposed. In various fine-tune scenarios and against watermark attack methods, our research confirms that analyzing the distribution of watermarks in artificially generated images reliably detects unauthorized mimicry.
翻訳日:2023-11-28 01:48:28 公開日:2023-11-22
# Boosting3D: 進行学習に先立って2次元拡散を増強した高忠実画像から3次元画像へ

Boosting3D: High-Fidelity Image-to-3D by Boosting 2D Diffusion Prior to 3D Prior with Progressive Learning ( http://arxiv.org/abs/2311.13617v1 )

ライセンス: Link先を確認
Kai Yu, Jinlin Liu, Mengyang Feng, Miaomiao Cui, Xuansong Xie(参考訳) 本稿では,複数のデータ領域で合理的な3Dオブジェクトを堅牢に生成できる,多段階の単一画像から3D生成手法Boosting3Dを提案する。 本研究の目的は、合理的な幾何学構造をモデル化することにより、単一画像誘導3次元生成におけるビュー一貫性問題を解決することである。 そこで我々は,NeRFのトレーニングに先立って,より優れた3Dの活用を提案する。 具体的には、オリジナル画像とNeRFのレンダリング出力を用いて、対象オブジェクトに対してオブジェクトレベルのLoRAをトレーニングする。 そして、プログレッシブトレーニング戦略を用いてLoRAとNeRFをトレーニングします。 LoRAとNeRFは、トレーニング中にお互いを強化します。 プログレッシブトレーニングの後、LoRAは生成されたオブジェクトの3D情報を学び、最終的にオブジェクトレベルの3Dに変換する。 最終段階では、トレーニングされたNeRFからメッシュを抽出し、トレーニングされたLoRAを使用してメッシュの構造と外観を最適化する。 提案手法の有効性を示す実験を行った。 Boosting3Dは、事前訓練された拡散前の能力を超えるオブジェクト固有の3D前処理を学習し、単一の画像から3d生成タスクで最先端のパフォーマンスを達成する。

We present Boosting3D, a multi-stage single image-to-3D generation method that can robustly generate reasonable 3D objects in different data domains. The point of this work is to solve the view consistency problem in single image-guided 3D generation by modeling a reasonable geometric structure. For this purpose, we propose to utilize better 3D prior to training the NeRF. More specifically, we train an object-level LoRA for the target object using original image and the rendering output of NeRF. And then we train the LoRA and NeRF using a progressive training strategy. The LoRA and NeRF will boost each other while training. After the progressive training, the LoRA learns the 3D information of the generated object and eventually turns to an object-level 3D prior. In the final stage, we extract the mesh from the trained NeRF and use the trained LoRA to optimize the structure and appearance of the mesh. The experiments demonstrate the effectiveness of the proposed method. Boosting3D learns object-specific 3D prior which is beyond the ability of pre-trained diffusion priors and achieves state-of-the-art performance in the single image-to-3d generation task.
翻訳日:2023-11-28 01:48:08 公開日:2023-11-22
# 時空間ルックアップテーブルによるオンライン映像品質向上

Online Video Quality Enhancement with Spatial-Temporal Look-up Tables ( http://arxiv.org/abs/2311.13616v1 )

ライセンス: Link先を確認
Zefan Qu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Cairong Zhao(参考訳) ビデオ会議やクラウドゲームといったオンラインビデオベースのアプリケーションでは、遅延率の低さが重要であり、オンラインシナリオにおけるビデオの品質向上がますます重要になっている。 しかしながら、既存の品質向上手法は、遅延推論速度と将来のフレームに含まれる時間情報の必要性によって制限されており、それらを直接オンラインタスクにデプロイすることは困難である。 本稿では,オンラインビデオ品質向上(Online-VQE)問題に対処するための新しい手法であるSTLVQEを提案する。 我々のSTLVQEは新しいVQEフレームワークを設計し、モジュール非依存の機能エクストラクタは冗長な計算を大幅に削減し、ネットワークの伝搬、アライメント、拡張モジュールを再設計する。 映像中の空間時空間情報を抽出し,実質的な推定時間を節約する空間時空間ルックアップテーブル(stl)を提案する。 我々の知る限りでは、ビデオタスクの時間情報を抽出するために、初めてLUT構造を利用する。 MFQE 2.0データセットに関する大規模な実験は、我々のSTLVQEが良好な性能と速度のトレードオフを達成することを示す。

Low latency rates are crucial for online video-based applications, such as video conferencing and cloud gaming, which make improving video quality in online scenarios increasingly important. However, existing quality enhancement methods are limited by slow inference speed and the requirement for temporal information contained in future frames, making it challenging to deploy them directly in online tasks. In this paper, we propose a novel method, STLVQE, specifically designed to address the rarely studied online video quality enhancement (Online-VQE) problem. Our STLVQE designs a new VQE framework which contains a Module-Agnostic Feature Extractor that greatly reduces the redundant computations and redesign the propagation, alignment, and enhancement module of the network. A Spatial-Temporal Look-up Tables (STL) is proposed, which extracts spatial-temporal information in videos while saving substantial inference time. To the best of our knowledge, we are the first to exploit the LUT structure to extract temporal information in video tasks. Extensive experiments on the MFQE 2.0 dataset demonstrate that our STLVQE achieves a satisfactory performance-speed trade-off.
翻訳日:2023-11-28 01:47:46 公開日:2023-11-22
# HEViTPose:人間の視点推定のための高効率ビジョントランス

HEViTPose: High-Efficiency Vision Transformer for Human Pose Estimation ( http://arxiv.org/abs/2311.13615v1 )

ライセンス: Link先を確認
Chengpeng Wu, Guangxing Tan, Chunyu Li(参考訳) 複雑な状況下での人間のポーズ推定は常に困難な作業だった。 近年、多くのトランスフォーマーベースのポーズネットワークが提案されており、パフォーマンス向上の促進が図られている。 しかし,ポースネットワークの顕著な性能には,計算コストの増大と大規模ネットワーク規模が伴う。 この問題に対処するために,Human Pose Estimation (HEViTPose) のための高効率ビジョン変換器を提案する。 HEViTPoseでは,複数の低次元アテンションヘッドを通して特徴量の多様性を保ちながら,特徴グループ化や空間劣化機構を通じて計算コストを削減できるCGSR-MHAが提案されている。 さらに, Patch Embedded Overlap Width (PEOW) の概念は, 重複量と局所連続性との関係を理解するのに役立つ。 PEOWを最適化することで、我々のモデルは性能、パラメータ、GFLOPが改善される。 2つのベンチマークデータセット(MPIIとCOCO)の総合的な実験により、HEViTPoseモデルはより軽量でありながら最先端モデルと同等であることが示された。 具体的には、HEViTPose-BはMPIIテストセットで90.7 PCK@0.5、COCOテストデーブ2017セットで72.6 APを達成する。 HRNet-W32やSwin-Sと比較して、HEViTPose-Bはパラム($62.1%、$80.4%)とGFLOPs($43.4%、$63.8%)を著しく削減しています。 コードとモデルは \url{here} で利用可能である。

Human pose estimation in complicated situations has always been a challenging task. Many Transformer-based pose networks have been proposed recently, achieving encouraging progress in improving performance. However, the remarkable performance of pose networks is always accompanied by heavy computation costs and large network scale. In order to deal with this problem, this paper proposes a High-Efficiency Vision Transformer for Human Pose Estimation (HEViTPose). In HEViTPose, a Cascaded Group Spatial Reduction Multi-Head Attention Module (CGSR-MHA) is proposed, which reduces the computational cost through feature grouping and spatial degradation mechanisms, while preserving feature diversity through multiple low-dimensional attention heads. Moreover, a concept of Patch Embedded Overlap Width (PEOW) is defined to help understand the relationship between the amount of overlap and local continuity. By optimising PEOW, our model gains improvements in performance, parameters and GFLOPs. Comprehensive experiments on two benchmark datasets (MPII and COCO) demonstrate that the small and large HEViTPose models are on par with state-of-the-art models while being more lightweight. Specifically, HEViTPose-B achieves 90.7 PCK@0.5 on the MPII test set and 72.6 AP on the COCO test-dev2017 set. Compared with HRNet-W32 and Swin-S, our HEViTPose-B significantly reducing Params ($\downarrow$62.1%,$\downarrow$80.4%,) and GFLOPs ($\downarrow$43.4%,$\downarrow$63.8%,). Code and models are available at \url{here}.
翻訳日:2023-11-28 01:47:25 公開日:2023-11-22
# HalluciDoctor:視覚指導データにおける幻覚毒性の軽減

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data ( http://arxiv.org/abs/2311.13614v1 )

ライセンス: Link先を確認
Qifan Yu, Juncheng Li, Longhui Wei, Liang Pang, Wentao Ye, Bosheng Qin, Siliang Tang, Qi Tian, Yueting Zhuang(参考訳) マシン生成命令追従データに基づくマルチモーダル大言語モデル(mllms)は、様々なマルチモーダル理解と生成タスクにおいて顕著な性能を示している。 しかし、MLLMの幻覚出力に繋がる機械生成データに固有の幻覚は未発見のままである。 本研究の目的は,様々な幻覚(対象,関係,属性幻覚)を調査し,その幻覚毒性を軽減させることである。 事実的誤りを識別する人間の能力について考察し,クロスチェックパラダイムに基づいた新たな幻覚検出・排除フレームワークであるhallucidoctorを提案する。 トレーニングデータの幻覚を自動で特定し,排除するために,我々のフレームワークを使用します。 興味深いことに、HaluciDoctorはまた、長い尾の物体の共起から生じる急激な相関が幻覚に寄与することを示している。 そこで本研究では,MLLMの幻覚に対する耐性を高めるために,データ分散のバランスをとるために,対実的な視覚的拡張を実行する。 幻覚評価ベンチマークに関する総合的な実験により,LLaVAと比較して44.6%の幻覚を緩和し,競合性能を維持した。

Multi-modal Large Language Models (MLLMs) tuned on machine-generated instruction-following data have demonstrated remarkable performance in various multi-modal understanding and generation tasks. However, the hallucinations inherent in machine-generated data, which could lead to hallucinatory outputs in MLLMs, remain under-explored. This work aims to investigate various hallucinations (i.e., object, relation, attribute hallucinations) and mitigate those hallucinatory toxicities in large-scale machine-generated visual instruction datasets. Drawing on the human ability to identify factual errors, we present a novel hallucination detection and elimination framework, HalluciDoctor, based on the cross-checking paradigm. We use our framework to identify and eliminate hallucinations in the training data automatically. Interestingly, HalluciDoctor also indicates that spurious correlations arising from long-tail object co-occurrences contribute to hallucinations. Based on that, we execute counterfactual visual instruction expansion to balance data distribution, thereby enhancing MLLMs' resistance to hallucinations. Comprehensive experiments on hallucination evaluation benchmarks show that our method successfully mitigates 44.6% hallucinations relatively and maintains competitive performance compared to LLaVA.The source code will be released at \url{https://github.com/Yuqifan1117/HalluciDoctor}.
翻訳日:2023-11-28 01:47:02 公開日:2023-11-22
# スパンニングトレーニングの進歩: データセットの強化のための時間的デュアルディープスコーリング(TDDS)

Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning ( http://arxiv.org/abs/2311.13613v1 )

ライセンス: Link先を確認
Xin Zhang, Jiawei Du, Yunsong Li, Weiying Xie, Joey Tianyi Zhou(参考訳) dataset pruningは、オリジナルのフルデータセットに匹敵するパフォーマンスを実現するコアセットの構築を目指している。 既存のデータセットのプルーニングメソッドの多くは、代表的なサンプルを特定するためにスナップショットベースの基準に依存している。 最近の研究では、通常平均化アプローチを用いて、事象や確率変化を忘れるなど、考慮されるトレーニングダイナミクスの範囲を拡大することでこの問題に対処している。 しかし、これらの研究は、十分に一般化されたサンプルを見渡すことなく、より広い範囲のトレーニングダイナミクスを統合するのに苦労している。 本研究では,この問題を解決するために,時間的デュアルディープス・スコアリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。 tddsは、広範なトレーニングダイナミクスとデータセットのプルーニングのための代表サンプルの識別のバランスを達成するために、デュアルディテール戦略を採用している。 第1の深さでは、トレーニングの進捗にまたがる各サンプルの個々のコントリビューションのシリーズを推定し、トレーニングダイナミクスの総合的な統合を保証する。 第2の奥行きでは,第一の奥行きで同定されたサンプル回りの貢献の変動性に着目し,一般化したサンプルを強調する。 CIFARとImageNetデータセットで実施された大規模な実験は、従来のSOTAメソッドよりもTDDSの優位性を検証する。 具体的には, CIFAR-100では, 10%のトレーニングデータで54.51%の精度を達成し, ランダム選択を7.83%以上, 比較手法を12.69%以上とした。

Dataset pruning aims to construct a coreset capable of achieving performance comparable to the original, full dataset. Most existing dataset pruning methods rely on snapshot-based criteria to identify representative samples, often resulting in poor generalization across various pruning and cross-architecture scenarios. Recent studies have addressed this issue by expanding the scope of training dynamics considered, including factors such as forgetting event and probability change, typically using an averaging approach. However, these works struggle to integrate a broader range of training dynamics without overlooking well-generalized samples, which may not be sufficiently highlighted in an averaging manner. In this study, we propose a novel dataset pruning method termed as Temporal Dual-Depth Scoring (TDDS), to tackle this problem. TDDS utilizes a dual-depth strategy to achieve a balance between incorporating extensive training dynamics and identifying representative samples for dataset pruning. In the first depth, we estimate the series of each sample's individual contributions spanning the training progress, ensuring comprehensive integration of training dynamics. In the second depth, we focus on the variability of the sample-wise contributions identified in the first depth to highlight well-generalized samples. Extensive experiments conducted on CIFAR and ImageNet datasets verify the superiority of TDDS over previous SOTA methods. Specifically on CIFAR-100, our method achieves 54.51% accuracy with only 10% training data, surpassing random selection by 7.83% and other comparison methods by at least 12.69%.
翻訳日:2023-11-28 01:46:40 公開日:2023-11-22
# 予想通りのサンプル:Langevin Dynamicsによる予測的コーディング

Sample as You Infer: Predictive Coding With Langevin Dynamics ( http://arxiv.org/abs/2311.13664v1 )

ライセンス: Link先を確認
Umais Zahid, Qinghai Guo, Zafeirios Fountas(参考訳) 本稿では,計算神経科学の予測符号化(pc)フレームワークに基づく汎用的深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。 提案手法は,標準変分オートエンコーダ(VAE)トレーニングで得られた性能と超越性を実現するために,標準PCアルゴリズムを改良する。 pc推論手順にガウス雑音を注入することにより、過減衰ランジュバンサンプリングとして再設定し、より厳密な証拠下限(elbo)に対する最適化を容易にする。 本研究では,エンコーダネットワークを組み込むことで,ランゲヴィンサンプリングにおける温暖化開始を抑えることにより,エンコーダフリートレーニング法の改善と3つの異なる目的のテストを行う。 最後に, サンプリングステップサイズに対するロバスト性を高め, 曲率に対する感度を低下させるため, sgd文献からのリーマン多様体ランジュバンおよび適応オプティマイザに触発された, 軽量で容易に計算可能なプリコンディショニング形式を検証する。 提案手法は, 標準パラメータ化トリックベースELBOを訓練した者と比較し, VAEとの比較を行った。 我々は,SGDトレーニングのイテレーション回数のごく一部を集約しながら,サンプル品質など,多数の指標でパフォーマンスに優れるか,あるいは一致しているかを観察した。

We present a novel algorithm for parameter learning in generic deep generative models that builds upon the predictive coding (PC) framework of computational neuroscience. Our approach modifies the standard PC algorithm to bring performance on-par and exceeding that obtained from standard variational auto-encoder (VAE) training. By injecting Gaussian noise into the PC inference procedure we re-envision it as an overdamped Langevin sampling, which facilitates optimisation with respect to a tight evidence lower bound (ELBO). We improve the resultant encoder-free training method by incorporating an encoder network to provide an amortised warm-start to our Langevin sampling and test three different objectives for doing so. Finally, to increase robustness to the sampling step size and reduce sensitivity to curvature, we validate a lightweight and easily computable form of preconditioning, inspired by Riemann Manifold Langevin and adaptive optimizers from the SGD literature. We compare against VAEs by training like-for-like generative models using our technique against those trained with standard reparameterisation-trick-based ELBOs. We observe our method out-performs or matches performance across a number of metrics, including sample quality, while converging in a fraction of the number of SGD training iterations.
翻訳日:2023-11-28 01:37:11 公開日:2023-11-22
# BenthIQ:サンゴ修復のためのトランスフォーマーベースベント分類モデル

BenthIQ: a Transformer-Based Benthic Classification Model for Coral Restoration ( http://arxiv.org/abs/2311.13661v1 )

ライセンス: Link先を確認
Rupa Kurinchi-Vendhan, Drew Gray, Elijah Cole(参考訳) サンゴ礁は海洋生物多様性、沿岸保護、世界の生物保護に不可欠である。 しかし、気候変動の出現に伴い、大規模な白化現象、汚染、持続不可能な慣行によってますます脅かされている。 これらの生態系の健全性を監視することは、効果的な修復と管理に不可欠である。 ベント合成写像を作成する現在の方法は、しばしば空間被覆と分解能の間を妥協する。 本稿では,生物サンゴ,藻類,岩類,砂を含む水中基質の高精度分類のための多ラベルセマンティックセグメンテーションネットワークであるBenthIQを紹介する。 一般的にデプロイされるCNNは、長距離セマンティック情報の学習に限られるが、近年、オブジェクト検出や画像分類などの視覚タスクにおいて、トランスフォーマーベースのモデルは最先端のパフォーマンスを達成している。 我々は,u字型エンコーダデコーダアーキテクチャのバックボーンとして階層型スウィントランスを統合し,局所的グローバル意味論的特徴学習を行う。 フレンチ・ポリネシアにおける実世界のケーススタディを用いて,浅いリーフ画像の画素単位での分類において,従来のCNNや注目モデルよりも優れていることを示す。

Coral reefs are vital for marine biodiversity, coastal protection, and supporting human livelihoods globally. However, they are increasingly threatened by mass bleaching events, pollution, and unsustainable practices with the advent of climate change. Monitoring the health of these ecosystems is crucial for effective restoration and management. Current methods for creating benthic composition maps often compromise between spatial coverage and resolution. In this paper, we introduce BenthIQ, a multi-label semantic segmentation network designed for high-precision classification of underwater substrates, including live coral, algae, rock, and sand. Although commonly deployed CNNs are limited in learning long-range semantic information, transformer-based models have recently achieved state-of-the-art performance in vision tasks such as object detection and image classification. We integrate the hierarchical Swin Transformer as the backbone of a U-shaped encoder-decoder architecture for local-global semantic feature learning. Using a real-world case study in French Polynesia, we demonstrate that our approach outperforms traditional CNN and attention-based models on pixel-wise classification of shallow reef imagery.
翻訳日:2023-11-28 01:36:44 公開日:2023-11-22
# 効率的な変圧器知識蒸留:性能レビュー

Efficient Transformer Knowledge Distillation: A Performance Review ( http://arxiv.org/abs/2311.13657v1 )

ライセンス: Link先を確認
Nathan Brown, Ashton Williamson, Tahj Anderson, Logan Lawrence(参考訳) 事前訓練されたトランスフォーマー言語モデルは、最先端のパフォーマンスを実現し続けており、自然言語処理コミュニティは、高い計算要求と限られた入力シーケンス長に対応するために、モデル圧縮と効率的な注意機構の進歩を推し進めている。 これらの別々の努力にもかかわらず、これらの2つの分野の交点について調査は行われていない。 本研究では,効率的な注意トランスの知識蒸留によるモデル圧縮の評価を行う。 我々は,最先端の高効率アテンションアーキテクチャの圧縮と,その完全アテンションアーキテクチャと比較した場合のパフォーマンス向上のためのコストパフォーマンストレードオフを提供する。 さらに、長いシーケンス上でNERモデルの性能をトレーニングし、テストするために、新しい長文名前付きエンティティ認識データセット、GONERDを導入する。 蒸留処理により,短文タスク(GLUE, SQUAD, CoNLL-2003)で98.6%,長文質問回答タスク(HotpotQA, TriviaQA)で94.6%,長文名前付きエンティティ認識(GONERD)で98.8%,短文タスクで最大98.6%を保存できることがわかった。 多くのタスクにおけるほとんどのモデルにおいて、知識蒸留は低コストで高性能な注意モデルを得るのに有効な方法であることがわかった。

As pretrained transformer language models continue to achieve state-of-the-art performance, the Natural Language Processing community has pushed for advances in model compression and efficient attention mechanisms to address high computational requirements and limited input sequence length. Despite these separate efforts, no investigation has been done into the intersection of these two fields. In this work, we provide an evaluation of model compression via knowledge distillation on efficient attention transformers. We provide cost-performance trade-offs for the compression of state-of-the-art efficient attention architectures and the gains made in performance in comparison to their full attention counterparts. Furthermore, we introduce a new long-context Named Entity Recognition dataset, GONERD, to train and test the performance of NER models on long sequences. We find that distilled efficient attention transformers can preserve a significant amount of original model performance, preserving up to 98.6% across short-context tasks (GLUE, SQUAD, CoNLL-2003), up to 94.6% across long-context Question-and-Answering tasks (HotpotQA, TriviaQA), and up to 98.8% on long-context Named Entity Recognition (GONERD), while decreasing inference times by up to 57.8%. We find that, for most models on most tasks, performing knowledge distillation is an effective method to yield high-performing efficient attention models with low costs.
翻訳日:2023-11-28 01:36:27 公開日:2023-11-22
# パンダか パンダか? 対話型可視化による敵攻撃の理解

Panda or not Panda? Understanding Adversarial Attacks with Interactive Visualization ( http://arxiv.org/abs/2311.13656v1 )

ライセンス: Link先を確認
Yuzhe You, Jarvis Tse, and Jian Zhao(参考訳) Adversarial Machine Learning (AML)は、機械学習アルゴリズムを騙して誤った結果を生成することができる攻撃と、モデル堅牢性を強化する最悪の攻撃に対する防御を研究する。 特に画像分類においては,人間の解釈不可能な微妙な摂動の使用や,多様な手法,インスタンスの違い,モデルアーキテクチャの影響による攻撃影響の変動など,敵の攻撃を理解することは困難である。 AML学習者と教師によるデザインスタディを通じて,初級AML学習者を対象とした画像分類器に対する回避攻撃の特性と影響を包括的に提示する多段階対話型可視化システムAdvExを紹介する。 ユーザスタディと専門家インタビューを含む2部評価において,AdvExを定量的かつ質的に評価した。 以上の結果から,AdvExは,AMLのメカニズムを理解するための可視化ツールとしてだけでなく,魅力的な学習体験を提供し,AML学習者にとっての全体的なメリットを示す。

Adversarial machine learning (AML) studies attacks that can fool machine learning algorithms into generating incorrect outcomes as well as the defenses against worst-case attacks to strengthen model robustness. Specifically for image classification, it is challenging to understand adversarial attacks due to their use of subtle perturbations that are not human-interpretable, as well as the variability of attack impacts influenced by diverse methodologies, instance differences, and model architectures. Through a design study with AML learners and teachers, we introduce AdvEx, a multi-level interactive visualization system that comprehensively presents the properties and impacts of evasion attacks on different image classifiers for novice AML learners. We quantitatively and qualitatively assessed AdvEx in a two-part evaluation including user studies and expert interviews. Our results show that AdvEx is not only highly effective as a visualization tool for understanding AML mechanisms, but also provides an engaging and enjoyable learning experience, thus demonstrating its overall benefits for AML learners.
翻訳日:2023-11-28 01:35:58 公開日:2023-11-22
# GAN-Avatar: パーソナライズ可能なGANベースの人頭アバター

GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar ( http://arxiv.org/abs/2311.13655v1 )

ライセンス: Link先を確認
Berna Kabadayi, Wojciech Zielonka, Bharat Lal Bhatnagar, Gerard Pons-Moll, Justus Thies(参考訳) デジタル人間、特に3D顔アバターは、ARやVRにおける没入型テレプレゼンスのようないくつかのアプリケーションのバックボーンであるため、ここ数年で多くの注目を集めている。 進歩にもかかわらず、コモディティなハードウェアから再構築された顔のアバターは不完全であり、頭の一部と背面に欠落しており、アバターの使いやすさを厳しく制限している。 事前作業におけるこの制限は、プロファイルとバックビューで失敗する顔追跡の必要性に起因する。 この問題に対処するために,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルアバターを学習することを提案する。 本手法の核となるのは,訓練データから表情の分布を再現する訓練を行う3D認識生成モデルである。 この外観モデルを訓練するには、対応するカメラパラメータを持つ2次元画像の集合のみを仮定する。 モデルを制御するために、3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。 このマッピングは、表情モデルの潜在空間をサンプリングし、表情推定がうまく機能する正規化前頭視点から顔パラメータを再構成することで学習することができる。 この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。 一連の実験において,提案手法を最先端単分子法と比較し,トレーニングデータの表現追跡を必要とせず,優れた品質を示す。

Digital humans and, especially, 3D facial avatars have raised a lot of attention in the past years, as they are the backbone of several applications like immersive telepresence in AR or VR. Despite the progress, facial avatars reconstructed from commodity hardware are incomplete and miss out on parts of the side and back of the head, severely limiting the usability of the avatar. This limitation in prior work stems from their requirement of face tracking, which fails for profile and back views. To address this issue, we propose to learn person-specific animatable avatars from images without assuming to have access to precise facial expression tracking. At the core of our method, we leverage a 3D-aware generative model that is trained to reproduce the distribution of facial expressions from the training data. To train this appearance model, we only assume to have a collection of 2D images with the corresponding camera parameters. For controlling the model, we learn a mapping from 3DMM facial expression parameters to the latent space of the generative model. This mapping can be learned by sampling the latent space of the appearance model and reconstructing the facial parameters from a normalized frontal view, where facial expression estimation performs well. With this scheme, we decouple 3D appearance reconstruction and animation control to achieve high fidelity in image synthesis. In a series of experiments, we compare our proposed technique to state-of-the-art monocular methods and show superior quality while not requiring expression tracking of the training data.
翻訳日:2023-11-28 01:35:40 公開日:2023-11-22
# 単一量子ゲートの重畳順序による普遍量子計算

Universal Quantum Computation via Superposed Orders of Single-Qubit Gates ( http://arxiv.org/abs/2311.13654v1 )

ライセンス: Link先を確認
Kyrylo Simonov, Marcello Caleffi, Jessica Illiano, Angela Sara Cacciapuoti(参考訳) 量子チャネルの重畳された順序は、理論上も実験上も既に証明されており、量子通信領域における非平行な機会を可能にする。 実のところ、秩序の重ね合わせも量子コンピューティング領域内でも利用でき、適切に定義された因果順序でゲートを適用することに関する(伝統的に)量子計算の基礎となる仮定を緩和することができる。 この文脈では、量子コンピューティングによって生じる基本的な問題である、単一量子ビットゲートの重ね合わせ順序が普遍的な量子計算を可能にするかどうかを扱う。 この論文で示されるように、この重要な疑問に対する答えは、決定的な「はい」である。 実際、2量子制御された任意の量子ゲートが決定論的に実現可能であることを証明している。

Superposed orders of quantum channels have already been proved - both theoretically and experimentally - to enable unparalleled opportunities in the quantum communication domain. As a matter of fact, superposition of orders can be exploited within the quantum computing domain as well, by relaxing the (traditional) assumption underlying quantum computation about applying gates in a well-defined causal order. In this context, we address a fundamental question arising with quantum computing: whether superposed orders of single-qubit gates can enable universal quantum computation. As shown in this paper, the answer to this key question is a definitive "yes". Indeed, we prove that any two-qubit controlled quantum gate can be deterministically realized, including the so-called Barenco gate that alone enables universal quantum computation.
翻訳日:2023-11-28 01:35:14 公開日:2023-11-22
# 都市住民と農村住民のコミュニケーション活動と移動パターンの差異

Differences of communication activity and mobility patterns between urban and rural people ( http://arxiv.org/abs/2311.13652v1 )

ライセンス: Link先を確認
Fumiko Ogushi, Chandreyee Roy, and Kimmo Kaski(参考訳) 人の移動や社会活動のパターンは、都市計画、交通予測、危機回復力、疫病予防など社会の様々な側面に影響を与える。 個人の行動は、コミュニケーションの頻度や動きと同様に、社会的および社会経済的要因によって形作られる。 また,位置情報の差異や,性別や年齢が活動パターンに与える影響について検討した。 本研究では,携帯電話のデータ,特にコールディテール記録(cdr)を用いて,人々の社会的コミュニケーションとモビリティパターンを分析することで,これらのパターンを調査することに焦点を当てた。 このデータセットは、日々、毎週、季節ごとに、農村および都市環境における個人および人口レベルの行動に関する洞察を与えてくれます。 分析の結果,都市部では通話活動が高いが移動性が低いのに対し,農村部では通話活動と移動性が低いことが示唆された。 全体としては、通信頻度が著しく低下する休日を除き、通話活動は一貫しているものの、年間を通じて人の移動率の低下傾向がある。 また,作業日とフリー日の間には,移動度に有意差があることも確認した。 最後に,高齢者の年齢や性別が都市や農村の季節パターンに異なる役割を担っていることが観察されている。

Human mobility and other social activity patterns influence various aspects of society such as urban planning, traffic predictions, crisis resilience, and epidemic prevention. The behaviour of individuals, like their communication frequencies and movements, are shaped by societal and socio-economic factors. In addition, the differences in the geolocation of people as well as their gender and age cast effects on their activity patterns. In this study we focus on investigating these patterns by using mobile phone data, specifically the call detail records (CDRs), to analyze the social communication and mobility patterns of people. This dataset can provide us insight into the individual and population-level behaviours in rural and urban environments on a daily, weekly and seasonal basis. The results of our analyses show that in the urban areas people have high calling activity but low mobility, while in the rural areas they show the opposite behaviour, i.e. low calling activity combined with high mobility. Overall, there is a decreasing trend in people's mobility through the year even though their calling activity remained consistent except for the holidays during which time the communication frequency drops markedly. We have also observed that there are significant differences in the mobility between the work days and free days. Finally, the age and gender of individuals have also been observed to play a role in the seasonal patterns differently in urban and rural areas.
翻訳日:2023-11-28 01:34:59 公開日:2023-11-22
# 展開可能な生涯学習のための事前学習モデルの評価

Evaluating Pretrained models for Deployable Lifelong Learning ( http://arxiv.org/abs/2311.13648v1 )

ライセンス: Link先を確認
Kiran Lekkala, Eshan Bhargava, Laurent Itti(参考訳) 本稿では、学習済みデータセット上で事前訓練された視覚強化学習のための展開可能寿命学習システム(RL)を評価するための新しいベンチマークを作成し、学習済みのRLタスクから知識を保持することができる新しいスケーラブル寿命学習システムを提案する。 本ベンチマークは,スケーラビリティ,性能,資源利用について評価した,デプロイ可能な生涯学習システムの有効性を測定した。 提案するシステムは,データセット上で事前訓練された後,目に見えないタスクに対して連続的な学習を行うためにデプロイすることができる。 提案手法は,FSCILをベースとしたタスクマップと,事前訓練データセットを用いて学習したエンコーダ/バックボーンから構成される。 そして、認識されたタスクに対応するポリシーパラメータをロードしてタスクを実行する。 本システムでは,メモリフットプリントが小さく,計算資源も少ないため,多数のタスクを組み込むことができることを示す。 我々は,Atariゲーム上で,DeLL(Deployment for Lifelong Learning)ベンチマークを用いてシステムの有効性を判定する実験を行った。

We create a novel benchmark for evaluating a Deployable Lifelong Learning system for Visual Reinforcement Learning (RL) that is pretrained on a curated dataset, and propose a novel Scalable Lifelong Learning system capable of retaining knowledge from the previously learnt RL tasks. Our benchmark measures the efficacy of a deployable Lifelong Learning system that is evaluated on scalability, performance and resource utilization. Our proposed system, once pretrained on the dataset, can be deployed to perform continual learning on unseen tasks. Our proposed method consists of a Few Shot Class Incremental Learning (FSCIL) based task-mapper and an encoder/backbone trained entirely using the pretrain dataset. The policy parameters corresponding to the recognized task are then loaded to perform the task. We show that this system can be scaled to incorporate a large number of tasks due to the small memory footprint and fewer computational resources. We perform experiments on our DeLL (Deployment for Lifelong Learning) benchmark on the Atari games to determine the efficacy of the system.
翻訳日:2023-11-28 01:34:38 公開日:2023-11-22
# 言語モデルインバージョン

Language Model Inversion ( http://arxiv.org/abs/2311.13647v1 )

ライセンス: Link先を確認
John X. Morris, Wenting Zhao, Justin T. Chiu, Vitaly Shmatikov, Alexander M. Rush(参考訳) 言語モデルは次のトークンに分散を生成する。この情報を使ってプロンプトトークンを復元できるだろうか? 本稿では,言語モデル逆転の問題について考察し,次の確率が先行するテキストに関する驚くべき量の情報を含んでいることを示す。 しばしば、ユーザから隠された場合にテキストを復元し、モデルが現在配布している出力のみを与えられた未知のプロンプトを復元する手法を動機付けます。 様々なモデルアクセスシナリオを考察し,語彙中のトークンごとの予測がなくても,探索によって確率ベクトルを復元できることを示す。 llama-2 7bでは、inversionメソッドはプロンプトを59ドルのbleuで再構築し、トークンレベルのf1は78ドル、正確には27\%$のプロンプトを復元します。 すべての実験を再現するためのコードは、http://github.com/jxmorris12/vec2text.comで入手できる。

Language models produce a distribution over the next token; can we use this information to recover the prompt tokens? We consider the problem of language model inversion and show that next-token probabilities contain a surprising amount of information about the preceding text. Often we can recover the text in cases where it is hidden from the user, motivating a method for recovering unknown prompts given only the model's current distribution output. We consider a variety of model access scenarios, and show how even without predictions for every token in the vocabulary we can recover the probability vector through search. On Llama-2 7b, our inversion method reconstructs prompts with a BLEU of $59$ and token-level F1 of $78$ and recovers $27\%$ of prompts exactly. Code for reproducing all experiments is available at http://github.com/jxmorris12/vec2text.
翻訳日:2023-11-28 01:34:19 公開日:2023-11-22
# qftにおける測定理論に向けて:「不可能」量子測定は可能だが理想的ではない

Towards a measurement theory in QFT: "Impossible" quantum measurements are possible but not ideal ( http://arxiv.org/abs/2311.13644v1 )

ライセンス: Link先を確認
Nicolas Gisin and Flavio Del Santo(参考訳) ナイーブは相対性理論と量子測定をまとめようと試み、空間のような分離領域間のシグナルを導いた。 QFTでは、これらは不可能な測定として知られている。 我々は、非相対論的量子物理学において同じ問題が生じることを示し、例えば非物理的通信の原理に基づくような)非局所的な共同測定(すなわち、システム間の空間的分離)が信号化につながる。 どの非局所量子測定が物理的に可能か? 我々は,qftにおける不可能観測とは独立に開発された非相対論的量子情報アプローチをレビュー・開発し,これら2つが事実上同じ問題に取り組んでいることを示す。 非相対論的解は、すべての非局所的な測定がローカライズ可能であることを示している(つまり、符号を違反することなく遠くで行うことができる)。 i) 任意に大きな絡み合った資源を必要とする場合がある (ii)一般に理想とはなり得ない、即ち、すぐには再現できない。 これらの考察は、QFTにおける完全な測定理論の発展を導くのに役立つ。

Naive attempts to put together relativity and quantum measurements lead to signaling between space-like separated regions. In QFT, these are known as impossible measurements. We show that the same problem arises in non-relativistic quantum physics, where joint nonlocal measurements (i.e., between systems kept spatially separated) in general lead to signaling, while one would expect no-signaling (based for instance on the principle of no-nonphysical communication). This raises the question: Which nonlocal quantum measurements are physically possible? We review and develop further a non-relativistic quantum information approach developed independently of the impossible measurements in QFT, and show that these two have been addressing virtually the same problem. The non-relativistic solution shows that all nonlocal measurements are localizable (i.e., they can be carried out at a distance without violating no-signaling) but they (i) may require arbitrarily large entangled resources and (ii) cannot in general be ideal, i.e., are not immediately reproducible. These considerations could help guide the development of a complete theory of measurement in QFT.
翻訳日:2023-11-28 01:34:03 公開日:2023-11-22
# 非可換測定の量子エネルギー論

Quantum energetics of a non-commuting measurement ( http://arxiv.org/abs/2311.13634v1 )

ライセンス: Link先を確認
Xiayu Linpeng, Nicolo Piccione, Maria Maffei, Lea Bresque, Samyak P. Prasad, Andrew N. Jordan, Alexia Auffeves, and Kater W. Murch(参考訳) 観測可能な測定値が量子系のハミルトニアンと交換されない場合、測定されるシステムのエネルギーは通常測定中に保存されない。 代わりに、測定されたシステムとメーターの間でエネルギーを転送することができる。 本研究では,3次元マイクロ波共振器に埋め込まれたトランスモン量子ビットを含む回路量子電磁力学系における非可換計測のエネルギーについて実験的に検討する。 本研究では、周波数シフトがプローブに与えられる空洞光子のスペクトル分析を通して、量子ビットの関連するエネルギー変化とバランスをとることを示す。 我々の実験は、量子計測の基礎に関する新たな洞察を提供し、量子エネルギー学における重要なメカニズムの理解を深める。

When a measurement observable does not commute with a quantum system's Hamiltonian, the energy of the measured system is typically not conserved during the measurement. Instead, energy can be transferred between the measured system and the meter. In this work, we experimentally investigate the energetics of non-commuting measurements in a circuit quantum electrodynamics system containing a transmon qubit embedded in a 3D microwave cavity. We show through spectral analysis of the cavity photons that a frequency shift is imparted on the probe, in balance with the associated energy changes of the qubit. Our experiment provides new insights into foundations of quantum measurement, as well as a better understanding of the key mechanisms at play in quantum energetics.
翻訳日:2023-11-28 01:33:44 公開日:2023-11-22
# 拡散モデルと画像逆法学

Diffusion models meet image counter-forensics ( http://arxiv.org/abs/2311.13629v1 )

ライセンス: Link先を確認
Mat\'ias Tailanian, Marina Gardella, \'Alvaro Pardo, Pablo Mus\'e(参考訳) カメラセンサーの取得からストレージまで、最終的な画像を生成するためにさまざまな操作が実行される。 このパイプラインは、イメージに特定の痕跡をインプリントして、自然の透かしを形成する。 画像の改ざんは、これらの痕跡を阻害する;これらの混乱は、ほとんどの方法が偽造を検知し発見するために使用する手がかりである。 本稿では, フォージャーが残した痕跡を除去する拡散モデルの有効性を評価し, そこで, 法医学的手法を欺いた。 このようなアプローチは、近年、逆境浄化のために導入され、著しいパフォーマンスを達成している。 また, 拡散浄化法がカウンターフォリシスの課題に適していることを示す。 このようなアプローチは、法医学的手法を欺いたり、精製された画像の自然な外観を保存したりすることで、既存のカウンターフォレンス技術よりも優れています。 ソースコードはhttps://github.com/mtailanian/diff-cfで公開されている。

From its acquisition in the camera sensors to its storage, different operations are performed to generate the final image. This pipeline imprints specific traces into the image to form a natural watermark. Tampering with an image disturbs these traces; these disruptions are clues that are used by most methods to detect and locate forgeries. In this article, we assess the capabilities of diffusion models to erase the traces left by forgers and, therefore, deceive forensics methods. Such an approach has been recently introduced for adversarial purification, achieving significant performance. We show that diffusion purification methods are well suited for counter-forensics tasks. Such approaches outperform already existing counter-forensics techniques both in deceiving forensics methods and in preserving the natural look of the purified images. The source code is publicly available at https://github.com/mtailanian/diff-cf.
翻訳日:2023-11-28 01:33:35 公開日:2023-11-22
# Prompt Risk Control: 大規模言語モデルのデプロイに責任のある厳格なフレームワーク

Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models ( http://arxiv.org/abs/2311.13628v1 )

ライセンス: Link先を確認
Thomas P. Zollo, Todd Morrill, Zhun Deng, Jake C. Snell, Toniann Pitassi, Richard Zemel(参考訳) 大規模言語モデルの能力の最近の爆発は、モデルに与えられたタスクを実行するよう促す最善の方法への関心の波につながった。 検証セットの平均パフォーマンスに基づいてプロンプトを単に選択したいという誘惑があるかも知れませんが、これは特に最悪のユーザに対して、予期せぬほど悪いレスポンスが生成されるデプロイメントにつながる可能性があります。 そこで本研究では,情報的リスク対策の家族に対する厳密な上限に基づくプロンプトを選択するための軽量なフレームワークであるprompate risk controlを提案する。 我々は、利用者の集団間で最悪のケースの応答や世代品質のばらつきを測定する量を含む、さまざまな指標で境界を生成する方法を提供する。 さらに,デプロイメントにおける分散シフトの可能性に対応するために,基礎となる統計境界技術を拡張する。 オープンエンドチャット、医療質問の要約、コード生成といったアプリケーションの実験では、最悪の結果のリスクを減らすことで、このようなフレームワークが責任あるデプロイメントを促進する方法が強調されている。

The recent explosion in the capabilities of large language models has led to a wave of interest in how best to prompt a model to perform a given task. While it may be tempting to simply choose a prompt based on average performance on a validation set, this can lead to a deployment where unexpectedly poor responses are generated, especially for the worst-off users. To mitigate this prospect, we propose Prompt Risk Control, a lightweight framework for selecting a prompt based on rigorous upper bounds on families of informative risk measures. We offer methods for producing bounds on a diverse set of metrics, including quantities that measure worst-case responses and disparities in generation quality across the population of users. In addition, we extend the underlying statistical bounding techniques to accommodate the possibility of distribution shifts in deployment. Experiments on applications such as open-ended chat, medical question summarization, and code generation highlight how such a framework can foster responsible deployment by reducing the risk of the worst outcomes.
翻訳日:2023-11-28 01:33:22 公開日:2023-11-22
# Vamos:ビデオ理解のためのVersatile Action Model

Vamos: Versatile Action Models for Video Understanding ( http://arxiv.org/abs/2311.13627v1 )

ライセンス: Link先を確認
Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun(参考訳) 将来の活動を予測したり、ビデオコンディションの質問に答えたりといった、ビデオ理解のための優れたビデオ表現とは何か? 従来,ビデオ画素から直接のエンド・ツー・エンドの学習に焦点をあてるアプローチでは,個別のアクションラベルや自由形式のビデオキャプションなどのテキストベースの表現を再検討する手法が提案されている。 直感的には、異なるビデオ理解タスクは相補的で異なる粒度の表現を必要とするかもしれない。 そこで本稿では,ビデオから抽出した視覚的埋め込み,アクションラベル,自由形式の記述を柔軟に活用する,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。 本研究では,Vamosを4つの相補的ビデオ理解ベンチマーク(Ego4D,Next-QA,IntentQA,EgoSchema)で評価し,時間的ダイナミクスをモデル化し,視覚履歴をエンコードし,推論を行う能力について検討した。 驚くべきことに、テキストベースの表現は全てのベンチマークにおいて一貫して競争性能を達成し、視覚的な埋め込みは、LLM時代のテキストベースのビデオ表現の有効性を実証し、限界的あるいは全くのパフォーマンス向上をもたらす。 我々は3つのベンチマークで最先端の性能を達成するために、広範囲にわたるアブレーション研究と定性的分析を行った。

What makes good video representations for video understanding, such as anticipating future activities, or answering video-conditioned questions? While earlier approaches focus on end-to-end learning directly from video pixels, we propose to revisit text-based representations, such as discrete action labels, or free-form video captions, which are interpretable and can be directly consumed by large language models (LLMs). Intuitively, different video understanding tasks may require representations that are complementary and at different granularities. To this end, we propose versatile action models (Vamos), a learning framework powered by a large language model as the "reasoner", and can flexibly leverage visual embeddings, action labels, and free-form descriptions extracted from videos as its input. We evaluate Vamos on four complementary video understanding benchmarks, Ego4D, Next-QA, IntentQA, and EgoSchema, on its capability to model temporal dynamics, encode visual history, and perform reasoning. Surprisingly, we observe that text-based representations consistently achieve competitive performance on all benchmarks, and that visual embeddings provide marginal or no performance improvement, demonstrating the effectiveness of text-based video representation in the LLM era. We perform extensive ablation study and qualitative analysis to support our observations, and achieve state-of-the-art performance on three benchmarks.
翻訳日:2023-11-28 01:33:04 公開日:2023-11-22
# 物理駆動生成型逆ネットワークによる1ピクセル赤外ハイパースペクトルイメージング

Physics-driven generative adversarial networks empower single-pixel infrared hyperspectral imaging ( http://arxiv.org/abs/2311.13626v1 )

ライセンス: Link先を確認
Dong-Yin Wang, Shu-Hang Bie, Xi-Hao Chen, Wen-Kai Yu(参考訳) 従来のデータ駆動モデルに必要な広範なデータトレーニング作業を排除するため、赤外線スペクトルの単画素ハイパースペクトルイメージング(hsi)のための物理駆動生成逆ネットワーク(gan)がここで確立された。 GANフレームワーク内では、単一ピクセルイメージング(SPI)の物理プロセスがジェネレータに統合され、実際の1次元(1D)バケット信号は、ネットワークのパラメータを更新し、識別器の助けを借りてジェネレータを最適化する目的関数の制約として使用される。 圧縮センシングと物理駆動畳み込みニューラルネットワークに基づく単画素赤外線hsi法と比較して,物理駆動ganベース単画素赤外線hsiは高い撮像性能を実現するが,測定量は少ない。 我々は,この物理駆動型GANが計算画像,特にSPIに基づく様々な手法の実用化を促進すると信じている。

A physics-driven generative adversarial network (GAN) was established here for single-pixel hyperspectral imaging (HSI) in the infrared spectrum, to eliminate the extensive data training work required by traditional data-driven model. Within the GAN framework, the physical process of single-pixel imaging (SPI) was integrated into the generator, and the actual and estimated one-dimensional (1D) bucket signals were employed as constraints in the objective function to update the network's parameters and optimize the generator with the assistance of the discriminator. In comparison to single-pixel infrared HSI methods based on compressed sensing and physics-driven convolution neural networks, our physics-driven GAN-based single-pixel infrared HSI can achieve higher imaging performance but with fewer measurements. We believe that this physics-driven GAN will promote practical applications of computational imaging, especially various SPI-based techniques.
翻訳日:2023-11-28 01:32:36 公開日:2023-11-22
# Data Acquisition: データ中心AIの新たなフロンティア

Data Acquisition: A New Frontier in Data-centric AI ( http://arxiv.org/abs/2311.13712v1 )

ライセンス: Link先を確認
Lingjiao Chen, Bilge Acun, Newsha Ardalani, Yifan Sun, Feiyang Kang, Hanrui Lyu, Yongchan Kwon, Ruoxi Jia, Carole-Jean Wu, Matei Zaharia and James Zou(参考訳) 機械学習(ML)システムが成長を続けるにつれ、関連する包括的なデータセットの需要が不可欠になる。 アドホックなプロセスと一貫性のある方法論の欠如によるデータ取得の課題に関する限定的な研究がある。 まず、現在のデータ市場についての調査を行い、データセット、透明な価格、標準化されたデータフォーマットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。 データ中心のAIコミュニティへの参加を促す目的で、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。 ベンチマークはDataPerfの一部としてリリースされた。 提案手法の評価は,mlにおける効果的なデータ取得戦略の必要性を裏付けるものである。

As Machine Learning (ML) systems continue to grow, the demand for relevant and comprehensive datasets becomes imperative. There is limited study on the challenges of data acquisition due to ad-hoc processes and lack of consistent methodologies. We first present an investigation of current data marketplaces, revealing lack of platforms offering detailed information about datasets, transparent pricing, standardized data formats. With the objective of inciting participation from the data-centric AI community, we then introduce the DAM challenge, a benchmark to model the interaction between the data providers and acquirers. The benchmark was released as a part of DataPerf. Our evaluation of the submitted strategies underlines the need for effective data acquisition strategies in ML.
翻訳日:2023-11-28 01:25:34 公開日:2023-11-22
# 二色放射場による二原子分子のフローケット工学

Floquet Engineering of a Diatomic Molecule Through a Bichromatic Radiation Field ( http://arxiv.org/abs/2311.13697v1 )

ライセンス: Link先を確認
Edgar Barriga, Luis E. F. Foa Torres, Carlos C\'ardenas(参考訳) 2つのレーザーで照らされたcs$_2$分子の理論的研究を報告し、それがどのようにして新しい量子力学をもたらすかを示す。 これらの相互作用は、非交差則をバイパスし、光誘起円錐交叉と修正可能な回避交叉を形成する。 この結果から, レーザー磁場配向と強度, および初期相の相違が分子状態遷移, 特にマイクロモーションスケールを制御できることが示唆された。 また、物質と放射線の相互作用が、放射線と分子状態のハイブリッドの潜在的なエネルギー表面の出現を引き起こすかについても広く議論する。 この研究は、Cs$2$分子における光解離過程を操作する技術を進め、量子制御における新たな道のりを提供する。

We report on a theoretical study of a Cs$_2$ molecule illuminated by two lasers and show how it can result in novel quantum dynamics. We reveal that these interactions facilitate the bypass of the non-crossing rule, forming Light-Induced Conical Intersections and modifiable avoided crossings. Our findings show how laser field orientation and strength, along with initial phase differences, can control molecular state transitions, especially on the micromotion scale. We also discuss extensively how the interaction of radiation with matter gives rise to the emergence of potential energy surfaces of hybrids of radiation and molecular states. This research advances a technique for manipulating photoassociation processes in Cs$_2$ molecules, offering potential new avenues in quantum control.
翻訳日:2023-11-28 01:25:23 公開日:2023-11-22
# BackboneLearn: 混合整数最適化に基づく機械学習をスケールするためのライブラリ

BackboneLearn: A Library for Scaling Mixed-Integer Optimization-Based Machine Learning ( http://arxiv.org/abs/2311.13695v1 )

ライセンス: Link先を確認
Vassilis Digalakis Jr and Christos Ziakas(参考訳) 我々は、インジケータ変数を用いたMIO(mixed-integer Optimization)問題を高次元問題に拡張するための、オープンソースのソフトウェアパッケージおよびフレームワークであるBackboneLearnを提案する。 この最適化パラダイムは、解釈可能な教師付き学習(例えば、スパース回帰と決定木)、教師なし学習(例えばクラスタリング)、その他において基本的な問題を定式化し、BackboneLearnは上記の問題を正確な方法よりも早く解き、一般的に使用されるヒューリスティックスよりも高い精度で解くことができる。 このパッケージはPythonで構築されており、ユーザフレンドリで容易に拡張可能である。 backbonelearnのソースコードはgithubから入手できる(リンク: https://github.com/chziakas/backbone_learn)。

We present BackboneLearn: an open-source software package and framework for scaling mixed-integer optimization (MIO) problems with indicator variables to high-dimensional problems. This optimization paradigm can naturally be used to formulate fundamental problems in interpretable supervised learning (e.g., sparse regression and decision trees), in unsupervised learning (e.g., clustering), and beyond; BackboneLearn solves the aforementioned problems faster than exact methods and with higher accuracy than commonly used heuristics. The package is built in Python and is user-friendly and easily extensible: users can directly implement a backbone algorithm for their MIO problem at hand. The source code of BackboneLearn is available on GitHub (link: https://github.com/chziakas/backbone_learn).
翻訳日:2023-11-28 01:25:10 公開日:2023-11-22
# 量子ダイバージェンスに対する極限分布理論

Limit Distribution Theory for Quantum Divergences ( http://arxiv.org/abs/2311.13694v1 )

ライセンス: Link先を確認
Sreejith Sreekumar and Mario Berta(参考訳) 量子相対エントロピーの推定とその R\'{e}nyi 一般化は、量子情報理論、物理学、その他における基本的な統計的タスクである。 これらの分岐のいくつかの推定者は計算の複雑さを探求した文献で提案されているが、推定誤差の漸近的変動を特徴づける極限分布理論はまだ未定である。 主な貢献として、基本作用素値関数のFr\'{e}chet微分の観点からこれらの漸近分布を特徴づける。 テイラーの定理の作用素バージョンを利用し、必要となる正規性条件を同定することでこれを達成する。 この結果の適用例として、量子状態の一般化されたパウリトモグラフィーに基づく量子相対エントロピーの推定法を検討し、結果として生じる漸近分布が中心正規であり、パウリ作用素と状態の項で特徴づけられることを示す。 上記の限界分布の知識を利用して,多仮説テスト問題に対する漸近的性能保証を得る。

Estimation of quantum relative entropy and its R\'{e}nyi generalizations is a fundamental statistical task in quantum information theory, physics, and beyond. While several estimators of these divergences have been proposed in the literature along with their computational complexities explored, a limit distribution theory which characterizes the asymptotic fluctuations of the estimation error is still premature. As our main contribution, we characterize these asymptotic distributions in terms of Fr\'{e}chet derivatives of elementary operator-valued functions. We achieve this by leveraging an operator version of Taylor's theorem and identifying the regularity conditions needed. As an application of our results, we consider an estimator of quantum relative entropy based on generalized Pauli tomography of quantum states and show that the resulting asymptotic distribution is a centered normal, with its variance characterized in terms of the Pauli operators and states. We utilize the knowledge of the aforementioned limit distribution to obtain asymptotic performance guarantees for a multi-hypothesis testing problem.
翻訳日:2023-11-28 01:24:56 公開日:2023-11-22
# GPUテンソルコアを用いたテンソル学習のためのスケーラブルCP分解

Scalable CP Decomposition for Tensor Learning using GPU Tensor Cores ( http://arxiv.org/abs/2311.13693v1 )

ライセンス: Link先を確認
Zeliang Zhang, Zhuo Liu, Susan Liang, Zhiyuan Wang, Yifan Zhu, Chen Ding, Chenliang Xu(参考訳) CP分解はデータサイエンス、特に遺伝子解析、ディープラーニング、量子計算の強力なツールである。 しかし, テンソル分解の応用は, 計算複雑性の指数的増大とテンソルサイズの記憶容量の増大によって大きく妨げられている。 私たちの現実世界のデータは通常、数兆のスケールのテンソルとして表現されるが、既存の研究は数十億のスケールのテンソルしかサポートできない。 本研究では,このギャップを軽減するためにexascale-tensorを提案する。 具体的には,エクサスケールテンソル分解をサポートする圧縮ベーステンソル分解フレームワークを提案する。 そこで我々は本質的並列性を慎重に分析し,計算効率を向上させるための戦略の袋を提案する。 最後に,マルチスケールから1兆スケールまでのテンソルを分解して評価する実験を行った。 ベースラインと比較すると、exascale-tensorは8000倍のテンソルと6.95倍の高速化をサポートする。 また,本手法を遺伝子解析とテンソル層ニューラルネットワークを含む実世界の2つの応用に適用し,本手法のスケーラビリティと有効性を示した。

CP decomposition is a powerful tool for data science, especially gene analysis, deep learning, and quantum computation. However, the application of tensor decomposition is largely hindered by the exponential increment of the computational complexity and storage consumption with the size of tensors. While the data in our real world is usually presented as trillion- or even exascale-scale tensors, existing work can only support billion-scale scale tensors. In our work, we propose the Exascale-Tensor to mitigate the significant gap. Specifically, we propose a compression-based tensor decomposition framework, namely the exascale-tensor, to support exascale tensor decomposition. Then, we carefully analyze the inherent parallelism and propose a bag of strategies to improve computational efficiency. Last, we conduct experiments to decompose tensors ranging from million-scale to trillion-scale for evaluation. Compared to the baselines, the exascale-tensor supports 8,000x larger tensors and a speedup up to 6.95x. We also apply our method to two real-world applications, including gene analysis and tensor layer neural networks, of which the numeric results demonstrate the scalability and effectiveness of our method.
翻訳日:2023-11-28 01:24:40 公開日:2023-11-22
# 次世代地球システムモデル:気象・気候応用のための信頼性のあるハイブリッドモデルを目指して

Next-Generation Earth System Models: Towards Reliable Hybrid Models for Weather and Climate Applications ( http://arxiv.org/abs/2311.13691v1 )

ライセンス: Link先を確認
Tom Beucler, Erwan Koch, Sven Kotlarski, David Leutwyler, Adrien Michel, Jonathan Koh(参考訳) 我々は、機械学習が地球システムをモデル化する能力をいかに変えたか、そして近い将来スイスのエンドユーザーにとって、最近のブレークスルーがいかに利益をもたらすかをレビューする。

We review how machine learning has transformed our ability to model the Earth system, and how we expect recent breakthroughs to benefit end-users in Switzerland in the near future.
翻訳日:2023-11-28 01:24:25 公開日:2023-11-22
# 画像解析のためのマスキング条件拡散モデルと乳幼児虐待のx線診断への応用

Masked Conditional Diffusion Models for Image Analysis with Application to Radiographic Diagnosis of Infant Abuse ( http://arxiv.org/abs/2311.13688v1 )

ライセンス: Link先を確認
Shaoju Wu, Sila Kurugol and Andy Tsai(参考訳) 古典的中生代病変(CML)は乳児の虐待に特異的な障害である。 典型的には遠位骨に発生する。 放射線技師がこれらの微妙な骨折を検出するのを助けるためには、異常な遠位部X線写真(すなわちCMLを持つもの)にフラグを付けるモデルを開発する必要がある。 残念なことに、そのようなモデルの開発には大規模で多様なトレーニングデータベースが必要である。 この制限に対処するため,データ拡張のための新しい生成モデルを提案する。 提案するマスキング条件拡散モデル (mac-dm) は,cmlの有無にかかわらず, 遠位骨幹部の合成画像を生成するだけでなく, 関連するセグメンテーションラベルも生成する。 これらの課題を達成するために、mac-dmは、分類指導のための追加条件として足骨の重み付きセグメンテーションマスクとcml骨折部位を組み合わせる。 本モデルによる拡張画像により,通常のラジオグラフィーとCMLの分類におけるResNet-34の性能が向上した。 さらに,拡張画像とそれに伴うセグメンテーションマスクは,骨遠位端x線写真におけるcmlのラベリング領域におけるu-netの性能を高めた。

The classic metaphyseal lesion (CML) is a distinct injury that is highly specific for infant abuse. It commonly occurs in the distal tibia. To aid radiologists detect these subtle fractures, we need to develop a model that can flag abnormal distal tibial radiographs (i.e. those with CMLs). Unfortunately, the development of such a model requires a large and diverse training database, which is often not available. To address this limitation, we propose a novel generative model for data augmentation. Unlike previous models that fail to generate data that span the diverse radiographic appearance of the distal tibial CML, our proposed masked conditional diffusion model (MaC-DM) not only generates realistic-appearing and wide-ranging synthetic images of the distal tibial radiographs with and without CMLs, it also generates their associated segmentation labels. To achieve these tasks, MaC-DM combines the weighted segmentation masks of the tibias and the CML fracture sites as additional conditions for classifier guidance. The augmented images from our model improved the performances of ResNet-34 in classifying normal radiographs and those with CMLs. Further, the augmented images and their associated segmentation masks enhanced the performance of the U-Net in labeling areas of the CMLs on distal tibial radiographs.
翻訳日:2023-11-28 01:24:20 公開日:2023-11-22
# ビートアライメントスペクトログラム-リズムゲームチャートの系列生成

Beat-Aligned Spectrogram-to-Sequence Generation of Rhythm-Game Charts ( http://arxiv.org/abs/2311.13687v1 )

ライセンス: Link先を確認
Jayeon Yi and Sungho Lee and Kyogu Lee(参考訳) リズムゲーム (rhythm games) - プレイヤーが音楽と同期してアクションを行なわなければならないゲームは「チャート」であり、プレイヤーに指示を与える。 シーケンシャル生成タスクとしてグラフ生成を新たに定式化し,大規模なデータセットを用いてトランスフォーマーを訓練する。 また,テンポインフォームド・プレプロセッシングとトレーニング・プロシージャを導入し,その一部はトレーニングを成功させる上で不可欠なものと考えられる。 我々のモデルは,大規模なデータセットのベースラインよりも優れており,事前学習や微調整の恩恵も受けられる。

In the heart of "rhythm games" - games where players must perform actions in sync with a piece of music - are "charts", the directives to be given to players. We newly formulate chart generation as a sequence generation task and train a Transformer using a large dataset. We also introduce tempo-informed preprocessing and training procedures, some of which are suggested to be integral for a successful training. Our model is found to outperform the baselines on a large dataset, and is also found to benefit from pretraining and finetuning.
翻訳日:2023-11-28 01:23:22 公開日:2023-11-22
# 逆問題に対するシングルショットプラグアンドプレイ法

Single-Shot Plug-and-Play Methods for Inverse Problems ( http://arxiv.org/abs/2311.13682v1 )

ライセンス: Link先を確認
Yanqi Cheng, Lipei Zhang, Zhenda Shen, Shujun Wang, Lequan Yu, Raymond H. Chan, Carola-Bibiane Sch\"onlieb, Angelica I Aviles-Rivero(参考訳) 近年, 逆問題におけるPlug-and-Play (PnP) の活用が注目されている。 この選好は、一般近位作用素と正規化デノイザの数学的等価性に基づいており、様々なオフザシェルフデノイザの幅広い逆問題への適応を容易にする。 しかし、既存のPnPモデルは、主に大規模なデータセットを使用した事前訓練されたデノイザに依存している。 本研究では,最小データを用いた逆問題に焦点を移すシングルショットPnP法(SS-PnP)を提案する。 まず、Single-Shot Proximal Denoiserを反復的なメソッドに統合し、単一インスタンスでのトレーニングを可能にします。 第二に, 関連する周波数を保存し, 細部を捉えながら, 消失する勾配問題を回避する新しい関数に基づいて, 暗黙的ニューラルプリアーを提案する。 数値的および視覚的な実験により,本手法により近似精度が向上することを示す。

The utilisation of Plug-and-Play (PnP) priors in inverse problems has become increasingly prominent in recent years. This preference is based on the mathematical equivalence between the general proximal operator and the regularised denoiser, facilitating the adaptation of various off-the-shelf denoiser priors to a wide range of inverse problems. However, existing PnP models predominantly rely on pre-trained denoisers using large datasets. In this work, we introduce Single-Shot PnP methods (SS-PnP), shifting the focus to solving inverse problems with minimal data. First, we integrate Single-Shot proximal denoisers into iterative methods, enabling training with single instances. Second, we propose implicit neural priors based on a novel function that preserves relevant frequencies to capture fine details while avoiding the issue of vanishing gradients. We demonstrate, through extensive numerical and visual experiments, that our method leads to better approximations.
翻訳日:2023-11-28 01:23:12 公開日:2023-11-22
# 放射場に対するコンパクトな3次元ガウス表現

Compact 3D Gaussian Representation for Radiance Field ( http://arxiv.org/abs/2311.13681v1 )

ライセンス: Link先を確認
Joo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、複雑な3Dシーンを高忠実度で撮影する大きな可能性を示している。 しかし、NeRFの普及を妨げている1つの永続的課題は、ボリュームレンダリングによる計算ボトルネックである。 一方、3d gaussian splatting (3dgs)は、3d gaussisanベースの表現を利用する代替表現として最近登場し、ボリュームレンダリングではなくラスタ化パイプラインを採用し、非常に高速なレンダリング速度と有望な画像品質を実現している。 しかし、3DGSは、大量のメモリとストレージを必要とするレンダリング画像の高忠実さを維持するために、相当数の3Dガウシアンを必要とするため、大きな欠点が生じる。 この重要な問題に対処するために、我々は、性能を犠牲にすることなくガウス点数を減らし、ビュー依存色や共分散のようなガウス属性を圧縮する、2つの主要な目的に特に重点を置いている。 そこで本研究では,高い性能を維持しながらガウス数を大幅に削減する学習可能なマスク戦略を提案する。 さらに,球面高調波に頼らず,格子型ニューラルネットワークを用いて,ビュー依存色をコンパクトかつ効果的に表現することを提案する。 最後に,ベクトル量子化によりガウスの幾何学的属性をコンパクトに表現するコードブックを学習する。 広範な実験で、我々は3dgsに比べてシーン表現の品質を維持しながら、10$\times$のストレージ削減とレンダリング速度の向上を一貫して示しました。 我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。 プロジェクトページはhttps://maincold2.github.io/c3dgs/で閲覧できます。

Neural Radiance Fields (NeRFs) have demonstrated remarkable potential in capturing complex 3D scenes with high fidelity. However, one persistent challenge that hinders the widespread adoption of NeRFs is the computational bottleneck due to the volumetric rendering. On the other hand, 3D Gaussian splatting (3DGS) has recently emerged as an alternative representation that leverages a 3D Gaussisan-based representation and adopts the rasterization pipeline to render the images rather than volumetric rendering, achieving very fast rendering speed and promising image quality. However, a significant drawback arises as 3DGS entails a substantial number of 3D Gaussians to maintain the high fidelity of the rendered images, which requires a large amount of memory and storage. To address this critical issue, we place a specific emphasis on two key objectives: reducing the number of Gaussian points without sacrificing performance and compressing the Gaussian attributes, such as view-dependent color and covariance. To this end, we propose a learnable mask strategy that significantly reduces the number of Gaussians while preserving high performance. In addition, we propose a compact but effective representation of view-dependent color by employing a grid-based neural field rather than relying on spherical harmonics. Finally, we learn codebooks to compactly represent the geometric attributes of Gaussian by vector quantization. In our extensive experiments, we consistently show over 10$\times$ reduced storage and enhanced rendering speed, while maintaining the quality of the scene representation, compared to 3DGS. Our work provides a comprehensive framework for 3D scene representation, achieving high performance, fast training, compactness, and real-time rendering. Our project page is available at https://maincold2.github.io/c3dgs/.
翻訳日:2023-11-28 01:22:57 公開日:2023-11-22
# Qudit Stabilizer Codes, CFTs, およびトポロジカルサーフェス

Qudit Stabilizer Codes, CFTs, and Topological Surfaces ( http://arxiv.org/abs/2311.13680v1 )

ライセンス: Link先を確認
Matthew Buican and Rajath Radhakrishnan(参考訳) 固定されたキラル代数と関連するチャーン・サイモンズ理論を持つ有理 CFT の空間から、固定された一般化されたパウリ群を持つキュディット安定化符号の空間への一般写像を研究する。 このような写像に対するある種の自然な制約を考慮し、この写像を、CFTのオリフォルド構造を捉えるオービフォールドグラフから、自己双対安定化符号の構造を捉えるコードグラフまで、グラフ準同型として記述できることを示す。 明示的な例を調べることによって、このグラフ準同型は必ずしもグラフ埋め込みではないことを示す。 しかし、一般化されたパウリ群の作用素への CFT の普遍オービフォールド部分グラフから物理的に動機付けられた写像を構築する。 この写像が自己双対安定化符号となることは、問題となるCFTに対応するバルクCS理論の曲面作用素が自己双対である場合に限る。 安定化符号記述を許す cft に対して、完全アーベル化一般化パウリ群は cft のある種の 0-形式対称性のねじれたセクタから得られることを示した。 最後に、我々はSymTFTと構築を結び、セットアップで生じる符号間の多くの等価性は、可逆曲面との融合の下でのバルクトポロジカル曲面の同値類に対応すると論じる。

We study general maps from the space of rational CFTs with a fixed chiral algebra and associated Chern-Simons (CS) theories to the space of qudit stabilizer codes with a fixed generalized Pauli group. We consider certain natural constraints on such a map and show that the map can be described as a graph homomorphism from an orbifold graph, which captures the orbifold structure of CFTs, to a code graph, which captures the structure of self-dual stabilizer codes. By studying explicit examples, we show that this graph homomorphism cannot always be a graph embedding. However, we construct a physically motivated map from universal orbifold subgraphs of CFTs to operators in a generalized Pauli group. We show that this map results in a self-dual stabilizer code if and only if the surface operators in the bulk CS theories corresponding to the CFTs in question are self-dual. For CFTs admitting a stabilizer code description, we show that the full abelianized generalized Pauli group can be obtained from twisted sectors of certain 0-form symmetries of the CFT. Finally, we connect our construction with SymTFTs, and we argue that many equivalences between codes that arise in our setup correspond to equivalence classes of bulk topological surfaces under fusion with invertible surfaces.
翻訳日:2023-11-28 01:22:29 公開日:2023-11-22
# 単純量子前処理によるパリティ対$\mathsf{AC^0}$

Parity vs. $\mathsf{AC^0}$ with simple quantum preprocessing ( http://arxiv.org/abs/2311.13679v1 )

ライセンス: Link先を確認
Joseph Slote(参考訳) 最近の研究の行は、定数深度量子計算の非条件的優位性、または$\mathsf{QNC^0}$、$\mathsf{NC^0}$、$\mathsf{AC^0}$、および関連する古典計算のモデルを示している。 この利点を示す問題はパリティ関数に関連する探索およびサンプリングタスクであり、$\mathsf{qnc^0}$がパリティ自体を計算するのに役立つかどうかを問うのは自然である。 我々は$\mathsf{AC^0\circ QNC^0}$ -- $\mathsf{AC^0}$が$\mathsf{QNC^0}$回路の測定結果に基づいて動作するハイブリッド回路モデルについて研究し、$\mathsf{AC^0\circ QNC^0}$は$\Omega(1)$パリティとの相関すら達成できない。 この予想の証拠として、$\bullet$ が、$\mathsf{qnc^0}$回路がアンシラフリーであるとき、このモデルはパリティとの無視できない相関のみを達成する。 $\bullet$ 一般(非アンシラ自由)の場合、予想が近似次数 $o(n)$ を持つ任意の種類の後処理関数に対して持つ非局所ゲームとの接続を通して、$\mathsf{QNC^0}$ 回路が任意の量子アドバイスを受けるときでさえ、制限の下で閉じていることを示す。 既知の結果により、これは線型サイズ$\mathsf{AC^0}$回路の予想を確認する。 $\bullet$ a Switching lemma for $\mathsf{AC^0\circ QNC^0}$ では、ブール関数の決定木複雑性に対する量子前処理の効果について検討する。 この見地からすると、非局所的チャネルはランダム性以上のものではないことが分かる:$n$の非局所的チャネルで予め構成されたブール関数$f$は、最大$\mathrm{dt}_\mathrm{depth}[f]$で最悪の場合の深さを持つランダム化された決定木に等しい。 この結果から,$\mathsf{QNC^0}$は検索とサンプリングに驚くほど強力であるのに対し,出力のグローバルな相関関係ではパワーは「ロックダウン」し,決定問題を解くための単純な古典計算にはアクセスできないことが示唆された。

A recent line of work has shown the unconditional advantage of constant-depth quantum computation, or $\mathsf{QNC^0}$, over $\mathsf{NC^0}$, $\mathsf{AC^0}$, and related models of classical computation. Problems exhibiting this advantage include search and sampling tasks related to the parity function, and it is natural to ask whether $\mathsf{QNC^0}$ can be used to help compute parity itself. We study $\mathsf{AC^0\circ QNC^0}$ -- a hybrid circuit model where $\mathsf{AC^0}$ operates on measurement outcomes of a $\mathsf{QNC^0}$ circuit, and conjecture $\mathsf{AC^0\circ QNC^0}$ cannot even achieve $\Omega(1)$ correlation with parity. As evidence for this conjecture, we prove: $\bullet$ When the $\mathsf{QNC^0}$ circuit is ancilla-free, this model achieves only negligible correlation with parity. $\bullet$ For the general (non-ancilla-free) case, we show via a connection to nonlocal games that the conjecture holds for any class of postprocessing functions that has approximate degree $o(n)$ and is closed under restrictions, even when the $\mathsf{QNC^0}$ circuit is given arbitrary quantum advice. By known results this confirms the conjecture for linear-size $\mathsf{AC^0}$ circuits. $\bullet$ Towards the a switching lemma for $\mathsf{AC^0\circ QNC^0}$, we study the effect of quantum preprocessing on the decision tree complexity of Boolean functions. We find that from this perspective, nonlocal channels are no better than randomness: a Boolean function $f$ precomposed with an $n$-party nonlocal channel is together equal to a randomized decision tree with worst-case depth at most $\mathrm{DT}_\mathrm{depth}[f]$. Our results suggest that while $\mathsf{QNC^0}$ is surprisingly powerful for search and sampling, that power is "locked away" in the global correlations of its output, inaccessible to simple classical computation for solving decision problems.
翻訳日:2023-11-28 01:22:02 公開日:2023-11-22
# 回転対称性を持つボゾン符号の明示的誤り訂正法と符号距離

An explicit error correction scheme and code distance for bosonic codes with rotational symmetry ( http://arxiv.org/abs/2311.13670v1 )

ライセンス: Link先を確認
Benjamin Marinoff, Miles Bush, Joshua Combes(参考訳) 回転対称性を持つボソニック符号は現在、最高の量子誤り訂正符号の1つである。 クビット符号やボソニック符号の翻訳対称性とは対照的に、これらの回転符号の誤り伝播と符号距離についてはほとんど知られていない。 我々は、回転対称性を持つ符号に自然に適合する汎用的誤り基底を用いて、エラーがどのようにゲートを伝播するかを計算する。 このエラーベースにより、回転対称性を持つ任意のコードに対して、明示的なエラー検出、復号化、補正を行うことができる。 また、$N$の回転対称性を持つ符号は、数と回転誤差に関して$(d_n, d_\theta)=(N, \pi/N)$であることを示す。

Bosonic codes with rotational symmetry are currently one of the best-performing quantum error-correcting codes. Little is known about error propagation and code distance for these rotation codes in contrast to qubit codes and Bosonic codes with translation symmetry. We use a general-purpose error basis that is naturally suited to codes with rotation symmetry to compute how errors propagate through gates. This error basis allows us to give an explicit error detection, decoding, and correction scheme for any code with rotation symmetry. We also prove that codes with an $N$-fold rotation symmetry have a distance of $(d_n, d_\theta)=(N, \pi/N)$ with respect to number and rotation errors.
翻訳日:2023-11-28 01:21:13 公開日:2023-11-22
# MAIRA-1:放射線学レポート生成のための大規模マルチモーダルモデル

MAIRA-1: A specialised large multimodal model for radiology report generation ( http://arxiv.org/abs/2311.13668v1 )

ライセンス: Link先を確認
Stephanie L. Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Mercy Ranjit, Anton Schwaighofer, Fernando P\'erez-Garc\'ia, Valentina Salvatelli, Shaury Srivastav, Anja Thieme, Noel Codella, Matthew P. Lungren, Maria Teodora Wetscherek, Ozan Oktay, Javier Alvarez-Valle(参考訳) 胸部X線(CXR)から放射線学的報告を生成するための放射線学固有のマルチモーダルモデルを提案する。 我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。 自然画像では、マルチモーダルモデルが画像理解と記述能力を得られることが示されている。 提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。 特に、MAIRA-1は、放射線学者によるRadCliQ測定値と、考慮されたすべての語彙指標を大きく改善する。 モデルアウトプットのマニュアルレビューでは、既存の評価プラクティスが捉えていない障害モードを明らかにしながら、生成されたレポートの有望な流速と正確性を示している。 詳しい情報とリソースはプロジェクトのwebサイト(https://aka.ms/maira.com)で確認できる。

We present a radiology-specific multimodal model for the task for generating radiological reports from chest X-rays (CXRs). Our work builds on the idea that large language model(s) can be equipped with multimodal capabilities through alignment with pre-trained vision encoders. On natural images, this has been shown to allow multimodal models to gain image understanding and description capabilities. Our proposed model (MAIRA-1) leverages a CXR-specific image encoder in conjunction with a fine-tuned large language model based on Vicuna-7B, and text-based data augmentation, to produce reports with state-of-the-art quality. In particular, MAIRA-1 significantly improves on the radiologist-aligned RadCliQ metric and across all lexical metrics considered. Manual review of model outputs demonstrates promising fluency and accuracy of generated reports while uncovering failure modes not captured by existing evaluation practices. More information and resources can be found on the project website: https://aka.ms/maira.
翻訳日:2023-11-28 01:21:02 公開日:2023-11-22
# 協調勾配と損失に基づくクラスタ型フェデレーション学習設計

A Joint Gradient and Loss Based Clustered Federated Learning Design ( http://arxiv.org/abs/2311.13665v1 )

ライセンス: Link先を確認
Licheng Lin, Mingzhe Chen, Zhaohui Yang, Yusen Wu, Yuchen Liu(参考訳) 本稿では,非IIDデータを用いた分散エッジデバイスが分散的に複数のクラスタを独立に形成し,各クラスタ内でのFLトレーニングを実現するための,新たなクラスタ化FLフレームワークを提案する。 特に,クラスタ型flアルゴリズムは,flトレーニングに関連する2つの課題を克服しなければならない。 まず、サーバは、限られたFL訓練情報(すなわち、パラメータサーバは、各デバイスのFLモデル情報しか取得できない)と、大量のデバイス間の差異を見つけるための限られた計算能力を有する。 第2に、各デバイスはデバイスクラスタリングのための他のデバイスのデータ情報を持っておらず、サーバから受信したグローバルflモデルパラメータとそのデータ情報のみを使用してクラスタのアイデンティティを判断し、デバイスクラスタリングの難しさを増大させる。 これら2つの課題を克服するために,各装置が勾配類似性や訓練損失を考慮したクラスタ識別を行う,連立勾配と損失に基づく分散クラスタリング手法を提案する。 提案したクラスタリング手法は,各クラスタに局所FLモデルがどのように寄与するかだけでなく,勾配降下方向も考慮し,クラスタリング速度を向上する。 エッジデバイスにクラスタリングの決定を委譲することで、各デバイスは自身のプライベートデータ情報を完全に活用して、自身のクラスタidを決定できるため、クラスタリングのオーバーヘッドが削減され、クラスタ全体のパフォーマンスが向上する。 シミュレーションの結果,提案するクラスタリングFLアルゴリズムは,既存のベースラインと比較して最大99%のクラスタリングイテレーションを削減できることがわかった。

In this paper, a novel clustered FL framework that enables distributed edge devices with non-IID data to independently form several clusters in a distributed manner and implement FL training within each cluster is proposed. In particular, our designed clustered FL algorithm must overcome two challenges associated with FL training. First, the server has limited FL training information (i.e., the parameter server can only obtain the FL model information of each device) and limited computational power for finding the differences among a large amount of devices. Second, each device does not have the data information of other devices for device clustering and can only use global FL model parameters received from the server and its data information to determine its cluster identity, which will increase the difficulty of device clustering. To overcome these two challenges, we propose a joint gradient and loss based distributed clustering method in which each device determines its cluster identity considering the gradient similarity and training loss. The proposed clustering method not only considers how a local FL model of one device contributes to each cluster but also the direction of gradient descent thus improving clustering speed. By delegating clustering decisions to edge devices, each device can fully leverage its private data information to determine its own cluster identity, thereby reducing clustering overhead and improving overall clustering performance. Simulation results demonstrate that our proposed clustered FL algorithm can reduce clustering iterations by up to 99% compared to the existing baseline.
翻訳日:2023-11-28 01:20:42 公開日:2023-11-22
# NMR信号の逆変換法としてのディープラーニング

Deep Learning as a Method for Inversion of NMR Signals ( http://arxiv.org/abs/2311.13722v1 )

ライセンス: Link先を確認
Julian B. B. Beckmann, Mick D. Mantle, Andrew J. Sederman, Lynn F. Gladden(参考訳) ディープラーニングの概念はNMR信号の反転に使われ、NMR信号の反転は画像から画像への回帰問題とみなすことができ、畳み込みニューラルネットで扱うことができる。 さらに、深層学習によるインバージョンは、Tikhonovのような正規化技術や改良された総一般化変動(MTGV)よりも明確な効率性とユーザビリティの優位性をもたらすことが述べられている。 インバージョンネットワークは、シミュレーションされたNMR信号に適用され、TikhonovとMTGVの正則化と比較される。 比較の結果,ディープラーニングによる逆変換は後者の正則化手法よりもはるかに高速であり,ほぼすべてのインスタンスにおいて両正則化手法よりも優れていた。

The concept of deep learning is employed for the inversion of NMR signals and it is shown that NMR signal inversion can be considered as an image-to-image regression problem, which can be treated with a convolutional neural net. It is further outlined, that inversion through deep learning provides a clear efficiency and usability advantage compared to regularization techniques such as Tikhonov and modified total generalized variation (MTGV), because no hyperparemeter selection prior to reconstruction is necessary. The inversion network is applied to simulated NMR signals and the results compared with Tikhonov- and MTGV-regularization. The comparison shows that inversion via deep learning is significantly faster than the latter regularization methods and also outperforms both regularization techniques in nearly all instances.
翻訳日:2023-11-28 01:12:12 公開日:2023-11-22
# Nova$^+$:バイナリ生成言語モデル

Nova$^+$: Generative Language Models for Binaries ( http://arxiv.org/abs/2311.13721v1 )

ライセンス: Link先を確認
Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang(参考訳) コードで事前トレーニングされた生成型大言語モデル(llm)は、コード生成、プログラムの修復、文書解析において素晴らしい効果を示している。 しかし、既存のジェネレーティブLLMはソースコードに焦点を当てており、バイナリに特化していない。 hex-decimal value、complex global dependencies、そしてコンパイラ最適化レベルである。バイナリドメインにllmsの利点をもたらすため、我々はnovaとnova$^+$を開発し、これはバイナリコーパスで事前トレーニングされている。 Novaは標準言語モデリングタスクで事前トレーニングされており、バイナリコード類似性検出(BCSD)、バイナリコード変換(BCT)、バイナリコードリカバリ(BCR)、GPT-3.5など、既存の3つのダウンストリームタスクの5つのベンチマークで大幅に改善されている。 我々はNovaを2つの新しい事前学習タスク、すなわち最適化生成と最適化レベル予測を使ってさらに強化するためにNova$^+$を構築します。 nova$^+$は、5つのベンチマークで3つのダウンストリームタスクの全体的なパフォーマンスを示し、新しい事前トレーニングタスクの貢献を示している。

Generative large language models (LLMs) pre-trained on code have shown impressive effectiveness in code generation, program repair, and document analysis. However, existing generative LLMs focus on source code and are not specialized for binaries. There are three main challenges for LLMs to model and learn binary code: hex-decimal values, complex global dependencies, and compiler optimization levels.To bring the benefit of LLMs to the binary domain, we develop Nova and Nova$^+$, which are LLMs pre-trained on binary corpora. Nova is pre-trained with the standard language modeling task, showing significantly better capability on five benchmarks for three downstream tasks: binary code similarity detection (BCSD), binary code translation (BCT), and binary code recovery (BCR), over GPT-3.5 and other existing techniques. We build Nova$^+$ to further boost Nova using two new pre-training tasks, i.e., optimization generation and optimization level prediction, which are designed to learn binary optimization and align equivalent binaries. Nova$^+$ shows overall the best performance for all three downstream tasks on five benchmarks, demonstrating the contributions of the new pre-training tasks.
翻訳日:2023-11-28 01:11:57 公開日:2023-11-22
# より可能性の高いai計画モデルに向けて

Towards More Likely Models for AI Planning ( http://arxiv.org/abs/2311.13720v1 )

ライセンス: Link先を確認
Turgay Caglar, Sirine Belhaj, Tathagata Chakraborti, Michael Katz, Sarath Sreedharan(参考訳) これは、自動化計画タスクにおけるモデル空間編集を目的として、大規模言語モデル(llm)のアプリケーションを調べる最初の仕事である。 このサンガムの舞台を設定するために、ai計画文献で研究されているモデル空間問題の2つの異なるフレーバーを調査し、それらのタスクに対するllmの効果を探求する。 llmの性能がコンビネートアル検索(cs)とどのように対照的であるかを実証的に示す。これは従来計画におけるモデル空間タスクの解決に用いられてきたアプローチであり、llmはスタンドアロンモデル空間推論の役割と、csアプローチと相まって統計信号の役割の両方を2段階のプロセスの一部として担っている。 実験の結果,将来的な計画課題に対するモデル空間推論のエキサイティングな世界へのLSMのさらなる進出が示唆された。

This is the first work to look at the application of large language models (LLMs) for the purpose of model space edits in automated planning tasks. To set the stage for this sangam, we explore two different flavors of model space problems that have been studied in the AI planning literature and explore the effect of an LLM on those tasks. We empirically demonstrate how the performance of an LLM contrasts with combinatorial search (CS) - an approach that has been traditionally used to solve model space tasks in planning, both with the LLM in the role of a standalone model space reasoner as well as in the role of a statistical signal in concert with the CS approach as part of a two-stage process. Our experiments show promising results suggesting further forays of LLMs into the exciting world of model space reasoning for planning tasks in the future.
翻訳日:2023-11-28 01:11:35 公開日:2023-11-22
# ディジタル乳癌免疫組織化学画像の自動定量化のための深層学習に基づくインスタンス分割法

Deep learning-based instance segmentation for the precise automated quantification of digital breast cancer immunohistochemistry images ( http://arxiv.org/abs/2311.13719v1 )

ライセンス: Link先を確認
Blanca Maria Priego-Torresa, Barbara Lobato-Delgado, Lidia Atienza-Cuevas, Daniel Sanchez-Morillo(参考訳) 免疫組織化学乳がん画像におけるバイオマーカーの定量化は、乳癌患者に対する適切な治療、および疾患予後に関する関連情報の抽出に不可欠である。 これは、自動定量化ツールを使用することで軽減できる、サーバ内およびサーバ間ばらつきによる結果のバイアスをもたらす可能性のある、厳しい時間を要するタスクである。 しかし、乳腺腫瘍の不均一性から、核、細胞質、膜の異なる染色色、強度、大きさ、形状、テクスチャを示す非均一に分布する腫瘍細胞が得られるため、これは単純な処理ではない。 本研究では, 深層学習に基づくインスタンスセグメンテーションアーキテクチャを用いて, IHCスライスに適用した核バイオマーカーと膜バイオマーカーの自動定量化の実現可能性を示す。 我々は, 研究者と病理学者のコミュニケーションとフィードバックのハブとして, 自動画像処理モデルの検証システムとして機能する web プラットフォームの設計と実装を駆使して, 集合生成の訓練という厄介な課題を解決した。 本ツールを用いて,HE,ER,Ki-67(核バイオマーカー)およびHER2(膜バイオマーカー)IHC染色画像のアノテーションを収集した。 同じディープ・ラーニング・ネットワーク・アーキテクチャを用いて、いわゆる核・膜認識セグメンテーションモデル(nucleation-aware segmentation model)を訓練した。 本研究で提案する定量化手法は, 先進的なwebプラットフォームに統合され, 病理学者の意思決定支援ツールとして利用されている。

The quantification of biomarkers on immunohistochemistry breast cancer images is essential for defining appropriate therapy for breast cancer patients, as well as for extracting relevant information on disease prognosis. This is an arduous and time-consuming task that may introduce a bias in the results due to intra- and inter-observer variability which could be alleviated by making use of automatic quantification tools. However, this is not a simple processing task given the heterogeneity of breast tumors that results in non-uniformly distributed tumor cells exhibiting different staining colors and intensity, size, shape, and texture, of the nucleus, cytoplasm and membrane. In this research work, we demonstrate the feasibility of using a deep learning-based instance segmentation architecture for the automatic quantification of both nuclear and membrane biomarkers applied to IHC-stained slides. We have solved the cumbersome task of training set generation with the design and implementation of a web platform, which has served as a hub for communication and feedback between researchers and pathologists as well as a system for the validation of the automatic image processing models. Through this tool, we have collected annotations over samples of HE, ER and Ki-67 (nuclear biomarkers) and HER2 (membrane biomarker) IHC-stained images. Using the same deep learning network architecture, we have trained two models, so-called nuclei- and membrane-aware segmentation models, which, once successfully validated, have revealed to be a promising method to segment nuclei instances in IHC-stained images. The quantification method proposed in this work has been integrated into the developed web platform and is currently being used as a decision-support tool by pathologists.
翻訳日:2023-11-28 01:11:21 公開日:2023-11-22
# カウントベース弱教師付き学習への統一的アプローチ

A Unified Approach to Count-Based Weakly-Supervised Learning ( http://arxiv.org/abs/2311.13718v1 )

ライセンス: Link先を確認
Vinay Shukla, Zhe Zeng, Kareem Ahmed, Guy Van den Broeck(参考訳) 高品質なラベルは非常に少ないが、推論された弱いラベルを持つラベルのないデータはより自然に発生する。 多くの場合、これらの弱いラベルは各クラスの周波数をインスタンスの集合上で規定する。 本稿では,このような弱いラベル付きデータから学習する統一的な手法を開発し,これをカウントベースの弱教師付き学習と呼ぶ。 我々のアプローチの核心は、n 個の出力から真に設定された正確な k の確率を計算する能力である。 この計算は微分可能で正確で効率的である。 先行計算に基づいて,ラベルカウント上で定義された算術制約から,分布の偏差に対するモデルにペナルティを課すカウントロスを導出する。 提案手法は,3つのパラダイムのすべてにまたがって,最先端あるいは高度に競争的な結果が得られることを観察し,弱教師付き学習パラダイムに対するアプローチを評価した。

High-quality labels are often very scarce, whereas unlabeled data with inferred weak labels occurs more naturally. In many cases, these weak labels dictate the frequency of each respective class over a set of instances. In this paper, we develop a unified approach to learning from such weakly-labeled data, which we call count-based weakly-supervised learning. At the heart of our approach is the ability to compute the probability of exactly k out of n outputs being set to true. This computation is differentiable, exact, and efficient. Building upon the previous computation, we derive a count loss penalizing the model for deviations in its distribution from an arithmetic constraint defined over label counts. We evaluate our approach on three common weakly-supervised learning paradigms and observe that our proposed approach achieves state-of-the-art or highly competitive results across all three of the paradigms.
翻訳日:2023-11-28 01:10:54 公開日:2023-11-22
# 医用画像におけるFr'echet距離計算における特徴抽出の重要性

Importance of Feature Extraction in the Calculation of Fr\'echet Distance for Medical Imaging ( http://arxiv.org/abs/2311.13717v1 )

ライセンス: Link先を確認
McKell Woodland (1 and 2), Mais Al Taie, Jessica Albuquerque Marques Silva (1), Mohamed Eltaher (1), Frank Mohn (1), Alexander Shieh (1), Austin Castelo (1), Suprateek Kundu (1), Joshua P. Yung (1), Ankit B. Patel (2 and 3), Kristy K. Brock (1) ((1) The University of Texas MD Anderson Cancer Center, (2) Rice University, (3) Baylor College of Medicine)(参考訳) Fr\'echet Inception Distanceは、ImageNet-trained InceptionV3ネットワークを特徴抽出器として利用する合成画像の品質を評価するために広く使われているメトリクスである。 しかし、医用イメージングにおけるその応用は標準的な特徴抽出器に欠けており、偏りと一貫性のない比較に繋がる。 本研究の目的は,医療画像におけるFr'echet Distance(FD)計算のための最先端特徴抽出器の比較である。 stylegan2ネットワークは、3つの医用画像モダリティと4つの解剖学的位置からなるデータセット上の限られたデータドメイン用に調整されたデータ拡張技術で訓練された。 視覚チューリングテストによる生成的品質の評価を,imagenet がトレーニングした inceptionv3, resnet50, swav, dino, swin トランスフォーマアーキテクチャを用いて算出した fds と,大規模医療データセット radimagenet 上でトレーニングされた inceptionv3 ネットワークと比較した。 すべてのimagenetベースの抽出装置は一致したが,swavのみが医療専門家の判断と有意な相関を示した。 RadImageNetベースのFDでは、ボラティリティが示され、人間の判断と相関が無かった。 fd計算における医用画像学習抽出ネットワークの利用には注意が必要である。 これらのネットワークは、検討中の画像モダリティを厳格に評価し、公開するべきである。 ImageNetベースの抽出器は不完全だが、一貫性があり、広く理解されている。 SwAVを用いた抽出ネットワークの訓練は医用画像の合成評価に有望なアプローチである。

Fr\'echet Inception Distance is a widely used metric for evaluating synthetic image quality that utilizes an ImageNet-trained InceptionV3 network as a feature extractor. However, its application in medical imaging lacks a standard feature extractor, leading to biased and inconsistent comparisons. This study aimed to compare state-of-the-art feature extractors for computing Fr\'echet Distances (FDs) in medical imaging. A StyleGAN2 network was trained with data augmentation techniques tailored for limited data domains on datasets comprising three medical imaging modalities and four anatomical locations. Human evaluation of generative quality (via a visual Turing test) was compared to FDs calculated using ImageNet-trained InceptionV3, ResNet50, SwAV, DINO, and Swin Transformer architectures, in addition to an InceptionV3 network trained on a large medical dataset, RadImageNet. All ImageNet-based extractors were consistent with each other, but only SwAV was significantly correlated with medical expert judgment. The RadImageNet-based FD showed volatility and lacked correlation with human judgment. Caution is advised when using medical image-trained extraction networks in the FD calculation. These networks should be rigorously evaluated on the imaging modality under consideration and publicly released. ImageNet-based extractors, while imperfect, are consistent and widely understood. Training extraction networks with SwAV is a promising approach for synthetic medical image evaluation.
翻訳日:2023-11-28 01:10:39 公開日:2023-11-22
# DiverseNet:リモートセンシングのための分割半教師付きセマンティックセマンティックセマンティックネットワーク

DiverseNet: Decision Diversified Semi-supervised Semantic Segmentation Networks for Remote Sensing Imagery ( http://arxiv.org/abs/2311.13716v1 )

ライセンス: Link先を確認
Wanli Ma, Oktay Karakus, Paul L. Rosin(参考訳) 半教師付き学習は、トレーニング中に大量の未学習データから有用な特徴を活用することで、手動ラベリングプロセスのコスト削減を支援するように設計されている。 大規模リモートセンシング画像における画素レベルの手動ラベリングは高価であるため、半教師付き学習が適切な解決策となる。 しかし,既存の半教師あり学習手法の多くは,学習中の特徴の多様性と擬似ラベルの精度を高めるための効率的な摂動法を欠いている。 このギャップを埋めるために、トレーニング中の精度と多様性を同時に促進し、マルチヘッドおよびマルチモデル半教師付き学習アルゴリズムを探索するDiverseNetアーキテクチャを提案する。 multiplehead と diversemodel の2つの手法は、最先端の半教師付き学習法と比較して、4つの広く活用されたリモートセンシング画像データセットにおいて、最も高い意味セグメンテーション性能を達成している。 一方、提案されたdiversativeheadアーキテクチャは、テストされたすべてのデータセットの高性能な結果に到達しながら、最先端のメソッドと比較してパラメータ空間の観点からは比較的軽量である。

Semi-supervised learning is designed to help reduce the cost of the manual labelling process by exploiting the use of useful features from a large quantity of unlabelled data during training. Since pixel-level manual labelling in large-scale remote sensing imagery is expensive, semi-supervised learning becomes an appropriate solution to this. However, most of the existing semi-supervised learning methods still lack efficient perturbation methods to promote diversity of features and the precision of pseudo labels during training. In order to fill this gap, we propose DiverseNet architectures which explore multi-head and multi-model semi-supervised learning algorithms by simultaneously promoting precision and diversity during training. The two proposed methods of DiverseNet, namely the DiverseHead and DiverseModel, achieve the highest semantic segmentation performance in four widely utilised remote sensing imagery data sets compared to state-of-the-art semi-supervised learning methods. Meanwhile, the proposed DiverseHead architecture is relatively lightweight in terms of parameter space compared to the state-of-the-art methods whilst reaching high-performance results for all the tested data sets.
翻訳日:2023-11-28 01:10:14 公開日:2023-11-22
# 拡散型編集モデルに対する幾分ロバストな画像ウォーターマーク

A Somewhat Robust Image Watermark against Diffusion-based Editing Models ( http://arxiv.org/abs/2311.13713v1 )

ライセンス: Link先を確認
Mingtian Tan, Tianhao Wang, Somesh Jha(参考訳) 近年,拡散モデル(dms)が画像合成の最先端手法となっている。 dmsに基づく編集モデルは、高い忠実性と精度で知られており、画像著作権侵害と悪意のある編集に関する新たな課題を不注意に導入している。 私たちの仕事は、この問題を形式化し、対処する最初のものです。 従来の画像透かし手法を評価・強化した後、この新たなコンテキストにおける限界を認識します。 そこで本研究では, 対角法を利用した透かしを埋め込む新しい手法RIW(Robust Invisible Watermarking)を開発した。 本手法は, 従来手法で提供されていた$0\%$に比べて, 編集後の透かしに対して$96\%$の高い抽出精度を保証する。 私たちはhttps://github.com/BennyTMT/RIWでコードにアクセスしています。

Recently, diffusion models (DMs) have become the state-of-the-art method for image synthesis. Editing models based on DMs, known for their high fidelity and precision, have inadvertently introduced new challenges related to image copyright infringement and malicious editing. Our work is the first to formalize and address this issue. After assessing and attempting to enhance traditional image watermarking techniques, we recognize their limitations in this emerging context. In response, we develop a novel technique, RIW (Robust Invisible Watermarking), to embed invisible watermarks leveraging adversarial example techniques. Our technique ensures a high extraction accuracy of $96\%$ for the invisible watermark after editing, compared to the $0\%$ offered by conventional methods. We provide access to our code at https://github.com/BennyTMT/RIW.
翻訳日:2023-11-28 01:09:53 公開日:2023-11-22
# 網膜大条件における人工知能応用の包括的考察

A Comprehensive Review of Artificial Intelligence Applications in Major Retinal Conditions ( http://arxiv.org/abs/2311.13710v1 )

ライセンス: Link先を確認
Hina Raja, Taimur Hassan, Bilal Hassan, Muhammad Usman Akram, Hira Raja, Alaa A Abd-alrazaq, Siamak Yousefi, Naoufel Werghi(参考訳) 本稿では,視覚障害や失明の原因となる網膜疾患の系統的調査を行い,早期発見の重要性を強調した。 網膜疾患検出のための臨床と自動のアプローチの両方をカバーしており、過去10年間の研究に焦点を当てている。 本研究は,構造異常の同定と網膜疾患の診断のための様々なアルゴリズムを評価し,既存の文献の批判的分析に基づく今後の研究方向性を明らかにする。 この総合的な研究は、異なるモダリティを用いた臨床および自動検出方法の両方をレビューし、その範囲でユニークなものと思われる。 さらに、この調査はデジタル網膜症に関心を持つ研究者の役に立つガイドとなっている。

This paper provides a systematic survey of retinal diseases that cause visual impairments or blindness, emphasizing the importance of early detection for effective treatment. It covers both clinical and automated approaches for detecting retinal disease, focusing on studies from the past decade. The survey evaluates various algorithms for identifying structural abnormalities and diagnosing retinal diseases, and it identifies future research directions based on a critical analysis of existing literature. This comprehensive study, which reviews both clinical and automated detection methods using different modalities, appears to be unique in its scope. Additionally, the survey serves as a helpful guide for researchers interested in digital retinopathy.
翻訳日:2023-11-28 01:09:40 公開日:2023-11-22
# 知識グラフに基づく変電所内隠れ危険の動的解析法

Dynamic Analysis Method for Hidden Dangers in Substation Based on Knowledge Graph ( http://arxiv.org/abs/2311.13708v1 )

ライセンス: Link先を確認
Weiwei Li, Xing Liu, Wei Wang, Lu Chen, Sizhe Li, Hui Fan(参考訳) 非構造化テキストデータからサブステーションの隠れた危険を識別・理解する課題に対処するために,新しい動的解析手法を提案する。 このアプローチは、隠れた危険に関連する構造化されていないテキストからデータを分析して抽出することから始まる。 次にelastic-search上に構築された柔軟な分散データ検索エンジンを利用して情報を扱う。 その後、エンジン内のデータをトレーニングするために隠れマルコフモデルが使用される。 viterbiアルゴリズムは隠れた状態シーケンスを解読するために統合され、隠れた危険に関連するエンティティのセグメンテーションとラベル付けが容易になる。 最後のステップでは、neo4jグラフデータベースを使用して、変電所内の隠れた危険を可視化するナレッジマップを動的に作成する。 この手法の有効性は、特定の変電所の隠れた危険からのデータを用いてサンプル分析によって実証される。

To address the challenge of identifying and understanding hidden dangers in substations from unstructured text data, a novel dynamic analysis method is proposed. This approach begins by analyzing and extracting data from the unstructured text related to hidden dangers. It then leverages a flexible, distributed data search engine built on Elastic-Search to handle this information. Following this, the hidden Markov model is employed to train the data within the engine. The Viterbi algorithm is integrated to decipher the hidden state sequences, facilitating the segmentation and labeling of entities related to hidden dangers. The final step involves using the Neo4j graph database to dynamically create a knowledge map that visualizes hidden dangers in the substation. This method's effectiveness is demonstrated through an example analysis using data from a specific substation's hidden dangers.
翻訳日:2023-11-28 01:09:29 公開日:2023-11-22
# Bayes-xG:ベイズ階層的アプローチによる期待ゴール(xG)のプレイヤーと位置補正

Bayes-xG: Player and Position Correction on Expected Goals (xG) using Bayesian Hierarchical Approach ( http://arxiv.org/abs/2311.13707v1 )

ライセンス: Link先を確認
Alexander Scholtes and Oktay Karaku\c{s}(参考訳) この研究はベイズ的手法を用いて、期待目標(xG)測定値によって測定されたショットの確率を予測するために、プレイヤーや位置要因の影響を探索する。 statsbombの公開データを利用することで、ベイズの階層的ロジスティック回帰が構築され、イングランドのプレミアリーグから約1万発のショットを分析し、位置的またはプレイヤーレベルの効果がxgに与える影響を確認する。 この結果から,ゴール間距離とショットアングルのみを含む基本モデルにおいて,ストライカーや攻撃中野手が得点する確率が高いことを強調する位置効果が示された。 しかし、これらの効果はより情報的な予測が導入されたときに減少する。 それにもかかわらず、追加の予測器でもプレイヤーレベルの効果は持続し、特定のプレイヤーが有意な正または負のxG調整を持ち、与えられた確率を評価する可能性に影響を与えることを示す。 この研究は分析をスペインのラ・リガとドイツのブンデスリーガのデータに拡大し、比較結果を得た。 さらに,従来の分布選択が結果に与える影響を評価し,より複雑で広範囲なモデルを構築するためのサンプリング効率を高めるために,従来のモデルが音響結果を提供するが,改良が可能であることを結論づける。

This study employs Bayesian methodologies to explore the influence of player or positional factors in predicting the probability of a shot resulting in a goal, measured by the expected goals (xG) metric. Utilising publicly available data from StatsBomb, Bayesian hierarchical logistic regressions are constructed, analysing approximately 10,000 shots from the English Premier League to ascertain whether positional or player-level effects impact xG. The findings reveal positional effects in a basic model that includes only distance to goal and shot angle as predictors, highlighting that strikers and attacking midfielders exhibit a higher likelihood of scoring. However, these effects diminish when more informative predictors are introduced. Nevertheless, even with additional predictors, player-level effects persist, indicating that certain players possess notable positive or negative xG adjustments, influencing their likelihood of scoring a given chance. The study extends its analysis to data from Spain's La Liga and Germany's Bundesliga, yielding comparable results. Additionally, the paper assesses the impact of prior distribution choices on outcomes, concluding that the priors employed in the models provide sound results but could be refined to enhance sampling efficiency for constructing more complex and extensive models feasibly.
翻訳日:2023-11-28 01:09:16 公開日:2023-11-22
# 心血管MRIにおけるボリューム・ツー・メッシュ再構成のためのマルチビューハイブリッドグラフ畳み込みネットワーク

Multi-view Hybrid Graph Convolutional Network for Volume-to-mesh Reconstruction in Cardiovascular MRI ( http://arxiv.org/abs/2311.13706v1 )

ライセンス: Link先を確認
Nicol\'as Gaggion, Benjamin A. Matheson, Yan Xia, Rodrigo Bonazzola, Nishant Ravikumar, Zeike A. Taylor, Diego H. Milone, Alejandro F. Frangi, Enzo Ferrante(参考訳) 心血管磁気共鳴画像は心臓の形態や機能を調べる上で重要なツールとなっている。 この取り組みの本質は、CMR画像から派生した解剖学的3次元表面と体積メッシュであり、計算解剖学研究、バイオマーカー発見、シリコン内シミュレーションを促進する。 しかし、アクティブ形状モデルやマルチアトラスセグメンテーションのような従来の表面メッシュ生成手法は、シミュレーション可能な3Dメッシュを生成するために複雑な処理パイプラインを必要とする。 そこで本研究では,標準畳み込みニューラルネットワークとグラフ畳み込みをシームレスに統合した,画像から画像への直接抽出のための新しいアーキテクチャであるhybridvnetを提案する。 さらに精度を高めるために,長軸CMRと短軸CMRの両方を処理するマルチビューハイブリッドVNetアーキテクチャを提案する。 我々のモデルは、従来の畳み込みネットワークと変分グラフ生成モデル、深い監督、メッシュ固有の正規化を組み合わせる。 イギリスバイオバンクによる包括的データセットの実験では、CMR画像から高忠実度とシミュレーション可能なメッシュを効率的に生成することにより、HybridVNetが心臓画像と計算心臓学を大幅に進歩させる可能性を確認している。

Cardiovascular magnetic resonance imaging is emerging as a crucial tool to examine cardiac morphology and function. Essential to this endeavour are anatomical 3D surface and volumetric meshes derived from CMR images, which facilitate computational anatomy studies, biomarker discovery, and in-silico simulations. However, conventional surface mesh generation methods, such as active shape models and multi-atlas segmentation, are highly time-consuming and require complex processing pipelines to generate simulation-ready 3D meshes. In response, we introduce HybridVNet, a novel architecture for direct image-to-mesh extraction seamlessly integrating standard convolutional neural networks with graph convolutions, which we prove can efficiently handle surface and volumetric meshes by encoding them as graph structures. To further enhance accuracy, we propose a multiview HybridVNet architecture which processes both long axis and short axis CMR, showing that it can increase the performance of cardiac MR mesh generation. Our model combines traditional convolutional networks with variational graph generative models, deep supervision and mesh-specific regularisation. Experiments on a comprehensive dataset from the UK Biobank confirm the potential of HybridVNet to significantly advance cardiac imaging and computational cardiology by efficiently generating high-fidelity and simulation ready meshes from CMR images.
翻訳日:2023-11-28 01:08:53 公開日:2023-11-22
# 単一ショット量子信号処理干渉計

Single-shot Quantum Signal Processing Interferometry ( http://arxiv.org/abs/2311.13703v1 )

ライセンス: Link先を確認
Jasmine Sinanan-Singh, Gabriel L. Mintzer, Isaac L. Chuang, Yuan Liu(参考訳) ボソニック振動子のような無限次元の量子システムは、量子センシングに膨大なリソースを提供する。 しかし、そのようなボソニックモードをパラメータ推定を超えた感覚で操作する方法の一般的な理論は分かっていない。 本稿では,ラムゼー型干渉法を一般化することにより,量子力学の基本極限における量子センシング,すなわちハイゼンベルクセンシング限界に対する量子信号処理干渉法(QSPI)を提案する。 我々のQSPIセンシングプロトコルは、キュービットからハイブリッドキュービットオシレータシステムへの量子信号処理(QSP)を一般化することにより、発振器の二次演算子上の非線形多項式変換を実行することに依存する。 我々は、QSPIセンシングフレームワークを使用して、単発限界における変位チャネル上の二値決定を行う。 理論解析は、シングルショット量子ビット測定がハイゼンベルク-リミットスケーリングに近づくことができることを示唆する。 さらに, パラメータ推定をビット単位で行うために, 一連の二項決定を結合する。 これらの文を支持する数値シミュレーションを行う。 我々のQSPIプロトコルは、パラメータ推定以上の連続可変ボソニックシステムを用いた量子センシングのための統一的なフレームワークを提供し、NISQ時代を超えて、効率的でスケーラブルな量子制御と量子センシングスキームへの有望な道を確立する。

Quantum systems of infinite dimension, such as bosonic oscillators, provide vast resources for quantum sensing. Yet, a general theory on how to manipulate such bosonic modes for sensing beyond parameter estimation is unknown. We present a general algorithmic framework, quantum signal processing interferometry (QSPI), for quantum sensing at the fundamental limits of quantum mechanics, i.e., the Heisenberg sensing limit, by generalizing Ramsey-type interferometry. Our QSPI sensing protocol relies on performing nonlinear polynomial transformations on the oscillator's quadrature operators by generalizing quantum signal processing (QSP) from qubits to hybrid qubit-oscillator systems. We use our QSPI sensing framework to make binary decisions on a displacement channel in the single-shot limit. Theoretical analysis suggests the sensing accuracy given a single-shot qubit measurement can approach the Heisenberg-limit scaling. We further concatenate a series of such binary decisions to perform parameter estimation in a bit-by-bit fashion. Numerical simulations are performed to support these statements. Our QSPI protocol offers a unified framework for quantum sensing using continuous-variable bosonic systems beyond parameter estimation and establishes a promising avenue toward efficient and scalable quantum control and quantum sensing schemes beyond the NISQ era.
翻訳日:2023-11-28 01:08:25 公開日:2023-11-22
# ファインマンプロパゲータによる確率分布の効率的な量子負荷

Efficient quantum loading of probability distributions through Feynman propagators ( http://arxiv.org/abs/2311.13702v1 )

ライセンス: Link先を確認
Elie Alhajjar and Jesse Geneson and Anupam Prakash and Nicolas Robles(参考訳) 確率分布の負荷に対する量子アルゴリズムを,${\hat h}= \delta + v(x) \mathbb{i}$ の形をした1次元ハミルトニアンのハミルトニアンシミュレーションを用いて提示する。 ファインマンプロパゲータが解析的に閉じた形式を持つことが知られているポテンシャル $v(x)$ を考え、これらのハミルトニアンを用いて正規値、ラプラス値、マクスウェル・ボルツマン値を含む確率分布を量子状態へロードする。 また,「層状態」の形で分布に対する粗い近似を構築し,所望の確率分布を基底状態として選択したハミルトニアンの基底状態に投影することで,確率分布の負荷を変動させる手法を提案する。 これらの手法は確率分布のロードに利用可能な一連のテクニックを拡張し、量子機械学習で使用される汎用データロード方法よりも効率的である。

We present quantum algorithms for the loading of probability distributions using Hamiltonian simulation for one dimensional Hamiltonians of the form ${\hat H}= \Delta + V(x) \mathbb{I}$. We consider the potentials $V(x)$ for which the Feynman propagator is known to have an analytically closed form and utilize these Hamiltonians to load probability distributions including the normal, Laplace and Maxwell-Boltzmann into quantum states. We also propose a variational method for probability distribution loading based on constructing a coarse approximation to the distribution in the form of a `ladder state' and then projecting onto the ground state of a Hamiltonian chosen to have the desired probability distribution as ground state. These methods extend the suite of techniques available for the loading of probability distributions, and are more efficient than general purpose data loading methods used in quantum machine learning.
翻訳日:2023-11-28 01:08:02 公開日:2023-11-22
# 動的デカップリングを用いたマルチイオン周波数参照

Multi-ion frequency reference using dynamical decoupling ( http://arxiv.org/abs/2311.13736v1 )

ライセンス: Link先を確認
Lennart Pelzer (1), Kai Dietze (1 and 2), V\'ictor J. Mart\'inez-Lahuerta (3 and 2), Ludwig Krinner (1 and 2), Johannes Kramer (1 and 2), Fabian Dawel (1 and 2), Nicolas C. H. Spethmann (1), Klemens Hammerer (3), Piet O. Schmidt (1 and 2) ((1) Physikalisch-Technische Bundesanstalt, (2) Institut f\"ur Quantenoptik, Leibniz Universit\"at Hannover, (3) Institut f\"ur Theoretische Physik, Leibniz Universit\"at Hannover)(参考訳) 本稿では,$^{40}\mathrm{Ca}^+$に基づくマルチイオン周波数参照における先行周波数シフトを抑制する連続的動的疎結合方式を実験的に実現した。 高周波ドレッシング場を用いた$^2\mathrm{S}_{1/2}$および$^2\mathrm{D}_{5/2}$ Zeemanサブレベルの共鳴磁気カップリングにより、磁場変動に対する感度を低下させる技術遷移が得られる。 第2段の復調ドレッシングフィールドは、第1段駆動場における振幅ノイズの影響を減少させ、電気四極子シフトのような2\textsuperscript{nd}ランクテンソルシフトを減少させる。 4重極シフトの2次依存性の3(2)\,\text{mHz}/\mu m^2$への抑制と光遷移におけるコヒーレンス時間290(20)\,\text{ms}$の抑制は、大きな磁場ノイズを持つ実験室環境においても示される。 マルチイオンクロックにおける不均質な線シフトの除去に加えて、実証された動的デカップリング手法は、デコヒーレンスフリー部分空間の調整設計により、量子計算や捕捉イオンによるシミュレーションに応用される可能性がある。

We present the experimental realization of a continuous dynamical decoupling scheme which suppresses leading frequency shifts in a multi-ion frequency reference based on $^{40}\mathrm{Ca}^+$. By near-resonant magnetic coupling of the $^2\mathrm{S}_{1/2}$ and $^2\mathrm{D}_{5/2}$ Zeeman sub-levels using radio-frequency dressing fields, engineered transitions with reduced sensitivity to magnetic-field fluctuations are obtained. A second stage detuned dressing field reduces the influence of amplitude noise in the first stage driving fields and decreases 2\textsuperscript{nd}-rank tensor shifts, such as the electric quadrupole shift. Suppression of the quadratic dependence of the quadrupole shift to $3(2)\,\text{mHz}/\mu m^2$ and coherence times of $290(20)\,\text{ms}$ on the optical transition are demonstrated even within a laboratory environment with significant magnetic field noise. Besides removing inhomogeneous line shifts in multi-ion clocks, the demonstrated dynamical decoupling technique may find applications in quantum computing and simulation with trapped ions by a tailored design of decoherence-free subspaces.
翻訳日:2023-11-28 00:56:52 公開日:2023-11-22
# 2段階アプローチによるGPT-4医療符号化

Surpassing GPT-4 Medical Coding with a Two-Stage Approach ( http://arxiv.org/abs/2311.13735v1 )

ライセンス: Link先を確認
Zhichao Yang, Sanjit Singh Batra, Joel Stremmel, Eran Halperin(参考訳) 大規模言語モデル(LLM)の最近の進歩は、臨床決定支援や臨床試験レコメンデーションなどの臨床応用の可能性を示している。 しかし、GPT-4 LLMは医療用コーディングタスクのICD符号の過剰な数を予測するため、高いリコールはできるが精度は低い。 この課題に対処するために,LCMを用いた証拠提案を最初に生成し,LSTMに基づく検証段階を用いる2段階のICD符号予測手法であるLSM-codexを導入する。 LSTMはLLMの高精細度と人間の高精細度の両方から、カスタムロス関数を用いて学習する。 提案手法は,MIMICデータセットを用いた実験により,人手によるアノテートを訓練せずに,医学的コーディング精度,まれな符号の精度,および文章レベルのエビデンス識別を同時に達成する唯一の手法である。

Recent advances in large language models (LLMs) show potential for clinical applications, such as clinical decision support and trial recommendations. However, the GPT-4 LLM predicts an excessive number of ICD codes for medical coding tasks, leading to high recall but low precision. To tackle this challenge, we introduce LLM-codex, a two-stage approach to predict ICD codes that first generates evidence proposals using an LLM and then employs an LSTM-based verification stage. The LSTM learns from both the LLM's high recall and human expert's high precision, using a custom loss function. Our model is the only approach that simultaneously achieves state-of-the-art results in medical coding accuracy, accuracy on rare codes, and sentence-level evidence identification to support coding decisions without training on human-annotated evidence according to experiments on the MIMIC dataset.
翻訳日:2023-11-28 00:56:26 公開日:2023-11-22
# web 3.0のためのブロックチェーン、人工知能、エッジコンピューティングに関する調査

A Survey of Blockchain, Artificial Intelligence, and Edge Computing for Web 3.0 ( http://arxiv.org/abs/2311.13731v1 )

ライセンス: Link先を確認
Jianjun Zhu, Fan Li, Jinyuan Chen(参考訳) World Wide Webの第3世代であるWeb 3.0は、信頼、集中、データ所有権という現代の問題を解決することを目的としている。 最先端技術の最新の進歩によって、Web 3.0はよりオープンで分散化され、インテリジェントで相互接続されたネットワークに向かっている。 しかし、ますます広まりつつあるデータ漏洩は、オンラインのプライバシーと個人情報のセキュリティに対する認識を高めている。 さらに、Web 3.0は高度で複雑なコンバージェンスであるため、その技術的な詳細は、その特性ほど明確ではない。 本稿では,ブロックチェーン,人工知能,エッジコンピューティングの観点から,web 3.0の詳細な調査を行う。 具体的には,インターネットの進化を要約し,これら3つの重要な技術要素の概要について概説する。 その後、web 3.0、主要な技術コンポーネント、実用的なアプリケーションとの関連を含め、各テクノロジを個別に詳細に分析します。 また,技術統合を探求し,分散ストレージとコンピューティングソリューションを提案する。 最後に、研究の方向性とともに重要な課題を強調します。 複数の技術の組み合わせと相互補完を通じて、web 3.0はデータとデジタル資産のコントロールと所有権をユーザに返すことが期待されている。

Web 3.0, as the third generation of the World Wide Web, aims to solve contemporary problems of trust, centralization, and data ownership. Driven by the latest advances in cutting-edge technologies, Web 3.0 is moving towards a more open, decentralized, intelligent, and interconnected network. However, increasingly widespread data breaches have raised awareness of online privacy and security of personal data. Additionally, since Web 3.0 is a sophisticated and complex convergence, the technical details behind it are not as clear as the characteristics it presents. In this survey, we conduct an in-depth exploration of Web 3.0 from the perspectives of blockchain, artificial intelligence, and edge computing. Specifically, we begin with summarizing the evolution of the Internet and providing an overview of these three key technological factors. Afterward, we provide a thorough analysis of each technology separately, including its relevance to Web 3.0, key technology components, and practical applications. We also propose decentralized storage and computing solutions by exploring the integration of technologies. Finally, we highlight the key challenges alongside potential research directions. Through the combination and mutual complementation of multiple technologies, Web 3.0 is expected to return more control and ownership of data and digital assets back to users.
翻訳日:2023-11-28 00:56:09 公開日:2023-11-22
# エンドツーエンド関係抽出のためのパイプライン、シーケンス・ツー・シーケンス、GPTモデルの比較:稀な疾患症例を用いた実験

Comparison of pipeline, sequence-to-sequence, and GPT models for end-to-end relation extraction: experiments with the rare disease use-case ( http://arxiv.org/abs/2311.13729v1 )

ライセンス: Link先を確認
Shashank Gupta, Xuguang Ai, Ramakanth Kavuluru(参考訳) エンドツーエンド関係抽出(E2ERE)は,生物医学における自然言語処理(NLP)の重要かつ現実的な応用である。 本稿では、不連続性およびネスト性エンティティを含む稀な疾患に着目した複雑なデータセットを用いて、E2EREの一般的なパラダイムを3つ比較することを目的とする。 我々はRareDis情報抽出データセットを用いて3つの競合するアプローチ(E2ERE)を評価する。NER $\rightarrow$REパイプライン、シーケンスモデルとの結合シーケンス、生成事前学習トランスフォーマー(GPT)モデル。 これらのアプローチに比較可能な最先端モデルとベストプラクティスを使用し,エラー解析を行い,障害モードを評価する。 GPTモデルは、8倍のパラメータを持つGPTモデルは、シーケンス・ツー・シーケンスモデルよりも悪く、パイプラインモデルに10F1ポイント以上負けている。 部分一致と不連続な実体は、全体的なE2E性能の低下に寄与する多くのNERエラーを引き起こした。 また、化学タンパク質相互作用のための2番目のe2ereデータセットでこれらの発見を検証する。 ジェネレーティブ LM 法はゼロショット設定に適しているが,トレーニングデータが利用可能である場合には,E2ERE 向けに訓練・調整された従来のモデルで作業する方がよいことを示す。 より革新的な方法は、より小型のエンコーダ・デコーダパイプラインモデルと大型のGPTモデルにより、E2EREを改善するために両方の世界の長所を結婚させる必要がある。 現在、よく設計されたパイプラインモデルは、低コストで大幅なパフォーマンス向上とE2EREのカーボンフットプリントを提供する。 raredisデータセットのe2ereを実行するのは、私たちのコントリビューションが初めてです。

End-to-end relation extraction (E2ERE) is an important and realistic application of natural language processing (NLP) in biomedicine. In this paper, we aim to compare three prevailing paradigms for E2ERE using a complex dataset focused on rare diseases involving discontinuous and nested entities. We use the RareDis information extraction dataset to evaluate three competing approaches (for E2ERE): NER $\rightarrow$ RE pipelines, joint sequence to sequence models, and generative pre-trained transformer (GPT) models. We use comparable state-of-the-art models and best practices for each of these approaches and conduct error analyses to assess their failure modes. Our findings reveal that pipeline models are still the best, while sequence-to-sequence models are not far behind; GPT models with eight times as many parameters are worse than even sequence-to-sequence models and lose to pipeline models by over 10 F1 points. Partial matches and discontinuous entities caused many NER errors contributing to lower overall E2E performances. We also verify these findings on a second E2ERE dataset for chemical-protein interactions. Although generative LM-based methods are more suitable for zero-shot settings, when training data is available, our results show that it is better to work with more conventional models trained and tailored for E2ERE. More innovative methods are needed to marry the best of the both worlds from smaller encoder-decoder pipeline models and the larger GPT models to improve E2ERE. As of now, we see that well designed pipeline models offer substantial performance gains at a lower cost and carbon footprint for E2ERE. Our contribution is also the first to conduct E2ERE for the RareDis dataset.
翻訳日:2023-11-28 00:55:52 公開日:2023-11-22
# VINCY:自動車両事故調査のためのスマートコントラクトに基づくデータ統合と検証ツール

VINCY: A Smart-contract based Data Integrity and Validation Tooling for Automated Vehicle Incident Investigation ( http://arxiv.org/abs/2311.13728v1 )

ライセンス: Link先を確認
Andr\'e Budel, Reem Alhabib, Mark Nicholson, and Poonam Yadav(参考訳) 自動運転システム(ADS)は加速速度で製造されており、交通安全、省エネルギー、汚染、渋滞の改善につながっている。 ADSは、オンボードセンサー、外部道路インフラ、その他の車両からのさまざまなデータストリームを使用して、運転決定を行う。 効果的な交通事故復旧のためには、調査員はリアルタイムデータを作成し、収集し、保管し、アクセスしなければならない。 有意義な調査を確保するために、調査員が使用するデータは正確で、その完全性を維持する必要がある。 本稿では,実環境における不確実性を考慮した自動車事故自動調査のためのスマートコントラクト型データ完全性検証ツールを提案する。

Automated Driving Systems (ADSs) are being manufactured at an accelerated rate, leading to improvements in traffic safety, reduced energy consumption, pollution, and congestion. ADS relies on various data streams from onboard sensors, external road infrastructure, and other vehicles to make driving decisions. For effective traffic accident reconstruction, investigators must produce, collect, store, and access real-time data. To ensure meaningful investigation, the data used by investigators must be accurate and maintain its integrity. In this paper, we propose a smart-contract based data integrity and validation tool for automated vehicle incident investigation during road trials, considering uncertainties in a real-world environment.
翻訳日:2023-11-28 00:55:22 公開日:2023-11-22
# AI生成アートワークにおけるアーティスト感の研究

Studying Artist Sentiments around AI-generated Artwork ( http://arxiv.org/abs/2311.13725v1 )

ライセンス: Link先を確認
Safinah Ali, Cynthia Breazeal(参考訳) 生成した人工知能を使って作られたアートは、多くのデジタルクリエーターや技術者に興奮をもたらした。 しかし、アーティストからの反応と反応は混ざり合っている。 デジタルアートの将来に関するデータセットや不確実性に関する彼らのアートやスタイルの盗用に関する懸念が、アートの生成とアーティストの権利保護にAIを使用するアーティストコミュニティの運動を引き起こした。 クリエイティブなユースケースのためのこれらのツールとのコラボレーションも、一部のクリエイターの希望を喚起した。 アーティストは急速に発展するデジタルクリエイティビティ産業の不可欠なステークホルダーであり、彼らの懸念を理解し、クリエイティビティサポートツールの開発と利用に責任を負うことを望んでいる。 本研究では,AI生成芸術に対するアーティストの感情を研究する。 われわれは7人のアーティストにインタビューし、Reddit、Twitter、Artstationでアーティストの公開投稿を分析した。 我々は、これらのツールの包括的開発に向けて、AI生成アートワークに関するアーティストの主な懸念と希望を報告します。

Art created using generated Artificial Intelligence has taken the world by storm and generated excitement for many digital creators and technologists. However, the reception and reaction from artists have been mixed. Concerns about plagiarizing their artworks and styles for datasets and uncertainty around the future of digital art sparked movements in artist communities shunning the use of AI for generating art and protecting artists' rights. Collaborating with these tools for novel creative use cases also sparked hope from some creators. Artists are an integral stakeholder in the rapidly evolving digital creativity industry and understanding their concerns and hopes inform responsible development and use of creativity support tools. In this work, we study artists' sentiments about AI-generated art. We interviewed 7 artists and analyzed public posts from artists on social media platforms Reddit, Twitter and Artstation. We report artists' main concerns and hopes around AI-generated artwork, informing a way forward for inclusive development of these tools.
翻訳日:2023-11-28 00:55:10 公開日:2023-11-22
# 米国における感染症監視の必要性 : COVID-19からの教訓

Infectious disease surveillance needs for the United States: lessons from COVID-19 ( http://arxiv.org/abs/2311.13724v1 )

ライセンス: Link先を確認
Marc Lipsitch, Mary T. Bassett, John S. Brownstein, Paul Elliott, David Eyre, M. Kate Grabowski, James A. Hay, Michael Johansson, Stephen M. Kissler, Daniel B. Larremore, Jennifer Layden, Justin Lessler, Ruth Lynfield, Duncan MacCannell, Lawrence C. Madoff, C. Jessica E. Metcalf, Lauren A. Meyers, Sylvia K. Ofori, Celia Quinn, Ana I. Ramos Bento, Nick Reich, Steven Riley, Roni Rosenfeld, Matthew H. Samore, Rangarajan Sampath, Rachel B. Slayton, David L. Swerdlow, Shaun Truelove, Jay K. Varma, Yonatan H. Grad(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、感染症の監視と感染拡大の予測とモデル化のためのシステムのアップグレードの必要性を強調している。 本稿では,パンデミック時の意思決定を支援する効果的な監視システムの必要性を議論し,米国における新型コロナウイルス(covid-19)の教訓を描きながら,米国内の司法権や,特定のデータ型の価値に関する教訓を学ぼうとする。 本報告では,監視データが必要な決定範囲,これらの決定を知らせるために必要なデータ要素,伝達力学モデルの入力と出力の校正,および州、準州、地域、および部族の保健当局による決定を知らせるために必要なデータの種類を規定する。 このようなデータが利用可能であることを保証するために必要な行動を定義し、ヘルスエクイティ改善への取り組みの貢献を検討する。

The COVID-19 pandemic has highlighted the need to upgrade systems for infectious disease surveillance and forecasting and modeling of the spread of infection, both of which inform evidence-based public health guidance and policies. Here, we discuss requirements for an effective surveillance system to support decision making during a pandemic, drawing on the lessons of COVID-19 in the U.S., while looking to jurisdictions in the U.S. and beyond to learn lessons about the value of specific data types. In this report, we define the range of decisions for which surveillance data are required, the data elements needed to inform these decisions and to calibrate inputs and outputs of transmission-dynamic models, and the types of data needed to inform decisions by state, territorial, local, and tribal health authorities. We define actions needed to ensure that such data will be available and consider the contribution of such efforts to improving health equity.
翻訳日:2023-11-28 00:54:53 公開日:2023-11-22
# nirikshak: クラスタリングベースの自律型apiテスティングフレームワーク

Nirikshak: A Clustering Based Autonomous API Testing Framework ( http://arxiv.org/abs/2112.08315v3 )

ライセンス: Link先を確認
Yash Mahalwal, Pawel Pratyush, Yogesh Poonia(参考訳) 品質保証(QA)は、特にソフトウェアテストにおいて、製品開発において重要なコンポーネントである。 自動メソッドの進化にもかかわらず、REST APIのテストは繰り返しタスクを伴うことが多い。 リソースの大部分は、実際のソフトウェアバグの検出と解決よりも、スクリプティングテストに費やされている。 さらに、従来のテスト手法はソフトウェア更新に適応するのにしばしば苦労する。 しかし、データサイエンスの進歩に伴い、自己回復テストフレームワークという新たなパラダイムが生まれている。 この革新的なアプローチは、ユーザの介入の必要性を最小限に抑え、REST APIテスト手順の実行において、レベルの2の自律性を達成する。 クラスタリング手法とログの分析を使用して、テストケースを効率的に分類し、テストプロセスの合理化と、ソフトウェアの変更に対するよりダイナミックな適応性を保証する。 Nirikshakはコミュニティ向けのオープンソースソフトウェアとしてhttps://github.com/yashmahalwal/nirikshakで公開されている。

Quality Assurance (QA) is a critical component in product development, particularly in software testing. Despite the evolution of automated methods, testing for REST APIs often involves repetitive tasks. A significant portion of resources is dedicated more to scripting tests than to detecting and resolving actual software bugs. Additionally, conventional testing methods frequently struggle to adapt to software updates. However, with advancements in data science, a new paradigm is emerging: a self-reliant testing framework. This innovative approach minimizes the need for user intervention, achieving level 2 of autonomy in executing REST API testing procedures. It does so by employing a clustering method and analysis on logs categorizing test cases efficiently and thereby streamlining the testing process as well as ensuring more dynamic adaptability to software changes. Nirikshak is publicly available as an open-source software for the community at https://github.com/yashmahalwal/nirikshak.
翻訳日:2023-11-23 19:38:58 公開日:2023-11-22
# RNNで必要なのはゲートではない

Gates Are Not What You Need in RNNs ( http://arxiv.org/abs/2108.00527v3 )

ライセンス: Link先を確認
Ronalds Zakovskis, Andis Draguns, Eliza Gaile, Emils Ozolins, Karlis Freivalds(参考訳) リカレントニューラルネットワークは多くの領域で盛んである。 その結果、新しいRNN細胞は、通常、新しいオリジナルな方法でゲートを作成したり使用したりすることで、継続的に開発される。 しかし、もしRNNのゲートが冗長であると言ったらどうでしょう? 本稿では,従来のセルに勝って1つのゲートを使わないResidual Recurrent Unit(RRU)と呼ばれる新しいリカレントセルを提案する。 これは残りのショートカット接続、線形変換、ReLU、正規化に基づいている。 このセルの有効性を評価するために,多声楽曲のモデル化,言語モデル,感情分析など,最近提案されたモグラファイタlstmとの比較を行った。 実験の結果,RRUは従来のゲートユニットよりも優れていることがわかった。 また、パラメータ選択に対する堅牢性も向上し、チューニングをあまり行わずに、新しいタスクに即座に適用できる。 TensorFlowでRRUを実装しており、コードはhttps://github.com/LUMII-Syslab/RRUで公開されている。

Recurrent neural networks have flourished in many areas. Consequently, we can see new RNN cells being developed continuously, usually by creating or using gates in a new, original way. But what if we told you that gates in RNNs are redundant? In this paper, we propose a new recurrent cell called Residual Recurrent Unit (RRU) which beats traditional cells and does not employ a single gate. It is based on the residual shortcut connection, linear transformations, ReLU, and normalization. To evaluate our cell's effectiveness, we compare its performance against the widely-used GRU and LSTM cells and the recently proposed Mogrifier LSTM on several tasks including, polyphonic music modeling, language modeling, and sentiment analysis. Our experiments show that RRU outperforms the traditional gated units on most of these tasks. Also, it has better robustness to parameter selection, allowing immediate application in new tasks without much tuning. We have implemented the RRU in TensorFlow, and the code is made available at https://github.com/LUMII-Syslab/RRU .
翻訳日:2023-11-23 19:38:46 公開日:2023-11-22
# 拡張歩行者の注意に基づく対人学習

Attention-based Adversarial Appearance Learning of Augmented Pedestrians ( http://arxiv.org/abs/2107.02673v2 )

ライセンス: Link先を確認
Kevin Strauss, Artem Savkin, Federico Tombari(参考訳) 合成データは、自動運転の分野における機械学習に基づく知覚の重要な要素となった。 しかし、sim2realドメインシフトのため、実際のデータを完全に置き換えることはできない。 本研究では,歩行者認識タスクの現実データを合成するために,拡張過程と敵対的訓練の利点を活用する手法を提案する。 本手法は, 対向損失による注意機構を利用して, 領域の差異を学習し, sim2real適応を改善する。 提案手法はこのような不一致に対して頑健であり,視覚的リアリズムと意味的整合性の両方を明らかにする。 さらに,歩行者認識作業におけるデータ生成パイプラインの評価を行い,実際の領域の特性に類似したデータを生成することを示す。

Synthetic data became already an essential component of machine learning-based perception in the field of autonomous driving. Yet it still cannot replace real data completely due to the sim2real domain shift. In this work, we propose a method that leverages the advantages of the augmentation process and adversarial training to synthesize realistic data for the pedestrian recognition task. Our approach utilizes an attention mechanism driven by an adversarial loss to learn domain discrepancies and improve sim2real adaptation. Our experiments confirm that the proposed adaptation method is robust to such discrepancies and reveals both visual realism and semantic consistency. Furthermore, we evaluate our data generation pipeline on the task of pedestrian recognition and demonstrate that generated data resemble properties of the real domain.
翻訳日:2023-11-23 19:38:27 公開日:2023-11-22
# マルチキュービットゲートを用いたフォールトトレラント測定自由量子誤差補正

Fault-tolerant measurement-free quantum error correction with multi-qubit gates ( http://arxiv.org/abs/2007.09804v4 )

ライセンス: Link先を確認
Michael A. Perlin, Vickram N. Premakumar, Jiakai Wang, Mark Saffman, Robert Joynt(参考訳) 測定自由量子誤り訂正(MFQEC)は、無条件の量子ビットリセットゲートを持つプラットフォームにおける標準測定ベースのQECに代わる手段を提供する。 マルチキュービットゲートと冗長なシンドローム抽出を利用したsteane符号の計測フリー変種に対するフォールトトレランス(ft)の問題を再検討し、ftを損なう以前見過ごされていたフェーズフリップエラーを突き止めた。 そこで我々は,全ての単一ビット誤りに対して耐性を持つ修正MFQEC回路を構築するが,それにもかかわらず,特定の相関誤差を許容することができない。 FTを系統的に研究するために,MFQEC回路を古典的にシミュレートする効率的な手法を提案する。 (i)シンドローム抽出のためのクリフォードゲート (二)復号のためのパウリ症候群制御操作、及び (iii)ポーリノイズモデル。 これにより,本論文で以前に検討した制限ノイズモデルに基づくmfqecステイン符号の疑似値である$\sim0.7\%$を求めることができる。 次に,マルチキュービットゲートによるFTの一般的な要件を特定するために,ノイズモデルの仮定を緩和し,既存のマルチキュービット中性原子ゲートがフォールトトレラントシンドローム抽出と相容れないことを発見した。 マルチキュービットゲートを2キュービットゲートに分解することはFTを損なう。 最後に、単発FTを含むMFQEC符号のFT回復に必要な理論的要素と、Hu{\ss}en \textit{et al.の最近の提案について議論する。 axiv:2307.13296] [ ``copying' エラーを ancilla レジスタにコピーすることで FT を達成する。 マルチキュービットゲート,冗長シンドローム抽出,コピー支援ftを組み合わせることで,steane符号の計測フリーかつフォールトトレラントな変形を疑似threshold$\sim0.1\%$で構築する。

Measurement-free quantum error correction (MFQEC) offers an alternative to standard measurement-based QEC in platforms with an unconditional qubit reset gate. We revisit the question of fault tolerance (FT) for a measurement-free variant of the Steane code that leverages multi-qubit gates and redundant syndrome extraction, finding previously overlooked phase-flip errors that undermine FT. We then construct a revised MFQEC circuit that is resistant to all single-qubit errors, but which nonetheless cannot tolerate certain correlated errors. In order to investigate FT systematically, we introduce an efficient method to classically simulate MFQEC circuits with (i) Clifford gates for syndrome extraction, (ii) syndrome-controlled Pauli operations for decoding, and (iii) a Pauli noise model. We thereby find a pseudothreshold of $\sim0.7\%$ for our revised MFQEC Steane code under a restricted noise model previously considered in the literature. We then relax noise model assumptions to identify general requirements for FT with multi-qubit gates, finding that existing multi-qubit neutral atom gates are incompatible with fault-tolerant syndrome extraction in a straightforward implementation of both measurement-based and measurement-free variants of the Steane code. Decomposing multi-qubit gates into two-qubit gates similarly spoils FT. Finally, we discuss the theoretical ingredients that are necessary to recover FT for MFQEC codes, including single-shot FT and a recent proposal by Heu{\ss}en \textit{et al.}~[arXiv:2307.13296] to achieve FT by ``copying'' errors onto an ancilla register. By combining multi-qubit gates, redundant syndrome extraction, and copy-assisted FT, we construct a measurement-free and fault-tolerant variant of the Steane code with a pseudothreshold of $\sim0.1\%$.
翻訳日:2023-11-23 19:38:15 公開日:2023-11-22
# バケットによる異種データセットのビザンチン・ロバスト学習

Byzantine-Robust Learning on Heterogeneous Datasets via Bucketing ( http://arxiv.org/abs/2006.09365v6 )

ライセンス: Link先を確認
Sai Praneeth Karimireddy, Lie He, Martin Jaggi(参考訳) byzantine robust distributed or federated learningでは、中央サーバは複数のワーカーに分散したデータよりも機械学習モデルをトレーニングしたいと考えている。 しかし、一部の労働者は所定のアルゴリズムから逸脱し、任意のメッセージを送ることができる。 この問題は近年大きな注目を集めているが、現在の弁護側は労働者が同じデータを持っていると仮定している。 労働者間のデータが異質な(非ID)場合、我々は現在の防御を回避し、パフォーマンスを著しく損なうような新たな攻撃を設計する。 次に,既存のロバストアルゴリズムを不均質なデータセットに適用する単純なバケットスキームを提案する。 また,提案手法を理論的,実験的に検証し,既存のロバストなアルゴリズムとバケットを組み合わせることによる攻撃に対する効果を示す。 我々の研究は、現実的な仮定の下で非iidビザンチンロバストな問題の収束を保証した最初のものである。

In Byzantine robust distributed or federated learning, a central server wants to train a machine learning model over data distributed across multiple workers. However, a fraction of these workers may deviate from the prescribed algorithm and send arbitrary messages. While this problem has received significant attention recently, most current defenses assume that the workers have identical data. For realistic cases when the data across workers are heterogeneous (non-iid), we design new attacks which circumvent current defenses, leading to significant loss of performance. We then propose a simple bucketing scheme that adapts existing robust algorithms to heterogeneous datasets at a negligible computational cost. We also theoretically and experimentally validate our approach, showing that combining bucketing with existing robust algorithms is effective against challenging attacks. Our work is the first to establish guaranteed convergence for the non-iid Byzantine robust problem under realistic assumptions.
翻訳日:2023-11-23 19:37:41 公開日:2023-11-22
# 輸送の円滑化。 Part II: 非線形更新

Ensemble transport smoothing. Part II: Nonlinear updates ( http://arxiv.org/abs/2210.17435v2 )

ライセンス: Link先を確認
Maximilian Ramgraber, Ricardo Baptista, Dennis McLaughlin, Youssef Marzouk(参考訳) 平滑化は状態空間モデルに対するベイズ推論の特殊な形式であり、関連する観測列が与えられた状態の集合の後方分布を特徴づける。 ramgraber et al. (2023) は、特殊ケースとして線形カルマン型スムーサを含むトランスポートベースのアンサンブル平滑化の一般的な枠組みを提案している。 そこで本稿では,非線形逆アンサンブル輸送スムーサを実現するため,この基盤を構築し,実演する。 関連するトランスポート写像のパラメータ化と正規化について検討し、非ガウス挙動を示す非線形・カオス力学系に対するこれらの平滑化の性能について検討する。 これらの設定では, 非線形輸送スムーサは, 従来の線形スムーサよりも低い推定誤差と, カルマン・スムーサと同等数のモデル評価を行う。

Smoothing is a specialized form of Bayesian inference for state-space models that characterizes the posterior distribution of a collection of states given an associated sequence of observations. Ramgraber et al. (2023) proposes a general framework for transport-based ensemble smoothing, which includes linear Kalman-type smoothers as special cases. Here, we build on this foundation to realize and demonstrate nonlinear backward ensemble transport smoothers. We discuss parameterization and regularization of the associated transport maps, and then examine the performance of these smoothers for nonlinear and chaotic dynamical systems that exhibit non-Gaussian behavior. In these settings, our nonlinear transport smoothers yield lower estimation error than conventional linear smoothers and state-of-the-art iterative ensemble Kalman smoothers, for comparable numbers of model evaluations.
翻訳日:2023-11-23 19:32:54 公開日:2023-11-22
# 輸送の円滑化。 第1部:統一フレームワーク

Ensemble transport smoothing. Part I: Unified framework ( http://arxiv.org/abs/2210.17000v2 )

ライセンス: Link先を確認
Maximilian Ramgraber, Ricardo Baptista, Dennis McLaughlin, Youssef Marzouk(参考訳) smoothers はベイズ時系列再解析のアルゴリズムである。 ほとんどの操作スムーダはアフィンカルマン型変換または逐次重要サンプリングに依存する。 これらの戦略は、統計一般性と一貫性のために計算効率とスケーラビリティを交換するスペクトルの反対端を占有する: 非ガウス性は真のベイズ解と矛盾しないアフィン・カルマンの更新を誘導するが、重要サンプリングの成功に必要なアンサンブルサイズは禁じられる。 本稿では,測度輸送の観点からスムーズな問題を再考し,ベイズ予想に対する一貫した先-後変換の可能性を示唆する。 我々はこの能力を利用して、輸送ベースの平滑化のための一般的なアンサンブルフレームワークを提案する。 本枠組みでは,非線形輸送写像に基づくスムーズな再帰の包括的集合を導出し,非ガウス的条件下での状態空間モデルの構造をどのように活用するかを詳述する。 また,標準kalman型平滑化アルゴリズムの出現回数を,フレームワークの特別な場合として記述した。 共用紙 (Ramgraber et al., 2023) では, 非線形アンサンブル輸送スムーダのより深い実装について検討している。

Smoothers are algorithms for Bayesian time series re-analysis. Most operational smoothers rely either on affine Kalman-type transformations or on sequential importance sampling. These strategies occupy opposite ends of a spectrum that trades computational efficiency and scalability for statistical generality and consistency: non-Gaussianity renders affine Kalman updates inconsistent with the true Bayesian solution, while the ensemble size required for successful importance sampling can be prohibitive. This paper revisits the smoothing problem from the perspective of measure transport, which offers the prospect of consistent prior-to-posterior transformations for Bayesian inference. We leverage this capacity by proposing a general ensemble framework for transport-based smoothing. Within this framework, we derive a comprehensive set of smoothing recursions based on nonlinear transport maps and detail how they exploit the structure of state-space models in fully non-Gaussian settings. We also describe how many standard Kalman-type smoothing algorithms emerge as special cases of our framework. A companion paper (Ramgraber et al., 2023) explores the implementation of nonlinear ensemble transport smoothers in greater depth.
翻訳日:2023-11-23 19:32:35 公開日:2023-11-22
# フェルミオン量子シミュレーションのための誤り訂正符号

Error-correcting codes for fermionic quantum simulation ( http://arxiv.org/abs/2210.08411v4 )

ライセンス: Link先を確認
Yu-An Chen, Alexey V. Gorshkov, and Yijia Xu(参考訳) パウリ安定化符号の文脈における$\mathbb{Z}_2$格子ゲージ理論の枠組みを利用して、2次元正方格子上の量子ビット系によるフェルミオンをシミュレートする手法を提案する。 ローラン多項式環上のパウリ加群のシンプレクティック自己同型について検討する。 これにより、エンコードされた論理フェルミオンと物理キュービットの間のレートを固定しながら、安定化符号の符号距離を体系的に増加させることができる。 フェミオンシミュレーションに適した安定化符号群を同定し、$d=2,3,4,5,6,7$の符号距離を達成し、任意の$\lfloor \frac{d-1}{2} \rfloor$-qubitエラーの補正を可能にする。 従来のコード連結手法とは対照的に、この手法は(フェルミオン)符号率を低下させることなくコード距離を増大させることができる。 特に、コード距離が$d=3,4,5$のコードに対して、すべての安定化子と論理演算子を明示的に示す。 すべてのPauliエラーに対するシンドロームを提供し、コード距離を数値的に計算するシンドロームマッチングアルゴリズムを考案する。

Utilizing the framework of $\mathbb{Z}_2$ lattice gauge theories in the context of Pauli stabilizer codes, we present methodologies for simulating fermions via qubit systems on a two-dimensional square lattice. We investigate the symplectic automorphisms of the Pauli module over the Laurent polynomial ring. This enables us to systematically increase the code distances of stabilizer codes while fixing the rate between encoded logical fermions and physical qubits. We identify a family of stabilizer codes suitable for fermion simulation, achieving code distances of $d=2,3,4,5,6,7$, allowing correction of any $\lfloor \frac{d-1}{2} \rfloor$-qubit error. In contrast to the traditional code concatenation approach, our method can increase the code distances without decreasing the (fermionic) code rate. In particular, we explicitly show all stabilizers and logical operators for codes with code distances of $d=3,4,5$. We provide syndromes for all Pauli errors and invent a syndrome-matching algorithm to compute code distances numerically.
翻訳日:2023-11-23 19:32:14 公開日:2023-11-22
# GraphCFC:マルチモーダル会話感情認識のための直接グラフに基づくクロスモーダル特徴補完手法

GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition ( http://arxiv.org/abs/2207.12261v4 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng(参考訳) Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。 マルチモーダルERCはユニモーダルアプローチの欠点を軽減することができる。 近年、グラフニューラルネットワーク(GNN)は、関係モデリングにおける優れた性能のため、様々な分野で広く利用されている。 マルチモーダルERCでは、GNNは長距離コンテキスト情報とモーダル間対話情報の両方を抽出することができる。 残念なことに、MMGCNのような既存のメソッドが直接複数のモダリティを融合するため、冗長な情報が生成され、多様な情報が失われる可能性がある。 本稿では,コンテキスト情報やインタラクティブな情報を効率的にモデル化できる有向グラフ型クロスモーダル機能補完(graphcfc)モジュールを提案する。 graphcfcは、複数の部分空間抽出器とペアワイズクロスモーダル補完(paircc)戦略を利用して、マルチモーダル融合における異種ギャップの問題を緩和する。 構築したグラフから様々なエッジを抽出してエンコードすることで、gnnがメッセージパッシングを行う際に重要な文脈的およびインタラクティブな情報をより正確に抽出することができる。 さらに,GAT-MLPと呼ばれるGNN構造を設計し,マルチモーダル学習のための新しいネットワークフレームワークを提供する。 2つのベンチマークデータセットの実験結果は、GraphCFCが最先端(SOTA)アプローチより優れていることを示している。

Emotion Recognition in Conversation (ERC) plays a significant part in Human-Computer Interaction (HCI) systems since it can provide empathetic services. Multimodal ERC can mitigate the drawbacks of uni-modal approaches. Recently, Graph Neural Networks (GNNs) have been widely used in a variety of fields due to their superior performance in relation modeling. In multimodal ERC, GNNs are capable of extracting both long-distance contextual information and inter-modal interactive information. Unfortunately, since existing methods such as MMGCN directly fuse multiple modalities, redundant information may be generated and diverse information may be lost. In this work, we present a directed Graph based Cross-modal Feature Complementation (GraphCFC) module that can efficiently model contextual and interactive information. GraphCFC alleviates the problem of heterogeneity gap in multimodal fusion by utilizing multiple subspace extractors and Pair-wise Cross-modal Complementary (PairCC) strategy. We extract various types of edges from the constructed graph for encoding, thus enabling GNNs to extract crucial contextual and interactive information more accurately when performing message passing. Furthermore, we design a GNN structure called GAT-MLP, which can provide a new unified network framework for multimodal learning. The experimental results on two benchmark datasets show that our GraphCFC outperforms the state-of-the-art (SOTA) approaches.
翻訳日:2023-11-23 19:31:16 公開日:2023-11-22
# 量子解を用いたビザンチン合意におけるフォールトトレランス境界とセキュリティホールの破れ

Beating the fault-tolerance bound and security loopholes for Byzantine agreement with a quantum solution ( http://arxiv.org/abs/2206.09159v3 )

ライセンス: Link先を確認
Chen-Xun Weng, Rui-Qi Gao, Yu Bao, Bing-Hong Li, Wen-Bo Liu, Yuan-Mei Xie, Yu-Shuo Lu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) ブロックチェーンの基盤となるByzantine合意は、分散ネットワーク内のすべてのノードが合意に達することを目指している。 古典的なビザンツ協定は2つの大きな問題に直面しない。 1つは、1/3$のフォールトトレランスバウンドであり、悪意のあるプレイヤーに許容するシステムは少なくとも3f+1$のプレイヤーを必要とする。 もう1つは、古典的な暗号方式のセキュリティの抜け穴だ。 本稿では,量子デジタル署名によるマルチパーティ相関のために,約1/2ドルのフォールトトレランスでこの境界を破るために,無条件のセキュリティを備えたビザンチン合意フレームワークを提案する。 \textcolor{black}{it} は、1/3$のフォールトトレランス境界を破るために量子の絡み合いは不要であり、量子デジタル署名の不対称関係のような弱い相関も機能することを示した。 われわれの研究は厳密に2つのビザンチン条件に従っており、多粒子絡みを必要とせずに任意の数のプレイヤーに拡張することができる。 デジタル台帳の3者および5人のコンセンサスを実験的に実証した。 我々の研究は、コンセンサス問題の観点から量子優位性を示し、量子ブロックチェーンと量子コンセンサスネットワークの重要な道のりを示唆している。

Byzantine agreement, the underlying core of blockchain, aims to make every node in a decentralized network reach consensus. Classical Byzantine agreements unavoidably face two major problems. One is $1/3$ fault-tolerance bound, which means that the system to tolerate $f$ malicious players requires at least $3f+1$ players. The other is the security loopholes from its classical cryptography methods. Here, we propose a Byzantine agreement framework with unconditional security to break this bound with nearly $1/2$ fault tolerance due to multiparty correlation provided by quantum digital signatures. \textcolor{black}{It is intriguing that quantum entanglement is not necessary to break the $1/3$ fault-tolerance bound, and we show that weaker correlation, such as asymmetric relationship of quantum digital signature, can also work.} Our work strictly obeys two Byzantine conditions and can be extended to any number of players without requirements for multiparticle entanglement. We experimentally demonstrate three-party and five-party consensus for a digital ledger. Our work indicates the quantum advantage in terms of consensus problems and suggests an important avenue for quantum blockchain and quantum consensus networks.
翻訳日:2023-11-23 19:30:41 公開日:2023-11-22
# 話者自動照合における音声病理の影響 -大規模研究-

The effect of speech pathology on automatic speaker verification -- a large-scale study ( http://arxiv.org/abs/2204.06450v3 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Tobias Weise, Maria Schuster, Elmar Noeth, Andreas Maier, Seung Hee Yang(参考訳) データ駆動型音声処理の課題をナビゲートする主なハードルの一つは、信頼できる病的音声データにアクセスすることである。 公開データセットは解決策を提供するように見えるが、それらは患者の健康情報の意図しない暴露の可能性を秘めている。 様々な年齢層と言語障害にまたがるn=3,800以上の被験者を対象とする包括的実世界の病的音声コーパスを用いて,深層学習駆動型自動話者検証(ASV)アプローチを採用した。 その結果、平均等誤差率 (eer) は0.89%、標準偏差は0.06%となり、従来のベンチマークを上回った。 総合的な評価から,病的発話の全体像は,健全な発話と比較してプライバシー侵害リスクが高まることが示された。 特に、ディスフォニアの成人は再識別のリスクが高まる一方、障害のような症状は健康な話者に匹敵する結果をもたらす。 重要なことは、音声の知性はASVシステムの性能指標に影響を与えない。 小児の場合、特に口唇口蓋裂の場合、記録環境は再同定において決定的な役割を果たす。 病理型間でデータをマージするとEERは著しく低下し、ASVの病態多様性の潜在的な利点が示唆され、ASVの有効性が対数的に向上した。 本研究は,病的スピーチと話者検証のダイナミックスに光を当て,デジタル化が進む医療時代における患者の秘密を守る上で,その重要な役割を強調した。

Navigating the challenges of data-driven speech processing, one of the primary hurdles is accessing reliable pathological speech data. While public datasets appear to offer solutions, they come with inherent risks of potential unintended exposure of patient health information via re-identification attacks. Using a comprehensive real-world pathological speech corpus, with over n=3,800 test subjects spanning various age groups and speech disorders, we employed a deep-learning-driven automatic speaker verification (ASV) approach. This resulted in a notable mean equal error rate (EER) of 0.89% with a standard deviation of 0.06%, outstripping traditional benchmarks. Our comprehensive assessments demonstrate that pathological speech overall faces heightened privacy breach risks compared to healthy speech. Specifically, adults with dysphonia are at heightened re-identification risks, whereas conditions like dysarthria yield results comparable to those of healthy speakers. Crucially, speech intelligibility does not influence the ASV system's performance metrics. In pediatric cases, particularly those with cleft lip and palate, the recording environment plays a decisive role in re-identification. Merging data across pathological types led to a marked EER decrease, suggesting the potential benefits of pathological diversity in ASV, accompanied by a logarithmic boost in ASV effectiveness. In essence, this research sheds light on the dynamics between pathological speech and speaker verification, emphasizing its crucial role in safeguarding patient confidentiality in our increasingly digitized healthcare era.
翻訳日:2023-11-23 19:30:05 公開日:2023-11-22
# 局所微分プライバシー下におけるグラフニューラルネットワークの次数保存ランダム化応答

Degree-Preserving Randomized Response for Graph Neural Networks under Local Differential Privacy ( http://arxiv.org/abs/2202.10209v5 )

ライセンス: Link先を確認
Seira Hidano and Takao Murakami(参考訳) グラフニューラルネットワーク(Graph Neural Networks)は,ユーザプライバシを強く保護しつつ,グラフデータのさまざまなタスクにおいて高い精度を提供するために最近研究されている。 特に、最近の研究では、信頼できる第三者がいない強力なプライバシー概念であるLPP(Local Differential Privacy)を用いた属性グラフにおいて、各ユーザの特徴ベクトルを保護するアルゴリズムを提案する。 しかし、このアルゴリズムはソーシャルグラフのエッジ(フレンドシップ)を保護しないため、未分散グラフではユーザのプライバシを保護できない。 分散されていないグラフに高い精度で強力なプライバシを提供する方法はまだオープンだ。 本稿では,gnnにおけるエッジに対するldpを提供するために,dprr(degree-preserving randomized response)と呼ばれる新しいldpアルゴリズムを提案する。 我々のDPRRは各ユーザの次数を保存するので、エッジDPを提供しながらグラフ構造を提供する。 技術的には、我々のDPRRはWarnerのRR(Randomized Response)と戦略的エッジサンプリングを使用しており、各ユーザのサンプリング確率はLaplacianメカニズムを用いて自動的に調整され、エッジLPPの次数情報を保存する。 また,warnerのrrとラプラシアン機構のノイズを小さくするためのプライバシ予算割り当て手法を提案する。 GNNのタスクとしてのグラフ分類に着目し、3つのソーシャルグラフデータセットを用いてDPRRを評価する。 実験の結果,DPRRは3つのベースラインを大きく上回り,エプシロン=1などの適切なプライバシー予算を持つすべてのデータセットにおいて,非プライベートアルゴリズムに近い精度を提供することがわかった。

Differentially private GNNs (Graph Neural Networks) have been recently studied to provide high accuracy in various tasks on graph data while strongly protecting user privacy. In particular, a recent study proposes an algorithm to protect each user's feature vector in an attributed graph with LDP (Local Differential Privacy), a strong privacy notion without a trusted third party. However, this algorithm does not protect edges (friendships) in a social graph, hence cannot protect user privacy in unattributed graphs. How to provide strong privacy with high accuracy in unattributed graphs remains open. In this paper, we propose a novel LDP algorithm called the DPRR (Degree-Preserving Randomized Response) to provide LDP for edges in GNNs. Our DPRR preserves each user's degree hence a graph structure while providing edge LDP. Technically, our DPRR uses Warner's RR (Randomized Response) and strategic edge sampling, where each user's sampling probability is automatically tuned using the Laplacian mechanism to preserve the degree information under edge LDP. We also propose a privacy budget allocation method to make the noise in both Warner's RR and the Laplacian mechanism small. We focus on graph classification as a task of GNNs and evaluate the DPRR using three social graph datasets. Our experimental results show that the DPRR significantly outperforms three baselines and provides accuracy close to a non-private algorithm in all datasets with a reasonable privacy budget, e.g., epsilon=1.
翻訳日:2023-11-23 19:29:38 公開日:2023-11-22
# 連続物理学のための連続モデル学習

Learning continuous models for continuous physics ( http://arxiv.org/abs/2202.08494v2 )

ライセンス: Link先を確認
Aditi S. Krishnapriyan, Alejandro F. Queiruga, N. Benjamin Erichson, Michael W. Mahoney(参考訳) 時間とともに継続的に進化する力学系は、科学と工学を通して普遍的である。 機械学習(ML)は、そのようなシステムのダイナミクスをモデル化し予測するためのデータ駆動型アプローチを提供する。 このアプローチの中核的な問題は、MLモデルは一般的に、基礎となる連続性の性質を意識していないML方法論を使用して、離散データに基づいて訓練されていることである。 この結果、基盤となる連続的なダイナミクス(関心のあるシステム、あるいは関連するシステムのいずれか)を捉えないモデルが生まれます。 この課題に対処するため,数値解析理論に基づく収束試験を開発した。 このテストは、モデルが基礎となる連続ダイナミクスを正確に近似する関数を学習したかどうかを検証する。 このテストに失敗するモデルは、関連するダイナミクスを捉えることができず、多くの科学的予測タスクに対して限られたユーティリティで表現するが、このテストに合格するモデルは、より優れた補間と、より優れた補間の両方を複数の方法で実現できる。 本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。

Dynamical systems that evolve continuously over time are ubiquitous throughout science and engineering. Machine learning (ML) provides data-driven approaches to model and predict the dynamics of such systems. A core issue with this approach is that ML models are typically trained on discrete data, using ML methodologies that are not aware of underlying continuity properties. This results in models that often do not capture any underlying continuous dynamics -- either of the system of interest, or indeed of any related system. To address this challenge, we develop a convergence test based on numerical analysis theory. Our test verifies whether a model has learned a function that accurately approximates an underlying continuous dynamics. Models that fail this test fail to capture relevant dynamics, rendering them of limited utility for many scientific prediction tasks; while models that pass this test enable both better interpolation and better extrapolation in multiple ways. Our results illustrate how principled numerical analysis methods can be coupled with existing ML training/testing methodologies to validate models for science and engineering applications.
翻訳日:2023-11-23 19:29:11 公開日:2023-11-22
# 群集数向上のための深層式ピラミッドモデル

Deep Rank-Consistent Pyramid Model for Enhanced Crowd Counting ( http://arxiv.org/abs/2201.04819v2 )

ライセンス: Link先を確認
Jiaqi Gao, Zhizhong Huang, Yiming Lei, Hongming Shan, James Z. Wang, Fei-Yue Wang, Junping Zhang(参考訳) 従来の群集計数法は、全教師付き学習フレームワークを用いて、シーン画像と群集密度マップのマッピングを確立する。 通常、トレーニングの監督には大量のコストと時間を要するピクセルレベルのアノテーションを頼りにしている。 集中ラベリングの取り組みを緩和し、カウント精度を向上させる一つの方法は、大量の未ラベル画像を活用することである。 これは、1つの画像内の固有の自己構造情報とランク一貫性によるもので、トレーニング中に追加の質的関係監督を提供する。 元の画像レベルでのランク関係を利用した以前の手法とは対照的に、潜在特徴空間内でこのようなランク一貫性の関係を探索する。 このアプローチにより、多数のピラミッド部分順序が組み込まれ、モデル表現能力が強化される。 顕著な利点は、未ラベルサンプルの利用率を増加させることである。 具体的には,隠れ空間における粗視から細かなピラミッド特徴のランク一貫性をフルに活用し,巨大なラベル付き画像を用いた群衆数を増加させる,階層性ピラミッドモデル(dream)を提案する。 さらに, トレーニング目的のために4000枚の画像を含む, 未ラベルのクラウドカウントデータセットFUDAN-UCCを新たに収集した。 UCF-QNRF,ShanghaiTech PartA,PartB,UCF-CC-50の4つのベンチマークデータセットに対する大規模な実験により,従来の半教師付き手法と比較して,本手法の有効性が示された。 コードはhttps://github.com/bridgeqiqi/dreamで入手できる。

Most conventional crowd counting methods utilize a fully-supervised learning framework to establish a mapping between scene images and crowd density maps. They usually rely on a large quantity of costly and time-intensive pixel-level annotations for training supervision. One way to mitigate the intensive labeling effort and improve counting accuracy is to leverage large amounts of unlabeled images. This is attributed to the inherent self-structural information and rank consistency within a single image, offering additional qualitative relation supervision during training. Contrary to earlier methods that utilized the rank relations at the original image level, we explore such rank-consistency relation within the latent feature spaces. This approach enables the incorporation of numerous pyramid partial orders, strengthening the model representation capability. A notable advantage is that it can also increase the utilization ratio of unlabeled samples. Specifically, we propose a Deep Rank-consistEnt pyrAmid Model (DREAM), which makes full use of rank consistency across coarse-to-fine pyramid features in latent spaces for enhanced crowd counting with massive unlabeled images. In addition, we have collected a new unlabeled crowd counting dataset, FUDAN-UCC, comprising 4,000 images for training purposes. Extensive experiments on four benchmark datasets, namely UCF-QNRF, ShanghaiTech PartA and PartB, and UCF-CC-50, show the effectiveness of our method compared with previous semi-supervised methods. The codes are available at https://github.com/bridgeqiqi/DREAM.
翻訳日:2023-11-23 19:28:55 公開日:2023-11-22
# 量子コンピュータ上の決定点およびファフィアン点過程のサンプリングについて

On sampling determinantal and Pfaffian point processes on a quantum computer ( http://arxiv.org/abs/2305.15851v3 )

ライセンス: Link先を確認
R\'emi Bardenet, Micha\"el Fanuel, Alexandre Feller(参考訳) DPPは1970年代の量子光学のモデルとしてマッキによって導入された。 それ以来、統計学や計算機科学のモデルやサブサンプリングツールとして広く使われている。 ほとんどのアプリケーションはDPPからのサンプリングを必要とし、その量子起源を考えると、量子コンピュータ上のDPPのサンプリングは古典的なものよりも簡単かどうか疑問に思う。 ここでは、有限状態空間上の DPP に焦点を当て、${1,\dots,N\}$ の部分集合上の分布は、$N\times N$ Hermitian 核行列によってパラメタ化される。 バニラサンプリング(バニラサンプリング、英: vanilla sampling)は、古典的コンピュータ上の各コスト$\mathcal{o}(n^3)$ と$\mathcal{o}(nr^2)$ の2ステップからなる。 現在の論文の第一部は、フェルミオン系の量子シミュレーションの最先端がなぜ既に量子DPPサンプリングアルゴリズムを生み出しているのかを説明するものである。 次に、既存の量子回路を修正し、実際のカーネル仕様から始まる完全なDPPサンプリングパイプラインへの挿入について議論する。 結論として、$P$(古典)並列プロセッサでは、プリプロセッシングコストを$P$に分割し、所定のDPPをサンプリングする$\mathcal{O}(Nr)$ゲートを持つ量子回路を構築することができ、深さはターゲットマシン上のqubit-communication制約によって$$\mathcal{O}(N)$から$\mathcal{O}(r\log N)$に変化する。 また、超伝導体のシミュレーションに関する既存の研究を、DPPを一般化し、機械学習者のツールボックスに自然に追加するファフィアン点過程に結びつける。 特に、我々は「射影的」パフィアン点過程を記述し、その濃度はほぼ確実に一定パリティを持つ。 最後に、回路は古典的なシミュレータと5キュービットのIBMマシンで実証的に検証される。

DPPs were introduced by Macchi as a model in quantum optics the 1970s. Since then, they have been widely used as models and subsampling tools in statistics and computer science. Most applications require sampling from a DPP, and given their quantum origin, it is natural to wonder whether sampling a DPP on a quantum computer is easier than on a classical one. We focus here on DPPs over a finite state space, which are distributions over the subsets of $\{1,\dots,N\}$ parametrized by an $N\times N$ Hermitian kernel matrix. Vanilla sampling consists in two steps, of respective costs $\mathcal{O}(N^3)$ and $\mathcal{O}(Nr^2)$ operations on a classical computer, where $r$ is the rank of the kernel matrix. A large first part of the current paper consists in explaining why the state-of-the-art in quantum simulation of fermionic systems already yields quantum DPP sampling algorithms. We then modify existing quantum circuits, and discuss their insertion in a full DPP sampling pipeline that starts from practical kernel specifications. The bottom line is that, with $P$ (classical) parallel processors, we can divide the preprocessing cost by $P$ and build a quantum circuit with $\mathcal{O}(Nr)$ gates that sample a given DPP, with depth varying from $\mathcal{O}(N)$ to $\mathcal{O}(r\log N)$ depending on qubit-communication constraints on the target machine. We also connect existing work on the simulation of superconductors to Pfaffian point processes, which generalize DPPs and would be a natural addition to the machine learner's toolbox. In particular, we describe "projective" Pfaffian point processes, the cardinality of which has constant parity, almost surely. Finally, the circuits are empirically validated on a classical simulator and on 5-qubit IBM machines.
翻訳日:2023-11-23 19:21:04 公開日:2023-11-22
# ニューラルネットワークを用いた自律非線形システムのセンサ故障検出と分離

Sensor Fault Detection and Isolation in Autonomous Nonlinear Systems Using Neural Network-Based Observers ( http://arxiv.org/abs/2304.08837v2 )

ライセンス: Link先を確認
John Cao, Muhammad Umar B. Niazi, Matthieu Barreau, Karl Henrik Johansson(参考訳) 本稿では,非線形システムにおける異常センサの検出と分離のための新しいオブザーバベースアプローチを提案する。 提案するセンサ故障検出分離法(s-fdi)は非線形システムの一般的なクラスに適用できる。 我々の焦点は、完全な故障とセンサー劣化の2種類の障害に対するs-FDIである。 このアプローチの重要な側面は、ニューラルネットワークベースのKazantzis-Kravaris/Luenberger(KKL)オブザーバの利用である。 ニューラルネットワークはオブザーバのダイナミクスを学ぶために訓練され、システムの正確な出力予測を可能にする。 実際の出力測定と予測値を比較してセンサ故障を検出する。 差が理論上の閾値を超えると、センサ障害が検出される。 センサの故障を識別し,分離するために,各センサ測定の数値差を経験的に導出した閾値と比較した。 我々はそれぞれ、検出と隔離のための理論的および経験的閾値を導出する。 特に,提案手法は騒音やシステム不確実性の測定に頑健である。 倉本発振器のネットワークにおけるセンサ故障の数値シミュレーションによりその効果を実証した。

This paper presents a novel observer-based approach to detect and isolate faulty sensors in nonlinear systems. The proposed sensor fault detection and isolation (s-FDI) method applies to a general class of nonlinear systems. Our focus is on s-FDI for two types of faults: complete failure and sensor degradation. The key aspect of this approach lies in the utilization of a neural network-based Kazantzis-Kravaris/Luenberger (KKL) observer. The neural network is trained to learn the dynamics of the observer, enabling accurate output predictions of the system. Sensor faults are detected by comparing the actual output measurements with the predicted values. If the difference surpasses a theoretical threshold, a sensor fault is detected. To identify and isolate which sensor is faulty, we compare the numerical difference of each sensor meassurement with an empirically derived threshold. We derive both theoretical and empirical thresholds for detection and isolation, respectively. Notably, the proposed approach is robust to measurement noise and system uncertainties. Its effectiveness is demonstrated through numerical simulations of sensor faults in a network of Kuramoto oscillators.
翻訳日:2023-11-23 19:20:25 公開日:2023-11-22
# 節の絡み合い, 理論を探る例

Entanglement of Sections, Examples Looking for a Theory ( http://arxiv.org/abs/2304.01072v4 )

ライセンス: Link先を確認
M. H. Freedman and M. B. Hastings(参考訳) 量子情報は状態の絡み合いに関するものである。 この出発点にパラメータを追加し、単一の状態がバンドルの非バナッシングセクションとなるようにします。 例を通してセクションの絡み合いのパターンを考察する。

Quantum information is about the entanglement of states. To this starting point we add parameters whereby a single state becomes a non-vanishing section of a bundle. We consider through examples the possible entanglement patterns of sections.
翻訳日:2023-11-23 19:19:51 公開日:2023-11-22
# フロッケ非エルミート系における異常二階皮膚モード

Anomalous second-order skin modes in Floquet non-Hermitian systems ( http://arxiv.org/abs/2303.11259v2 )

ライセンス: Link先を確認
Chun-Hui Liu, Haiping Hu, Shu Chen, Xiong-Jun Liu(参考訳) 開境界条件下での非エルミート皮膚効果は、周期境界条件下の内在スペクトルトポロジーに由来すると考えられている。 周期境界条件下の固有スペクトルが複素平面上のスペクトル巻線(例えば、片方向弧)や有限領域を持たない場合、開境界を持つ非エルミート皮膚効果は存在しない。 本稿では,2次元周期駆動モデルを導入することで,この認識を超えた別のシナリオを示す。 有効フロケットハミルトニアンは内在的なスペクトルトポロジーを欠き、周期境界条件下での同一性行列(複素平面上の一点を表す)に比例する。 しかし、フロッケ・ハミルトニアンは、開放境界条件下で摂動や障害に対して頑健な2次皮膚効果を示す。 さらに,これら2次スキンモードの動的起源を明らかにし,時間発展作用素の動的位相不変量によって特徴付けられることを示す。

The non-Hermitian skin effect under open boundary conditions is widely believed to originate from the intrinsic spectral topology under periodic boundary conditions. If the eigenspectra under periodic boundary conditions have no spectral windings (e.g., piecewise arcs) or a finite area on the complex plane, there will be no non-Hermitian skin effect with open boundaries. In this article, we demonstrate another scenario beyond this perception by introducing a two-dimensional periodically driven model. The effective Floquet Hamiltonian lacks intrinsic spectral topology and is proportional to the identity matrix (representing a single point on the complex plane) under periodic boundary conditions. Yet, the Floquet Hamiltonian exhibits a second-order skin effect that is robust against perturbations and disorder under open boundary conditions. We further reveal the dynamical origin of these second-order skin modes and illustrate that they are characterized by a dynamical topological invariant of the full time-evolution operator.
翻訳日:2023-11-23 19:19:47 公開日:2023-11-22
# 条件状態トモグラフィによる非破壊的量子フィードバック制御

No-Collapse Accurate Quantum Feedback Control via Conditional State Tomography ( http://arxiv.org/abs/2301.07254v2 )

ライセンス: Link先を確認
Sangkha Borah and Bijita Sarma(参考訳) 測定に基づくフィードバック制御 (mbfc) プロトコルの有効性は, 測定ノイズの存在によって阻害され, ノイズ連続計測記録から量子システムの基盤となるダイナミクスを正確に推測し, 正確な制御戦略を決定する能力に影響を及ぼす。 このような制約を回避するため、本研究では、単一量子軌道内のノイズ測定記録を用いた量子システムのフル密度行列を含む条件付きダイナミクスのノイズフリーな監視を可能にする、実時間確率的状態推定手法について検討する。 これにより、測定ノイズによって課される制約を緩和し、様々なフィードバック量子制御シナリオに潜在的に適用することで、量子システムの効果的な制御につながる正確なMBFC戦略の開発が可能になる。 この手法は強化学習(RL)に基づく制御において特に有用であり、RLエージェントは任意の条件付き可観測物の平均値および/またはフル密度行列を入力(観測)としてトレーニングし、制御戦略を迅速かつ正確に学習することができる。

The effectiveness of measurement-based feedback control (MBFC) protocols is hampered by the presence of measurement noise, which affects the ability to accurately infer the underlying dynamics of a quantum system from noisy continuous measurement records to determine an accurate control strategy. To circumvent such limitations, this work explores a real-time stochastic state estimation approach that enables noise-free monitoring of the conditional dynamics including the full density matrix of the quantum system using noisy measurement records within a single quantum trajectory -- a method we name as `conditional state tomography'. This, in turn, enables the development of precise MBFC strategies that lead to effective control of quantum systems by essentially mitigating the constraints imposed by measurement noise and has potential applications in various feedback quantum control scenarios. This approach is particularly useful for reinforcement-learning (RL)-based control, where the RL-agent can be trained with arbitrary conditional averages of observables, and/or the full density matrix as input (observation), to quickly and accurately learn control strategies.
翻訳日:2023-11-23 19:18:16 公開日:2023-11-22
# マイクロ波光子計数による単一電子スピン共鳴検出

Single electron-spin-resonance detection by microwave photon counting ( http://arxiv.org/abs/2301.02653v2 )

ライセンス: Link先を確認
Zhiren Wang, L\'eo Balembois, Milos Ran\v{c}i\'c, Eric Billaud, Marianne Le Dantec, Alban Ferrier, Philippe Goldner, Sylvain Bertaina, Thierry Chaneli\`ere, Daniel Est\`eve, Denis Vion, Patrice Bertet, Emmanuel Flurin(参考訳) 電子スピン共鳴(esr)分光法は、化学から量子コンピューティングまで幅広い応用を含む、常磁性不純物を特徴付ける方法であるが、信号対雑音比が限られているため、アンサンブル平均量のみにアクセスできる。 しかし、スピン依存フォトルミネッセンス、輸送測定、走査プローブ技術を用いて単一電子スピン感度が達成されている。 これらの手法は、小さな検出ボリュームでのみシステム固有のものであるか、感度が高いため、実用的な単一スピン検出は未解決の課題である。 ここでは、極低温のマイクロ波光子カウンタを用いて、スピン蛍光検出による単一電子磁気共鳴を実証する。 高品質平面超伝導共振器に結合したシェーライト結晶中の個々の常磁性エルビウムイオンを検出し、その放射減衰速度を1秒で信号対雑音比1.9で向上させる。 蛍光信号は、個々のエミッターに由来することを証明し、反膨らみを示す。 3msまでのコヒーレンス時間は測定され、スピン放射寿命によって制限される。 この方法は、十分な非放射性緩和時間を持つ任意の常磁性種に適用できる可能性があり、共振器磁気モード体積(10 um^3)と他の単スピン検出技術より桁違い大きい体積での単スピン検出を可能にする。 したがって、磁気共鳴や量子コンピューティングに応用できるかもしれない。

Electron spin resonance (ESR) spectroscopy is the method of choice for characterizing paramagnetic impurities, with applications ranging from chemistry to quantum computing, but it gives access only to ensemble-averaged quantities due to its limited signal-to-noise ratio. Single-electron-spin sensitivity has however been reached using spin-dependent photoluminescence, transport measurements, and scanning-probe techniques. These methods are system-specific or sensitive only in a small detection volume, so that practical single spin detection remains an open challenge. Here, we demonstrate single electron magnetic resonance by spin fluorescence detection, using a microwave photon counter at cryogenic temperatures. We detect individual paramagnetic erbium ions in a scheelite crystal coupled to a high-quality factor planar superconducting resonator to enhance their radiative decay rate, with a signal-to-noise ratio of 1.9 in one second integration time. The fluorescence signal shows anti-bunching, proving that it comes from individual emitters. Coherence times up to 3 ms are measured, limited by the spin radiative lifetime. The method has the potential to apply to arbitrary paramagnetic species with long enough non-radiative relaxation time, and allows single-spin detection in a volume as large as the resonator magnetic mode volume ( 10 um^3 in the present experiment), orders of magnitude larger than other single-spin detection techniques. As such, it may find applications in magnetic resonance and quantum computing.
翻訳日:2023-11-23 19:17:55 公開日:2023-11-22
# オフラインとオンライン強化学習評価手法のギャップを埋める

Bridging the Gap Between Offline and Online Reinforcement Learning Evaluation Methodologies ( http://arxiv.org/abs/2212.08131v2 )

ライセンス: Link先を確認
Shivakanth Sujit, Pedro H. M. Braga, Jorg Bornschein, Samira Ebrahimi Kahou(参考訳) 強化学習(Reinforcement Learning, RL)は、スカラー報酬信号から、大きな状態とアクション空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。 現在の深いRLアルゴリズムにとって重要な課題は、学習に膨大な量の環境相互作用を必要とすることである。 これは、ロボット工学のようなそのような相互作用が高価である状況では実現不可能である。 オフラインRLアルゴリズムは、環境を最初から操作することなく、既存のログデータから学習プロセスをブートストラップすることで、この問題に対処しようとする。 オンラインRLアルゴリズムは、通常、環境相互作用の回数の関数として評価されるが、オフラインRL手法を評価するための単一の確立されたプロトコルは存在せず、本論文では、オフラインRLアルゴリズムをトレーニングセットサイズの関数として、従ってデータ効率で評価するシーケンシャルアプローチを提案する。 逐次評価は、学習プロセスのデータ効率とデータセットの変化を分散するアルゴリズムの堅牢性に関する貴重な洞察を提供すると同時に、オフラインおよびオンライン学習フェーズの可視化を調和させる。 私たちのアプローチは一般的に適用可能で実装が容易です。 このアプローチを用いて既存のオフラインRLアルゴリズムを比較し、さまざまなタスクやオフラインデータセットからの洞察を提示する。

Reinforcement learning (RL) has shown great promise with algorithms learning in environments with large state and action spaces purely from scalar reward signals. A crucial challenge for current deep RL algorithms is that they require a tremendous amount of environment interactions for learning. This can be infeasible in situations where such interactions are expensive; such as in robotics. Offline RL algorithms try to address this issue by bootstrapping the learning process from existing logged data without needing to interact with the environment from the very beginning. While online RL algorithms are typically evaluated as a function of the number of environment interactions, there exists no single established protocol for evaluating offline RL methods.In this paper, we propose a sequential approach to evaluate offline RL algorithms as a function of the training set size and thus by their data efficiency. Sequential evaluation provides valuable insights into the data efficiency of the learning process and the robustness of algorithms to distribution changes in the dataset while also harmonizing the visualization of the offline and online learning phases. Our approach is generally applicable and easy to implement. We compare several existing offline RL algorithms using this approach and present insights from a variety of tasks and offline datasets.
翻訳日:2023-11-23 19:17:30 公開日:2023-11-22
# バイオメディカルイメージングにおける知識蒸留改善のための異なる学習スタイルの利用

Leveraging Different Learning Styles for Improved Knowledge Distillation in Biomedical Imaging ( http://arxiv.org/abs/2212.02931v3 )

ライセンス: Link先を確認
Usma Niyaz, Abhishek Singh Sambyal, Deepti R. Bathula(参考訳) 学習スタイルとは、個人が新しい知識を得るために採用する訓練機構の一種である。 VARKモデルによって示唆されるように、人間は情報を取得し、効果的に処理するために、視覚(V)、聴覚(A)、読み書き(R)、キネティクス(K)など、学習の好みが異なる。 我々の研究は、知識の多様化という概念を利用して、知識蒸留(KD)や相互学習(ML)といったモデル圧縮技術の性能を向上させる。 その結果,教師から生徒への知識の伝達を可能にするだけでなく,学生間の協調学習を促す統一的な枠組みとして,単学・二学期ネットワークを用いた。 教師が予測や特徴表現の形で同じ知識を生徒ネットワークと共有する従来のアプローチと異なり,提案手法では,予測のある生徒と教師からの特徴マップを持つ生徒を訓練することで,より多様化した戦略を採用している。 さらに,2つの学習ネットワーク間の予測と特徴マップの交換を容易にし,学習経験を豊かにすることで,知識の多様化をさらに広げる。 我々は,2つの異なるネットワークアーキテクチャの組み合わせを用いて,分類およびセグメンテーションタスクのための3つのベンチマークデータセットを用いた包括的実験を行った。 これらの実験結果から,KD と ML フレームワークの組み合わせによる知識の多様化は,従来の KD や ML 技術(類似のネットワーク構成)よりも優れており,平均 2% の精度で予測できることがわかった。 さらに、様々なネットワークアーキテクチャと最先端技術によるタスク間のパフォーマンスの一貫性の向上により、提案したモデルの堅牢性と一般化性が確立される。

Learning style refers to a type of training mechanism adopted by an individual to gain new knowledge. As suggested by the VARK model, humans have different learning preferences, like Visual (V), Auditory (A), Read/Write (R), and Kinesthetic (K), for acquiring and effectively processing information. Our work endeavors to leverage this concept of knowledge diversification to improve the performance of model compression techniques like Knowledge Distillation (KD) and Mutual Learning (ML). Consequently, we use a single-teacher and two-student network in a unified framework that not only allows for the transfer of knowledge from teacher to students (KD) but also encourages collaborative learning between students (ML). Unlike the conventional approach, where the teacher shares the same knowledge in the form of predictions or feature representations with the student network, our proposed approach employs a more diversified strategy by training one student with predictions and the other with feature maps from the teacher. We further extend this knowledge diversification by facilitating the exchange of predictions and feature maps between the two student networks, enriching their learning experiences. We have conducted comprehensive experiments with three benchmark datasets for both classification and segmentation tasks using two different network architecture combinations. These experimental results demonstrate that knowledge diversification in a combined KD and ML framework outperforms conventional KD or ML techniques (with similar network configuration) that only use predictions with an average improvement of 2%. Furthermore, consistent improvement in performance across different tasks, with various network architectures, and over state-of-the-art techniques establishes the robustness and generalizability of the proposed model
翻訳日:2023-11-23 19:17:11 公開日:2023-11-22
# 後方視:ニューラルネットワーク予測の正確性と不確実性

Looking at the posterior: accuracy and uncertainty of neural-network predictions ( http://arxiv.org/abs/2211.14605v2 )

ライセンス: Link先を確認
H. Linander, O. Balabanov, H. Yang, B. Mehlig(参考訳) ベイズ推定はモデルパラメータとネットワーク出力の後方分布を用いてニューラルネットワークの予測の不確かさを定量化することができる。 これらの後方分布を見ることにより、不確かさの起源をアレオテミックと認識論的貢献に分けることができる。 不確実性定量化の1つの目標は予測精度を知らせることである。 ここでは, 予測精度は, 不確実性分布の辺縁化のみでは理解できない複雑な方法で, てんかんとアレター的不確実性の両方に依存することを示す。 この精度がどのようにてててんかんや失語症に関連するかは、モデルアーキテクチャだけでなく、データセットの性質にも依存する。 本研究は, アクティブラーニングにおけるこれらの結果の意義を考察し, 一般的な不確実性に基づく手法に勝る新たな獲得関数を提案する。 その結果,完全接続型,畳み込み型,注目型ニューラルネットワークの深層アンサンブルを用いて後部を近似した。

Bayesian inference can quantify uncertainty in the predictions of neural networks using posterior distributions for model parameters and network output. By looking at these posterior distributions, one can separate the origin of uncertainty into aleatoric and epistemic contributions. One goal of uncertainty quantification is to inform on prediction accuracy. Here we show that prediction accuracy depends on both epistemic and aleatoric uncertainty in an intricate fashion that cannot be understood in terms of marginalized uncertainty distributions alone. How the accuracy relates to epistemic and aleatoric uncertainties depends not only on the model architecture, but also on the properties of the dataset. We discuss the significance of these results for active learning and introduce a novel acquisition function that outperforms common uncertainty-based methods. To arrive at our results, we approximated the posteriors using deep ensembles, for fully-connected, convolutional and attention-based neural networks.
翻訳日:2023-11-23 19:16:24 公開日:2023-11-22
# コンテキストインスタンスクエリによる3次元セマンティックシーン補完のシンフォナイズ

Symphonize 3D Semantic Scene Completion with Contextual Instance Queries ( http://arxiv.org/abs/2306.15670v2 )

ライセンス: Link先を確認
Haoyi Jiang and Tianheng Cheng and Naiyu Gao and Haoyang Zhang and Tianwei Lin and Wenyu Liu and Xinggang Wang(参考訳) 3d semantic scene completion (ssc) は、ボリュームシーン内のvoxelの占有率を予測することを目的とした、自動運転における初期かつ重要な取り組みである。 しかし、一般的な方法論は主にvoxel-wise機能アグリゲーションに重点を置いているが、インスタンスセマンティクスやシーンコンテキストは無視している。 本稿では,2次元から3次元の再構成と3次元のシーンモデリングを統括するインスタンスクエリの統合を念頭に置いて,シンフォニー(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。 提案する連続インスタンスに注目することで、シンフォニーは動的にインスタンス中心のセマンティクスをエンコードし、画像ベースドメインとボリュームドメイン間の複雑なインタラクションを容易にします。 同時にシンフォニーは、インスタンスクエリの効率的な融合を通じてコンテキストをキャプチャし、コンテキストシーン推論によるオクルージョンやパースペクティブエラーといった幾何学的曖昧さを緩和することで、総合的なシーン理解を可能にする。 実験の結果、Symphonyは挑戦的なベンチマークであるSemanticKITTIとSSCBench-KITTI-360で最先端のパフォーマンスを達成し、それぞれ15.04と18.58のmIoUスコアを得た。 これらの結果は、パラダイムの有望な進歩を示している。 コードはhttps://github.com/hustvl/symphoniesで入手できる。

`3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal undertaking in autonomous driving, aiming to predict voxel occupancy within volumetric scenes. However, prevailing methodologies primarily focus on voxel-wise feature aggregation, while neglecting instance semantics and scene context. In this paper, we present a novel paradigm termed Symphonies (Scene-from-Insts), that delves into the integration of instance queries to orchestrate 2D-to-3D reconstruction and 3D scene modeling. Leveraging our proposed Serial Instance-Propagated Attentions, Symphonies dynamically encodes instance-centric semantics, facilitating intricate interactions between image-based and volumetric domains. Simultaneously, Symphonies enables holistic scene comprehension by capturing context through the efficient fusion of instance queries, alleviating geometric ambiguity such as occlusion and perspective errors through contextual scene reasoning. Experimental results demonstrate that Symphonies achieves state-of-the-art performance on challenging benchmarks SemanticKITTI and SSCBench-KITTI-360, yielding remarkable mIoU scores of 15.04 and 18.58, respectively. These results showcase the paradigm's promising advancements. The code is available at https://github.com/hustvl/Symphonies.
翻訳日:2023-11-23 19:07:47 公開日:2023-11-22
# 3-SAT問題に対処するハイブリッド量子の提案

A hybrid Quantum proposal to deal with 3-SAT problem ( http://arxiv.org/abs/2306.04378v2 )

ライセンス: Link先を確認
Jose J. Paulet, Luis F. LLana, Hernan I. de la Cruz, Mauro Mezzini, Fernando Cuartero and Fernando L. Pelayo(参考訳) SAT問題解決においてできる限りの努力が、私たちの仕事の主目的です。 この目的のために、我々は量子コンピューティングをその2つ、実際は主に計算のモデルから利用した。 彼らは両方の手法の要求を満たすために、以前の3SAT問題に対するいくつかの改革を必要とした。 本稿では,3SAT問題を解くためのハイブリッド量子コンピューティング戦略について述べる。 この近似の性能は、量子コンピューティングの観点から3-SATを扱う際に、一連の代表的なシナリオで検証されている。

Going as far as possible at SAT problem solving is the main aim of our work. For this sake we have made use of quantum computing from its two, on practice, main models of computation. They have required some reformulations over the former statement of 3-SAT problem in order to accomplish the requirements of both techniques. This paper presents and describes a hybrid quantum computing strategy for solving 3-SAT problems. The performance of this approximation has been tested over a set of representative scenarios when dealing with 3-SAT from the quantum computing perspective.
翻訳日:2023-11-23 19:07:20 公開日:2023-11-22
# パッチ選択による人間のポーズ推定のための効率的な視覚トランスフォーマ

Efficient Vision Transformer for Human Pose Estimation via Patch Selection ( http://arxiv.org/abs/2306.04225v2 )

ライセンス: Link先を確認
Kaleab A. Kinfu and Rene Vidal(参考訳) 畳み込みニューラルネットワーク(CNN)は2次元の人間のポーズ推定において広く成功しているが、視覚変換器(ViT)はCNNに代わる有望な代替手段として現れ、最先端のパフォーマンスが向上している。 しかし、ViTsの2次計算複雑性は高解像度画像処理への適用性を制限している。 本稿では,ViTの計算複雑性を低減するための3つの手法を提案する。 第1の2つの方法は、軽量なポーズ推定ネットワークを利用してパッチ選択プロセスをガイドし、第3の方法は学習可能なジョイントトークンのセットを使用して、選択されたパッチが身体関節に関する最も重要な情報を含むことを保証する。 6つのベンチマークで実験した結果,提案手法は計算複雑性を30%から44%まで大幅に低減し,0%から3.5%までの精度を最小に抑えることができた。

While Convolutional Neural Networks (CNNs) have been widely successful in 2D human pose estimation, Vision Transformers (ViTs) have emerged as a promising alternative to CNNs, boosting state-of-the-art performance. However, the quadratic computational complexity of ViTs has limited their applicability for processing high-resolution images. In this paper, we propose three methods for reducing ViT's computational complexity, which are based on selecting and processing a small number of most informative patches while disregarding others. The first two methods leverage a lightweight pose estimation network to guide the patch selection process, while the third method utilizes a set of learnable joint tokens to ensure that the selected patches contain the most important information about body joints. Experiments across six benchmarks show that our proposed methods achieve a significant reduction in computational complexity, ranging from 30% to 44%, with only a minimal drop in accuracy between 0% and 3.5%.
翻訳日:2023-11-23 19:07:13 公開日:2023-11-22
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する

SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v5 )

ライセンス: Link先を確認
Pengcheng Lu, Liang Cai, and Keting Yin(参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。 スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。 Ethereum上のスマートPonziスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、Ponziスキームの動作特性を真に特徴づけることができないため、検出精度と誤警報率の点で一般的には不十分である。 本稿では,事前訓練されたモデルとデータフローを用いてEthereumプラットフォーム上のスマートPonziスキームを検出する方法であるSourcePを提案する。 SourcePは、既存の検出方法のデータの取得と特徴抽出の難しさを軽減する。 具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。 実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。 我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。

As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, which are unable to truly characterize the behavioral features of Ponzi schemes, and thus generally perform poorly in terms of detection accuracy and false alarm rates. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability.
翻訳日:2023-11-23 19:06:55 公開日:2023-11-22
# Hinge-Wasserstein: 回帰における過信を分類によって緩和する

Hinge-Wasserstein: Mitigating Overconfidence in Regression by Classification ( http://arxiv.org/abs/2306.00560v2 )

ライセンス: Link先を確認
Ziliang Xiong, Arvi Jonnarth, Abdelrahman Eldesokey, Joakim Johnander, Bastian Wandt, Per-Erik Forssen(参考訳) 安全クリティカルなアプリケーションにデプロイされるコンピュータビジョンシステムは、出力の不確かさを定量化する必要がある。 画像からパラメータ値への回帰について検討し,確率分布の予測による不確実性の検出が一般的である。 そこで本研究では,モード数に対する事前の仮定なしに,マルチモーダル分布を表現可能な回帰分類パラダイムについて検討する。 特別に設計された合成データセットに関する実験を通じて, 従来の損失関数は, 完全な真理分布が存在しない場合において, 確率分布の推定精度が低く, 過信感が強いことを実証する。 これらの問題を緩和するため、我々は、トレーニング中の弱い二次モードに対するペナルティを低減させる、wasersteinの損失の単純な改善であるhinge-wassersteinを提案する。 これにより、複数のモードで複雑な分布を予測することができ、完全な真実分布が利用できないデータセットのトレーニングが可能になる。 広範にわたる実験において,提案した損失は,水平線検出とステレオ異方性推定という2つの課題のコンピュータビジョンタスクにおいて,かなり優れた不確実性推定をもたらすことを示した。

Computer vision systems that are deployed in safety-critical applications need to quantify their output uncertainty. We study regression from images to parameter values and here it is common to detect uncertainty by predicting probability distributions. In this context, we investigate the regression-by-classification paradigm which can represent multimodal distributions, without a prior assumption on the number of modes. Through experiments on a specifically designed synthetic dataset, we demonstrate that traditional loss functions lead to poor probability distribution estimates and severe overconfidence, in the absence of full ground truth distributions. In order to alleviate these issues, we propose hinge-Wasserstein -- a simple improvement of the Wasserstein loss that reduces the penalty for weak secondary modes during training. This enables prediction of complex distributions with multiple modes, and allows training on datasets where full ground truth distributions are not available. In extensive experiments, we show that the proposed loss leads to substantially better uncertainty estimation on two challenging computer vision tasks: horizon line detection and stereo disparity estimation.
翻訳日:2023-11-23 19:06:17 公開日:2023-11-22
# prolificdreamer: 変動スコア蒸留による高忠実度・多彩なテキスト対3d生成

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation ( http://arxiv.org/abs/2305.16213v2 )

ライセンス: Link先を確認
Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu(参考訳) SDS (Score distillation sample) は, 事前訓練した大規模テキスト・画像拡散モデルを蒸留することにより, テキスト・ツー・3D生成において大きな可能性を秘めている。 本研究では,sdsのように定数ではなく確率変数として3dパラメータをモデル化し,前述のテキストから3d生成の問題を説明・解決するための原理粒子ベースの変分点蒸留(vsd)を提案する。 SDSはVSDの特殊な症例であり,小および大のCFG重量のサンプルが不足していることを示す。 対照的に、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重量とうまく働き、共通のCFG重量(すなわち7.5$)で多様性とサンプル品質を同時に改善する。 さらに, 蒸留時間スケジュールや密度初期化などのテキストから3Dまでの設計空間を改良し, 蒸留アルゴリズムの直交性について検討した。 ProlificDreamerと呼ばれる我々の全体的なアプローチは、高いレンダリング解像度(512\times 512$)と豊富な構造と複雑な効果(煙や滴など)を持つ高忠実度NeRFを生成することができる。 さらに、NeRFから初期化され、VSDによって微細に調整されたメッシュは細部まで詳細で、フォトリアリスティックである。 プロジェクトページとコード: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., $7.5$). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., $512\times512$) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page and codes: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
翻訳日:2023-11-23 19:05:59 公開日:2023-11-22
# 大規模言語モデルを用いた文脈内学習のためのアクティブラーニング原則

Active Learning Principles for In-Context Learning with Large Language Models ( http://arxiv.org/abs/2305.14264v2 )

ライセンス: Link先を確認
Katerina Margatina and Timo Schick and Nikolaos Aletras and Jane Dwivedi-Yu(参考訳) 大規模言語モデル(LLM)の顕著な進歩は、数ショットの学習環境での性能を大幅に向上させた。 デモと呼ばれる少数のラベル付き例を使用することで、LLMはコンテキスト内学習を通じて、手元のタスクを効果的に把握することができる。 しかし、事前の作業では、適切なデモンストレーションを選択するプロセスに注意が向けられている。 本稿では,一反復でプールベースのアクティブラーニング(AL)問題としてアプローチすることで,数発の学習において最も有益な実演を識別する問題に対処する。 本研究の目的は,alアルゴリズムがコンテキスト内学習における効果的な実演選択手法としてどのように役立つかを検討することである。 我々は、不確実性、多様性、類似性に基づく様々な標準ALアルゴリズムを比較し、後者がランダムサンプリングを含む他の手法よりも優れていることを一貫して観察する。 特に、従来の教師付き学習シナリオの成功にもかかわらず、この文脈では不確実なサンプリングが不十分である。 広範にわたるGPTモデルとOPTモデルによる2,4ドルの分類と複数選択タスクの多種多様な実験と、徹底的な分析により、ALによる文脈内サンプル選択が、不確実性の低い高品質な例を優先し、テスト例と類似性を持つことを示した。

The remarkable advancements in large language models (LLMs) have significantly enhanced the performance in few-shot learning settings. By using only a small number of labeled examples, referred to as demonstrations, LLMs can effectively grasp the task at hand through in-context learning. However, the process of selecting appropriate demonstrations has received limited attention in prior work. This paper addresses the issue of identifying the most informative demonstrations for few-shot learning by approaching it as a pool-based Active Learning (AL) problem over a single iteration. Our objective is to investigate how AL algorithms can serve as effective demonstration selection methods for in-context learning. We compare various standard AL algorithms based on uncertainty, diversity, and similarity, and consistently observe that the latter outperforms all other methods, including random sampling. Notably, uncertainty sampling, despite its success in conventional supervised learning scenarios, performs poorly in this context. Our extensive experimentation involving a diverse range of GPT and OPT models across $24$ classification and multi-choice tasks, coupled with thorough analysis, unambiguously demonstrates that in-context example selection through AL prioritizes high-quality examples that exhibit low uncertainty and bear similarity to the test examples.
翻訳日:2023-11-23 19:05:15 公開日:2023-11-22
# 呼吸音分類における音声スペクトログラムトランスフォーマを用いたパッチミックスコントラスト学習

Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound Classification ( http://arxiv.org/abs/2305.14032v4 )

ライセンス: Link先を確認
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun(参考訳) 呼吸音は致命的な肺疾患の早期診断に重要な情報を含んでいる。 新型コロナウイルス(COVID-19)のパンデミック以降、電子聴診器に基づく非接触医療への関心が高まっている。 この目的のために、最先端の深層学習モデルが肺疾患の診断のために開発されたが、医療データの不足のため、依然として困難である。 本研究では,大規模視覚および音声データセットにおける事前学習モデルが呼吸音分類タスクに一般化できることを実証する。 さらに,Audio Spectrogram Transformer (AST) を用いて,異なるサンプル間のパッチをランダムに混合する,単純なPatch-Mix Augmentationを導入する。 さらに,潜在空間における混合表現を識別する新しいパッチ混合コントラスト学習を提案する。 提案手法はICBHIデータセット上での最先端性能を実現し,4.08%の改善により先行先行スコアを上回った。

Respiratory sound contains crucial information for the early diagnosis of fatal lung diseases. Since the COVID-19 pandemic, there has been a growing interest in contact-free medical care based on electronic stethoscopes. To this end, cutting-edge deep learning models have been developed to diagnose lung diseases; however, it is still challenging due to the scarcity of medical data. In this study, we demonstrate that the pretrained model on large-scale visual and audio datasets can be generalized to the respiratory sound classification task. In addition, we introduce a straightforward Patch-Mix augmentation, which randomly mixes patches between different samples, with Audio Spectrogram Transformer (AST). We further propose a novel and effective Patch-Mix Contrastive Learning to distinguish the mixed representations in the latent space. Our method achieves state-of-the-art performance on the ICBHI dataset, outperforming the prior leading score by an improvement of 4.08%.
翻訳日:2023-11-23 19:04:51 公開日:2023-11-22
# 地質相生成のための原理的深層学習手法

A principled deep learning approach for geological facies generation ( http://arxiv.org/abs/2305.13318v2 )

ライセンス: Link先を確認
Ferdinand Bhavsar, Nicolas Desassis, Fabien Ors, Thomas Romary(参考訳) 観測不能な体積の地質相のシミュレーションは、様々な地球科学の応用において不可欠である。 問題の複雑さを考えると、深層生成学習は従来の統計シミュレーションモデルの限界、特に物理リアリズムの欠如を克服するための有望なアプローチである。 本研究は, 地下の蛇行流路を条件付きシミュレーションするための, 生成的対向ネットワークと深部変動推論の適用性を検討することを目的とする。 本稿では,創発的深層学習のアプローチ,特に敵対的アプローチと,学習の促進を目的とした安定化技術について概説する。 確率過程に基づくモデルflumyを用いて2次元および3次元シミュレーションを行った。 形態指標を用いて,提案手法と生成逆数ネットワークの初期イテレーションを比較した。 その結果,近年の安定化技術を利用することで,ターゲットデータ分布から生成型逆ネットワークを効率的にサンプリングできることがわかった。 さらに,提案手法の潜在変数モデル特性を用いて条件付きシミュレーションをシミュレートする能力を示す。

The simulation of geological facies in an unobservable volume is essential in various geoscience applications. Given the complexity of the problem, deep generative learning is a promising approach to overcome the limitations of traditional geostatistical simulation models, in particular their lack of physical realism. This research aims to investigate the application of generative adversarial networks and deep variational inference for conditionally simulating meandering channels in underground volumes. In this paper, we review the generative deep learning approaches, in particular the adversarial ones and the stabilization techniques that aim to facilitate their training. The proposed approach is tested on 2D and 3D simulations generated by the stochastic process-based model Flumy. Morphological metrics are utilized to compare our proposed method with earlier iterations of generative adversarial networks. The results indicate that by utilizing recent stabilization techniques, generative adversarial networks can efficiently sample from target data distributions. Moreover, we demonstrate the ability to simulate conditioned simulations through the latent variable model property of the proposed approach.
翻訳日:2023-11-23 19:04:10 公開日:2023-11-22
# 3モードの非ガウス量子照明

Non-Gaussian Quantum Illumination with three modes ( http://arxiv.org/abs/2305.10458v4 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 信号状態に2つのモード光子状態が記述され、アイドラーが1つの光子モード状態が記述されたガウス状態以外の3つのモードの量子照明は、高雑音背景において感度標準ガウス量子照明よりも優れることを示した。 特に、$n_s$が信号状態のモード当たりの光子の平均数である2/\sqrt{n_s}$という係数によるエラー指数の確率の増加による確率の低下がある。

It is shown that quantum illumination with three modes non-Gaussian states, where the signal states describes two modes photons state and the idler is described one photon mode state, can outperform in sensitivity standard Gaussian quantum illumination in a high noisy background. In particular, there is a reduction in the probability due to an increase in the probability of error exponent by a factor $2/\sqrt{N_S}$, where $N_S$ is the average number of photons per mode of the signal state.
翻訳日:2023-11-23 19:03:30 公開日:2023-11-22
# 最小三角形シナリオにおける量子後非局所性

Post-quantum nonlocality in the minimal triangle scenario ( http://arxiv.org/abs/2305.03745v3 )

ライセンス: Link先を確認
Alejandro Pozas-Kerstjens, Antoine Girardin, Tam\'as Kriv\'achy, Armin Tavakoli, Nicolas Gisin(参考訳) 入力出力とバイナリ出力が存在しない場合の三角形シナリオにおいて,ネットワークの非局所性について検討する。 明示的な例を通して、この最小のシナリオは3つのソースの無信号化と独立性に両立する非局所相関をサポートするが、独立な量子または古典的ソースに基づく実現ではないことを証明している。 この非局所性は騒音に強い。 さらに、極小三角形のシナリオでは、ポープスク・ローリッヒボックスに相当するものを特定する。

We investigate network nonlocality in the triangle scenario when all three parties have no input and binary outputs. Through an explicit example, we prove that this minimal scenario supports nonlocal correlations compatible with no-signaling and independence of the three sources, but not with realisations based on independent quantum or classical sources. This nonlocality is robust to noise. Moreover, we identify the equivalent to a Popescu-Rohrlich box in the minimal triangle scenario.
翻訳日:2023-11-23 19:03:18 公開日:2023-11-22
# PsyMo: 歩行から自己申告された心理的トラストを推定するためのデータセット

PsyMo: A Dataset for Estimating Self-Reported Psychological Traits from Gait ( http://arxiv.org/abs/2308.10631v3 )

ライセンス: Link先を確認
Adrian Cosma, Emilian Radoi(参考訳) 運動や外見などの外的要因からの心理的特性推定は、心理学において困難で長期にわたる問題であり、主にエンボディメントの心理学理論に基づいている。 これまでのところ、この問題に対処する試みは、侵入性体感センサーを備えたプライベートな小規模データセットを利用している。 心理的特性推定のための自動システムの潜在的な応用には、職業的疲労と心理学の推定、マーケティングと広告が含まれる。 本研究では,歩行パターンに現れる心理的手がかりを探索するための新しい多目的多モードデータセットであるpsymo(psychological traits from motion)を提案する。 被験者312名から7種類の歩行変化と6種類のカメラアングルで歩行シーケンスを収集した。 参加者は6つの心理的質問紙に記入し、パーソナリティ、自尊感情、疲労、攻撃性、精神健康に関する17の心理指標を集計した。 心理特性推定のための2つの評価プロトコルを提案する。 歩行から自己報告された心理的特徴を推定すると同時に、このデータセットは歩行認識のためのベンチマーク手法の代替として使用できる。 被験者の身元に関するすべての手がかりを匿名化し,シルエット,2D/3Dヒト骨格,3D SMPLヒトメッシュのみを一般公開した。

Psychological trait estimation from external factors such as movement and appearance is a challenging and long-standing problem in psychology, and is principally based on the psychological theory of embodiment. To date, attempts to tackle this problem have utilized private small-scale datasets with intrusive body-attached sensors. Potential applications of an automated system for psychological trait estimation include estimation of occupational fatigue and psychology, and marketing and advertisement. In this work, we propose PsyMo (Psychological traits from Motion), a novel, multi-purpose and multi-modal dataset for exploring psychological cues manifested in walking patterns. We gathered walking sequences from 312 subjects in 7 different walking variations and 6 camera angles. In conjunction with walking sequences, participants filled in 6 psychological questionnaires, totalling 17 psychometric attributes related to personality, self-esteem, fatigue, aggressiveness and mental health. We propose two evaluation protocols for psychological trait estimation. Alongside the estimation of self-reported psychological traits from gait, the dataset can be used as a drop-in replacement to benchmark methods for gait recognition. We anonymize all cues related to the identity of the subjects and publicly release only silhouettes, 2D / 3D human skeletons and 3D SMPL human meshes.
翻訳日:2023-11-23 18:55:43 公開日:2023-11-22
# 組み込みシステム開発とデバッグのための大規模言語モデルの探索と特徴付け

Exploring and Characterizing Large Language Models For Embedded System Development and Debugging ( http://arxiv.org/abs/2307.03817v2 )

ライセンス: Link先を確認
Zachary Englhardt, Richard Li, Dilini Nissanka, Zhihan Zhang, Girish Narayanswamy, Joseph Breda, Xin Liu, Shwetak Patel, Vikram Iyer(参考訳) 大規模言語モデル(LLM)は、コードを生成する能力は顕著だが、組み込みシステムのためのソフトウェアを開発する能力は、ハードウェアとソフトウェアのクロスドメイン知識を必要とする。 本稿では,主要なLCM (GPT-3.5, GPT-4, PaLM 2) を体系的に評価し, 組込みシステム開発における性能と限界を評価するための拡張性のあるハードウェア・イン・ザ・ループ・フレームワークを開発する。 これらのツールが動作コードの生成に失敗したとしても、組み込まれた設計タスクに関する有益な推論を一貫して生成する、という私たちの研究を通して観察します。 この発見を利用して、人間のプログラマがこれらのツールとどのように相互作用するかを研究し、組み込みシステムを構築するためのヒューマンAIベースのソフトウェアエンジニアリングワークフローを開発する。 LLM生成プログラムを検証するための評価プラットフォームは,センサアクチュエータペアを用いて物理的評価を行う。 我々は3つのモデルとN=450の実験を比較し、GPT-4が特にドメイン間の理解と推論の異常なレベルを示しており、場合によっては1つのプロンプトから完全に正しいプログラムを生成する。 N=50の試験では、GPT-4は機能的なI2Cインタフェースを66%生成する。 GPT-4はレジスタレベルのドライバ、LoRa通信のコード、nRF52プログラムのコンテキスト固有の電力最適化も生成し、740倍の電流を12.2uAに削減した。 また,組込みシステム開発においてLLMを利用する汎用的なヒューマンAIワークフローを開発するためのモデルの制限も特徴付ける。 初心者やエキスパートプログラマを含む15名のユーザでワークフローを評価します。 当社のワークフローは、すべてのユーザの生産性を向上し、ハードウェアもc/c++エクスペリエンスもないユーザも含む、lora環境センサ構築の成功率を25%から100%に向上させています。

Large language models (LLMs) have shown remarkable abilities to generate code, however their ability to develop software for embedded systems, which requires cross-domain knowledge of hardware and software has not been studied. In this paper we develop an extensible, open source hardware-in-the-loop framework to systematically evaluate leading LLMs (GPT-3.5, GPT-4, PaLM 2) to assess their capabilities and limitations for embedded system development. We observe through our study that even when these tools fail to produce working code, they consistently generate helpful reasoning about embedded design tasks. We leverage this finding to study how human programmers interact with these tools, and develop an human-AI based software engineering workflow for building embedded systems. Our evaluation platform for verifying LLM generated programs uses sensor actuator pairs for physical evaluation. We compare all three models with N=450 experiments and find surprisingly that GPT-4 especially shows an exceptional level of cross-domain understanding and reasoning, in some cases generating fully correct programs from a single prompt. In N=50 trials, GPT-4 produces functional I2C interfaces 66% of the time. GPT-4 also produces register-level drivers, code for LoRa communication, and context-specific power optimizations for an nRF52 program resulting in over 740x current reduction to 12.2uA. We also characterize the models' limitations to develop a generalizable human-AI workflow for using LLMs in embedded system development. We evaluate our workflow with 15 users including novice and expert programmers. We find that our workflow improves productivity for all users and increases the success rate for building a LoRa environmental sensor from 25% to 100%, including for users with zero hardware or C/C++ experience.
翻訳日:2023-11-23 18:55:22 公開日:2023-11-22
# テキスト対話における感情認識のためのグローバルローカル認識を用いたデュアルストリーム再帰ネットワーク

A Dual-Stream Recurrence-Attention Network With Global-Local Awareness for Emotion Recognition in Textual Dialog ( http://arxiv.org/abs/2307.00449v2 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Zhigang Zeng(参考訳) 現実世界の対話システムでは,ユーザの感情を理解し,人為的に対話する能力が非常に重要である。 会話における感情認識(erc)は、この目標を達成するための重要な方法の1つであり、注目を集めている。 会話におけるコンテキストのモデル化は、ERCタスクにおける中心的な側面であり、大きな課題である。 既存のアプローチのほとんどは、グローバルなコンテキスト情報とローカルなコンテキスト情報の両方を適切に組み込むのに苦労しています。 そこで本稿では,Recurrent Neural Network(RNN)とMulti-head Attention Network(MAT)をベースとした,シンプルで効果的なDual-stream Recurrence-Attention Network(DualRAN)を提案する。 DualRANは、現在のメソッドの複雑なコンポーネントを排除し、繰り返しベースのメソッドと注意ベースのメソッドを組み合わせることに焦点を当てている。 DualRANは、主にローカルおよびグローバルなモジュールで構成され、異なる視点から会話を同時にモデル化するデュアルストリーム構造である。 さらに,DualRAN,SingleRANv1,SingleRANv2の2つのシングルストリームネットワークバリアントを開発した。 実験結果によると、Dualranは、最強のベースラインと比較して、IEMOCAPとMELDデータセットにおいて、重み付けされたF1スコアを1.43%、0.64%向上させる。 他の2つのデータセット(EmoryNLPとDailyDialog)では、競合する結果が得られる。

In real-world dialog systems, the ability to understand the user's emotions and interact anthropomorphically is of great significance. Emotion Recognition in Conversation (ERC) is one of the key ways to accomplish this goal and has attracted growing attention. How to model the context in a conversation is a central aspect and a major challenge of ERC tasks. Most existing approaches struggle to adequately incorporate both global and local contextual information, and their network structures are overly sophisticated. For this reason, we propose a simple and effective Dual-stream Recurrence-Attention Network (DualRAN), which is based on Recurrent Neural Network (RNN) and Multi-head ATtention network (MAT). DualRAN eschews the complex components of current methods and focuses on combining recurrence-based methods with attention-based ones. DualRAN is a dual-stream structure mainly consisting of local- and global-aware modules, modeling a conversation simultaneously from distinct perspectives. In addition, we develop two single-stream network variants for DualRAN, i.e., SingleRANv1 and SingleRANv2. According to the experimental findings, DualRAN boosts the weighted F1 scores by 1.43% and 0.64% on the IEMOCAP and MELD datasets, respectively, in comparison to the strongest baseline. On two other datasets (i.e., EmoryNLP and DailyDialog), our method also attains competitive results.
翻訳日:2023-11-23 18:54:04 公開日:2023-11-22
# DNA-TEQ:DNN推論のためのテンソルの適応指数量子化

DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN Inference ( http://arxiv.org/abs/2306.16430v2 )

ライセンス: Link先を確認
Bahareh Khabbazan, Marc Riera, Antonio Gonz\'alez(参考訳) 量子化はディープニューラルネットワーク(DNN)において、アクティベーションと重みの算術的精度、すなわちテンソルを小さくすることで、記憶と計算の複雑さを減らすために一般的に用いられる。 効率的なハードウェアアーキテクチャでは、最近のDNNを組み込みシステムやモバイルデバイスに展開するために線形量子化を用いる。 しかし、線形均一量子化はモデル精度の点で高い性能を犠牲にすることなく、通常8ビット未満に数値精度を下げることはできない。 パフォーマンスの損失はテンソルが一様分布に従わないためである。 本稿では,かなりの量のテンソルが指数分布に適合することを示す。 そこで我々は,DNNテンソルを指数関数的に定量化するDNA-TEQを提案する。 実験の結果,DNA-TEQの量子化ビット幅は従来の提案よりもはるかに小さく,平均圧縮比は線形INT8ベースラインよりも40%も小さく,精度の低下は無視でき,DNNを再トレーニングすることができないことがわかった。 さらに、DNA-TEQは指数領域でのドット生成操作を誘導し、広く使用されているDNNのセットで平均して66%のエネルギー消費を節約する。

Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the storage and computational complexity by decreasing the arithmetical precision of activations and weights, a.k.a. tensors. Efficient hardware architectures employ linear quantization to enable the deployment of recent DNNs onto embedded systems and mobile devices. However, linear uniform quantization cannot usually reduce the numerical precision to less than 8 bits without sacrificing high performance in terms of model accuracy. The performance loss is due to the fact that tensors do not follow uniform distributions. In this paper, we show that a significant amount of tensors fit into an exponential distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors with an adaptive scheme that achieves the best trade-off between numerical precision and accuracy loss. The experimental results show that DNA-TEQ provides a much lower quantization bit-width compared to previous proposals, resulting in an average compression ratio of 40% over the linear INT8 baseline, with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ leads the way in performing dot-product operations in the exponential domain, which saves 66% of energy consumption on average for a set of widely used DNNs.
翻訳日:2023-11-23 18:53:24 公開日:2023-11-22
# 自律運転における軌道予測における自然データ中毒による逆向きバックドア攻撃

Adversarial Backdoor Attack by Naturalistic Data Poisoning on Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2306.15755v2 )

ライセンス: Link先を確認
Mozhgan Pourkeshavarz, Mohammad Sabokrou, Amir Rasouli(参考訳) 自律運転においては、行動予測は安全な運動計画の基本であり、敵の攻撃に対する予測モデルの安全性と堅牢性が最も重要である。 我々は,その潜在的な脆弱性を調べる手段として,軌道予測モデルに対する新たな反逆バックドア攻撃を提案する。 我々の攻撃は、自然主義的、従って、新しい2段階のアプローチで作られた毒のサンプルによって、訓練時に被害者に影響を与える。 第一に、トリガーは攻撃車両の軌道を摂動させ、二段最適化技術を用いてシーンを変換して擬似化する。 提案攻撃は特定のモデルアーキテクチャに依存しず,ブラックボックス方式で動作するため,被害者モデルに関する知識がなくても有効である。 軌道予測のためにカスタマイズされた指標を用いて、2つのベンチマークデータセットの最先端予測モデルを用いて広範な実験研究を行う。 提案手法は, 予測モデルの性能を著しく阻害し, 被害者に気づかれず, かつ, 被害者が制約条件下であっても悪質な行動を起こすことを強いるため, 効果的であることを示す。 アブレーション研究を通じて,異なる攻撃設計選択の影響を解析し,提案する攻撃に対する既存の防御機構を評価する。

In autonomous driving, behavior prediction is fundamental for safe motion planning, hence the security and robustness of prediction models against adversarial attacks are of paramount importance. We propose a novel adversarial backdoor attack against trajectory prediction models as a means of studying their potential vulnerabilities. Our attack affects the victim at training time via naturalistic, hence stealthy, poisoned samples crafted using a novel two-step approach. First, the triggers are crafted by perturbing the trajectory of attacking vehicle and then disguised by transforming the scene using a bi-level optimization technique. The proposed attack does not depend on a particular model architecture and operates in a black-box manner, thus can be effective without any knowledge of the victim model. We conduct extensive empirical studies using state-of-the-art prediction models on two benchmark datasets using metrics customized for trajectory prediction. We show that the proposed attack is highly effective, as it can significantly hinder the performance of prediction models, unnoticeable by the victims, and efficient as it forces the victim to generate malicious behavior even under constrained conditions. Via ablative studies, we analyze the impact of different attack design choices followed by an evaluation of existing defence mechanisms against the proposed attack.
翻訳日:2023-11-23 18:53:02 公開日:2023-11-22
# Histogram Oriented Gradient Based Support Vector Machine を用いた遅発性トマト病の早期診断

Early Detection of Late Blight Tomato Disease using Histogram Oriented Gradient based Support Vector Machine ( http://arxiv.org/abs/2306.08326v2 )

ライセンス: Link先を確認
M. Ishaq, M. Waqas(参考訳) トマトは地球上で最も重要な果物の1つである。 農業生産において重要な役割を担っている。 本研究はトマトにおける遅発性病の早期発見のための新しいスマート手法を提案する。 本研究は,フィールド(植物村のデータセット)からのイメージの増加によるデータセットの改善と,遅延トマト病のリアルタイム検出のためのサポートベクターマシン(SVM)とヒストグラム指向勾配(HOG)からなるハイブリッドアルゴリズムを提案する。 遅発性トマト葉病の早期発見のためのHOGに基づくSVMモデルを提案する。 MSE,精度,精度,リコールの観点から,提案モデルの性能を決定木やKNNと比較する。 農業における先進技術の統合は産業に革命をもたらす可能性があり、より効率的で持続可能な利益をもたらす。 トマト病の早期発見に関する研究は、スマート農業の重要性の高まり、気候に配慮した農業の必要性、天然資源をより効率的に活用する必要性の高まり、収穫高の需要に寄与する。 提案したSVMとHOGのハイブリッドアルゴリズムは,トマトの遅発性病の早期発見に有意な可能性を秘めている。 決定木とKNNアルゴリズムに対して提案したモデルの性能と,将来のアプリケーションに最適なアルゴリズムを選択するのに有効である。 この研究は、農家が作物の収量と品質を最適化し、農業慣行の環境への影響を減らし、データ駆動による決定を下すのに役立つ。

The tomato is one of the most important fruits on earth. It plays an important and useful role in the agricultural production of any country. This research propose a novel smart technique for early detection of late blight diseases in tomatoes. This work improve the dataset with an increase in images from the field (the Plant Village dataset) and proposed a hybrid algorithm composed of support vector machines (SVM) and histogram-oriented gradients (HOG) for real-time detection of late blight tomato disease. To propose a HOG-based SVM model for early detection of late blight tomato leaf disease. To check the performance of the proposed model in terms of MSE, accuracy, precision, and recall as compared to Decision Tree and KNN. The integration of advanced technology in agriculture has the potential to revolutionize the industry, making it more efficient, sustainable, and profitable. This research work on the early detection of tomato diseases contributes to the growing importance of smart farming, the need for climate-smart agriculture, the rising need to more efficiently utilize natural resources, and the demand for higher crop yields. The proposed hybrid algorithm of SVM and HOG has significant potential for the early detection of late blight disease in tomato plants. The performance of the proposed model against decision tree and KNN algorithms and the results may assist in selecting the best algorithm for future applications. The research work can help farmers make data-driven decisions to optimize crop yield and quality while also reducing the environmental impact of farming practices.
翻訳日:2023-11-23 18:52:42 公開日:2023-11-22
# 直交列を用いた微分プライベート無線フェデレート学習

Differentially Private Wireless Federated Learning Using Orthogonal Sequences ( http://arxiv.org/abs/2306.08280v2 )

ライセンス: Link先を確認
Xizixiang Wei, Tianhao Wang, Ruiquan Huang, Cong Shen, Jing Yang, H. Vincent Poor(参考訳) 本稿では,単入力単一出力(siso)無線フェデレート学習(fl)システムのための,over-the-air computation(aircomp)法を提案する。 通信設計の観点からは、FLORASは直交シーケンスの特性を活用して送信機(CSIT)におけるチャネル状態情報の要求を排除している。 プライバシの観点から、FLORASはアイテムレベルとクライアントレベル差分プライバシー(DP)の両方の保証を提供する。 さらに、システムパラメータを適切に調整することにより、FLORASは追加コストなしで異なるDPレベルを柔軟に達成することができる。 新たなfl収束境界は、プライバシ保証と組み合わせることで、達成された収束率とディファレンシャルプライバシレベルとのスムーズなトレードオフを可能にする。 実験により, FLORASの利点をベースラインAirComp法と比較し, モデル収束度とプライバシレベルの異なるトレードオフ条件で, プライバシ保存FLの設計を導出できることが検証された。

We propose a privacy-preserving uplink over-the-air computation (AirComp) method, termed FLORAS, for single-input single-output (SISO) wireless federated learning (FL) systems. From the perspective of communication designs, FLORAS eliminates the requirement of channel state information at the transmitters (CSIT) by leveraging the properties of orthogonal sequences. From the privacy perspective, we prove that FLORAS offers both item-level and client-level differential privacy (DP) guarantees. Moreover, by properly adjusting the system parameters, FLORAS can flexibly achieve different DP levels at no additional cost. A new FL convergence bound is derived which, combined with the privacy guarantees, allows for a smooth tradeoff between the achieved convergence rate and differential privacy levels. Experimental results demonstrate the advantages of FLORAS compared with the baseline AirComp method, and validate that the analytical results can guide the design of privacy-preserving FL with different tradeoff requirements on the model convergence and privacy levels.
翻訳日:2023-11-23 18:52:18 公開日:2023-11-22
# NeuroGraph:脳コネクトロミクスにおけるグラフ機械学習のベンチマーク

NeuroGraph: Benchmarks for Graph Machine Learning in Brain Connectomics ( http://arxiv.org/abs/2306.06202v3 )

ライセンス: Link先を確認
Anwar Said, Roza G. Bayrak, Tyler Derr, Mudassir Shabbir, Daniel Moyer, Catie Chang, Xenofon Koutsoukos(参考訳) 機械学習は高次元機能的神経画像データを分析する貴重なツールであり、様々な神経疾患、精神疾患、認知パターンを予測するのに効果的である。 機能的磁気共鳴イメージング(MRI)研究において、脳領域間の相互作用はグラフベースの表現を用いて一般的にモデル化される。 グラフ機械学習手法の有効性は、データ解釈と予測モデリングにおける変換ステップを象徴する、無数の領域にまたがって確立されている。 しかし、これらの手法をニューロイメージング領域に変換することは、潜在的な前処理パイプラインの数の拡大とグラフベースのデータセット構築のための大きなパラメータ探索空間のために困難である。 本稿では,グラフに基づく神経画像データセットのコレクションであるneurographを導入し,行動特性と認知特性の複数のカテゴリの予測にその有用性を示した。 静的および動的脳接続を包含する35のデータセットを作成し、ベンチマークのために15以上のベースラインメソッドを実行することで、データセット生成の検索空間を深く掘り下げる。 さらに静的グラフと動的グラフの両方で学習するための汎用フレームワークも提供します。 私たちの広範な実験は、いくつかの重要な観測につながります。 特に、相関ベクトルをノードの特徴として使用し、より多くの関心領域を取り入れ、スパーザーグラフを使用すると、パフォーマンスが向上する。 グラフベースのデータ駆動ニューロイメージング解析のさらなる進歩を促進するために、ベンチマークデータセット、ベースライン実装、モデルトレーニング、標準評価を含む包括的なオープンソースのpythonパッケージを提供する。

Machine learning provides a valuable tool for analyzing high-dimensional functional neuroimaging data, and is proving effective in predicting various neurological conditions, psychiatric disorders, and cognitive patterns. In functional magnetic resonance imaging (MRI) research, interactions between brain regions are commonly modeled using graph-based representations. The potency of graph machine learning methods has been established across myriad domains, marking a transformative step in data interpretation and predictive modeling. Yet, despite their promise, the transposition of these techniques to the neuroimaging domain has been challenging due to the expansive number of potential preprocessing pipelines and the large parameter search space for graph-based dataset construction. In this paper, we introduce NeuroGraph, a collection of graph-based neuroimaging datasets, and demonstrated its utility for predicting multiple categories of behavioral and cognitive traits. We delve deeply into the dataset generation search space by crafting 35 datasets that encompass static and dynamic brain connectivity, running in excess of 15 baseline methods for benchmarking. Additionally, we provide generic frameworks for learning on both static and dynamic graphs. Our extensive experiments lead to several key observations. Notably, using correlation vectors as node features, incorporating larger number of regions of interest, and employing sparser graphs lead to improved performance. To foster further advancements in graph-based data driven neuroimaging analysis, we offer a comprehensive open-source Python package that includes the benchmark datasets, baseline implementations, model training, and standard evaluation.
翻訳日:2023-11-23 18:51:59 公開日:2023-11-22
# AIにインスパイアされたAnsatzデザインパターンであるReduceed-Width QNNの導入

Introducing Reduced-Width QNNs, an AI-inspired Ansatz Design Pattern ( http://arxiv.org/abs/2306.05047v2 )

ライセンス: Link先を確認
Jonas Stein, Tobias Rohe, Francesco Nappi, Julian Hager, David Bucher, Maximilian Zorn, Michael K\"olle, Claudia Linnhoff-Popien(参考訳) 変分量子アルゴリズムは、最初に工業的に関連する量子優位をもたらす最も有望な候補の1つである。 任意の関数近似が可能であるため、古典的ニューラルネットワーク(ANN)のようなアナログ設定で使用される場合、量子ニューラルネットワーク(QNN)と呼ばれることが多い。 古典的機械学習の初期と同様に、これらのネットワークの効率的なアーキテクチャのための既知のスキームは少ない。 既存の設計パターンを超えて、近年のQNNにおけるドロップアウト正規化解析の結果に動機づけられた小型回路アンザッツ設計を提案する。 より正確には、過度にパラメータ化されたQNNのゲートは、その表現性が低下するまで大きく刈り取ることができるという洞察を活用できる。 ケーススタディの結果,提案した設計パターンは,ノイズの存在下での標準の「フル幅」設計と同じ品質を維持しつつ,トレーニング時間を著しく短縮できることがわかった。

Variational Quantum Algorithms are one of the most promising candidates to yield the first industrially relevant quantum advantage. Being capable of arbitrary function approximation, they are often referred to as Quantum Neural Networks (QNNs) when being used in analog settings as classical Artificial Neural Networks (ANNs). Similar to the early stages of classical machine learning, known schemes for efficient architectures of these networks are scarce. Exploring beyond existing design patterns, we propose a reduced-width circuit ansatz design, which is motivated by recent results gained in the analysis of dropout regularization in QNNs. More precisely, this exploits the insight, that the gates of overparameterized QNNs can be pruned substantially until their expressibility decreases. The results of our case study show, that the proposed design pattern can significantly reduce training time while maintaining the same result quality as the standard "full-width" design in the presence of noise.
翻訳日:2023-11-23 18:51:21 公開日:2023-11-22
# ShaDDR:3次元形状詳細化と微分レンダリングによる対話型例ベース形状とテクスチャ生成

ShaDDR: Interactive Example-Based Geometry and Texture Generation via 3D Shape Detailization and Differentiable Rendering ( http://arxiv.org/abs/2306.04889v2 )

ライセンス: Link先を確認
Qimin Chen, Zhiqin Chen, Hang Zhou, Hao Zhang(参考訳) 入力された粗いボクセル形状に適用した幾何学的詳細化と条件付きテクスチャ生成により,高分解能なテクスチャ形状を生成する実例に基づく深部生成ニューラルネットワークShaDDRを提案する。 本手法は, 微細かつテクスチャ化された模範形状の小さなセットに基づいて, 多重解像度のボクセルアップサンプリングによる幾何学の精密化を学習し, ボクセル表面のテクスチャを生成する。 生成は対話的で、1秒未満で512^3までのボクセル解像度を持つ3Dモデルを生成する。 生成した形状は入力された粗いボクセルモデル全体の構造を保ち、生成した幾何学的詳細やテクスチャのスタイルは学習された潜時符号で操作できる。 実験により,本手法は従来よりも高分解能な形状を生成でき,幾何的細部や清潔なテクスチャを向上できることを示した。 さらに,実世界の写真から再構成した形状から幾何学的詳細やテクスチャを学習する方法について述べる。 さらに,提案手法を様々な入力に一般化し,その制御性を実証するインタラクティブ・モデリング・アプリケーションを開発し,粗いボクセル形状を対話的に彫刻し,詳細な3次元形状の全体構造を定義できるようにした。 コードとデータはhttps://github.com/qiminchen/ShaDDRで公開されている。

We present ShaDDR, an example-based deep generative neural network which produces a high-resolution textured 3D shape through geometry detailization and conditional texture generation applied to an input coarse voxel shape. Trained on a small set of detailed and textured exemplar shapes, our method learns to detailize the geometry via multi-resolution voxel upsampling and generate textures on voxel surfaces via differentiable rendering against exemplar texture images from a few views. The generation is interactive, taking less than 1 second to produce a 3D model with voxel resolutions up to 512^3. The generated shape preserves the overall structure of the input coarse voxel model, while the style of the generated geometric details and textures can be manipulated through learned latent codes. In the experiments, we show that our method can generate higher-resolution shapes with plausible and improved geometric details and clean textures compared to prior works. Furthermore, we showcase the ability of our method to learn geometric details and textures from shapes reconstructed from real-world photos. In addition, we have developed an interactive modeling application to demonstrate the generalizability of our method to various user inputs and the controllability it offers, allowing users to interactively sculpt a coarse voxel shape to define the overall structure of the detailized 3D shape. Code and data are available at https://github.com/qiminchen/ShaDDR.
翻訳日:2023-11-23 18:51:05 公開日:2023-11-22
# USL-Net:unsupervised Skin Lesion Segmentationのための不確実なセルフラーニングネットワーク

USL-Net: Uncertainty Self-Learning Network for Unsupervised Skin Lesion Segmentation ( http://arxiv.org/abs/2309.13289v2 )

ライセンス: Link先を確認
Xiaofan Li, Bo Peng, Jie Hu, Changyou Ma, Daipeng Yang, Zhuyang Xie(参考訳) 監督されていない皮膚病変のセグメンテーションは、専門家の人的資源の保存、主観的なヒトのラベル付けによる相違の低減、新しい環境への適応など、いくつかの利点を提供する。 しかし,手作業によるラベリング指導を伴わないセグメンテーションデルモスコピック画像は,毛髪ノイズ,ブリスターノイズ,微妙なエッジ差などのデルモスコピック画像アーチファクトに対して大きな課題がある。 これらの課題に対処するために,皮膚病変のセグメント化を目的とした革新的な不確実性自己学習ネットワーク(usl-net)を提案する。 USL-Netは、手動ラベリングガイダンスの必要性をなくし、効果的に範囲の病変を区分することができる。 当初、特徴はコントラスト学習を用いて抽出され、続いてこれらの特徴を用いた唾液マップとしてクラスアクティベーションマップ(CAM)が生成される。 異なるCAM位置は、その唾液度に基づく病変領域の重要性に対応している。 地図内の高濃度領域は病変領域の擬似ラベルとして機能し、低濃度領域は背景を表す。 しかし、中間領域は、しばしば病変の縁に近づいたり、毛髪やブリスターからの干渉のために分類するのが困難である。 疑似ラベル誤りの危険性や、これらの領域を強制的に分類することで混乱を学習する代わりに、疑似ラベルを除外し、ネットワークを自己学習可能にする不確実な領域とみなす。 さらに,前景の擬似ラベルを洗練し,ノイズによる誤差を低減するために,接続検出と集中度検出を用いた。 サイクル精製の適用により、さらに性能が向上する。 提案手法はISIC-2017, ISIC-2018, PH2データセットに対して徹底的な検証を行い, その性能は弱教師付きおよび教師付き手法と同等であり, 既存の教師なし手法よりも優れていることを示した。

Unsupervised skin lesion segmentation offers several benefits, including conserving expert human resources, reducing discrepancies due to subjective human labeling, and adapting to novel environments. However, segmenting dermoscopic images without manual labeling guidance presents significant challenges due to dermoscopic image artifacts such as hair noise, blister noise, and subtle edge differences. To address these challenges, we introduce an innovative Uncertainty Self-Learning Network (USL-Net) designed for skin lesion segmentation. The USL-Net can effectively segment a range of lesions, eliminating the need for manual labeling guidance. Initially, features are extracted using contrastive learning, followed by the generation of Class Activation Maps (CAMs) as saliency maps using these features. The different CAM locations correspond to the importance of the lesion region based on their saliency. High-saliency regions in the map serve as pseudo-labels for lesion regions while low-saliency regions represent the background. However, intermediate regions can be hard to classify, often due to their proximity to lesion edges or interference from hair or blisters. Rather than risk potential pseudo-labeling errors or learning confusion by forcefully classifying these regions, we consider them as uncertainty regions, exempting them from pseudo-labeling and allowing the network to self-learn. Further, we employ connectivity detection and centrality detection to refine foreground pseudo-labels and reduce noise-induced errors. The application of cycle refining enhances performance further. Our method underwent thorough experimental validation on the ISIC-2017, ISIC-2018, and PH2 datasets, demonstrating that its performance is on par with weakly supervised and supervised methods, and exceeds that of other existing unsupervised methods.
翻訳日:2023-11-23 18:42:57 公開日:2023-11-22
# 月からの天文学:太陽系外惑星から可視光の宇宙科学へ

Astronomy from the Moon: From Exoplanets to Cosmology in Visible Light and Beyond ( http://arxiv.org/abs/2309.01421v2 )

ライセンス: Link先を確認
Jean Schneider, Pierre Kervella and Antoine Labeyrie(参考訳) 今後数十年間、月からの天文学はどのように見えるかを見てきた。 月は、大きな望遠鏡や干渉計を軌道望遠鏡よりも大きい機器で設置する可能性を提供する。 まず,地球から実現できない,野心的な科学事例の例を示す。 光量測定から高コントラスト、高角分解能イメージングまで、観測アプローチの概観を終え、第一段階として1メートル級前駆体を提案し、それを使って科学ができることを探究する。 我々は、地球-月系を用いて量子物理学理論をテストする提案を行う。

We look at what astronomy from the Moon might be like in the visible over the next few decades. The Moon offers the possibility of installing large telescopes or interferometers with instruments larger than those on orbiting telescopes. We first present examples of ambitious science cases, in particular ideas that cannot be implemented from Earth. After a general review of observational approaches, from photometry to high contrast and high angular resolution imaging, we propose as a first step a 1-metre-class precursor and explore what science can be done with it. We add a proposal to use the Earth-Moon system to test the Quantum Physics theory.
翻訳日:2023-11-23 18:41:55 公開日:2023-11-22
# pSTarC: 完全テスト時間適応のための擬似ソースガイドターゲットクラスタリング

pSTarC: Pseudo Source Guided Target Clustering for Fully Test-Time Adaptation ( http://arxiv.org/abs/2309.00846v2 )

ライセンス: Link先を確認
Manogna Sreenivas, Goirik Chakrabarty, Soma Biswas(参考訳) テスト時間適応(TTA)は機械学習において重要な概念であり、テストデータの分散がトレーニングと異なる実世界のシナリオでモデルがうまく機能することを可能にする。 本研究では,TTAの比較的未探索領域を実世界のドメインシフト下で扱う,擬似ソースガイド型ターゲットクラスタリング(pSTarC)を提案する。 この方法は、ターゲットクラスタリング技術からインスピレーションを得て、ソース分類器を利用して擬似ソースサンプルを生成する。 テストサンプルは、これらの擬似ソースサンプルと戦略的に整合し、クラスタリングを容易にし、TTA性能を向上させる。 pSTarCは完全なテスト時間適応プロトコル内でのみ動作し、実際のソースデータの必要性を取り除く。 VisDA、Office-Home、DomainNet-126、CIFAR-100Cなど、さまざまなドメインシフトデータセットに対する実験的検証は、pSTarCの有効性を検証する。 本手法は,効率的な計算条件とともに予測精度を大幅に向上させる。 さらに,pSTarCフレームワークの汎用性についても,連続的なTTAフレームワークの有効性を示す。 このメソッドのソースコードはhttps://manogna-s.github.io/pstarcで入手できる。

Test Time Adaptation (TTA) is a pivotal concept in machine learning, enabling models to perform well in real-world scenarios, where test data distribution differs from training. In this work, we propose a novel approach called pseudo Source guided Target Clustering (pSTarC) addressing the relatively unexplored area of TTA under real-world domain shifts. This method draws inspiration from target clustering techniques and exploits the source classifier for generating pseudo-source samples. The test samples are strategically aligned with these pseudo-source samples, facilitating their clustering and thereby enhancing TTA performance. pSTarC operates solely within the fully test-time adaptation protocol, removing the need for actual source data. Experimental validation on a variety of domain shift datasets, namely VisDA, Office-Home, DomainNet-126, CIFAR-100C verifies pSTarC's effectiveness. This method exhibits significant improvements in prediction accuracy along with efficient computational requirements. Furthermore, we also demonstrate the universality of the pSTarC framework by showing its effectiveness for the continuous TTA framework. The source code for our method is available at https://manogna-s.github.io/pstarc
翻訳日:2023-11-23 18:41:43 公開日:2023-11-22
# 離散スカラー場におけるカシミール力 I:1次元および2次元ケース

Casimir force in discrete scalar fields I: 1D and 2D cases ( http://arxiv.org/abs/2309.00624v2 )

ライセンス: Link先を確認
Eduardo Flores, Christian Ireland, Nabil Jamhour, Victor Lasasso, Nicholas Kurth, and Matthew Leinbach(参考訳) 無質量スカラー場に対する平行板間のカシミール力を計算する。 正規モードのエネルギーを加えるとき、離散時空格子を用いて無限大を避けるが、このアプローチは空間と時間の両方が離散的に保たれる限り非有効性が証明される。 しかし、スカラー場が空間周期格子を形成している間に時間が連続的に扱われると、我々の手法は成功し、このアプローチをハミルトン格子理論と呼ぶ。 正方格子と三角形格子の分散関係は微妙なカシミール効果を正確に再現し、カシミール力が使用される格子の種類とは独立であることを示す。 低周波では、両方の格子は高い回転対称性を示す。 しかし、高周波では、群速度がゼロに近づくにつれて高周波波の伝播が制限されるにもかかわらず、この対称性を失う。

We calculate the Casimir force between parallel plates for a massless scalar field. When adding the energy of normal modes, we avoid infinities by using a discrete spacetime lattice; however, this approach proves ineffective as long as both space and time are kept discrete. Yet, when time is treated as continuous while the scalar field forms a spatial periodic lattice, our method succeeds, and we refer to this approach as Hamiltonian lattice theory. The dispersion relation for both square and triangular lattices accurately reproduces the subtle Casimir effect, providing evidence that the Casimir force is independent of the type of lattice used. At low frequencies, both lattices exhibit a high level of rotational symmetry. However, at high frequencies, they lose this symmetry, even though the propagation of high-frequency waves becomes limited as their group velocity approaches zero.
翻訳日:2023-11-23 18:41:27 公開日:2023-11-22
# ライダー位置認識のためのポーズグラフ注意グラフニューラルネットワーク

Pose-Graph Attentional Graph Neural Network for Lidar Place Recognition ( http://arxiv.org/abs/2309.00168v2 )

ライセンス: Link先を確認
Milad Ramezani, Liang Wang, Joshua Knights, Zhibin Li, Pauline Pounds, Peyman Moghadam(参考訳) 本稿では,現在somaプレース認識法で実施されている一般的なフレーム間検索問題とは対照的に,逐次および非系列のサブグラフ間の(キー)ノードの比較を行う,ポーズグラフ注目グラフニューラルネットワークであるp-gatを提案する。 p-gatは、ポーズグラフスラムの概念を利用して、既存のエンコーダによって生成された隣り合うクラウドディスクリプタ間の最大空間的および時間的情報を利用する。 p-gatは、アテンション内およびグラフニューラルネットワークを利用して、ユークリッド空間の近傍で捕獲された点雲とその特徴空間への埋め込みを関連付ける。 大規模公開データセットにおける実験結果は,異なる特徴を欠いた場面や,トレーニング環境やテスト環境が異なる分布(ドメイン適応)を持つ場面において,我々のアプローチの有効性を示す。 さらに,最先端技術との比較により,性能向上が見られた。 コードはhttps://github.com/csiro-robotics/p-gatで入手できる。

This paper proposes a pose-graph attentional graph neural network, called P-GAT, which compares (key)nodes between sequential and non-sequential sub-graphs for place recognition tasks as opposed to a common frame-to-frame retrieval problem formulation currently implemented in SOTA place recognition methods. P-GAT uses the maximum spatial and temporal information between neighbour cloud descriptors -- generated by an existing encoder -- utilising the concept of pose-graph SLAM. Leveraging intra- and inter-attention and graph neural network, P-GAT relates point clouds captured in nearby locations in Euclidean space and their embeddings in feature space. Experimental results on the large-scale publically available datasets demonstrate the effectiveness of our approach in scenes lacking distinct features and when training and testing environments have different distributions (domain adaptation). Further, an exhaustive comparison with the state-of-the-art shows improvements in performance gains. Code is available at https://github.com/csiro-robotics/P-GAT.
翻訳日:2023-11-23 18:41:12 公開日:2023-11-22
# 分散学習におけるプライバシー保護とビザンチン・ロバストネスのトレードオフについて

On the Tradeoff between Privacy Preservation and Byzantine-Robustness in Decentralized Learning ( http://arxiv.org/abs/2308.14606v2 )

ライセンス: Link先を確認
Haoxiang Ye, Heng Zhu, and Qing Ling(参考訳) 本稿では,分散学習におけるプライバシー保護とビザンチン・ロバストネスについて考察する。 分散ネットワークでは、正直なエージェントは所定のアルゴリズムに忠実に従うが、学習プロセス中に受信したメッセージから隣人のプライベートデータを推測することを期待し、不正なエージェントは所定のアルゴリズムに従わず、故意に隣人に間違ったメッセージを分散して学習プロセスにバイアスを与える。 本稿では,プライバシ保護とビザンツの分散化確率勾配降下(SGD)フレームワークについて検討し,プライバシ保護のためにガウスノイズを注入し,ビザンツ攻撃に対するロバストなアグリゲーションルールを適用した。 我々は,その学習誤りとプライバシ保証を分析し,分散学習におけるプライバシー保護とビザンチン・ロバストネスとの間に本質的なトレードオフを見出した。 最先端のロバストアグリゲーションルールのクラスでは、「混合能力」の統一分析を行う。 この分析に基づいて,「混合能力」がプライバシー保護とビザンチン・ロバストネスのトレードオフにどのように影響するかを明らかにする。 理論的結果は、堅牢な集約ルールを適切に設計した良好なトレードオフを達成するためのガイドラインを提供する。 数値実験を行い,理論的な知見を裏付ける。

This paper jointly considers privacy preservation and Byzantine-robustness in decentralized learning. In a decentralized network, honest-but-curious agents faithfully follow the prescribed algorithm, but expect to infer their neighbors' private data from messages received during the learning process, while dishonest-and-Byzantine agents disobey the prescribed algorithm, and deliberately disseminate wrong messages to their neighbors so as to bias the learning process. For this novel setting, we investigate a generic privacy-preserving and Byzantine-robust decentralized stochastic gradient descent (SGD) framework, in which Gaussian noise is injected to preserve privacy and robust aggregation rules are adopted to counteract Byzantine attacks. We analyze its learning error and privacy guarantee, discovering an essential tradeoff between privacy preservation and Byzantine-robustness in decentralized learning -- the learning error caused by defending against Byzantine attacks is exacerbated by the Gaussian noise added to preserve privacy. For a class of state-of-the-art robust aggregation rules, we give unified analysis of the "mixing abilities". Building upon this analysis, we reveal how the "mixing abilities" affect the tradeoff between privacy preservation and Byzantine-robustness. The theoretical results provide guidelines for achieving a favorable tradeoff with proper design of robust aggregation rules. Numerical experiments are conducted and corroborate our theoretical findings.
翻訳日:2023-11-23 18:40:54 公開日:2023-11-22
# BLIVA: テキストリッチ視覚質問の処理を改善するためのシンプルなマルチモーダルLLM

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions ( http://arxiv.org/abs/2308.09936v2 )

ライセンス: Link先を確認
Wenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu(参考訳) 視覚言語モデル(VLM)は、視覚的理解機能を組み込んだ大規模言語モデル(LLM)を拡張し、オープンな視覚的質問応答(VQA)タスクに対処する上で大きな進歩を見せている。 しかし、これらのモデルはテキストに溶け込んだ画像を正確に解釈することはできない。 画像から情報を抽出する標準的な手順は、しばしば一定のクエリの埋め込みを学習する。 これらの埋め込みは画像コンテキストをカプセル化するために設計され、後にLSMのソフトプロンプト入力として使われる。 しかし、このプロセスはトークン数に限定されており、テキストに富んだコンテキストでシーンの認識を削減できる可能性がある。 そこで本研究では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。 BLIVAは、InstructBLIPからのクエリの埋め込みと、LLaVAにインスパイアされたLLMにエンコードされたパッチの埋め込みを直接プロジェクトする。 このアプローチはモデルがクエリデコーディングプロセス中に見逃される可能性のある複雑な詳細をキャプチャするのを支援する。 私たちのモデルであるBLIVAは、テキストリッチなVQAベンチマーク(OCR-VQAベンチマークでは最大17.76%)と一般的な(特にテキストリッチではない)VQAベンチマーク(Visual Space Reasoningベンチマークでは最大7.9%)を処理し、ベースラインであるInstructBLIPと比較して、パフォーマンスを大幅に向上することを示す。 BLIVAは、テキストの有無に関わらず、現実世界の画像をデコードする重要な能力を示す。 BLIVAによって実現された幅広い産業応用を実証するために、11の多様なカテゴリにまたがる質問応答セットと組み合わせたYouTubeサムネイルからなる新しいデータセットを用いて、モデルを評価した。 さらなる調査に関心のある研究者にとって、コードとモデルはhttps://github.com/mlpc-ucsd/BLIVAで自由にアクセスできます。

Vision Language Models (VLMs), which extend Large Language Models (LLM) by incorporating visual understanding capability, have demonstrated significant advancements in addressing open-ended visual question-answering (VQA) tasks. However, these models cannot accurately interpret images infused with text, a common occurrence in real-world scenarios. Standard procedures for extracting information from images often involve learning a fixed set of query embeddings. These embeddings are designed to encapsulate image contexts and are later used as soft prompt inputs in LLMs. Yet, this process is limited to the token count, potentially curtailing the recognition of scenes with text-rich context. To improve upon them, the present study introduces BLIVA: an augmented version of InstructBLIP with Visual Assistant. BLIVA incorporates the query embeddings from InstructBLIP and also directly projects encoded patch embeddings into the LLM, a technique inspired by LLaVA. This approach assists the model to capture intricate details potentially missed during the query decoding process. Empirical evidence demonstrates that our model, BLIVA, significantly enhances performance in processing text-rich VQA benchmarks (up to 17.76% in OCR-VQA benchmark) and in undertaking general (not particularly text-rich) VQA benchmarks (up to 7.9% in Visual Spatial Reasoning benchmark), comparing to our baseline InstructBLIP. BLIVA demonstrates significant capability in decoding real-world images, irrespective of text presence. To demonstrate the broad industry applications enabled by BLIVA, we evaluate the model using a new dataset comprising YouTube thumbnails paired with question-answer sets across 11 diverse categories. For researchers interested in further exploration, our code and models are freely accessible at https://github.com/mlpc-ucsd/BLIVA.
翻訳日:2023-11-23 18:40:30 公開日:2023-11-22
# 7.7km反共振ホローコアファイバによる通信時間結合型光子の分布

Distribution of Telecom Time-Bin Entangled Photons through a 7.7 km Antiresonant Hollow-Core Fiber ( http://arxiv.org/abs/2308.01337v2 )

ライセンス: Link先を確認
Michael Antesberger, Carla M. D. Richter, Francesco Poletti, Radan Slav\'ik, Periklis Petropoulos, Hannes H\"ubel, Alessandro Trenti, Philip Walther, and Lee A. Rozema(参考訳) 最先端の古典的および量子的通信は、遠くに光を伝えるために固体コアを持つ標準の光ファイバに依存している。 しかし、近年の進歩により、反共振型中空コア光ファイバ(AR-HCFs)が出現し、これは新しいファイバー幾何学により、固体コアファイバのような材料特性に制限されない、顕著な光誘導特性を示す。 本稿では,新しい7.7kmAR-HCFによる絡み合い光子の透過を探索し,長距離AR-HCFによる絡み合い分布の実証に成功した。 これらの新しいファイバーが長距離量子通信と互換性を持つことを示すことに加えて、時間ビンベースの量子鍵分配プロトコルにおけるセキュアな鍵レートを増大させることができるAR-HCFに固有の低レイテンシと低色分散を強調した。

State of the art classical and quantum communication rely on standard optical fibers with solid cores to transmit light over long distances. However, recent advances have led to the emergence of antiresonant hollow-core optical fibers (AR-HCFs), which due to the novel fiber geometry, show remarkable optical guiding properties, which are not as limited by the material properties as solid-core fibers. In this paper, we explore the transmission of entangled photons through a novel 7.7 km AR-HCF, presenting the first successful demonstration of entanglement distribution via long-distance AR-HCF. In addition to showing these novel fibers are compatible with long distance quantum communication, we highlight the low latency and low chromatic dispersion intrinsic to AR-HCF, which can increase the secure key rate in time-bin based quantum key distribution protocols.
翻訳日:2023-11-23 18:39:55 公開日:2023-11-22
# 状態判別による標準量子理論の導出

Derivation of Standard Quantum Theory via State Discrimination ( http://arxiv.org/abs/2307.11271v3 )

ライセンス: Link先を確認
Hayato Arai and Masahito Hayashi(参考訳) 一般的なモデルから標準量子論のモデルを操作条件で特徴付けることは重要な問題である。 GPT(General Probabilistic Theories)の枠組みは、標準量子論を単一化するための新しい情報理論のアプローチである。 従来の性質、例えばベル-CHSHの不等式は、GPTの可能なモデルの中で標準量子論を選別するのに十分ではないことが知られている。 より正確な特性として、一般的なモデルにおける状態識別と呼ばれる情報タスクのパフォーマンスの限界に焦点を当てる。 我々は、標準量子論の下で最小判別誤差確率を上回る等価条件を与え、これはトレースノルムによって与えられる。 さらに、等価条件を適用することで、状態判別のパフォーマンスのバウンダリによって、GPTの一般モデルから標準量子理論を特徴づける。

It is a key issue to characterize the model of standard quantum theory out of general models by an operational condition. The framework of General Probabilistic Theories (GPTs) is a new information theoretical approach to single out standard quantum theory. It is known that traditional properties, for example, Bell-CHSH inequality are not sufficient to single out standard quantum theory among possible models in GPTs. As a more precise property, we focus on the bound of the performance for an information task called state discrimination in general models. We give an equivalent condition for outperforming the minimum discrimination error probability under the standard quantum theory, which is given by the trace norm. Besides, by applying the equivalent condition, we characterize standard quantum theory out of general models in GPTs by the bound of the performance for state discrimination.
翻訳日:2023-11-23 18:38:40 公開日:2023-11-22
# 双対性を持つ1次元スピン模型における弱普遍性、量子多体傷、異常無限温度自己相関

Weak universality, quantum many-body scars and anomalous infinite-temperature autocorrelations in a one-dimensional spin model with duality ( http://arxiv.org/abs/2307.11161v3 )

ライセンス: Link先を確認
Adithi Udupa, Samudra Sur, Sourav Nandy, Arnab Sen, Diptiman Sen(参考訳) 3スピン相互作用を持つ1次元スピン$1/2$モデルと横磁場$h$の研究を行った。 このモデルは、z_2 \times z_2$ 対称性を持ち、h$と1/h$の双対性を持つ。 自己双対点の$h=1$は連続相転移を持つ量子臨界点である。 我々は、周期境界条件を持つシステムに対して、臨界指数であるz$、$\beta$、$\gamma$、$\nu$を計算し、中心電荷である$c$を厳密対角化(ed)を用いて数値的に計算する。 z$ と $c$ の両方が 1$ に等しいことは、臨界点が共形場理論によって支配されていることを暗示している。 ED の $\beta/\nu$, $\gamma/\nu$, $\nu$ の値は、4状態ポッツモデルと2つの非結合な逆場イジングモデルの間の中間の効果的な結合を持つアシュキン・テラー臨界度を示すことを示唆している。 しかし、密度行列再正規化群計算を用いた開境界を持つより大きい系の解析は、自己双対点が四状態ポッツモデルと同じ普遍性クラスであることを示している。 エネルギー準位間隔解析は、モデルが可積分でないことを示す。 周期境界条件を持つ系では、指数的に多くの正確な中スペクトルゼロエネルギー固有状態が存在する。 これらの固有状態のサブセットは、$h$ とは独立な波動関数を持ち、異常な絡み合い構造を持ち、量子多体傷であることを示唆している。 このような状態の数は、少なくともシステムサイズと線形にスケールする。 最後に,開システムの一端に近い無限温度自己相関関数について検討する。 自己相関者の何人かは異常に時間的にリラックスし、h \gg 1$ または $h \ll 1$ であれば、発音される振動と非常に小さな減衰率を持つ。 h$ が臨界点に近い場合、オートコレレータは終点のオートコレレータを除いて急速に 0 に崩壊する。

We study a one-dimensional spin-$1/2$ model with three-spin interactions and a transverse magnetic field $h$. The model has a $Z_2 \times Z_2$ symmetry, and a duality between $h$ and $1/h$. The self-dual point at $h=1$ is a quantum critical point with a continuous phase transition. We compute the critical exponents $z$, $\beta$, $\gamma$ and $\nu$, and the central charge $c$ numerically using exact diagonalization (ED) for systems with periodic boundary conditions. We find that both $z$ and $c$ are equal to $1$, implying that the critical point is governed by a conformal field theory. The values obtained for $\beta/\nu$, $\gamma/\nu$, and $\nu$ from ED suggest that the model exhibits Ashkin-Teller criticality with an effective coupling that is intermediate between the four-state Potts model and two decoupled transverse field Ising models. An analysis on larger systems but with open boundaries using density-matrix renormalization group calculations, however, shows that the self-dual point may be in the same universality class as the four-state Potts model. An energy level spacing analysis shows that the model is not integrable. For a system with periodic boundary conditions, there are an exponentially large number of exact mid-spectrum zero-energy eigenstates. A subset of these eigenstates have wave functions which are independent of $h$ and have unusual entanglement structure, suggesting that they are quantum many-body scars. The number of such states scales at least linearly with system size. Finally, we study the infinite-temperature autocorrelation functions close to one end of an open system. We find that some of the autocorrelators relax anomalously in time, with pronounced oscillations and very small decay rates if $h \gg 1$ or $h \ll 1$. If $h$ is close to the critical point, the autocorrelators decay quickly to zero except for an autocorrelator at the end site.
翻訳日:2023-11-23 18:38:29 公開日:2023-11-22
# 大規模異種情報ネットワークにおけるプログレッシブサンプリングによる長距離メタパス探索

Long-range Meta-path Search through Progressive Sampling on Large-scale Heterogeneous Information Networks ( http://arxiv.org/abs/2307.08430v3 )

ライセンス: Link先を確認
Chao Li, Zijie Guo, Qiuting He, Hao Xu and Kun He(参考訳) 長距離依存の活用は、均質グラフで広く研究されているが、高コストと効果的な情報の利用の難しさが主な課題である大規模異種情報ネットワーク(hins)では、ほとんど研究されていない。 そこで本研究では,異なるメタパスの重要性を考察し,Long-range Meta-path Search through Progressive Smpling (LMSPS) と呼ばれる,HINの長距離依存性を利用するためのフレームワークを提案する。 具体的には,様々なデータセットやタスクのメタパスを事前に発見するために,すべてのターゲットノード関連メタパスを用いた検索空間を開発する。 プログレッシブサンプリングアルゴリズムにより、ホップ非依存の時間複雑さで探索空間を動的に縮小し、現在のHINとタスクによって駆動されるコンパクトな探索空間を得る。 サンプリング評価戦略をガイダンスとして用い,特定かつ表現力のあるメタパス選択を行う。 8つの異種データセットに対する大規模な実験により、LMSPSは効果的な長距離メタパスを発見し、最先端のモデルより優れていることが示された。 さらに、Open Graph Benchmarkでogbn-magのリーダーボードのトップ1にランクインしている。

Utilizing long-range dependency, though extensively studied in homogeneous graphs, is rarely studied in large-scale heterogeneous information networks (HINs), whose main challenge is the high costs and the difficulty in utilizing effective information. To this end, we investigate the importance of different meta-paths and propose an automatic framework for utilizing long-range dependency in HINs, called Long-range Meta-path Search through Progressive Sampling (LMSPS). Specifically, to discover meta-paths for various datasets or tasks without prior, we develop a search space with all target-node-related meta-paths. With a progressive sampling algorithm, we dynamically shrink the search space with hop-independent time complexity, leading to a compact search space driven by the current HIN and task. Utilizing a sampling evaluation strategy as the guidance, we conduct a specialized and expressive meta-path selection. Extensive experiments on eight heterogeneous datasets demonstrate that LMSPS discovers effective long-range meta-paths and outperforms state-of-the-art models. Besides, it ranks top-1 on the leaderboards of ogbn-mag in Open Graph Benchmark.
翻訳日:2023-11-23 18:37:51 公開日:2023-11-22
# 人間の嗜好から学ぶための一般的な理論パラダイム

A General Theoretical Paradigm to Understand Learning from Human Preferences ( http://arxiv.org/abs/2310.12036v2 )

ライセンス: Link先を確認
Mohammad Gheshlaghi Azar and Mark Rowland and Bilal Piot and Daniel Guo and Daniele Calandriello and Michal Valko and R\'emi Munos(参考訳) 強化学習(rlhf)による人間の選好からの学習の一般的な展開は、2つの重要な近似に依存する。 2つ目は、これらのポイントワイズ報酬に基づいて訓練された報酬モデルは、収集されたデータからポリシーによってサンプリングされた分配外データへと一般化することができると仮定する。 近年,2次近似を回避し,報酬モデリングの段階を伴わずに収集データから直接ポリシーを学習するアプローチとして,直接選好最適化(DPO)が提案されている。 しかし、この方法は最初の近似に大きく依存している。 本稿では,これらの実用的なアルゴリズムの理論的理解を深める。 特に、ペアの選好で表される人間の選好から学習するために、$\Psi$POと呼ばれる新しい汎用的目的を導き、したがって両方の近似をバイパスする。 この新たな汎用目的により、RLHF と DPO の挙動を詳細に解析し($\Psi$PO の特別な場合)、潜在的な落とし穴を特定することができる。 次に、$\psi$po の別の特別なケースを検討し、効率的な最適化手順を導出し、パフォーマンス保証を証明し、いくつかの例で dpo に実証的な優位性を示す。

The prevalent deployment of learning from human preferences through reinforcement learning (RLHF) relies on two important approximations: the first assumes that pairwise preferences can be substituted with pointwise rewards. The second assumes that a reward model trained on these pointwise rewards can generalize from collected data to out-of-distribution data sampled by the policy. Recently, Direct Preference Optimisation (DPO) has been proposed as an approach that bypasses the second approximation and learn directly a policy from collected data without the reward modelling stage. However, this method still heavily relies on the first approximation. In this paper we try to gain a deeper theoretical understanding of these practical algorithms. In particular we derive a new general objective called $\Psi$PO for learning from human preferences that is expressed in terms of pairwise preferences and therefore bypasses both approximations. This new general objective allows us to perform an in-depth analysis of the behavior of RLHF and DPO (as special cases of $\Psi$PO) and to identify their potential pitfalls. We then consider another special case for $\Psi$PO by setting $\Psi$ simply to Identity, for which we can derive an efficient optimisation procedure, prove performance guarantees and demonstrate its empirical superiority to DPO on some illustrative examples.
翻訳日:2023-11-23 18:30:32 公開日:2023-11-22
# LLM生成反事実を用いたブラックボックスNLPモデルの忠実説明

Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals ( http://arxiv.org/abs/2310.00603v2 )

ライセンス: Link先を確認
Yair Gat, Nitay Calderon, Amir Feder, Alexander Chapanin, Amit Sharma, Roi Reichart(参考訳) NLPシステムの予測に関する因果的説明は、安全性を確保し信頼を確立するために不可欠である。 しかし、既存の手法はモデル予測を効果的または効率的に説明できないことが多く、しばしばモデル固有である。 本稿では,モデル非依存な説明に対処し,反事実的(cf)近似の2つのアプローチを提案する。 最初のアプローチはCF生成であり、大きな言語モデル(LLM)は、相反する概念を維持しつつ、特定のテキスト概念を変更するよう促される。 このアプローチは非常に効果的であることが示されているが、推論時にLSMを適用するのはコストがかかる。 そこで我々は,マッチングに基づく第2のアプローチを提案し,LLMが学習時に指導し,専用の埋め込み空間を学習する手法を提案する。 この空間は与えられた因果グラフに忠実であり、CFを近似するマッチを効果的に識別するのに役立つ。 忠実な説明を構築するためにはCFの近似が必要であることを理論的に証明した後、我々のアプローチをベンチマークし、数十億のパラメータを持つLLMを含むいくつかのモデルを説明する。 実験の結果,cf生成モデルのモデル非依存な説明器としての優れた性能を示す。 さらに、テスト時間リソースをはるかに少なくするマッチングアプローチは、多くのベースラインを超える効果的な説明を提供する。 また,Top-K手法は全試験手法を普遍的に改善することがわかった。 最後に,モデル説明のための新しいベンチマークの構築におけるllmの可能性を示し,その結果を検証した。 我々の研究は、NLPシステムに対する効率的かつ正確なアプローチのために新しい経路を照らす。

Causal explanations of the predictions of NLP systems are essential to ensure safety and establish trust. Yet, existing methods often fall short of explaining model predictions effectively or efficiently and are often model-specific. In this paper, we address model-agnostic explanations, proposing two approaches for counterfactual (CF) approximation. The first approach is CF generation, where a large language model (LLM) is prompted to change a specific text concept while keeping confounding concepts unchanged. While this approach is demonstrated to be very effective, applying LLM at inference-time is costly. We hence present a second approach based on matching, and propose a method that is guided by an LLM at training-time and learns a dedicated embedding space. This space is faithful to a given causal graph and effectively serves to identify matches that approximate CFs. After showing theoretically that approximating CFs is required in order to construct faithful explanations, we benchmark our approaches and explain several models, including LLMs with billions of parameters. Our empirical results demonstrate the excellent performance of CF generation models as model-agnostic explainers. Moreover, our matching approach, which requires far less test-time resources, also provides effective explanations, surpassing many baselines. We also find that Top-K techniques universally improve every tested method. Finally, we showcase the potential of LLMs in constructing new benchmarks for model explanation and subsequently validate our conclusions. Our work illuminates new pathways for efficient and accurate approaches to interpreting NLP systems.
翻訳日:2023-11-23 18:29:12 公開日:2023-11-22
# 学習可能な間隔による拡張畳み込みによる音声分類

Audio classification with Dilated Convolution with Learnable Spacings ( http://arxiv.org/abs/2309.13972v2 )

ライセンス: Link先を確認
Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier and Thomas Pellegrini(参考訳) 学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。 その関心は最近コンピュータビジョン(イメージネット分類と下流タスク)で実証されている。 本稿では,dcl が audioset classification benchmark を用いた音声タグ付けにも有効であることを示す。 我々は,Deepwise Separable Convolutions (DSC), ConvNeXt, ConvFormerの2つの最先端の畳み込みアーキテクチャと,FastViTとDrop-inを併用したハイブリッドアーキテクチャをDCLSで置き換えた。 これにより、3つのアーキテクチャで平均平均精度(mAP)が大幅に向上し、パラメータの数が増加せず、スループットのコストも低くなった。 メソッドコードはPyTorchをベースにしており、https://github.com/K-H-Ismail/DCLS-Audioで利用可能である。

Dilated convolution with learnable spacings (DCLS) is a recent convolution method in which the positions of the kernel elements are learned throughout training by backpropagation. Its interest has recently been demonstrated in computer vision (ImageNet classification and downstream tasks). Here we show that DCLS is also useful for audio tagging using the AudioSet classification benchmark. We took two state-of-the-art convolutional architectures using depthwise separable convolutions (DSC), ConvNeXt and ConvFormer, and a hybrid one using attention in addition, FastViT, and drop-in replaced all the DSC layers by DCLS ones. This significantly improved the mean average precision (mAP) with the three architectures without increasing the number of parameters and with only a low cost on the throughput. The method code is based on PyTorch and is available at https://github.com/K-H-Ismail/DCLS-Audio
翻訳日:2023-11-23 18:28:23 公開日:2023-11-22
# 順序保存シーケンスモデリングのための変分コネクショナリスト時間分類

Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling ( http://arxiv.org/abs/2309.11983v2 )

ライセンス: Link先を確認
Zheng Nan, Ting Dang, Vidhyasaharan Sethu, Beena Ahmed(参考訳) コネクショニスト時間分類(ctc)は、入力と対象のシーケンス間の順序を保存する必要がある音声認識のようなシーケンスモデリングタスクに一般的に採用されている。 しかし、ctcは、潜在空間が不連続でスパースである決定論的シーケンスモデルにのみ適用されるため、変分モデルと比較してデータの可変性を扱えない。 本稿では,CTCを変分モデルと統合し,秩序を保ったより一般化可能なシーケンスモデルのトレーニングに使用できる損失関数を導出する。 具体的には、2つの合理的な仮定に基づいて、新しい変分ctcの2つのバージョンを導出する。1つは各時間ステップにおける変分潜時変数が条件付き独立であること、もう1つはこれらの潜時変数がマルコフ型であることである。 両損失関数は、モデル対数様の変分下界の直接最適化を可能にし、それらを実装するための計算処理可能な形式を示す。

Connectionist temporal classification (CTC) is commonly adopted for sequence modeling tasks like speech recognition, where it is necessary to preserve order between the input and target sequences. However, CTC is only applied to deterministic sequence models, where the latent space is discontinuous and sparse, which in turn makes them less capable of handling data variability when compared to variational models. In this paper, we integrate CTC with a variational model and derive loss functions that can be used to train more generalizable sequence models that preserve order. Specifically, we derive two versions of the novel variational CTC based on two reasonable assumptions, the first being that the variational latent variables at each time step are conditionally independent; and the second being that these latent variables are Markovian. We show that both loss functions allow direct optimization of the variational lower bound for the model log-likelihood, and present computationally tractable forms for implementing them.
翻訳日:2023-11-23 18:28:04 公開日:2023-11-22
# 3次元潜在拡散モデルを用いた顔表現の教師なしディアンタングリング

Unsupervised Disentangling of Facial Representations with 3D-aware Latent Diffusion Models ( http://arxiv.org/abs/2309.08273v2 )

ライセンス: Link先を確認
Ruian He, Zhen Xing, Weimin Tan, Bo Yan(参考訳) 顔表現の教師なし学習は、大規模な注釈付きデータセットに大きく依存することなく、顔理解能力の注目を集めている。 しかし、顔の同一性、表情、ポーズや光といった外部要因の結合により未解決のままである。 従来の手法は主に2D因子とピクセルレベルの一貫性に重点を置いており、下流タスクでは不完全なアンタングリングと準最適性能をもたらす。 本稿では,顔表現と識別表現のための非教師付き非教師付きアンタングリングフレームワークであるLatentFaceを提案する。 そこで本研究では,3D対応潜伏拡散モデルを用いた解法を提案する。 まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。 第2に,顔の識別と表情に3D潜伏する新しい表現拡散モデル(RDM)を提案する。 その結果,教師なし顔表情学習モデルにおける表情認識と顔認証の最先端性能が得られた。 コードは \url{https://github.com/ryanhe312/latentface} で入手できる。

Unsupervised learning of facial representations has gained increasing attention for face understanding ability without heavily relying on large-scale annotated datasets. However, it remains unsolved due to the coupling of facial identities, expressions, and external factors like pose and light. Prior methods primarily focus on 2D factors and pixel-level consistency, leading to incomplete disentangling and suboptimal performance in downstream tasks. In this paper, we propose LatentFace, a novel unsupervised disentangling framework for facial expression and identity representation. We suggest the disentangling problem should be performed in latent space and propose the solution using a 3D-aware latent diffusion model. First, we introduce a 3D-aware autoencoder to encode face images into 3D latent embeddings. Second, we propose a novel representation diffusion model (RDM) to disentangle 3D latent into facial identity and expression. Consequently, our method achieves state-of-the-art performance in facial expression recognition and face verification among unsupervised facial representation learning models. Codes are available at \url{https://github.com/ryanhe312/LatentFace}.
翻訳日:2023-11-23 18:27:27 公開日:2023-11-22
# 単純で高次なネットワークの質量

The mass of simple and higher-order networks ( http://arxiv.org/abs/2309.07851v3 )

ライセンス: Link先を確認
Ginestra Bianconi(参考訳) 本稿では,単純かつ高次ネットワークの質量がトポロジーや幾何学からどのように出現するかを説明する理論的枠組みを提案する。 離散位相ディラック作用素を用いて、ナムブ・ジョナ・ラシニオモデルに触発された無質量自己相互作用位相ディラック場に対する作用を定義する。 ネットワークの質量は、ネットワーク上で定義されたこの位相ディラック場の質量を厳密に話している;それはモデルのカイラル対称性の破れの結果であり、自己整合ギャップ方程式を満たす。 興味深いことに、ネットワークの質量はそのスペクトル特性、トポロジー、幾何学に依存することが示されている。 離散位相ディラック作用素の調和モードで観測される物質-反物質対称性の破れにより、ネットワーク質量の2つの可能な定義が与えられる。 両方の可能な定義について、ネットワークの質量は、ベア質量の値にエンコードされる2つの定義の差を持つギャップ方程式から得られる。 実際、素質量はベッチ数$\beta_0$またはネットワークのベッチ数$\beta_1$で決定できる。 ランダムグラフ,スケールフリー,実重み付き協調ネットワークなど,異なるネットワークの質量に関する数値的な結果を提供する。 また、これらの結果を高階ネットワークに一般化し、単純複素数の質量を定義する。 ネットワークのトポロジーと幾何による位相的ディラック場の質量の観測された依存は、ディラック場が基盤となるネットワーク構造の動的進化と結合するシナリオにおいて興味深い物理学をもたらす可能性がある。

We propose a theoretical framework that explains how the mass of simple and higher-order networks emerges from their topology and geometry. We use the discrete topological Dirac operator to define an action for a massless self-interacting topological Dirac field inspired by the Nambu-Jona Lasinio model. The mass of the network is strictly speaking the mass of this topological Dirac field defined on the network; it results from the chiral symmetry breaking of the model and satisfies a self-consistent gap equation. Interestingly, it is shown that the mass of a network depends on its spectral properties, topology, and geometry. Due to the breaking of the matter-antimatter symmetry observed for the harmonic modes of the discrete topological Dirac operator, two possible definitions of the network mass can be given. For both possible definitions, the mass of the network comes from a gap equation with the difference among the two definitions encoded in the value of the bare mass. Indeed, the bare mass can be determined either by the Betti number $\beta_0$ or by the Betti number $\beta_1$ of the network. We provide numerical results on the mass of different networks, including random graphs, scale-free, and real weighted collaboration networks. We also discuss the generalization of these results to higher-order networks, defining the mass of simplicial complexes. The observed dependence of the mass of the considered topological Dirac field with the topology and geometry of the network could lead to interesting physics in the scenario in which the considered Dirac field is coupled with a dynamical evolution of the underlying network structure.
翻訳日:2023-11-23 18:27:13 公開日:2023-11-22
# 階層型強化学習における目標空間の抽象化

Goal Space Abstraction in Hierarchical Reinforcement Learning via Set-Based Reachability Analysis ( http://arxiv.org/abs/2309.07675v2 )

ライセンス: Link先を確認
Mehdi Zadem and Sergio Mover and Sao Mai Nguyen(参考訳) オープンディビジョン学習は、効率的で転送可能な学習のために知識を構造化する方法を提供するため、目標表現にシンボリックな方法を使用することで大きなメリットがあります。 しかしながら、既存の階層強化学習(HRL)アプローチは、しばしば手動の目標表現を必要とするため、象徴的推論に依存している。 象徴的な目標表現を自律的に発見する上での課題は、環境力学のような重要な情報を保存する必要があることである。 本稿では,課題に類似した役割を持つ環境状態の集合を抽象化する創発的表現を用いて,目標発見のための発達メカニズムを提案する。 目的表現と階層ポリシーの両方を同時に学習するFeudal HRLアルゴリズムを導入する。 このアルゴリズムは、ニューラルネットワークのシンボリックリーチビリティ解析を用いて、状態の集合間の遷移関係を近似し、目標表現を洗練させる。 複雑なナビゲーションタスクに対する我々のアプローチを評価し、学習された表現が解釈可能で、転送可能で、データ効率のよい学習結果を示す。

Open-ended learning benefits immensely from the use of symbolic methods for goal representation as they offer ways to structure knowledge for efficient and transferable learning. However, the existing Hierarchical Reinforcement Learning (HRL) approaches relying on symbolic reasoning are often limited as they require a manual goal representation. The challenge in autonomously discovering a symbolic goal representation is that it must preserve critical information, such as the environment dynamics. In this paper, we propose a developmental mechanism for goal discovery via an emergent representation that abstracts (i.e., groups together) sets of environment states that have similar roles in the task. We introduce a Feudal HRL algorithm that concurrently learns both the goal representation and a hierarchical policy. The algorithm uses symbolic reachability analysis for neural networks to approximate the transition relation among sets of states and to refine the goal representation. We evaluate our approach on complex navigation tasks, showing the learned representation is interpretable, transferrable and results in data efficient learning.
翻訳日:2023-11-23 18:26:43 公開日:2023-11-22
# 自己監督型単眼深度推定におけるより良いデータ爆発に向けて

Towards Better Data Exploitation in Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2309.05254v2 )

ライセンス: Link先を確認
Jinfeng Liu, Lingtong Kong, Jie Yang, Wei Liu(参考訳) 深度推定はロボット知覚システムにおいて重要な役割を果たす。 自己教師付き単眼パラダイムは、深層アノテーションへの依存からトレーニングを解放できるため、大きな注目を集めている。 近年の進歩にもかかわらず、既存の自己監督手法は利用可能なトレーニングデータを過小に活用し、その一般化能力を制限する。 本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。 具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。 さらに,ディテール強化DepthNetにエンコーダのフルスケールブランチとグリッドデコーダを導入し,ディフュージョンマップにおけるディテールの復元を強化した。 実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。 さらに,make3dおよびnyuv2データセットへの転送時の一般化性能も向上した。 私たちのコードはhttps://github.com/sauf4896/bdedepthで利用可能です。

Depth estimation plays an important role in the robotic perception system. Self-supervised monocular paradigm has gained significant attention since it can free training from the reliance on depth annotations. Despite recent advancements, existing self-supervised methods still underutilize the available training data, limiting their generalization ability. In this paper, we take two data augmentation techniques, namely Resizing-Cropping and Splitting-Permuting, to fully exploit the potential of training datasets. Specifically, the original image and the generated two augmented images are fed into the training pipeline simultaneously and we leverage them to conduct self-distillation. Additionally, we introduce the detail-enhanced DepthNet with an extra full-scale branch in the encoder and a grid decoder to enhance the restoration of fine details in depth maps. Experimental results demonstrate our method can achieve state-of-the-art performance on the KITTI benchmark, with both raw ground truth and improved ground truth. Moreover, our models also show superior generalization performance when transferring to Make3D and NYUv2 datasets. Our codes are available at https://github.com/Sauf4896/BDEdepth.
翻訳日:2023-11-23 18:26:25 公開日:2023-11-22
# 脳波信号を視覚刺激にマッピングする:マッチング対ミスマッチ分類のためのディープラーニングアプローチ

Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match vs. Mismatch Classification ( http://arxiv.org/abs/2309.04153v2 )

ライセンス: Link先を確認
Yiqian Yang, Zhengqiao Zhao, Qian Wang, Yan Yang, Jingdong Chen(参考訳) 視覚刺激と脳の反応のモデリングに関する既存のアプローチは、サブジェクト分散とモデル一般化の間の処理の困難に直面している。 本稿では,映像クリップが脳波信号の興奮応答を誘導するかどうかを分類し,視覚内容と対応する神経記録との関係を学習する「マッチ-vs-mismatch」深層学習モデルを提案する。 実験データセットを用いて,提案モデルは他のベースラインモデルと比較して,未発見の被験者に対して高い精度を達成可能であることを実証する。 さらに,埋め込み空間におけるサブジェクトレベルのシルエットスコアを用いて,サブジェクト間ノイズを解析し,本モデルがサブジェクト間ノイズを緩和し,シルエットスコアを著しく低減できることを示す。 さらに,Grad-CAMアクティベーションスコアについて検討し,言語処理に関連する脳領域がモデル予測に大きく寄与し,視覚処理に関連する領域が続くことを示した。 これらの結果は、ニューラル記録に基づくビデオ再構成とその関連アプリケーションの開発を促進する可能性がある。

Existing approaches to modeling associations between visual stimuli and brain responses are facing difficulties in handling between-subject variance and model generalization. Inspired by the recent progress in modeling speech-brain response, we propose in this work a "match-vs-mismatch" deep learning model to classify whether a video clip induces excitatory responses in recorded EEG signals and learn associations between the visual content and corresponding neural recordings. Using an exclusive experimental dataset, we demonstrate that the proposed model is able to achieve the highest accuracy on unseen subjects as compared to other baseline models. Furthermore, we analyze the inter-subject noise using a subject-level silhouette score in the embedding space and show that the developed model is able to mitigate inter-subject noise and significantly reduce the silhouette score. Moreover, we examine the Grad-CAM activation score and show that the brain regions associated with language processing contribute most to the model predictions, followed by regions associated with visual processing. These results have the potential to facilitate the development of neural recording-based video reconstruction and its related applications.
翻訳日:2023-11-23 18:26:05 公開日:2023-11-22
# BEVTrack:鳥から見た3Dオブジェクト追跡のためのシンプルで強力なベースライン

BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View ( http://arxiv.org/abs/2309.02185v4 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Jing Zhang, Jiahao Nie, Zheng-Jun Zha(参考訳) 3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。 外観の変化、散逸、点雲の広さにより、ターゲットを周囲から特定することは依然として困難である。 連続するフレーム間の空間的隣接を示す空間情報は、効果的な物体追跡に不可欠である。 しかし、既存のトラッカーは、通常不規則なフォーマットでポイントワイズ表現を用いるため、この重要な空間知識を十分に活用できない。 結果として、これらのトラッカーは通常、精巧な設計と複数のサブタスクの解決を必要とする。 本稿では,バードアイビュー(Bird's-Eye View, BEV)におけるトラッキングを行うシンプルなベースラインであるBEVTrackを提案する。 この表現は、その順序づけられた構造から空間情報を大いに保持し、本質的にターゲットの暗黙の運動関係と気晴らしを符号化する。 多様な属性を持つ対象に対する正確な回帰(例えば、サイズと動きパターン)を達成するため、BEVTrackは、以前の研究のように固定されたラプラスやガウス的な仮定ではなく、学習した基礎分布を異なる目標に適合させる可能性関数を構築する。 これにより、トラッキングの貴重な優先事項が提供され、パフォーマンスがさらに向上する。 単純な畳み込みアーキテクチャで単一の回帰損失のみを使用する一方で、BEVTrackは3つの大規模データセット(KITTI、NuScenes、Waymo Open Dataset)で最先端のパフォーマンスを実現し、推論速度は約200FPSを維持している。 コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。

3D Single Object Tracking (SOT) is a fundamental task of computer vision, proving essential for applications like autonomous driving. It remains challenging to localize the target from surroundings due to appearance variations, distractors, and the high sparsity of point clouds. The spatial information indicating objects' spatial adjacency across consecutive frames is crucial for effective object tracking. However, existing trackers typically employ point-wise representation with irregular formats, leading to insufficient use of this important spatial knowledge. As a result, these trackers usually require elaborate designs and solving multiple subtasks. In this paper, we propose BEVTrack, a simple yet effective baseline that performs tracking in Bird's-Eye View (BEV). This representation greatly retains spatial information owing to its ordered structure and inherently encodes the implicit motion relations of the target as well as distractors. To achieve accurate regression for targets with diverse attributes (\textit{e.g.}, sizes and motion patterns), BEVTrack constructs the likelihood function with the learned underlying distributions adapted to different targets, rather than making a fixed Laplace or Gaussian assumption as in previous works. This provides valuable priors for tracking and thus further boosts performance. While only using a single regression loss with a plain convolutional architecture, BEVTrack achieves state-of-the-art performance on three large-scale datasets, KITTI, NuScenes, and Waymo Open Dataset while maintaining a high inference speed of about 200 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
翻訳日:2023-11-23 18:25:45 公開日:2023-11-22
# 画像強調のためのCLIPガイド画像知覚プロンプト学習

CLIP Guided Image-perceptive Prompt Learning for Image Enhancement ( http://arxiv.org/abs/2311.03943v2 )

ライセンス: Link先を確認
Weiwen Chen, Qiuhong Ke, Zinuo Li(参考訳) 画像強調はコンピュータビジョンと画像処理の分野で重要な研究領域である。 近年,ルックアップテーブル(lut)が有効なツールであることが証明され,画像強調のための学習ベースの手法が数多く開発されている。 本稿では,CLIP(Contrastive Language- Image Pre-Training)ガイドプロンプト学習の可能性を探り,画像強調のためのCLIP-LUTという単純な構造を提案する。 CLIPの事前知識は、劣化した画像の品質を効果的に識別し、信頼性の高いガイダンスを提供する。 具体的には、まずCLIPモデルを用いて、オリジナル画像とターゲット画像を区別するイメージ知覚プロンプトを学習する一方、単純なベースラインを組み込んで、3種類のLUTの重みを拡張ネットワークとして予測することで、非常に単純なネットワークを導入する。 得られたプロンプトを用いて、損失関数のようなエンハンスメントネットワークを操り、モデルの性能を向上させる。 簡単な方法とCLIPを組み合わせることで,満足な結果が得られることを示す。

Image enhancement is a significant research area in the fields of computer vision and image processing. In recent years, many learning-based methods for image enhancement have been developed, where the Look-up-table (LUT) has proven to be an effective tool. In this paper, we delve into the potential of Contrastive Language-Image Pre-Training (CLIP) Guided Prompt Learning, proposing a simple structure called CLIP-LUT for image enhancement. We found that the prior knowledge of CLIP can effectively discern the quality of degraded images, which can provide reliable guidance. To be specific, We initially learn image-perceptive prompts to distinguish between original and target images using CLIP model, in the meanwhile, we introduce a very simple network by incorporating a simple baseline to predict the weights of three different LUT as enhancement network. The obtained prompts are used to steer the enhancement network like a loss function and improve the performance of model. We demonstrate that by simply combining a straightforward method with CLIP, we can obtain satisfactory results.
翻訳日:2023-11-23 18:16:43 公開日:2023-11-22
# トレーニングデータ帰属説明の実践者視点を探る

Exploring Practitioner Perspectives On Training Data Attribution Explanations ( http://arxiv.org/abs/2310.20477v2 )

ライセンス: Link先を確認
Elisa Nguyen, Evgenii Kortukov, Jean Y. Song, Seong Joon Oh(参考訳) 説明可能なAI(XAI)は、人間が推論する不透明なモデルについての洞察を提供することを目的としている。 本稿では,10名の実践者に対して,トレーニングデータ属性(TDA)の説明の有用性を理解し,そのようなアプローチの設計空間を探るためインタビューを行った。 私たちは、データ品質のトレーニングが、多くの場合、ハイモデルパフォーマンスにとって最も重要な要素であることを確認しました。 エンドユーザは、モデルとのインタラクションを強化するために説明を期待しており、必ずしも優先順位を付ける必要はないが、説明手段としてトレーニングデータに開放されている。 参加者の中では,TDAの説明はよく知られておらず,使用されていないことが判明した。 我々は,人間と機械のコラボレーションの観点から,TDA技術の有用性に着目し,TDA評価を拡張し,実践上の一般的なユースケースを反映するようコミュニティに促す。

Explainable AI (XAI) aims to provide insight into opaque model reasoning to humans and as such is an interdisciplinary field by nature. In this paper, we interviewed 10 practitioners to understand the possible usability of training data attribution (TDA) explanations and to explore the design space of such an approach. We confirmed that training data quality is often the most important factor for high model performance in practice and model developers mainly rely on their own experience to curate data. End-users expect explanations to enhance their interaction with the model and do not necessarily prioritise but are open to training data as a means of explanation. Within our participants, we found that TDA explanations are not well-known and therefore not used. We urge the community to focus on the utility of TDA techniques from the human-machine collaboration perspective and broaden the TDA evaluation to reflect common use cases in practice.
翻訳日:2023-11-23 18:16:24 公開日:2023-11-22
# 事前学習型言語モデルをニューラルネットワーク翻訳に統合する

Integrating Pre-trained Language Model into Neural Machine Translation ( http://arxiv.org/abs/2310.19680v3 )

ライセンス: Link先を確認
Soon-Jae Hwang, Chang-Sung Jeong(参考訳) ニューラルネットワーク翻訳(NMT)は、広範囲の研究・開発を通じて自然言語処理において重要な技術となっている。 しかし、高品質なバイリンガル言語ペアデータの不足は、NMTの性能向上に依然として大きな課題をもたらしている。 近年,この問題を解決するために,事前学習言語モデル(PLM)の文脈情報の利用が検討されている。 しかし, PLM モデルと NMT モデルの不整合性の問題は未解決のままである。 本研究では PLM 統合 NMT (PiNMT) モデルを提案する。 PiNMTモデルは、PLM Multi Layer Converter、Embedding Fusion、Cosine Alignmentの3つの重要なコンポーネントで構成され、それぞれがNMTに効果的なPLM情報を提供する上で重要な役割を果たす。 さらに,本論文では,個別学習率と2段階学習という2つのトレーニング戦略についても紹介する。 提案したPiNMTモデルとトレーニング戦略を実装することで,IWSLT'14 En$\leftrightarrow$Deデータセット上で最先端のパフォーマンスを実現する。 本研究の結果は,非互換性を克服し,性能を向上させるため,PLMとNMTを効率的に統合する新たなアプローチを示すものである。

Neural Machine Translation (NMT) has become a significant technology in natural language processing through extensive research and development. However, the deficiency of high-quality bilingual language pair data still poses a major challenge to improving NMT performance. Recent studies have been exploring the use of contextual information from pre-trained language model (PLM) to address this problem. Yet, the issue of incompatibility between PLM and NMT model remains unresolved. This study proposes PLM-integrated NMT (PiNMT) model to overcome the identified problems. PiNMT model consists of three critical components, PLM Multi Layer Converter, Embedding Fusion, and Cosine Alignment, each playing a vital role in providing effective PLM information to NMT. Furthermore, two training strategies, Separate Learning Rates and Dual Step Training, are also introduced in this paper. By implementing the proposed PiNMT model and training strategy, we achieve state-of-the-art performance on the IWSLT'14 En$\leftrightarrow$De dataset. This study's outcomes are noteworthy as they demonstrate a novel approach for efficiently integrating PLM with NMT to overcome incompatibility and enhance performance.
翻訳日:2023-11-23 18:16:04 公開日:2023-11-22
# グラフニューラルネットワークによる岩石の有効弾性率の予測

Prediction of Effective Elastic Moduli of Rocks using Graph Neural Networks ( http://arxiv.org/abs/2310.19274v2 )

ライセンス: Link先を確認
Jaehong Chung, Rasool Ahmad, WaiChing Sun, Wei Cai, Tapan Mukerji(参考訳) 本研究では,デジタルCTスキャン画像から岩石の効率的な弾性変調を予測するためのグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。 マッパーアルゴリズムを用いて3dデジタル岩盤画像をグラフデータセットに変換し,本質的な幾何学的情報をカプセル化する。 これらのグラフは、訓練後、弾性率を予測するのに有効である。 gnnモデルでは,様々なサブキューブ次元から導出される様々なグラフサイズにわたるロバストな予測能力を示す。 テストデータセットでうまく機能するだけでなく、見えない岩や探索されていないサブキューブサイズの予測精度も高い。 畳み込みニューラルネットワーク (CNN) との比較解析により, 未知の岩石特性の予測において, GNNの優れた性能が示された。 さらに、微細構造のグラフ表現は、gpuメモリ要求(cnnのグリッド表現と比較)を大幅に削減し、バッチサイズ選択の柔軟性を高める。 本研究は, 岩盤特性の予測精度を高め, ディジタル岩盤解析の効率化におけるGNNモデルの可能性を示す。

This study presents a Graph Neural Networks (GNNs)-based approach for predicting the effective elastic moduli of rocks from their digital CT-scan images. We use the Mapper algorithm to transform 3D digital rock images into graph datasets, encapsulating essential geometrical information. These graphs, after training, prove effective in predicting elastic moduli. Our GNN model shows robust predictive capabilities across various graph sizes derived from various subcube dimensions. Not only does it perform well on the test dataset, but it also maintains high prediction accuracy for unseen rocks and unexplored subcube sizes. Comparative analysis with Convolutional Neural Networks (CNNs) reveals the superior performance of GNNs in predicting unseen rock properties. Moreover, the graph representation of microstructures significantly reduces GPU memory requirements (compared to the grid representation for CNNs), enabling greater flexibility in the batch size selection. This work demonstrates the potential of GNN models in enhancing the prediction accuracy of rock properties and boosting the efficiency of digital rock analysis.
翻訳日:2023-11-23 18:15:47 公開日:2023-11-22
# リカレントニューラルネットワークモデルの表現能力について

On the Representational Capacity of Recurrent Neural Language Models ( http://arxiv.org/abs/2310.12942v3 )

ライセンス: Link先を確認
Franz Nowak, Anej Svete, Li Du, Ryan Cotterell(参考訳) 本稿では,recurrent neural networks(rnns)に基づく言語モデル(lms)の計算表現性について検討する。 Siegelmann and Sontag (1992) は、合理的な重みと隠れた状態と非有界な計算時間を持つ RNN がチューリング完全であることを示した。 しかし、文字列の重み付けは、単に(重み付けされていない)言語のメンバーシップに加えて定義されており、RNN LM(RLM)の計算能力の分析もこれを反映すべきである。 チューリング完全性の結果を確率ケースに拡張し、有理重み付き計算時間を持つ有理重み付きrlmが、有理重み付き遷移を伴う任意の決定論的確率的チューリングマシン(ptm)をいかにシミュレートできるかを示す。 実のところ、RLMはリアルタイムに動作し、各ステップでシンボルを処理するので、上記の結果をRLMの表現性上の上限として扱う。 また、実時間計算の制限下では、決定論的実時間有理PTMをシミュレートできることを示す。

This work investigates the computational expressivity of language models (LMs) based on recurrent neural networks (RNNs). Siegelmann and Sontag (1992) famously showed that RNNs with rational weights and hidden states and unbounded computation time are Turing complete. However, LMs define weightings over strings in addition to just (unweighted) language membership and the analysis of the computational power of RNN LMs (RLMs) should reflect this. We extend the Turing completeness result to the probabilistic case, showing how a rationally weighted RLM with unbounded computation time can simulate any deterministic probabilistic Turing machine (PTM) with rationally weighted transitions. Since, in practice, RLMs work in real-time, processing a symbol at every time step, we treat the above result as an upper bound on the expressivity of RLMs. We also provide a lower bound by showing that under the restriction to real-time computation, such models can simulate deterministic real-time rational PTMs.
翻訳日:2023-11-23 18:15:17 公開日:2023-11-22
# ボーアの対応原理はハンケルの永続原理にすぎないか?

Is Bohr's Correspondence Principle just Hankel's Principle of Permanence? ( http://arxiv.org/abs/2310.10192v2 )

ライセンス: Link先を確認
Iulian D. Toader(参考訳) いいえ、しかし論文は、ボーアが彼の対応原理、あるいは少なくとも合理的一般化の概念によって表現されたその原理の側面を、ハンケルの永続性原理に基礎を置き、新しい歴史的・理論的文脈に適応していると論じている。 これは、ボーアの量子論へのアプローチの他の不明瞭な側面と、フェイヤーベントとボームによるこのアプローチに対する一見奇妙な批判を照らすことが示されている。

No, but the paper argues that Bohr understood his correspondence principle, or at least an aspect of that principle expressed by the notion of rational generalization, as grounded in Hankel's principle of permanence, adapted to new historical and theoretical contexts. This is shown to illuminate some otherwise obscure aspects of Bohr's approach to quantum theory, as well as a seemingly strange criticism against this approach, due to Feyerabend and Bohm.
翻訳日:2023-11-23 18:14:58 公開日:2023-11-22
# 良表現の液滴:二層ネットワークにおける一階相転移としてのグロッキング

Droplets of Good Representations: Grokking as a First Order Phase Transition in Two Layer Networks ( http://arxiv.org/abs/2310.03789v2 )

ライセンス: Link先を確認
Noa Rubin, Inbar Seroussi, Zohar Ringel(参考訳) deep neural network(dnn)の重要な特性は、トレーニング中に新機能を学習する能力である。 このディープラーニングの興味深い側面は、最近報告されたGrokking現象で最も顕著である。 主にテスト精度の急上昇として反映されているが、Grokkingはまた、特徴学習を含む遅延学習/ガウス過程(GP)現象を超越していると考えられている。 本稿では, 機能学習理論, 適応カーネルアプローチの最近の発展を, 立方多項式とモジュラ付加の教師を持つ2つの教師学生モデルに適用する。 我々は,これらのモデルの特徴学習とグロッキング特性に関する解析的予測を行い,グロッキングと相転移の理論のマッピングを示す。 我々は、Grokkingの後、DNNの状態が1次相転移後の混合相と類似していることを示す。 この混合相において、dnnは、遷移前のものと鋭く異なる教師の有用な内部表現を生成する。

A key property of deep neural networks (DNNs) is their ability to learn new features during training. This intriguing aspect of deep learning stands out most clearly in recently reported Grokking phenomena. While mainly reflected as a sudden increase in test accuracy, Grokking is also believed to be a beyond lazy-learning/Gaussian Process (GP) phenomenon involving feature learning. Here we apply a recent development in the theory of feature learning, the adaptive kernel approach, to two teacher-student models with cubic-polynomial and modular addition teachers. We provide analytical predictions on feature learning and Grokking properties of these models and demonstrate a mapping between Grokking and the theory of phase transitions. We show that after Grokking, the state of the DNN is analogous to the mixed phase following a first-order phase transition. In this mixed phase, the DNN generates useful internal representations of the teacher that are sharply distinct from those before the transition.
翻訳日:2023-11-23 18:13:51 公開日:2023-11-22
# FreshLLMs: 検索エンジン拡張による大規模言語モデルのリフレッシュ

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation ( http://arxiv.org/abs/2310.03214v2 )

ライセンス: Link先を確認
Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong(参考訳) ほとんどの大規模言語モデル(llm)は一度だけトレーニングされ、決して更新されない。 本研究では,現在の世界の知識をテストする質問に答える文脈において,llm生成テキストの事実性に関する詳細な研究を行う。 具体的には、世界知識の急激な変化を必要とする質問や、説明が必要な虚偽の前提に関する質問を含む、多様な質問と回答のタイプを含む、新しい動的QAベンチマークであるFreshQAを紹介する。 我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚を計測する。 例えば、すべてのモデル(モデルサイズに関係なく)は、迅速な知識の交換と誤った前提に関する問題に苦労しています。 これらの結果に感銘を受けたFreshPromptは,検索エンジンから取得した関連情報と最新情報をプロンプトに組み込むことで,FreshQA上のLLMの性能を大幅に向上させる,シンプルな数発プロンプト方式である。 実験の結果,Self-Ask(Press et al., 2022)やPerplexity.AI(Perplexity.AI)など,競合する検索エンジンによるプロンプト手法よりも優れていることがわかった。 FreshPromptのさらなる分析により、抽出された証拠の数とそれらの順序の両方が、LCM生成された回答の正しさに影響を与える重要な役割を果たすことが明らかになった。 加えて、LLMに簡潔で直接的な回答を生成するように指示することは、より冗長な回答を奨励するよりも幻覚を減らすのに役立つ。 今後の作業を容易にするため、github.com/freshllms/freshqaでFreshQAをリリースし、定期的に更新します。

Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
翻訳日:2023-11-23 18:13:37 公開日:2023-11-22
# 不完全な状態準備を有するデコイ状態bb84プロトコルのセキュリティ

Security of the decoy-state BB84 protocol with imperfect state preparation ( http://arxiv.org/abs/2310.01610v2 )

ライセンス: Link先を確認
Aleksei Reutov, Andrey Tayduganov, Vladimir Mayboroda and Oleg Fat'yanov(参考訳) 量子鍵分布(QKD)により、2人のリモートユーザーが共通の情報理論の安全な秘密鍵を共有することができる。 実用的なqkd実装のセキュリティを保証するためには、物理的システムを完全に特徴づける必要があり、現実的なデバイスの様々な不完全さによる理想的なプロトコルからの逸脱をセキュリティ証明に考慮する必要がある。 本研究では,不完全強度と偏光変調によるソース欠陥が存在する場合の効率的なデコイ状態bb84 qkdプロトコルの安全性について検討する。 本研究では,コヒーレント状態強度変動による非ポアソン光子数統計と非理想分極状態準備によるソースの基底依存性について検討する。 この分析は、強度と位相分布の実験的評価によって支持される。

The quantum key distribution (QKD) allows two remote users to share a common information-theoretic secure secret key. In order to guarantee the security of a practical QKD implementation, the physical system has to be fully characterized and all deviations from the ideal protocol due to various imperfections of realistic devices have to be taken into account in the security proof. In this work, we study the security of the efficient decoy-state BB84 QKD protocol in the presence of source flaws, caused by imperfect intensity and polarization modulation. We investigate the non-Poissonian photon-number statistics due to coherent-state intensity fluctuations and the basis-dependence of the source due to non-ideal polarization state preparation. The analysis is supported by experimental characterization of intensity and phase distributions.
翻訳日:2023-11-23 18:13:07 公開日:2023-11-22
# 干渉法による量子センシングの誤差低減

Error reduction for quantum sensing via interferometry ( http://arxiv.org/abs/2310.01083v2 )

ライセンス: Link先を確認
Cosmo Lupo, Zixin Huang(参考訳) デファスメントは量子情報に苦しむ主なノイズメカニズムであり、可視性が低下し、コヒーレンスや絡み合いが破壊される。 したがって、コンピュータからセンシングや通信まで、量子テクノロジーのあらゆる応用において量子優位の実証を可能にするためには、縮小、緩和、修正が必要となる。 ここでは,光量子メートル法におけるデファス化の効果を緩和するために,誤差フィルタリングのハードウェア方式について論じる。 この方式は受動線形光学と補助真空モードのみを使用し、単一光子源や絡み合いは不要である。 建設的かつ破壊的な干渉を利用して、統計的に独立した否定の源の有害な効果を部分的にキャンセルする。 この手法をコヒーレント状態の保存や、恒星間干渉の位相安定化に応用し、いくつかの補助モードのみを用いて大幅な改善が得られることを示す。

Dephasing is a main noise mechanism that afflicts quantum information, it reduces visibility, and destroys coherence and entanglement. Therefore, it must be reduced, mitigated, and if possible corrected, to allow for the demonstration of quantum advantage in any application of quantum technology, from computing to sensing and communications. Here we discuss a hardware scheme of error filtration to mitigate the effects of dephasing in optical quantum metrology. The scheme uses only passive linear optics and ancillary vacuum modes, and we do not need single-photon sources or entanglement. It exploits constructive and destructive interference to partially cancel the detrimental effects of statistically independent sources of dephasing. We apply this scheme to preserve coherent states and to phase stabilize stellar interferometry, and show that a significant improvement can be obtained by using only a few ancillary modes.
翻訳日:2023-11-23 18:12:29 公開日:2023-11-22
# CNE(Confident Naturalness Explanation) : 自然性を形成するパターンの説明と評価のためのフレームワーク

Confident Naturalness Explanation (CNE): A Framework to Explain and Assess Patterns Forming Naturalness ( http://arxiv.org/abs/2311.08936v2 )

ライセンス: Link先を確認
Ahmed Emam, Mohamed Farag, Ribana Roscher(参考訳) 保護された自然地域は、都市化、農業、その他の人間の介入といった人間の活動によって最小限の影響を受ける地域である。 これらの領域の自然性を理解しマップするために、機械学習モデルを使用して衛星画像を分析することができる。 具体的には、説明可能な機械学習手法は、これらの保護された環境における自然性の概念に寄与するパターンを明らかにすることに有望である。 さらに、機械学習モデルに内在する不確実性に対処することは、この概念の包括的理解に不可欠である。 しかし、既存のアプローチには制限がある。 彼らは、正当かつ客観的な説明を提供しなかったり、特定のパターンの自然性への寄与を正確に測定し、関連する信頼度を測定する量的指標の提供に苦慮した。 本稿では,自信自然性説明(cne)フレームワークという新しい枠組みを提案する。 このフレームワークは、自然性の評価と説明のために説明可能な機械学習と不確実性定量化を組み合わせる。 自然性の概念に対するパターンの確実な寄与を記述した新しい定量的指標を導入する。 さらに,各入力サンプルに対して不確実性対応セグメンテーションマスクを生成し,モデルに知識が欠けている領域を強調する。 本フレームワークの有効性を実証するため,Fennoscandiaの2つのオープンソースの衛星データセットを用いて研究現場に適用した。

Protected natural areas are regions that have been minimally affected by human activities such as urbanization, agriculture, and other human interventions. To better understand and map the naturalness of these areas, machine learning models can be used to analyze satellite imagery. Specifically, explainable machine learning methods show promise in uncovering patterns that contribute to the concept of naturalness within these protected environments. Additionally, addressing the uncertainty inherent in machine learning models is crucial for a comprehensive understanding of this concept. However, existing approaches have limitations. They either fail to provide explanations that are both valid and objective or struggle to offer a quantitative metric that accurately measures the contribution of specific patterns to naturalness, along with the associated confidence. In this paper, we propose a novel framework called the Confident Naturalness Explanation (CNE) framework. This framework combines explainable machine learning and uncertainty quantification to assess and explain naturalness. We introduce a new quantitative metric that describes the confident contribution of patterns to the concept of naturalness. Furthermore, we generate an uncertainty-aware segmentation mask for each input sample, highlighting areas where the model lacks knowledge. To demonstrate the effectiveness of our framework, we apply it to a study site in Fennoscandia using two open-source satellite datasets.
翻訳日:2023-11-23 18:04:10 公開日:2023-11-22
# 潜在空間における乱れによる回帰の因果的説明

Counterfactual Explanation for Regression via Disentanglement in Latent Space ( http://arxiv.org/abs/2311.08228v2 )

ライセンス: Link先を確認
Xuan Zhao and Klaus Broelemann and Gjergji Kasneci(参考訳) 予測モデルの予測に影響を与える要因は、ユーザの視点からより好ましい結果を得るために、どのように変えられるのか? このように、簡単に理解可能な説明を表現できるため、AIシステムとのユーザインタラクションをガイドする可能性を秘めている。 適用するには、CEは現実的で実行可能でなければなりません。 文献では、CEを生成する様々な方法が提案されている。 しかし、CEに関する研究の大部分は、「拒否されたローンを承認するために何をすべきか?」といった疑問が提起されるような分類問題に焦点が当てられている。 実際には、"給与を上げるために何をすべきか?"というような質問に答えることは、より回帰的な性質です。 本稿では,ラベル関係をラベル非関係次元から潜在空間に分離して,事前学習したレグレッセプタのcesを生成する新しい手法を提案する。 CEはラベル非関連次元と事前定義された出力を組み合わせることで生成される。 このアプローチの背景にある直感は、理想的な反事実探索は、入力のラベル非関連特性に焦点を合わせ、ターゲット関連特性への変化を提案することである。 潜在領域での検索はこの目標を達成するのに役立つ。 本手法は,反事実探索中にクエリサンプルの特性を維持していることを示す。 様々な実験において、回帰問題設定における画像と表のデータセットの異なる品質尺度に基づいて、提案手法が競合することを示した。 リアルな高次元機械学習アプリケーションに不可欠な3つの最先端手法と比較して、元のデータ多様体に近い結果を効率よく返します。 私たちのコードは、この作業の公開時にオープンソースパッケージとして公開されます。

Counterfactual Explanations (CEs) help address the question: How can the factors that influence the prediction of a predictive model be changed to achieve a more favorable outcome from a user's perspective? Thus, they bear the potential to guide the user's interaction with AI systems since they represent easy-to-understand explanations. To be applicable, CEs need to be realistic and actionable. In the literature, various methods have been proposed to generate CEs. However, the majority of research on CEs focuses on classification problems where questions like "What should I do to get my rejected loan approved?" are raised. In practice, answering questions like "What should I do to increase my salary?" are of a more regressive nature. In this paper, we introduce a novel method to generate CEs for a pre-trained regressor by first disentangling the label-relevant from the label-irrelevant dimensions in the latent space. CEs are then generated by combining the label-irrelevant dimensions and the predefined output. The intuition behind this approach is that the ideal counterfactual search should focus on the label-irrelevant characteristics of the input and suggest changes toward target-relevant characteristics. Searching in the latent space could help achieve this goal. We show that our method maintains the characteristics of the query sample during the counterfactual search. In various experiments, we demonstrate that the proposed method is competitive based on different quality measures on image and tabular datasets in regression problem settings. It efficiently returns results closer to the original data manifold compared to three state-of-the-art methods, which is essential for realistic high-dimensional machine learning applications. Our code will be made available as an open-source package upon the publication of this work.
翻訳日:2023-11-23 18:03:49 公開日:2023-11-22
# JARVIS-1:メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models ( http://arxiv.org/abs/2311.05997v2 )

ライセンス: Link先を確認
Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang(参考訳) オープンワールドにおけるマルチモーダルな観察による人間のような計画と制御の実現は、より機能的なジェネラリストエージェントにとって重要なマイルストーンである。 既存のアプローチは、オープンワールドにおける特定のロングホリゾンタスクを処理できる。 しかし、オープンワールドタスクの数が無限になる可能性があり、ゲーム時間が進むにつれてタスク完了を徐々に向上させる能力が欠如している。 オープンワールドエージェントであるJARVIS-1を導入し,マルチモーダルなインプット(視覚的観察と人間の指示)を知覚し,高度な計画を生成し,具体的制御を行う。 具体的には,事前学習したマルチモーダル言語モデル上にjarvis-1を開発し,視覚観察とテキスト指示を計画にマッピングする。 計画は最終的にゴールコンディショナーのコントローラに送られる。 JARVIS-1をマルチモーダルメモリで構成し、事前学習した知識と実際のゲームサバイバル体験の両方を計画する。 JARVIS-1はマインクラフトで最も一般的なエージェントであり、人間に似た制御と観測空間を用いて200以上のタスクを完了することができる。 これらのタスクは、短いホリゾンタスク(例えば「木を切り倒す」)から長いホリゾンタスク(例えば「ダイヤモンドピカックスを取得する」)まで様々である。 JARVIS-1は短時間の作業で非常によく機能し、ほぼ完璧な性能を実現している。 古典的な長期タスクである$\texttt{ObtainDiamondPickaxe}$では、JARVIS-1は現在の最先端エージェントの信頼性を5倍上回り、より水平で難しいタスクを完了させる。 プロジェクトページはhttps://craftjarvis-jarvis1.github.ioで入手できる。

Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. JARVIS-1 is the existing most general agent in Minecraft, capable of completing over 200 different tasks using control and observation space similar to humans. These tasks range from short-horizon tasks, e.g., "chopping trees" to long-horizon tasks, e.g., "obtaining a diamond pickaxe". JARVIS-1 performs exceptionally well in short-horizon tasks, achieving nearly perfect performance. In the classic long-term task of $\texttt{ObtainDiamondPickaxe}$, JARVIS-1 surpasses the reliability of current state-of-the-art agents by 5 times and can successfully complete longer-horizon and more challenging tasks. The project page is available at https://craftjarvis-jarvis1.github.io.
翻訳日:2023-11-23 18:03:24 公開日:2023-11-22
# 安定化回路の高速シミュレーションのための相記号化

SymPhase: Phase Symbolization for Fast Simulation of Stabilizer Circuits ( http://arxiv.org/abs/2311.03906v2 )

ライセンス: Link先を確認
Wang Fang and Mingsheng Ying(参考訳) 本稿では,回路を1回だけトラバースする効率的な安定化回路シミュレーションアルゴリズムを提案する。 安定化器発生器に位相記号を導入し、安定化器発生器の位相におけるシンボル表現として回路内のパウリ断層を明示的に蓄積できるようにする。 このようにして、測定結果はシンボリック表現であり、回路を繰り返すことなく、具体的な値でシンボル変数を置換することでそれらをサンプリングすることができる。 本稿では, ビットベクトル符号化を用いて, シンボリック位相を安定化器テーブルーに統合し, 効率よく維持する方法を示す。 メモリにおける安定化器テーブルーの新たなデータレイアウトを提案し,このアルゴリズムの性能を向上する(安定化器テーブルーに基づく他の安定化器シミュレーションアルゴリズム)。 我々は,JuliaパッケージのSymPhase.jlにアルゴリズムとデータレイアウトを実装し,いくつかのベンチマークで最先端シミュレータStimと比較した。 また, サンプリング時間の観点からはsymphase.jlの方が優れた性能を示し, さらなる解析のために多数のサンプルを生成するのに不可欠である。

This paper proposes an efficient stabilizer circuit simulation algorithm that only traverses the circuit forward once. We introduce phase symbolization into stabilizer generators, which allows possible Pauli faults in the circuit to be accumulated explicitly as symbolic expressions in the phases of stabilizer generators. This way, the measurement outcomes are also symbolic expressions, and we can sample them by substituting the symbolic variables with concrete values, without traversing the circuit repeatedly. We show how to integrate symbolic phases into the stabilizer tableau and maintain them efficiently using bit-vector encoding. A new data layout of the stabilizer tableau in memory is proposed, which improves the performance of our algorithm (and other stabilizer simulation algorithms based on the stabilizer tableau). We implement our algorithm and data layout in a Julia package named SymPhase.jl, and compare it with Stim, the state-of-the-art simulator, on several benchmarks. We show that SymPhase.jl has superior performance in terms of sampling time, which is crucial for generating a large number of samples for further analysis.
翻訳日:2023-11-23 18:02:19 公開日:2023-11-22
# 半教師付き深層学習に基づく骨盤底MRI

Pelvic floor MRI segmentation based on semi-supervised deep learning ( http://arxiv.org/abs/2311.03105v2 )

ライセンス: Link先を確認
Jianwei Zuo, Fei Feng, Zhuhui Wang, James A. Ashton-Miller, John O.L. Delancey and Jiajia Luo(参考訳) MRIによる骨盤臓器のセグメンテーションは重要な臨床的意義を有する。 近年,深層学習による意味セグメンテーションにより骨盤底臓器の3次元形状再構築が容易になり,臨床医に正確かつ直感的な診断結果を提供するようになった。 しかし、一般的に臨床医が行う骨盤底MRIのセグメンテーションのラベル付けは、労働集約的でコストがかかるため、ラベルの不足につながる。 不十分なセグメンテーションラベルは骨盤底臓器の正確なセグメンテーションと再構築を制限する。 これらの課題に対処するため,骨盤臓器分割のための半教師付きフレームワークを提案する。 この枠組みの実装には2つの段階がある。 第1段階では、画像復元タスクを用いて自己教師付き事前訓練を行う。 その後、ラベル付きデータを用いて自己教師付きモデルの微調整を行い、セグメンテーションモデルを訓練する。 第2段階では、自己教師付きセグメンテーションモデルを用いてラベルなしデータの擬似ラベルを生成する。 最終的に、ラベル付きデータとラベルなしデータは、半教師付きトレーニングで利用される。 評価の結果,骨盤臓器のセグメンテーションと幾何学的再構成において,dice係数は平均で2.65%向上することがわかった。 特に子宮などの分節が難しい臓器では、セマンティックセグメンテーションの精度を最大3.70%向上させることができる。

The semantic segmentation of pelvic organs via MRI has important clinical significance. Recently, deep learning-enabled semantic segmentation has facilitated the three-dimensional geometric reconstruction of pelvic floor organs, providing clinicians with accurate and intuitive diagnostic results. However, the task of labeling pelvic floor MRI segmentation, typically performed by clinicians, is labor-intensive and costly, leading to a scarcity of labels. Insufficient segmentation labels limit the precise segmentation and reconstruction of pelvic floor organs. To address these issues, we propose a semi-supervised framework for pelvic organ segmentation. The implementation of this framework comprises two stages. In the first stage, it performs self-supervised pre-training using image restoration tasks. Subsequently, fine-tuning of the self-supervised model is performed, using labeled data to train the segmentation model. In the second stage, the self-supervised segmentation model is used to generate pseudo labels for unlabeled data. Ultimately, both labeled and unlabeled data are utilized in semi-supervised training. Upon evaluation, our method significantly enhances the performance in the semantic segmentation and geometric reconstruction of pelvic organs, Dice coefficient can increase by 2.65% averagely. Especially for organs that are difficult to segment, such as the uterus, the accuracy of semantic segmentation can be improved by up to 3.70%.
翻訳日:2023-11-23 18:01:45 公開日:2023-11-22
# Edge2Node: ノード分類へのエッジ予測の削減

Edge2Node: Reducing Edge Prediction to Node Classification ( http://arxiv.org/abs/2311.02921v3 )

ライセンス: Link先を確認
Zahed Rahmati(参考訳) ノード分類におけるグラフニューラルネットワークモデルの成功にもかかわらず、エッジ予測(グラフ内のノード間の欠落や潜在的なリンクを予測するタスク)は、これらのモデルにとって難しい問題である。 エッジ予測の一般的なアプローチは、まず2つのノードの埋め込みを取得し、2つのノード間のエッジの存在を予測するために、事前に定義されたスコアリング関数を使用する。 ここでは、スコアリング関数を必要とせずに、各エッジへの埋め込みを直接取得することを提案するEdge2Nodeという予備的なアイデアを紹介します。 この考え方は、エッジ予測タスクに与えられたグラフ G に基づいて新しいグラフ H を作成し、G 上のエッジ予測タスクを H 上のノード分類タスクに還元することを目的としている。

Despite the success of graph neural network models in node classification, edge prediction (the task of predicting missing or potential links between nodes in a graph) remains a challenging problem for these models. A common approach for edge prediction is to first obtain the embeddings of two nodes, and then a predefined scoring function is used to predict the existence of an edge between the two nodes. Here, we introduce a preliminary idea called Edge2Node which suggests to directly obtain an embedding for each edge, without the need for a scoring function. This idea wants to create a new graph H based on the graph G given for the edge prediction task, and then suggests reducing the edge prediction task on G to a node classification task on H. We anticipate that this introductory method could stimulate further investigations for edge prediction task.
翻訳日:2023-11-23 18:01:25 公開日:2023-11-22
# コンピュータサイエンスの教授・学生の学術的・個人的背景に基づく成功予測

Forecasting Success of Computer Science Professors and Students Based on Their Academic and Personal Backgrounds ( http://arxiv.org/abs/2311.02476v2 )

ライセンス: Link先を確認
Ghazal Kalhor and Behnam Bahrak(参考訳) 大学院を修了した後、多くのコンピュータサイエンス(cs)の学生が北米における競争的な大学院プログラムに応募する。 彼らの長期的な目標は、大手5社のうちの1社に採用されるか、あるいは教授になることだ。 したがって、受け入れ基準の役割に気付くことで、目標に向かって最良の道を選ぶのに役立つかもしれない。 本稿では,北米の高名な大学に入学し,将来教授として学界に復帰する可能性について,学生の過去の大学の影響を分析した。 以上の結果から,先行大学ランキングが目標達成の重要な要因であることが示された。 次に、上位25のコンピュータサイエンスプログラムを受講した学部の学生に偏見があることを示す。 最後に,これらの大学における教授の成功を予測するために,機械学習モデルを用いる。 我々はこの予測課題に対して7.85のRMSEを達成した。

After completing their undergraduate studies, many computer science (CS) students apply for competitive graduate programs in North America. Their long-term goal is often to be hired by one of the big five tech companies or to become a faculty member. Therefore, being aware of the role of admission criteria may help them choose the best path towards their goals. In this paper, we analyze the influence of students' previous universities on their chances of being accepted to prestigious North American universities and returning to academia as professors in the future. Our findings demonstrate that the ranking of their prior universities is a significant factor in achieving their goals. We then illustrate that there is a bias in the undergraduate institutions of students admitted to the top 25 computer science programs. Finally, we employ machine learning models to forecast the success of professors at these universities. We achieved an RMSE of 7.85 for this prediction task.
翻訳日:2023-11-23 18:01:11 公開日:2023-11-22
# FedSN: LEO衛星ネットワーク上の一般的なフェデレーション学習フレームワーク

FedSN: A General Federated Learning Framework over LEO Satellite Networks ( http://arxiv.org/abs/2311.01483v2 )

ライセンス: Link先を確認
Zheng Lin, Zhe Chen, Zihan Fang, Xianhao Chen, Xiong Wang, and Yue Gao(参考訳) 最近、SpaceXなどの商業企業によって、多くの低軌道軌道(LEO)衛星が打ち上げられ、宇宙展開に成功している。 LEO衛星に搭載されたマルチモーダルセンサにより、通信だけでなく、空間変調認識やリモートセンシング画像分類など、さまざまな機械学習アプリケーションにも使用される。 しかし、地上局(gs)は、leo衛星との接触時間(例えば5分)が限られているため、集中型モデルトレーニングのためにそのような大量の生センシングデータをダウンロードできない可能性がある。 そのため、デバイス上でのトレーニングを通じてこの問題に対処するための有望なソリューションとして、連合学習(federated learning:fl)が登場した。 残念ながら、LEO衛星でFLを有効にするには、我々は3つの重要な課題に直面している。 一 異種計算及び記憶能力 二 アップリンク率の制限、及び iii)モデル停滞。 この目的のために,これらの課題に対処するための一般FLフレームワークとしてFedSNを提案し,LEO衛星上でのデータ多様性について検討する。 具体的には,leo衛星上での異なる計算,メモリ,通信制約を考慮したヘテロジニアスな局所モデルトレーニングを実現するための新しいサブ構造スキームを提案する。 さらに,モデルステイレネスを補償するためのモデルアグリゲーションを動的にスケジュールする擬似同期モデルアグリゲーション戦略を提案する。 FedSNの有効性をさらに実証するため,実世界の衛星ネットワークのデータを活用し,空間変調認識とリモートセンシング画像分類タスクを用いて評価を行った。 大規模な実験結果から,FedSNフレームワークは最先端ベンチマークよりも高い精度,低演算,通信オーバーヘッドを実現し,各コンポーネントの有効性が示された。

Recently, a large number of Low Earth Orbit (LEO) satellites have been launched and deployed successfully in space by commercial companies, such as SpaceX. Due to multimodal sensors equipped by the LEO satellites, they serve not only for communication but also for various machine learning applications, such as space modulation recognition, remote sensing image classification, etc. However, the ground station (GS) may be incapable of downloading such a large volume of raw sensing data for centralized model training due to the limited contact time with LEO satellites (e.g. 5 minutes). Therefore, federated learning (FL) has emerged as the promising solution to address this problem via on-device training. Unfortunately, to enable FL on LEO satellites, we still face three critical challenges that are i) heterogeneous computing and memory capabilities, ii) limited uplink rate, and iii) model staleness. To this end, we propose FedSN as a general FL framework to tackle the above challenges, and fully explore data diversity on LEO satellites. Specifically, we first present a novel sub-structure scheme to enable heterogeneous local model training considering different computing, memory, and communication constraints on LEO satellites. Additionally, we propose a pseudo-synchronous model aggregation strategy to dynamically schedule model aggregation for compensating model staleness. To further demonstrate the effectiveness of the FedSN, we evaluate it using space modulation recognition and remote sensing image classification tasks by leveraging the data from real-world satellite networks. Extensive experimental results demonstrate that FedSN framework achieves higher accuracy, lower computing, and communication overhead than the state-of-the-art benchmarks and the effectiveness of each components in FedSN.
翻訳日:2023-11-23 18:00:31 公開日:2023-11-22
# HARE:ステップバイステップ推論による説明可能なヘイトスピーチ検出

HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning ( http://arxiv.org/abs/2311.00321v2 )

ライセンス: Link先を確認
Yongjin Yang, Joonkee Kim, Yujin Kim, Namgyu Ho, James Thorne, Se-young Yun(参考訳) ソーシャルメディアの普及に伴い、ネット上でのヘイトスピーチの正確な検出が重要になっている。 ヘイトスピーチのニュアンスに対処するためには,ヘイトスピーチを識別し,徹底的に説明し,その有害な影響を理解するのに役立つことが重要である。 最近のベンチマークでは、ヘイトフルテキストにおける含意のフリーテキストアノテーションで生成モデルをトレーニングすることでこの問題に対処しようとしている。 しかし、既存のアノテーションスキームに重大な推論ギャップがあることは、検出モデルの監督を妨げる可能性がある。 本稿では,大規模言語モデル(LLM)の推論能力を活用して,ヘイトスピーチの説明におけるこれらのギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。 SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いて、既存のフリーテキストのヒューマンアノテーションを用いて、ベースラインを一貫して上回ります。 分析により,本手法は学習モデルの説明品質を高め,未認識データセットへの一般化を改善できることが示される。 私たちのコードはhttps://github.com/joonkeekim/hare-hate-speech.gitで利用可能です。

With the proliferation of social media, accurate detection of hate speech has become critical to ensure safety online. To combat nuanced forms of hate speech, it is important to identify and thoroughly explain hate speech to help users understand its harmful effects. Recent benchmarks have attempted to tackle this issue by training generative models on free-text annotations of implications in hateful text. However, we find significant reasoning gaps in the existing annotations schemes, which may hinder the supervision of detection models. In this paper, we introduce a hate speech detection framework, HARE, which harnesses the reasoning capabilities of large language models (LLMs) to fill these gaps in explanations of hate speech, thus enabling effective supervision of detection models. Experiments on SBIC and Implicit Hate benchmarks show that our method, using model-generated data, consistently outperforms baselines, using existing free-text human annotations. Analysis demonstrates that our method enhances the explanation quality of trained models and improves generalization to unseen datasets. Our code is available at https://github.com/joonkeekim/hare-hate-speech.git.
翻訳日:2023-11-23 17:59:46 公開日:2023-11-22
# 白書:生成教育(GenEd)フレームワーク

White Paper: The Generative Education (GenEd) Framework ( http://arxiv.org/abs/2311.10732v2 )

ライセンス: Link先を確認
Daniel Leiker(参考訳) ジェネレーティブ教育(GenEd)フレームワークは、教育における言語モデル(LLM)からLMM(Large Multimodal Model)への移行を探求し、学習経験を高めるためにAIと教育者との調和関係を想定している。 本稿では,パーソナライズ,対話的,感情的な学習環境を構築するためのLMMの可能性について考察する。 Two-Sigma問題への対処とHarmonyという概念的プロダクトの導入を通じて、この物語は教育者の開発、政策フレームワークの適応、そして、AIに強化された教育の展望を実現するためにクロスセクタ間のコラボレーションを促進することを強調する。 この議論は、AIの進化の中で積極的に適応するための緊急性を強調し、AIを教育に組み込むという技術的、倫理的、政策的な複雑さをナビゲートするための実践的なロードマップを提供する。

The Generative Education (GenEd) Framework explores the transition from Large Language Models (LLMs) to Large Multimodal Models (LMMs) in education, envisioning a harmonious relationship between AI and educators to enhance learning experiences. This paper delves into the potential of LMMs to create personalized, interactive, and emotionally-aware learning environments. Through addressing the Two-Sigma problem and the introduction of a conceptual product named Harmony, the narrative emphasizes educator development, adapting policy frameworks, and fostering cross-sector collaboration to realize the envisioned AI-enhanced education landscape. The discussion underscores the urgency for proactive adaptation amidst AI's evolution, offering a pragmatic roadmap to navigate the technical, ethical, and policy intricacies of integrating AI in education.
翻訳日:2023-11-23 17:46:44 公開日:2023-11-22
# 原則から実践へ: 機械学習のための垂直データ最小化

From Principle to Practice: Vertical Data Minimization for Machine Learning ( http://arxiv.org/abs/2311.10500v2 )

ライセンス: Link先を確認
Robin Staab, Nikola Jovanovi\'c, Mislav Balunovi\'c, Martin Vechev(参考訳) 予測モデルをトレーニングし、デプロイすることを目指して、組織は大量の詳細なクライアントデータを収集し、侵害が発生した場合にプライベート情報を暴露するリスクを負う。 これを軽減するため、政策立案者はデータ最小化(dm)の原則に準拠することをますます要求し、タスクに必要なデータのみにデータ収集を制限した。 規制圧力にもかかわらず、DMに従う機械学習モデルをデプロイする問題は、今のところほとんど注目されていない。 本研究では,この課題を包括的に解決する。 本稿では,データ一般化に基づく新しい縦型dmワークフローを提案する。このワークフローでは,モデルのトレーニングやデプロイ中に,完全なクライアントデータが収集されないよう設計し,攻撃面の低減によるクライアントのプライバシのメリットを享受する。 我々は、データの有用性を最大化し、経験的プライバシーリスクを最小化する一般化を見つけるという、対応する問題を定式化し、研究する。 最後に,ベースラインvDMアルゴリズムおよびプライバシ・アウェア・ツリー(PAT)を提案する。 我々は、我々のコードを公開ライブラリとしてリリースし、機械学習のためのDMの標準化を進めることを計画している。 全体として、我々の研究は、現実世界のアプリケーションにおけるDM原則のさらなる探求と導入の基盤となると信じています。

Aiming to train and deploy predictive models, organizations collect large amounts of detailed client data, risking the exposure of private information in the event of a breach. To mitigate this, policymakers increasingly demand compliance with the data minimization (DM) principle, restricting data collection to only that data which is relevant and necessary for the task. Despite regulatory pressure, the problem of deploying machine learning models that obey DM has so far received little attention. In this work, we address this challenge in a comprehensive manner. We propose a novel vertical DM (vDM) workflow based on data generalization, which by design ensures that no full-resolution client data is collected during training and deployment of models, benefiting client privacy by reducing the attack surface in case of a breach. We formalize and study the corresponding problem of finding generalizations that both maximize data utility and minimize empirical privacy risk, which we quantify by introducing a diverse set of policy-aligned adversarial scenarios. Finally, we propose a range of baseline vDM algorithms, as well as Privacy-aware Tree (PAT), an especially effective vDM algorithm that outperforms all baselines across several settings. We plan to release our code as a publicly available library, helping advance the standardization of DM for machine learning. Overall, we believe our work can help lay the foundation for further exploration and adoption of DM principles in real-world applications.
翻訳日:2023-11-23 17:46:26 公開日:2023-11-22
# FusionFrames: テキスト・ビデオ生成パイプラインの効率的なアーキテクチャ面

FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline ( http://arxiv.org/abs/2311.13073v1 )

ライセンス: Link先を確認
Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov(参考訳) マルチメディア生成アプローチは人工知能研究において重要な位置を占める。 テキストから画像へのモデルはここ数年で高品質な結果を得た。 しかし、最近ビデオ合成法が発展し始めた。 本稿では,テキストから画像への拡散モデルに基づく2段階の潜在拡散テキスト対ビデオ生成アーキテクチャを提案する。 第1段階では、ビデオのストーリーラインを描くためのキーフレームの合成、第2段階はシーンとオブジェクトの動きをスムーズにするために補間フレームの生成に費やされる。 キーフレーム生成のための時間条件付け手法をいくつか比較した。 その結果,映像生成品質と人間の嗜好を反映する指標として,時間的レイヤ上で異なる時間的ブロックを使用することの利点が示された。 補間モデルの設計は,他のマスキングフレーム補間法と比較して計算コストを大幅に削減する。 さらに,PSNR,SSIM,MSE,LPIPSのスコアを向上するために,MoVQベースのビデオ復号方式の異なる構成を評価した。 最後に、当社のパイプラインを既存のソリューションと比較し、全体のtop-2スコアとtop-1をオープンソースソリューションで達成しました。 プロジェクトページ: https://ai-forever.github.io/kandinsky-video/

Multimedia generation approaches occupy a prominent place in artificial intelligence research. Text-to-image models achieved high-quality results over the last few years. However, video synthesis methods recently started to develop. This paper presents a new two-stage latent diffusion text-to-video generation architecture based on the text-to-image diffusion model. The first stage concerns keyframes synthesis to figure the storyline of a video, while the second one is devoted to interpolation frames generation to make movements of the scene and objects smooth. We compare several temporal conditioning approaches for keyframes generation. The results show the advantage of using separate temporal blocks over temporal layers in terms of metrics reflecting video generation quality aspects and human preference. The design of our interpolation model significantly reduces computational costs compared to other masked frame interpolation approaches. Furthermore, we evaluate different configurations of MoVQ-based video decoding scheme to improve consistency and achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our pipeline with existing solutions and achieve top-2 scores overall and top-1 among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page: https://ai-forever.github.io/kandinsky-video/
翻訳日:2023-11-23 16:47:21 公開日:2023-11-22
# fusenet:医療画像分割のための自己教師付きデュアルパスネットワーク

FuseNet: Self-Supervised Dual-Path Network for Medical Image Segmentation ( http://arxiv.org/abs/2311.13069v1 )

ライセンス: Link先を確認
Amirhossein Kazerouni, Sanaz Karimijafarbigloo, Reza Azad, Yury Velichko, Ulas Bagci, Dorit Merhof(参考訳) コンピュータビジョンにおいて重要なタスクであるセマンティックセグメンテーションは、しばしばトレーニングのために労働集約的で高価な注釈付きデータセットに依存している。 この課題に対して、手動のアノテーションを必要としない自己教師付きセマンティックセグメンテーションのためのデュアルストリームフレームワークであるFuseNetを紹介した。 fusenetはオリジナル画像と拡張画像の共有セマンティック依存性を利用してクラスタリング空間を作り、意味的に関連したクラスタにピクセルを割り当て、最終的にセグメンテーションマップを生成する。 さらにFuseNetは、テキストデータを拡張イメージに置き換えることでCLIPの原則を拡張する、クロスモーダルな融合技術を採用している。 このアプローチにより、複雑な視覚表現を学習し、CLIPのテキスト不変性に似たバリエーションに対する堅牢性を高めることができる。 隣接画素間のエッジアライメントと空間的整合性をさらに向上するため,エッジリファインメントロスを導入する。 この損失関数はエッジ情報を空間コヒーレンスを高めるために考慮し、類似した視覚的特徴を持つ近傍画素のグルーピングを容易にする。 皮膚病変および肺分画データセットに関する広範囲な実験を行い,本法の有効性を示した。 https://github.com/xmindflow/FuseNet}{Codebase }

Semantic segmentation, a crucial task in computer vision, often relies on labor-intensive and costly annotated datasets for training. In response to this challenge, we introduce FuseNet, a dual-stream framework for self-supervised semantic segmentation that eliminates the need for manual annotation. FuseNet leverages the shared semantic dependencies between the original and augmented images to create a clustering space, effectively assigning pixels to semantically related clusters, and ultimately generating the segmentation map. Additionally, FuseNet incorporates a cross-modal fusion technique that extends the principles of CLIP by replacing textual data with augmented images. This approach enables the model to learn complex visual representations, enhancing robustness against variations similar to CLIP's text invariance. To further improve edge alignment and spatial consistency between neighboring pixels, we introduce an edge refinement loss. This loss function considers edge information to enhance spatial coherence, facilitating the grouping of nearby pixels with similar visual features. Extensive experiments on skin lesion and lung segmentation datasets demonstrate the effectiveness of our method. \href{https://github.com/xmindflow/FuseNet}{Codebase.}
翻訳日:2023-11-23 16:46:51 公開日:2023-11-22
# ホワイトボックス・トランスフォーマーの低レート化:圧縮がすべて存在するか?

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? ( http://arxiv.org/abs/2311.13110v1 )

ライセンス: Link先を確認
Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang Tong, Hao Bai, Yuexiang Zhai, Benjamin D. Haeffele, Yi Ma(参考訳) 本稿では,表現学習の自然な目的は,トークン集合などのデータの分布を非一貫性部分空間上で支持される低次元ガウス混合へと圧縮・変換することである。 このような表現の良さはスパースレート還元と呼ばれる原理的尺度で評価することができ、学習された表現の内在的な情報ゲインと外在的な空間性を同時に最大化する。 この観点からは、トランスフォーマーを含む一般的なディープネットワークアーキテクチャは、この測定を最適化するための反復的なスキームの実現と見なすことができる。 マルチヘッド自己注意演算子は、特徴の符号化速度に近似的な勾配降下ステップを実装して表現を圧縮し、その後の多層パーセプトロンは特徴を拡大する。 これは、数学的に完全に解釈可能なCRATEと呼ばれる、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。 我々は, 雑音化と圧縮の新たな接続により, 上記の圧縮エンコーディングの逆を同一のcrateアーキテクチャで実現できることを示す。 したがって、ホワイトボックスアーキテクチャはエンコーダとデコーダの両方に共通である。 実験によると、これらのネットワークは、その単純さにもかかわらず、大規模な現実世界の画像やテキストデータセットの表現を圧縮し、スパース化することを学び、高度にエンジニアリングされたトランスフォーマーベースのモデルであるViT、MAE、DINO、BERT、GPT2に非常に近い性能を達成する。 提案した計算フレームワークは,データ圧縮の統一的な視点から,深層学習の理論と実践のギャップを埋める大きな可能性を実証している。 コードは、https://ma-lab-berkeley.github.io/CRATE で入手できる。

In this paper, we contend that a natural objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a low-dimensional Gaussian mixture supported on incoherent subspaces. The goodness of such a representation can be evaluated by a principled measure, called sparse rate reduction, that simultaneously maximizes the intrinsic information gain and extrinsic sparsity of the learned representation. From this perspective, popular deep network architectures, including transformers, can be viewed as realizing iterative schemes to optimize this measure. Particularly, we derive a transformer block from alternating optimization on parts of this objective: the multi-head self-attention operator compresses the representation by implementing an approximate gradient descent step on the coding rate of the features, and the subsequent multi-layer perceptron sparsifies the features. This leads to a family of white-box transformer-like deep network architectures, named CRATE, which are mathematically fully interpretable. We show, by way of a novel connection between denoising and compression, that the inverse to the aforementioned compressive encoding can be realized by the same class of CRATE architectures. Thus, the so-derived white-box architectures are universal to both encoders and decoders. Experiments show that these networks, despite their simplicity, indeed learn to compress and sparsify representations of large-scale real-world image and text datasets, and achieve performance very close to highly engineered transformer-based models: ViT, MAE, DINO, BERT, and GPT2. We believe the proposed computational framework demonstrates great potential in bridging the gap between theory and practice of deep learning, from a unified perspective of data compression. Code is available at: https://ma-lab-berkeley.github.io/CRATE .
翻訳日:2023-11-23 16:34:46 公開日:2023-11-22
# 資源効率の良い合成による量子回路の小型化

Powerful Quantum Circuit Resizing with Resource Efficient Synthesis ( http://arxiv.org/abs/2311.13107v1 )

ライセンス: Link先を確認
Siyuan Niu, Akel Hashim, Costin Iancu, Wibe Albert de Jong, and Ed Younis(参考訳) ノイズの多い中間スケールの量子時代において、中間回路の測定とリセット操作は、リサイズと呼ばれる方法で回路の量子ビット数を減らし、新しい回路最適化戦略を促進する。 本稿では2つのアルゴリズムを紹介する。 1つはゲート依存ルールを利用して、深さを最適化するときにキュービット数を61.6%または45.3%削減する。 数値的なインスタンス化と合成に基づいて、第2のアルゴリズムは、依存ルールやその他の最先端ツールを介して、従来は変更できなかった回路の縮小機会を求める。 この再サイズアルゴリズムは、従来不可能だった回路の量子ビット数を平均で20.7%削減する。

In the noisy intermediate-scale quantum era, mid-circuit measurement and reset operations facilitate novel circuit optimization strategies by reducing a circuit's qubit count in a method called resizing. This paper introduces two such algorithms. The first one leverages gate-dependency rules to reduce qubit count by 61.6% or 45.3% when optimizing depth as well. Based on numerical instantiation and synthesis, the second algorithm finds resizing opportunities in previously unresizable circuits via dependency rules and other state-of-the-art tools. This resizing algorithm reduces qubit count by 20.7% on average for these previously impossible-to-resize circuits.
翻訳日:2023-11-23 16:34:15 公開日:2023-11-22
# LLMにおける接地の有無の知覚構造:カラー言語における抽象性と主観性の影響

Perceptual Structure in the Absence of Grounding for LLMs: The Impact of Abstractedness and Subjectivity in Color Language ( http://arxiv.org/abs/2311.13105v1 )

ライセンス: Link先を確認
Pablo Loyola, Edison Marrese-Taylor, Andres Hoyos-Idobro(参考訳) 言語理解の基盤となることの必要性は、活発な研究トピックである。 前回の研究では、色知覚と色言語は、その認知的意義から、経験的に問題を研究するのに適したテストベッドとして現れ、定義された色空間と言語モデルによって定義された特徴空間との間にかなりの一致があることが示されている。 この問題をさらに研究するため,約100万の例を含む大規模な色源とその記述を収集し,2種類のアライメントを比較するための経験的分析を行う。 (i)埋め込み空間と色空間のマッピングを学ぶことにより、空間間をいう。 (ii)空間内において、色記述の比較を促すこと。 その結果,色空間のアライメントは単語彙的かつ実践的な色記述を保ちつつも,主観性や抽象性などの実言語的利用の要素を示す例の存在下では著しく低下し,そのような場合では接地が必要であることが示唆された。

The need for grounding in language understanding is an active research topic. Previous work has suggested that color perception and color language appear as a suitable test bed to empirically study the problem, given its cognitive significance and showing that there is considerable alignment between a defined color space and the feature space defined by a language model. To further study this issue, we collect a large scale source of colors and their descriptions, containing almost a 1 million examples , and perform an empirical analysis to compare two kinds of alignments: (i) inter-space, by learning a mapping between embedding space and color space, and (ii) intra-space, by means of prompting comparatives between color descriptions. Our results show that while color space alignment holds for monolexemic, highly pragmatic color descriptions, this alignment drops considerably in the presence of examples that exhibit elements of real linguistic usage such as subjectivity and abstractedness, suggesting that grounding may be required in such cases.
翻訳日:2023-11-23 16:34:03 公開日:2023-11-22
# 一般化確率論におけるシグナリング次元

The signaling dimension in generalized probabilistic theories ( http://arxiv.org/abs/2311.13103v1 )

ライセンス: Link先を確認
Michele Dall'Arno, Alessandro Tosini, Francesco Buscemi(参考訳) 物理系のシグナリング次元は、与えられた系のすべての入出力相関を再現するために必要な古典系の最小次元を定量化する。 したがって、線形空間の次元や(随伴あるいはペアの)完全判別可能な状態の最大数のような他の次元測度とは異なり、相関空間は単一の方向のみに沿って調べるが、シグナル伝達次元は特定の操作タスクの任意の選択に依存しない。 この意味で、シグナリング次元は、与えられたシステムと一致する入力/出力相関全体の構造を単一のスカラー量で要約する。 量子論において、Frenkel と Weiner は、信号の次元がヒルベルト空間次元と一致することをセミナルの結果で証明した。 ここで、任意の一般化確率論の任意の系の信号次元を計算する解析的およびアルゴリズム的手法を導出する。 線-極端効果による極端測定を考慮すれば十分であることを示すとともに、そのような測定の要素の数を線形次元で制限する。 有限個の極端効果を持つ系では, レイ極端効果を用いて極端測定を特徴付ける問題は, 顔記述によるポリトープの頂点記述を導出する問題であり, 標準手法により便利に解くことができる。 それぞれの測定値に対して,信号次元の計算を線形プログラムとして再キャストし,そのサイズを小さくするための組合せ分岐・バウンドアルゴリズムを提案する。 この結果を用いて、2つの正方形ビット(またはスキート)の合成の極端効果による極端測定を導出し、各スキートが2に等しい信号寸法を持つにもかかわらず、その信号寸法が5であることを証明する。

The signaling dimension of a given physical system quantifies the minimum dimension of a classical system required to reproduce all input/output correlations of the given system. Thus, unlike other dimension measures - such as the dimension of the linear space or the maximum number of (jointly or pairwise) perfectly discriminable states - which examine the correlation space only along a single direction, the signaling dimension does not depend on the arbitrary choice of a specific operational task. In this sense, the signaling dimension summarizes the structure of the entire set of input/output correlations consistent with a given system in a single scalar quantity. For quantum theory, it was recently proved by Frenkel and Weiner in a seminal result that the signaling dimension coincides with the Hilbert space dimension. Here, we derive analytical and algorithmic techniques to compute the signaling dimension for any given system of any given generalized probabilistic theory. We prove that it suffices to consider extremal measurements with ray-extremal effects, and we bound the number of elements of any such measurement in terms of the linear dimension. For systems with a finite number of extremal effects, we recast the problem of characterizing the extremal measurements with ray-extremal effects as the problem of deriving the vertex description of a polytope given its face description, which can be conveniently solved by standard techniques. For each such measurement, we recast the computation of the signaling dimension as a linear program, and we propose a combinatorial branch and bound algorithm to reduce its size. We apply our results to derive the extremal measurements with ray-extremal effects of a composition of two square bits (or squits) and prove that their signaling dimension is five, even though each squit has a signaling dimension equal to two.
翻訳日:2023-11-23 16:33:44 公開日:2023-11-22
# 変圧器型言語モデルの位相的特徴を用いた分布外テキストの検出

Detecting out-of-distribution text using topological features of transformer-based language models ( http://arxiv.org/abs/2311.13102v1 )

ライセンス: Link先を確認
Andres Pollano, Anupam Chaudhuri, Anj Simmons(参考訳) トランスフォーマチック言語モデルにおける注意マップにトポロジカルデータ解析(tda)を適用しながら,od(out-of-distribution)テキストサンプルの検出を試みる。 我々は,変換器を用いた言語モデルであるBERTの分布外検出のためのTDAに基づくアプローチを評価し,BERT CLSの埋め込みに基づく従来のOODアプローチと比較した。 我々のTDAアプローチは,配信内データ(HuffPostの政治・エンターテイメントニュース記事)とドメイン外サンプル(IMDBレビュー)とを区別するCLS埋め込みアプローチよりも優れていることがわかったが,その効果はドメイン外サンプル(CNN/Dailymail)や同一ドメイン(HuffPostのビジネスニュース記事)で低下する。

We attempt to detect out-of-distribution (OOD) text samples though applying Topological Data Analysis (TDA) to attention maps in transformer-based language models. We evaluate our proposed TDA-based approach for out-of-distribution detection on BERT, a transformer-based language model, and compare the to a more traditional OOD approach based on BERT CLS embeddings. We found that our TDA approach outperforms the CLS embedding approach at distinguishing in-distribution data (politics and entertainment news articles from HuffPost) from far out-of-domain samples (IMDB reviews), but its effectiveness deteriorates with near out-of-domain (CNN/Dailymail) or same-domain (business news articles from HuffPost) datasets.
翻訳日:2023-11-23 16:33:14 公開日:2023-11-22
# ct angiographyにおける冠動脈周囲脂肪組織減衰と体積の自動計測

Automated Measurement of Pericoronary Adipose Tissue Attenuation and Volume in CT Angiography ( http://arxiv.org/abs/2311.13100v1 )

ライセンス: Link先を確認
Andrew M. Nguyen, Tejas Sudharshan Mathai, Liangchen Liu, Jianfei Liu, Ronald M. Summers(参考訳) 冠動脈周囲脂肪沈着組織(Pericoronary adipose tissue, PCAT)は、冠動脈近傍の脂肪沈着組織である。 冠動脈炎症の指標であり、冠動脈疾患と関連している。 現在,非侵襲的冠動脈造影(CCTA)を用いて脂肪沈着の厚さ,体積,減衰の測定を行っている。 しかし,左冠状動脈(LCA)上の右冠状動脈(RCA)における半自動アプローチを用いたPCAT測定のみに重点を置いている。 本研究は, 冠状動脈周辺領域におけるPCAT平均減衰量と容積を測定するための完全自動アプローチを開発した。 まず、パブリックなImageCASデータセット(n = 735)から大量の患者のサブセットを使用して、3Dフル解像度nnUNetをトレーニングし、LCAとRCAをセグメンテーションしました。 末梢動脈領域におけるPCATの自動測定を行った。 同じデータセットから保持した患者(n=183)を対象に本手法を評価した。 rcaでは平均ダイススコア(83%)、pcat減衰率(73.81$\pm$12.69hu)、lcaでは平均ダイススコア(81%)、pcat減衰率(77.51$\pm$ 7.94hu)が算出された。 我々の知る限り、PCAT減衰量と容積をRCAとLCAの両方で完全に自動で測定する手法を最初に開発しました。 本研究は,PCAT自動測定が炎症や心疾患の診断のバイオマーカーとして期待されていることを明らかにする。

Pericoronary adipose tissue (PCAT) is the deposition of fat in the vicinity of the coronary arteries. It is an indicator of coronary inflammation and associated with coronary artery disease. Non-invasive coronary CT angiography (CCTA) is presently used to obtain measures of the thickness, volume, and attenuation of fat deposition. However, prior works solely focus on measuring PCAT using semi-automated approaches at the right coronary artery (RCA) over the left coronary artery (LCA). In this pilot work, we developed a fully automated approach for the measurement of PCAT mean attenuation and volume in the region around both coronary arteries. First, we used a large subset of patients from the public ImageCAS dataset (n = 735) to train a 3D full resolution nnUNet to segment LCA and RCA. Then, we automatically measured PCAT in the surrounding arterial regions. We evaluated our method on a held-out test set of patients (n = 183) from the same dataset. A mean Dice score of 83% and PCAT attenuation of -73.81 $\pm$ 12.69 HU was calculated for the RCA, while a mean Dice score of 81% and PCAT attenuation of -77.51 $\pm$ 7.94 HU was computed for the LCA. To the best of our knowledge, we are the first to develop a fully automated method to measure PCAT attenuation and volume at both the RCA and LCA. Our work underscores how automated PCAT measurement holds promise as a biomarker for identification of inflammation and cardiac disease.
翻訳日:2023-11-23 16:32:52 公開日:2023-11-22
# PIE-NeRF:NeRFを用いた物理に基づくインタラクティブエラストダイナミックス

PIE-NeRF: Physics-based Interactive Elastodynamics with NeRF ( http://arxiv.org/abs/2311.13099v1 )

ライセンス: Link先を確認
Yutao Feng, Yintong Shang, Xuan Li, Tianjia Shao, Chenfanfu Jiang, Yin Yang(参考訳) 物理シミュレーションをNeRFとシームレスに統合することで,現実世界の物体の高品質なエラストダイナミックスを生成できることを示す。 既存の方法とは異なり、非線形超弾性をメッシュレスで判別し、四面体メッシュやボクセルグリッドのような中間補助形状プロキシの必要性を回避している。 2次一般化移動最小二乗(Q-GMLS)を用いて非線形ダイナミクスと暗黙モデル上の大きな変形を捉える。 このようなメッシュレス積分は、複素および共次元形状の汎用的なシミュレーションを可能にする。 非線形シミュレーションの複雑さを著しく低減するために,nrf密度場に従って最小二乗カーネルを適応的に配置する。 その結果、インタラクティブな速度で多種多様な超弾性材料に対して、物理的に現実的なアニメーションを簡便に合成できる。 詳細については、https://fytalon.github.io/pienerf/のプロジェクトページをご覧ください。

We show that physics-based simulations can be seamlessly integrated with NeRF to generate high-quality elastodynamics of real-world objects. Unlike existing methods, we discretize nonlinear hyperelasticity in a meshless way, obviating the necessity for intermediate auxiliary shape proxies like a tetrahedral mesh or voxel grid. A quadratic generalized moving least square (Q-GMLS) is employed to capture nonlinear dynamics and large deformation on the implicit model. Such meshless integration enables versatile simulations of complex and codimensional shapes. We adaptively place the least-square kernels according to the NeRF density field to significantly reduce the complexity of the nonlinear simulation. As a result, physically realistic animations can be conveniently synthesized using our method for a wide range of hyperelastic materials at an interactive rate. For more information, please visit our project page at https://fytalon.github.io/pienerf/.
翻訳日:2023-11-23 16:32:27 公開日:2023-11-22
# 大規模言語モデルにおける論理推論の強化と法的応用

Enhancing Logical Reasoning in Large Language Models to Facilitate Legal Applications ( http://arxiv.org/abs/2311.13095v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Wachara Fungwacharakorn, Ken Satoh(参考訳) 言語は思考を伝える手段として機能し、個人間のコミュニケーションを可能にする。 多様な概念を区別し、公正さと不正を識別し、様々な法的概念を理解する能力は、論理的推論に依存している。 大規模言語モデル(llm)は人間の言語理解と生成を模倣しようとするが、論理的推論の能力は限られている。 言語と論理の複雑な関係を深く理解しながら、LLMに論理的推論を効果的に教えるにはどうすればよいのか? 論理的推論におけるLLMの能力の強化に焦点をあてて、法やその他の論理的な分野における適用性の拡大を目指す。 そこで本研究では,LLMの推論能力を改善するためのフレームワークとして,論理フィードバックからの強化学習(Reinforcement Learning from Logical Feedback, RLLF)アプローチを提案する。 RLLFと改訂された評価手法を通じて、この領域における研究の新たな道筋を探求し、言語と論理学の基本的な関係を認識しつつ、複雑な法的推論タスクを処理できるLLMの開発に寄与する。

Language serves as a vehicle for conveying thought, enabling communication among individuals. The ability to distinguish between diverse concepts, identify fairness and injustice, and comprehend a range of legal notions fundamentally relies on logical reasoning. Large Language Models (LLMs) attempt to emulate human language understanding and generation, but their competency in logical reasoning remains limited. This paper seeks to address the philosophical question: How can we effectively teach logical reasoning to LLMs while maintaining a deep understanding of the intricate relationship between language and logic? By focusing on bolstering LLMs' capabilities in logical reasoning, we aim to expand their applicability in law and other logic-intensive disciplines. To this end, we propose a Reinforcement Learning from Logical Feedback (RLLF) approach, which serves as a potential framework for refining LLMs' reasoning capacities. Through RLLF and a revised evaluation methodology, we explore new avenues for research in this domain and contribute to the development of LLMs capable of handling complex legal reasoning tasks while acknowledging the fundamental connection between language and logic.
翻訳日:2023-11-23 16:32:12 公開日:2023-11-22
# H\"older continuous Hessian を用いた非凸非拘束最適化のためのNewton-CG法

Newton-CG methods for nonconvex unconstrained optimization with H\"older continuous Hessian ( http://arxiv.org/abs/2311.13094v1 )

ライセンス: Link先を確認
Chuan He and Zhaosong Lu(参考訳) 本稿では, h\"older continuous hessian の 2 倍微分可能な対象関数を最小化する非凸非拘束最適化問題を考える。 具体的には,h\"olderパラメータが明示的に知られていることを仮定して,この問題の近似一階定常点(fosp)を求めるニュートン共役勾配(newton-cg)法を提案する。 そこで,パラメータの事前知識を必要とせずにパラメータフリーのニュートンcg法を開発した。 我々の知る限りでは、この手法は最もよく知られた反復と操作の複雑さを達成する最初のパラメータフリーな二階法である。 さらに,高確率で考慮された問題の2次定常点(sosp)を近似的に求めるニュートンcg法を提案し,その反復と演算の複雑さを確立する。 最後に,よく知られた正規化ニュートン法よりもパラメータフリーニュートンcg法が優れていることを示すために,予備的な数値計算結果を示す。

In this paper we consider a nonconvex unconstrained optimization problem minimizing a twice differentiable objective function with H\"older continuous Hessian. Specifically, we first propose a Newton-conjugate gradient (Newton-CG) method for finding an approximate first-order stationary point (FOSP) of this problem, assuming the associated the H\"older parameters are explicitly known. Then we develop a parameter-free Newton-CG method without requiring any prior knowledge of these parameters. To the best of our knowledge, this method is the first parameter-free second-order method achieving the best-known iteration and operation complexity for finding an approximate FOSP of this problem. Furthermore, we propose a Newton-CG method for finding an approximate second-order stationary point (SOSP) of the considered problem with high probability and establish its iteration and operation complexity. Finally, we present preliminary numerical results to demonstrate the superior practical performance of our parameter-free Newton-CG method over a well-known regularized Newton method.
翻訳日:2023-11-23 16:31:52 公開日:2023-11-22
# 安定な未学習例:安定な誤り最小化雑音による未学習例のロバスト性向上

Stable Unlearnable Example: Enhancing the Robustness of Unlearnable Examples via Stable Error-Minimizing Noise ( http://arxiv.org/abs/2311.13091v1 )

ライセンス: Link先を確認
Yixin Liu, Kaidi Xu, Xun Chen, and Lichao Sun(参考訳) 大量の画像データのオープンソースは、ディープラーニング技術の開発を促進する。 これと同時に、これらのオープンソースイメージデータセットが不正な第三者によって悪用され、商用または違法な目的でディープラーニングモデルをトレーニングされるという、プライバシリスクも伴う。 一般データへの悪用を避けるため,有毒化技術である無害化手法を提案し,データにある種の知覚不能ノイズを加えることにより,モデルの一般化性能を著しく低下させる。 対人訓練に対する堅牢性をさらに強化するため、既存の研究は防御ノイズと代理モデルの両方で反復対人訓練を活用している。 しかし, サロゲートモデルの強化や防音効果が, 未学習例の頑健性に起因しているかどうかは不明である。 防衛騒音の訓練過程における逆雑音の除去がロバストな既知例の性能を改善することを観察し,サロゲートモデルのロバスト性のみが性能に寄与することを示す。 さらに, 防音性能と防音性能との間には負の相関が認められ, 防音の不安定性の問題が示唆された。 そこで本研究では, 安定な雑音最小化ノイズ (SEM) を導入し, 防御騒音の安定性を向上させるために, 時間を要する対向的摂動ではなく, ランダムな摂動に対する防御ノイズを訓練する。 本研究では,CIFAR-10, CIFAR-100, ImageNet SubsetにおけるSEMの性能を,有効性と効率の両面から検証した。 コードはhttps://github.com/liuyixin-louis/stable-unlearnable-exampleで入手できる。

The open source of large amounts of image data promotes the development of deep learning techniques. Along with this comes the privacy risk of these open-source image datasets being exploited by unauthorized third parties to train deep learning models for commercial or illegal purposes. To avoid the abuse of public data, a poisoning-based technique, the unlearnable example, is proposed to significantly degrade the generalization performance of models by adding a kind of imperceptible noise to the data. To further enhance its robustness against adversarial training, existing works leverage iterative adversarial training on both the defensive noise and the surrogate model. However, it still remains unknown whether the robustness of unlearnable examples primarily comes from the effect of enhancement in the surrogate model or the defensive noise. Observing that simply removing the adversarial noise on the training process of the defensive noise can improve the performance of robust unlearnable examples, we identify that solely the surrogate model's robustness contributes to the performance. Furthermore, we found a negative correlation exists between the robustness of defensive noise and the protection performance, indicating defensive noise's instability issue. Motivated by this, to further boost the robust unlearnable example, we introduce stable error-minimizing noise (SEM), which trains the defensive noise against random perturbation instead of the time-consuming adversarial perturbation to improve the stability of defensive noise. Through extensive experiments, we demonstrate that SEM achieves a new state-of-the-art performance on CIFAR-10, CIFAR-100, and ImageNet Subset in terms of both effectiveness and efficiency. The code is available at https://github.com/liuyixin-louis/Stable-Unlearnable-Example.
翻訳日:2023-11-23 16:31:37 公開日:2023-11-22
# トレーニングデータセット合成のための拡散モデルの限界について

On the Limitation of Diffusion Models for Synthesizing Training Datasets ( http://arxiv.org/abs/2311.13090v1 )

ライセンス: Link先を確認
Shin'ya Yamaguchi and Takuma Fukuda(参考訳) 拡散モデルからの合成サンプルは、実際のトレーニングデータセットの複製として、トレーニング識別モデルの活用に有望である。 しかし,最新の拡散モデルを用いても,合成データセットは実際のデータセットよりも分類性能を劣化させることがわかった。 これは、現代の拡散モデルは、識別タスクを訓練するためのデータセットを複製するために、データ分布を完全に表現していないことを意味する。 本稿では, 実試料から再構成した合成試料を拡散・逆過程により解析することにより, 合成試料と実試料とのギャップを解明する。 再構成における逆過程を開始する時間ステップを変化させることで、元の実データと拡散モデルによって付加される情報との間のトレードオフを制御できる。 再構成されたサンプルとトレーニングモデルを評価することで, 合成データは, 逆ステップの増加に伴ってトレーニングデータ分布のモードに集中し, 分布の外縁を覆うことが困難であることを見出した。 この結果から,現代の拡散モデルではトレーニングデータの分散を完璧に再現するには不十分であることが示唆され,学習データセットの複製における生成モデルの改善の余地がある。

Synthetic samples from diffusion models are promising for leveraging in training discriminative models as replications of real training datasets. However, we found that the synthetic datasets degrade classification performance over real datasets even when using state-of-the-art diffusion models. This means that modern diffusion models do not perfectly represent the data distribution for the purpose of replicating datasets for training discriminative tasks. This paper investigates the gap between synthetic and real samples by analyzing the synthetic samples reconstructed from real samples through the diffusion and reverse process. By varying the time steps starting the reverse process in the reconstruction, we can control the trade-off between the information in the original real data and the information added by diffusion models. Through assessing the reconstructed samples and trained models, we found that the synthetic data are concentrated in modes of the training data distribution as the reverse step increases, and thus, they are difficult to cover the outer edges of the distribution. Our findings imply that modern diffusion models are insufficient to replicate training data distribution perfectly, and there is room for the improvement of generative modeling in the replication of training datasets.
翻訳日:2023-11-23 16:31:09 公開日:2023-11-22
# プロキシによる予測最適化:予測と最適化の学習ジョイントモデル

Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and Optimization ( http://arxiv.org/abs/2311.13087v1 )

ライセンス: Link先を確認
James Kotary, Vincenzo Di Vito, Jacob Christopher, Pascal Van Hentenryck, Ferdinando Fioretto(参考訳) 多くの実世界の意思決定プロセスは、パラメータが未知で観測可能なデータから推論されなければならない最適化問題によってモデル化される。 prediction-then-optimizeフレームワークは、機械学習モデルを使用して、解く前の特徴から最適化問題の未知のパラメータを予測する。 最近の研究は、トレーニングループにおける最適化問題を解いて微分することで、この設定で意思決定品質を向上できることを示し、結果として得られる決定に基づいて直接定義された損失関数によるエンドツーエンドのトレーニングを可能にする。 しかし、このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。 本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。 このアプローチは一般的であり、学習から最適化へのパラダイムの適応に基づいている。 実験により, 予測最適化問題に対して, 効率, 正確, フレキシブルな解を提供するための学習・最適化手法がいくつかあることを示した。

Many real-world decision processes are modeled by optimization problems whose defining parameters are unknown and must be inferred from observable data. The Predict-Then-Optimize framework uses machine learning models to predict unknown parameters of an optimization problem from features before solving. Recent works show that decision quality can be improved in this setting by solving and differentiating the optimization problem in the training loop, enabling end-to-end training with loss functions defined directly on the resulting decisions. However, this approach can be inefficient and requires handcrafted, problem-specific rules for backpropagation through the optimization step. This paper proposes an alternative method, in which optimal solutions are learned directly from the observable features by predictive models. The approach is generic, and based on an adaptation of the Learning-to-Optimize paradigm, from which a rich variety of existing techniques can be employed. Experimental evaluations show the ability of several Learning-to-Optimize methods to provide efficient, accurate, and flexible solutions to an array of challenging Predict-Then-Optimize problems.
翻訳日:2023-11-23 16:30:50 公開日:2023-11-22
# 文脈量子メトロジー

Contextual quantum metrology ( http://arxiv.org/abs/2311.13084v1 )

ライセンス: Link先を確認
Jeongwoo Jae, Jiwon Lee, M. S. Kim, Kwang-Geol Lee, and Jinhyoung Lee(参考訳) 量子メートル法は古典的手法よりも高精度な測定を約束する。 絡み合いは、metrological precisionを強化する量子資源の1つとして認識されている。 しかし、忠実度の高い絡み合い状態の生成にはかなりの課題があり、絡み合いによってメトロロジー的な拡張を達成することは一般的に困難である。 ここでは,測定選択の文脈性は気象学的精度を高めることができ,この拡張は単純な線形光学実験で達成可能であることを示す。 我々は我々の方法論を"contextual quantum metrology"(coQM)と呼ぶ。 文脈性は、様々な量子情報処理タスクのためのリソースとして知られる非古典的性質である。 これまでのところ、文脈性は量子計測のリソースとなるのか、という疑問は未解決のままである。 我々はこの疑問に、従来の量子気象学の限界として知られる量子フィッシャー情報により、1.4から6.0の係数で光偏光度測定の精度を向上できることを示すことによって、肯定的に答える。 本研究では, 相互に相補的な2つの偏極測定による文脈依存性向上を実現する一方, 従来手法では, 精度限界を達成するための最適測定は理論的に見つからないか, 実験的に不可能である。 これらの結果は、測定選択の文脈性が量子計測に応用可能であることを強調する。

Quantum metrology promises higher precision measurements than classical methods. Entanglement has been identified as one of quantum resources to enhance metrological precision. However, generating entangled states with high fidelity presents considerable challenges, and thus attaining metrological enhancement through entanglement is generally difficult. Here, we show that contextuality of measurement selection can enhance metrological precision, and this enhancement is attainable with a simple linear optical experiment. We call our methodology "contextual quantum metrology" (coQM). Contextuality is a nonclassical property known as a resource for various quantum information processing tasks. Until now, it has remained an open question whether contextuality can be a resource for quantum metrology. We answer this question in the affirmative by showing that the coQM can elevate precision of an optical polarimetry by a factor of 1.4 to 6.0, much higher than the one by quantum Fisher information, known as the limit of conventional quantum metrology. We achieve the contextuality-enabled enhancement with two polarization measurements which are mutually complementary, whereas, in the conventional method, some optimal measurements to achieve the precision limit are either theoretically difficult to find or experimentally infeasible. These results highlight that the contextuality of measurement selection is applicable in practice for quantum metrology.
翻訳日:2023-11-23 16:30:34 公開日:2023-11-22
# 数秒で飛ぶことを学ぶ

Learning to Fly in Seconds ( http://arxiv.org/abs/2311.13081v1 )

ライセンス: Link先を確認
Jonas Eschmann, Dario Albani, Giuseppe Loianno(参考訳) 学習に基づく手法、特に強化学習(RL)は、展開の合理化、性能の向上、自律型マルチロータ航空機の制御における一般化の実現を大いに約束する。 deep rlは、シミュレーションにおいて、印象的な忠実性と俊敏性で複雑なシステムを制御することができるが、シミュレーションから現実への移動は、しばしば橋渡しの難しい現実のギャップをもたらす。 さらに、RLは違法に長い訓練時間で悩まされることが多い。 本研究では,非対称なアクター・クリティカル・ベースアーキテクチャと,エンドツーエンドのクオータ制御のための信頼性の高いRLベースのトレーニングパラダイムを提案する。 カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを高め,学習時間を短縮することを示す。 低レベル/エンドツーエンドのマルチロータ制御に関わる課題を正確に議論するために、既存の制御抽象化のレベルと非線形性、ドメインパラメータを分類する分類法も導入する。 我々のフレームワークは、コンシューマ級ラップトップでの18秒のトレーニング後に直接RPM制御のためのシミュレーション・トゥ・リアル(Sim2Real)転送を可能にするとともに、マイクロコントローラへのデプロイにより、リアルタイム保証下でマルチロータを制御する。 最後に,本手法は,実際のクラジフリーナノ四極子を用いた既存の最先端制御ソリューションと比較して,トラジェクトリトラッキングにおける競合性能を示す。 我々は、非常に高速なマルチロータダイナミックスシミュレータを含むコードをオープンソース化し、ラップトップGPU上で毎秒約5ヶ月の飛行をシミュレートできる。 高速なトレーニング時間と、安価なオフザシェルフのクアロータへの展開により、導入障壁を低くし、これらのシステムの研究と開発を民主化するのに役立ちます。

Learning-based methods, particularly Reinforcement Learning (RL), hold great promise for streamlining deployment, enhancing performance, and achieving generalization in the control of autonomous multirotor aerial vehicles. Deep RL has been able to control complex systems with impressive fidelity and agility in simulation but the simulation-to-reality transfer often brings a hard-to-bridge reality gap. Moreover, RL is commonly plagued by prohibitively long training times. In this work, we propose a novel asymmetric actor-critic-based architecture coupled with a highly reliable RL-based training paradigm for end-to-end quadrotor control. We show how curriculum learning and a highly optimized simulator enhance sample complexity and lead to fast training times. To precisely discuss the challenges related to low-level/end-to-end multirotor control, we also introduce a taxonomy that classifies the existing levels of control abstractions as well as non-linearities and domain parameters. Our framework enables Simulation-to-Reality (Sim2Real) transfer for direct RPM control after only 18 seconds of training on a consumer-grade laptop as well as its deployment on microcontrollers to control a multirotor under real-time guarantees. Finally, our solution exhibits competitive performance in trajectory tracking, as demonstrated through various experimental comparisons with existing state-of-the-art control solutions using a real Crazyflie nano quadrotor. We open source the code including a very fast multirotor dynamics simulator that can simulate about 5 months of flight per second on a laptop GPU. The fast training times and deployment to a cheap, off-the-shelf quadrotor lower the barriers to entry and help democratize the research and development of these systems.
翻訳日:2023-11-23 16:30:12 公開日:2023-11-22
# 超流動ヘリウムにおける分子回転のコヒーレント制御

Coherent control of molecular rotation in superfluid helium ( http://arxiv.org/abs/2311.13077v1 )

ライセンス: Link先を確認
Alexander A. Milner, Ian MacPhail-Bartley, Katarina Preocanin, Shroyon Dasgupta, Xuanshan Peng, Valery Milner(参考訳) バルク超流動$^4\mathrm{He}$における分子回転の制御を実験的に実証した。 準安定ヘリウムダイマーである$\mathrm{he}_2^*$は、直線偏光フェムト秒レーザーパルスの周期列によって回転励起される。 パルス列の周期を変化させることで,$\mathrm{He}_2^*$の回転励起の度合いを向上あるいは抑制できる一方で,パルス列の偏極ベクトル間の相対角度によって分子回転の方向が制御可能であることを示す。 実験結果は単純なモデルに基づく数値計算と一致しており、ここでは$\mathrm{he}_2^*$分子は超流動と相互作用しない。

We experimentally demonstrate control of molecular rotation in bulk superfluid $^4\mathrm{He}$. Metastable helium dimers, $\mathrm{He}_2^*$, are rotationally excited by a periodic train of linearly polarized femtosecond laser pulses. We show that the degree of rotational excitation of $\mathrm{He}_2^*$ can be enhanced or suppressed by varying the period of the pulse train, whereas the directionality of molecular rotation can be controlled by the relative angle between the polarization vectors of pulses in the train. The experimental results are in agreement with numerical calculations, based on a simple model, in which $\mathrm{He}_2^*$ molecules do not interact with the superfluid.
翻訳日:2023-11-23 16:29:42 公開日:2023-11-22
# ケーキを持って食べよう - 効率的で正確な分割連合学習を目指して

Have Your Cake and Eat It Too: Toward Efficient and Accurate Split Federated Learning ( http://arxiv.org/abs/2311.13163v1 )

ライセンス: Link先を確認
Dengke Yan and Ming Hu and Zeke Xia and Yanxin Yang and Jun Xia and Xiaofei Xie and Mingsong Chen(参考訳) リソース制約シナリオのアドバンテージのため、SFL(Split Federated Learning)はAIoTシステムで有望である。 しかし、データの不均一性とストラグラーのため、SFLは低い推測精度と低い効率の課題に悩まされる。 これらの問題に対処するため,Sliding Split Federated Learning (S$^2$FL) という新しいSFL手法を提案する。 計算能力に応じて異なるモデル部分をAIoTデバイスに動的にディスパッチすることにより、S$^2$FLはストラグラーによる低トレーニング効率を軽減することができる。 異なるデータ分布を持つデバイスによってアップロードされた機能を組み合わせて、複数の大きなバッチを生成することで、s$^2$flは、データの不均一性に起因するパフォーマンス低下を軽減することができる。 実験の結果、従来のSFLと比較して、S$^2$FLは最大16.5\%の推論精度の改善と3.54倍のトレーニング加速を達成できることがわかった。

Due to its advantages in resource constraint scenarios, Split Federated Learning (SFL) is promising in AIoT systems. However, due to data heterogeneity and stragglers, SFL suffers from the challenges of low inference accuracy and low efficiency. To address these issues, this paper presents a novel SFL approach, named Sliding Split Federated Learning (S$^2$FL), which adopts an adaptive sliding model split strategy and a data balance-based training mechanism. By dynamically dispatching different model portions to AIoT devices according to their computing capability, S$^2$FL can alleviate the low training efficiency caused by stragglers. By combining features uploaded by devices with different data distributions to generate multiple larger batches with a uniform distribution for back-propagation, S$^2$FL can alleviate the performance degradation caused by data heterogeneity. Experimental results demonstrate that, compared to conventional SFL, S$^2$FL can achieve up to 16.5\% inference accuracy improvement and 3.54X training acceleration.
翻訳日:2023-11-23 16:23:10 公開日:2023-11-22
# 3dポイントクラウド分類とセグメンテーションのためのテスト時間拡張

Test-Time Augmentation for 3D Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2311.13152v1 )

ライセンス: Link先を確認
Tuan-Anh Vu, Srinjay Sarkar, Zhiyuan Zhang, Binh-Son Hua, Sai-Kit Yeung(参考訳) データ拡張は、ディープラーニングタスクのパフォーマンスを高める強力なテクニックだが、3dディープラーニングではあまり注目されていない。 3d形状が低点密度でスパースに表現されると、下流タスクのパフォーマンスが著しく低下することが知られている。 この研究は、3dポイントクラウドのためのテスト時間拡張(tta)を探求する。 我々は暗黙の表現と点雲のアップサンプリングの最近の革命に触発され、高品質な3次元表面再構成と近接表面をそれぞれ生成できる。 私たちのアイデアは、暗黙のフィールド再構成やポイントクラウドアップサンプリング技術を、ポイントクラウドデータを拡張するための体系的な方法として活用することです。 主に,再構成結果からポイントをサンプリングし,テスト時拡張データとしてサンプリングしたポイントクラウドを用いて,両方の戦略をテストした。 両戦略が精度向上に有効であることを示す。 テスト時間拡張のためのポイントクラウドのアップサンプリングは、modelnet40、shapenet、scanobjectnn、semantickittiデータセット、特にスパースポイントクラウドにおけるオブジェクトの分類やセグメンテーションといった下流タスクにおいて、より重要なパフォーマンス改善をもたらすことを見出しました。

Data augmentation is a powerful technique to enhance the performance of a deep learning task but has received less attention in 3D deep learning. It is well known that when 3D shapes are sparsely represented with low point density, the performance of the downstream tasks drops significantly. This work explores test-time augmentation (TTA) for 3D point clouds. We are inspired by the recent revolution of learning implicit representation and point cloud upsampling, which can produce high-quality 3D surface reconstruction and proximity-to-surface, respectively. Our idea is to leverage the implicit field reconstruction or point cloud upsampling techniques as a systematic way to augment point cloud data. Mainly, we test both strategies by sampling points from the reconstructed results and using the sampled point cloud as test-time augmented data. We show that both strategies are effective in improving accuracy. We observed that point cloud upsampling for test-time augmentation can lead to more significant performance improvement on downstream tasks such as object classification and segmentation on the ModelNet40, ShapeNet, ScanObjectNN, and SemanticKITTI datasets, especially for sparse point clouds.
翻訳日:2023-11-23 16:22:50 公開日:2023-11-22
# 責任あるaiの未来の構築: 大きな言語モデルに基づくエージェントを設計するためのパターン指向参照アーキテクチャ

Building the Future of Responsible AI: A Pattern-Oriented Reference Architecture for Designing Large Language Model based Agents ( http://arxiv.org/abs/2311.13148v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Stefan Harrer, Jon Whittle(参考訳) 大規模言語モデル(LLM)は、自然言語テキストの理解と生成能力から、限られた推論能力を持つ計画を含む変換技術として広く認識されている。 LLMベースのエージェントは、LLMの能力から自主性を導き、与えられた目標を自律的に管理可能なタスクのセットに分解し、目標を達成するためにタスク実行を編成することを可能にする。 llmベースの自律エージェント構築への多大な努力にもかかわらず、エージェントのアーキテクチャ設計はまだ体系的に検討されていない。 また、自律エージェントを計画と実行に使用するという大きなメリットもあるが、セキュリティや説明責任など、AI関連のソフトウェア品質特性の責任については、深刻な考慮がある。 そこで本稿では,LLMに基づく自律エージェントの設計において,アーキテクチャ設計ガイドラインとして機能するパターン指向参照アーキテクチャを提案する。 2つの実世界のエージェントのアーキテクチャにマッピングすることで,提案する参照アーキテクチャの完全性と有用性を評価する。

Large language models (LLMs) have been widely recognized as transformative technology due to their capabilities to understand and generate natural language text, including plans with some limited reasoning capabilities. LLM-based agents derive their autonomy from the capabilities of LLMs, which enable them to autonomously break down the given goal into a set of manageable tasks and orchestrate the task execution to fulfill the goal. Despite the huge efforts put into building LLM-based autonomous agents, the architecture design of the agents has not yet been systematically explored. Also, while there are significant benefits of using autonomous agents for planning and execution, there are serious considerations regarding responsible AI related software quality attributes, such as security and accountability. Therefore, this paper presents a pattern-oriented reference architecture that serves as architecture design guidelines and enables responsible-AI-by-design when designing LLM-based autonomous agents. We evaluate the completeness and utility of the proposed reference architecture by mapping it to the architecture of two real-world agents.
翻訳日:2023-11-23 16:22:29 公開日:2023-11-22
# 環状対称性をもつ最適輸送

Optimal Transport with Cyclic Symmetry ( http://arxiv.org/abs/2311.13147v1 )

ライセンス: Link先を確認
Shoichiro Takeda, Yasunori Akagi, Naoki Marumo, Kenta Niwa(参考訳) 入力データの循環対称性構造を利用した最適輸送(OT)のための新しい高速アルゴリズムを提案する。 このような循環対称性を持つotは、画像処理、都市計画、グラフ処理といった様々な実例において普遍的に現れる。 本研究の主目的は, 循環対称性と様々な最適化手法を用いて, 変数が著しく少ない小さな最適化問題に還元することである。 この削減に基づいて、アルゴリズムは元のOTの代わりに小さな最適化問題を解く。 その結果、本アルゴリズムは元のOTを直接解くよりも早く、元のOTの最適解と目的関数値を得ることができた。 本稿では,線形計画 ot (lot) と強凸正規化 ot (entropy-regularized ot) という2つの重要な ot 定式化に注目する。 厳密/近似循環対称性を持つ合成/実世界のデータにおけるLOTとEROTのアルゴリズムの有効性を示す実験を行った。 理論的および実験的結果を通じて, ot研究分野に対称性の概念を初めて導入することに成功した。

We propose novel fast algorithms for optimal transport (OT) utilizing a cyclic symmetry structure of input data. Such OT with cyclic symmetry appears universally in various real-world examples: image processing, urban planning, and graph processing. Our main idea is to reduce OT to a small optimization problem that has significantly fewer variables by utilizing cyclic symmetry and various optimization techniques. On the basis of this reduction, our algorithms solve the small optimization problem instead of the original OT. As a result, our algorithms obtain the optimal solution and the objective function value of the original OT faster than solving the original OT directly. In this paper, our focus is on two crucial OT formulations: the linear programming OT (LOT) and the strongly convex-regularized OT, which includes the well-known entropy-regularized OT (EROT). Experiments show the effectiveness of our algorithms for LOT and EROT in synthetic/real-world data that has a strict/approximate cyclic symmetry structure. Through theoretical and experimental results, this paper successfully introduces the concept of symmetry into the OT research field for the first time.
翻訳日:2023-11-23 16:22:11 公開日:2023-11-22
# 自己監督型Deep Denoising法による画像圧縮型MRI

Single Image Compressed Sensing MRI via a Self-Supervised Deep Denoising Approach ( http://arxiv.org/abs/2311.13144v1 )

ライセンス: Link先を確認
Marlon Bran Lorenzana, Feng Liu, Shekhar S. Chandra(参考訳) 圧縮センシング(CS)の一般的な手法は、非線形再構成モデルのトレーニングに大量のデータを使用するディープラーニング(DL)に依存している。 しかし、複数のデータセットに対する汎用性とアクセスを保証することは、現実世界のアプリケーションを実現するのに困難である。 これらの問題に対処するため,本論文では,CSアーティファクトの深部・細部を連成的に正規化可能な,単イメージの自己監督型(SS)CS-MRIフレームワークを提案する。 この手法は、スパース再構成を仮定して取り除くのが難しい、あるいはノイズのない画像を生成するためにCNNの誘導バイアスのみに依存する、構造化されたCSアーチファクトを効果的に抑制する。 これにより、どちらのアプローチよりも画質が向上する。 メトリクスは脳と膝のデータセット上でCartesian 1Dマスクを用いて評価され、PSNRは平均2-4dB改善した。

Popular methods in compressed sensing (CS) are dependent on deep learning (DL), where large amounts of data are used to train non-linear reconstruction models. However, ensuring generalisability over and access to multiple datasets is challenging to realise for real-world applications. To address these concerns, this paper proposes a single image, self-supervised (SS) CS-MRI framework that enables a joint deep and sparse regularisation of CS artefacts. The approach effectively dampens structured CS artefacts, which can be difficult to remove assuming sparse reconstruction, or relying solely on the inductive biases of CNN to produce noise-free images. Image quality is thereby improved compared to either approach alone. Metrics are evaluated using Cartesian 1D masks on a brain and knee dataset, with PSNR improving by 2-4dB on average.
翻訳日:2023-11-23 16:21:56 公開日:2023-11-22
# Diffusion360:拡散モデルに基づくシームレス360度パノラマ画像生成

Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models ( http://arxiv.org/abs/2311.13141v1 )

ライセンス: Link先を確認
Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie(参考訳) 本報告は拡散モデルに基づく360度パノラマ画像生成タスクに関する技術報告である。 通常の2d画像とは異なり、360度パノラマ画像は360^\circ\times 180^\circ$視野全体を捉える。 したがって、360パノラマ画像の右端と左端は継続する必要がある。 しかし、現在の拡散パイプラインはそのようなシームレスな360度パノラマ画像の生成には適していない。 そこで本研究では,消音段とvae復号段の両方における円ブレンド戦略を提案し,幾何連続性を維持する。 これに基づいて, \textbf{text-to-360-panoramas} と \textbf{single-image-to-360-panoramas} の2つのモデルを示す。 コードは、オープンソースのプロジェクトとして、 \href{https://github.com/ArcherFMY/SD-T2I-360PanoImage}{https://github.com/ArcherFMY/SD-T2I-360PanoImage} と \href{https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary}{ModelScope} でリリースされた。

This is a technical report on the 360-degree panoramic image generation task based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic images capture the entire $360^\circ\times 180^\circ$ field of view. So the rightmost and the leftmost sides of the 360 panoramic image should be continued, which is the main challenge in this field. However, the current diffusion pipeline is not appropriate for generating such a seamless 360-degree panoramic image. To this end, we propose a circular blending strategy on both the denoising and VAE decoding stages to maintain the geometry continuity. Based on this, we present two models for \textbf{Text-to-360-panoramas} and \textbf{Single-Image-to-360-panoramas} tasks. The code has been released as an open-source project at \href{https://github.com/ArcherFMY/SD-T2I-360PanoImage}{https://github.com/ArcherFMY/SD-T2I-360PanoImage} and \href{https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary}{ModelScope}
翻訳日:2023-11-23 16:21:39 公開日:2023-11-22
# 映像の符号化露光と暗黙的神経表現に基づく軽量高速撮影

Lightweight High-Speed Photography Built on Coded Exposure and Implicit Neural Representation of Videos ( http://arxiv.org/abs/2311.13134v1 )

ライセンス: Link先を確認
Zhihong Zhang, Runzhao Yang, Jinli Suo, Yuxiao Cheng, Qionghai Dai(参考訳) 高速シーンを高解像度で撮影するコンパクトカメラは要求が高いが、要求される高帯域幅は、しばしば大容量で重いシステムにつながり、低容量のプラットフォームでの使用を制限する。 フレームシーケンスをぼやけたスナップショットにエンコードし、その後に潜むシャープなビデオを検索するためのコード化された露出設定を採用することは、軽量なソリューションとなる。 しかし, 動きの曖昧さ, 動き方向の内在的あいまいさ, 自然動画における多様な動きなどにより, ぼやけた動きの復元は極めて困難である。 本研究は,従来の符号化露光イメージング技術と映像の創発的な暗黙的ニューラル表現を活かし,撮像過程中に動き方向キューをぼやけた画像に巧みに埋め込み,その埋め込み動き方向キューを利用したぼやけた画像から潜在映像シーケンスを順次検索する新しい自己再帰型ニューラルネットワークを開発する。 提案手法の有効性と有効性を検証するため,ベンチマークデータセットと実画像のぼかし実験を行った。 その結果,提案フレームワークは既存の手法よりも品質と柔軟性に優れることがわかった。 私たちの仕事のコードはhttps://github.com/zhihongz/bdinrで入手できる。

The compact cameras recording high-speed scenes with high resolution are highly demanded, but the required high bandwidth often leads to bulky, heavy systems, which limits their applications on low-capacity platforms. Adopting a coded exposure setup to encode a frame sequence into a blurry snapshot and retrieve the latent sharp video afterward can serve as a lightweight solution. However, restoring motion from blur is quite challenging due to the high ill-posedness of motion blur decomposition, intrinsic ambiguity in motion direction, and diverse motions in natural videos. In this work, by leveraging classical coded exposure imaging technique and emerging implicit neural representation for videos, we tactfully embed the motion direction cues into the blurry image during the imaging process and develop a novel self-recursive neural network to sequentially retrieve the latent video sequence from the blurry image utilizing the embedded motion direction cues. To validate the effectiveness and efficiency of the proposed framework, we conduct extensive experiments on benchmark datasets and real-captured blurry images. The results demonstrate that our proposed framework significantly outperforms existing methods in quality and flexibility. The code for our work is available at https://github.com/zhihongz/BDINR
翻訳日:2023-11-23 16:21:06 公開日:2023-11-22
# 限界: 評価パラダイムをまたいだ命令チューニングはより少なくなる

LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms ( http://arxiv.org/abs/2311.13133v1 )

ライセンス: Link先を確認
Aditi Jha, Sam Havens, Jeremey Dohmann, Alex Trott, Jacob Portes(参考訳) 大きな言語モデルは伝統的に大きな命令データセットで微調整される。 しかし、最近の研究では、小型で高品質なデータセットが一般的な目的の指示に十分であることが示唆されている。 この微調整のベストプラクティスに関するコンセンサスの欠如は、LCM評価に対するアプローチの急激な変更によるものである。 本研究では,従来のパープレキシティに基づくNLPベンチマークと,オープンなモデルベース評価において,少量の多様な微調整サンプルが性能を向上させることができるかどうかを問う。 オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。 その結果,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を発揮することがわかった。 最後に、教科書スタイルとオープンエンドQAファインタニングデータセットの混合により、両方の評価パラダイムの性能が最適化されることを示す。

Large Language Models are traditionally finetuned on large instruction datasets. However recent studies suggest that small, high-quality datasets can suffice for general purpose instruction following. This lack of consensus surrounding finetuning best practices is in part due to rapidly diverging approaches to LLM evaluation. In this study, we ask whether a small amount of diverse finetuning samples can improve performance on both traditional perplexity-based NLP benchmarks, and on open-ended, model-based evaluation. We finetune open-source MPT-7B and MPT-30B models on instruction finetuning datasets of various sizes ranging from 1k to 60k samples. We find that subsets of 1k-6k instruction finetuning samples are sufficient to achieve good performance on both (1) traditional NLP benchmarks and (2) model-based evaluation. Finally, we show that mixing textbook-style and open-ended QA finetuning datasets optimizes performance on both evaluation paradigms.
翻訳日:2023-11-23 16:20:26 公開日:2023-11-22
# P2RBox: オブジェクト指向オブジェクト検出に必要なポイントは1つ

P2RBox: A Single Point is All You Need for Oriented Object Detection ( http://arxiv.org/abs/2311.13128v1 )

ライセンス: Link先を確認
Guangming Cao, Xuehui Yu, Wenwen Yu, Xumeng Han, Xue Yang, Guorong Li, Jianbin Jiao, Zhenjun Han(参考訳) オブジェクト指向物体検出(Oriented Object Detection)は、コンピュータビジョンの特殊なサブフィールドであり、様々なシナリオにまたがるアプリケーションを見つけ出す。 逆に、オブジェクトを単一ポイントとして扱うポイントアノテーションは、回転と水平のバウンディングボックスに代わるコスト効率のよい代替手段を提供するが、サイズや方向情報の喪失によりパフォーマンスを犠牲にする。 本研究では,点アノテーションとマスク生成器を用いてマスク提案を作成し,インスペクタモジュールと制約モジュールを通したフィルタリングを行うp2rboxネットワークを提案する。 このプロセスは高品質のマスクを選択し、その後完全に監督された検出器を訓練するために回転箱アノテーションに変換される。 具体的には、マスクの意味スコアを評価するために、マルチインスタンス学習原則に根ざしたインスペクタモジュールを慎重に作成しました。 また、Constrainer Moduleとともに、より堅牢なマスク品質評価も提案しました。 さらに、対称行列のスペクトル定理にインスパイアされた対称性軸推定(SAE)モジュールを導入し、トップパフォーマンスマスクの提案を回転バウンディングボックスに変換する。 P2RBoxは、RetinaNet、Rotated FCOS、Oriented R-CNNという、完全に制御された3つのオブジェクト検出器とうまく機能する。 Oriented R-CNNと組み合わせることで、P2RBoxはDOTA-v1.0テストデータセットで62.26%を達成した。 我々の知る限り、これは指向した物体検出器を点監視で訓練する最初の試みである。

Oriented object detection, a specialized subfield in computer vision, finds applications across diverse scenarios, excelling particularly when dealing with objects of arbitrary orientations. Conversely, point annotation, which treats objects as single points, offers a cost-effective alternative to rotated and horizontal bounding boxes but sacrifices performance due to the loss of size and orientation information. In this study, we introduce the P2RBox network, which leverages point annotations and a mask generator to create mask proposals, followed by filtration through our Inspector Module and Constrainer Module. This process selects high-quality masks, which are subsequently converted into rotated box annotations for training a fully supervised detector. Specifically, we've thoughtfully crafted an Inspector Module rooted in multi-instance learning principles to evaluate the semantic score of masks. We've also proposed a more robust mask quality assessment in conjunction with the Constrainer Module. Furthermore, we've introduced a Symmetry Axis Estimation (SAE) Module inspired by the spectral theorem for symmetric matrices to transform the top-performing mask proposal into rotated bounding boxes. P2RBox performs well with three fully supervised rotated object detectors: RetinaNet, Rotated FCOS, and Oriented R-CNN. By combining with Oriented R-CNN, P2RBox achieves 62.26% on DOTA-v1.0 test dataset. As far as we know, this is the first attempt at training an oriented object detector with point supervision.
翻訳日:2023-11-23 16:19:59 公開日:2023-11-22
# 無許可テキスト対画像拡散に基づく合成に対するロバストな知覚不可能な摂動に向けて

Toward Robust Imperceptible Perturbation against Unauthorized Text-to-image Diffusion-based Synthesis ( http://arxiv.org/abs/2311.13127v1 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, and Lichao Sun(参考訳) テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。 しかし、これらのツールは間違った手で、誤解を招くか有害なコンテンツを作ることができ、個人を危険にさらす。 この問題に対処するため、既存の中毒ベースのアプローチでは、悪意のある使用からユーザイメージを“理解不能”にするために、ユーザイメージを摂動させます。 これらの防御的アプローチの2つの限界を特定します 一 難解な二段階最適化を解決するための手作りのヒューリスティックによる副最適化及び ii)ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。 これらの課題を解決するために,我々はメタラーニングフレームワークを用いて,トランスフォーメーションサンプリングプロセスを追加して,トランスフォーメーション可能かつロバストな摂動を実現するメタクロークを提案する。 具体的には,トランスファー可能でモデル非依存な摂動を実現するために,代理拡散モデルのプールを用いる。 さらに,追加の変換処理を組み込むことにより,パーソナライズ・ジェネレーションにおいて,変換・ロバスト意味的歪みや劣化を引き起こすのに十分である,単純なデノイズ・エラーの最大化損失を設計できる。 VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。 特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。 私たちのコードはhttps://github.com/liuyixin-louis/metacloakで利用可能です。

Text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing poisoning-based approaches perturb user images in an imperceptible way to render them "unlearnable" from malicious uses. We identify two limitations of these defending approaches: i) sub-optimal due to the hand-crafted heuristics for solving the intractable bilevel optimization and ii) lack of robustness against simple data transformations like Gaussian filtering. To solve these challenges, we propose MetaCloak, which solves the bi-level poisoning problem with a meta-learning framework with an additional transformation sampling process to craft transferable and robust perturbation. Specifically, we employ a pool of surrogate diffusion models to craft transferable and model-agnostic perturbation. Furthermore, by incorporating an additional transformation process, we design a simple denoising-error maximization loss that is sufficient for causing transformation-robust semantic distortion and degradation in a personalized generation. Extensive experiments on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing approaches. Notably, MetaCloak can successfully fool online training services like Replicate, in a black-box manner, demonstrating the effectiveness of MetaCloak in real-world scenarios. Our code is available at https://github.com/liuyixin-louis/MetaCloak.
翻訳日:2023-11-23 16:18:58 公開日:2023-11-22
# 大規模言語モデルのためのパラメータ効率の良いファインチューニングに向けて:ポジションペーパー

Towards Better Parameter-Efficient Fine-Tuning for Large Language Models: A Position Paper ( http://arxiv.org/abs/2311.13126v1 )

ライセンス: Link先を確認
Chengyu Wang, Junbing Yan, Wei Zhang, Jun Huang(参考訳) 本稿では,Large Language Models (LLMs) におけるパラメータ効率の良いファインチューニング (PEFT) の必要性について述べる。 LLMには優れた能力があるが、その広範なパラメータ要求と関連する計算要求は、現実のアプリケーションにおける実用性とスケーラビリティを妨げている。 本稿は,LLMの強力な能力を完全に活用するために対処すべき重要な課題とオープンな課題を,現状と今後の研究の必要性を強調した。 これらの課題には、新しい効率的なPEFTアーキテクチャ、異なる学習環境のためのPEFT、モデル圧縮技術を組み合わせたPEFT、マルチモーダルLLMのためのPEFTの探索が含まれる。 本論文は,LLMのより効率的でアクセスしやすいPEFTに関するさらなる研究と議論を促進することを目的としている。

This paper delves into the pressing need in Parameter-Efficient Fine-Tuning (PEFT) for Large Language Models (LLMs). While LLMs possess remarkable capabilities, their extensive parameter requirements and associated computational demands hinder their practicality and scalability for real-world applications. Our position paper highlights current states and the necessity of further studying into the topic, and recognizes significant challenges and open issues that must be addressed to fully harness the powerful abilities of LLMs. These challenges encompass novel efficient PEFT architectures, PEFT for different learning settings, PEFT combined with model compression techniques, and the exploration of PEFT for multi-modal LLMs. By presenting this position paper, we aim to stimulate further research and foster discussions surrounding more efficient and accessible PEFT for LLMs.
翻訳日:2023-11-23 16:18:27 公開日:2023-11-22
# DAE-Net:きめ細かい形状のコセグメンテーションのためのデフォーミングオートエンコーダ

DAE-Net: Deforming Auto-Encoder for fine-grained shape co-segmentation ( http://arxiv.org/abs/2311.13125v1 )

ライセンス: Link先を確認
Zhiqin Chen, Qimin Chen, Hang Zhou, Hao Zhang(参考訳) 形状収集から変形可能な部分テンプレートの集合を学習する,教師なしの3次元形状合成法を提案する。 コレクションの構造的変化に対応するため,本ネットワークは,アフィン変換されたテンプレート部分の選抜サブセットによって,各形状を合成する。 部品テンプレートの表現力の最大化を目的として,変形容量の制約を課しながら,多種多様な形状の変形をモデル化し,元の表現された部品の忠実性を確保するための部品単位の変形ネットワークを提案する。 また,局所ミニマを効果的に克服する訓練手法を提案する。 アーキテクチャ上,我々のネットワークは分岐オートエンコーダであり,Voxel形状を入力とし,部分変換行列,潜時符号および部分存在スコアを生成するCNNエンコーダと,復調損失を定義するための点占有を出力するデコーダを備える。 DAE-Net for Deforming Auto-Encoderとよばれる我々のネットワークは、様々な形状で一貫した細粒度でコンパクトで有意義な部分を生み出す、教師なしの3次元形状のコセグメンテーションを実現することができる。 shapenet part dataset、dfaust、objaverseの動物サブセットについて広範な実験を行い、従来の方法よりも優れた性能を示す。

We present an unsupervised 3D shape co-segmentation method which learns a set of deformable part templates from a shape collection. To accommodate structural variations in the collection, our network composes each shape by a selected subset of template parts which are affine-transformed. To maximize the expressive power of the part templates, we introduce a per-part deformation network to enable the modeling of diverse parts with substantial geometry variations, while imposing constraints on the deformation capacity to ensure fidelity to the originally represented parts. We also propose a training scheme to effectively overcome local minima. Architecturally, our network is a branched autoencoder, with a CNN encoder taking a voxel shape as input and producing per-part transformation matrices, latent codes, and part existence scores, and the decoder outputting point occupancies to define the reconstruction loss. Our network, coined DAE-Net for Deforming Auto-Encoder, can achieve unsupervised 3D shape co-segmentation that yields fine-grained, compact, and meaningful parts that are consistent across diverse shapes. We conduct extensive experiments on the ShapeNet Part dataset, DFAUST, and an animal subset of Objaverse to show superior performance over prior methods.
翻訳日:2023-11-23 16:17:58 公開日:2023-11-22
# マルチモーダルインコンテキスト学習によるエゴ進化型シーンテキスト認識

Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer ( http://arxiv.org/abs/2311.13120v1 )

ライセンス: Link先を確認
Zhen Zhao, Can Huang, Binghong Wu, Chunhui Lin, Hao Liu, Zhizhong Zhang, Xin Tan, Jingqun Tang, Yuan Xie(参考訳) 野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。 簡単な解決策は、特定のシナリオに合わせて微調整を行うことだが、計算量が多く、様々なシナリオに複数のモデルコピーを必要とする。 近年の研究では、大規模言語モデル(LLM)が、訓練のない方法でいくつかの実演例から学習できることが示されている。 それでも、LLMをテキスト認識器として適用することは許容できないリソース消費である。 さらに,本実験の結果から,ILCがSTRで失敗するのは,学習段階における多様なサンプルからの文脈情報の組み入れが不十分であったためと考えられる。 そこで本稿では,コンテキストに富んだシーンテキストシーケンスをトレーニングしたSTRモデルであるE$^2$STRを紹介し,提案したコンテキスト内トレーニング戦略を用いてシーケンスを生成する。 E$^2$STR は、STR において有効な ICL 機能を達成するのに、正規サイズのモデルで十分であることを示す。 大規模な実験により、E$^2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端アプローチよりも優れていた。

Scene text recognition (STR) in the wild frequently encounters challenges when coping with domain variations, font diversity, shape deformations, etc. A straightforward solution is performing model fine-tuning tailored to a specific scenario, but it is computationally intensive and requires multiple model copies for various scenarios. Recent studies indicate that large language models (LLMs) can learn from a few demonstration examples in a training-free manner, termed "In-Context Learning" (ICL). Nevertheless, applying LLMs as a text recognizer is unacceptably resource-consuming. Moreover, our pilot experiments on LLMs show that ICL fails in STR, mainly attributed to the insufficient incorporation of contextual information from diverse samples in the training stage. To this end, we introduce E$^2$STR, a STR model trained with context-rich scene text sequences, where the sequences are generated via our proposed in-context training strategy. E$^2$STR demonstrates that a regular-sized model is sufficient to achieve effective ICL capabilities in STR. Extensive experiments show that E$^2$STR exhibits remarkable training-free adaptation in various scenarios and outperforms even the fine-tuned state-of-the-art approaches on public benchmarks.
翻訳日:2023-11-23 16:17:32 公開日:2023-11-22
# コヒーレントカオスシステムの量子最適化:カトマンズバスの場合

Quantum optimization of coherent chaotic systems: A case for buses of Kathmandu ( http://arxiv.org/abs/2311.13119v1 )

ライセンス: Link先を確認
Kiran Adhikari, Aman Ganeju, Iva Kumari Lamichhane, Rohit Bhattarai, Manghang Limbu, Nishma Bhattarai, Christian Deppe(参考訳) 本稿では,カトマンズ市の交通を最適化する現実的な問題を解決するために,新しい量子コンピューティング手法を提案する。 カスマンドゥの交通システムは混乱しており、交通を管轄する中央機関は存在しない。 このカオス的特徴を量子最適化の手順で活用する。 量子カオス理論のウィグナー・ダイソン分布は、バスドライバーが利益を最大化するために最も効果的なバス間隔分布として浮上した。 リアルタイムgpsバス位置情報を用いたバスの統計特性を調査し,27km環状道路周辺におけるバス間隔と区間分布の最適化を行った。 量子シミュレーション,固有値分布,出力波動関数解析などのツールを用いて,そのような最適バス間隔分布を実現できることを示す。

In this paper, we propose a novel quantum computing approach to solve the real-world problem of optimizing transportation in bustling Kathmandu city. The transportation system in Kathmandu is chaotic, with no central authority controlling the transportation. We leverage this chaotic feature in our quantum optimization procedure. The quantum chaos theory's Wigner-Dyson distribution surfaced as the most effective bus spacing distribution for a bus driver to maximize their profit. We investigate the statistical properties of the buses with real-time GPS bus location data and optimize bus spacing and interval distribution around the 27 km circular ring road in Kathmandu. Using tools like quantum simulation, eigenvalue distributions, and output wave function analysis, we show that such optimal bus spacing distribution could be achieved.
翻訳日:2023-11-23 16:17:11 公開日:2023-11-22
# サイバー空間における人身売買と戦う : 自然言語処理に基づくオンライン広告における言語分析手法

Combatting Human Trafficking in the Cyberspace: A Natural Language Processing-Based Methodology to Analyze the Language in Online Advertisements ( http://arxiv.org/abs/2311.13118v1 )

ライセンス: Link先を確認
Alejandro Rodriguez Perez and Pablo Rivas(参考訳) このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。 我々は,最先端nlpモデルのトレーニングのための豊富なリソースとして,最小限の監督で疑似ラベル付きデータセットを生成する新しい手法を提案する。 HTRP(Human Trafficking Risk Prediction)やOAD(Organized Activity Detection)といったタスクに着目し,最先端のトランスフォーマーモデルを用いて分析を行う。 重要な貢献は、統合勾配を用いた解釈可能性フレームワークの実装であり、法執行機関にとって重要な説明可能な洞察を提供する。 この作業は、文学における重要なギャップを埋めるだけでなく、オンラインで人間の搾取と戦うためのスケーラブルで機械学習駆動のアプローチも提供する。 複雑な社会問題に対処する上での機械学習の役割を強調し、将来の研究と実践的応用の基礎として機能する。

This project tackles the pressing issue of human trafficking in online C2C marketplaces through advanced Natural Language Processing (NLP) techniques. We introduce a novel methodology for generating pseudo-labeled datasets with minimal supervision, serving as a rich resource for training state-of-the-art NLP models. Focusing on tasks like Human Trafficking Risk Prediction (HTRP) and Organized Activity Detection (OAD), we employ cutting-edge Transformer models for analysis. A key contribution is the implementation of an interpretability framework using Integrated Gradients, providing explainable insights crucial for law enforcement. This work not only fills a critical gap in the literature but also offers a scalable, machine learning-driven approach to combat human exploitation online. It serves as a foundation for future research and practical applications, emphasizing the role of machine learning in addressing complex social issues.
翻訳日:2023-11-23 16:16:59 公開日:2023-11-22
# バッチフィードバックを用いた高次元帯域学習

Provably Efficient High-Dimensional Bandit Learning with Batched Feedbacks ( http://arxiv.org/abs/2311.13180v1 )

ライセンス: Link先を確認
Jianqing Fan, Zhaoran Wang, Zhuoran Yang, and Chenlu Ye(参考訳) 本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。 具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。 このようなフィードバック構造は、パーソナライズされた医療やオンライン広告などのアプリケーションで人気があり、オンラインデータが完全にシリアルに届かないことが多い。 我々は、banditモデルの報酬関数がスパースまたはローランク構造のいずれかを認め、$l = t$の完全な動的データと同等の性能を実現するために、バッチがどれだけ小さいか尋ねる高次元および線形の設定を考える。 これらの設定のために、スパースケースで$ \mathcal{\tilde O}(s_0^2 \log^2 T)$後悔と$ \mathcal{\tilde O} (r ^2 \log^2 T)$後悔を、低ランクケースでは$L = \mathcal{O}( \log T)$バッチのみを用いて、証明可能なサンプル効率のアルゴリズムを設計する。 ここで、$s_0$ と $r$ はそれぞれスパースとローランクのケースにおける報酬パラメータのスパースとランクであり、$mathcal{\tilde o}(\cdot)$ は特徴次元を含む対数因子を省略する。 言い換えれば、我々のアルゴリズムは、$\mathcal{O}( \log T)$ batches で完全に逐次設定のものと同等の後悔境界を達成する。 本アルゴリズムは,各バッチ内の推定精度と累積後悔に応じてバッチサイズを調整する新しいバッチ割当法を特徴とする。 さらに,合成データと実世界データを用いて実験を行い,理論を検証する。

We study high-dimensional multi-armed contextual bandits with batched feedback where the $T$ steps of online interactions are divided into $L$ batches. In specific, each batch collects data according to a policy that depends on previous batches and the rewards are revealed only at the end of the batch. Such a feedback structure is popular in applications such as personalized medicine and online advertisement, where the online data often do not arrive in a fully serial manner. We consider high-dimensional and linear settings where the reward function of the bandit model admits either a sparse or low-rank structure and ask how small a number of batches are needed for a comparable performance with fully dynamic data in which $L = T$. For these settings, we design a provably sample-efficient algorithm which achieves a $ \mathcal{\tilde O}(s_0^2 \log^2 T)$ regret in the sparse case and $ \mathcal{\tilde O} ( r ^2 \log^2 T)$ regret in the low-rank case, using only $L = \mathcal{O}( \log T)$ batches. Here $s_0$ and $r$ are the sparsity and rank of the reward parameter in sparse and low-rank cases, respectively, and $ \mathcal{\tilde O}(\cdot)$ omits logarithmic factors involving the feature dimensions. In other words, our algorithm achieves regret bounds comparable to those in fully sequential setting with only $\mathcal{O}( \log T)$ batches. Our algorithm features a novel batch allocation method that adjusts the batch sizes according to the estimation accuracy within each batch and cumulative regret. Furthermore, we also conduct experiments with synthetic and real-world data to validate our theory.
翻訳日:2023-11-23 16:11:00 公開日:2023-11-22
# 静的および動的 ProPELLER MRI におけるオフ共鳴アーチファクトの容積再構成

Volumetric Reconstruction Resolves Off-Resonance Artifacts in Static and Dynamic PROPELLER MRI ( http://arxiv.org/abs/2311.13177v1 )

ライセンス: Link先を確認
Annesha Ghosh, Gordon Wetzstein, Mert Pilanci, Sara Fridovich-Keil(参考訳) 磁気共鳴イメージング(MRI)におけるオフ共鳴アーティファクトは、画像ボリューム内のスピンの実際の共鳴周波数が空間情報を符号化するのに使用される期待周波数と異なる場合に発生する視覚歪みである。 これらの相違は、磁場の不均一性、化学シフト、組織内の感受性の違いなど、様々な要因によって引き起こされる。 そのようなアーティファクトは、再構成された画像のぼやけ、ゴースト、または誤登録として現れ、しばしばその診断品質を損なう。 本稿では,2次元MRI再構成問題を3次元に引き上げ,このオフ共鳴をモデル化するための「スペクトル」次元を導入することで,これらのアーチファクトを解決することを提案する。 我々のアプローチは、放射能場モデリングの最近の進歩にインスパイアされ、静的MRI画像と動的MR画像の両方を再構成でき、また、独立した臨床的関心を持つ脂肪と水を分離することができる。 提案手法は,運動アーチファクトに対するロバスト性が一般的であるプロペラ(周期的に重なり合う平行線と再構成された平行線)mri取得の文脈で実証する。 この手法は1つのGPU上で数分で動作し、我々の知る限り、付加的な測定や事前学習を行うことなく、勾配エコー ProPELLER MRI再構成の化学シフトを補正する最初の方法である。

Off-resonance artifacts in magnetic resonance imaging (MRI) are visual distortions that occur when the actual resonant frequencies of spins within the imaging volume differ from the expected frequencies used to encode spatial information. These discrepancies can be caused by a variety of factors, including magnetic field inhomogeneities, chemical shifts, or susceptibility differences within the tissues. Such artifacts can manifest as blurring, ghosting, or misregistration of the reconstructed image, and they often compromise its diagnostic quality. We propose to resolve these artifacts by lifting the 2D MRI reconstruction problem to 3D, introducing an additional "spectral" dimension to model this off-resonance. Our approach is inspired by recent progress in modeling radiance fields, and is capable of reconstructing both static and dynamic MR images as well as separating fat and water, which is of independent clinical interest. We demonstrate our approach in the context of PROPELLER (Periodically Rotated Overlapping ParallEL Lines with Enhanced Reconstruction) MRI acquisitions, which are popular for their robustness to motion artifacts. Our method operates in a few minutes on a single GPU, and to our knowledge is the first to correct for chemical shift in gradient echo PROPELLER MRI reconstruction without additional measurements or pretraining data.
翻訳日:2023-11-23 16:10:25 公開日:2023-11-22
# SecureCut: 効率的な機械学習によるFederated Gradient Boosting Decision Tree

SecureCut: Federated Gradient Boosting Decision Trees with Efficient Machine Unlearning ( http://arxiv.org/abs/2311.13174v1 )

ライセンス: Link先を確認
Jian Zhang, Bowen Li Jie Li, Chentao Wu(参考訳) ユーザデータを消去することで、企業に対して“忘れられる権利”を尊重する法律が施行されたことにより、複数のパーティがモデルトレーニングにプライベートな機能を提供する垂直フェデレーション学習(vfl)において、データ削除を可能にすることが必須になった。 vflでは、データ削除、すなわち \textit{machine unlearning} は、連合学習において、プライバシー保証下ですべてのサンプルに対して特定の機能を削除する必要がある。 この課題に対処するために,我々は,スクラッチから再トレーニングする必要なしに \textit{instance unlearning} と \textit{feature unlearning} の両方を効果的に可能にする,新しい勾配ブースティング決定木 (gbdt) フレームワークである \methname を提案する。 堅牢なGBDT構造を利用することで、モデル性能の劣化を低減しつつ、効率的なデータ削除を可能にする。 提案手法は,<textit{state-of-the-art}法と比較して,モデルの有用性と忘れやすさに優れることを示す。 私たちの知る限りでは、VFLシナリオにおける機械学習の非学習を調査するのはこれが初めてです。

In response to legislation mandating companies to honor the \textit{right to be forgotten} by erasing user data, it has become imperative to enable data removal in Vertical Federated Learning (VFL) where multiple parties provide private features for model training. In VFL, data removal, i.e., \textit{machine unlearning}, often requires removing specific features across all samples under privacy guarentee in federated learning. To address this challenge, we propose \methname, a novel Gradient Boosting Decision Tree (GBDT) framework that effectively enables both \textit{instance unlearning} and \textit{feature unlearning} without the need for retraining from scratch. Leveraging a robust GBDT structure, we enable effective data deletion while reducing degradation of model performance. Extensive experimental results on popular datasets demonstrate that our method achieves superior model utility and forgetfulness compared to \textit{state-of-the-art} methods. To our best knowledge, this is the first work that investigates machine unlearning in VFL scenarios.
翻訳日:2023-11-23 16:09:59 公開日:2023-11-22
# 複数人(LECOMH)を補完する学習 : マルチレータ学習とノイズラベル学習を人間-AIコラボレーションに統合する

Learning to Complement with Multiple Humans (LECOMH): Integrating Multi-rater and Noisy-Label Learning into Human-AI Collaboration ( http://arxiv.org/abs/2311.13172v1 )

ライセンス: Link先を確認
Zheng Zhang, Kevin Wells, Gustavo Carneiro(参考訳) ノイズラベル(lnl)、マルチレート学習、人間とaiのコラボレーションによる学習の出現は、堅牢な分類器の開発に革命をもたらし、現実世界のアプリケーションでよく見られる、さまざまなタイプのデータ不完全や複雑な意思決定プロセスによって生じる課題に対処することができるようになった。 これらの方法論はそれぞれ、独自の課題に対処するために個別に大きな進歩を遂げてきたが、これらの3つの問題を同時に解決できるテクニックの開発は、未検討のままである。 本稿では, ノイズラベル学習, マルチレータ学習, 人とAIのコラボレーションを新たなベンチマークと組み合わせ, LECOMH(Learning to Complement with Multiple Humans)アプローチによって, この研究ギャップに対処する。 LECOMHは、Mが人間の協力者の最大数である0からMまでのコラボレーションコストを最小化しながら、分類精度を最適化することを目的として、テスト中の人間のコラボレーションのレベルを最適化する。 LECOMHとヒトとAIのコラボレーション手法を,提案したベンチマークを用いて定量的に比較した。 LECOMHは競争を一貫して上回り、コラボレーションコストの増加とともに精度が向上する。 特に、LECOMHは全てのベンチマークで人間のラベルラ性能を向上させる唯一の方法である。

The advent of learning with noisy labels (LNL), multi-rater learning, and human-AI collaboration has revolutionised the development of robust classifiers, enabling them to address the challenges posed by different types of data imperfections and complex decision processes commonly encountered in real-world applications. While each of these methodologies has individually made significant strides in addressing their unique challenges, the development of techniques that can simultaneously tackle these three problems remains underexplored. This paper addresses this research gap by integrating noisy-label learning, multi-rater learning, and human-AI collaboration with new benchmarks and the innovative Learning to Complement with Multiple Humans (LECOMH) approach. LECOMH optimises the level of human collaboration during testing, aiming to optimise classification accuracy while minimising collaboration costs that vary from 0 to M, where M is the maximum number of human collaborators. We quantitatively compare LECOMH with leading human-AI collaboration methods using our proposed benchmarks. LECOMH consistently outperforms the competition, with accuracy improving as collaboration costs increase. Notably, LECOMH is the only method enhancing human labeller performance across all benchmarks.
翻訳日:2023-11-23 16:09:35 公開日:2023-11-22
# ComPEFT:スカラー化と量子化によるパラメータ効率向上のための圧縮

ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization ( http://arxiv.org/abs/2311.13171v1 )

ライセンス: Link先を確認
Prateek Yadav, Leshem Choshen, Colin Raffel, Mohit Bansal(参考訳) パラメータ効率の良い微調整(PEFT)技術により、言語モデルを効率的に適応し、新しいタスクやドメインに特化した"エキスパート"モデルを作成することができる。 モデルマージと合成一般化における最近の技術は、0/fewショット一般化を改善するために動的にモジュールを構成することによって、これらのエキスパートモデルを活用する。 PEFT手法の効率にもかかわらず、エキスパートモデルのサイズは、インターネットのような高遅延ネットワーク上でクエリ当たりのエキスパートモデルを検索したり、1つのGPUで複数の専門家にサービスを提供することを困難にすることができる。 これらの問題に対処するために,我々は,PEFT ベースモデルの微調整残差(タスクベクトル)を圧縮する新しい手法 ComPEFT を提案する。 ComPEFTは、PEFTモジュールのサイズを縮小するために、モデル性能を維持したり強化したりすることなく、スペーシフィケーションと3次量子化を用いている。 200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。 特に,より強固なモデルでは圧縮性が向上し,性能も向上することを示す。 例えば、LLaMAに適用したComPEFTは、最大26倍のストレージサイズでMMLUでQLoRAを4.16%上回る性能を示した。 さらに,ComPEFTが生成した圧縮された専門家は,数発の合成一般化機能を維持し,効率的な通信と計算を容易にするとともに,マージ時の性能向上を示す。 最後に,異なる手法成分の分析を行い,他のPEFT法と比較し,フルファインタニングの残差を圧縮するためのComPEFTの有効性を検証した。 私たちのコードはhttps://github.com/prateeky2806/compeftで利用可能です。

Parameter-efficient fine-tuning (PEFT) techniques make it possible to efficiently adapt a language model to create "expert" models that specialize to new tasks or domains. Recent techniques in model merging and compositional generalization leverage these expert models by dynamically composing modules to improve zero/few-shot generalization. Despite the efficiency of PEFT methods, the size of expert models can make it onerous to retrieve expert models per query over high-latency networks like the Internet or serve multiple experts on a single GPU. To address these issues, we present ComPEFT, a novel method for compressing fine-tuning residuals (task vectors) of PEFT based models. ComPEFT employs sparsification and ternary quantization to reduce the size of the PEFT module without performing any additional retraining while preserving or enhancing model performance. In extensive evaluation across T5, T0, and LLaMA-based models with 200M - 65B parameters, ComPEFT achieves compression ratios of 8x - 50x. In particular, we show that ComPEFT improves with scale - stronger models exhibit higher compressibility and better performance. For example, we show that ComPEFT applied to LLaMA outperforms QLoRA by 4.16% on MMLU with a storage size reduction of up to 26x. In addition, we show that the compressed experts produced by ComPEFT maintain few-shot compositional generalization capabilities, facilitate efficient communication and computation, and exhibit enhanced performance when merged. Lastly, we provide an analysis of different method components, compare it with other PEFT methods, and test ComPEFT's efficacy for compressing the residual of full-finetuning. Our code is available at https://github.com/prateeky2806/compeft.
翻訳日:2023-11-23 16:09:12 公開日:2023-11-22
# SiGeo:ロスランドスケープの情報理論と幾何学によるサブワンショットNAS

SiGeo: Sub-One-Shot NAS via Information Theory and Geometry of Loss Landscape ( http://arxiv.org/abs/2311.13169v1 )

ライセンス: Link先を確認
Hua Zheng and Kuang-Hung Liu and Igor Fedorov and Xin Zhang and Wen-Yen Chen and Wei Wen(参考訳) neural architecture search (nas) は、ニューラルネットワークの設計を自動化するために広く使われているツールである。 ワンショットnas法は計算能力の削減に成功しているが、しばしば広範な訓練を必要とする。 一方、ゼロショットnasは、トレーニングフリープロキシを使用して、候補アーキテクチャのテストパフォーマンスを評価するが、(1)ネットワークとして取得した情報をトレーニングで使用できないこと、(2)マルチモーダルデータ入力と複雑なアーキテクチャ構成のために、特にrecsysのような複雑なドメインにおいて、信頼性の低いパフォーマンスであること、の2つの制限がある。 両手法の利点を合成するために,ゼロショットNASとワンショットNASのブリッジとして機能するサブワンショットパラダイムを導入する。 サブワンショットNASでは、スーパーネットはトレーニングデータの小さなサブセットのみを使用してトレーニングされる。 このフレームワークの中で、スーパーネットウォームアップとプロキシの有効性をつなぐ、新しい理論的フレームワークに基づくプロキシであるsigeoを紹介します。 大規模な実験により、SiGeoはウォームアップの恩恵を受けて、様々な確立されたNASベンチマークの最先端NASプロキシを一貫して上回っていることが示されている。 スーパーネットがウォームアップされると、ウェイトシェアリングのワンショットNAS法に匹敵する性能を達成できるが、計算コストの大幅な削減(\sim 60$\%)を達成できる。

Neural Architecture Search (NAS) has become a widely used tool for automating neural network design. While one-shot NAS methods have successfully reduced computational requirements, they often require extensive training. On the other hand, zero-shot NAS utilizes training-free proxies to evaluate a candidate architecture's test performance but has two limitations: (1) inability to use the information gained as a network improves with training and (2) unreliable performance, particularly in complex domains like RecSys, due to the multi-modal data inputs and complex architecture configurations. To synthesize the benefits of both methods, we introduce a "sub-one-shot" paradigm that serves as a bridge between zero-shot and one-shot NAS. In sub-one-shot NAS, the supernet is trained using only a small subset of the training data, a phase we refer to as "warm-up." Within this framework, we present SiGeo, a proxy founded on a novel theoretical framework that connects the supernet warm-up with the efficacy of the proxy. Extensive experiments have shown that SiGeo, with the benefit of warm-up, consistently outperforms state-of-the-art NAS proxies on various established NAS benchmarks. When a supernet is warmed up, it can achieve comparable performance to weight-sharing one-shot NAS methods, but with a significant reduction ($\sim 60$\%) in computational costs.
翻訳日:2023-11-23 16:08:42 公開日:2023-11-22
# NeRFとメッシュラスタライゼーションのハイブリッド溶液による3次元顔形状変換

3D Face Style Transfer with a Hybrid Solution of NeRF and Mesh Rasterization ( http://arxiv.org/abs/2311.13168v1 )

ライセンス: Link先を確認
Jianwei Feng and Prateek Singhal(参考訳) 近年,人間の顔のスタイル伝達が広く研究されている。 既存のアプローチの大部分は2次元画像領域で動作し、同じ顔の異なる視点に適用した場合に3次元の矛盾が生じる。 本稿では,複数視点の一貫性を持つ3次元顔のスタイライズされた斬新なビュー生成を目的とした3次元顔の転送問題に取り組む。 我々は,3次元顔の表現にNeRF(Near Raddiance Field)を用い,それを2次元スタイルの移動と組み合わせて3次元顔のスタイリングを提案する。 2Dスタイルの転送画像からNeRFを直接訓練すると、3Dの不整合が問題になり、ぼやけが生じる。 一方、2dスタイル転送目標と共同でnerfを訓練することは、スタイル画像とコンテンツ画像の同一性と頭部ポーズギャップによる収束不良を示す。 また、スタイル転送損失関数を適用するためにフルイメージのボリュームレンダリングが必要となるため、トレーニング時間とメモリにおいて課題となる。 そこで我々は,nerfの高忠実度形状再構成とメッシュの高速レンダリングの利点を組み合わせるために,nerfとメッシュラスタイゼーションのハイブリッドフレームワークを提案する。 私たちの枠組みは3つの段階からなる。 1 入力顔画像におけるnerfモデルの学習による3次元形状の学習 2. トレーニングされたNeRFモデルからメッシュを抽出し、異なるラスタ化によるスタイル伝達目標を最適化すること。 3. 3次元面への任意のスタイル転送を可能にするスタイル埋め込みを条件としたNeRFの新しいカラーネットワークのトレーニング。 実験結果から,提案手法は高い3次元整合性を有する高品質なフェイススタイル転送を実現するとともに,フレキシブルなスタイル制御を実現する。

Style transfer for human face has been widely researched in recent years. Majority of the existing approaches work in 2D image domain and have 3D inconsistency issue when applied on different viewpoints of the same face. In this paper, we tackle the problem of 3D face style transfer which aims at generating stylized novel views of a 3D human face with multi-view consistency. We propose to use a neural radiance field (NeRF) to represent 3D human face and combine it with 2D style transfer to stylize the 3D face. We find that directly training a NeRF on stylized images from 2D style transfer brings in 3D inconsistency issue and causes blurriness. On the other hand, training a NeRF jointly with 2D style transfer objectives shows poor convergence due to the identity and head pose gap between style image and content image. It also poses challenge in training time and memory due to the need of volume rendering for full image to apply style transfer loss functions. We therefore propose a hybrid framework of NeRF and mesh rasterization to combine the benefits of high fidelity geometry reconstruction of NeRF and fast rendering speed of mesh. Our framework consists of three stages: 1. Training a NeRF model on input face images to learn the 3D geometry; 2. Extracting a mesh from the trained NeRF model and optimizing it with style transfer objectives via differentiable rasterization; 3. Training a new color network in NeRF conditioned on a style embedding to enable arbitrary style transfer to the 3D face. Experiment results show that our approach generates high quality face style transfer with great 3D consistency, while also enabling a flexible style control.
翻訳日:2023-11-23 16:08:14 公開日:2023-11-22
# AdaptiveFL:資源制約型AIoTシステムのための適応的不均一フェデレーション学習

AdaptiveFL: Adaptive Heterogeneous Federated Learning for Resource-Constrained AIoT Systems ( http://arxiv.org/abs/2311.13166v1 )

ライセンス: Link先を確認
Chentao Jia and Ming Hu and Zekai Chen and Yanxin Yang and Xiaofei Xie and Yang Liu and Mingsong Chen(参考訳) Federated Learning (FL) は、AI of Things (AIoT) デバイス間の協調学習を可能にすることを約束しているが、デバイスの様々な不均一性要因(例えば、計算能力、メモリサイズ)と不確実な動作環境による分類性能の低い問題に悩まされている。 本稿では,aiotデバイスに対して様々な異種局所モデルを生成することが可能な,新しい細粒度幅方向モデルプルーニング戦略に基づく,adaptiveflという効果的なflアプローチを提案する。 提案する強化学習に基づくデバイス選択機構を用いることにより,adaptiveflは,ローカルトレーニングに利用可能なリソースに基づいて,適切な異種モデルを対応するaiotデバイスに適応的に配置することができる。 実験の結果、AdaptiveFLは最先端の手法と比較して、IIDと非IIDの両方のシナリオで最大16.83%の推論改善を達成できることがわかった。

Although Federated Learning (FL) is promising to enable collaborative learning among Artificial Intelligence of Things (AIoT) devices, it suffers from the problem of low classification performance due to various heterogeneity factors (e.g., computing capacity, memory size) of devices and uncertain operating environments. To address these issues, this paper introduces an effective FL approach named AdaptiveFL based on a novel fine-grained width-wise model pruning strategy, which can generate various heterogeneous local models for heterogeneous AIoT devices. By using our proposed reinforcement learning-based device selection mechanism, AdaptiveFL can adaptively dispatch suitable heterogeneous models to corresponding AIoT devices on the fly based on their available resources for local training. Experimental results show that, compared to state-of-the-art methods, AdaptiveFL can achieve up to 16.83% inference improvements for both IID and non-IID scenarios.
翻訳日:2023-11-23 16:07:47 公開日:2023-11-22
# マルチモーダル大規模言語モデル:調査

Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2311.13165v1 )

ライセンス: Link先を確認
Jiayang Wu, Wensheng Gan, Zefeng Chen, Shicheng Wan, Philip S. Yu(参考訳) マルチモーダル言語モデルの探索は、画像、テキスト、言語、音声、その他の異種性などの複数のデータタイプを統合する。 最新の大規模言語モデルはテキストベースのタスクに優れているが、他のタイプのデータを理解し処理するのに苦労することが多い。 マルチモーダルモデルは様々なモダリティを組み合わせることでこの制限に対処し、多様なデータのより包括的な理解を可能にする。 本稿では,マルチモーダルの概念を定義し,マルチモーダルアルゴリズムの歴史的展開を検討する。 さらに,様々なマルチモーダル製品を紹介し,大手テクノロジー企業の取り組みに焦点をあてた。 実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。 さらに、最新のアルゴリズムと一般的なデータセットのコンパイルを行い、研究者に実験と評価のための貴重なリソースを提供する。 最後に,マルチモーダルモデルの応用について検討し,その開発に伴う課題について考察する。 これらの側面に対処することで,マルチモーダルモデルとその様々な領域におけるポテンシャルの理解を深めることを目的とする。

The exploration of multimodal language models integrates multiple data types, such as images, text, language, audio, and other heterogeneity. While the latest large language models excel in text-based tasks, they often struggle to understand and process other data types. Multimodal models address this limitation by combining various modalities, enabling a more comprehensive understanding of diverse data. This paper begins by defining the concept of multimodal and examining the historical development of multimodal algorithms. Furthermore, we introduce a range of multimodal products, focusing on the efforts of major technology companies. A practical guide is provided, offering insights into the technical aspects of multimodal models. Moreover, we present a compilation of the latest algorithms and commonly used datasets, providing researchers with valuable resources for experimentation and evaluation. Lastly, we explore the applications of multimodal models and discuss the challenges associated with their development. By addressing these aspects, this paper aims to facilitate a deeper understanding of multimodal models and their potential in various domains.
翻訳日:2023-11-23 16:07:26 公開日:2023-11-22
# 動的不変量による開量子系の制御

Control of open quantum systems via dynamical invariants ( http://arxiv.org/abs/2311.13164v1 )

ライセンス: Link先を確認
Loris Maria Cangemi, Hilario Espin\'os, Ricardo Puebla, Erik Torrontegui and Amikam Levy(参考訳) 本研究では, 動的不変量理論を応用し, 環境の影響を受ける量子システムを制御するという課題に直面する。 我々の戦略は、環境騒音や散逸に対する耐性に適合したショートカットからアディバチティティ(STA)のような制御プロトコルを定式化するリバースエンジニアリング手法を含む。 この手法は、他の量子制御法と比較して2つの大きな利点がある: まず、マスター方程式における散逸係数の時間変化の側面を、系のハミルトニアン(制御場)を駆動することによって生じる。 第2に,本手法は資源集約的なプロセスであるシステム状態の反復的伝播の必要性を解消する。 本手法の有効性と実用性は、熱浴と相互作用する2レベル量子システムと量子調和振動子という2つの基本モデルに適用して実証された。

In this work, we confront the challenge of controlling quantum systems that are influenced by their environment, utilizing the theory of dynamical invariants. Our strategy involves a reverse engineering method for formulating control protocols like Shortcuts to Adiabaticity (STA), tailored to be resilient against environmental noise and dissipation. This technique offers two main advantages compared to other quantum control methods: firstly, it incorporates the time-varying aspect of the dissipation factor in the master equation, which arises from driving the system's Hamiltonian (the control fields). Secondly, our method eliminates the need for iterative propagation of the system state, a process that is typically resource-intensive. The efficacy and practicality of our approach are demonstrated through the application to two fundamental models: a two-level quantum system and a quantum harmonic oscillator, each interacting with a thermal bath.
翻訳日:2023-11-23 16:07:10 公開日:2023-11-22
# 教育における大規模言語モデル:ビジョンと機会

Large Language Models in Education: Vision and Opportunities ( http://arxiv.org/abs/2311.13160v1 )

ライセンス: Link先を確認
Wensheng Gan, Zhenlian Qi, Jiayang Wu, Jerry Chun-Wei Lin(参考訳) 人工知能技術の急速な発展に伴い、大規模言語モデル(LLM)がホットな研究トピックとなっている。 教育は人間の社会発展と進歩に重要な役割を果たしている。 従来の教育は、個々の学生の違い、教育資源の割り当て不足、教育効果の評価といった課題に直面している。 したがって、デジタル/スマート教育分野におけるllmの応用は幅広い見通しを持っている。 教育大規模モデル(edullms)の研究は継続的に発展しており、パーソナライズされた学習、インテリジェントな指導、教育評価目標を達成するための新しい方法とアプローチを提供し、教育の質と学習経験を向上させる。 本稿では,LLMのスマート教育への応用について検討し,概説する。 まず、LLMの研究背景とモチベーションを紹介し、LLMの本質を説明する。 次に,デジタル教育とedullmsの関係を考察し,教育大規模モデルの現在の研究状況を概説する。 主な貢献は、研究背景の体系的な概要とビジョン、大きな教育モデル(LLM4Edu)のモチベーションと応用である。 本稿は、既存の研究をレビューすることで、LLM4Eduの可能性と課題を深く理解するために、教育者、研究者、政策立案者にガイダンスと洞察を提供する。 さらに、LLM4Eduの開発と応用をさらに進めるためのガイダンスを提供する一方で、さらなる研究と探査を必要とする技術的、倫理的、実践的な課題に直面している。

With the rapid development of artificial intelligence technology, large language models (LLMs) have become a hot research topic. Education plays an important role in human social development and progress. Traditional education faces challenges such as individual student differences, insufficient allocation of teaching resources, and assessment of teaching effectiveness. Therefore, the applications of LLMs in the field of digital/smart education have broad prospects. The research on educational large models (EduLLMs) is constantly evolving, providing new methods and approaches to achieve personalized learning, intelligent tutoring, and educational assessment goals, thereby improving the quality of education and the learning experience. This article aims to investigate and summarize the application of LLMs in smart education. It first introduces the research background and motivation of LLMs and explains the essence of LLMs. It then discusses the relationship between digital education and EduLLMs and summarizes the current research status of educational large models. The main contributions are the systematic summary and vision of the research background, motivation, and application of large models for education (LLM4Edu). By reviewing existing research, this article provides guidance and insights for educators, researchers, and policy-makers to gain a deep understanding of the potential and challenges of LLM4Edu. It further provides guidance for further advancing the development and application of LLM4Edu, while still facing technical, ethical, and practical challenges requiring further research and exploration.
翻訳日:2023-11-23 16:06:54 公開日:2023-11-22
# Wasserstein-Fisher-Rao勾配流による多目的最適化

Multi-Objective Optimization via Wasserstein-Fisher-Rao Gradient Flow ( http://arxiv.org/abs/2311.13159v1 )

ライセンス: Link先を確認
Yinuo Ren, Tesi Xiao, Tanmay Gangwani, Anshuka Rangi, Holakou Rahmanian, Lexing Ying, Subhajit Sanyal(参考訳) 多目的最適化(MOO)は、広範囲のアプリケーションと競合する複数の目的を最適化することを目的としている。 分子動力学シミュレーションに触発された新しい相互作用粒子法を提案する。 本手法は, 過減衰ランジュバンと生死ダイナミクスを組み合わせることで, 粒子を大域的パレート最適に操る「支配ポテンシャル」を組み込んだものである。 従来の方法とは対照的に, 本手法では支配粒子の移動が可能であり, 複雑なジオメトリのパレートフロントの管理に特に適している。 また、この手法は収束を保証するワッサーシュタイン-フィッシャー-ラオ勾配流として理論的に基礎を置いている。 広範な実験により,本手法が総合的および実世界のデータセットに挑戦する最先端の手法よりも優れていることが確認された。

Multi-objective optimization (MOO) aims to optimize multiple, possibly conflicting objectives with widespread applications. We introduce a novel interacting particle method for MOO inspired by molecular dynamics simulations. Our approach combines overdamped Langevin and birth-death dynamics, incorporating a "dominance potential" to steer particles toward global Pareto optimality. In contrast to previous methods, our method is able to relocate dominated particles, making it particularly adept at managing Pareto fronts of complicated geometries. Our method is also theoretically grounded as a Wasserstein-Fisher-Rao gradient flow with convergence guarantees. Extensive experiments confirm that our approach outperforms state-of-the-art methods on challenging synthetic and real-world datasets.
翻訳日:2023-11-23 16:06:31 公開日:2023-11-22
# 原則から実践へ:aiリスクを管理するための説明責任メトリクスカタログ

From Principles to Practice: An Accountability Metrics Catalogue for Managing AI Risks ( http://arxiv.org/abs/2311.13158v1 )

ライセンス: Link先を確認
Boming Xia, Qinghua Lu, Liming Zhu, Sung Une Lee, Yue Liu, Zhenchang Xing(参考訳) 人工知能(AI)、特にLarge Language Models(LLMs)のような大規模生成AI(GenAI)モデルの出現により、現代技術における変革的要素となった。 これらのモデルは新たな可能性を解き放ちましたが、データプライバシに関する懸念や、誤解を招くようなコンテンツを生成する傾向など、重大な課題も提示しています。 責任あるai(rai)のための現在のフレームワークは、特に説明責任のために、具体的なアプリケーションに必要な粒度のガイダンスを提供するのに不足することが多い。 本研究は,学術文献と灰色文献の両方の知見を統合した,体系的多言語文献レビュー(MLR)によって構成された総合的なメトリクスカタログを導入することで,説明責任ギャップを橋渡しする。 我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。 この三部構成のフレームワークは、AIのアカウンタビリティを運用するために設計されており、特にGenAIの複雑さに対処することに焦点を当てている。 提案されたメトリクスカタログは、AIシステムにアカウンタビリティを注入するための堅牢なフレームワークを提供する。 組織に対して実践的で実行可能なガイダンスを提供し、この分野における責任あるプラクティスを形作る。

Artificial Intelligence (AI), particularly through the advent of large-scale generative AI (GenAI) models such as Large Language Models (LLMs), has become a transformative element in contemporary technology. While these models have unlocked new possibilities, they simultaneously present significant challenges, such as concerns over data privacy and the propensity to generate misleading or fabricated content. Current frameworks for Responsible AI (RAI) often fall short in providing the granular guidance necessary for tangible application, especially for Accountability-a principle that is pivotal for ensuring transparent and auditable decision-making, bolstering public trust, and meeting increasing regulatory expectations. This study bridges the accountability gap by introducing a comprehensive metrics catalogue, formulated through a systematic multivocal literature review (MLR) that integrates findings from both academic and grey literature. Our catalogue delineates process metrics that underpin procedural integrity, resource metrics that provide necessary tools and frameworks, and product metrics that reflect the outputs of AI systems. This tripartite framework is designed to operationalize Accountability in AI, with a special emphasis on addressing the intricacies of GenAI. The proposed metrics catalogue provides a robust framework for instilling Accountability in AI systems. It offers practical, actionable guidance for organizations, thereby shaping responsible practices in the field.
翻訳日:2023-11-23 16:06:18 公開日:2023-11-22
# ラムゼー理論による多変量分布の近接性検証

Testing Closeness of Multivariate Distributions via Ramsey Theory ( http://arxiv.org/abs/2311.13154v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Sihan Liu(参考訳) 多次元分布に対する近接性(あるいは同値性)検定の統計的タスクについて検討する。 具体的には、2つの未知分布へのサンプルアクセスが$\mathbf p, \mathbf q$ on $\mathbb R^d$の場合、$\mathbf p=\mathbf q$ vs $\|\mathbf p-\mathbf q\|_{A_k} > \epsilon$, where $\|\mathbf p-\mathbf q\|_{A_k}$は、$\mathbf p$と$\mathbf q$の間の一般化された${A}_k$距離を表す。 我々の主な成果は、任意の固定次元におけるサンプルの複雑さと、ほぼ一致するサンプルの複雑さを下限とするこの問題に対する最初のクローズネステスターである。 より詳しくは、サンプル複雑性$O\left((k^{6/7}/ \mathrm{poly}_d(\epsilon)) \log^d(k)\right)$の計算効率の良いクローズネステスタを提供する。 下界側では、$d=2$であっても$\Omega(k^{6/7}/\mathrm{poly}(\epsilon))$の定性的に一致するサンプル複雑性の下界を確立する。 これらのサンプル複雑性境界は、不定値設定における問題のサンプル複雑性が$\theta(k^{4/5}/\mathrm{poly}(\epsilon))$であるので驚きである。 これは、1次元から2次元へのジャンプがサンプルの複雑さを大幅に増加させる一方、それ以上の増加はしないという興味深い結果をもたらす。 一般的な $a_k$ テスターの仲間として、共通の未知の分割で$\mathbb r^d$ 上の$k$-histogram のペアに対して $d_{\mathrm tv}$-closeness テスターと、$k$ 未知の軸整合長方形の組み合わせでサポートされている一対の均一分布を得る。 我々のアルゴリズムと下界の両方がラムゼー理論のツールを必須に利用している。

We investigate the statistical task of closeness (or equivalence) testing for multidimensional distributions. Specifically, given sample access to two unknown distributions $\mathbf p, \mathbf q$ on $\mathbb R^d$, we want to distinguish between the case that $\mathbf p=\mathbf q$ versus $\|\mathbf p-\mathbf q\|_{A_k} > \epsilon$, where $\|\mathbf p-\mathbf q\|_{A_k}$ denotes the generalized ${A}_k$ distance between $\mathbf p$ and $\mathbf q$ -- measuring the maximum discrepancy between the distributions over any collection of $k$ disjoint, axis-aligned rectangles. Our main result is the first closeness tester for this problem with {\em sub-learning} sample complexity in any fixed dimension and a nearly-matching sample complexity lower bound. In more detail, we provide a computationally efficient closeness tester with sample complexity $O\left((k^{6/7}/ \mathrm{poly}_d(\epsilon)) \log^d(k)\right)$. On the lower bound side, we establish a qualitatively matching sample complexity lower bound of $\Omega(k^{6/7}/\mathrm{poly}(\epsilon))$, even for $d=2$. These sample complexity bounds are surprising because the sample complexity of the problem in the univariate setting is $\Theta(k^{4/5}/\mathrm{poly}(\epsilon))$. This has the interesting consequence that the jump from one to two dimensions leads to a substantial increase in sample complexity, while increases beyond that do not. As a corollary of our general $A_k$ tester, we obtain $d_{\mathrm TV}$-closeness testers for pairs of $k$-histograms on $\mathbb R^d$ over a common unknown partition, and pairs of uniform distributions supported on the union of $k$ unknown disjoint axis-aligned rectangles. Both our algorithm and our lower bound make essential use of tools from Ramsey theory.
翻訳日:2023-11-23 16:05:54 公開日:2023-11-22
# より強い焦点による不確かさに基づく幻覚検出の強化

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus ( http://arxiv.org/abs/2311.13230v1 )

ライセンス: Link先を確認
Tianhang Zhang, Lin Qiu, Qipeng Guo, Cheng Deng, Yue Zhang, Zheng Zhang, Chenghu Zhou, Xinbing Wang and Luoyi Fu(参考訳) 大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 しかし、LLMは現実の多くのアプリケーションにおいてユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMの幻覚を検出するための既存の作業は、参照検索のための外部知識に依存するか、一貫性検証のためにLLMから複数の応答をサンプリングする必要がある。 本稿では, LLMにおける幻覚検出のための基準のない, 不確実性に基づく新しい手法を提案する。 私たちのアプローチは,3つの側面から現実性チェックにおける人間の焦点を模倣する。 1) 所定のテキスト中の最も有益で重要なキーワードに注目すること。 2)幻覚のカスケードにつながる可能性がある歴史的文脈における信頼できないトークンに注目し, 3)トークンタイプやトークン頻度といったトークンプロパティに注目します。 提案手法の有効性を検証し,提案手法の有効性を検証し,すべての評価指標の最先端性能を達成し,追加情報の必要性を排除した。

Large Language Models (LLMs) have gained significant popularity for their impressive performance across diverse fields. However, LLMs are prone to hallucinate untruthful or nonsensical outputs that fail to meet user expectations in many real-world applications. Existing works for detecting hallucinations in LLMs either rely on external knowledge for reference retrieval or require sampling multiple responses from the LLM for consistency verification, making these methods costly and inefficient. In this paper, we propose a novel reference-free, uncertainty-based method for detecting hallucinations in LLMs. Our approach imitates human focus in factuality checking from three aspects: 1) focus on the most informative and important keywords in the given text; 2) focus on the unreliable tokens in historical context which may lead to a cascade of hallucinations; and 3) focus on the token properties such as token type and token frequency. Experimental results on relevant datasets demonstrate the effectiveness of our proposed method, which achieves state-of-the-art performance across all the evaluation metrics and eliminates the need for additional information.
翻訳日:2023-11-23 15:58:14 公開日:2023-11-22
# 起業家金融サービスにおける人工知能:知識構造と基礎的アルゴリズムパラダイム

Artificial Intelligence in the Service of Entrepreneurial Finance: Knowledge Structure and the Foundational Algorithmic Paradigm ( http://arxiv.org/abs/2311.13213v1 )

ライセンス: Link先を確認
Robert Kudeli\'c and Tamara \v{S}maguc and Sherry Robinson(参考訳) ファイナンスにおける人工知能の応用は長い伝統があるが、起業の可能性はごく最近まで徹底的に研究されてきた。 この文脈では、起業家金融は将来の人工知能の普及にとって特に豊かである。 本研究は,(1)起業家財務文献,(2)企業財務文献における人工知能の応用に関する文献的考察と,それによる起業の意義について考察する。 科学データベースウェブ・オブ・サイエンス・コア・コレクションの厳密な検索とスクリーニングの手続きにより、1890年の関連する論文が分析の対象となった。 文献分析は、知識分野の概念、知的、社会的構造に関する豊富な洞察を与え、未発達の研究の方向性を示す。 私たちが特定できる限り、これは人工知能、起業家シップ、ファイナンスの関係に関する学術分野を地図化し、文献的に分析する最初の研究であり、起業家シップにおける人工知能手法を扱う最初のレビューである。 結果によると、ニューラルネットワーク、ディープニューラルネットワーク、サポートベクトルマシンは、ほぼすべての特定トピックニッチで高度に表現されている。 同時に、トピックモデリング、ファジィニューラルネットワーク、階層的自己組織化マップを適用することは極めて稀である。 この研究の要素として、そして最後に述べられる前に、この論文はコンピュータ科学と経済学の関係におけるある種のギャップについての議論も扱う。 これらのギャップは、経済科学における人工知能の適用における問題を表している。 この状況を少なくとも部分的に解決する方法として,モンテカルロ乱数化アルゴリズムの基礎パラダイムと自発的な実演が提示される。

While the application of Artificial Intelligence in Finance has a long tradition, its potential in Entrepreneurship has been intensively explored only recently. In this context, Entrepreneurial Finance is a particularly fertile ground for future Artificial Intelligence proliferation. To support the latter, the study provides a bibliometric review of Artificial Intelligence applications in (1) entrepreneurial finance literature, and (2) corporate finance literature with implications for Entrepreneurship. Rigorous search and screening procedures of the scientific database Web of Science Core Collection resulted in the identification of 1890 relevant journal articles subjected to analysis. The bibliometric analysis gives a rich insight into the knowledge field's conceptual, intellectual, and social structure, indicating nascent and underdeveloped research directions. As far as we were able to identify, this is the first study to map and bibliometrically analyze the academic field concerning the relationship between Artificial Intelligence, Entrepreneurship, and Finance, and the first review that deals with Artificial Intelligence methods in Entrepreneurship. According to the results, Artificial Neural Network, Deep Neural Network and Support Vector Machine are highly represented in almost all identified topic niches. At the same time, applying Topic Modeling, Fuzzy Neural Network and Growing Hierarchical Self-organizing Map is quite rare. As an element of the research, and before final remarks, the article deals as well with a discussion of certain gaps in the relationship between Computer Science and Economics. These gaps do represent problems in the application of Artificial Intelligence in Economic Science. As a way to at least in part remedy this situation, the foundational paradigm and the bespoke demonstration of the Monte Carlo randomized algorithm are presented.
翻訳日:2023-11-23 15:57:58 公開日:2023-11-22
# テスト時間適応視覚・言語ナビゲーション

Test-time Adaptive Vision-and-Language Navigation ( http://arxiv.org/abs/2311.13209v1 )

ライセンス: Link先を確認
Junyu Gao, Xuan Yao, Changsheng Xu(参考訳) VLN(Vision-and-Language Navigation)は近年大きな進歩を遂げている。 それでも、さまざまな環境でテストされた場合、トレーニングされたモデルは必然的にデータ分散の大幅な変化に遭遇し、事前訓練された固定されたナビゲーションモデルのみに依存することが不十分であることを強調する。 モデルの一般化能力を高めるため、テスト時間適応(TTA)は、未ラベルのテストサンプルをモデル更新に活用することにより、コンピュータビジョン分野において大きなポテンシャルを示す。 しかし、既存のTTAメソッドをVLNタスクに適用するだけでは、VLNモデルの適応性と安定性のジレンマをうまく扱えない。 そこで本研究では,統合フレームワークにおいて,勾配とパラメータの分解・蓄積解析を行うことにより,vlnの高速テストタイム適応(fstta)手法を提案する。 具体的には、高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、様々なレベルの一貫性を持つコンポーネントに分解する。 そして、これらの成分を適応的に蓄積して、高速モデル適応のための一致方向をピンポイントする。 遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。 実験結果から,本手法は4つのベンチマークにおいて優れた性能向上を示す。

Vision-and-Language Navigation (VLN) has witnessed significant advancements in recent years, largely attributed to meticulously curated datasets and proficiently trained models. Nevertheless, when tested in diverse environments, the trained models inevitably encounter significant shifts in data distribution, highlighting that relying solely on pre-trained and fixed navigation models is insufficient. To enhance models' generalization ability, test-time adaptation (TTA) demonstrates significant potential in the computer vision field by leveraging unlabeled test samples for model updates. However, simply applying existing TTA methods to the VLN task cannot well handle the adaptability-stability dilemma of VLN models, i.e., frequent updates can result in drastic changes in model parameters, while occasional updates can make the models ill-equipped to handle dynamically changing environments. Therefore, we propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for VLN by performing decomposition-accumulation analysis for both gradients and parameters in a unified framework. Specifically, in the fast update phase, gradients generated during the recent multi-step navigation process are decomposed into components with varying levels of consistency. Then, these components are adaptively accumulated to pinpoint a concordant direction for fast model adaptation. In the slow update phase, historically recorded parameters are gathered, and a similar decomposition-accumulation analysis is conducted to revert the model to a stable state. Extensive experiments show that our method obtains impressive performance gains on four popular benchmarks.
翻訳日:2023-11-23 15:57:32 公開日:2023-11-22
# 前訓練モデルの適応重み付け平均アンサンブルによる乳癌分類

Breast Cancer classification by adaptive weighted average ensemble of previously trained models ( http://arxiv.org/abs/2311.13206v1 )

ライセンス: Link先を確認
Mosab S. M. Farea, zhe chen(参考訳) 乳癌は毎年何百万人もの人に感染する重篤な疾患であり、症例数は増加している。 早期発見は、病気の影響を減らす最善の方法である。 研究者は、CADシステムにおける病理像の使用など、乳がんを検出するための多くの技術を開発した。 本研究は,適応平均アンサンブルを用いて,すでに十分に訓練済みのモデルを結合する手法を提案する。これは,訓練前に平均アンサンブルを使用し,平均アンサンブルを同時に訓練する文学とは異なる。 評価指標の性能を向上する適応的な平均アンサンブルを訓練後に用いたため,本手法は異なる。 トレーニングされたモデルの出力を平均し、すべてのモデルはその正確さに応じて重みを持つ。 アダプティブ重み付けアンサンブルモデルの精度は98%に達し、精度は1%向上し、97%のアンサンブルの最良参加者モデルよりも優れている。 また、偽陽性と偽陰性の数を減らし、性能指標を強化した。

Breast cancer is a serious disease that inflicts millions of people each year, and the number of cases is increasing. Early detection is the best way to reduce the impact of the disease. Researchers have developed many techniques to detect breast cancer, including the use of histopathology images in CAD systems. This research proposes a technique that combine already fully trained model using adaptive average ensemble, this is different from the literature which uses average ensemble before training and the average ensemble is trained simultaneously. Our approach is different because it used adaptive average ensemble after training which has increased the performance of evaluation metrics. It averages the outputs of every trained model, and every model will have weight according to its accuracy. The accuracy in the adaptive weighted ensemble model has achieved 98% where the accuracy has increased by 1 percent which is better than the best participating model in the ensemble which was 97%. Also, it decreased the numbers of false positive and false negative and enhanced the performance metrics.
翻訳日:2023-11-23 15:57:07 公開日:2023-11-22
# ホログラフィック擬似エントロピーにおける絡み合い相転移

Entanglement Phase Transition in Holographic Pseudo Entropy ( http://arxiv.org/abs/2311.13201v1 )

ライセンス: Link先を確認
Hiroki Kanda, Taishi Kawamoto, Yu-ki Suzuki, Tadashi Takayanagi, Kenya Tasuki, Zixia Wei(参考訳) 本稿では,AdS/BCFTを用いた絡み合い相転移のホログラフィック記述について述べる。 まず,brane局所スカラー場を用いたads/bcftモデルにおけるホログラフィック擬似エントロピーを解析的に計算し,線形成長から臨界対数進化を経て自明なエントロピーの時間発展が変化するエンタングルメント相転移挙動を示す。 このモデルでは、ブレーン上に局在した想像値スカラー場が、測定誘起相転移における投影量に類似した位相遷移を制御する。 次に,ブライン局所ゲージ場を用いてads/bcftモデルについて検討し,相転移は対数的に進化する臨界点が存在しないという点で異なるように見える。 最後に、ヤヌス解の二重ウィック回転を考慮し、上記のモデルのバルクアナログについて論じる。 このモデルでホログラフィック擬似エントロピーを計算し、エントロピーが対数的に大きくなることを示す。

In this paper, we present holographic descriptions of entanglement phase transition using AdS/BCFT. First, we analytically calculate the holographic pseudo entropy in the AdS/BCFT model with a brane localized scalar field and show the entanglement phase transition behavior where the time evolution of entropy changes from the linear growth to the trivial one via a critical logarithmic evolution. In this model, the imaginary valued scalar field localized on the brane controls the phase transition, which is analogous to the amount of projections in the measurement induced phase transition. Next, we study the AdS/BCFT model with a brane localized gauge field, where the phase transition looks different in that there is no logarithmically evolving critical point. Finally, we discuss a bulk analog of the above model by considering a double Wick rotation of the Janus solution. We compute the holographic pseudo entropy in this model and show that the entropy grows logarithmically.
翻訳日:2023-11-23 15:56:51 公開日:2023-11-22
# 大規模視覚モデルに基づくリモートセンシング画像のための自己誘導的少数ショットセマンティクスセグメンテーション

Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models ( http://arxiv.org/abs/2311.13200v1 )

ライセンス: Link先を確認
Xiyu Qi, Yifan Wu, Yongqiang Mao, Wenhui Zhang, Yidan Zhang(参考訳) Segment Anything Model (SAM)は、その広範囲なトレーニングデータ(SA-1B)により、優れた汎用性とゼロショット学習能力を示す。 カテゴリに依存しない特徴から,SAMが手動指導に依存していることを認識し,リモートセンシング画像のセマンティックセマンティックセグメンテーションタスクにおいて未探索の可能性を確認した。 本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。 SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。 提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。 dlrsdデータセットに関する広範な実験は、我々のアプローチの優位性を裏付けるものであり、他の利用可能な数少ない方法論を上回っている。

The Segment Anything Model (SAM) exhibits remarkable versatility and zero-shot learning abilities, owing largely to its extensive training data (SA-1B). Recognizing SAM's dependency on manual guidance given its category-agnostic nature, we identified unexplored potential within few-shot semantic segmentation tasks for remote sensing imagery. This research introduces a structured framework designed for the automation of few-shot semantic segmentation. It utilizes the SAM model and facilitates a more efficient generation of semantically discernible segmentation outcomes. Central to our methodology is a novel automatic prompt learning approach, leveraging prior guided masks to produce coarse pixel-wise prompts for SAM. Extensive experiments on the DLRSD datasets underline the superiority of our approach, outperforming other available few-shot methodologies.
翻訳日:2023-11-23 15:56:34 公開日:2023-11-22
# DRIFu: 識別可能なレンダリングとインシシト関数に基づくシングルビュー3D再構成

DRIFu: Differentiable Rendering and Implicit Function-based Single-View 3D Reconstruction ( http://arxiv.org/abs/2311.13199v1 )

ライセンス: Link先を確認
Zijian Kuang, Lihang Ying, Shi Jin(参考訳) DRIFu(Dariable Rendering and Implicit Function-based model)は、当初は人体用に設計された3Dデジタル化技術のパイオニアであるPixel-aligned Implicit Function(PIFU)をルーツとしている。 PIFUは低次元空間におけるニュアンスドボディー形状の変化を捉え、ヒトの3Dスキャンで広範囲に訓練されている。 しかし, 生動物へのピフの応用は, 主に3dスキャンのための動物の協力を得るのが困難であるため, 重要な課題となっている。 この課題への対応として,動物デジタル化に特化したdrifuモデルを提案する。 DRIFuの訓練には、様々な形状、大きさ、さらには赤ちゃんの鳥などのバリエーションを考慮に入れた合成3D動物モデルを用いている。 私たちの革新的なアライメントツールは、これらの多様な合成動物モデルを統一されたテンプレートにマッピングする上で重要な役割を担います。 重要なことは、私たちのテンプレートアライメント戦略は共有された形状空間を確立し、新しい動物の形をシームレスにサンプリングし、それらをリアルに撮り、アニメーションし、それらを現実世界のデータと整合させる。 この画期的なアプローチは、鳥の形を包括的に理解し表現する能力に革命をもたらします。 プロジェクトの詳細とアクセスについては、プロジェクトのwebサイトがhttps://github.com/kuangzijian/drifu-for-animalsにある。

The Differentiable Rendering and Implicit Function-based model (DRIFu) draws its roots from the Pixel-aligned Implicit Function (PIFU), a pioneering 3D digitization technique initially designed for clothed human bodies. PIFU excels in capturing nuanced body shape variations within a low-dimensional space and has been extensively trained on human 3D scans. However, the application of PIFU to live animals poses significant challenges, primarily due to the inherent difficulty in obtaining the cooperation of animals for 3D scanning. In response to this challenge, we introduce the DRIFu model, specifically tailored for animal digitization. To train DRIFu, we employ a curated set of synthetic 3D animal models, encompassing diverse shapes, sizes, and even accounting for variations such as baby birds. Our innovative alignment tools play a pivotal role in mapping these diverse synthetic animal models onto a unified template, facilitating precise predictions of animal shape and texture. Crucially, our template alignment strategy establishes a shared shape space, allowing for the seamless sampling of new animal shapes, posing them realistically, animating them, and aligning them with real-world data. This groundbreaking approach revolutionizes our capacity to comprehensively understand and represent avian forms. For further details and access to the project, the project website can be found at https://github.com/kuangzijian/drifu-for-animals
翻訳日:2023-11-23 15:56:18 公開日:2023-11-22
# DoubleAUG:カラー摂動とデュアルスタイル記憶による都市における単一ドメイン一般化物体検出器

DoubleAUG: Single-domain Generalized Object Detector in Urban via Color Perturbation and Dual-style Memory ( http://arxiv.org/abs/2311.13198v1 )

ライセンス: Link先を確認
Lei Qi, Peng Dong, Tan Xiong, Hui Xue and Xin Geng(参考訳) インテリジェントな交通システムの自律走行には,都市シナリオにおける物体検出が不可欠である。 しかし,従来の物体検出作業とは異なり,都市景観画像のスタイルは様々である。 例えば、晴れた日に撮影された画像は、雨の日に撮影された画像と大きく異なる。 したがって、晴れた日のイメージで訓練されたモデルは、雨の日のイメージによく当てはまらない。 本稿では,都市シナリオにおける単一領域一般化可能な物体検出課題を解決することを目的として,ある気象条件からの画像を訓練したモデルが,他の気象条件からの画像に対してうまく機能することを示す。 この課題に対処するために,画像および特徴レベルの拡張スキームを含む新しいDouble AUGmentation(DoubleAUG)手法を提案する。 画像レベルの拡張では、異なる気象条件における色情報のばらつきを考慮し、rgbチャネルをランダムに交換して様々な画像を生成する色摂動(cp)法を提案する。 機能レベルの拡張では、DSM(Dual-Style Memory)を用いてデータセット全体の多様なスタイル情報を探索し、モデルの一般化能力をさらに強化する。 実験の結果,提案手法は最先端の手法よりも優れていた。 さらに,提案手法における各モジュールの有効性について検討した。 さらに,本手法はプラグアンドプレイであり,既存の手法に統合することで,モデルの性能をさらに向上させることができる。

Object detection in urban scenarios is crucial for autonomous driving in intelligent traffic systems. However, unlike conventional object detection tasks, urban-scene images vary greatly in style. For example, images taken on sunny days differ significantly from those taken on rainy days. Therefore, models trained on sunny day images may not generalize well to rainy day images. In this paper, we aim to solve the single-domain generalizable object detection task in urban scenarios, meaning that a model trained on images from one weather condition should be able to perform well on images from any other weather conditions. To address this challenge, we propose a novel Double AUGmentation (DoubleAUG) method that includes image- and feature-level augmentation schemes. In the image-level augmentation, we consider the variation in color information across different weather conditions and propose a Color Perturbation (CP) method that randomly exchanges the RGB channels to generate various images. In the feature-level augmentation, we propose to utilize a Dual-Style Memory (DSM) to explore the diverse style information on the entire dataset, further enhancing the model's generalization capability. Extensive experiments demonstrate that our proposed method outperforms state-of-the-art methods. Furthermore, ablation studies confirm the effectiveness of each module in our proposed method. Moreover, our method is plug-and-play and can be integrated into existing methods to further improve model performance.
翻訳日:2023-11-23 15:55:53 公開日:2023-11-22
# 文書理解の改善に向けて : MLLMによるテキスト収集の探索

Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs ( http://arxiv.org/abs/2311.13194v1 )

ライセンス: Link先を確認
Yonghui Wang, Wengang Zhou, Hao Feng, Keyi Zhou, Houqiang Li(参考訳) 文書理解の分野では、命令追従データを用いたMLLM(Multimodal Large Language Models)の微調整において重要な進歩がなされている。 それでも、テキスト豊富なシナリオにおけるテキストの接頭辞機能の可能性は未検討のままである。 本稿では,画像中のテキストの空間的位置を識別できるMLLMを改良することにより,この欠陥に対処するテキストグラウンド文書理解モデルTGDocを提案する。 経験的な証拠は、テキストグラウンディングがモデルのテキストコンテンツの解釈を改善し、テキストリッチな画像の理解能力を高めていることを示唆している。 具体的には、インターネットからソースされた99KのPowerPointプレゼンテーションを含むデータセットをコンパイルする。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密結合を容易にする。 さらに、テキストリッチな画像の集合をキュレートし、テキストのみのGPT-4に、テキストリッチなシナリオ内のテキストロケーションを特徴とする12Kの高品質な会話を生成する。 テキスト位置データを命令に組み込むことで、TGDocは視覚的質問プロセス中のテキスト位置を識別できる。 大規模な実験により,本手法は複数のテキストリッチベンチマークにおいて最先端性能を実現し,本手法の有効性を検証した。

In the field of document understanding, significant advances have been made in the fine-tuning of Multimodal Large Language Models (MLLMs) with instruction-following data. Nevertheless, the potential of text-grounding capability within text-rich scenarios remains underexplored. In this paper, we present a text-grounding document understanding model, termed TGDoc, which addresses this deficiency by enhancing MLLMs with the ability to discern the spatial positioning of text within images. Empirical evidence suggests that text-grounding improves the model's interpretation of textual content, thereby elevating its proficiency in comprehending text-rich images. Specifically, we compile a dataset containing 99K PowerPoint presentations sourced from the internet. We formulate instruction tuning tasks including text detection, recognition, and spotting to facilitate the cohesive alignment between the visual encoder and large language model. Moreover, we curate a collection of text-rich images and prompt the text-only GPT-4 to generate 12K high-quality conversations, featuring textual locations within text-rich scenarios. By integrating text location data into the instructions, TGDoc is adept at discerning text locations during the visual question process. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple text-rich benchmarks, validating the effectiveness of our method.
翻訳日:2023-11-23 15:55:35 公開日:2023-11-22
# 積分可能性からカオスへ:三重井戸ボゾン模型における量子古典対応

From integrability to chaos: the quantum-classical correspondence in a triple well bosonic model ( http://arxiv.org/abs/2311.13189v1 )

ライセンス: Link先を確認
Erick R. Castro and Karin Wittmann W. and Jorge Ch\'avez-Carlos and Itzhak Roditi and Angela Foerster and Jorge G. Hirsch(参考訳) 本研究では, 単純なボソニック量子多体系の半古典的限界を解析し, 可積分性およびカオス性の両方を示す。 古典ハミルトニアンはコヒーレント状態を用いて導かれる。 古典力学における正則性からカオスへの移行は、ポアンカルのセクションを通して可視化される。 位相空間における古典的な軌道は、カオスの場合でさえ、同様のエネルギーを持つ固有状態のフシミ函数の射影によく似ている。 この相関は、固有状態がフォック状態に投影されるときにより明らかである。 この分析は、固有状態がフォック基底で最大で非局在化される臨界エネルギーで行われる。 不完全な非局在化にもかかわらず、その影響は研究中の古典的量子特性に存在している。 この研究は、カオス領域内でさえ、2つ以上の井戸を持つボソニック多体系の量子古典対応を体系的に確立する。

In this work, we investigate the semiclassical limit of a simple bosonic quantum many-body system exhibiting both integrable and chaotic behavior. A classical Hamiltonian is derived using coherent states. The transition from regularity to chaos in classical dynamics is visualized through Poincar\'e sections. Classical trajectories in phase space closely resemble the projections of the Husimi functions of eigenstates with similar energy, even in chaotic cases. It is demonstrated that this correlation is more evident when projecting the eigenstates onto the Fock states. The analysis is carried out at a critical energy where the eigenstates are maximally delocalized in the Fock basis. Despite the imperfect delocalization, its influence is present in the classical quantum properties under investigation. The study systematically establishes quantum-classical correspondence for a bosonic many-body system with more than two wells, even within the chaotic region.
翻訳日:2023-11-23 15:55:14 公開日:2023-11-22
# 負の移動の規範を破る:クロスドメインシーケンスレコメンデーションのための協調ゲーム理論的アプローチ

Cracking the Code of Negative Transfer: A Cooperative Game Theoretic Approach for Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2311.13188v1 )

ライセンス: Link先を確認
Chung Park, Taesan Kim, Taekyoon Choi, Junui Hong, Yelim Yu, Mincheol Cho, Kyunam Lee, Sungil Ryu, Hyungjun Yoon, Minsung Choi, Jaegul Choo(参考訳) 本稿では,複数のドメインの情報(3つ以上)を用いて正確かつ多様なレコメンデーションを生成し,ユーザインタラクションの逐次的性質を考慮に入れた,有望な手法であるクロスドメインシーケンシャルレコメンデーション(cdsr)について検討する。 これらのシステムの有効性は、しばしば複数のドメイン間の複雑な相互作用に依存する。 このダイナミックな状況では、異種ドメイン間の異種知識が、これらのドメイン間でのユーザの好みの違いによる性能低下を引き起こす、負の移動の問題が発生する。 そこで本研究では, あるドメインから別のドメインへの負の転送範囲を評価し, 対応する予測損失に対して低重量値を適応的に割り当てることで, 負の転送の問題に対処する新しいCDSRフレームワークを提案する。 これにより、協調ゲーム理論に基づくモデルパフォーマンスに対する各ドメインの限界貢献度を測定することにより、負の転送量を推定する。 さらに, 負の伝達を緩和するために, 相関学習を実装する際に, 粗いカテゴリの列から細かなカテゴリ(項目レベルなど)に情報を組み込む階層的コントラスト学習手法を開発した。 細部レベルのドメイン間の関連性は低いものの、その一般化された幅広い選好により、カテゴリレベルでの関連性が高くなる可能性がある。 我々は,10の異なる領域にまたがる2つの実世界のデータセットのモデル性能において,従来のモデルよりも優れていることを示す。

This paper investigates Cross-Domain Sequential Recommendation (CDSR), a promising method that uses information from multiple domains (more than three) to generate accurate and diverse recommendations, and takes into account the sequential nature of user interactions. The effectiveness of these systems often depends on the complex interplay among the multiple domains. In this dynamic landscape, the problem of negative transfer arises, where heterogeneous knowledge between dissimilar domains leads to performance degradation due to differences in user preferences across these domains. As a remedy, we propose a new CDSR framework that addresses the problem of negative transfer by assessing the extent of negative transfer from one domain to another and adaptively assigning low weight values to the corresponding prediction losses. To this end, the amount of negative transfer is estimated by measuring the marginal contribution of each domain to model performance based on a cooperative game theory. In addition, a hierarchical contrastive learning approach that incorporates information from the sequence of coarse-level categories into that of fine-level categories (e.g., item level) when implementing contrastive learning was developed to mitigate negative transfer. Despite the potentially low relevance between domains at the fine-level, there may be higher relevance at the category level due to its generalised and broader preferences. We show that our model is superior to prior works in terms of model performance on two real-world datasets across ten different domains.
翻訳日:2023-11-23 15:54:59 公開日:2023-11-22
# NeISF: 形状と材料推定のためのニューラルネットワークインシデントストークスフィールド

NeISF: Neural Incident Stokes Field for Geometry and Material Estimation ( http://arxiv.org/abs/2311.13187v1 )

ライセンス: Link先を確認
Chenhao Li, Taishi Ono, Takeshi Uemori, Hajime Mihara, Alexander Gatto, Hajime Nagahara, Yuseke Moriuchi(参考訳) 多視点逆レンダリングは、異なる視点で撮影された一連の画像から形状、材料、照明などのシーンパラメータを推定する問題である。 しかし、多くのアプローチは単一光のバウンスを想定しており、反射間の挑戦的なシナリオを回復することができない。 一方、これらの手法を単にマルチバウンス光に拡張するには、曖昧さを軽減するためにより多くの仮定が必要である。 この問題に対処するため,多視点逆レンダリングフレームワークであるNeISF(Neural Incident Stokes Fields)を提案する。 偏光キューを使用する主な動機は、多面体光の蓄積であり、幾何学や材料についての豊富な情報を提供することである。 この知識に基づき、提案する入射ストークス場は、物理ベースの微分可能偏光レンダラの支援により累積偏光効果を効率的にモデル化する。 最後に,本手法が既存の合成・実シナリオよりも優れていることを示す。

Multi-view inverse rendering is the problem of estimating the scene parameters such as shapes, materials, or illuminations from a sequence of images captured under different viewpoints. Many approaches, however, assume single light bounce and thus fail to recover challenging scenarios like inter-reflections. On the other hand, simply extending those methods to consider multi-bounced light requires more assumptions to alleviate the ambiguity. To address this problem, we propose Neural Incident Stokes Fields (NeISF), a multi-view inverse rendering framework that reduces ambiguities using polarization cues. The primary motivation for using polarization cues is that it is the accumulation of multi-bounced light, providing rich information about geometry and material. Based on this knowledge, the proposed incident Stokes field efficiently models the accumulated polarization effect with the aid of an original physically-based differentiable polarimetric renderer. Lastly, experimental results show that our method outperforms the existing works in synthetic and real scenarios.
翻訳日:2023-11-23 15:54:18 公開日:2023-11-22
# スパイクニューラルネットワークの視覚的位置認識への応用

Applications of Spiking Neural Networks in Visual Place Recognition ( http://arxiv.org/abs/2311.13186v1 )

ライセンス: Link先を確認
Somayeh Hussaini, Michael Milford, Tobias Fischer(参考訳) ロボット工学において、スパイキングニューラルネットワーク(SNN)は、特にニューロモルフィックハードウェアに実装された場合、その大部分が非現実的なポテンシャルエネルギー効率と低レイテンシーで認識されている。 本稿では,視覚的位置認識(VPR)におけるSNNの3つの進歩について述べる。 まず,各SNNが重複しない地理的に異なる場所の集合を表現し,大規模環境におけるスケーラブルなネットワークを実現するモジュールSNNを提案する。 次に,複数のネットワークが同じ場所を表現し,シングルネットワークモデルと比較して精度を著しく向上させるモジュールSNNのアンサンブルを提案する。 私たちのsnsはコンパクトで小さく、1500個のニューロンと474kのシナプスしか含んでいません。 最後に,SNNに基づくVPRにおけるシーケンスマッチングの役割について検討する。 我々は,他のVPR手法と比較して,SNNのアンサンブルとシーケンスマッチングに対する応答性を分析する。 我々のコントリビューションは、スケーラブルで堅牢なソリューションを提供し、様々なエネルギーに敏感なロボットタスクにその応用の道を開く、VPRのためのSNNの実現性を強調しています。

In robotics, Spiking Neural Networks (SNNs) are increasingly recognized for their largely-unrealized potential energy efficiency and low latency particularly when implemented on neuromorphic hardware. Our paper highlights three advancements for SNNs in Visual Place Recognition (VPR). First, we propose Modular SNNs, where each SNN represents a set of non-overlapping geographically distinct places, enabling scalable networks for large environments. Secondly, we present Ensembles of Modular SNNs, where multiple networks represent the same place, significantly enhancing accuracy compared to single-network models. Our SNNs are compact and small, comprising only 1500 neurons and 474k synapses, which makes them ideally suited for ensembling due to this small size. Lastly, we investigate the role of sequence matching in SNN-based VPR, a technique where consecutive images are used to refine place recognition. We analyze the responsiveness of SNNs to ensembling and sequence matching compared to other VPR techniques. Our contributions highlight the viability of SNNs for VPR, offering scalable and robust solutions, paving the way for their application in various energy-sensitive robotic tasks.
翻訳日:2023-11-23 15:53:54 公開日:2023-11-22
# AS-LLM: アルゴリズムの選択が大規模言語モデルと出会うとき

AS-LLM: When Algorithm Selection Meets Large Language Model ( http://arxiv.org/abs/2311.13184v1 )

ライセンス: Link先を確認
Xingyu Wu, Yan Zhong, Jibin Wu, Kay Chen Tan(参考訳) アルゴリズムの選択は、実行前に特定の問題を解決するのに最も適したアルゴリズムを特定することを目的としている。 現在の主流アルゴリズム選択技術は、様々な問題の特徴表現に重きを置き、各アルゴリズムの性能を教師あり情報として利用する。 しかし,アルゴリズム特徴の考察には大きな研究ギャップがある。 このギャップは主にアルゴリズムの固有の複雑さによるもので、様々なアルゴリズムに適用可能な普遍的に効果的な特徴抽出方法を見つけるのが特に困難である。 残念なことに、この側面を無視することはアルゴリズム選択の正確性に影響を与え、間接的にトレーニング目的で問題データの量を増やす必要がある。 本稿では,アルゴリズム選択プロセスにアルゴリズム表現を統合するアプローチを提案することにより,このギャップに対処するための重要な取り組みを行う。 特に,提案手法では,問題とアルゴリズムの表現をそれぞれ異なるモジュールで抽出し,アルゴリズム表現はコード理解領域における事前学習されたllmの機能を活用する。 アルゴリズムと問題の両方に対する埋め込みベクトルの抽出に続いて、最も適切なアルゴリズムは一致する次数の計算によって決定される。 提案手法は,提案手法の有効性を検証しただけでなく,異なる組込み事前学習 LLM の性能を実証し,提案手法はLLM のコード表現能力を評価するためのベースラインタスクとして機能する可能性を持っていることを示唆している。

Algorithm selection aims to identify the most suitable algorithm for solving a specific problem before execution, which has become a critical process of the AutoML. Current mainstream algorithm selection techniques rely heavily on feature representations of various problems and employ the performance of each algorithm as supervised information. However, there is a significant research gap concerning the consideration of algorithm features. This gap is primarily attributed to the inherent complexity of algorithms, making it particularly challenging to find a universally effective feature extraction method that is applicable across a diverse range of algorithms. Unfortunately, neglecting this aspect undoubtedly impacts the accuracy of algorithm selection and indirectly necessitates an increased volume of problem data for training purposes. This paper takes a significant stride towards addressing this gap by proposing an approach that integrates algorithm representation into the algorithm selection process. Specifically, our proposed model employs distinct modules to extract representations of both problems and algorithms, where the algorithm representation leverages the capabilities of pre-trained LLMs in the realm of code comprehension. Following the extraction of embedding vectors for both algorithms and problems, the most suitable algorithm is determined through calculations of matching degrees. Our experiments not only validate the effectiveness of the proposed model but also showcase the performance of different embedded pre-trained LLMs, which suggests that the proposed algorithm selection framework holds the potential to serve as a baseline task for evaluating the code representation capabilities of LLMs.
翻訳日:2023-11-23 15:53:21 公開日:2023-11-22
# ミリ波センシングのための無線周波数線トレーシング

Differentiable Radio Frequency Ray Tracing for Millimeter-Wave Sensing ( http://arxiv.org/abs/2311.13182v1 )

ライセンス: Link先を確認
Xingyu Chen, Xinyu Zhang, Qiyue Xia, Xinmin Fang, Chris Xiaoxuan Lu, Zhengxiong Li(参考訳) ミリ波(mmwave)センシングは、3dオブジェクトキャラクタリゼーションと環境マッピングに応用される新しい技術である。 しかし、スパースmmWave信号から正確な3次元再構成を実現することは依然として困難である。 既存の方法はデータセットの可用性と一般化の難しさに制約されたデータ駆動学習に依存している。 我々はmmWaveベースの3D再構成のための微分可能なフレームワークDiffSBRを提案する。 DiffSBRは、仮想3Dモデルからレーダーポイント雲をシミュレートするために、微分可能なレイトレーシングエンジンを組み込んでいる。 勾配に基づくオプティマイザはモデルパラメータを洗練し、シミュレーション雲と実点雲の差を最小限に抑える。 様々なレーダーハードウェアを用いた実験により、ディフスbrの詳細な3d再構成能力が検証された。 物理に基づくシミュレーションと勾配最適化を統合することで、DiffSBRはデータ駆動アプローチの限界を超越し、mmWaveセンシングの新しいパラダイムを開拓する。

Millimeter wave (mmWave) sensing is an emerging technology with applications in 3D object characterization and environment mapping. However, realizing precise 3D reconstruction from sparse mmWave signals remains challenging. Existing methods rely on data-driven learning, constrained by dataset availability and difficulty in generalization. We propose DiffSBR, a differentiable framework for mmWave-based 3D reconstruction. DiffSBR incorporates a differentiable ray tracing engine to simulate radar point clouds from virtual 3D models. A gradient-based optimizer refines the model parameters to minimize the discrepancy between simulated and real point clouds. Experiments using various radar hardware validate DiffSBR's capability for fine-grained 3D reconstruction, even for novel objects unseen by the radar previously. By integrating physics-based simulation with gradient optimization, DiffSBR transcends the limitations of data-driven approaches and pioneers a new paradigm for mmWave sensing.
翻訳日:2023-11-23 15:52:22 公開日:2023-11-22
# サーバレス移行への旅: 意図、戦略、課題の実証分析

The Journey to Serverless Migration: An Empirical Analysis of Intentions, Strategies, and Challenges ( http://arxiv.org/abs/2311.13249v1 )

ライセンス: Link先を確認
Muhammad Hamza, Muhammad Azeem Akbar, Kari Smolander(参考訳) サーバレスは、開発者が基盤となるインフラストラクチャのプロビジョニングや管理よりも、アプリケーションロジックのみに集中できるようにする、新たなクラウドコンピューティングパラダイムである。 サーバレスコンピューティングのスケーラビリティ、柔軟性、コスト効率といった固有の特性は、多くの企業がレガシーアプリケーションをこのパラダイムに移行させた。 しかし、サーバーレスのステートレスな性質には、注意深いマイグレーション計画、それに続く影響、潜在的な課題を考慮する必要があります。 そこで本研究では,サーバレスアーキテクチャに移行する上での意図,戦略,技術的,組織的な課題について検討する。 多様なドメインにわたる11のシステムの移行プロセスについて,11の組織から15の専門家による詳細なインタビューを行った。 それぞれの移行事例について 詳細な議論も行いました 企業は主にスケーラビリティと運用効率の向上のために移行していますが、小さな組織ではコスト削減を目標としています。 さらに、ドメイン駆動設計アプローチを使用してユースケースを特定し、絞殺パターンを使用して徐々にサーバレスに移行する。 しかし、移行は技術的な課題、すなわちイベント駆動アーキテクチャのテスト、レガシシステムとの統合、標準化の欠如、組織の課題、マインドセットの変化、熟練したサーバーレス開発者の採用に直面する。 この研究の結果は、サーバレス移行の文脈における将来の実装と進歩を導くための包括的な理解を提供する。

Serverless is an emerging cloud computing paradigm that facilitates developers to focus solely on the application logic rather than provisioning and managing the underlying infrastructure. The inherent characteristics such as scalability, flexibility, and cost efficiency of serverless computing, attracted many companies to migrate their legacy applications toward this paradigm. However, the stateless nature of serverless requires careful migration planning, consideration of its subsequent implications, and potential challenges. To this end, this study investigates the intentions, strategies, and technical and organizational challenges while migrating to a serverless architecture. We investigated the migration processes of 11 systems across diverse domains by conducting 15 in-depth interviews with professionals from 11 organizations. we also presented a detailed discussion of each migration case. Our findings reveal that large enterprises primarily migrate to enhance scalability and operational efficiency, while smaller organizations intend to reduce the cost. Furthermore, organizations use a domain-driven design approach to identify the use case and gradually migrate to serverless using a strangler pattern. However, migration encounters technical challenges i.e., testing event-driven architecture, integrating with the legacy system, lack of standardization, and organizational challenges i.e., mindset change and hiring skilled serverless developers as a prominent. The findings of this study provide a comprehensive understanding that can guide future implementations and advancements in the context of serverless migration.
翻訳日:2023-11-23 15:44:59 公開日:2023-11-22
# 時系列信号予測のための非線形状態空間モデル

A projected nonlinear state-space model for forecasting time series signals ( http://arxiv.org/abs/2311.13247v1 )

ライセンス: Link先を確認
Christian Donner, Anuj Mishra, Hideaki Shimazaki(参考訳) 確率時系列の学習と予測は様々な科学分野において不可欠である。 しかし、非線形フィルタやディープラーニング手法の提案にもかかわらず、いくつかのノイズサンプルから非線形ダイナミクスを捉え、計算効率を維持しながら不確実性推定による将来の軌道を予測することは依然として困難である。 本稿では,騒音時系列データから非線形ダイナミクスを学習し予測する高速アルゴリズムを提案する。 提案モデルの主な特徴は、投射線に適用されたカーネル関数であり、潜在力学における非線形性の高速かつ効率的な捕捉を可能にする。 経験的なケーススタディとベンチマークによって、モデルは複雑な非線形ダイナミクスの学習と予測においてその効果を実証し、時系列分析における研究者や実践者にとって有用なツールを提供する。

Learning and forecasting stochastic time series is essential in various scientific fields. However, despite the proposals of nonlinear filters and deep-learning methods, it remains challenging to capture nonlinear dynamics from a few noisy samples and predict future trajectories with uncertainty estimates while maintaining computational efficiency. Here, we propose a fast algorithm to learn and forecast nonlinear dynamics from noisy time series data. A key feature of the proposed model is kernel functions applied to projected lines, enabling fast and efficient capture of nonlinearities in the latent dynamics. Through empirical case studies and benchmarking, the model demonstrates its effectiveness in learning and forecasting complex nonlinear dynamics, offering a valuable tool for researchers and practitioners in time series analysis.
翻訳日:2023-11-23 15:44:36 公開日:2023-11-22
# オープンソースのLLM命令チューニングのための自動命令最適化

Automatic Instruction Optimization for Open-source LLM Instruction Tuning ( http://arxiv.org/abs/2311.13246v1 )

ライセンス: Link先を確認
Yilun Liu, Shimin Tao, Xiaofeng Zhao, Ming Zhu, Wenbing Ma, Junhao Zhu, Chang Su, Yutai Hou, Miao Zhang, Min Zhang, Hongxia Ma, Li Zhang, Hao Yang, Yanfei Jiang(参考訳) インストラクションチューニングは、人間の指示に応答する言語学習モデル(LLM)の実現に不可欠である。 チューニングに使用する命令ペアの品質は、LLMの性能に大きく影響する。 しかし、高品質な命令データセットを手作業で作成することはコストがかかるため、LLMによる命令ペアの自動生成が、オープンソースのLLMのトレーニングにおいて一般的な代替手段となる。 LLM生成した命令データセットの高品質性を確保するため、いくつかのアプローチが提案されている。 それにもかかわらず、既存の手法は大量のサンプルをフィルタリングすることでデータセットの整合性を損なうか、工業用途に適さない。 本稿では,低品質なサンプルを捨てる代わりに,データセットのサンプルの自動修正によって命令データセットの品質を高める新しい手法であるCoachLMを提案する。 CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。 coachLMの有効性は、様々な実世界の命令セットでさらに評価される。 その結果、CoachLMは、平均29.9%の命令調整LDMの命令追従能力を向上し、パラメータの約2倍のLLMを超える結果となった。 さらに、CoachLMはHuaweiのLLMのデータ管理システムにデプロイされ、40kの実世界の命令ペアのクリーニングにおいて最大20%の効率向上を実現している。 CoachLM(https://github.com/lunyiliu/CoachLM)のトレーニングデータとコードをリリースする。

Instruction tuning is crucial for enabling Language Learning Models (LLMs) in responding to human instructions. The quality of instruction pairs used for tuning greatly affects the performance of LLMs. However, the manual creation of high-quality instruction datasets is costly, leading to the adoption of automatic generation of instruction pairs by LLMs as a popular alternative in the training of open-source LLMs. To ensure the high quality of LLM-generated instruction datasets, several approaches have been proposed. Nevertheless, existing methods either compromise dataset integrity by filtering a large proportion of samples, or are unsuitable for industrial applications. In this paper, instead of discarding low-quality samples, we propose CoachLM, a novel approach to enhance the quality of instruction datasets through automatic revisions on samples in the dataset. CoachLM is trained from the samples revised by human experts and significantly increases the proportion of high-quality samples in the dataset from 17.7% to 78.9%. The effectiveness of CoachLM is further assessed on various real-world instruction test sets. The results show that CoachLM improves the instruction-following capabilities of the instruction-tuned LLM by an average of 29.9%, which even surpasses larger LLMs with nearly twice the number of parameters. Furthermore, CoachLM is successfully deployed in a data management system for LLMs at Huawei, resulting in an efficiency improvement of up to 20% in the cleaning of 40k real-world instruction pairs. We release the training data and code of CoachLM (https://github.com/lunyiliu/CoachLM).
翻訳日:2023-11-23 15:44:23 公開日:2023-11-22
# 把持安定性推定のための指先すべりと外乱検出に対するモデルフリーアプローチ

A model-free approach to fingertip slip and disturbance detection for grasp stability inference ( http://arxiv.org/abs/2311.13245v1 )

ライセンス: Link先を確認
Dounia Kitouni (ISIR), Mahdi Khoramshahi (ISIR), Veronique Perdereau (ISIR)(参考訳) 物体操作におけるロボット能力は人間のものとは相容れない。 長年の学習に加えて、人間は環境との物理的相互作用からの情報の豊かさに大きく依存している。 特に触覚センシングは、このようなリッチなフィードバックを提供する上で重要である。 ロボット操作への潜在的な貢献にもかかわらず、触覚センサーは、主に触覚センサーによって提供される時系列の複雑さのために、あまり利用されない。 本研究では触覚センシングを用いた把持安定性の評価手法を提案する。 具体的には,タスク関連特徴を抽出する手法と,個々の指先に対して物体のすべりを検出する効率的な分類器を提案する。 サポートベクターマシンとロジスティック回帰の2つの分類モデルを比較した。 我々は,アレグロハンドに装着した高感度uskin触覚センサを用いて本手法を検証・検証した。 提案手法は,オンライン形式での滑り検出に有効であることを実証する。

Robotic capacities in object manipulation are incomparable to those of humans. Besides years of learning, humans rely heavily on the richness of information from physical interaction with the environment. In particular, tactile sensing is crucial in providing such rich feedback. Despite its potential contributions to robotic manipulation, tactile sensing is less exploited; mainly due to the complexity of the time series provided by tactile sensors. In this work, we propose a method for assessing grasp stability using tactile sensing. More specifically, we propose a methodology to extract task-relevant features and design efficient classifiers to detect object slippage with respect to individual fingertips. We compare two classification models: support vector machine and logistic regression. We use highly sensitive Uskin tactile sensors mounted on an Allegro hand to test and validate our method. Our results demonstrate that the proposed method is effective in slippage detection in an online fashion.
翻訳日:2023-11-23 15:44:00 公開日:2023-11-22
# グラフニューラルネットワークを用いたハードラベルブラックボックスノードインジェクション攻撃

Hard Label Black Box Node Injection Attack on Graph Neural Networks ( http://arxiv.org/abs/2311.13244v1 )

ライセンス: Link先を確認
Yu Zhou, Zihao Dong, Guofeng Zhang, Jingchen Tang(参考訳) グラフニューラルネットワークは、グラフ分類やノード分類を含む多くの実世界のタスクにおいて最先端のパフォーマンスを達成したが、最近の研究は、敵の攻撃に対して非常に脆弱であることを示した。 以前のほとんどの作品は、非現実的なホワイトボックスシナリオの下でノード分類ネットワークを攻撃することに重点を置いてきた。 本稿では,グラフニューラルネットワークに対する非標的型ハードボックスノードインジェクション攻撃を提案する。 この環境では,攻撃対象のGNNモデルのアーキテクチャ,(2)モデルの勾配,(3)対象のGNNモデルの出力ロジットといった,(1)の事前知識を前提に,より現実的なタスクを研究することができる。 我々の攻撃は、既存のエッジ摂動攻撃に基づいており、ノード注入攻撃を定式化する最適化プロセスを制限する。 本研究では,COIL-DEL,IMDB-Binary,NCI1の3つのデータセットを用いて攻撃性能を評価する。

While graph neural networks have achieved state-of-the-art performances in many real-world tasks including graph classification and node classification, recent works have demonstrated they are also extremely vulnerable to adversarial attacks. Most previous works have focused on attacking node classification networks under impractical white-box scenarios. In this work, we will propose a non-targeted Hard Label Black Box Node Injection Attack on Graph Neural Networks, which to the best of our knowledge, is the first of its kind. Under this setting, more real world tasks can be studied because our attack assumes no prior knowledge about (1): the model architecture of the GNN we are attacking; (2): the model's gradients; (3): the output logits of the target GNN model. Our attack is based on an existing edge perturbation attack, from which we restrict the optimization process to formulate a node injection attack. In the work, we will evaluate the performance of the attack using three datasets, COIL-DEL, IMDB-BINARY, and NCI1.
翻訳日:2023-11-23 15:43:48 公開日:2023-11-22
# サーバーレスコンピューティングのコストダイナミクスの理解:実証的研究

Understanding Cost Dynamics of Serverless Computing: An Empirical Study ( http://arxiv.org/abs/2311.13242v1 )

ライセンス: Link先を確認
Muhammad Hamza, Muhammad Azeem Akbar, Rafael Capilla(参考訳) サーバーレスコンピューティングの出現はクラウドコンピューティングの展望に革命をもたらし、基盤となるインフラストラクチャの管理やプロビジョニングではなく、アプリケーションのみに集中できる新しいパラダイムを提供している。 これらのアプリケーションには、複雑なタスクのための凝集ワークフローに個々の関数を統合することが含まれる。 従量課金モデルとクラウドプロバイダによる非トランザクションレポートによって、サーバレスコストの見積が難しくなり、インフォームドビジネス判断が妨げられる。 サーバーレスコンピュートに関するこれまでの研究は、経験則と技術的な観点の両方から、パフォーマンスの最適化と状態管理に焦点を当てている。 しかし、最先端技術は、従来のクラウドコンピューティングよりもサーバーレスコンピューティングのコストダイナミクスを理解するための実証的な調査の欠如を示している。 したがって、この研究は、組織がサーバーレスを採用するコストを期待する方法を掘り下げる。 また、ワークロードに適合し、サーバーレスアプリケーションのコスト最適化のベストプラクティスを特定することを目的としている。 この目的のために、サーバレスシステムのマイグレーションと開発に関わる8社から15人の専門家を対象に、質的研究(interviews)を実施しました。 その結果、サーバーレスコンピューティングは予測不能なワークロードに非常に適しているが、高スケールのアプリケーションではコスト効率が良くないことが分かった。 また、サーバーレスと従来のクラウドのコストを比較するための分類も導入されている。

The advent of serverless computing has revolutionized the landscape of cloud computing, offering a new paradigm that enables developers to focus solely on their applications rather than managing and provisioning the underlying infrastructure. These applications involve integrating individual functions into a cohesive workflow for complex tasks. The pay-per-use model and nontransparent reporting by cloud providers make it difficult to estimate serverless costs, imped-ing informed business decisions. Existing research studies on serverless compu-ting focus on performance optimization and state management, both from empir-ical and technical perspectives. However, the state-of-the-art shows a lack of em-pirical investigations on the understanding of the cost dynamics of serverless computing over traditional cloud computing. Therefore, this study delves into how organizations anticipate the costs of adopting serverless. It also aims to com-prehend workload suitability and identify best practices for cost optimization of serverless applications. To this end, we conducted a qualitative (interviews) study with 15 experts from 8 companies involved in the migration and development of serverless systems. The findings revealed that, while serverless computing is highly suitable for unpredictable workloads, it may not be cost-effective for cer-tain high-scale applications. The study also introduces a taxonomy for comparing the cost of adopting serverless versus traditional cloud.
翻訳日:2023-11-23 15:43:29 公開日:2023-11-22
# 大規模言語モデルの校正とアライメントについて

On the Calibration of Large Language Models and Alignment ( http://arxiv.org/abs/2311.13240v1 )

ライセンス: Link先を確認
Chiwei Zhu, Benfeng Xu, Quan Wang, Yongdong Zhang, Zhendong Mao(参考訳) 大きな言語モデルが注目を惹きつけ、広く応用されるようになるにつれ、信頼性に関する同時的課題も同時に発生する。 深いモデルの信頼性を計測する効果的な分析手法である信頼度校正は、信頼性を評価し改善するための重要なツールである。 しかし、その調査は比較的過小評価されている。 本研究では,事前学習やアライメントトレーニングを含む構築プロセス全体を通して,アライメント言語モデルの校正を体系的に検討する。 各段階において,パラメータ尺度やトレーニングデータなど,異なるトレーニング設定がモデルキャリブレーションに与える影響について検討する。 モデルキャリブレーションを徹底的に評価するために,生成,事実性,理解の3つの側面からモデルを評価する。 我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。

As large language models attract increasing attention and find widespread application, concurrent challenges of reliability also arise at the same time. Confidence calibration, an effective analysis method for gauging the reliability of deep models, serves as a crucial tool for assessing and improving their reliability. However, such investigation has been comparatively underexplored. In this work, we conduct a systematic examination of the calibration of aligned language models throughout the entire construction process, including pretraining and alignment training. At each stage, we investigate how different training settings, such as parameter scales and training data, affect model calibration. To thoroughly assess model calibration, we evaluate models on three most concerned aspects: generation, factuality and understanding. Our work sheds light on whether popular LLMs are well-calibrated and how the training process influences model calibration.
翻訳日:2023-11-23 15:43:10 公開日:2023-11-22
# TSegFormer : Geometry Guided Transformer を用いた口腔内3次元歯の分割

TSegFormer: 3D Tooth Segmentation in Intraoral Scans with Geometry Guided Transformer ( http://arxiv.org/abs/2311.13234v1 )

ライセンス: Link先を確認
Huimin Xiong, Kunle Li, Kaiyuan Tan, Yang Feng, Joey Tianyi Zhou, Jin Hao, Haochao Ying, Jian Wu, and Zuozhu Liu(参考訳) 歯科用歯冠および歯肉の詳細な3D情報を提供するために, 歯科用光学式歯内スキャナー (IOS) が広く用いられている。 IOSsの正確な3次元歯のセグメンテーションは、様々な歯科応用において重要であるが、従来の方法では、複雑な境界においてエラーが発生し、患者間で不満足な結果を示す。 本稿では, マルチタスク3Dトランスフォーマアーキテクチャを用いて, 歯の局所的および大域的依存関係とIOS点群における歯肉の形状をキャプチャするTSegFormerを提案する。 さらに,新しい点曲率に基づく幾何誘導損失を設計し,時間を要する後処理を回避し,臨床的に適用可能なセグメンテーションを実現する。 さらに、16,000のIOSを持つデータセットも作成しています。 実験の結果、私たちのTSegFormerは既存の最先端のベースラインを一貫して超えています。 TSegFormerの優位性は、広範な分析、可視化、実際の臨床応用テストによって裏付けられている。 私たちのコードはhttps://github.com/huiminxiong/tsegformerで利用可能です。

Optical Intraoral Scanners (IOS) are widely used in digital dentistry to provide detailed 3D information of dental crowns and the gingiva. Accurate 3D tooth segmentation in IOSs is critical for various dental applications, while previous methods are error-prone at complicated boundaries and exhibit unsatisfactory results across patients. In this paper, we propose TSegFormer which captures both local and global dependencies among different teeth and the gingiva in the IOS point clouds with a multi-task 3D transformer architecture. Moreover, we design a geometry-guided loss based on a novel point curvature to refine boundaries in an end-to-end manner, avoiding time-consuming post-processing to reach clinically applicable segmentation. In addition, we create a dataset with 16,000 IOSs, the largest ever IOS dataset to the best of our knowledge. The experimental results demonstrate that our TSegFormer consistently surpasses existing state-of-the-art baselines. The superiority of TSegFormer is corroborated by extensive analysis, visualizations and real-world clinical applicability tests. Our code is available at https://github.com/huiminxiong/TSegFormer.
翻訳日:2023-11-23 15:42:53 公開日:2023-11-22
# 敵対的カプチャの歴史・分類・世代に関する調査研究

A Survey of Adversarial CAPTCHAs on its History, Classification and Generation ( http://arxiv.org/abs/2311.13233v1 )

ライセンス: Link先を確認
Zisheng Xu, Qiao Yan, F. Richard Yu, Victor C. M. Leung(参考訳) CAPTCHAの略で、コンピュータと人間に警告する完全自動化公開チューリングテストは、ボットによって実行された悪意のある攻撃に対して、必須かつ比較的簡単な方法である。 セキュリティとユーザビリティのトレードオフは、複雑なCAPTCHAにおいて人間よりも優れた深層モデル認識や深部モデルに干渉する巨大な幾何学的変換の使用を制限する。 敵の例の発見は、敵の例とCAPTCHAを統合して、深いモデルを騙すことができる敵のCAPTCHAを生成することによって、セキュリティとユーザビリティのトレードオフに対する理想的な解決策を提供する。 本稿では,逆CAPTCHAの定義を拡張し,逆CAPTCHAの分類法を提案する。 そこで本研究では, 逆転型CAPTCHAの生成に成功している逆転型例と手法を系統的に検討する。 また, 敵CAPTCHAの防御に使用可能な防御方法も分析し, 敵CAPTCHAに対する潜在的な脅威を示す。 最後に,本論文の最後に,カプチャに対する今後の研究の方向性について述べる。

Completely Automated Public Turing test to tell Computers and Humans Apart, short for CAPTCHA, is an essential and relatively easy way to defend against malicious attacks implemented by bots. The security and usability trade-off limits the use of massive geometric transformations to interfere deep model recognition and deep models even outperformed humans in complex CAPTCHAs. The discovery of adversarial examples provides an ideal solution to the security and usability trade-off by integrating adversarial examples and CAPTCHAs to generate adversarial CAPTCHAs that can fool the deep models. In this paper, we extend the definition of adversarial CAPTCHAs and propose a classification method for adversarial CAPTCHAs. Then we systematically review some commonly used methods to generate adversarial examples and methods that are successfully used to generate adversarial CAPTCHAs. Also, we analyze some defense methods that can be used to defend adversarial CAPTCHAs, indicating potential threats to adversarial CAPTCHAs. Finally, we discuss some possible future research directions for adversarial CAPTCHAs at the end of this paper.
翻訳日:2023-11-23 15:42:33 公開日:2023-11-22
# 逆流モデルのない微動拡散モデルへの人間のフィードバックの利用

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model ( http://arxiv.org/abs/2311.13231v1 )

ライセンス: Link先を確認
Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li(参考訳) 人間のフィードバックを用いた強化学習(RLHF)は微調整拡散モデルにおいて有望である。 これまでの方法は、人間の好みに合わせて報酬モデルをトレーニングし、RL技術を利用して基礎となるモデルを微調整することから始まる。 しかし、効率的な報酬モデルを作成するには、膨大なデータセット、最適なアーキテクチャ、手動のハイパーパラメータチューニングが必要である。 大規模言語モデルの微調整に有効な直接選好最適化(DPO)法は,報奨モデルの必要性を排除している。 しかし,拡散モデルのデノイングプロセスにおけるGPUメモリの広範な要求は,DPO法の直接適用を妨げる。 この問題に対処するため、直列拡散モデルにD3PO(Denoising Diffusion Policy Optimization)法を導入する。 理論的解析により,D3POは報酬モデルのトレーニングを省略するが,人間のフィードバックデータを用いて学習過程をガイドする最適な報酬モデルとして効果的に機能することが示された。 このアプローチでは、報酬モデルのトレーニングを必要とせず、より直接的でコスト効率が良く、計算オーバーヘッドを最小限に抑えることが証明される。 実験では,目的の相対尺度を人間の嗜好のプロキシとして使用し,地道報酬を用いた手法に匹敵する結果を与える。 さらに、D3POは画像歪み率を低減し、より安全な画像を生成する能力を示し、堅牢な報酬モデルに欠ける課題を克服する。

Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models.
翻訳日:2023-11-23 15:42:14 公開日:2023-11-22
# 鏡に映るロボット:自己監督モデルと関連づけて模倣する学習

Robot at the Mirror: Learning to Imitate via Associating Self-supervised Models ( http://arxiv.org/abs/2311.13226v1 )

ライセンス: Link先を確認
Andrej L\'u\v{c}ny, Krist\'ina Malinovsk\'a, and Igor Farka\v{s}(参考訳) 学習や微調整に代えて,自己監督型モデルから独自のモデルを構築する手法を提案する。 そこで本研究では,鏡を映し出したヒューマノイドロボットが,知覚した画像から身体の3Dポーズを検出することを実演する。 このモデルを構築するために,まず,ロボットの操作前に用意されたモデルを用いて,視覚入力とロボットの姿勢から特徴を抽出する。 次に,標本効率の良いロボットの自己爆発を鏡に映し出すことにより,それらの潜在空間をマッピングする。 このようにして、ロボットは、徐々に品質を得るのではなく、取得したサンプルですぐに品質が完璧になる3dポーズ検出器を構築する。 特徴ベクトルのペアを関連づけたマッピングは、有名な変圧器モデルのキー値機構と同じ方法で実装される。 最後に、シミュレーションロボットに模倣するためにモデルを配置することで、人間の関与なしにハイパーパラメータを研究し、調整し、体系的に評価することが可能になります。

We introduce an approach to building a custom model from ready-made self-supervised models via their associating instead of training and fine-tuning. We demonstrate it with an example of a humanoid robot looking at the mirror and learning to detect the 3D pose of its own body from the image it perceives. To build our model, we first obtain features from the visual input and the postures of the robot's body via models prepared before the robot's operation. Then, we map their corresponding latent spaces by a sample-efficient robot's self-exploration at the mirror. In this way, the robot builds the solicited 3D pose detector, which quality is immediately perfect on the acquired samples instead of obtaining the quality gradually. The mapping, which employs associating the pairs of feature vectors, is then implemented in the same way as the key-value mechanism of the famous transformer models. Finally, deploying our model for imitation to a simulated robot allows us to study, tune up, and systematically evaluate its hyperparameters without the involvement of the human counterpart, advancing our previous research.
翻訳日:2023-11-23 15:41:47 公開日:2023-11-22
# NeutronOrch: CPU-GPU異種環境下でのサンプルベースGNNトレーニングの再考

NeutronOrch: Rethinking Sample-based GNN Training under CPU-GPU Heterogeneous Environments ( http://arxiv.org/abs/2311.13225v1 )

ライセンス: Link先を確認
Xin Ai, Qiange Wang, Chunyu Cao, Yanfeng Zhang, Chaoyi Chen, Hao Yuan, Yu Gu, Ge Yu(参考訳) グラフニューラルネットワーク(GNN)は様々なアプリケーションで優れた性能を示している。 既存のフレームワークは、gnnモデルをトレーニングするためにcpu-gpuヘテロジニアス環境を利用し、gpuメモリ制限を克服するためにミニバッチとサンプリング技術を統合する。 CPU-GPUヘテロジニアス環境では、サンプルベースのGNNトレーニングを、サンプル、コレクション、トレーニングの3つのステップに分けることができます。 既存のGNNシステムでは、CPUやGPUの各ステップを使用するために異なるタスクオーケストレーション手法を使用している。 大規模な実験と分析の結果、既存のタスクオーケストレーション手法では、非効率なCPU処理やGPUリソースの競合によって制限された異種資源を十分に活用できないことがわかった。 本稿では,階層型タスクオーケストレーション手法を取り入れ,CPUとGPUのバランスよく利用するためのサンプルベースGNNトレーニングシステムであるNeurotronOrchを提案する。 neutronorchはトレーニングプロセスをレイヤ単位で分離し、下位層のトレーニングタスクをcpuにプッシュダウンする。 これにより、GPUトレーニングの計算負荷とメモリフットプリントが大幅に削減される。 非効率なCPU処理を避けるため、NeutronOrchは頻繁にアクセスされる頂点のトレーニングをCPUにオフロードするだけで、GPUはバウンドスタルネスで埋め込みを再利用できる。 さらに、trontronorchは層ベースのタスクオーケストレーション法のためのきめ細かいパイプライン設計を提供し、異なるリソース上の異なるタスクを完全に重複させながら、境界的な停滞を厳密に保証する。 実験結果から、現在最先端のGNNシステムと比較すると、NeurotronOrchは最大4.61倍の性能向上を達成できることがわかった。

Graph Neural Networks (GNNs) have demonstrated outstanding performance in various applications. Existing frameworks utilize CPU-GPU heterogeneous environments to train GNN models and integrate mini-batch and sampling techniques to overcome the GPU memory limitation. In CPU-GPU heterogeneous environments, we can divide sample-based GNN training into three steps: sample, gather, and train. Existing GNN systems use different task orchestrating methods to employ each step on CPU or GPU. After extensive experiments and analysis, we find that existing task orchestrating methods fail to fully utilize the heterogeneous resources, limited by inefficient CPU processing or GPU resource contention. In this paper, we propose NeutronOrch, a system for sample-based GNN training that incorporates a layer-based task orchestrating method and ensures balanced utilization of the CPU and GPU. NeutronOrch decouples the training process by layer and pushes down the training task of the bottom layer to the CPU. This significantly reduces the computational load and memory footprint of GPU training. To avoid inefficient CPU processing, NeutronOrch only offloads the training of frequently accessed vertices to the CPU and lets GPU reuse their embeddings with bounded staleness. Furthermore, NeutronOrch provides a fine-grained pipeline design for the layer-based task orchestrating method, fully overlapping different tasks on heterogeneous resources while strictly guaranteeing bounded staleness. The experimental results show that compared with the state-of-the-art GNN systems, NeutronOrch can achieve up to 4.61x performance speedup.
翻訳日:2023-11-23 15:41:29 公開日:2023-11-22
# Bangla Signboardからの住所情報の検出・認識・解析に向けて:ディープラーニングによるアプローチ

Towards Detecting, Recognizing, and Parsing the Address Information from Bangla Signboard: A Deep Learning-based Approach ( http://arxiv.org/abs/2311.13222v1 )

ライセンス: Link先を確認
Hasan Murad, Mohammed Eunus Ali(参考訳) 自然風景画像からテキスト情報を取得することは、多くの実用的な応用を伴うコンピュータビジョンの分野で活発な研究分野である。 テキスト領域の検出と看板からのテキスト抽出は、実生活の自然風景画像に見られる反射光や不均一な照明、影といった特殊な特徴から、難しい問題である。 深層学習に基づく手法の出現に伴い,自然界からのテキスト検出やテキスト認識に様々な高度な技術が提案されている。 英語のような資源豊かな言語のための自然のシーンテキストの抽出にかなりの労力が費やされてきたが、バングラのような低リソース言語ではほとんど行われていない。 本研究では,バングラの看板からアドレス情報を効率よく検出,認識,修正,解析する深層学習モデルを用いたエンドツーエンドシステムを提案する。 我々は、手作業で注釈付きデータセットと合成データセットを作成し、サインボード検出、アドレステキスト検出、アドレステキスト認識、アドレステキスト修正、アドレステキストパーサモデルを訓練した。 我々は,Banglaアドレステキスト認識のためのCTCベースとEncoder-Decoderモデルアーキテクチャの比較研究を行った。 さらに, 逐次変換器を用いた新しいアドレステキスト補正モデルを開発し, バングラアドレステキスト認識モデルの性能を後修正により向上させた。 最後に,最先端のトランスフォーマベースの事前学習言語モデルを用いたバングラアドレステキストパーサを開発した。

Retrieving textual information from natural scene images is an active research area in the field of computer vision with numerous practical applications. Detecting text regions and extracting text from signboards is a challenging problem due to special characteristics like reflecting lights, uneven illumination, or shadows found in real-life natural scene images. With the advent of deep learning-based methods, different sophisticated techniques have been proposed for text detection and text recognition from the natural scene. Though a significant amount of effort has been devoted to extracting natural scene text for resourceful languages like English, little has been done for low-resource languages like Bangla. In this research work, we have proposed an end-to-end system with deep learning-based models for efficiently detecting, recognizing, correcting, and parsing address information from Bangla signboards. We have created manually annotated datasets and synthetic datasets to train signboard detection, address text detection, address text recognition, address text correction, and address text parser models. We have conducted a comparative study among different CTC-based and Encoder-Decoder model architectures for Bangla address text recognition. Moreover, we have designed a novel address text correction model using a sequence-to-sequence transformer-based network to improve the performance of Bangla address text recognition model by post-correction. Finally, we have developed a Bangla address text parser using the state-of-the-art transformer-based pre-trained language model.
翻訳日:2023-11-23 15:41:02 公開日:2023-11-22
# パラメータ化量子機械学習回路における不毛高原の緩和:高度パラメータ初期化戦略の検討

Alleviating Barren Plateaus in Parameterized Quantum Machine Learning Circuits: Investigating Advanced Parameter Initialization Strategies ( http://arxiv.org/abs/2311.13218v1 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Rashid, Saif Al-Kuwari, Muhammad Shafique(参考訳) パラメタライズド量子回路(PQC)は、量子アルゴリズムの開発と応用の基礎的要素として登場した。 しかし、ランダムパラメータ値で初期化すると、pqcはしばしば不毛高原(bp)を示す。 これらの高原は量子ビット数の増加に伴う勾配の消失によって特徴づけられ、量子アルゴリズムの最適化を妨げる。 本稿では,ランダムpqcにおける古典的機械学習における最先端パラメータ初期化戦略の影響をbp現象の側面から分析する。 本研究は,ランダム,Xavier(正常および均一な変種),He,LeCun,Orthogonalメソッドなど,初期化手法のスペクトルを包含する。 経験的評価は, ランダムに初期化したPQCと比較して, 勾配の分散減衰を顕著に減少させることを示した。 具体的には、Xavier初期化法は残りよりも優れており、ランダム初期化法に比べて62%の分散減衰が改善している。 He, Lecunおよび直交法も改善され, それぞれ32\%, 28\%, 26\%となった。 これは、これらの既存の初期化技術の採用が、PQCのサブクラスである量子ニューラルネットワーク(QNN)のトレーニング効果を著しく増幅する可能性を示唆している。 この効果を実証し、識別されたQNNを訓練してアイデンティティ関数を学習し、BPの悪影響を効果的に軽減する。 最善から最悪のレベルにランクされたトレーニングパフォーマンスは、上述の分散減衰の強化と一致している。 本稿では,bp問題の緩和とqnnのトレーニングダイナミクス向上におけるパラメータ初期化の役割について考察する。

Parameterized quantum circuits (PQCs) have emerged as a foundational element in the development and applications of quantum algorithms. However, when initialized with random parameter values, PQCs often exhibit barren plateaus (BP). These plateaus, characterized by vanishing gradients with an increasing number of qubits, hinder optimization in quantum algorithms. In this paper, we analyze the impact of state-of-the-art parameter initialization strategies from classical machine learning in random PQCs from the aspect of BP phenomenon. Our investigation encompasses a spectrum of initialization techniques, including random, Xavier (both normal and uniform variants), He, LeCun, and Orthogonal methods. Empirical assessment reveals a pronounced reduction in variance decay of gradients across all these methodologies compared to the randomly initialized PQCs. Specifically, the Xavier initialization technique outperforms the rest, showing a 62\% improvement in variance decay compared to the random initialization. The He, Lecun, and orthogonal methods also display improvements, with respective enhancements of 32\%, 28\%, and 26\%. This compellingly suggests that the adoption of these existing initialization techniques holds the potential to significantly amplify the training efficacy of Quantum Neural Networks (QNNs), a subclass of PQCs. Demonstrating this effect, we employ the identified techniques to train QNNs for learning the identity function, effectively mitigating the adverse effects of BPs. The training performance, ranked from the best to the worst, aligns with the variance decay enhancement as outlined above. This paper underscores the role of tailored parameter initialization in mitigating the BP problem and eventually enhancing the training dynamics of QNNs.
翻訳日:2023-11-23 15:40:35 公開日:2023-11-22
# 血管セグメンテーションのための深部学習と位相コントラストトモグラフィへの応用

Deep Learning for Vascular Segmentation and Applications in Phase Contrast Tomography Imaging ( http://arxiv.org/abs/2311.13319v1 )

ライセンス: Link先を確認
Ekin Yagis, Shahab Aslani, Yashvardhan Jain, Yang Zhou, Shahrokh Rahmani, Joseph Brunet, Alexandre Bellier, Christopher Werlein, Maximilian Ackermann, Danny Jonigk, Paul Tafforeau, Peter D Lee and Claire Walsh(参考訳) 血管拡張は多くの病態を示すため、血管分割の自動化は生医学的イメージングに不可欠である。 それでも、血管構造の複雑さ、患者間の解剖学的変異、注釈付き公開データセットの不足、画像の品質のため、正確なセグメンテーションは困難である。 本稿では,様々な臓器にまたがる機械学習技術の現状に注目した,詳細な文献レビューを行う。 本研究の目的は,新しい画像モダリティ,階層型位相コントラストCT(HiP CT)における血管セグメンテーションに適用するための,ロバストなベースラインモデルを提供することである。 2020年に欧州放射光施設で導入されたHiP CTは、完全な臓器の3Dイメージングを可能にする。 1ボクセルあたり20mm, 選択した領域でのズームを1ボクセルあたり1mmまで, 分割せずに行うことができる。 今回我々は,ヒト臓器アトラス計画の文脈で,hip ctで撮影された3つの腎臓の血管データを検証するダブルアノテーションを用いたトレーニングデータセットを作成した。 最後に、nUネットモデルを用いて、親しみやすいサンプルと見知らぬサンプルの両方でモデル性能を評価する実験を行い、容器固有の指標を用いた。 その結果, セグメンテーションは, 0.82 から 0.88 の範囲で clDice 値などの高いスコアが得られたが, 一定の誤差は持続した。 静水圧 (HiP CTは生体外技術) の欠如により崩壊した大型血管は, セグメンテーションが不十分であった。 また,細血管の接続性が低下し,容器境界での分割誤差が高かった。 このようなエラーは、血管樹の接続を中断することで構造を理解するのを妨げる。 レビューとアウトプットを通じて,特にHiP CT画像データベースを用いて,様々なモダリティを用いたその後のモデル評価のためのベンチマークを設定することを目的とする。

Automated blood vessel segmentation is vital for biomedical imaging, as vessel changes indicate many pathologies. Still, precise segmentation is difficult due to the complexity of vascular structures, anatomical variations across patients, the scarcity of annotated public datasets, and the quality of images. We present a thorough literature review, highlighting the state of machine learning techniques across diverse organs. Our goal is to provide a foundation on the topic and identify a robust baseline model for application to vascular segmentation in a new imaging modality, Hierarchical Phase Contrast Tomography (HiP CT). Introduced in 2020 at the European Synchrotron Radiation Facility, HiP CT enables 3D imaging of complete organs at an unprecedented resolution of ca. 20mm per voxel, with the capability for localized zooms in selected regions down to 1mm per voxel without sectioning. We have created a training dataset with double annotator validated vascular data from three kidneys imaged with HiP CT in the context of the Human Organ Atlas Project. Finally, utilising the nnU Net model, we conduct experiments to assess the models performance on both familiar and unseen samples, employing vessel specific metrics. Our results show that while segmentations yielded reasonably high scores such as clDice values ranging from 0.82 to 0.88, certain errors persisted. Large vessels that collapsed due to the lack of hydrostatic pressure (HiP CT is an ex vivo technique) were segmented poorly. Moreover, decreased connectivity in finer vessels and higher segmentation errors at vessel boundaries were observed. Such errors obstruct the understanding of the structures by interrupting vascular tree connectivity. Through our review and outputs, we aim to set a benchmark for subsequent model evaluations using various modalities, especially with the HiP CT imaging database.
翻訳日:2023-11-23 15:33:21 公開日:2023-11-22
# グループ分けによる心拍数時系列分類の性能向上

Improving performance of heart rate time series classification by grouping subjects ( http://arxiv.org/abs/2311.13285v1 )

ライセンス: Link先を確認
Michael Beekhuizen (1), Arman Naseri (1 and 2), David Tax (1), Ivo van der Bilt (2), Marcel Reinders (1) ((1) Delft University of Technology, (2) Haga Teaching Hospital)(参考訳) より一般的に分析される活動分類用ECGやPSGデータとは異なり、心拍数時系列データは詳細ではなく、しばしばノイズが多く、データポイントが欠落している。 BigIdeasLab_STEPデータセットは、個人によって実行される特定のタスクに注釈付けされた心拍数時系列を含む。 解析の結果,精度はウィンドウ/ストライドサイズの選択に敏感であることがわかった。 また,心臓の物理的構造の違いにより,被験者間で異なる分類性能が認められた。 この変動を最小限にするために様々な技術が用いられた。 まず第一に、正規化は重要なステップであり、性能を大幅に改善した。 第二に、グループ分けとグループ内の分類は、パフォーマンスの向上とオブジェクト間の変動の低減に寄与した。 最後に,Deep Learning (DL) ネットワークへの入力として手作り機能を含めることで,分類性能をさらに向上することを示す。 これらの結果から,心拍数時系列は活動予測などの分類タスクに利用できることが示唆された。 しかしながら、対象変数の問題を最小化するために、正規化やグループ化のテクニックを慎重に選択する必要がある。

Unlike the more commonly analyzed ECG or PPG data for activity classification, heart rate time series data is less detailed, often noisier and can contain missing data points. Using the BigIdeasLab_STEP dataset, which includes heart rate time series annotated with specific tasks performed by individuals, we sought to determine if general classification was achievable. Our analyses showed that the accuracy is sensitive to the choice of window/stride size. Moreover, we found variable classification performances between subjects due to differences in the physical structure of their hearts. Various techniques were used to minimize this variability. First of all, normalization proved to be a crucial step and significantly improved the performance. Secondly, grouping subjects and performing classification inside a group helped to improve performance and decrease inter-subject variability. Finally, we show that including handcrafted features as input to a deep learning (DL) network improves the classification performance further. Together, these findings indicate that heart rate time series can be utilized for classification tasks like predicting activity. However, normalization or grouping techniques need to be chosen carefully to minimize the issue of subject variability.
翻訳日:2023-11-23 15:32:51 公開日:2023-11-22
# 法的援助過程における大規模言語モデルによる意図と文脈の解明

Intention and Context Elicitation with Large Language Models in the Legal Aid Intake Process ( http://arxiv.org/abs/2311.13281v1 )

ライセンス: Link先を確認
Nick Goodson, Rongfei Lu(参考訳) 大規模言語モデル(llm)とチャットボットは、法的摂取プロセスの合理化において大きな期待を示している。 この進歩は、法的支援団体の作業負荷とコストを大幅に削減し、可用性を改善し、より広いオーディエンスに法的支援をアクセスしやすくする。 しかし、現在のLLMにおける重要な課題は、トレーニングデータから得られた出力分布に基づいて、クライアントの質問に即座に「ベストな推測」を提供する傾向にある。 このアプローチは、しばしばクライアントの実際の意図や法的状況の特定性を見落とします。 結果として、クライアントは、本質的な追加コンテキストの提供や、彼らの法的事件に不可欠な基盤となる意図の表現の重要性を認識しない可能性がある。 伝統的に論理ベースの決定木は、移民や退去といった司法問題に対する特定のアクセスのための摂取を自動化するために使われてきた。 しかし、これらのソリューションにはスケーラビリティがない。 我々は,LLMを用いた概念実証を行い,自由形式の言語に基づく対話を通して,クライアントの意図や特定の法的事情を推論する。 また,教師付き微調整学習やオフライン強化学習を用いて,チャットボットにおける意図と文脈の推論を,明示的なプロンプトなしで自動的に組み込むための今後の研究方向を提案する。

Large Language Models (LLMs) and chatbots show significant promise in streamlining the legal intake process. This advancement can greatly reduce the workload and costs for legal aid organizations, improving availability while making legal assistance more accessible to a broader audience. However, a key challenge with current LLMs is their tendency to overconfidently deliver an immediate 'best guess' to a client's question based on the output distribution learned over the training data. This approach often overlooks the client's actual intentions or the specifics of their legal situation. As a result, clients may not realize the importance of providing essential additional context or expressing their underlying intentions, which are crucial for their legal cases. Traditionally, logic based decision trees have been used to automate intake for specific access to justice issues, such as immigration and eviction. But those solutions lack scalability. We demonstrate a proof-of-concept using LLMs to elicit and infer clients' underlying intentions and specific legal circumstances through free-form, language-based interactions. We also propose future research directions to use supervised fine-tuning or offline reinforcement learning to automatically incorporate intention and context elicitation in chatbots without explicit prompting.
翻訳日:2023-11-23 15:32:32 公開日:2023-11-22
# 反復量子プロトコルにおけるカオス挙動のロバスト性

Robustness of chaotic behavior in iterated quantum protocols ( http://arxiv.org/abs/2311.13280v1 )

ライセンス: Link先を確認
Attila Portik, Orosolya K\'alm\'an, Igor Jex and Tam\'as Kiss(参考訳) cnotゲート、アダマールゲート、出力の1つからなる最も単純な量子回路の1つは、等しく準備された量子ビットのアンサンブルに反復的に適用されるときにカオスダイナミクスをもたらすことが知られている。 純粋な初期量子状態の進化は、異なる収束領域の境界によって形成されるフラクタル(状態空間内)によって特徴づけられる。 量子コンピュータの現在の実装における典型的な不完全性であるコヒーレントエラーと非コヒーレント初期ノイズの両方の存在下で、理想的な進化が歪むかを検討する。 初期雑音のみの影響下ではフラクタルは保存されるが、その次元は臨界雑音レベル以下で一定である。 進化の固定点と周期を決定することにより,コヒーレントなアダマール門誤差の影響を系統的に解析する。 解析的手法と数値的手法を組み合わせることで, 準備雑音の存在下でのコヒーレント誤差により, ダイナミクスがどの程度変化するかを探索する。 我々は, 力学, 特にフラクタル境界は, 議論された騒音に対して頑健であり, わずかに歪むだけでよいことを示す。 我々は,力学の特性が著しく変化しない誤差パラメータの範囲を同定する。 そこで本研究では,反復プロトコルの信頼性の高いシステムを特定することを可能にする。

One of the simplest possible quantum circuits, consisting of a CNOT gate, a Hadamard gate and a measurement on one of the outputs is known to lead to chaotic dynamics when applied iteratively on an ensemble of equally prepared qubits. The evolution of pure initial quantum states is characterized by a fractal (in the space of states), formed by the border of different convergence regions. We examine how the ideal evolution is distorted in the presence of both coherent error and incoherent initial noise, which are typical imperfections in current implementations of quantum computers. It is known that under the influence of initial noise only, the fractal is preserved, moreover, its dimension remains constant below a critical noise level. We systematically analyze the effect of coherent Hadamard gate errors by determining fixed points and cycles of the evolution. We combine analytic and numerical methods to explore to what extent the dynamics is altered by coherent errors in the presence of preparation noise as well. We show that the main features of the dynamics, and especially the fractal borders, are robust against the discussed noise, they will only be slightly distorted. We identify a range of error parameters, for which the characteristic properties of the dynamics are not significantly altered. Hence, our results allow to identify reliable regimes of operation of iterative protocols.
翻訳日:2023-11-23 15:32:12 公開日:2023-11-22
# GNN訓練システムの総合的評価:データ管理の観点から

Comprehensive Evaluation of GNN Training Systems: A Data Management Perspective ( http://arxiv.org/abs/2311.13279v1 )

ライセンス: Link先を確認
Hao Yuan, Yajiong Liu, Yanfeng Zhang, Xin Ai, Qiange Wang, Chaoyi Chen, Yu Gu, Ge Yu(参考訳) 多くのグラフニューラルネットワーク(GNN)トレーニングシステムが最近、効率的なGNNトレーニングをサポートするために登場した。 GNNは、トレーニングサンプル間の複雑なデータ依存関係を具現化しているため、データパーティショニング、ミニバッチトレーニングのためのバッチ準備、CPUとGPU間のデータ転送など、データ管理におけるDNNトレーニングとは異なる課題に対処する必要がある。 これらの要因は、トレーニング時間の大部分を占め、GNNトレーニングにおけるデータ管理をより重要にします。 本稿では,gnnトレーニングをデータ管理の観点から検討し,代表的アプローチの包括的分析と評価を行う。 様々なベンチマークデータセットに関する広範な実験を行い、多くの興味深い、価値のある結果を示す。 また、これらの実験から得られた実践的なヒントも提供し、将来GNNトレーニングシステムの設計に役立ちます。

Many Graph Neural Network (GNN) training systems have emerged recently to support efficient GNN training. Since GNNs embody complex data dependencies between training samples, the training of GNNs should address distinct challenges different from DNN training in data management, such as data partitioning, batch preparation for mini-batch training, and data transferring between CPUs and GPUs. These factors, which take up a large proportion of training time, make data management in GNN training more significant. This paper reviews GNN training from a data management perspective and provides a comprehensive analysis and evaluation of the representative approaches. We conduct extensive experiments on various benchmark datasets and show many interesting and valuable results. We also provide some practical tips learned from these experiments, which are helpful for designing GNN training systems in the future.
翻訳日:2023-11-23 15:31:50 公開日:2023-11-22
# 自動医療報告におけるトランスフォーマーベースプロンプトエンジニアリングによる要約性能の向上

Enhancing Summarization Performance through Transformer-Based Prompt Engineering in Automated Medical Reporting ( http://arxiv.org/abs/2311.13274v1 )

ライセンス: Link先を確認
Daphne van Zandvoort, Laura Wiersema, Tom Huibers, Sandra van Dulmen, Sjaak Brinkkemper(参考訳) カスタマイズされた医療プロンプトにより、Large Language Models (LLM) は医療対話の要約に効果的に対応できる。 医療報告のプロセスは、しばしば医療専門家にとって時間を要する。 医療対話要約手法の実装は, 医療報告の自動作成によって, 時間制約を緩和するための有効な解決策を提供する。 このプロセスにおけるLCMの有効性は、生成したレポートの品質と関連性を決定する上で重要な役割を担うプロンプトの定式化に大きく影響される。 本研究では, ショットプロンプトとパターンプロンプトという2つの異なるプロンプト戦略を組み合わせて, 自動医療報告の性能向上を図った。 ROUGEスコアと人的評価を専門家パネルの助けを借りて自動医療報告の評価を行う。 スコープとドメインコンテキストを組み合わせた2ショットプロンプトアプローチは、他のメソッドよりも優れており、一般的な実践者が設定したヒューマンリファレンスと比較して最高スコアを達成している。 しかし、自動レポートは、レポートに追加される冗長な文と関連する文の両方を追加するため、人間の参照の約2倍の長さである。

Customized medical prompts enable Large Language Models (LLM) to effectively address medical dialogue summarization. The process of medical reporting is often time-consuming for healthcare professionals. Implementing medical dialogue summarization techniques presents a viable solution to alleviate this time constraint by generating automated medical reports. The effectiveness of LLMs in this process is significantly influenced by the formulation of the prompt, which plays a crucial role in determining the quality and relevance of the generated reports. In this research, we used a combination of two distinct prompting strategies, known as shot prompting and pattern prompting to enhance the performance of automated medical reporting. The evaluation of the automated medical reports is carried out using the ROUGE score and a human evaluation with the help of an expert panel. The two-shot prompting approach in combination with scope and domain context outperforms other methods and achieves the highest score when compared to the human reference set by a general practitioner. However, the automated reports are approximately twice as long as the human references, due to the addition of both redundant and relevant statements that are added to the report.
翻訳日:2023-11-23 15:31:36 公開日:2023-11-22
# 自動医療報告における精度指標の比較実験 : 耳炎相談の場合

Comparative Experimentation of Accuracy Metrics in Automated Medical Reporting: The Case of Otitis Consultations ( http://arxiv.org/abs/2311.13273v1 )

ライセンス: Link先を確認
Wouter Faber, Renske Eline Bootsma, Tom Huibers, Sandra van Dulmen, Sjaak Brinkkemper(参考訳) 生成人工知能(AI)は、医療相談の書面に基づく医療報告を自動的に生成するために用いられる。 その目的は、医療従事者が直面する管理負担を減らすことだ。 生成したレポートの正確性は、その正確性と有用性を保証するために確立する必要がある。 AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。 耳炎診察に関する一般診療報告(GP)に対するAI生成医療報告に対して,10の精度指標の比較実験が実施されている。 生成したレポートの欠落、不正、および追加のステートメントの数は、測定値と相関している。 さらに, 自動医療報告の分野における測定値を比較するために, 単一のスコアを生成する複合精度スコアについて紹介し, 定義する。 その結果、相関研究と複合正確度スコアに基づいて、ルージュlとワードムーバーの距離メトリクスが、以前の作業と一致しない指標として好まれることがわかった。 これらの発見は、GPの医療報告を生成するシステムの開発を支援するAI生成された医療レポートの正確性を決定するのに役立つ。

Generative Artificial Intelligence (AI) can be used to automatically generate medical reports based on transcripts of medical consultations. The aim is to reduce the administrative burden that healthcare professionals face. The accuracy of the generated reports needs to be established to ensure their correctness and usefulness. There are several metrics for measuring the accuracy of AI generated reports, but little work has been done towards the application of these metrics in medical reporting. A comparative experimentation of 10 accuracy metrics has been performed on AI generated medical reports against their corresponding General Practitioner's (GP) medical reports concerning Otitis consultations. The number of missing, incorrect, and additional statements of the generated reports have been correlated with the metric scores. In addition, we introduce and define a Composite Accuracy Score which produces a single score for comparing the metrics within the field of automated medical reporting. Findings show that based on the correlation study and the Composite Accuracy Score, the ROUGE-L and Word Mover's Distance metrics are the preferred metrics, which is not in line with previous work. These findings help determine the accuracy of an AI generated medical report, which aids the development of systems that generate medical reports for GPs to reduce the administrative burden.
翻訳日:2023-11-23 15:31:17 公開日:2023-11-22
# fedfn: フェデレーション学習におけるデータ不均一性問題の緩和のための特徴正規化

FedFN: Feature Normalization for Alleviating Data Heterogeneity Problem in Federated Learning ( http://arxiv.org/abs/2311.13267v1 )

ライセンス: Link先を確認
Seongyoon Kim, Gihun Lee, Jaehoon Oh, Se-Young Yun(参考訳) フェデレーション・ラーニング(federated learning, fl)は、データプライバシを分散環境で保持しながらモデルをトレーニングするためのコラボレーティブな手法である。 しかし、FLはデータ不均一性に関連する問題に遭遇し、パフォーマンスが低下する可能性がある。 本研究では,データの不均一性が増大するにつれて,fedavgモデルの特徴表現が分類器の重みよりも著しく劣化することを示す。 さらに,データの不均一性が増大するにつれて,局所モデルから得られた観測クラスの高次特徴ノルムと未観測クラスの特徴ノルムとのギャップが広がり,分類器重みノルムの挙動とは対照的である。 この拡大ギャップは、局所モデルとグローバルモデルの間の特徴ノルムの相違を包含する。 この問題に対処するために,簡単な学習手法であるfederated averaging with feature normalization update (fedfn)を提案する。 事前訓練されたResNet18に適用しても, 広範囲な実験によりFedFNの優れた性能を示す。 その後,基礎モデルへのFedFNの適用性を確認した。

Federated Learning (FL) is a collaborative method for training models while preserving data privacy in decentralized settings. However, FL encounters challenges related to data heterogeneity, which can result in performance degradation. In our study, we observe that as data heterogeneity increases, feature representation in the FedAVG model deteriorates more significantly compared to classifier weight. Additionally, we observe that as data heterogeneity increases, the gap between higher feature norms for observed classes, obtained from local models, and feature norms of unobserved classes widens, in contrast to the behavior of classifier weight norms. This widening gap extends to encompass the feature norm disparities between local and the global models. To address these issues, we introduce Federated Averaging with Feature Normalization Update (FedFN), a straightforward learning method. We demonstrate the superior performance of FedFN through extensive experiments, even when applied to pretrained ResNet18. Subsequently, we confirm the applicability of FedFN to foundation models.
翻訳日:2023-11-23 15:31:00 公開日:2023-11-22
# 包括的 $\boldsymbol{R^2}$-elimination による方程式学習における同定精度の向上とベイズモデル選択

Improved identification accuracy in equation learning via comprehensive $\boldsymbol{R^2}$-elimination and Bayesian model selection ( http://arxiv.org/abs/2311.13265v1 )

ライセンス: Link先を確認
Daniel Nickelsen and Bubacarr Bah(参考訳) 方程式学習の分野では、基底関数辞書から得られる全ての可能な方程式を徹底的に考慮することは不可能である。 この課題に対処する一般的なアプローチとして,スパース回帰とグリージーアルゴリズムが登場している。 しかし、多重線型性の存在はスパース回帰手法の困難を招き、強欲なステップは真の方程式の項を必然的に排除し、識別精度を低下させる。 本稿では,方程式学習における包括性と効率のバランスをとるアプローチを提案する。 段階的回帰から着想を得た我々の手法は、決定係数$R^2$とベイズ模型の証拠$p(\boldsymbol y|\mathcal M)$を新しい方法で組み合わせる。 本手法は,反復ステップ毎にモデル空間をわずかに縮小した包括的探索によって特徴付けられる。 我々のアプローチの2つのフレーバーと双方向のステップワイズ回帰に$p(\boldsymbol y|\mathcal m)$を採用することで、方程式学習のための3つの新しい方法を提案する。 ランダム多項式と力学系を含む3つの広範な数値実験を通して, 4つの最先端手法と2つの標準手法との比較を行った。 その結果, 包括的探索手法は, 識別精度の点で他の手法よりも優れていることがわかった。 特に,本手法の2つ目のフレーバーは,R^2$のみを基準とした効率の良いオーバーフィッティングペナルティを確立する。

In the field of equation learning, exhaustively considering all possible equations derived from a basis function dictionary is infeasible. Sparse regression and greedy algorithms have emerged as popular approaches to tackle this challenge. However, the presence of multicollinearity poses difficulties for sparse regression techniques, and greedy steps may inadvertently exclude terms of the true equation, leading to reduced identification accuracy. In this article, we present an approach that strikes a balance between comprehensiveness and efficiency in equation learning. Inspired by stepwise regression, our approach combines the coefficient of determination, $R^2$, and the Bayesian model evidence, $p(\boldsymbol y|\mathcal M)$, in a novel way. Our procedure is characterized by a comprehensive search with just a minor reduction of the model space at each iteration step. With two flavors of our approach and the adoption of $p(\boldsymbol y|\mathcal M)$ for bi-directional stepwise regression, we present a total of three new avenues for equation learning. Through three extensive numerical experiments involving random polynomials and dynamical systems, we compare our approach against four state-of-the-art methods and two standard approaches. The results demonstrate that our comprehensive search approach surpasses all other methods in terms of identification accuracy. In particular, the second flavor of our approach establishes an efficient overfitting penalty solely based on $R^2$, which achieves highest rates of exact equation recovery.
翻訳日:2023-11-23 15:30:41 公開日:2023-11-22
# CMFDFormer:連続学習によるトランスフォーマーベースコピーモーブ偽造検出

CMFDFormer: Transformer-based Copy-Move Forgery Detection with Continual Learning ( http://arxiv.org/abs/2311.13263v1 )

ライセンス: Link先を確認
Yaqi Liu and Chao Xia and Song Xiao and Qingxiao Guan and Wenqian Dong and Yifan Zhang and Nenghai Yu(参考訳) コピーモーブ偽造検出は、疑似偽造画像における重複領域の検出を目標とし、ディープラーニングによるコピーモーブ偽造検出方法が上昇中である。 これらのディープラーニングベースの手法は、合成トレーニングデータに大きく依存しており、新しいタスクに直面するとパフォーマンスが低下する。 本稿では, CMFDFormer という名前のトランスフォーマー型複写フォージェリ検出ネットワークを提案し, CMFDFormer が新しいタスクをこなすための新しい PCSD (Pooled Cube and Strip Distillation) 連続学習フレームワークを提案する。 CMFDFormerはMiT(Mix Transformer)バックボーンネットワークとPHD(Pluggable Hybrid Decoder)マスク予測ネットワークで構成される。 MiT バックボーンネットワークは Transformer スタイルのネットワークであり、CNN スタイルと MLP スタイルのバックボーンによる包括的な解析に基づいている。 PHDネットワークは自己相関計算,階層的特徴統合,マルチスケールサイクル完全連結ブロック,マスク再構成ブロックに基づいて構築される。 PHDネットワークは、階層的なマルチスケール情報抽出のために異なるスタイルの特徴抽出器に適用でき、同等の性能を達成できる。 最後に,forgery検出性を改善し,新たなタスク処理時の破滅的な忘れを回避すべく,pcsd連続学習フレームワークを提案する。 我々の連続学習フレームワークは,PHDネットワークの中間機能を制限し,キューブプールとストリッププールの両方を活用する。 公開データセットに関する大規模な実験は、CMFDFormerの性能とPCSD連続学習フレームワークの有効性を示す。

Copy-move forgery detection aims at detecting duplicated regions in a suspected forged image, and deep learning based copy-move forgery detection methods are in the ascendant. These deep learning based methods heavily rely on synthetic training data, and the performance will degrade when facing new tasks. In this paper, we propose a Transformer-style copy-move forgery detection network named as CMFDFormer, and provide a novel PCSD (Pooled Cube and Strip Distillation) continual learning framework to help CMFDFormer handle new tasks. CMFDFormer consists of a MiT (Mix Transformer) backbone network and a PHD (Pluggable Hybrid Decoder) mask prediction network. The MiT backbone network is a Transformer-style network which is adopted on the basis of comprehensive analyses with CNN-style and MLP-style backbones. The PHD network is constructed based on self-correlation computation, hierarchical feature integration, a multi-scale cycle fully-connected block and a mask reconstruction block. The PHD network is applicable to feature extractors of different styles for hierarchical multi-scale information extraction, achieving comparable performance. Last but not least, we propose a PCSD continual learning framework to improve the forgery detectability and avoid catastrophic forgetting when handling new tasks. Our continual learning framework restricts intermediate features from the PHD network, and takes advantage of both cube pooling and strip pooling. Extensive experiments on publicly available datasets demonstrate the good performance of CMFDFormer and the effectiveness of the PCSD continual learning framework.
翻訳日:2023-11-23 15:30:11 公開日:2023-11-22
# 創造的な機械の台頭: 生成的aiの影響を探求する

The Rise of Creative Machines: Exploring the Impact of Generative AI ( http://arxiv.org/abs/2311.13262v1 )

ライセンス: Link先を確認
Saad Shaikh, Rajat bendre, Sakshi Mhaske(参考訳) 本研究では, 生産型人工知能(AI)がマーケティング, 製品開発, 研究にどのように革命をもたらすかを検討する。 この分野における最新の発展、使い易い資源、道徳的・社会的危険について論じる。 偏見や偽情報のような問題に対する緩和技術に対処することに加えて、議論は継続的な利害関係者のコミュニケーションと倫理的原則を通じた責任ある開発の重要性を強調している。

This study looks at how generative artificial intelligence (AI) can revolutionize marketing, product development, and research. It discusses the latest developments in the field, easy-to-use resources, and moral and social hazards. In addition to addressing mitigating techniques for issues like prejudice and disinformation, the debate emphasizes the significance of responsible development through continual stakeholder communication and ethical principles.
翻訳日:2023-11-23 15:29:39 公開日:2023-11-22
# 乳癌における良性上皮細胞、in situ病巣、浸潤上皮細胞の分画に関する免疫組織化学的検討

Immunohistochemistry guided segmentation of benign epithelial cells, in situ lesions, and invasive epithelial cells in breast cancer slides ( http://arxiv.org/abs/2311.13261v1 )

ライセンス: Link先を確認
Maren H{\o}ib{\o}, Andr\'e Pedersen, Vibeke Grotnes Dale, Sissel Marie Berget, Borgny Ytterhus, Cecilia Lindskog, Elisabeth Wik, Lars A. Akslen, Ingerid Reinertsen, Erik Smistad, Marit Valla(参考訳) デジタル病理学は、人工知能(AI)を用いた病理領域の自動解析を可能にする。 自動評価は診断効率を向上し、形態学的特徴と臨床結果の関連を見つけるのに役立つ。 このような予測モデルの開発には、浸潤上皮細胞を同定し、良性上皮細胞とin situ病変を分離することが第一歩となる。 本研究では,乳がん領域における上皮細胞のセグメンテーションのためのAIモデルの開発を目的とした。 細胞ケラチン (CK) AE1/AE3 によるヘマトキシリンおよびエオシン (HE) 切断を保存し, 病理医のアノテーションにより上皮性基底真偽マスクを作製した。 HE/CKイメージペアは畳み込みニューラルネットワークのトレーニングに使用され、データ拡張はモデルをより堅牢にするために使用された。 839例の組織マイクロアレイ(tmas)と2例のスライド画像を用いてモデルの訓練と評価を行った。 切除部位は乳癌患者の4つのコホートから得られた。 第5コホートから21例のtmasを第2検査セットとして用いた。 定量的評価では, 浸潤上皮細胞, 良性上皮細胞, およびin situ病変に対して0.70, 0.79, 0.75のdiceスコアを得た。 病理医による定性スコア (0-5) は, 全上皮, 浸潤上皮において4.7, 4.4であった。 良性上皮およびin situ病変のスコアは3.7および2.0であった。 提案するモデルでは, 乳腺染色後の上皮細胞は良好に分化するが, クラス間の正確な分割にはさらなる研究が必要である。 免疫組織化学は病理学者の注釈とともに正確な根拠真理の作成を可能にした。 このモデルはFastPathologyで無料で利用可能であり、コードはhttps://github.com/AICAN-Research/breast-epithelium-segmentationで入手できる。

Digital pathology enables automatic analysis of histopathological sections using artificial intelligence (AI). Automatic evaluation could improve diagnostic efficiency and help find associations between morphological features and clinical outcome. For development of such prediction models, identifying invasive epithelial cells, and separating these from benign epithelial cells and in situ lesions would be the first step. In this study, we aimed to develop an AI model for segmentation of epithelial cells in sections from breast cancer. We generated epithelial ground truth masks by restaining hematoxylin and eosin (HE) sections with cytokeratin (CK) AE1/AE3, and by pathologists' annotations. HE/CK image pairs were used to train a convolutional neural network, and data augmentation was used to make the model more robust. Tissue microarrays (TMAs) from 839 patients, and whole slide images from two patients were used for training and evaluation of the models. The sections were derived from four cohorts of breast cancer patients. TMAs from 21 patients from a fifth cohort was used as a second test set. In quantitative evaluation, a mean Dice score of 0.70, 0.79, and 0.75 for invasive epithelial cells, benign epithelial cells, and in situ lesions, respectively, were achieved. In qualitative scoring (0-5) by pathologists, results were best for all epithelium and invasive epithelium, with scores of 4.7 and 4.4. Scores for benign epithelium and in situ lesions were 3.7 and 2.0. The proposed model segmented epithelial cells in HE stained breast cancer slides well, but further work is needed for accurate division between the classes. Immunohistochemistry, together with pathologists' annotations, enabled the creation of accurate ground truths. The model is made freely available in FastPathology and the code is available at https://github.com/AICAN-Research/breast-epithelium-segmentation
翻訳日:2023-11-23 15:29:31 公開日:2023-11-22
# vistruct: カリキュラム指導型コードビジョン表現による視覚構造知識の抽出

ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation ( http://arxiv.org/abs/2311.13258v1 )

ライセンス: Link先を確認
Yangyi Chen, Xingyao Wang, Manling Li, Derek Hoiem, Heng Ji(参考訳) 最先端の視覚言語モデル(vlms)は、オブジェクト間の関係のような構造的知識抽出の性能に制限がある。 本稿では,視覚構造知識を効果的に抽出するためのVLM学習フレームワークであるViStructを紹介する。 2つの新しいデザインが組み込まれている。 まず,視覚構造情報を記述するために,プログラミング言語の固有構造を活用することを提案する。 このアプローチは、よく組織化された構造化形式で、概念、関係、イベントなど、複数の粒度の視覚的構造情報の明確かつ一貫した表現を可能にする。 第2に,視覚概念から複雑なイベント構造に至るまで,視覚構造を段階的に理解するためのカリキュラムベースの学習を導入する。 我々の直感では、低レベルの知識が複雑な視覚構造理解に寄与する可能性がある。 さらに、視覚構造知識抽出に適したデータセットのコレクションをコンパイルしてリリースする。 ViStruct トレーニング用キャプションから視覚イベント構造を直接生成するための弱教師付きアプローチを採用し,Web から豊富な画像キャプチャペアを活用する。 実験では,視覚構造予測タスクのバイストラクタの評価を行い,視覚構造理解の改善に有効性を示す。 コードは \url{https://github.com/Yangyi-Chen/vi-struct} で公開されている。

State-of-the-art vision-language models (VLMs) still have limited performance in structural knowledge extraction, such as relations between objects. In this work, we present ViStruct, a training framework to learn VLMs for effective visual structural knowledge extraction. Two novel designs are incorporated. First, we propose to leverage the inherent structure of programming language to depict visual structural information. This approach enables explicit and consistent representation of visual structural information of multiple granularities, such as concepts, relations, and events, in a well-organized structured format. Second, we introduce curriculum-based learning for VLMs to progressively comprehend visual structures, from fundamental visual concepts to intricate event structures. Our intuition is that lower-level knowledge may contribute to complex visual structure understanding. Furthermore, we compile and release a collection of datasets tailored for visual structural knowledge extraction. We adopt a weakly-supervised approach to directly generate visual event structures from captions for ViStruct training, capitalizing on abundant image-caption pairs from the web. In experiments, we evaluate ViStruct on visual structure prediction tasks, demonstrating its effectiveness in improving the understanding of visual structures. The code is public at \url{https://github.com/Yangyi-Chen/vi-struct}.
翻訳日:2023-11-23 15:28:57 公開日:2023-11-22
# DA-STC:時空間一貫性によるドメイン適応型ビデオセマンティックセグメンテーション

DA-STC: Domain Adaptive Video Semantic Segmentation via Spatio-Temporal Consistency ( http://arxiv.org/abs/2311.13254v1 )

ライセンス: Link先を確認
Zhe Zhang, Gaochang Wu, Jing Zhang, Chunhua Shen, Dacheng Tao, Tianyou Chai(参考訳) ビデオ意味セマンティクスセグメンテーションは、ビデオ表現学習の重要な側面である。 しかし、重要なドメインシフトは、ビデオセマンティックセグメンテーションのためのラベル付きソースドメインとラベル付きターゲットドメイン間の不変時特徴を効果的に学習する上で課題となる。 そこで本研究では,双方向の時空間融合モジュールとカテゴリ認識時空間アライメントモジュールを組み込んだ,ドメイン適応型ビデオセマンティクスセグメンテーションのための新しいda-stc法を提案する。 まず,画像シーケンスレベルと浅層特徴レベルで双方向の時空間融合を行い,中間映像領域を2つ構築した。 これにより、ビデオ意味セマンティクスセグメンテーションモデルは、ドメイン固有のコンテキストに影響を受ける共有パッチシーケンスの時空間的特徴を一貫して学習し、ソースとターゲットドメイン間の特徴ギャップを緩和する。 次に,対象領域への適応を容易にするために,時空間的特徴の一貫性を促進するカテゴリ認識機能アライメントモジュールを提案する。 具体的には、各カテゴリのドメイン固有の深い特徴を時空間次元に沿って適応的に集約し、クラス間特徴アライメントとクラス間特徴分離を実現するためにさらに制約する。 複数の挑戦的ベンチマークで最先端のmIOUを実現する手法の有効性を示す。 さらに,提案するda-stcを画像領域に拡張し,ドメイン適応意味セグメンテーションに優れた性能を示す。 ソースコードとモデルは \url{https://github.com/ZHE-SAPI/DA-STC} で入手できる。

Video semantic segmentation is a pivotal aspect of video representation learning. However, significant domain shifts present a challenge in effectively learning invariant spatio-temporal features across the labeled source domain and unlabeled target domain for video semantic segmentation. To solve the challenge, we propose a novel DA-STC method for domain adaptive video semantic segmentation, which incorporates a bidirectional multi-level spatio-temporal fusion module and a category-aware spatio-temporal feature alignment module to facilitate consistent learning for domain-invariant features. Firstly, we perform bidirectional spatio-temporal fusion at the image sequence level and shallow feature level, leading to the construction of two fused intermediate video domains. This prompts the video semantic segmentation model to consistently learn spatio-temporal features of shared patch sequences which are influenced by domain-specific contexts, thereby mitigating the feature gap between the source and target domain. Secondly, we propose a category-aware feature alignment module to promote the consistency of spatio-temporal features, facilitating adaptation to the target domain. Specifically, we adaptively aggregate the domain-specific deep features of each category along spatio-temporal dimensions, which are further constrained to achieve cross-domain intra-class feature alignment and inter-class feature separation. Extensive experiments demonstrate the effectiveness of our method, which achieves state-of-the-art mIOUs on multiple challenging benchmarks. Furthermore, we extend the proposed DA-STC to the image domain, where it also exhibits superior performance for domain adaptive semantic segmentation. The source code and models will be made available at \url{https://github.com/ZHE-SAPI/DA-STC}.
翻訳日:2023-11-23 15:28:39 公開日:2023-11-22
# ヘテロクライアントフェデレーション型マルチタスク学習に向けて

Towards Hetero-Client Federated Multi-Task Learning ( http://arxiv.org/abs/2311.13250v1 )

ライセンス: Link先を確認
Yuxiang Lu, Suizhi Huang, Yuwen Yang, Shalayiding Sirejiding, Yue Ding, Hongtao Lu(参考訳) Federated Learning (FL)は、ローカルデータをプライベートに使用する分散クライアント間の共同トレーニングを可能にする。 Federated Multi-Task Learning (FMTL)はFL上に構築され、複数のタスクを処理する。 この仮定を緩和し、現実の応用性を拡張するため、多様なタスク設定に対応するために、新しい問題設定であるHetero-Client Federated Multi-Task Learning(HC-FMTL)を導入する。 HC-FMTLの主な課題は、従来の集約手法を無効にするモデル不整合問題である。 また、fmtlに固有のデータとタスクの不均一性を扱うために、正確なモデル集約の難しさをエスカレートする。 そこで我々は,ヘテロジニアスクライアント間の関係をモデル化することでパーソナライズされたモデルのフェデレートトレーニングを可能にするfedhca$^2$フレームワークを提案する。 マルチタスクとフェデレーション最適化の違いに関する理論的知見に基づいて,エンコーダ更新時の競合を軽減するためのHyper Conflict-Averse Aggregationスキームを提案する。 さらに、mtlのタスクインタラクションにインスパイアされたハイパークロスアテンションアグリゲーションスキームは、モデルの不合理さを緩和しながらデコーダインタラクションを強化するために層間クロスアグリゲーションを使用する。 さらに,各クライアントに学習可能なハイパーアグリゲーション重みを用い,パーソナライズされたパラメータ更新をカスタマイズする。 HC-FMTLの様々なシナリオにおいて,FedHCA$^2$の優れた性能を示す実験を行った。 私たちのコードは公開されます。

Federated Learning (FL) enables joint training across distributed clients using their local data privately. Federated Multi-Task Learning (FMTL) builds on FL to handle multiple tasks, assuming model congruity that identical model architecture is deployed in each client. To relax this assumption and thus extend real-world applicability, we introduce a novel problem setting, Hetero-Client Federated Multi-Task Learning (HC-FMTL), to accommodate diverse task setups. The main challenge of HC-FMTL is the model incongruity issue that invalidates conventional aggregation methods. It also escalates the difficulties in accurate model aggregation to deal with data and task heterogeneity inherent in FMTL. To address these challenges, we propose the FedHCA$^2$ framework, which allows for federated training of personalized models by modeling relationships among heterogeneous clients. Drawing on our theoretical insights into the difference between multi-task and federated optimization, we propose the Hyper Conflict-Averse Aggregation scheme to mitigate conflicts during encoder updates. Additionally, inspired by task interaction in MTL, the Hyper Cross Attention Aggregation scheme uses layer-wise cross attention to enhance decoder interactions while alleviating model incongruity. Moreover, we employ learnable Hyper Aggregation Weights for each client to customize personalized parameter updates. Extensive experiments demonstrate the superior performance of FedHCA$^2$ in various HC-FMTL scenarios compared to representative methods. Our code will be made publicly available.
翻訳日:2023-11-23 15:27:52 公開日:2023-11-22
# mergesfl: 機能マージとバッチサイズ調整を備えた分割フェデレーション学習

MergeSFL: Split Federated Learning with Feature Merging and Batch Size Regulation ( http://arxiv.org/abs/2311.13348v1 )

ライセンス: Link先を確認
Yunming Liao, Yang Xu, Hongli Xu, Lun Wang, Zhiwei Yao, Chunming Qiao(参考訳) 近年,エッジコンピューティング(EC)システムにおいて,エッジAIが貴重な知識を抽出する手段として,フェデレートラーニング(FL)が普及している。 資源制約のある労働者の計算/通信負担を軽減し、モデルのプライバシを保護するため、データとモデル並列性を統合した分割フェデレーションラーニング(SFL)がリリースされた。 資源制限にもかかわらず、SFLはECにおける他の2つの重要な課題に直面している。 これらの課題に対処するために,機能マージとバッチサイズ制御をSFLに組み込んだ新しいSFLフレームワークMergeSFLを提案する。 具体的には、IIDデータから得られた特徴とほぼ同等の混合特徴系列に労働者の機能をマージし、モデルの精度を高めることを目的としている。 バッチサイズ規制は、トレーニング効率を改善するために異種労働者に多様な適切なバッチサイズを割り当てることを目的としている。 さらに、MergeSFLは、これらの2つの戦略を結合関係上で協調的に最適化し、SFLの性能向上を図る。 80個のNVIDIA Jetsonエッジデバイスを持つ物理プラットフォーム上で大規模な実験が行われ、実験結果はMergeSFLが最終モデルの精度を5.82%から26.22%改善し、ベースラインに比べて約1.74倍から4.14倍高速化できることを示している。

Recently, federated learning (FL) has emerged as a popular technique for edge AI to mine valuable knowledge in edge computing (EC) systems. To mitigate the computing/communication burden on resource-constrained workers and protect model privacy, split federated learning (SFL) has been released by integrating both data and model parallelism. Despite resource limitations, SFL still faces two other critical challenges in EC, i.e., statistical heterogeneity and system heterogeneity. To address these challenges, we propose a novel SFL framework, termed MergeSFL, by incorporating feature merging and batch size regulation in SFL. Concretely, feature merging aims to merge the features from workers into a mixed feature sequence, which is approximately equivalent to the features derived from IID data and is employed to promote model accuracy. While batch size regulation aims to assign diverse and suitable batch sizes for heterogeneous workers to improve training efficiency. Moreover, MergeSFL explores to jointly optimize these two strategies upon their coupled relationship to better enhance the performance of SFL. Extensive experiments are conducted on a physical platform with 80 NVIDIA Jetson edge devices, and the experimental results show that MergeSFL can improve the final model accuracy by 5.82% to 26.22%, with a speedup by about 1.74x to 4.14x, compared to the baselines.
翻訳日:2023-11-23 15:19:21 公開日:2023-11-22
# 脳における学習原理と学習機構の数学的実現

Learning principle and mathematical realization of the learning mechanism in the brain ( http://arxiv.org/abs/2311.13341v1 )

ライセンス: Link先を確認
Taisuke Katayose(参考訳) ディープラーニングは目覚ましい成功を収めていますが、なぜこれほどうまく機能するのか、明確な説明はありません。 この問題を定量的に議論するには、まず何を学ぶのかを説明する数学的枠組みが必要である。 いくつかの考察を経て,脳内の深層学習や学習を含む,あらゆる種類の学習を統一的に理解することのできる数学的枠組みの構築に成功した。 我々はこれを学習原理と呼び、全ての学習は入力データの確率を推定するのと等価である。 私たちはこの原則を導いただけでなく、実際の機械学習モデルへの適用にも言及しました。 例えば,従来の教師付き学習は条件付き確率の推定と等価であり,教師付き学習をより効果的かつ一般化することに成功した。 また,推定確率の値を微分を用いて定義する新しい手法を提案し,教師なし学習を事前知識なしに任意のデータセット上で行えることを示した。 すなわち、この方法は、真の意味での汎用機械学習である。 さらに,脳内の学習メカニズムを,完全あるいは部分的に連結されたモデルの時間的進化を考慮して記述し,本手法を適用した。 学習原理は、深層学習と認知神経科学における多くの未解決問題に対する解決策を提供する。

While deep learning has achieved remarkable success, there is no clear explanation about why it works so well. In order to discuss this question quantitatively, we need a mathematical framework that explains what learning is in the first place. After several considerations, we succeeded in constructing a mathematical framework that can provide a unified understanding of all types of learning, including deep learning and learning in the brain. We call it learning principle, and it follows that all learning is equivalent to estimating the probability of input data. We not only derived this principle, but also mentioned its application to actual machine learning models. For example, we found that conventional supervised learning is equivalent to estimating conditional probabilities, and succeeded in making supervised learning more effective and generalized. We also proposed a new method of defining the values of estimated probability using differentiation, and showed that unsupervised learning can be performed on arbitrary dataset without any prior knowledge. Namely, this method is a general-purpose machine learning in the true sense. Moreover, we succeeded in describing the learning mechanism in the brain by considering the time evolution of a fully or partially connected model and applying this new method. The learning principle provides solutions to many unsolved problems in deep learning and cognitive neuroscience.
翻訳日:2023-11-23 15:18:54 公開日:2023-11-22
# スタイル翻訳による高品質顔画像

High-Quality Face Caricature via Style Translation ( http://arxiv.org/abs/2311.13338v1 )

ライセンス: Link先を確認
Lamyanba Laishram, Muhammad Shaheryar, Jong Taek Lee, and Soon Ki Jung(参考訳) 似顔絵は、人間の顔の独特で微妙な特徴を強調する、誇張された芸術的肖像画の形式である。 近年、エンド・ツー・エンド技術の進歩は、顔の似顔絵を作る際のスタイルと誇張の高まりの両方を捉えて奨励する結果をもたらしている。 これらのアプローチの多くは、現実世界のアプリケーションでより実用的な漫画のような結果を生み出す傾向にある。 本研究では,実世界での使用に適し,コンピュータビジョン技術とganモデルを用いて,高品質で対向しない顔似顔絵法を提案する。 顔の特徴の誇張と外観のスタイル化を2段階のプロセスで実現した。 顔似顔絵生成ステップは、実画像から新たな似顔データセットを作成し、実画像と新たに作成された似顔絵データセットを用いて生成モデルを訓練する。 Faceキャラクチュアプロジェクションは、実面と似顔で訓練されたエンコーダと、事前訓練されたジェネレータを用いて、実面と似顔を投影する。 我々は,エンコーダとジェネレータの潜伏空間を用いて,実画像から似顔顔への増分的な顔強調を行う。 我々の投影は入力画像から顔のアイデンティティ、属性、表情を保存します。 また, 本モデルのロバスト性を高めるために, 眼鏡やサングラスなどの顔面咬合も考慮している。 さらに,本手法と最先端顔似顔絵法を包括的に比較し,プロセスの特徴と例外的現実主義を強調した。

Caricature is an exaggerated form of artistic portraiture that accentuates unique yet subtle characteristics of human faces. Recently, advancements in deep end-to-end techniques have yielded encouraging outcomes in capturing both style and elevated exaggerations in creating face caricatures. Most of these approaches tend to produce cartoon-like results that could be more practical for real-world applications. In this study, we proposed a high-quality, unpaired face caricature method that is appropriate for use in the real world and uses computer vision techniques and GAN models. We attain the exaggeration of facial features and the stylization of appearance through a two-step process: Face caricature generation and face caricature projection. The face caricature generation step creates new caricature face datasets from real images and trains a generative model using the real and newly created caricature datasets. The Face caricature projection employs an encoder trained with real and caricature faces with the pretrained generator to project real and caricature faces. We perform an incremental facial exaggeration from the real image to the caricature faces using the encoder and generator's latent space. Our projection preserves the facial identity, attributes, and expressions from the input image. Also, it accounts for facial occlusions, such as reading glasses or sunglasses, to enhance the robustness of our model. Furthermore, we conducted a comprehensive comparison of our approach with various state-of-the-art face caricature methods, highlighting our process's distinctiveness and exceptional realism.
翻訳日:2023-11-23 15:18:38 公開日:2023-11-22
# オープンワールドにおけるメタ特性の牽引による量子学習と本質的認知

Quantum learning and essential cognition under the traction of meta-characteristics in an open world ( http://arxiv.org/abs/2311.13335v1 )

ライセンス: Link先を確認
Jin Wang, Changlin Song(参考訳) 人工知能はクローズワールド問題において大きな進歩を遂げ、訓練と分類を通じて古い知識を正確に認識することができる。 しかし、AIは新しい未知の探検旅行を含むため、オープンワールド問題において大きな課題に直面している。 AIは本質的に探索に積極的ではなく、その課題は未知の世界にアプローチし適応する方法を知らないことである。 人間はどうやって未知の世界を知るのか。 人間は内在的な認知を通じて新しい知識を識別する。 新しい色を認識する過程において、認知的手がかりは既知の色の特徴と異なり、色相、彩度、明るさ、その他の特徴を含む。 AIが新しい世界で異なる特徴を持つオブジェクトに遭遇したとき、それは別の課題に直面している。 AIはしばしば、知識システム間の特徴分布の違いを学ばないため、既知の犬にとって新しい世界の茶色のクマを間違える。 これは、新旧世界の物はその特徴に対して異なる単位と次元を持つからである。 本稿では,新しい世界と古い世界の客観的特徴の分布差を根本的に認識することに焦点を当てたオープンワールドモデルと要素特徴システムを提案する。 新旧世界の学習能力の量子トンネル効果はメタ特性の牽引力によって実現される。 新たな知識の学習におけるモデルシステムの優れたパフォーマンス(歩行者再識別データセットを例として使用)は、AIが96.71ドル%の精度で新しい世界を認識する能力を獲得し、人間に似た新しい知識を探索する能力を得たことを示している。

Artificial intelligence has made significant progress in the Close World problem, being able to accurately recognize old knowledge through training and classification. However, AI faces significant challenges in the Open World problem, as it involves a new and unknown exploration journey. AI is not inherently proactive in exploration, and its challenge lies in not knowing how to approach and adapt to the unknown world. How do humans acquire knowledge of the unknown world. Humans identify new knowledge through intrinsic cognition. In the process of recognizing new colors, the cognitive cues are different from known color features and involve hue, saturation, brightness, and other characteristics. When AI encounters objects with different features in the new world, it faces another challenge: where are the distinguishing features between influential features of new and old objects? AI often mistakes a new world's brown bear for a known dog because it has not learned the differences in feature distributions between knowledge systems. This is because things in the new and old worlds have different units and dimensions for their features. This paper proposes an open-world model and elemental feature system that focuses on fundamentally recognizing the distribution differences in objective features between the new and old worlds. The quantum tunneling effect of learning ability in the new and old worlds is realized through the tractive force of meta-characteristic. The outstanding performance of the model system in learning new knowledge (using pedestrian re-identification datasets as an example) demonstrates that AI has acquired the ability to recognize the new world with an accuracy of $96.71\%$ at most and has gained the capability to explore new knowledge, similar to humans.
翻訳日:2023-11-23 15:18:13 公開日:2023-11-22
# 金融時系列のモデルフリー制御のためのカリキュラム学習と模倣学習

Curriculum Learning and Imitation Learning for Model-free Control on Financial Time-series ( http://arxiv.org/abs/2311.13326v1 )

ライセンス: Link先を確認
Woosung Koh, Insu Choi, Yuntae Jang, Gimin Kang, Woo Chang Kim(参考訳) カリキュラム学習と模倣学習はロボティクスの分野で広く活用されている。 しかし、これらの概念を高度に確率的な時系列データ上の制御タスクに活用する研究は最小限である。 本稿では,複雑な時系列データに対する代表制御タスクにおいて,これらのアプローチを理論的かつ実証的に検討する。 データ拡張によるカリキュラム学習の基本的な考え方を実装し、一方、模倣学習はオラクルからのポリシー蒸留を通じて実施する。 この結果から,カリキュラム学習は複雑な時系列よりも制御タスク性能を向上させるための新しい方向性であると考えられた。 我々の無作為なアウトサンプル経験とアブレーション研究は、時系列制御のためのカリキュラム学習を強く奨励している。 これらの発見は特に、ベースライン上で重なり合うハイパーパラメータをすべてチューニングすることで、ベースラインの利点を生かしている。 一方,模倣学習には注意が必要である。

Curriculum learning and imitation learning have been leveraged extensively in the robotics domain. However, minimal research has been done on leveraging these ideas on control tasks over highly stochastic time-series data. Here, we theoretically and empirically explore these approaches in a representative control task over complex time-series data. We implement the fundamental ideas of curriculum learning via data augmentation, while imitation learning is implemented via policy distillation from an oracle. Our findings reveal that curriculum learning should be considered a novel direction in improving control-task performance over complex time-series. Our ample random-seed out-sample empirics and ablation studies are highly encouraging for curriculum learning for time-series control. These findings are especially encouraging as we tune all overlapping hyperparameters on the baseline -- giving an advantage to the baseline. On the other hand, we find that imitation learning should be used with caution.
翻訳日:2023-11-23 15:17:49 公開日:2023-11-22
# 連続表現学習のための再考

Revisiting Supervision for Continual Representation Learning ( http://arxiv.org/abs/2311.13321v1 )

ライセンス: Link先を確認
Daniel Marczak, Sebastian Cygert, Tomasz Trzci\'nski, Bart{\l}omiej Twardowski(参考訳) 連続学習の分野では、モデルは次々にタスクを学ぶように設計されている。 多くの研究は教師付き連続学習を中心にしているが、近年の研究は自己教師付き連続学習の強みを強調している。 自己教師付きメソッドで構築された表現の転送性の改善は、しばしば多層パーセプトロンプロジェクタが果たす役割と関連付けられる。 本研究では,この観察から出発し,連続表現学習における監督の役割を再検討する。 人間のアノテーションのような追加情報は表現の質を損なうべきではないと考える。 本研究は,多層パーセプトロンヘッドを用いた教師付きモデルにおいて,連続表現学習において自己教師付きモデルよりも優れることを示す。

In the field of continual learning, models are designed to learn tasks one after the other. While most research has centered on supervised continual learning, recent studies have highlighted the strengths of self-supervised continual representation learning. The improved transferability of representations built with self-supervised methods is often associated with the role played by the multi-layer perceptron projector. In this work, we depart from this observation and reexamine the role of supervision in continual representation learning. We reckon that additional information, such as human annotations, should not deteriorate the quality of representations. Our findings show that supervised models when enhanced with a multi-layer perceptron head, can outperform self-supervised models in continual representation learning.
翻訳日:2023-11-23 15:17:34 公開日:2023-11-22
# シーンテキスト画像の超解像に対する認識誘導拡散モデル

Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution ( http://arxiv.org/abs/2311.13317v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Liangcai Gao, Zhi Tang, Baole Wei(参考訳) Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像中のテキストの解像度と可視性を高め、Scene Text Recognition (STR)における認識精度を高めることを目的としている。 従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで拡張してこの問題に対処していた。 それでも、本来の画像から構造的あるいは意味的な情報を抽出できない場合、生成能力が不十分なため、ひどくぼやけた画像に直面すると不足する。 そこで本研究では,テキスト画像の超解像に対する認識誘導拡散モデルであるrgdiffsrを提案する。 さらに,LR一貫性のある結果を生成する拡散モデルを簡潔なセマンティックガイダンスにより誘導する認識誘導型Denoising Networkを提案する。 TextZoomデータセットの実験では、テキスト認識精度と画像忠実度の両方において、従来の最先端手法よりもRGDiffSRの方が優れていることを示した。

Scene Text Image Super-Resolution (STISR) aims to enhance the resolution and legibility of text within low-resolution (LR) images, consequently elevating recognition accuracy in Scene Text Recognition (STR). Previous methods predominantly employ discriminative Convolutional Neural Networks (CNNs) augmented with diverse forms of text guidance to address this issue. Nevertheless, they remain deficient when confronted with severely blurred images, due to their insufficient generation capability when little structural or semantic information can be extracted from original images. Therefore, we introduce RGDiffSR, a Recognition-Guided Diffusion model for scene text image Super-Resolution, which exhibits great generative diversity and fidelity even in challenging scenarios. Moreover, we propose a Recognition-Guided Denoising Network, to guide the diffusion model generating LR-consistent results through succinct semantic guidance. Experiments on the TextZoom dataset demonstrate the superiority of RGDiffSR over prior state-of-the-art methods in both text recognition accuracy and image fidelity.
翻訳日:2023-11-23 15:17:24 公開日:2023-11-22
# 自律知識グラフによる大規模言語モデル幻覚の軽減

Mitigating Large Language Model Hallucinations via Autonomous Knowledge Graph-based Retrofitting ( http://arxiv.org/abs/2311.13314v1 )

ライセンス: Link先を確認
Xinyan Guan, Yanjiang Liu, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun(参考訳) 知識グラフに事実知識を組み込むことは,大規模言語モデル(LLM)の幻覚を緩和するための有望なアプローチと考えられる。 既存の手法は通常、ユーザーの入力のみを使用して知識グラフをクエリするので、LCMが推論プロセス中に生成した事実の幻覚に対処することができない。 この問題を解決するために,本論文では,KGsに格納された事実知識に基づいてLLMの初期ドラフト応答を再現することにより,KGsにLLMを組み込んだ新たなフレームワークであるKGRを提案する。 具体的には、KGR は LLM を利用して、モデル生成応答内の事実文を抽出し、選択し、検証し、修正する。 実験により,特に複雑な推論プロセスに関わる場合の実QAベンチマークにおいて,KGRは幻覚を緩和し,LLMの信頼性を高める上で,KGRの必要性と有効性を示す。

Incorporating factual knowledge in knowledge graph is regarded as a promising approach for mitigating the hallucination of large language models (LLMs). Existing methods usually only use the user's input to query the knowledge graph, thus failing to address the factual hallucination generated by LLMs during its reasoning process. To address this problem, this paper proposes Knowledge Graph-based Retrofitting (KGR), a new framework that incorporates LLMs with KGs to mitigate factual hallucination during the reasoning process by retrofitting the initial draft responses of LLMs based on the factual knowledge stored in KGs. Specifically, KGR leverages LLMs to extract, select, validate, and retrofit factual statements within the model-generated responses, which enables an autonomous knowledge verifying and refining procedure without any additional manual efforts. Experiments show that KGR can significantly improve the performance of LLMs on factual QA benchmarks especially when involving complex reasoning processes, which demonstrates the necessity and effectiveness of KGR in mitigating hallucination and enhancing the reliability of LLMs.
翻訳日:2023-11-23 15:17:06 公開日:2023-11-22
# 量子世界の直観的理解に向けて:ラビ振動、ウィグナー関数、量子シミュレータの音化

Towards the Intuitive Understanding of Quantum World: Sonification of Rabi Oscillations, Wigner functions, and Quantum Simulators ( http://arxiv.org/abs/2311.13313v1 )

ライセンス: Link先を確認
Reiko Yamada, Eloy Pi\~nol, Samuele Grandi, Jakub Zakrzewski, Maciej Lewenstein(参考訳) 近年、科学データを「音化」することへの関心が高まっているが、ノイズ中間スケール量子デバイスや量子乱数生成器を含む最新の量子技術を用いて量子プロセスを音化することは、いまだ研究の新たな分野である。 音楽技術者や作曲家は、新しい音響表現を生成するために、量子力学の多様なデータへのアクセシビリティを音楽ツールとして利用している。 量子世界と古典世界とはどう違うのか、そして音を使って量子世界を表現することは可能か? 量子現象は、私たちの日常生活で経験する現象とは大きく異なる。 そのため、直感的に理解することは困難である。 本稿では,量子多体系におけるラビ振動や単一原子の共鳴蛍光から,強磁場物理学におけるschr\"odinger cat状態の生成から絶縁超流動遷移まで,様々な量子力学現象を直感的に理解するための方法としてソニフィケーションを提案する。 本稿では,音源データと性能設定に応じて,量子データの音化とスコア表現で実験した様々な手法について述べる。

Recently, there has been considerable interest in "sonifying" scientific data; however, sonifying quantum processes using the newest quantum technologies, including Noise Intermediate Scale Quantum devices and quantum random number generators, is still an emerging area of research. Music technologists and composers employ the growing accessibility to diverse data from quantum mechanics as musical tools in the hope of generating new sound expressions. How different is the quantum world from the classical one, and is it possible to express the quantum world using sounds? Quantum phenomena are very different from those that we experience in our everyday lives. Thus, it is challenging to understand them intuitively. In this paper, we propose sonification as a method toward an intuitive understanding of various quantum mechanical phenomena, from Rabi oscillations and resonance fluorescence of a single atom through the generation of Schr\"odinger cat states in strong laser field physics to insulator-superfluid transition in quantum many-body systems. This paper illustrates various methods we experimented with in sonification and score representations of quantum data depending on the source data and performance settings.
翻訳日:2023-11-23 15:16:46 公開日:2023-11-22
# 因果推論と対策強化による放射線学報告の再考

Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation ( http://arxiv.org/abs/2311.13307v1 )

ライセンス: Link先を確認
Xiao Song, Jiafan Liu, Yun Li, Wenbin Lei, Ruxin Wang(参考訳) radiology report generation (rrg) は視覚と言語間の相互作用として注目を集めている。 以前の著作は、レポートとして高い一貫性を持つ段落を生成するために、視覚から言語への生成タスクのイデオロギーを継承した。 しかし、病気間の独立性であるRRGの特徴の1つは無視され、急激な共同創設者、すなわち病気の共起が引き起こされた。 残念ながら、この共同設立者はRRGデータの偏りのためにレポート生成が悪化するプロセスを混乱させる。 本稿では,この問題を徹底的に再考するため,統計学と因果学の新しい視点からその原因と効果を推察し,共同視覚結合と条件文コヒーレンス結合の2つの側面から,レポートの精度を暗黙的に低下させる。 次に,これら2つのスプリアス効果の側面を破るために,偽サンプル合成と偽レポート再構成サブメソッドを含む偽りの増補戦略を提案する。 広く使われている2つのデータセットに関する実験結果とさらなる分析は、推論と提案手法を正当化する。

Radiology Report Generation (RRG) draws attention as an interaction between vision and language fields. Previous works inherited the ideology of vision-to-language generation tasks,aiming to generate paragraphs with high consistency as reports. However, one unique characteristic of RRG, the independence between diseases, was neglected, leading to the injection of the spurious confounder, i.e., the disease co-occurrence. Unfortunately, this confounder confuses the process of report generation worse because of the biased RRG data distribution. In this paper, to rethink this issue thoroughly, we reason about its causes and effects from a novel perspective of statistics and causality, where the Joint Vision Coupling and the Conditional Sentence Coherence Coupling are two aspects prone to implicitly decrease the accuracy of reports. Then, a counterfactual augmentation strategy that contains the Counterfactual Sample Synthesis and the Counterfactual Report Reconstruction sub-methods is proposed to break these two aspects of spurious effects. Experimental results and further analyses on two widely used datasets justify our reasoning and proposed methods.
翻訳日:2023-11-23 15:16:24 公開日:2023-11-22
# 変形場を用いた視覚データの再ターゲティング

Retargeting Visual Data with Deformation Fields ( http://arxiv.org/abs/2311.13297v1 )

ライセンス: Link先を確認
Tim Elsner, Julia Berger, Tong Wu, Victor Czech, Lin Gao, Leif Kobbelt(参考訳) Seam Carvingは、オブジェクトの削除などの操作を含むコンテンツ認識のリサイズを可能にする画像編集方法である。 しかし、動的プログラミングやグラフカットに基づくSeam-finding戦略は、より広範なビジュアルデータフォーマットや編集の自由度に制限される。 我々は,画像の編集と再ターゲティングを変位場によってより一般的に記述することで,コンテンツ認識変形の一般化を実現した。 本稿では,情報量の低い場所でのみ変形を試みながら,出力を妥当に保つニューラルネットワークを用いた変形学習を提案する。 この技術は、画像、神経放射場として与えられる3Dシーン、ポリゴンメッシュなど、さまざまな種類の視覚データに適用できる。 異なる視覚データを用いて実験を行った結果,従来の手法に比べてコンテンツ認識再ターゲティングが良好であることが判明した。

Seam carving is an image editing method that enable content-aware resizing, including operations like removing objects. However, the seam-finding strategy based on dynamic programming or graph-cut limits its applications to broader visual data formats and degrees of freedom for editing. Our observation is that describing the editing and retargeting of images more generally by a displacement field yields a generalisation of content-aware deformations. We propose to learn a deformation with a neural network that keeps the output plausible while trying to deform it only in places with low information content. This technique applies to different kinds of visual data, including images, 3D scenes given as neural radiance fields, or even polygon meshes. Experiments conducted on different visual data show that our method achieves better content-aware retargeting compared to previous methods.
翻訳日:2023-11-23 15:16:04 公開日:2023-11-22
# 強化学習を正しく行う確率的推論

Probabilistic Inference in Reinforcement Learning Done Right ( http://arxiv.org/abs/2311.13294v1 )

ライセンス: Link先を確認
Jean Tarbouriech, Tor Lattimore, Brendan O'Donoghue(参考訳) 強化学習(RL)における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。 研究の中心となる目的は、各状態-作用ペアが最適なポリシーの下で訪問される確率である。 この量を近似する従来のアプローチは任意に貧弱であり、真の統計的推論を実装せず、結果として難解な問題ではうまく機能しないアルゴリズムに繋がる。 本研究では, 状態-作用最適性の後続確率の厳密なベイズ処理を行い, MDPをどう流れるかを明らかにする。 私たちはまず、後悔によって測定されたように、この量を使って効率的に探索するポリシを生成できることを明らかにします。 残念ながら、計算は難解であるため、新しい変分ベイズ近似を導出し、抽出可能な凸最適化問題を導出し、その結果のポリシーも効率的に探索する。 我々は、我々のアプローチをVAPORと呼び、トンプソンサンプリング、Kラーニング、最大エントロピー探索と強く結びついていることを示す。 本稿では,VAPORの深部RLバージョンの性能特性を実証する実験を行った。

A popular perspective in Reinforcement learning (RL) casts the problem as probabilistic inference on a graphical model of the Markov decision process (MDP). The core object of study is the probability of each state-action pair being visited under the optimal policy. Previous approaches to approximate this quantity can be arbitrarily poor, leading to algorithms that do not implement genuine statistical inference and consequently do not perform well in challenging problems. In this work, we undertake a rigorous Bayesian treatment of the posterior probability of state-action optimality and clarify how it flows through the MDP. We first reveal that this quantity can indeed be used to generate a policy that explores efficiently, as measured by regret. Unfortunately, computing it is intractable, so we derive a new variational Bayesian approximation yielding a tractable convex optimization problem and establish that the resulting policy also explores efficiently. We call our approach VAPOR and show that it has strong connections to Thompson sampling, K-learning, and maximum entropy exploration. We conclude with some experiments demonstrating the performance advantage of a deep RL version of VAPOR.
翻訳日:2023-11-23 15:15:49 公開日:2023-11-22
# ニューラルネットワークが農業における水力植物経営に及ぼす影響 : 課題と未解決の機会を探る

The Influence of Neural Networks on Hydropower Plant Management in Agriculture: Addressing Challenges and Exploring Untapped Opportunities ( http://arxiv.org/abs/2311.13293v1 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa and L.L. Ferr\'as(参考訳) 水力発電所は安定した再生可能エネルギーに不可欠であり、持続可能な農業にとって重要な水源となっている。 しかし,水力植物管理ソフトウェアに関連する水管理の実践を評価することは不可欠である。 主な懸念事項は、発電と農業用水需要の潜在的な衝突である。 発電のための優先水は、干ばつ、作物の収量への影響、地域の食料安全保障など重要な期間における農業における灌水能力の低下につながる。 電気と農業用水配分の調整は、最適かつ環境に配慮するために必要である。 ニューラルネットワークは水力発電所管理のための貴重なツールになっているが、そのブラックボックスの性質は、意思決定における透明性に関する懸念を引き起こす。 さらに、現在のアプローチは、水の割り当てを効果的にバランスするシステムを構築するために、その可能性を利用していないことが多い。 この研究は注意を喚起し、適切な監視と制御なしにニューラルネットワークベースの水力発電所管理ソフトウェアをデプロイする潜在的なリスクを強調している。 これらの課題に対処するため,農業用水利を優先しながら発電を最大化することを目的とした農業意識型水力発電所管理フレームワークの導入を提案する。 また,水量配分の柔軟性と有効性を確保するため,政府による最小水量ガイドラインの再評価を提唱する。 さらに,モデルの透明性と堅牢性を促進するための一連の規制措置を提案し,意識的かつインテリジェントな水割決定を行うソフトウェアを認定し,干ばつ時に農業を不適切なストレスから保護する。

Hydropower plants are crucial for stable renewable energy and serve as vital water sources for sustainable agriculture. However, it is essential to assess the current water management practices associated with hydropower plant management software. A key concern is the potential conflict between electricity generation and agricultural water needs. Prioritising water for electricity generation can reduce irrigation availability in agriculture during crucial periods like droughts, impacting crop yields and regional food security. Coordination between electricity and agricultural water allocation is necessary to ensure optimal and environmentally sound practices. Neural networks have become valuable tools for hydropower plant management, but their black-box nature raises concerns about transparency in decision making. Additionally, current approaches often do not take advantage of their potential to create a system that effectively balances water allocation. This work is a call for attention and highlights the potential risks of deploying neural network-based hydropower plant management software without proper scrutiny and control. To address these concerns, we propose the adoption of the Agriculture Conscious Hydropower Plant Management framework, aiming to maximise electricity production while prioritising stable irrigation for agriculture. We also advocate reevaluating government-imposed minimum water guidelines for irrigation to ensure flexibility and effective water allocation. Additionally, we suggest a set of regulatory measures to promote model transparency and robustness, certifying software that makes conscious and intelligent water allocation decisions, ultimately safeguarding agriculture from undue strain during droughts.
翻訳日:2023-11-23 15:15:30 公開日:2023-11-22
# アルゴリズムの透明性と操作

Algorithmic Transparency and Manipulation ( http://arxiv.org/abs/2311.13286v1 )

ライセンス: Link先を確認
Michael Klenk(参考訳) 最近の一連の論文は、アルゴリズムの透明性の操作可能性に関する懸念を提起している。 しかし、懸念は適度で関連性があるが、操作の理解に根ざしている。 そこで本稿は,アルゴリズムの透明性がマニピュティブな可能性を持つ理由を,脆弱性の観点よりも説明できる,操作の無関心な視点に注目する。 また,アルゴリズム的透明性の文脈における操作の今後の研究について,関連する研究課題を提起する。

A series of recent papers raises worries about the manipulative potential of algorithmic transparency. But while the concern is apt and relevant, it is based on a fraught understanding of manipulation. Therefore, this paper draws attention to the indifference view of manipulation, which explains better than the vulnerability view why algorithmic transparency has manipulative potential. The paper also raises pertinent research questions for future studies of manipulation in the context of algorithmic transparency.
翻訳日:2023-11-23 15:15:06 公開日:2023-11-22
# 原発性進行性失語症における徴候配列を特徴付けるmallowsモデルのベイズ推定

Bayesian inference of a new Mallows model for characterising symptom sequences applied in primary progressive aphasia ( http://arxiv.org/abs/2311.13411v1 )

ライセンス: Link先を確認
Beatrice Taylor and Cameron Shand and Chris J. D. Hardy and Neil Oxtoby(参考訳) 機械学習モデルは、さまざまなデータセットをデータ駆動型で理解し、個々の疾患体験に対する洞察を力づけ、公平な医療を確保する能力を提供する。 本研究では,症状系列を特徴付けるベイズ推論と関連するモデリング課題について検討する。 我々は、カスタムMCMCフィッティングを用いて、部分ランク付けと右検閲データを考慮したMallowsモデルを適用した。 総合データと一次進行失語データセットを包含した評価では,平均順序付けとランキング分散推定におけるモデルの有効性が強調された。 これは症状発生の臨床的理解を高める可能性がある。 しかしながら、モデルスケーラビリティと小さなデータセットサイズに関する制限に直面しています。

Machine learning models offer the potential to understand diverse datasets in a data-driven way, powering insights into individual disease experiences and ensuring equitable healthcare. In this study, we explore Bayesian inference for characterising symptom sequences, and the associated modelling challenges. We adapted the Mallows model to account for partial rankings and right-censored data, employing custom MCMC fitting. Our evaluation, encompassing synthetic data and a primary progressive aphasia dataset, highlights the model's efficacy in revealing mean orderings and estimating ranking variance. This holds the potential to enhance clinical comprehension of symptom occurrence. However, our work encounters limitations concerning model scalability and small dataset sizes.
翻訳日:2023-11-23 15:06:35 公開日:2023-11-22
# segvol:ユニバーサルでインタラクティブなボリュームリカルな医用画像セグメンテーション

SegVol: Universal and Interactive Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.13385v1 )

ライセンス: Link先を確認
Yuxin Du, Fan Bai, Tiejun Huang, Bo Zhao(参考訳) 精密な画像分割は、有意義で構造化された情報を持つ臨床研究を提供する。 医用画像のセグメンテーションにおける顕著な進歩にもかかわらず、ユーザーインタラクションが容易な幅広い解剖学的カテゴリをセグメンテーションできる基礎的セグメンテーションモデルがいまだに存在しない。 本稿では,segvolと呼ばれる普遍的かつインタラクティブな医用画像分割モデルを提案する。 90k非ラベルCTボリュームと6kラベルCTのトレーニングにより、この基礎モデルは意味的および空間的プロンプトを用いて200以上の解剖学的カテゴリのセグメンテーションをサポートする。 大規模な実験により、SegVolは、複数のセグメンテーションベンチマークにおいて、大きなマージンで芸術の状態を上回ります。 特に3つの挑戦的病変データセットでは, nnU-Netよりも約20%高いDiceスコアが得られる。 モデルとデータは、https://github.com/BAAI-DCAI/SegVol.comで公開されている。

Precise image segmentation provides clinical study with meaningful and well-structured information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a universal and interactive volumetric medical image segmentation model, named SegVol. By training on 90k unlabeled Computed Tomography (CT) volumes and 6k labeled CTs, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. Extensive experiments verify that SegVol outperforms the state of the art by a large margin on multiple segmentation benchmarks. Notably, on three challenging lesion datasets, our method achieves around 20% higher Dice score than nnU-Net. The model and data are publicly available at: https://github.com/BAAI-DCAI/SegVol.
翻訳日:2023-11-23 15:06:22 公開日:2023-11-22
# LucidDreamer:3Dガウス撮影シーンのドメインフリー生成

LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes ( http://arxiv.org/abs/2311.13384v1 )

ライセンス: Link先を確認
Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee(参考訳) VR機器やコンテンツの普及に伴い、3Dシーン生成技術への需要が高まっている。 しかし、既存の3Dシーン生成モデルでは、ターゲットシーンを特定のドメインに制限している。 このような制限に対処するために,既存の大規模拡散ベース生成モデルのパワーをフル活用したドメインフリーシーン生成パイプラインであるLucidDreamerを提案する。 我々のLucidDreamerには、DreamingとAlignmentという2つの別のステップがあります。 まず、入力から複数視点の一貫した画像を生成するため、ポイントクラウドを画像生成ごとに幾何学的ガイドラインとして設定する。 具体的には、ポイントクラウドの一部を所望の視点に投影し、生成モデルを用いて絵を描くためのガイダンスとしてプロジェクションを提供する。 塗装された画像は、推定深度マップで3D空間に持ち上げられ、新しいポイントを構成する。 次に,新たなポイントを3Dシーンに集約するために,新たに生成された3Dシーンの一部を調和的に統合するアライメントアルゴリズムを提案する。 最終的に得られた3Dシーンはガウススプラッターを最適化する最初のポイントとなる。 LucidDreamerは、従来の3Dシーン生成手法と比較して、ターゲットシーンのドメインに制約がなく、非常に詳細なガウススプラットを生成する。

With the widespread usage of VR devices and contents, demands for 3D scene generation techniques become more popular. Existing 3D scene generation models, however, limit the target scene to specific domain, primarily due to their training strategies using 3D scan dataset that is far from the real-world. To address such limitation, we propose LucidDreamer, a domain-free scene generation pipeline by fully leveraging the power of existing large-scale diffusion-based generative model. Our LucidDreamer has two alternate steps: Dreaming and Alignment. First, to generate multi-view consistent images from inputs, we set the point cloud as a geometrical guideline for each image generation. Specifically, we project a portion of point cloud to the desired view and provide the projection as a guidance for inpainting using the generative model. The inpainted images are lifted to 3D space with estimated depth maps, composing a new points. Second, to aggregate the new points into the 3D scene, we propose an aligning algorithm which harmoniously integrates the portions of newly generated 3D scenes. The finally obtained 3D scene serves as initial points for optimizing Gaussian splats. LucidDreamer produces Gaussian splats that are highly-detailed compared to the previous 3D scene generation methods, with no constraint on domain of the target scene.
翻訳日:2023-11-23 15:06:04 公開日:2023-11-22
# Confidant: コラボレーションエッジトレーニングによるトランスフォーマーベースのLLMのカスタマイズ

Confidant: Customizing Transformer-based LLMs via Collaborative Edge Training ( http://arxiv.org/abs/2311.13381v1 )

ライセンス: Link先を確認
Yuhao Chen, Yuxuan Yan, Qianqian Yang, Yuanchao Shu, Shibo He, Jiming Chen(参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。 それでも、コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。 本稿では,スマートフォンなどの携帯機器上で最先端のllmをカスタマイズするための多元的協調学習フレームワークであるconfidantを提案する。 信頼度はLPMをいくつかのサブモデルに分割し、それぞれがモバイルデバイスのメモリに収まるようにする。 高速かつ効率的な分散トレーニングを実現するために、パイプライン並列トレーニング機構も開発されている。 さらに,モバイルCPUやGPUを含む異種コンピューティングハードウェアに異なる注意点を割り当て,各エッジデバイス上での計算資源利用を最大化する新しいバックエンドスケジューラを提案する。 予備実験の結果,少なくとも45.3%のメモリ削減と8.03倍の推論高速化を実現した。

Transformer-based large language models (LLMs) have demonstrated impressive capabilities in a variety of natural language processing (NLP) tasks. Nonetheless, it is challenging to deploy and fine-tune LLMs on mobile edge devices with limited computing, memory, and energy budgets. In this paper, we propose Confidant, a multi-backend collaborative training framework for customizing state-of-the-art LLMs on commodity mobile devices like smartphones. Confidant partitions an LLM into several sub-models so that each fits into a mobile device's memory. A pipeline parallel training mechanism is further developed to ensure fast and efficient distributed training. In addition, we propose a novel backend scheduler to allocate different attention heads to heterogeneous compute hardware, including mobile CPU and GPUs, to maximize the compute resource utilization on each edge device. Our preliminary experimental results show that Confidant achieves at most 45.3% memory reduction and 8.03x inference speedup in practical settings.
翻訳日:2023-11-23 15:05:43 公開日:2023-11-22
# 跳躍面におけるMLモデルの進化と維持の解析

Analyzing the Evolution and Maintenance of ML Models on Hugging Face ( http://arxiv.org/abs/2311.13380v1 )

ライセンス: Link先を確認
Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch, Justus Bogner(参考訳) huging face(hf)は、機械学習(ml)モデルの開発と共有のための重要なプラットフォームとして確立された。 このリポジトリマイニング調査は、HF Hub API経由で収集されたデータを使用して380,000以上のモデルに分類し、HFにホストされたモデルを中心に、コミュニティの関与、進化、メンテナンスを探求することを目的としている。 まず、HFの成長と人気、MLドメインのトレンド、フレームワークの使用状況、著者グループ化、使用するタグとデータセットの進化について調べる。 モデルカード記述のテキスト解析を通じて,開発者コミュニティ内で広く普及しているテーマや洞察の特定も行なっています。 本研究は,MLモデルの保守状態を評価するとともに,コミットメッセージをさまざまなカテゴリ(補正,完全,適応)に分類し,コミットメトリクスの開発段階にわたる進化を分析し,複数の属性に基づいてモデルのメンテナンス状態を推定する新たな分類システムを提案する。 本研究の目的は、HFのようなコミュニティ主導のプラットフォーム上で、将来のモデル開発、メンテナンス、およびコミュニティエンゲージメント戦略に影響を及ぼすであろうMLモデルの保守と進化に関する貴重な洞察を提供することである。

Hugging Face (HF) has established itself as a crucial platform for the development and sharing of machine learning (ML) models. This repository mining study, which delves into more than 380,000 models using data gathered via the HF Hub API, aims to explore the community engagement, evolution, and maintenance around models hosted on HF, aspects that have yet to be comprehensively explored in the literature. We first examine the overall growth and popularity of HF, uncovering trends in ML domains, framework usage, authors grouping and the evolution of tags and datasets used. Through text analysis of model card descriptions, we also seek to identify prevalent themes and insights within the developer community. Our investigation further extends to the maintenance aspects of models, where we evaluate the maintenance status of ML models, classify commit messages into various categories (corrective, perfective, and adaptive), analyze the evolution across development stages of commits metrics and introduce a new classification system that estimates the maintenance status of models based on multiple attributes. This study aims to provide valuable insights about ML model maintenance and evolution that could inform future model development, maintenance, and community engagement strategies on community-driven platforms like HF.
翻訳日:2023-11-23 15:05:27 公開日:2023-11-22
# 確率回路からの包括的理論の導出

Deriving Comprehensible Theories from Probabilistic Circuits ( http://arxiv.org/abs/2311.13379v1 )

ライセンス: Link先を確認
Sieben Bocklandt, Wannes Meert, Koen Vanderstraeten, Wouter Pijpops, Kurt Jaspers(参考訳) 説明可能なAI(XAI)の分野は、複雑なAIモデルの内部動作に光を当て、その決定の根拠を明らかにすることにある。 注目されているモデルの1つは確率回路(PC)であり、様々な確率的クエリの効率的な計算をサポートするトラクタブル確率モデルのための汎用的で統一的なフレームワークである。 確率回路は、回路の大きさの多項式である推論を保証する。 本稿では,PCが生成する高密度領域を網羅する可読性論理理論を計算することにより,確率回路の説明可能性を向上させる。 これを実現するために、PUTPUT(Probabilistic circuit Understanding through Pruning Underlying logic Theories)と呼ばれる新しい手法において、生成的意義に基づくプルーニングアプローチを用いる。 この方法は、音楽プレイリストが自動生成され、可読性(データベース)クエリとして表現される実世界のユースケースに適用される。 評価の結果,本手法はPCの高密度領域を記述した理解可能な論理理論を効果的に生成し,性能理解性トレードオフを探索する際の技術手法の状態を上回り得ることが示された。

The field of Explainable AI (XAI) is seeking to shed light on the inner workings of complex AI models and uncover the rationale behind their decisions. One of the models gaining attention are probabilistic circuits (PCs), which are a general and unified framework for tractable probabilistic models that support efficient computation of various probabilistic queries. Probabilistic circuits guarantee inference that is polynomial in the size of the circuit. In this paper, we improve the explainability of probabilistic circuits by computing a comprehensible, readable logical theory that covers the high-density regions generated by a PC. To achieve this, pruning approaches based on generative significance are used in a new method called PUTPUT (Probabilistic circuit Understanding Through Pruning Underlying logical Theories). The method is applied to a real world use case where music playlists are automatically generated and expressed as readable (database) queries. Evaluation shows that this approach can effectively produce a comprehensible logical theory that describes the high-density regions of a PC and outperforms state of the art methods when exploring the performance-comprehensibility trade-off.
翻訳日:2023-11-23 15:05:04 公開日:2023-11-22
# 光組織計測の追跡、登録、ラベリング、検証のための点投影マッピングシステム

Point Projection Mapping System for Tracking, Registering, Labeling and Validating Optical Tissue Measurements ( http://arxiv.org/abs/2311.13378v1 )

ライセンス: Link先を確認
Lianne Feenstra, Stefan D.van der Stel, Marcos Da Silva Guimaraes, Theo J.M Ruers and Behdad Dashtbozorg(参考訳) 癌手術における腫瘍検出のための新しい光学組織センシング技術の検証には,組織学的結果と正確な相関が必要である。 さらに、そのような正確な相関は、高性能な機械学習組織分類モデルを開発するための正確なデータラベリングを促進する。 本稿では, 組織標本の計測位置を非破壊的に追跡する, 新たに開発した点投影マッピングシステムを提案する。 また,病理組織学的結果を用いた正確な登録,検証,ラベリングの枠組みを提案し,ケーススタディで検証した。 提案手法は, 従来の手法に比べて時間と資源を節約し, 光組織センシング技術の追跡と検証を行うための, より堅牢で正確な手法を提供する。

Validation of newly developed optical tissue sensing techniques for tumor detection during cancer surgery requires an accurate correlation with histological results. Additionally, such accurate correlation facilitates precise data labeling for developing high-performance machine-learning tissue classification models. In this paper, a newly developed Point Projection Mapping system will be introduced, which allows non-destructive tracking of the measurement locations on tissue specimens. Additionally, a framework for accurate registration, validation, and labeling with histopathology results is proposed and validated on a case study. The proposed framework provides a more robust and accurate method for tracking and validation of optical tissue sensing techniques, which saves time and resources compared to conventional techniques available.
翻訳日:2023-11-23 15:04:43 公開日:2023-11-22
# データストリームにおけるドリフト検出のための不確かさ推定手法に関する実証的研究

An Empirical Study of Uncertainty Estimation Techniques for Detecting Drift in Data Streams ( http://arxiv.org/abs/2311.13374v1 )

ライセンス: Link先を確認
Anton Winter, Nicolas Jourdan, Tristan Wirth, Volker Knauthe, Arjan Kuijper(参考訳) 自律運転や診断などの安全クリティカルな領域では、機械学習モデルの信頼性が不可欠である。 信頼性に対する大きな課題のひとつはコンセプトドリフトであり、時間の経過とともにモデルが劣化する可能性がある。 伝統的にドリフト検出器は真のラベルに依存しており、しばしば希少で高価である。 本研究では,ドリフト検出における誤り率の代用として不確実性値を用いた総合的評価を行い,ラベル付き後処理データへの依存を軽減することを目的とした。 実世界の7つのデータセットにわたるADWIN検出器を用いた5つの不確実性推定手法を検討した。 その結果,SWAG法はキャリブレーションが優れているが,ドリフト検出の全体的な精度は不確実性推定法の選択の影響を受けず,最も基本的な手法でさえ競争性能を示すことがわかった。 これらの知見は、現実の安全クリティカルなアプリケーションにおける不確実性に基づくドリフト検出の実用性に関する貴重な知見を提供する。

In safety-critical domains such as autonomous driving and medical diagnosis, the reliability of machine learning models is crucial. One significant challenge to reliability is concept drift, which can cause model deterioration over time. Traditionally, drift detectors rely on true labels, which are often scarce and costly. This study conducts a comprehensive empirical evaluation of using uncertainty values as substitutes for error rates in detecting drifts, aiming to alleviate the reliance on labeled post-deployment data. We examine five uncertainty estimation methods in conjunction with the ADWIN detector across seven real-world datasets. Our results reveal that while the SWAG method exhibits superior calibration, the overall accuracy in detecting drifts is not notably impacted by the choice of uncertainty estimation method, with even the most basic method demonstrating competitive performance. These findings offer valuable insights into the practical applicability of uncertainty-based drift detection in real-world, safety-critical applications.
翻訳日:2023-11-23 15:04:33 公開日:2023-11-22
# 大言語モデルは強化学習エージェントの訓練に優れた政策教師である

Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents ( http://arxiv.org/abs/2311.13373v1 )

ライセンス: Link先を確認
Zihao Zhou, Bin Hu, Pu Zhang, Chenyang Zhao, Bin Liu(参考訳) 近年,Large Language Models (LLMs) は高レベルな指示を提供することで,複雑な逐次決定課題の解決に有効であることが示された。 しかし, LLMをベースとしたエージェントは, 特定の目標問題の解法における特殊化の欠如により, リアルタイムな動的環境の制約に直面している。 さらに、このようなLCMベースのエージェントの配備は、実用シナリオにおいてコストと時間の両方を消費する。 本稿では,LLMをベースとした教師エージェントからの指示を用いて,小規模の専門学生エージェントを訓練することで,これらの課題に対処する新しい枠組みを提案する。 教師が提供した指導的行動を活用することで、LLMの事前知識を地元の学生モデルに蒸留する。 これにより、学生エージェントを著しく少ないデータで訓練することができる。 さらに、その後の環境フィードバックによるトレーニングにより、学生エージェントは教師の能力を超えることができる。 提案手法の有効性を評価するため,3つの挑戦的ミニグリッド環境について実験を行った。 その結果,本手法はサンプル効率を高め,ベースライン法よりも優れた性能を得ることができた。

Recent studies have shown that Large Language Models (LLMs) can be utilized for solving complex sequential decision-making tasks by providing high-level instructions. However, LLM-based agents face limitations in real-time dynamic environments due to their lack of specialization in solving specific target problems. Moreover, the deployment of such LLM-based agents is both costly and time-consuming in practical scenarios. In this paper, we introduce a novel framework that addresses these challenges by training a smaller scale specialized student agent using instructions from an LLM-based teacher agent. By leveraging guided actions provided by the teachers, the prior knowledge of the LLM is distilled into the local student model. Consequently, the student agent can be trained with significantly less data. Furthermore, subsequent training with environment feedback empowers the student agents to surpass the capabilities of their teachers. We conducted experiments on three challenging MiniGrid environments to evaluate the effectiveness of our framework. The results demonstrate that our approach enhances sample efficiency and achieves superior performance compared to baseline methods.
翻訳日:2023-11-23 15:04:19 公開日:2023-11-22
# MRGazer:個々の空間における機能的磁気共鳴画像からの視線点の復号

MRGazer: Decoding Eye Gaze Points from Functional Magnetic Resonance Imaging in Individual Space ( http://arxiv.org/abs/2311.13372v1 )

ライセンス: Link先を確認
Xiuwen Wu, Rongjie Hu, Jie Liang, Yanming Wang, Bensheng Qiu, Xiaoxiao Wang(参考訳) 視線追跡研究は多くの認知機能を理解するのに有用であることが証明されている。 近年Freyらは、fMRIデータから目の動きを学習するためのエキサイティングなディープラーニング手法を提供している。 しかし、眼球マスクを得るためにfMRIを標準空間に登録する必要があるため、追加のテンプレートが必要となり、時間がかかった。 そこで本稿では,個々の空間におけるfmriから視線視点を予測するmrgazerという枠組みを提案する。 MRGazerは眼球抽出モジュールと残存ネットワークベースの視線予測から構成されていた。 従来の手法と比較して,提案フレームワークはfMRIコレジゲーションステップを省略し,処理プロトコルを単純化し,終端から終端までの視線回帰を実現する。 提案手法は,共同登録法よりも様々な眼球運動課題において優れた性能を達成し,従来の方法(体積あたり約0.3秒)よりも短い時間(体積毎0.02秒)で客観的な結果が得られた。

Eye-tracking research has proven valuable in understanding numerous cognitive functions. Recently, Frey et al. provided an exciting deep learning method for learning eye movements from fMRI data. However, it needed to co-register fMRI into standard space to obtain eyeballs masks, and thus required additional templates and was time consuming. To resolve this issue, in this paper, we propose a framework named MRGazer for predicting eye gaze points from fMRI in individual space. The MRGazer consisted of eyeballs extraction module and a residual network-based eye gaze prediction. Compared to the previous method, the proposed framework skips the fMRI co-registration step, simplifies the processing protocol and achieves end-to-end eye gaze regression. The proposed method achieved superior performance in a variety of eye movement tasks than the co-registration-based method, and delivered objective results within a shorter time (~ 0.02 Seconds for each volume) than prior method (~0.3 Seconds for each volume).
翻訳日:2023-11-23 15:04:03 公開日:2023-11-22
# 大規模言語モデルを電力システムに適用する:潜在的なセキュリティ脅威

Applying Large Language Models to Power Systems: Potential Security Threats ( http://arxiv.org/abs/2311.13361v1 )

ライセンス: Link先を確認
Jiaqi Ruan, Gaoqi Liang, Huan Zhao, Guolong Liu, Jing Qiu, Junhua Zhao, Zhao Xu, Fushuan Wen, Zhao Yang Dong(参考訳) 大規模言語モデル(LLM)を電力システムに適用することは、意思決定と運用効率を向上させるための有望な道を示す。 しかし、この行動は、まだ完全には認識されていない潜在的なセキュリティの脅威を引き起こす可能性がある。 そこで本書では,電力系統にllmを適用することで生じる潜在的な脅威を分析し,緊急調査の必要性と対策の展開を強調する。

Applying large language models (LLMs) to power systems presents a promising avenue for enhancing decision-making and operational efficiency. However, this action may also incur potential security threats, which have not been fully recognized so far. To this end, this letter analyzes potential threats incurred by applying LLMs to power systems, emphasizing the need for urgent research and development of countermeasures.
翻訳日:2023-11-23 15:03:45 公開日:2023-11-22
# マルチエージェント分散学習における不確実性推定

Uncertainty Estimation in Multi-Agent Distributed Learning ( http://arxiv.org/abs/2311.13356v1 )

ライセンス: Link先を確認
Gleb Radchenko, Victoria Andrea Fill(参考訳) 従来、IoTエッジデバイスは、主に自律的な操作に制限のある低電力コンポーネントとして認識されてきた。 しかし、組み込みAIハードウェア設計の進歩により、基盤的なシフトが将来の可能性への道を開く。 したがって、kdt neurokit2eプロジェクトの目標は、量子化、pruning-aware training、sparsificationといった新しい方法を開発することによって、エッジデバイス上のaiアプリケーションをさらに促進するための新しいオープンソースフレームワークを確立することである。 これらのイノベーションは、そのようなデバイスの機能範囲を大幅に拡大する可能性を秘めており、ローカルリソースを利用して複雑な機械学習(ML)タスクを管理し、革新的な学習アプローチの基盤となる。 6gのトランスフォーメーションポテンシャルの文脈では、独立エージェント間の分散学習が重要なアプリケーションとして出現する。これは、6gネットワークが超信頼性の低い低レイテンシ通信、データレートの向上、高度なエッジコンピューティング機能をサポートするためである。 本研究は,エッジネットワーク対応エージェントが分散環境における協調学習を行うためのメカニズムと方法論に焦点を当てる。 特に、分散協調学習における重要な問題は、独立したエージェントが認識するデータセットの時空間的局所性を考慮して、学習結果の信頼度を決定することである。

Traditionally, IoT edge devices have been perceived primarily as low-power components with limited capabilities for autonomous operations. Yet, with emerging advancements in embedded AI hardware design, a foundational shift paves the way for future possibilities. Thus, the aim of the KDT NEUROKIT2E project is to establish a new open-source framework to further facilitate AI applications on edge devices by developing new methods in quantization, pruning-aware training, and sparsification. These innovations hold the potential to expand the functional range of such devices considerably, enabling them to manage complex Machine Learning (ML) tasks utilizing local resources and laying the groundwork for innovative learning approaches. In the context of 6G's transformative potential, distributed learning among independent agents emerges as a pivotal application, attributed to 6G networks' support for ultra-reliable low-latency communication, enhanced data rates, and advanced edge computing capabilities. Our research focuses on the mechanisms and methodologies that allow edge network-enabled agents to engage in collaborative learning in distributed environments. Particularly, one of the key issues within distributed collaborative learning is determining the degree of confidence in the learning results, considering the spatio-temporal locality of data sets perceived by independent agents.
翻訳日:2023-11-23 15:03:38 公開日:2023-11-22
# 統一された分類と拒絶:1対1の枠組み

Unified Classification and Rejection: A One-versus-All Framework ( http://arxiv.org/abs/2311.13355v1 )

ライセンス: Link先を確認
Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) 既知のクラスを分類し、曖昧で斬新な入力(out-of-distribution(OOD)とも呼ばれる)を拒否するパターンは、オープンワールドパターン認識に関与している。 ディープニューラルネットワークモデルは、通常はクローズドセット分類において優れているが、oodの拒否には不十分である。 この問題に対処するために、オープンセット認識(OSR)やOOD拒否/検出タスクを実行するために多くの手法が設計されている。 従来の手法では、学習後のスコア変換やハイブリッドモデルを用いて、既知のクラスを分離しながらOOD入力の低スコアを保証する。 本稿では,分類とood拒否の両方に対してオープンセット分類器を構築するための統一フレームワークの構築を試みる。 K $-known-class の開集合認識を (K + 1) $-class 分類問題として定式化する。 K の $-class 問題を $ K $ 1-versus-all (OVA) のバイナリ分類タスクに分解し、いくつかのパラメータを結合することにより、OVA 分類器のスコアを組み合わせることで、(K + 1) の $-class 後続確率が$ (K + 1) となる。 OVA学習分類器の閉集合分類精度を維持するために,OVA損失とマルチクラスクロスエントロピー損失を組み合わせたハイブリッドトレーニング戦略を提案する。 最近提案する畳み込みプロトタイプネットワーク上で,ovaフレームワークとハイブリッドトレーニング戦略を実装した。 一般的なOSRおよびOOD検出データセットの実験により、提案するフレームワークは、単一のマルチクラス分類器を使用して、クローズドセット分類、OOD検出、誤分類検出において競合性能を発揮することが示された。

Classifying patterns of known classes and rejecting ambiguous and novel (also called as out-of-distribution (OOD)) inputs are involved in open world pattern recognition. Deep neural network models usually excel in closed-set classification while performing poorly in rejecting OOD. To tackle this problem, numerous methods have been designed to perform open set recognition (OSR) or OOD rejection/detection tasks. Previous methods mostly take post-training score transformation or hybrid models to ensure low scores on OOD inputs while separating known classes. In this paper, we attempt to build a unified framework for building open set classifiers for both classification and OOD rejection. We formulate the open set recognition of $ K $-known-class as a $ (K + 1) $-class classification problem with model trained on known-class samples only. By decomposing the $ K $-class problem into $ K $ one-versus-all (OVA) binary classification tasks and binding some parameters, we show that combining the scores of OVA classifiers can give $ (K + 1) $-class posterior probabilities, which enables classification and OOD rejection in a unified framework. To maintain the closed-set classification accuracy of the OVA trained classifier, we propose a hybrid training strategy combining OVA loss and multi-class cross-entropy loss. We implement the OVA framework and hybrid training strategy on the recently proposed convolutional prototype network. Experiments on popular OSR and OOD detection datasets demonstrate that the proposed framework, using a single multi-class classifier, yields competitive performance in closed-set classification, OOD detection, and misclassification detection.
翻訳日:2023-11-23 15:03:16 公開日:2023-11-22
# 事実に基づく裁判所判断予測

Fact-based Court Judgment Prediction ( http://arxiv.org/abs/2311.13350v1 )

ライセンス: Link先を確認
Shubham Kumar Nigam and Aniket Deroy(参考訳) この拡張は、"ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation" \cite{malik-etal-2021-ildc}"で示された研究を拡張し、インドの法律文書の文脈における事実に基づく判断予測に焦点を当てた。 一つは事実のみに基づく問題であり、もう一つは下級裁判所(RLC)の判断と事実の組み合わせである。 本研究は, 早期症例予測の強化をめざし, 法律専門家や一般市民に多大な利益をもたらすことを目的とする。 しかし,DELSummアルゴリズムに種々の重み付け方式を実装した後でも,元のILDC for CJPE研究と比較して性能は低下した。 さらに「ILDC for CJPE」研究において, 異なる変圧器モデルによる法的判断予測に事実のみを用いることで, 結果が最先端の結果に劣る結果となった。

This extended abstract extends the research presented in "ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation" \cite{malik-etal-2021-ildc}, focusing on fact-based judgment prediction within the context of Indian legal documents. We introduce two distinct problem variations: one based solely on facts, and another combining facts with rulings from lower courts (RLC). Our research aims to enhance early-phase case outcome prediction, offering significant benefits to legal professionals and the general public. The results, however, indicated a performance decline compared to the original ILDC for CJPE study, even after implementing various weightage schemes in our DELSumm algorithm. Additionally, using only facts for legal judgment prediction with different transformer models yielded results inferior to the state-of-the-art outcomes reported in the "ILDC for CJPE" study.
翻訳日:2023-11-23 15:02:45 公開日:2023-11-22
# REDS:動的資源制約のための資源効率の良いディープサブネットワーク

REDS: Resource-Efficient Deep Subnetworks for Dynamic Resource Constraints ( http://arxiv.org/abs/2311.13349v1 )

ライセンス: Link先を確認
Francesco Corti, Balz Maag, Joachim Schauer, Ulrich Pferschy, Olga Saukh(参考訳) エッジデバイスにデプロイされた深いモデルは、エネルギーレベルの変化、タイミングの制約、あるいはシステム内の他の重要なタスクの優先順位付けから生じるリソース変動に頻繁に遭遇する。 最先端の機械学習パイプラインは、実行時に適応できないリソースに依存しないモデルを生成する。 本稿では,資源効率の高いDeep Subnetworks (REDS)を導入し,変動資源へのモデル適応に取り組む。 最先端とは対照的に、REDSは、ハードウェア固有の最適化を可能にするニューロンの置換不変性を利用して構成的に構造化されたスパーシリティを使用する。 具体的には, (1) 反復ナップサックオプティマイザで同定された逐次計算ブロックをスキップし, (2) 単純な計算を用いてreds計算グラフの演算順序を再構成してデータキャッシュを活用することで計算効率が向上する。 redsはエッジに頻繁にデプロイされる従来のディープネットワークをサポートし、小さくてシンプルなネットワークでも計算上のメリットを提供する。 Google Speech Commands、FMNIST、CIFAR10データセットでトレーニングされた6つのベンチマークアーキテクチャ上でREDSを評価し、市販のモバイルおよび組み込みハードウェアプラットフォームでテストする。 Arduino Nano 33 BLE センス上の2層完全接続ネットワークを利用して,サブモデルテストセットの精度でREDSの優れた性能を示す理論的結果と実証的証拠を提供し,40$\mu$s以下の動的リソース制約に対応する適応時間を示す。

Deep models deployed on edge devices frequently encounter resource variability, which arises from fluctuating energy levels, timing constraints, or prioritization of other critical tasks within the system. State-of-the-art machine learning pipelines generate resource-agnostic models, not capable to adapt at runtime. In this work we introduce Resource-Efficient Deep Subnetworks (REDS) to tackle model adaptation to variable resources. In contrast to the state-of-the-art, REDS use structured sparsity constructively by exploiting permutation invariance of neurons, which allows for hardware-specific optimizations. Specifically, REDS achieve computational efficiency by (1) skipping sequential computational blocks identified by a novel iterative knapsack optimizer, and (2) leveraging simple math to re-arrange the order of operations in REDS computational graph to take advantage of the data cache. REDS support conventional deep networks frequently deployed on the edge and provide computational benefits even for small and simple networks. We evaluate REDS on six benchmark architectures trained on the Google Speech Commands, FMNIST and CIFAR10 datasets, and test on four off-the-shelf mobile and embedded hardware platforms. We provide a theoretical result and empirical evidence for REDS outstanding performance in terms of submodels' test set accuracy, and demonstrate an adaptation time in response to dynamic resource constraints of under 40$\mu$s, utilizing a 2-layer fully-connected network on Arduino Nano 33 BLE Sense.
翻訳日:2023-11-23 15:02:27 公開日:2023-11-22
# コーディングタスクにおける大規模言語モデルの転送攻撃と防御

Transfer Attacks and Defenses for Large Language Models on Coding Tasks ( http://arxiv.org/abs/2311.13445v1 )

ライセンス: Link先を確認
Chi Zhang, Zifan Wang, Ravi Mangal, Matt Fredrikson, Limin Jia, Corina Pasareanu(参考訳) ChatGPTのような現代の大規模言語モデル(LLM)は、コードの記述や推論を含むコーディングタスクの素晴らしい機能を示している。 従来のcode2seqやseq2seqといったニューラルネットワークモデルを改善し、コードの要約やコードの脆弱性の特定といったタスクの実行において、すでに競合的な結果を示している。 しかし、これらの以前のコードモデルは、プログラムのセマンティクスを変えない小さな構文的摂動(例えば、偽の条件による「デッドコード」の挿入や、モデルを「汚す」ように設計された不連続な印刷文の追加など)に対して脆弱であった。 LLMは、同じ逆境の摂動にも弱いが、この懸念に関する詳細な研究は今のところ不十分である。 本稿では,LLMを用いた符号化作業における対向的摂動の影響について検討する。 特に、より小さなコードモデルに対するホワイトボックス攻撃によって生成された逆例のLLMへの転送可能性について検討する。 さらに,再訓練のコストを伴わずに,LSMをこのような敵に対してより堅牢にするために,敵の摂動コードの例や敵の摂動を逆転するための明示的な指示などの追加情報を含むプロンプトの変更を含むプロンプトベースの防御を提案する。 実験の結果、より小さなコードモデルで得られた逆例は確かに転送可能であり、LLMの性能は低下していることがわかった。 提案されたディフェンスはモデルのレジリエンスを改善し、コード関連アプリケーションにおけるLLMのより堅牢なディフェンスソリューションへの道を開くことを約束している。

Modern large language models (LLMs), such as ChatGPT, have demonstrated impressive capabilities for coding tasks including writing and reasoning about code. They improve upon previous neural network models of code, such as code2seq or seq2seq, that already demonstrated competitive results when performing tasks such as code summarization and identifying code vulnerabilities. However, these previous code models were shown vulnerable to adversarial examples, i.e. small syntactic perturbations that do not change the program's semantics, such as the inclusion of "dead code" through false conditions or the addition of inconsequential print statements, designed to "fool" the models. LLMs can also be vulnerable to the same adversarial perturbations but a detailed study on this concern has been lacking so far. In this paper we aim to investigate the effect of adversarial perturbations on coding tasks with LLMs. In particular, we study the transferability of adversarial examples, generated through white-box attacks on smaller code models, to LLMs. Furthermore, to make the LLMs more robust against such adversaries without incurring the cost of retraining, we propose prompt-based defenses that involve modifying the prompt to include additional information such as examples of adversarially perturbed code and explicit instructions for reversing adversarial perturbations. Our experiments show that adversarial examples obtained with a smaller code model are indeed transferable, weakening the LLMs' performance. The proposed defenses show promise in improving the model's resilience, paving the way to more robust defensive solutions for LLMs in code-related applications.
翻訳日:2023-11-23 14:54:41 公開日:2023-11-22
# SkeletonGait:Skeleton Mapsを用いた歩行認識

SkeletonGait: Gait Recognition Using Skeleton Maps ( http://arxiv.org/abs/2311.13444v1 )

ライセンス: Link先を確認
Chao Fan, Jingzhe Ma, Dongyang Jin, Chuanfu Shen, Shiqi Yu(参考訳) 表現の選択は、深い歩行認識法に必須である。 二項シルエットと骨格座標は近年の文献において2つの支配的な表現であり、多くのシナリオにおいて顕著な進歩を遂げている。 しかし、シルエットが常に拘束されていない場面で保証されるわけではなく、構造的な手がかりが骨格から完全に活用されていないという固有の課題が残っている。 本稿では,スケルトンマップと呼ばれる新しい骨格歩行表現と,ヒト骨格マップからの構造情報を活用するためのスケルトンマップを提案する。 具体的には、スケルトンマップは人間の関節の座標をガウス近似のヒートマップとして表現し、正確な体構造を持たないシルエットのような像を示す。 さらに重要な点として、SkeletonGaitは、歩行を記述する上で構造的特徴がいかに重要であるか、いつその役割を果たすのか、という新たな洞察を明らかにしている。 さらに,スケルトンとシルエットの相補的な特徴を活用するために,SkeletonGait++というマルチブランチアーキテクチャを提案する。 実験によると、SkeletonGait++は既存の最先端メソッドよりも、さまざまなシナリオでかなりの差がある。 例えば、挑戦的なGREWデータセットに対して、印象的なランク1の精度が8,5\%以上に達する。 すべてのソースコードはhttps://github.com/ShiqiYu/OpenGaitで入手できる。

The choice of the representations is essential for deep gait recognition methods. The binary silhouettes and skeletal coordinates are two dominant representations in recent literature, achieving remarkable advances in many scenarios. However, inherent challenges remain, in which silhouettes are not always guaranteed in unconstrained scenes, and structural cues have not been fully utilized from skeletons. In this paper, we introduce a novel skeletal gait representation named Skeleton Map, together with SkeletonGait, a skeleton-based method to exploit structural information from human skeleton maps. Specifically, the skeleton map represents the coordinates of human joints as a heatmap with Gaussian approximation, exhibiting a silhouette-like image devoid of exact body structure. Beyond achieving state-of-the-art performances over five popular gait datasets, more importantly, SkeletonGait uncovers novel insights about how important structural features are in describing gait and when do they play a role. Furthermore, we propose a multi-branch architecture, named SkeletonGait++, to make use of complementary features from both skeletons and silhouettes. Experiments indicate that SkeletonGait++ outperforms existing state-of-the-art methods by a significant margin in various scenarios. For instance, it achieves an impressive rank-1 accuracy of over $85\%$ on the challenging GREW dataset. All the source code will be available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2023-11-23 14:54:12 公開日:2023-11-22
# 生成モデリングと意思決定のためのガイドフロー

Guided Flows for Generative Modeling and Decision Making ( http://arxiv.org/abs/2311.13443v1 )

ライセンス: Link先を確認
Qinqing Zheng, Matt Le, Neta Shaul, Yaron Lipman, Aditya Grover, Ricky T. Q. Chen(参考訳) 分類子フリーガイダンスは、多くのダウンストリームタスクの条件付き生成モデルのパフォーマンスを改善するための重要なコンポーネントである。 これは生成したサンプルの品質を大幅に改善するが、これまで拡散モデルにしか使われていない。 オルタナティブなシミュレーションフリーな手法であるフローマッチング(fm)は、回帰ベクトル場に基づいて連続正規化フロー(cnfs)を訓練する。 フローマッチングモデルに対して、分類器なしのガイダンスが実行可能であるか、どの程度パフォーマンスが向上するのか、という疑問が残る。 本稿では、条件付き画像生成、音声合成、強化学習を含む様々な下流アプリケーションにおけるガイドフローの利用について検討する。 特に、オフライン強化学習環境にフローモデルを適用するのは、私たちが初めてです。 また,ガイドドフローは,画像生成におけるサンプル品質とゼロショットテキスト対音声合成を著しく改善し,エージェント全体の性能に影響を与えずに,極めて少ない計算量を利用できることを示した。

Classifier-free guidance is a key component for improving the performance of conditional generative models for many downstream tasks. It drastically improves the quality of samples produced, but has so far only been used for diffusion models. Flow Matching (FM), an alternative simulation-free approach, trains Continuous Normalizing Flows (CNFs) based on regressing vector fields. It remains an open question whether classifier-free guidance can be performed for Flow Matching models, and to what extent does it improve performance. In this paper, we explore the usage of Guided Flows for a variety of downstream applications involving conditional image generation, speech synthesis, and reinforcement learning. In particular, we are the first to apply flow models to the offline reinforcement learning setting. We also show that Guided Flows significantly improves the sample quality in image generation and zero-shot text-to-speech synthesis, and can make use of drastically low amounts of computation without affecting the agent's overall performance.
翻訳日:2023-11-23 14:53:51 公開日:2023-11-22
# pg-video-llava: 大型ビデオ言語モデルのためのピクセル

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models ( http://arxiv.org/abs/2311.13435v1 )

ライセンス: Link先を確認
Shehan Munasinghe, Rusiru Thushara, Muhammad Maaz, Hanoona Abdul Rasheed, Salman Khan, Mubarak Shah, Fahad Khan(参考訳) 画像ベースのLMM(Large Multimodal Model)をビデオに拡張することは、ビデオデータの本質的な複雑さのために難しい。 画像ベースのLMMをビデオに拡張する最近のアプローチは、グラウンド機能(例えば、VideoChat、Video-ChatGPT、Video-LLaMA)や、より良いビデオ理解のためにオーディオ信号を使用しない(例えば、Video-ChatGPT)。 これらのギャップに対処するため,画素レベルのグラウンド化機能を備えた最初のLMMであるVideo-LLaVAを提案する。 このフレームワークは、既製のトラッカーと新しい接地モジュールを使用し、ユーザーの指示に従ってビデオ内のオブジェクトを空間的かつ時間的にローカライズすることができる。 我々は,ビデオベース生成および質問応答ベンチマークを用いてビデオllavaを評価し,映像中のプロンプトベースオブジェクトの接地性能を測定するためのベンチマークを新たに導入する。 さらに,ビデオチャットgptにおけるvicuna over gpt-3.5の使用をビデオベースの会話ベンチマークに適用し,gpt-3.5のプロプライエタリな性質と関係する結果の再現性を確保する。 我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。 プロジェクトページ: https://github.com/mbzuai-oryx/video-llava

Extending image-based Large Multimodal Models (LMM) to videos is challenging due to the inherent complexity of video data. The recent approaches extending image-based LMM to videos either lack the grounding capabilities (e.g., VideoChat, Video-ChatGPT, Video-LLaMA) or do not utilize the audio-signals for better video understanding (e.g., Video-ChatGPT). Addressing these gaps, we propose Video-LLaVA, the first LMM with pixel-level grounding capability, integrating audio cues by transcribing them into text to enrich video-context understanding. Our framework uses an off-the-shelf tracker and a novel grounding module, enabling it to spatially and temporally localize objects in videos following user instructions. We evaluate Video-LLaVA using video-based generative and question-answering benchmarks and introduce new benchmarks specifically designed to measure prompt-based object grounding performance in videos. Further, we propose the use of Vicuna over GPT-3.5, as utilized in Video-ChatGPT, for video-based conversation benchmarking, ensuring reproducibility of results which is a concern with the proprietary nature of GPT-3.5. Our framework builds on SoTA image-based LLaVA model and extends its advantages to the video domain, delivering promising gains on video-based conversation and grounding tasks. Project Page: https://github.com/mbzuai-oryx/Video-LLaVA
翻訳日:2023-11-23 14:53:35 公開日:2023-11-22
# 織物複合材料における弾塑性の繰り返しニューラルネットワークと伝達学習

Recurrent neural networks and transfer learning for elasto-plasticity in woven composites ( http://arxiv.org/abs/2311.13434v1 )

ライセンス: Link先を確認
Ehsan Ghane, Martin Fagerstr\"om, and Mohsen Mirkhalaf(参考訳) 本稿では, 計算集約型メソスケールシミュレーションのためのサロゲートとして, リカレントニューラルネットワーク(RNN)モデルを提案する。 伝達学習のパワーを活用することで,循環せん断ひずみ負荷に固有の初期化課題とスパースデータの問題が,rnnモデルで解決される。 平均場モデルは弾塑性挙動を表す包括的なデータセットを生成する。 シミュレーションでは、ランダムウォーキング時の応力をソースタスクとして予測し、目標タスクとして循環荷重条件を予測するために任意の6次元ひずみ履歴を用いる。 サブスケールプロパティを組み込むことで、RNNの汎用性が向上する。 正確な予測を実現するため、グリッド探索法を用いてネットワークアーキテクチャとハイパーパラメータ構成をチューニングする。 本研究は, 伝達学習を用いて, RNNを様々なひずみ条件に効果的に適応できることを示し, 織物の経路依存応答をモデル化するための有用なツールとしての可能性を確立した。

As a surrogate for computationally intensive meso-scale simulation of woven composites, this article presents Recurrent Neural Network (RNN) models. Leveraging the power of transfer learning, the initialization challenges and sparse data issues inherent in cyclic shear strain loads are addressed in the RNN models. A mean-field model generates a comprehensive data set representing elasto-plastic behavior. In simulations, arbitrary six-dimensional strain histories are used to predict stresses under random walking as the source task and cyclic loading conditions as the target task. Incorporating sub-scale properties enhances RNN versatility. In order to achieve accurate predictions, the model uses a grid search method to tune network architecture and hyper-parameter configurations. The results of this study demonstrate that transfer learning can be used to effectively adapt the RNN to varying strain conditions, which establishes its potential as a useful tool for modeling path-dependent responses in woven composites.
翻訳日:2023-11-23 14:53:06 公開日:2023-11-22
# ツリーテンソルネットワーク演算子を決定する状態ダイアグラム

State Diagrams to determine Tree Tensor Network Operators ( http://arxiv.org/abs/2311.13433v1 )

ライセンス: Link先を確認
Richard M. Milbradt, Qunsheng Huang, Christian B. Mendl(参考訳) この研究は、量子ハミルトニアンを表現するためのツリーテンソルネットワーク演算子(TTNO)に関するものである。 まず、木トポロジーと状態図を結びつける数学的枠組みを確立する。 これらに基づき、ハミルトニアンを与えられたTTNOを構成するアルゴリズムを考案する。 このアルゴリズムはハミルトニアンのテンソル積構造を利用して状態図に経路を追加し、可能であれば局所作用素を組み合わせる。 我々は、与えられた木構造に対するランダムハミルトニアンのアルゴリズムの能力をテストする。 さらに,木トポロジー上での近接相互作用に対して,TTNOを明示的に構築する。 さらに、木上の任意の相互作用を表すテンソル作用素の結合次元に有界を導出する。 最後に、ボソニック浴場と結合したハイゼンベルクスピン鎖の形で開かれた量子系を具体例として考察する。 木構造は、行列積作用素構造と比較してハミルトンテンソルネットワーク表現の結合次元を低くすることができる。 この減少は、スピン当たりの浴の数が3ドルに達するとすぐに必要なトータルテンソル要素の数を減らすのに十分である。

This work is concerned with tree tensor network operators (TTNOs) for representing quantum Hamiltonians. We first establish a mathematical framework connecting tree topologies with state diagrams. Based on these, we devise an algorithm for constructing a TTNO given a Hamiltonian. The algorithm exploits the tensor product structure of the Hamiltonian to add paths to a state diagram, while combining local operators if possible. We test the capabilities of our algorithm on random Hamiltonians for a given tree structure. Additionally, we construct explicit TTNOs for nearest neighbour interactions on a tree topology. Furthermore, we derive a bound on the bond dimension of tensor operators representing arbitrary interactions on trees. Finally, we consider an open quantum system in the form of a Heisenberg spin chain coupled to bosonic bath sites as a concrete example. We find that tree structures allow for lower bond dimensions of the Hamiltonian tensor network representation compared to a matrix product operator structure. This reduction is large enough to reduce the number of total tensor elements required as soon as the number of baths per spin reaches $3$.
翻訳日:2023-11-23 14:52:51 公開日:2023-11-22
# デカップリングのための個別変数情報抽出、直接相互情報、多機能グランジャー因果関係

Extracting individual variable information for their decoupling, direct mutual information and multi-feature Granger causality ( http://arxiv.org/abs/2311.13431v1 )

ライセンス: Link先を確認
Jarek Duda(参考訳) 複数の変数を扱う場合、複雑な依存関係を制御するのが難しくなります。 本稿では、例えば$\overline{X|Y}$を$X$の情報を含むランダム変数として抽出するが、$(x,y) \leftrightarrow (\bar{x}=\textrm{CDF}_{X|Y=y}(x),y)$逆正規化を用いて$Y$に関する情報を除去する。 逆変換 $(X_1,\ldots,X_n)\leftrightarrow(\tilde{X}_1,\ldots \tilde{X}_n)$ は同じ情報を含むが独立である: $\forall_{i\neq j} \tilde{X}_i\perp \tilde{X}_j, \tilde{X}_i\perp X_j$。 複雑な条件付き確率分布の詳細なモデルが必要です - 一般的には難しい作業ですが、ここでは不完全な手法(hcr:階層的相関再構成)を使用して、複数の依存性低減イテレーションを実施できます。 また、中間変数を使わずに直接情報伝達を評価する直接的な相互情報にも使用できる。 因果方向については、伝搬時間(遅延)を含む、疎結合変数間の様々な種類の個別情報伝達をトレースするなど、多機能グランガー因果関係について論じる。

Working with multiple variables they usually contain difficult to control complex dependencies. This article proposes extraction of their individual information, e.g. $\overline{X|Y}$ as random variable containing information from $X$, but with removed information about $Y$, by using $(x,y) \leftrightarrow (\bar{x}=\textrm{CDF}_{X|Y=y}(x),y)$ reversible normalization. One application can be decoupling of individual information of variables: reversibly transform $(X_1,\ldots,X_n)\leftrightarrow(\tilde{X}_1,\ldots \tilde{X}_n)$ together containing the same information, but being independent: $\forall_{i\neq j} \tilde{X}_i\perp \tilde{X}_j, \tilde{X}_i\perp X_j$. It requires detailed models of complex conditional probability distributions - it is generally a difficult task, but here can be done through multiple dependency reducing iterations, using imperfect methods (here HCR: Hierarchical Correlation Reconstruction). It could be also used for direct mutual information - evaluating direct information transfer: without use of intermediate variables. For causality direction there is discussed multi-feature Granger causality, e.g. to trace various types of individual information transfers between such decoupled variables, including propagation time (delay).
翻訳日:2023-11-23 14:52:38 公開日:2023-11-22
# 量子消去による未検出センシングモードの結合

Coupling undetected sensing modes by quantum erasure ( http://arxiv.org/abs/2311.13421v1 )

ライセンス: Link先を確認
Nathan R. Gemmell, Yue Ma, Emma Pearce, Jefferson Florez, Olaf Czerwinski, M. S. Kim, Rupert F. Oulton, Alex S. Clark, and Chris C. Phillips(参考訳) 誘導放出のない引き起こされるコヒーレンス」として知られるこの効果は、未検出光子(IUP)によるイメージング専用のフィールドを生み出し、そこでは2つの異なる光子対源からの光子が、出力が区別できない場合に干渉する。 区別不能性は通常2つの設定で達成される。 誘導コヒーレンスIUP(IC-IUP)は、第1のソースが通過するアイドラー光子のみを持ち、非線形干渉計(NI-IUP)は第1のソースが通過する信号とアイドラー光子の両方を持ち、実装が容易である。 どちらの場合も、信号経路内の干渉縞を異なる波長間で画像情報を移動させる方法で測定することにより、ソース間のアイドラー経路の変化を検出することができる。 そこで我々は,IC-IUP と NI-IUP 間の連続的な移動に偏極状態量子消去器を用いた新しいセットアップをモデル化し,実装する。 低利得状態や量子状態において、実験と理論の相性は良好である。 このシステムは、干渉計のバランスをとるために制御可能な量子消去を用いてiup干渉を最適化する新しい経路も提供する。

The effect known as ``induced coherence without induced emission'' has spawned a field dedicated to imaging with undetected photons (IUP), where photons from two distinct photon-pair sources interfere if their outputs are made indistinguishable. The indistinguishability is commonly achieved in two setups. Induced coherence IUP (IC-IUP) has only the idler photons from the first source passing through the second, whilst nonlinear interferometry (NI-IUP) has both signal and idler photons from the first source passing through the second and can be simpler to implement. In both cases, changes in the idler path between sources can be detected by measuring the interference fringes in the signal path in a way that allows image information to be moved between different wavelengths. Here we model and implement a novel setup that uses a polarization state quantum eraser approach to move continuously between IC-IUP and NI-IUP operation. We find excellent agreement between experiment and theory in the low-gain or quantum regime. The system also provides a new route for optimizing IUP interference by using controllable quantum erasure to balance the interferometer.
翻訳日:2023-11-23 14:51:53 公開日:2023-11-22
# 画像からコネクトへ:DQNとGNNはHexの戦略ゲームを学ぶことができるか?

From Images to Connections: Can DQN with GNNs learn the Strategic Game of Hex? ( http://arxiv.org/abs/2311.13414v1 )

ライセンス: Link先を確認
Yannik Keller, Jannis Bl\"uml, Gopika Sudhakaran and Kristian Kersting(参考訳) チェス、囲碁、ヘックスといった戦略的なボードゲームのゲームプレイは、イメージだけでなく、組み合わせ、関係構造 -- 異なる相互作用と非局所パターンをキャプチャする -- によって特徴づけられることが多い。 それでも、最も一般的なセルフプレイ強化学習(RL)は、畳み込みニューラルネットワーク(CNN)を用いたポリシーと値関数を単純に近似するアプローチである。 CNNの重要な特徴は、局所性と翻訳的不変性に対する関係帰納的バイアスである。 対照的に、グラフニューラルネットワーク(GNN)はより複雑で明確な関係構造を符号化することができる。 したがって、GNNは複雑な接続を符号化し、自己再生強化学習においてCNNを置き換えることができるのか? この目的のために私たちは,実験プラットフォームとして機能する,抽象的で戦略的にリッチなボードゲームであるHexとの比較を行います。 以上の結果から, GNNはゲーム状態の長期依存状況に優れ, 過度に適合する傾向が低いが, 局所パターンの認識能力の低下が示唆された。 これは、ゲーム固有の構造を使用して自己プレイ強化学習を再構築する、潜在的なパラダイムシフトを示唆する。

The gameplay of strategic board games such as chess, Go and Hex is often characterized by combinatorial, relational structures -- capturing distinct interactions and non-local patterns -- and not just images. Nonetheless, most common self-play reinforcement learning (RL) approaches simply approximate policy and value functions using convolutional neural networks (CNN). A key feature of CNNs is their relational inductive bias towards locality and translational invariance. In contrast, graph neural networks (GNN) can encode more complicated and distinct relational structures. Hence, we investigate the crucial question: Can GNNs, with their ability to encode complex connections, replace CNNs in self-play reinforcement learning? To this end, we do a comparison with Hex -- an abstract yet strategically rich board game -- serving as our experimental platform. Our findings reveal that GNNs excel at dealing with long range dependency situations in game states and are less prone to overfitting, but also showing a reduced proficiency in discerning local patterns. This suggests a potential paradigm shift, signaling the use of game-specific structures to reshape self-play reinforcement learning.
翻訳日:2023-11-23 14:51:29 公開日:2023-11-22
# 継続的統合のための機械学習に基づくテストケース優先順位付けの再検討

Revisiting Machine Learning based Test Case Prioritization for Continuous Integration ( http://arxiv.org/abs/2311.13413v1 )

ライセンス: Link先を確認
Yifan Zhao, Dan Hao, Lu Zhang(参考訳) 継続的インテグレーション(CI)における回帰テストのコストを軽減するため、機械学習ベースの(MLベースの)テストケース優先順位付け技術が多数提案されている。 しかし、異なるメトリクスを持つ異なるデータセットで評価されるため、同じ実験的な設定でどのように実行されるのかは不明だ。 このギャップを埋めるために,本稿では,これらのMLに基づく手法の総合的研究を行う。 本研究では,11名のオープンソース被験者を対象に,11名の代表的MLベースのCI優先化手法の性能について検討し,一連の知見を得た。 例えば、CIサイクルを通じてテクニックのパフォーマンスが変わり、主にコードの進化やテストの削除/追加ではなく、トレーニングデータの量の変化による。 本研究は,MLに基づく手法の有効性を高めるための実用的な提案である。例えば,クロスオブジェクトデータを用いた優先順位付け手法を事前学習して,徹底的にトレーニングし,イントラオブジェクトデータで微調整することで,その性能が劇的に向上する。 特に、事前訓練されたMARTは最先端のパフォーマンスを達成し、80%の被験者に対して最適なシーケンスを生成する一方、既存の最良の技術であるMARTは50%の被験者に対してのみ最適なシーケンスを生成する。

To alleviate the cost of regression testing in continuous integration (CI), a large number of machine learning-based (ML-based) test case prioritization techniques have been proposed. However, it is yet unknown how they perform under the same experimental setup, because they are evaluated on different datasets with different metrics. To bridge this gap, we conduct the first comprehensive study on these ML-based techniques in this paper. We investigate the performance of 11 representative ML-based prioritization techniques for CI on 11 open-source subjects and obtain a series of findings. For example, the performance of the techniques changes across CI cycles, mainly resulting from the changing amount of training data, instead of code evolution and test removal/addition. Based on the findings, we give some actionable suggestions on enhancing the effectiveness of ML-based techniques, e.g., pretraining a prioritization technique with cross-subject data to get it thoroughly trained and then finetuning it with within-subject data dramatically improves its performance. In particular, the pretrained MART achieves state-of-the-art performance, producing the optimal sequence on 80% subjects, while the existing best technique, the original MART, only produces the optimal sequence on 50% subjects.
翻訳日:2023-11-23 14:51:08 公開日:2023-11-22
# CompenHR:高分解能プロジェクタの効率的な完全補償

CompenHR: Efficient Full Compensation for High-resolution Projector ( http://arxiv.org/abs/2311.13409v1 )

ライセンス: Link先を確認
Yuxi Wang, Haibin Ling, Bingyao Huang(参考訳) プロジェクター補償はプロジェクターカメラシステムの実用的なタスクである。 プロジェクターの入力画像である補償画像を見つけることを目的としており、プロジェクターが投影されると物理的環境やハードウェアによる幾何学的および測光的歪みがキャンセルされる。 最先端の手法では、ディープラーニングを使用してこの問題に対処し、低解像度設定で有望なパフォーマンスを示す。 しかしながら、高分解能設定にディープラーニングを直接適用することは、長いトレーニング時間と高いメモリコストのため、現実的ではない。 この問題に対処するため,本論文では,実用的な完全補償ソリューションを提案する。 まず,幾何学的補正の質を向上させるために,注意に基づくグリッドリファインメントネットワークを設計する。 次に,新しいサンプリング方式をエンドツーエンド補償ネットワークに統合し,計算の軽減と注意ブロックの導入により重要な特徴の保存を行う。 最後に,高分解能プロジェクタフル補償のためのベンチマークデータセットを構築した。 実験では,効率と品質の両面で明らかな優位性を示す。

Full projector compensation is a practical task of projector-camera systems. It aims to find a projector input image, named compensation image, such that when projected it cancels the geometric and photometric distortions due to the physical environment and hardware. State-of-the-art methods use deep learning to address this problem and show promising performance for low-resolution setups. However, directly applying deep learning to high-resolution setups is impractical due to the long training time and high memory cost. To address this issue, this paper proposes a practical full compensation solution. Firstly, we design an attention-based grid refinement network to improve geometric correction quality. Secondly, we integrate a novel sampling scheme into an end-to-end compensation network to alleviate computation and introduce attention blocks to preserve key features. Finally, we construct a benchmark dataset for high-resolution projector full compensation. In experiments, our method demonstrates clear advantages in both efficiency and quality.
翻訳日:2023-11-23 14:50:46 公開日:2023-11-22
# Stern-Gerlachスピン測定におけるZig-zagダイナミクス

Zig-zag dynamics in a Stern-Gerlach spin measurement ( http://arxiv.org/abs/2311.13406v1 )

ライセンス: Link先を確認
Simon Krekels, Christian Maes, Kasper Meerts, Ward Struyve(参考訳) 1世紀のStern-Gerlachセットアップは、量子測定のパラダイムである。 ボヘミアのジグザグ力学に従って電子軌道を可視化する。 この動力学は、粒子の基本的な質量を持たない性質(ブラウト・エングラート・ヒッグス機構から生じる質量)に対処するために開発された。 対応する軌道は、左利きと右利きのカイラルワイル状態のカップリングの結果、確率的ジグザギングを示す。 このジグザゲングは、ここで考慮すべき非相対論的極限に留まり、非一様外部磁場に対するパウリ方程式を記述する。 本研究は,Stern-Gerlach セットアップにおいて,波動関数の特性としての「スピン」とランダム変数としての「スピン」の異なる意味を明らかにし,有効崩壊の概念を明らかにした。 EPRペアの症例についても検討した。 絡み合った粒子の一方がスターン・ゲルラッハ装置を通過させることで、他の粒子に対する非局所的な影響(作用-アット-ア-距離)が、例えばジグザギングを開始することによってその軌道に現れる。

The one-century-old Stern-Gerlach setup is paradigmatic for a quantum measurement. We visualize the electron trajectories following the Bohmian zig-zag dynamics. This dynamics was developed in order to deal with the fundamentally massless nature of particles (with mass emerging from the Brout-Englert-Higgs mechanism). The corresponding trajectories exhibit a stochastic zig-zagging, as the result of the coupling between left- and right-handed chiral Weyl states. This zig-zagging persists in the non-relativistic limit, which will be considered here, and which is described the Pauli equation for a nonuniform external magnetic field. Our results clarify the different meanings of "spin" as a property of the wave function and as a random variable in the Stern-Gerlach setup, and they illustrate the notion of effective collapse. We also examine the case of an EPR-pair. By letting one of the entangled particles pass through a Stern-Gerlach device, the nonlocal influence (action-at-a-distance) on the other particle is manifest in its trajectory, e.g. by initiating its zig-zagging.
翻訳日:2023-11-23 14:50:30 公開日:2023-11-22
# 人体運動の高忠実合成のためのアニマタブルな3次元ガウス

Animatable 3D Gaussians for High-fidelity Synthesis of Human Motions ( http://arxiv.org/abs/2311.13404v1 )

ライセンス: Link先を確認
Keyang Ye, Tianjia Shao, Kun Zhou(参考訳) 本稿では,高忠実度自由視人間の動きをリアルタイムに再現する,新しい3次元ガウスモデルを提案する。 既存のNeRF方式と比較して、このモデルはビデオフレーム間のジッタリング問題なく高周波の詳細を合成する能力が優れている。 我々のモデルの中核は、学習可能なコードで各ガウスをアタッチする、新しい3Dガウス表現である。 学習可能なコードは、ガウスの幾何学的変換によって生じる誤った外観を精錬するためのポーズ依存的外観埋め込みとして機能する。 ガウス人に対し,背景干渉を伴わずに前景の人間を学習させるため,人体内でガウス人を明確に拘束する新たなアルファロスをデザインする。 また,人間の関節パラメータを共同で最適化し,外観精度を向上させることを提案する。 アニマタブルな3Dガウスモデルは浅いMPPで学習できるので、新しい人間の動きをリアルタイムで合成することができる(66 fps/avarage)。 実験により,本モデルはNeRF法よりも優れた性能を示した。

We present a novel animatable 3D Gaussian model for rendering high-fidelity free-view human motions in real time. Compared to existing NeRF-based methods, the model owns better capability in synthesizing high-frequency details without the jittering problem across video frames. The core of our model is a novel augmented 3D Gaussian representation, which attaches each Gaussian with a learnable code. The learnable code serves as a pose-dependent appearance embedding for refining the erroneous appearance caused by geometric transformation of Gaussians, based on which an appearance refinement model is learned to produce residual Gaussian properties to match the appearance in target pose. To force the Gaussians to learn the foreground human only without background interference, we further design a novel alpha loss to explicitly constrain the Gaussians within the human body. We also propose to jointly optimize the human joint parameters to improve the appearance accuracy. The animatable 3D Gaussian model can be learned with shallow MLPs, so new human motions can be synthesized in real time (66 fps on avarage). Experiments show that our model has superior performance over NeRF-based methods.
翻訳日:2023-11-23 14:50:10 公開日:2023-11-22
# ファウショット画像における3次元ガウス平滑化の深さ正規化最適化

Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images ( http://arxiv.org/abs/2311.13398v1 )

ライセンス: Link先を確認
Jaeyoung Chung, Jeongtaek Oh, and Kyoung Mu Lee(参考訳) 本稿では,過剰適合を回避しつつ,限られた画像数でガウススプラッティングを最適化する方法を提案する。 多数のガウススプラットを組み合わせることで3Dシーンを表現することで、目立った視覚的品質が得られる。 しかし、少数の画像しか利用できない場合、トレーニングビューは過度に適合する傾向にある。 この問題に対処するため,オーバーフィッティングを緩和するための幾何ガイドとして深度マップを導入する。 事前学習した単眼深度推定モデルを用いて深度マップを求め,スパースコルマップ特徴点を用いたスケールとオフセットの調整を行った。 調整された深度は、3Dガウススプラッティングのカラーベース最適化、浮動小道具の緩和、幾何学的制約の遵守を保証する。 提案手法は,NeRF-LLFFデータセット上で,少ない画像数で検証する。 本手法は,画像のみに依存する元の手法と比較してロバストな形状を示す。

In this paper, we present a method to optimize Gaussian splatting with a limited number of images while avoiding overfitting. Representing a 3D scene by combining numerous Gaussian splats has yielded outstanding visual quality. However, it tends to overfit the training views when only a small number of images are available. To address this issue, we introduce a dense depth map as a geometry guide to mitigate overfitting. We obtained the depth map using a pre-trained monocular depth estimation model and aligning the scale and offset using sparse COLMAP feature points. The adjusted depth aids in the color-based optimization of 3D Gaussian splatting, mitigating floating artifacts, and ensuring adherence to geometric constraints. We verify the proposed method on the NeRF-LLFF dataset with varying numbers of few images. Our approach demonstrates robust geometry compared to the original method that relies solely on images.
翻訳日:2023-11-23 14:49:50 公開日:2023-11-22
# グラフニューラルネットワークとショット学習による有毒分子分類のベンチマーク

Benchmarking Toxic Molecule Classification using Graph Neural Networks and Few Shot Learning ( http://arxiv.org/abs/2311.13490v1 )

ライセンス: Link先を確認
Bhavya Mehta, Kush Kothari, Reshmika Nambiar, Seema Shrawne(参考訳) グラフ畳み込みネットワーク(gcns)のような従来の手法は、限られたデータとクラス不均衡で問題に直面し、分子全体の毒性予測においてグラフ分類タスクの最適性能を低下させる。 これらの問題に対処するために、我々は、分子の構造データとその毒性特性を正確に捉えるために、グラフ同型ネットワーク、多方向注意、およびグラフに別々に大規模な敵意拡張の力を利用する。 さらに、Few-Shot Learningを導入し、限られた注釈付きサンプルを用いてモデルの一般化を改善する。 各種毒性学データセットの広範囲な実験により,本手法は最先端のAUC-ROC値0.816を達成し,ベースラインGCNモデルを11.4%上回る結果となった。 本研究は, 毒性分子分類の進歩における提案手法とFew Shot Learningの重要性を強調し, 薬物発見と環境リスク評価のプロセスを強化する可能性を示した。

Traditional methods like Graph Convolutional Networks (GCNs) face challenges with limited data and class imbalance, leading to suboptimal performance in graph classification tasks during toxicity prediction of molecules as a whole. To address these issues, we harness the power of Graph Isomorphic Networks, Multi Headed Attention and Free Large-scale Adversarial Augmentation separately on Graphs for precisely capturing the structural data of molecules and their toxicological properties. Additionally, we incorporate Few-Shot Learning to improve the model's generalization with limited annotated samples. Extensive experiments on a diverse toxicology dataset demonstrate that our method achieves an impressive state-of-art AUC-ROC value of 0.816, surpassing the baseline GCN model by 11.4%. This highlights the significance of our proposed methodology and Few Shot Learning in advancing Toxic Molecular Classification, with the potential to enhance drug discovery and environmental risk assessment processes.
翻訳日:2023-11-23 14:42:55 公開日:2023-11-22
# 深層学習による脳腫瘍患者の放射線治療計画のためのMRIの加速

Deep-learning-based acceleration of MRI for radiotherapy planning of pediatric patients with brain tumors ( http://arxiv.org/abs/2311.13485v1 )

ライセンス: Link先を確認
Shahinur Alam, Jinsoo Uh, Alexander Dresner, Chia-ho Hua, and Khaled Khairy(参考訳) MRI(Magnetic Resonance Imaging)は非侵襲的な診断・放射線治療(RT)計画ツールであり、人体の解剖学に関する詳細な知見を提供する。 広範囲にわたるスキャン時間は、画像アーティファクトの減少を優先する長期の撮像手順において、動かない患者にとってストレスを伴う。 麻酔などの随意運動を管理するための措置を必要とする小児患者にとって、これは困難である。 いくつかの計算手法はスキャン時間(高速MRI)を減らし、測定回数を減らし、取得後の再構築を通じて全情報をデジタル的に復元する。 しかし、ほとんどの高速mriアプローチはrt計画に特有の再構成課題に対処せずに診断イメージングのために開発された。 本研究では,RT固有のレシーバコイルアライメントで取得したアンダーサンプルデータからMRI再構成のためのディープラーニングベース手法(DeepMRIRec)を開発した。 脳腫瘍・手術床症例73例のT1強調MR画像の完全サンプリングデータについて,ループおよび後部コイル(12チャンネル)を用いて検討し,コイル要素の仮想圧縮を行なわずに検討した。 DeepMRIRecは、評価された最先端法(0.960 vs 0.896)を超える構造類似度スコアを4倍に削減し、RT計画のためのMRIスキャンの高速化の可能性を示した。

Magnetic Resonance Imaging (MRI) is a non-invasive diagnostic and radiotherapy (RT) planning tool, offering detailed insights into the anatomy of the human body. The extensive scan time is stressful for patients, who must remain motionless in a prolonged imaging procedure that prioritizes reduction of imaging artifacts. This is challenging for pediatric patients who may require measures for managing voluntary motions such as anesthesia. Several computational approaches reduce scan time (fast MRI), by recording fewer measurements and digitally recovering full information via post-acquisition reconstruction. However, most fast MRI approaches were developed for diagnostic imaging, without addressing reconstruction challenges specific to RT planning. In this work, we developed a deep learning-based method (DeepMRIRec) for MRI reconstruction from undersampled data acquired with RT-specific receiver coil arrangements. We evaluated our method against fully sampled data of T1-weighted MR images acquired from 73 children with brain tumors/surgical beds using loop and posterior coils (12 channels), with and without applying virtual compression of coil elements. DeepMRIRec reduced scanning time by a factor of four producing a structural similarity score surpassing the evaluated state-of-the-art method (0.960 vs 0.896), thereby demonstrating its potential for accelerating MRI scanning for RT planning.
翻訳日:2023-11-23 14:42:38 公開日:2023-11-22
# 射影的トーリック設計、差集合、量子状態設計

Projective toric designs, difference sets, and quantum state designs ( http://arxiv.org/abs/2311.13479v1 )

ライセンス: Link先を確認
Joseph T. Iosue, T. C. Mooney, Adam Ehrenberg, Alexey V. Gorshkov(参考訳) 次数$t$の三角法キューバチャー規則はトーラス上の点の集合であり、トーラス全体上の次数$t$モノミアルの積分を総和で再現する。 トーラスの$t$-designsと考えることができる。 量子力学の射影構造に動機づけられた私たちは、射影トーラス上の$t$-designsという概念を開発し、驚くべきことに、完全なトーラス上のそれよりもはるかに制限された構造を持つ。 これらの射影トーリック設計の様々な構成を提供し、その大きさと特徴についていくつかの限界を証明している。 我々は、射影トーリック設計と、加法的コンビネータの分野からの差分とシドン集合、対称的で情報的に完備な正の作用素値測度(SIC-POVM)、量子情報理論から相互に偏りのない基底(MUB)の完全集合(有限射影幾何学に関係していると推測される)、および特定の根格子の結晶球列を含む様々な数学的対象との接続を描いている。 これらの接続を用いることで、密閉な $b_t \bmod m$ 集合の最大サイズの境界を証明できる。 また、射影トーリック設計を用いて量子状態設計のファミリを構築する。 最後に、これらの射影トーリック設計の性質や、数論、幾何学、量子情報における他の問題との関係について、多くのオープンな疑問を議論する。

Trigonometric cubature rules of degree $t$ are sets of points on the torus over which sums reproduce integrals of degree $t$ monomials over the full torus. They can be thought of as $t$-designs on the torus. Motivated by the projective structure of quantum mechanics, we develop the notion of $t$-designs on the projective torus, which, surprisingly, have a much more restricted structure than their counterparts on full tori. We provide various constructions of these projective toric designs and prove some bounds on their size and characterizations of their structure. We draw connections between projective toric designs and a diverse set of mathematical objects, including difference and Sidon sets from the field of additive combinatorics, symmetric, informationally complete positive operator valued measures (SIC-POVMs) and complete sets of mutually unbiased bases (MUBs) (which are conjectured to relate to finite projective geometry) from quantum information theory, and crystal ball sequences of certain root lattices. Using these connections, we prove bounds on the maximal size of dense $B_t \bmod m$ sets. We also use projective toric designs to construct families of quantum state designs. Finally, we discuss many open questions about the properties of these projective toric designs and how they relate to other questions in number theory, geometry, and quantum information.
翻訳日:2023-11-23 14:42:15 公開日:2023-11-22
# ターゲット言語の形式的特徴を制御するための機械翻訳

Machine Translation to Control Formality Features in the Target Language ( http://arxiv.org/abs/2311.13475v1 )

ライセンス: Link先を確認
Harshita Tyagi, Prashasta Jung, Hyowon Lee(参考訳) 形式性は言語コミュニケーションにおいて特にヒンディー語、日本語、韓国語などの低リソース言語において重要な役割を果たす。 これらの言語は、社会的文脈と関係に基づくメッセージ伝達のために、形式的および非公式な表現を利用する。 形式性(英語など)を含まないソース言語から対象言語に翻訳するために言語翻訳技術を使用する場合、正確な結果を生み出す上での課題となる形式性に関する情報が欠落している。 本研究は、Hindiを例として用いて、英語から形式のある言語への翻訳に機械学習を用いる場合、この問題をどのように解決すべきかを考察する。 これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を同様の設定で事前訓練された多言語モデルと比較することで実現された。 地上の真実に関するトレーニングデータはあまりないため、データサイズを増やすために自動アノテーション技術が採用された。 主要なモデリングアプローチは、様々な自然言語処理タスクで有効性を示すトランスフォーマーモデルを活用することであった。 予測されたマスクトークンと基底真理を比較することにより,公式な形式精度(ACC)を評価する。 この計量は、翻訳が所望の出力とどのように合致するかを定量的に測定する。 本研究は,目的言語における形式性のニュアンスを考慮し,多様な言語コミュニケーションニーズとシナリオに対応する汎用翻訳戦略を示す。

Formality plays a significant role in language communication, especially in low-resource languages such as Hindi, Japanese and Korean. These languages utilise formal and informal expressions to convey messages based on social contexts and relationships. When a language translation technique is used to translate from a source language that does not pertain the formality (e.g. English) to a target language that does, there is a missing information on formality that could be a challenge in producing an accurate outcome. This research explores how this issue should be resolved when machine learning methods are used to translate from English to languages with formality, using Hindi as the example data. This was done by training a bilingual model in a formality-controlled setting and comparing its performance with a pre-trained multilingual model in a similar setting. Since there are not a lot of training data with ground truth, automated annotation techniques were employed to increase the data size. The primary modeling approach involved leveraging transformer models, which have demonstrated effectiveness in various natural language processing tasks. We evaluate the official formality accuracy(ACC) by comparing the predicted masked tokens with the ground truth. This metric provides a quantitative measure of how well the translations align with the desired outputs. Our study showcases a versatile translation strategy that considers the nuances of formality in the target language, catering to diverse language communication needs and scenarios.
翻訳日:2023-11-23 14:41:43 公開日:2023-11-22
# 最も単純なシナリオで非古典性を目撃する別の頑健な方法

Alternative robust ways of witnessing nonclassicality in the simplest scenario ( http://arxiv.org/abs/2311.13474v1 )

ライセンス: Link先を確認
Massy Khoshbin, Lorenzo Catani, Matthew Leifer(参考訳) この研究は、最も単純な非自明なシナリオ(4つの準備と2つのバイナリアウトカムトモグラフィー完全測定からなる準備と測定のシナリオ)における非古典性の概念を関連づける。 具体的には,[pusey, pra 98,022112(2018)]で開発された確立された手法を,[chaturvedi and saha, quantum 4, 345 (2020)] で定義される準備の有界な存在論的識別性の概念に基づく新しいアプローチにより,テスト対象の操作等価性が事前に特定される実験には適さない,非文脈性違反を目撃するために関連付ける。 提案手法では,特定の情報処理タスクに関連する2つの準備条件に対して,通信するビットの偶数パリティと奇数パリティに関連があることを検証した。 この距離が保存される存在論的モデルが存在する場合、パリティ保存について述べる。 本研究の主な結果は、パリティ保存(およびその有界な存在論的識別性)に違反するノイズ閾値であり、最も単純な非自明なシナリオにおいて、準備文脈性を確認するための確立された方法に一致する。 これは、まずパリティ保存の違反と、[Marvian, arXiv:2003.05984(2020)]で展開された到達不能情報の観点からの文脈性の定量化を関連づけることで達成される。 本研究の応用として,ノイズの有無で2ビットパリティ多重化を施行した症例を報告する。 特に、ノイズのない場合において、プロトコルの量子的優位性のためのリソースとして準備条件を確立する結果が、ノイズのない場合においても引き続き成立する条件を提供する。

In this work we relate notions of nonclassicality in the simplest nontrivial scenario (a prepare and measure scenario composed of four preparations and two binary-outcome tomographically complete measurements). Specifically, we relate the established method developed in [Pusey, PRA 98,022112(2018)] to witness a violation of preparation noncontextuality, that is not suitable in experiments where the operational equivalences to be tested are specified in advance, with a novel approach based on the notion of bounded ontological distinctness for preparations, defined in [Chaturvedi and Saha, Quantum 4, 345 (2020)]. In our approach, we test bounded ontological distinctness for two particular preparations that are relevant in certain information processing tasks in that they are associated with the even and odd parity of the bits to communicate. When there exists an ontological model where this distance is preserved we talk of parity preservation. Our main result provides a noise threshold under which violating parity preservation (and so bounded ontological distinctness) agrees with the established method for witnessing preparation contextuality in the simplest nontrivial scenario. This is achieved by first relating the violation of parity preservation to the quantification of contextuality in terms of inaccessible information as developed in [Marvian, arXiv:2003.05984(2020)], that we also show, given the way we quantify noise, to be more robust in witnessing contextuality than Pusey's noncontextuality inequality. As an application of our findings, we treat the case of 2 bit parity-oblivious multiplexing in the presence of noise. In particular, we provide a condition for which the result establishing preparation contextuality as a resource for the quantum advantage of the protocol in the noiseless case still holds in the noisy case.
翻訳日:2023-11-23 14:41:20 公開日:2023-11-22
# テキストグラフのための複雑誘導型カリキュラム学習

Complexity-Guided Curriculum Learning for Text Graphs ( http://arxiv.org/abs/2311.13472v1 )

ライセンス: Link先を確認
Nidhi Vakil, Hadi Amiri(参考訳) カリキュラム学習は、トレーニングに対する体系的なアプローチを提供する。 トレーニングを段階的に洗練し、タスク要件に合わせてトレーニングを調整し、さまざまな例への露出による一般化を改善します。 本稿では,テキストグラフデータを用いた学習のためのテキストおよびグラフ複雑性形式に関する既存の知識に基づくカリキュラム学習手法を提案する。 このアプローチの中核となるのは、トレーニングプロセスのガイドに"空間的反復"と複雑性形式を採用した、新しいデータスケジューラです。 いくつかのテキストグラフタスクとグラフニューラルネットワークアーキテクチャにおける提案手法の有効性を示す。 トレーニングを通じてグラフ複雑性指標よりもテキストを好む一方で、テキストとグラフ複雑性指標から派生した最高のカリキュラムは等しく有効であり、gnnモデルとデータセット間で転送可能なカリキュラムを学習する。 さらに、ノードレベル(ローカル)とグラフレベル(グローバル)のグラフ複雑性指標と、浅いテキスト複雑性指標と従来のテキスト複雑性指標の両方が、効果的なカリキュラム学習において重要な役割を果たすことが分かりました。

Curriculum learning provides a systematic approach to training. It refines training progressively, tailors training to task requirements, and improves generalization through exposure to diverse examples. We present a curriculum learning approach that builds on existing knowledge about text and graph complexity formalisms for training with text graph data. The core part of our approach is a novel data scheduler, which employs "spaced repetition" and complexity formalisms to guide the training process. We demonstrate the effectiveness of the proposed approach on several text graph tasks and graph neural network architectures. The proposed model gains more and uses less data; consistently prefers text over graph complexity indices throughout training, while the best curricula derived from text and graph complexity indices are equally effective; and it learns transferable curricula across GNN models and datasets. In addition, we find that both node-level (local) and graph-level (global) graph complexity indices, as well as shallow and traditional text complexity indices play a crucial role in effective curriculum learning.
翻訳日:2023-11-23 14:40:41 公開日:2023-11-22
# CT不動産購入決定のための線形回帰, ガウス除去, LU分解の比較解析

Comparative Analysis of Linear Regression, Gaussian Elimination, and LU Decomposition for CT Real Estate Purchase Decisions ( http://arxiv.org/abs/2311.13471v1 )

ライセンス: Link先を確認
Xilin Cheng(参考訳) 本稿では,不動産購入の意思決定プロセスに適用される3つの異なる計算アルゴリズムの包括的評価を行う。 具体的には,scikit-learnライブラリからの線形回帰,部分的ピボットによるガウス除去,lu分解の効果を,財政的および市場関連パラメータに基づいてコネチカット州における住宅購入の可否を予測した。 アルゴリズムのパフォーマンスは、都市固有の詳細、年次データ、利子率、中央値の販売比率を含むデータセットを用いて比較された。 その結果,線形回帰とLU分解は最も信頼性の高いレコメンデーションを提供し,ガウス除去は安定性と性能の限界を示した。 この研究は、予測分析におけるアルゴリズムの選択の重要性を強調し、不動産投資戦略における計算手法の実践的応用に関する洞察を提供する。 R-二乗スコアや平均二乗誤差などの指標を用いてモデルの有効性を評価することにより、各手法の強みと弱みを微妙に理解し、不動産分析や予測モデリングの分野に貴重な知識を提供する。

This paper presents a comprehensive evaluation of three distinct computational algorithms applied to the decision-making process of real estate purchases. Specifically, we analyze the efficacy of Linear Regression from Scikit-learn library, Gaussian Elimination with partial pivoting, and LU Decomposition in predicting the advisability of buying a house in the State of Connecticut based on a set of financial and market-related parameters. The algorithms' performances were compared using a dataset encompassing town-specific details, yearly data, interest rates, and median sale ratios. Our results demonstrate significant differences in predictive accuracy, with Linear Regression and LU Decomposition providing the most reliable recommendations and Gaussian Elimination showing limitations in stability and performance. The study's findings emphasize the importance of algorithm selection in predictive analytic and offer insights into the practical applications of computational methods in real estate investment strategies. By evaluating model efficacy through metrics such as R-squared scores and Mean Squared Error, we provide a nuanced understanding of each method's strengths and weaknesses, contributing valuable knowledge to the fields of real estate analysis and predictive modeling.
翻訳日:2023-11-23 14:40:23 公開日:2023-11-22
# 平均報酬mdpのためのスパンベース最適サンプル複雑性

Span-Based Optimal Sample Complexity for Average Reward MDPs ( http://arxiv.org/abs/2311.13469v1 )

ライセンス: Link先を確認
Matthew Zurek, Yudong Chen(参考訳) 平均回帰マルコフ決定過程 (mdp) において,$\varepsilon$-optimal ポリシーを生成モデルで学習するサンプル複雑性について検討した。 我々は、$\widetilde{O}\left(SA\frac{H}{\varepsilon^2} \right)$, ここで、$H$は最適ポリシーのバイアス関数のスパンであり、$SA$は状態-作用空間の濃度である。 我々の結果は、すべてのパラメータにおいて(ログファクタまで)最小値の最大値である$S,A,H$および$\varepsilon$で、すべてのポリシーに対して一様に有界な混合時間を仮定する既存の作業を改善するか、パラメータに最適に依存するかのいずれかである。 本結果は, 平均再帰型MDPを, 割引型MDPに還元することに基づく。 この削減の最適性を確立するために、$\widetilde{O}\left(SA\frac{H}{(1-\gamma)^2\varepsilon^2} \right)$サンプルが$\varepsilon$-optimal policyを学習するのに十分であることを示す$\gamma$-discounted MDPsに対する改善されたバウンダリを開発し、$\widetilde{\Omega}\left(SA\frac{1}{(1-\gamma)^3\varepsilon^2} \right)のよく知られた下限を回避した。 分析では,スパンパラメータの観点から,特定のインスタンス依存分散パラメータの上限を求める。 これらの境界は、MDPの混合時間や直径に基づくものよりも厳密であり、より広い用途がある可能性がある。

We study the sample complexity of learning an $\varepsilon$-optimal policy in an average-reward Markov decision process (MDP) under a generative model. We establish the complexity bound $\widetilde{O}\left(SA\frac{H}{\varepsilon^2} \right)$, where $H$ is the span of the bias function of the optimal policy and $SA$ is the cardinality of the state-action space. Our result is the first that is minimax optimal (up to log factors) in all parameters $S,A,H$ and $\varepsilon$, improving on existing work that either assumes uniformly bounded mixing times for all policies or has suboptimal dependence on the parameters. Our result is based on reducing the average-reward MDP to a discounted MDP. To establish the optimality of this reduction, we develop improved bounds for $\gamma$-discounted MDPs, showing that $\widetilde{O}\left(SA\frac{H}{(1-\gamma)^2\varepsilon^2} \right)$ samples suffice to learn a $\varepsilon$-optimal policy in weakly communicating MDPs under the regime that $\gamma \geq 1 - \frac{1}{H}$, circumventing the well-known lower bound of $\widetilde{\Omega}\left(SA\frac{1}{(1-\gamma)^3\varepsilon^2} \right)$ for general $\gamma$-discounted MDPs. Our analysis develops upper bounds on certain instance-dependent variance parameters in terms of the span parameter. These bounds are tighter than those based on the mixing time or diameter of the MDP and may be of broader use.
翻訳日:2023-11-23 14:40:01 公開日:2023-11-22
# タンパク質構造の潜在表現を伴う分子拡散モデルにおける加速推論

Accelerating Inference in Molecular Diffusion Models with Latent Representations of Protein Structure ( http://arxiv.org/abs/2311.13466v1 )

ライセンス: Link先を確認
Ian Dunn, David Ryan Koes(参考訳) 拡散生成モデルは、構造生物学と構造に基づく薬物設計の問題に対処するための強力な枠組みとして登場した。 これらのモデルは直接3次元分子構造で動作する。 グラフサイズを持つグラフニューラルネットワーク(GNN)のスケーリングが好ましくないことや、拡散モデル固有の比較的遅い推論速度のため、既存の分子拡散モデルは、トレーニングと推論を可能にするためにタンパク質構造の粗い粒度の表現に依存している。 しかし、そのような粗い粒度の表現は分子相互作用のモデル化に必要な情報を破棄し、生成した構造の品質を損なう。 本稿では,分子構造の潜在表現を学習するための新しいGNNアーキテクチャを提案する。 デ・ノボ・リガンド設計のための拡散モデルを用いてエンドツーエンドの訓練を行った場合、このモデルは、推論時間の3倍の減少を示しながら、全原子タンパク質の表現に匹敵する性能を発揮する。

Diffusion generative models have emerged as a powerful framework for addressing problems in structural biology and structure-based drug design. These models operate directly on 3D molecular structures. Due to the unfavorable scaling of graph neural networks (GNNs) with graph size as well as the relatively slow inference speeds inherent to diffusion models, many existing molecular diffusion models rely on coarse-grained representations of protein structure to make training and inference feasible. However, such coarse-grained representations discard essential information for modeling molecular interactions and impair the quality of generated structures. In this work, we present a novel GNN-based architecture for learning latent representations of molecular structure. When trained end-to-end with a diffusion model for de novo ligand design, our model achieves comparable performance to one with an all-atom protein representation while exhibiting a 3-fold reduction in inference time.
翻訳日:2023-11-23 14:39:00 公開日:2023-11-22
# 初期のビデオゲームスタートアップにおける実験:実践と課題

Experimentation in Early-Stage Video Game Startups: Practices and Challenges ( http://arxiv.org/abs/2311.13462v1 )

ライセンス: Link先を確認
Henry Edison and Jorge Melegati and Elizabeth Bjarnason(参考訳) 実験は、ビデオゲームのスタートアップを含むソフトウェア製品とビジネス開発の成功に不可欠であると考えられてきた。 ビデオゲームのスタートアップは、競争相手と区別する「うわさ」特性を必要としている。 したがって、時間とリソースを使い果たす前に、これらの品質を見つけるために継続的に実験する必要がある。 本研究では,これらの企業が実験を行う方法を検討することを目的とした。 私たちはビデオゲームスタートアップの4人の共同創業者にインタビューした。 そこで本研究では,ゲームスタートアップがこれらに関連する実験と課題を行う6つのプラクティス,あるいはシナリオを特定した。 最初の結果は、これらのスタートアップにその可能性と課題を知らせ、将来の研究を導くだろう。

Experimentation has been considered critical for successful software product and business development, including in video game startups. Video game startups need "wow" qualities that distinguish them from the competition. Thus, they need to continuously experiment to find these qualities before running out of time and resources. In this study, we aimed to explore how these companies perform experimentation. We interviewed four co-founders of video game startups. Our findings identify six practices, or scenarios, through which video game startups conduct experiments and challenges associated with these. The initial results could inform these startups about the possibilities and challenges and guide future research.
翻訳日:2023-11-23 14:38:43 公開日:2023-11-22
# 能動選好学習を用いた多目的ベイズ最適化

Multi-Objective Bayesian Optimization with Active Preference Learning ( http://arxiv.org/abs/2311.13460v1 )

ライセンス: Link先を確認
Ryota Ozaki, Kazuki Ishikawa, Youhei Kanzaki, Shinya Suzuki, Shion Takeno, Ichiro Takeuchi, Masayuki Karasuyama(参考訳) 複数の基準を同時に最適化する必要がある現実のブラックボックス最適化には多くの問題がある。 しかし、多目的最適化(moo)問題では、paretoの前線全体を特定するには探索コストがかかるが、多くの実用的なシナリオでは、意思決定者(dm)はparetoの最適解のセットの中で特定の解のみを必要とする。 本稿では,mooにおける最も望ましい解を高価な目的関数で同定するベイズ最適化(bo)手法を提案し,dmのベイズ選好モデルは,ペアワイズ選好改善要求と呼ばれる2つの監督に基づく対話的手法により適応的に推定される。 最も望ましい解決策を探るために、目的関数とdmの好みの両方に不確実性が組み込まれている取得関数を定義する。 さらに,DMとの相互作用コストを最小限に抑えるため,選好推定のための能動的学習戦略を提案する。 ベンチマーク関数最適化と機械学習モデルのハイパーパラメータ最適化問題を用いて,提案手法の有効性を実証的に実証する。

There are a lot of real-world black-box optimization problems that need to optimize multiple criteria simultaneously. However, in a multi-objective optimization (MOO) problem, identifying the whole Pareto front requires the prohibitive search cost, while in many practical scenarios, the decision maker (DM) only needs a specific solution among the set of the Pareto optimal solutions. We propose a Bayesian optimization (BO) approach to identifying the most preferred solution in the MOO with expensive objective functions, in which a Bayesian preference model of the DM is adaptively estimated by an interactive manner based on the two types of supervisions called the pairwise preference and improvement request. To explore the most preferred solution, we define an acquisition function in which the uncertainty both in the objective functions and the DM preference is incorporated. Further, to minimize the interaction cost with the DM, we also propose an active learning strategy for the preference estimation. We empirically demonstrate the effectiveness of our proposed method through the benchmark function optimization and the hyper-parameter optimization problems for machine learning models.
翻訳日:2023-11-23 14:38:33 公開日:2023-11-22
# テンパー付きヒルベルト単純距離とそのtemの非線形埋め込みへの応用

The Tempered Hilbert Simplex Distance and Its Application To Non-linear Embeddings of TEMs ( http://arxiv.org/abs/2311.13459v1 )

ライセンス: Link先を確認
Ehsan Amid, Frank Nielsen, Richard Nock, Manfred K. Warmuth(参考訳) テンパード指数測度(TEMs)は、そのパワー密度の確率正規化の対象となる正の測度の中で、テンパードエントロピー関数を最大化する指数関数列のパラメトリック一般化である。 TEM上の計算は、テンパー付きエントロピーを定義するために使われる変形対数によって誘導される算術演算子の変形代数に依存する。 本研究では、負のテンパー付きエントロピー関数のルジャンドル関数を介して、有限離散TEMの3つの異なるパラメータ化を導入する。 特に、ヒルベルト対数クロス比単純度距離をテンパー付きヒルベルト共相距離に一般化する観点から、そのようなパラメータ化の間の等長性を確立する。 ヒルベルト幾何学と同様に、テンパードヒルベルト距離は向き付けられたテンパードファンク距離の$t$対称性として特徴づけられる。 我々は、タトロジーフィンスラー多様体において滑らかな曲線の$t$長の概念を導入することで、構築を動機付けている。 次に,この一般化構造の性質を異なる設定で示し,機械学習環境での最適化のためのその微分可能近似の質を数値的に検証する。

Tempered Exponential Measures (TEMs) are a parametric generalization of the exponential family of distributions maximizing the tempered entropy function among positive measures subject to a probability normalization of their power densities. Calculus on TEMs relies on a deformed algebra of arithmetic operators induced by the deformed logarithms used to define the tempered entropy. In this work, we introduce three different parameterizations of finite discrete TEMs via Legendre functions of the negative tempered entropy function. In particular, we establish an isometry between such parameterizations in terms of a generalization of the Hilbert log cross-ratio simplex distance to a tempered Hilbert co-simplex distance. Similar to the Hilbert geometry, the tempered Hilbert distance is characterized as a $t$-symmetrization of the oriented tempered Funk distance. We motivate our construction by introducing the notion of $t$-lengths of smooth curves in a tautological Finsler manifold. We then demonstrate the properties of our generalized structure in different settings and numerically examine the quality of its differentiable approximations for optimization in machine learning settings.
翻訳日:2023-11-23 14:38:15 公開日:2023-11-22
# 論理推論のための説明の生成

Generation of Explanations for Logic Reasoning ( http://arxiv.org/abs/2311.13455v1 )

ライセンス: Link先を確認
Yanyi Pu(参考訳) この論文は、法、哲学、人工知能といった様々な領域におけるそれらの関連性を強調し、推論におけるfortioriの議論に発展する。 この研究はgpt-3.5-turboを用いてこれらの議論の分析を自動化し、複雑な推論過程の理解、明確で一貫性のある説明の生成、新しい議論の作成に焦点を当てている。 この方法論は、詳細な推論、解釈、fortiori引数の拡張を含む一連のタスクを含んでいる。 様々な文脈でこれらの議論を慎重に識別し、比較要素を区別し、それらの論理構造に基づいてそれらを分類する。 広範な実験により、gpt-3.5-turboがfortiori引数の正確な検出と分類において直面する課題が明らかになった。 それでもこのモデルは、特に重要なコンポーネントの抽出と基礎となる特性の解釈において、特別なモデルに匹敵する性能を示す。 モデル処理への外部情報の統合は、生成された説明の質を大幅に高める。 さらに、モデルは引数を拡大する上で注目すべき能力を示し、データセットの強化に寄与する。 一定の限界に直面したにもかかわらず、この論文は人工知能と論理的推論の分野に大きな貢献をしている。 新たな方法論を導入し、厳密な評価フレームワークを確立し、自動化論理推論の今後の進歩の舞台となる深い洞察を提供する。 ここで提示された発見と方法論は、複雑な推論タスクにおけるAIの可能性だけでなく、将来の研究開発の領域も強調している。

This thesis delves into a fortiori arguments in deductive reasoning, underscoring their relevance in various domains such as law, philosophy, and artificial intelligence. The research is centred on employing GPT-3.5-turbo to automate the analysis of these arguments, with a focus on understanding intricate reasoning processes, generating clear and coherent explanations, and creating novel arguments. The methodology encompasses a series of tasks including detailed reasoning, interpretation, and the augmentation of a fortiori arguments. It involves meticulously identifying these arguments in diverse contexts, differentiating comparative elements, and categorizing them based on their logical structure. Extensive experiments reveals the challenges encountered by GPT-3.5-turbo in accurately detecting and classifying a fortiori arguments. Nevertheless, the model demonstrates a performance that rivals specialized models, particularly in extracting key components and interpreting underlying properties. The integration of external information into the model's processing significantly elevates the quality of the generated explanations. Additionally, the model exhibits a noteworthy capability in augmenting arguments, thus contributing to the enrichment of the data set. Despite facing certain limitations, this thesis makes significant contributions to the fields of artificial intelligence and logical reasoning. It introduces novel methodologies, establishes a rigorous evaluation framework, and provides deep insights that set the stage for future advancements in automated logical reasoning. The findings and methodologies presented herein not only underscore the potential of AI in complex reasoning tasks but also highlight areas for future research and development.
翻訳日:2023-11-23 14:37:59 公開日:2023-11-22
# 高次元テキスト分類器の説明

Explaining high-dimensional text classifiers ( http://arxiv.org/abs/2311.13454v1 )

ライセンス: Link先を確認
Odelia Melamed, Rich Caruana(参考訳) 説明責任はここ数年で価値あるツールとなり、人間がai誘導の決定をより理解するのに役立つ。 しかし、古典的な説明可能性ツールは、高次元の入力とニューラルネットワークの分類器を考えると、時にはかなり制限される。 ニューラルネットワーク分類器における理論的に証明された高次元特性を用いた新しい説明可能性法を提案する。 その使い方は2つあります。 1)IMDBレビューデータセットの古典的感情分析タスクについて 2) PowerShellスクリプトデータセットのMalware-Detectionタスク。

Explainability has become a valuable tool in the last few years, helping humans better understand AI-guided decisions. However, the classic explainability tools are sometimes quite limited when considering high-dimensional inputs and neural network classifiers. We present a new explainability method using theoretically proven high-dimensional properties in neural network classifiers. We present two usages of it: 1) On the classical sentiment analysis task for the IMDB reviews dataset, and 2) our Malware-Detection task for our PowerShell scripts dataset.
翻訳日:2023-11-23 14:37:36 公開日:2023-11-22
# 最適速度KL条件下での微分プライベート非凸最適化

Differentially Private Non-Convex Optimization under the KL Condition with Optimal Rates ( http://arxiv.org/abs/2311.13447v1 )

ライセンス: Link先を確認
Michael Menart, Enayat Ullah, Raman Arora, Raef Bassily, Crist\'obal Guzm\'an(参考訳) 我々は,(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL)条件を満たす損失に対する個人的経験的リスク最小化(ERM)問題を考察した。 Polyak-{\L}ojasiewicz (PL) 条件はこの条件の特別な場合である。 具体的には、この問題をゼロ集中微分プライバシー(zCDP)の制約の下で研究する。 $\kappa\in[1,2]$と損失関数が十分に大きな領域上でリプシッツで滑らかな場合、$n$がデータセットのサイズであり、$d$が次元である場合、過剰な経験的リスクに基づいて、$\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$が次元であるような分散還元勾配勾配に基づく新しいアルゴリズムを提供する。 さらに,この速度がほぼ最適であることを示す。 もし$\kappa \geq 2$ であり、損失がリプシッツで弱凸であれば、近位点法のプライベート実装で $\tilde{o}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ を達成することができる。 KLパラメータが未知の場合、ノイズ勾配降下アルゴリズムの新たな修正と解析を行い、このアルゴリズムが$\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$を適応的に達成し、$\kappa = 2$とほぼ最適であることを示す。 さらに, kl条件を仮定することなく, 同一勾配降下アルゴリズムは, アルゴリズムの実行中に勾配が十分に大きい場合に, 静止点への高速収束を実現することができることを示した。 具体的には、このアルゴリズムは、リプシッツの静止点を近似することができ、その速度は$\tilde{o}\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)$であり、$\tilde{o}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2}\big)$である。 後者のレートは、分散還元に依存しないメソッドの最もよく知られたレートと一致する。

We study private empirical risk minimization (ERM) problem for losses satisfying the $(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL) condition. The Polyak-{\L}ojasiewicz (PL) condition is a special case of this condition when $\kappa=2$. Specifically, we study this problem under the constraint of $\rho$ zero-concentrated differential privacy (zCDP). When $\kappa\in[1,2]$ and the loss function is Lipschitz and smooth over a sufficiently large region, we provide a new algorithm based on variance reduced gradient descent that achieves the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ on the excess empirical risk, where $n$ is the dataset size and $d$ is the dimension. We further show that this rate is nearly optimal. When $\kappa \geq 2$ and the loss is instead Lipschitz and weakly convex, we show it is possible to achieve the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ with a private implementation of the proximal point method. When the KL parameters are unknown, we provide a novel modification and analysis of the noisy gradient descent algorithm and show that this algorithm achieves a rate of $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$ adaptively, which is nearly optimal when $\kappa = 2$. We further show that, without assuming the KL condition, the same gradient descent algorithm can achieve fast convergence to a stationary point when the gradient stays sufficiently large during the run of the algorithm. Specifically, we show that this algorithm can approximate stationary points of Lipschitz, smooth (and possibly nonconvex) objectives with rate as fast as $\tilde{O}\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)$ and never worse than $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2}\big)$. The latter rate matches the best known rate for methods that do not rely on variance reduction.
翻訳日:2023-11-23 14:37:30 公開日:2023-11-22
# LM-Cocktail: モデルマージによる言語モデルの回復性チューニング

LM-Cocktail: Resilient Tuning of Language Models via Model Merging ( http://arxiv.org/abs/2311.13534v1 )

ライセンス: Link先を確認
Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing(参考訳) 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。 しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。 この問題を克服するために, 微調整モデルが一般の観点で弾力性を維持することを可能にする新しい手法を提案する。 提案手法はモデルマージ(LM-Cocktail)の形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。 LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。 提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。 コードとチェックポイントはhttps://github.com/flagopen/flagembeddingで入手できる。

The pre-trained language models are continually fine-tuned to better support downstream applications. However, this operation may result in significant performance degeneration on general tasks beyond the targeted domain. To overcome this problem, we propose a novel method which enables the fine-tuned model to stay resilient in general perspectives. Our method is conducted in the form of model merging (namely LM-Cocktail), where the fine-tuned language model is merged with the pre-trained base model or the peer models from other domains through weighted average. Despite simplicity, LM-Cocktail is surprisingly effective: the resulted model is able to achieve a strong empirical performance in the whole scope of general tasks while preserving a superior capacity in its targeted domain. We conduct comprehensive experiments with LLama and BGE model on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the efficacy of our proposed method. The code and checkpoints are available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2023-11-23 14:28:44 公開日:2023-11-22
# 自動災害画像分類のためのCNNの活用とアンサンブル学習

Leveraging CNNs and Ensemble Learning for Automated Disaster Image Classification ( http://arxiv.org/abs/2311.13531v1 )

ライセンス: Link先を確認
Archit Rathod, Veer Pariawala, Mokshit Surana, Kumkum Saxena(参考訳) 自然災害は世界中で深刻な脅威となり、効果的で効率的な災害管理と復旧が求められる。 本稿では,畳み込みニューラルネットワーク(CNN)を用いた自然災害画像の分類に着目する。 複数のCNNアーキテクチャが建設され、地震、洪水、山火事、火山のイメージを含むデータセットで訓練された。 積み重ねられたCNNアンサンブルアプローチが最も効果的であることが証明され、95%の精度とF1スコアは個々のクラスで0.96まで上昇した。 最適化のために個々のモデルのハイパーパラメータをチューニングすることは、モデルの性能を最大化するために重要であった。 メタモデルとして機能するXGBoostによるCNNの積み重ねは、CNNとResNetモデルの強度を利用して、分類の全体的な精度を向上させる。 その結果, 自動災害画像分類のためのCNNモデルの有用性が示された。 このことは、災害対応、被害評価、復旧管理のための堅牢なシステムを構築するためにこれらの技術を拡張する基盤となる。

Natural disasters act as a serious threat globally, requiring effective and efficient disaster management and recovery. This paper focuses on classifying natural disaster images using Convolutional Neural Networks (CNNs). Multiple CNN architectures were built and trained on a dataset containing images of earthquakes, floods, wildfires, and volcanoes. A stacked CNN ensemble approach proved to be the most effective, achieving 95% accuracy and an F1 score going up to 0.96 for individual classes. Tuning hyperparameters of individual models for optimization was critical to maximize the models' performance. The stacking of CNNs with XGBoost acting as the meta-model utilizes the strengths of the CNN and ResNet models to improve the overall accuracy of the classification. Results obtained from the models illustrated the potency of CNN-based models for automated disaster image classification. This lays the foundation for expanding these techniques to build robust systems for disaster response, damage assessment, and recovery management.
翻訳日:2023-11-23 14:28:26 公開日:2023-11-22
# ランダム性拡大のためのデバイス独立およびセミデバイス独立プロトコルの改善

Improvements on Device Independent and Semi-Device Independent Protocols of Randomness Expansion ( http://arxiv.org/abs/2311.13528v1 )

ライセンス: Link先を確認
Rutvij Bhavsar(参考訳) 真の乱数を生成するには、量子論に基づく乱数生成が不可欠である。 しかし、ランダム性を生成するために使用されるプロセスが望ましいセキュリティ基準を満たすことを保証することは、従来の量子乱数生成器に課題をもたらす可能性がある。 この論文は、実験的に検証可能なセキュリティ仮定の最小セットに基づいて、ランダムネス拡大のデバイス独立(di)とセミデバイス独立(semi-di)プロトコルに分解される。 DIプロトコルのセキュリティは、デバイスの量子的振る舞いを証明するベルの不等式違反に依存している。 この論文で議論されたセミDIプロトコルは、1つのデバイス(パワーメーター)のみを特徴づける必要がある。 これらのプロトコルは、量子状態が確実に区別できないように準備できるという事実を利用してランダム性リソースを生成する。 本研究では,出力ランダム性率,セキュリティ,場合によっては,既存のプロトコルを超える拡張DIとセミDIプロトコルを提案する。 解析ではエントロピー累積定理(EAT)を用いて有限ラウンドの抽出可能なランダム性を決定する。 注目すべき貢献は、CHSH不等式違反に基づくDIプロトコルの有限ラウンドランダム化率を大幅に向上させる、入力ランダム化をリサイクルするランダム性拡張プロトコルの導入である。 論文の最終章では、一般確率論(Generalized Probability Theories, GPTs)を掘り下げ、相対性理論に整合した相関関係を生成できる最大のGPTであるBoxworldに焦点を当てた。 boxworldチャネルを識別するための扱いやすい基準が提示される。

To generate genuine random numbers, random number generators based on quantum theory are essential. However, ensuring that the process used to produce randomness meets desired security standards can pose challenges for traditional quantum random number generators. This thesis delves into Device Independent (DI) and Semi-Device Independent (semi-DI) protocols of randomness expansion, based on a minimal set of experimentally verifiable security assumptions. The security in DI protocols relies on the violation of Bell inequalities, which certify the quantum behavior of devices. The semi-DI protocols discussed in this thesis require the characterization of only one device - a power meter. These protocols exploit the fact that quantum states can be prepared such that they cannot be distinguished with certainty, thereby creating a randomness resource. In this study, we introduce enhanced DI and semi-DI protocols that surpass existing ones in terms of output randomness rate, security, or in some instances, both. Our analysis employs the Entropy Accumulation Theorem (EAT) to determine the extractable randomness for finite rounds. A notable contribution is the introduction of randomness expansion protocols that recycle input randomness, significantly enhancing finite round randomness rates for DI protocols based on the CHSH inequality violation. In the final section of the thesis, we delve into Generalized Probability Theories (GPTs), with a focus on Boxworld, the largest GPT capable of producing correlations consistent with relativity. A tractable criterion for identifying a Boxworld channel is presented.
翻訳日:2023-11-23 14:28:10 公開日:2023-11-22
# 連続正規化流れをもつ軌道自由密度汎関数理論

Orbital-Free Density Functional Theory with Continuous Normalizing Flows ( http://arxiv.org/abs/2311.13518v1 )

ライセンス: Link先を確認
Alexandre de Camargo, Ricky T. Q. Chen, Rodrigo A. Vargas-Hern\'andez(参考訳) 軌道自由密度汎関数理論(OF-DFT)は、電子密度のみに依存する分子電子エネルギーを計算する代替手法を提供する。 OF-DFTでは、2つの基底状態密度を変動的に最適化し、正規化制約を満たすとともに全エネルギー関数を最小化する。 本研究では,全エネルギー汎関数を最小化することで最適化された正規化流れアンサッツを用いて電子密度をパラメータ化する新しい手法を提案する。 本モデルでは,1次元の2原子分子,特に原子間距離の異なる水素化リチウムを含む多種多様な化学系の電子密度を再現し,水素分子と水分子の包括的シミュレーションを行った。

Orbital-free density functional theory (OF-DFT) provides an alternative approach for calculating the molecular electronic energy, relying solely on the electron density. In OF-DFT, both the ground-state density is optimized variationally to minimize the total energy functional while satisfying the normalization constraint. In this work, we introduce a novel approach by parameterizing the electronic density with a normalizing flow ansatz, which is also optimized by minimizing the total energy functional. Our model successfully replicates the electronic density for a diverse range of chemical systems, including a one-dimensional diatomic molecule, specifically Lithium hydride with varying interatomic distances, as well as comprehensive simulations of hydrogen and water molecules, all conducted in Cartesian space.
翻訳日:2023-11-23 14:27:45 公開日:2023-11-22
# データ入力形式の完全性要件の学習に基づく緩和

Learning-Based Relaxation of Completeness Requirements for Data Entry Forms ( http://arxiv.org/abs/2311.13517v1 )

ライセンス: Link先を確認
Hichem Belgacem, Xiaochen Li, Domenico Bianculli, Lionel C. Briand(参考訳) データ入力フォームは、異なるタイプのユーザから必要な情報を集めるのに必要なフィールドやオプションを指定するために完全性要件を使用する。 しかし、いくつかの必要なフィールドは、特定の種類のユーザーに適用できないかもしれない。 それでも、これらのフィールドは、そのフォームで要求されるように誤ってマークされる可能性がある。 廃止予定のフィールドは通常、フォームを提出する前にnullの検証チェックを行わないので、フォームの提出を完了するには、ユーザーはそのようなフィールドに意味のない値を入力する必要がある。 これらの意味のない値は、満たしたデータの品質を脅かす。 ユーザが意味のない値を満たすのを避けるため、既存のテクニックは通常、不要なフィールドを特定し、完全性要件を緩和するために手書きのルールに依存している。 しかし、これらの技術は効果がなく費用もかかる。 本稿では,データ入力フォームの完全性要件を緩和する学習ベースの自動アプローチであるLACQUERを提案する。 LACQUERはベイジアンネットワークモデルを構築し、ユーザーが無意味な値を満たさなければならない条件を自動的に学習する。 学習能力を向上させるために、LACQUERは、必要なフィールドが少数のユーザグループにのみ適用される場合を特定し、オーバーサンプリング技術であるSMOTEを使用して、そのようなフィールド上のより多くのインスタンスを生成し、それらへの依存性を効果的にマイニングする。 実験の結果, LACQUERは, 異なるデータセット上で0.76から0.90の精度で, 必要なフィールドの完全性要件を正確に緩和できることがわかった。 LACQUERは、ユーザが無意味な値の20%から64%を、0.72から0.91の負の予測値で埋めることを防ぐことができる。 さらに、LACQUERは効率が良く、インスタンスの完全性要件を予測するのに少なくとも839ミリ秒かかる。

Data entry forms use completeness requirements to specify the fields that are required or optional to fill for collecting necessary information from different types of users. However, some required fields may not be applicable for certain types of users anymore. Nevertheless, they may still be incorrectly marked as required in the form; we call such fields obsolete required fields. Since obsolete required fields usually have not-null validation checks before submitting the form, users have to enter meaningless values in such fields in order to complete the form submission. These meaningless values threaten the quality of the filled data. To avoid users filling meaningless values, existing techniques usually rely on manually written rules to identify the obsolete required fields and relax their completeness requirements. However, these techniques are ineffective and costly. In this paper, we propose LACQUER, a learning-based automated approach for relaxing the completeness requirements of data entry forms. LACQUER builds Bayesian Network models to automatically learn conditions under which users had to fill meaningless values. To improve its learning ability, LACQUER identifies the cases where a required field is only applicable for a small group of users, and uses SMOTE, an oversampling technique, to generate more instances on such fields for effectively mining dependencies on them. Our experimental results show that LACQUER can accurately relax the completeness requirements of required fields in data entry forms with precision values ranging between 0.76 and 0.90 on different datasets. LACQUER can prevent users from filling 20% to 64% of meaningless values, with negative predictive values between 0.72 and 0.91. Furthermore, LACQUER is efficient; it takes at most 839 ms to predict the completeness requirement of an instance.
翻訳日:2023-11-23 14:27:32 公開日:2023-11-22
# 単光子検出器とアダプティブストレージループを用いた光子数分解検出

Photon Number Resolving Detection with a Single-Photon Detector and Adaptive Storage Loop ( http://arxiv.org/abs/2311.13515v1 )

ライセンス: Link先を確認
Nicholas M. Sullivan, Boris Braverman, Jeremy Upham, Robert W. Boyd(参考訳) 光子数分解(PNR)測定は量子光学における多くの応用に有用または必要である。 残念ながら、PNR検出器は通常大きく、遅く、高価で、操作が難しい。 しかし、入力信号が多重化されている場合、本質的な光子番号解決能力を持たない光子「クリック」検出器は、光子番号の分解を実現するためにも使用できる。 本稿では,単一クリック検出器の操作と,調整可能なアウトカップリングを備えたストレージラインについて検討する。 適応的なフィードバックを用いてストレージのアウトカップリング率を調整することで、検出器のダイナミックレンジは、純粋にパッシブな設定に対して最大で1桁まで拡張することができる。 したがって適応的アプローチは、受動多重化アプローチよりも広い範囲の条件下で量子ショットノイズ限界以下の光子数分散を可能にすることができる。 これにより、量子拡張力学や量子コンピューティングの応用が可能になる。

Photon number resolving (PNR) measurements are beneficial or even necessary for many applications in quantum optics. Unfortunately, PNR detectors are usually large, slow, expensive, and difficult to operate. However, if the input signal is multiplexed, photon "click" detectors, that lack an intrinsic photon number resolving capability, can still be used to realize photon number resolution. Here, we investigate the operation of a single click detector, together with a storage line with tunable outcoupling. Using adaptive feedback to adjust the storage outcoupling rate, the dynamic range of the detector can in certain situations be extended by up to an order of magnitude relative to a purely passive setup. An adaptive approach can thus allow for photon number variance below the quantum shot noise limit under a wider range of conditions than using a passive multiplexing approach. This can enable applications in quantum enhanced metrology and quantum computing.
翻訳日:2023-11-23 14:27:03 公開日:2023-11-22
# 色皮膚癌画像の高精度分割のためのハイブリッドクジラムードリング最適化

Hybrid Whale-Mud-Ring Optimization for Precise Color Skin Cancer Image Segmentation ( http://arxiv.org/abs/2311.13512v1 )

ライセンス: Link先を確認
Amir Hamza, Badis Lekouaghet and Yassine Himeur(参考訳) 急速に進行する皮膚がんのタイムリーな同定と治療は、患者の健康と健康の維持に大きく寄与する。 皮膚内視鏡(dermoscopy, dermoscopy)は、皮膚がんの早期発見において重要な役割を担っている。 したがって, デジタル皮膚内視鏡画像の効果的な処理は, 皮膚癌診断の精度を高める上で重要である。 マルチレベル閾値設定は、画像内の物体を抽出して分析を容易にする医療画像のキーとなるツールである。 本稿では,WMRA と呼ばれる Whale Optimization Algorithm とハイブリッド化された Mud Ring Algorithm の強化版を提案する。 提案手法はバブルネット攻撃と泥リング戦略を利用して局所最適の停滞を克服し,最適しきい値を得る。 実験の結果、WMRAはフィットネス、Pak Signal to Noise Ratio(PSNR)、Mean Square Error(MSE)といった最近の手法に対して強力であることがわかった。

Timely identification and treatment of rapidly progressing skin cancers can significantly contribute to the preservation of patients' health and well-being. Dermoscopy, a dependable and accessible tool, plays a pivotal role in the initial stages of skin cancer detection. Consequently, the effective processing of digital dermoscopy images holds significant importance in elevating the accuracy of skin cancer diagnoses. Multilevel thresholding is a key tool in medical imaging that extracts objects within the image to facilitate its analysis. In this paper, an enhanced version of the Mud Ring Algorithm hybridized with the Whale Optimization Algorithm, named WMRA, is proposed. The proposed approach utilizes bubble-net attack and mud ring strategy to overcome stagnation in local optima and obtain optimal thresholds. The experimental results show that WMRA is powerful against a cluster of recent methods in terms of fitness, Peak Signal to Noise Ratio (PSNR), and Mean Square Error (MSE).
翻訳日:2023-11-23 14:26:49 公開日:2023-11-22
# 注意の自然性:コード言語モデルにおける注意の再考

Naturalness of Attention: Revisiting Attention in Code Language Models ( http://arxiv.org/abs/2311.13508v1 )

ライセンス: Link先を確認
Mootez Saad and Tushar Sharma(参考訳) CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。 最近の注意分析研究は、トランスフォーマのより広い文脈モデリングを考えるのではなく、注意重みだけに焦点を当てて初期解釈可能性の洞察を提供する。 本研究の目的は,注意重み以上の注意機構のこれまで無視されていた要因について,ある程度の光を当てることである。 CodeBERTにおける注意分布と変換表現の両方を分析した最初の実証的研究を行った。 JavaとPythonの2つのプログラミング言語で、入力のスケールされた変換ノルムは、注意重みのみと比較して構文構造を捉えるのがよい。 解析により,CodeBERTが構文的コードプロパティを組み込む方法の特徴を明らかにした。 これらの結果は、神経コードモデルを正確に理解するための注意重み以上の要素を組み込むことの重要性を示している。 これは、より解釈可能なモデルを開発し、プログラム分析における注意のメカニズムを効果的に利用するための基礎となる。

Language models for code such as CodeBERT offer the capability to learn advanced source code representation, but their opacity poses barriers to understanding of captured properties. Recent attention analysis studies provide initial interpretability insights by focusing solely on attention weights rather than considering the wider context modeling of Transformers. This study aims to shed some light on the previously ignored factors of the attention mechanism beyond the attention weights. We conduct an initial empirical study analyzing both attention distributions and transformed representations in CodeBERT. Across two programming languages, Java and Python, we find that the scaled transformation norms of the input better capture syntactic structure compared to attention weights alone. Our analysis reveals characterization of how CodeBERT embeds syntactic code properties. The findings demonstrate the importance of incorporating factors beyond just attention weights for rigorously understanding neural code models. This lays the groundwork for developing more interpretable models and effective uses of attention mechanisms in program analysis.
翻訳日:2023-11-23 14:26:33 公開日:2023-11-22
# ECoG系BCIにおける画像とモータ信号の分類のためのLSTM-CNNモデルへの次元性低減の適用

Applying Dimensionality Reduction as Precursor to LSTM-CNN Models for Classifying Imagery and Motor Signals in ECoG-Based BCIs ( http://arxiv.org/abs/2311.13507v1 )

ライセンス: Link先を確認
Soham Bafana(参考訳) 脳卒中や外傷性脳損傷などの神経障害によってしばしば引き起こされる運動障害は、リハビリテーション療法においてかなりの障害となる。 本研究の目的は,脳-コンピュータインタフェース(BCI)内の運動画像分類アルゴリズムを最適化することにより,領域を拡大することである。 本稿では,BCIの効率を向上させることによって,運動リハビリテーションの成果を高めるための新たなアプローチを提案する。 k-nearest neighbors (knn) と組み合わされた一様多様体近似および投影 (umap) という次元減少のための教師なし手法を用いて,long short-term memory (lstm) や convolutional neural network (cnns) といった教師あり手法を用いた分類作業の必要性を評価した。 また, 教師付き深層学習(DL)モデルでは, UMAP次元減少後の高いKNNスコアを示した被験者も高い精度を達成できた。 個別化されたモデル要件と大規模なニューラルトレーニングデータにより、次元性の低減は、広範なデータラベリングと教師付きディープラーニング技術の必要性を最小限に抑える効果的な前処理ステップとなる。 このアプローチは、運動機能障害の標的治療だけでなく、急速に発展するBCI分野における規制、安全性、信頼性の懸念にも大きな影響を与える。

Motor impairments, frequently caused by neurological incidents like strokes or traumatic brain injuries, present substantial obstacles in rehabilitation therapy. This research aims to elevate the field by optimizing motor imagery classification algorithms within Brain-Computer Interfaces (BCIs). By improving the efficiency of BCIs, we offer a novel approach that holds significant promise for enhancing motor rehabilitation outcomes. Utilizing unsupervised techniques for dimensionality reduction, namely Uniform Manifold Approximation and Projection (UMAP) coupled with K-Nearest Neighbors (KNN), we evaluate the necessity of employing supervised methods such as Long Short-Term Memory (LSTM) and Convolutional Neural Networks (CNNs) for classification tasks. Importantly, participants who exhibited high KNN scores following UMAP dimensionality reduction also achieved high accuracy in supervised deep learning (DL) models. Due to individualized model requirements and massive neural training data, dimensionality reduction becomes an effective preprocessing step that minimizes the need for extensive data labeling and supervised deep learning techniques. This approach has significant implications not only for targeted therapies in motor dysfunction but also for addressing regulatory, safety, and reliability concerns in the rapidly evolving BCI field.
翻訳日:2023-11-23 14:26:17 公開日:2023-11-22
# 分子スピンによる磁場の量子センシング

Quantum Sensing of Magnetic Fields with Molecular Spins ( http://arxiv.org/abs/2311.13504v1 )

ライセンス: Link先を確認
Claudio Bonizzoni, Alberto Ghirri, Fabio Santanni and Marco Affronte(参考訳) スピンは原子スケール限界まで磁場をプローブするポテンシャルを持つ原型系である。 適切なセンシングプロトコルを通じて量子の性質を活用すれば、古典的センサーが常にアクセス可能なフィールドにその適用性を拡大することができる。 ここではまず,ハイブリッド量子回路に埋め込まれた分子スピンアンサンブル上に交流磁場のための量子センシングプロトコルを実装できることを示す。 次に、マイクロ波周波数でのエコー検出と光学的読み出しのみを用いることで、交流磁場と同期した動的デカップリングプロトコルは、s = 10^{-10}-10^{-9}t/\sqrt{hz}$ 以下のパルス数(4-5)で感度を高めることができることを示した。 これらの結果は、分子スピンを量子センサーとして活用する戦略の開発の道を開く。

Spins are prototypical systems with the potential to probe magnetic fields down to the atomic scale limit. Exploiting their quantum nature through appropriate sensing protocols allows to enlarge their applicability to fields not always accessible by classical sensors. Here we first show that quantum sensing protocols for AC magnetic fields can be implemented on molecular spin ensembles embedded into hybrid quantum circuits. We then show that, using only echo detection at microwave frequency and no optical readout, Dynamical Decoupling protocols synchronized with the AC magnetic fields can enhance the sensitivity up to $S = 10^{-10}-10^{-9}T/\sqrt{Hz}$ with a low (4-5) number of applied pulses. These results paves the way for the development of strategies to exploit molecular spins as quantum sensors.
翻訳日:2023-11-23 14:25:53 公開日:2023-11-22
# 2レベル原子の駆動散逸性雲の定常状態における非ガウス相関

Non-Gaussian correlations in the steady-state of driven-dissipative clouds of two-level atoms ( http://arxiv.org/abs/2311.13503v1 )

ライセンス: Link先を確認
Giovanni Ferioli, Sara Pancaldi, Antoine Glicenstein, David Clement, Antoine Browaeys, Igor Ferrier-Barbut(参考訳) レーザー駆動の高密度アンサンブルである$^{87}$rb原子から放射される2次コヒーレンス関数$g^{(2)}(\tau)$の実験的検討を行った。 我々はガウスのカオス光に有効なシーゲルト関係から明らかな離脱を観察する。 強度と一階のコヒーレンスを測定することで、違反はコヒーレントフィールドの出現によるものではないと結論付ける。 これは、光が非ガウス統計に従うことを示し、原子媒体の非ガウス相関に由来する。 より具体的には、この駆動散逸多体系の定常状態は、一階のコヒーレンスがない場合に高次相関を維持する。 これらの発見は、その起源を明らかにするための新しい理論的および実験的探索を求め、非ガウス的な光の状態を実現するための新たな視点を開く。

We report experimental measurements of the second-order coherence function $g^{(2)}(\tau)$ of the light emitted by a laser-driven dense ensemble of $^{87}$Rb atoms. We observe a clear departure from the Siegert relation valid for Gaussian chaotic light. Measuring intensity and first-order coherence, we conclude that the violation is not due to the emergence of a coherent field. This indicates that the light obeys non-Gaussian statistics, stemming from non-Gaussian correlations in the atomic medium. More specifically, the steady-state of this driven-dissipative many-body system sustains high-order correlations in the absence of first-order coherence. These findings call for new theoretical and experimental explorations to uncover their origin and they open new perspectives for the realization of non-Gaussian states of light.
翻訳日:2023-11-23 14:25:36 公開日:2023-11-22
# bitformer: 低コスト低精度デバイスにおけるビットワイズ操作に基づくビッグデータ解析のための効率的なトランスフォーマー

Bitformer: An efficient Transformer with bitwise operation-based attention for Big Data Analytics at low-cost low-precision devices ( http://arxiv.org/abs/2311.13502v1 )

ライセンス: Link先を確認
Gaoxiang Duan and Junkai Zhang and Xiaoying Zheng and Yongxin Zhu(参考訳) 現在の大型モデルのランドスケープでは、トランスフォーマーは土台として立っており、現代のモデルの軌道を形成する上で重要な役割を果たしている。 しかし、その応用は、その注意機構に固有の計算の複雑さに起因する課題に遭遇する。 さらに、高精度浮動小数点演算への依存は特定のハードルを示し、特にエッジコンピューティング環境のような計算集約的なシナリオで顕著である。 これらの環境は、リソースの制約されたデバイスと、より低い精度の優先によって特徴づけられ、革新的なソリューションを必要とする。 エッジデバイスによるデータ処理要求の厳密化に取り組むために,トランスフォーマーパラダイムの発明的拡張であるbitformerモデルを導入する。 この革新の中心は、従来の浮動小数点行列の乗算をビット演算に置き換える新しい注意機構である。 この戦略的な置換は二重の利点をもたらす。 複雑な長距離情報依存を捕捉する際、注意機構の能力を維持するだけでなく、注意操作に固有の計算複雑性の大幅な削減も行う。 浮動小数点演算の典型である$o(n^2d)$複雑性から、ビット演算を特徴付ける$o(n^2t)$複雑性への移行は、この利点を実証する。 特に、この文脈では、パラメータ $t$ は従来の次元パラメータ $d$ よりも著しく小さいままである。 本質的にビットフォーマーモデルは、エッジコンピューティングのシナリオによって引き起こされる制約と、現代のコンピューティング環境の避けられない要求を調和させようとしている。 この革新的な経路を鍛えることにより、高性能モデルと資源負荷環境のギャップを埋め、この分野のさらなる進歩に向けた有望な軌道を明らかにする。

In the current landscape of large models, the Transformer stands as a cornerstone, playing a pivotal role in shaping the trajectory of modern models. However, its application encounters challenges attributed to the substantial computational intricacies intrinsic to its attention mechanism. Moreover, its reliance on high-precision floating-point operations presents specific hurdles, particularly evident in computation-intensive scenarios such as edge computing environments. These environments, characterized by resource-constrained devices and a preference for lower precision, necessitate innovative solutions. To tackle the exacting data processing demands posed by edge devices, we introduce the Bitformer model, an inventive extension of the Transformer paradigm. Central to this innovation is a novel attention mechanism that adeptly replaces conventional floating-point matrix multiplication with bitwise operations. This strategic substitution yields dual advantages. Not only does it maintain the attention mechanism's prowess in capturing intricate long-range information dependencies, but it also orchestrates a profound reduction in the computational complexity inherent in the attention operation. The transition from an $O(n^2d)$ complexity, typical of floating-point operations, to an $O(n^2T)$ complexity characterizing bitwise operations, substantiates this advantage. Notably, in this context, the parameter $T$ remains markedly smaller than the conventional dimensionality parameter $d$. The Bitformer model in essence endeavors to reconcile the indomitable requirements of modern computing landscapes with the constraints posed by edge computing scenarios. By forging this innovative path, we bridge the gap between high-performing models and resource-scarce environments, thus unveiling a promising trajectory for further advancements in the field.
翻訳日:2023-11-23 14:25:24 公開日:2023-11-22
# 高反射膜を用いた最適オプティメカルキャビティ構成

Optimal optomechanical cavity setups with highly reflecting membranes ( http://arxiv.org/abs/2311.13499v1 )

ライセンス: Link先を確認
Georg Enzian, Eugene S. Polzik, and Alexander K. Tagantsev(参考訳) フォトニック結晶パターンに基づく高反射性機械的適合膜は, 膜内中間層実験において高い結合率に達する可能性から, 最近, キャビティオメカニクス内での注目度が高まっている。 本稿では,高い反射率を有する膜をキャビティ・オプティマメカニクスに応用できる4つの異なるセットアップの解析と比較を行い,w.r.t.の長所協力率と効率重み付き協力率の指標について検討する。 分析は、単純なファブリーペロトキャビティと同様に、3種類の中間膜(membrane-at-edge、membrane-the-actual- middle、membrane-at-the-back)を包含する。 興味深いことに,光力学的協調性が大幅に向上し,低損失膜を実装すれば非線形光学系への道を拓くことができる,無視可能な膜寄生損失の限界の最適選択として膜・アット・ザ・バックの設定を同定し,提案する。

Highly reflecting mechanically compliant membranes based on photonic-crystal patterns have recently gained increasing attention within cavity optomechanics due to their prospects of reaching high coupling rates in membrane-in-the-middle experiments. Here we present an analysis and comparison of four different setups in which highly reflecting membranes can be employed for cavity optomechanics, and discuss optimal choices w.r.t. the figures of merit cooperativity and efficiency-weighted cooperativity. The analysis encompasses three different types of membrane-in-the-middle setups (membrane-at-the-edge, membrane-in-the-actual-middle, and membrane-at-the-back), as well as the simple Fabry-Perot cavity. Interestingly, we identify and propose the membrane-at-the-back setup as an optimal choice in the limit of negligible membrane parasitic loss, which can reach enormous enhancements of optomechanical cooperativity, and if implemented with a low-loss membrane would pave the way to nonlinear optomechanics in the quantum regime.
翻訳日:2023-11-23 14:24:54 公開日:2023-11-22
# テキストにおけるバイアス検出のための最近のトポロジと機械学習応用

Current Topological and Machine Learning Applications for Bias Detection in Text ( http://arxiv.org/abs/2311.13495v1 )

ライセンス: Link先を確認
Colleen Farrelly, Yashbir Singh, Quincy A. Hathaway, Gunnar Carlsson, Ashok Choudhary, Rahul Paul, Gianfranco Doretto, Yassine Himeur, Shadi Atalls and Wathiq Mansoor(参考訳) 制度バイアスは、患者の成果、教育的達成、法的なシステムナビゲーションに影響を与える可能性がある。 書かれた記録はしばしばバイアスを反映し、一度バイアスが特定されると、バイアスを減らすためにトレーニングのために個人を参照することができる。 テキストデータを探索し、テキストレコードを検索してリアルタイムバイアスを特定する予測モデルを作成するために、多くの機械学習ツールが存在する。 しかし, バイアステキストデータの大規模言語モデル埋め込みと幾何モデルを用いて, バイアスモデリング精度に対する幾何学的影響を解明する研究はほとんどない。 この問題を解決するために、RedditBiasデータベースを用いてテキストバイアスを分析する。 BERTとRoBERTaの4種類の変圧器モデルについて検討した。 埋め込み後、t-SNEはデータの2次元可視化を可能にした。 knn分類器はバイアスタイプを区別し、k値が低い方がより効果的である。 BERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。 このレコメンデーションは単言語モデルの精細化とドメイン固有のバイアスの探索を強調する。

Institutional bias can impact patient outcomes, educational attainment, and legal system navigation. Written records often reflect bias, and once bias is identified; it is possible to refer individuals for training to reduce bias. Many machine learning tools exist to explore text data and create predictive models that can search written records to identify real-time bias. However, few previous studies investigate large language model embeddings and geometric models of biased text data to understand geometry's impact on bias modeling accuracy. To overcome this issue, this study utilizes the RedditBias database to analyze textual biases. Four transformer models, including BERT and RoBERTa variants, were explored. Post-embedding, t-SNE allowed two-dimensional visualization of data. KNN classifiers differentiated bias types, with lower k-values proving more effective. Findings suggest BERT, particularly mini BERT, excels in bias classification, while multilingual models lag. The recommendation emphasizes refining monolingual models and exploring domain-specific biases.
翻訳日:2023-11-23 14:24:28 公開日:2023-11-22
# データフリー物理情報ニューラルネットワークによるGrad-Shafranov平衡

Grad-Shafranov equilibria via data-free physics informed neural networks ( http://arxiv.org/abs/2311.13491v1 )

ライセンス: Link先を確認
Byoungchan Jang, Alan A. Kaptanoglu, Rahul Gaur, Shaw Pan, Matt Landreman, William Dorland(参考訳) 多くの磁気流体力学(mhd)平衡計算は不確かさの定量化、最適化、リアルタイム診断情報のためにしばしば必要であり、mhd平衡符号はプラズマ物理学の分野に不可欠である。 本稿では,物理情報ニューラルネットワーク(PINN)を用いたグラッド・シャフラノフ方程式の解法について検討する。 PINNでは、損失関数としてPDEの残余を直接最小化することで、ニューラルネットワークを最適化する。 PINNはいくつかの異なる境界条件でGrad-Shafranov方程式を正確かつ効果的に解くことができることを示す。 また,モデルのサイズ,学習率,境界条件を変化させてパラメータ空間を探索し,再構成誤差と計算速度のトレードオフをマッピングする。 さらに, 入力空間を拡張して圧力, アスペクト比, 伸長, 三角度などの変数を含むことにより, 単一ネットワーク内でより広い範囲のプラズマシナリオを処理できる, パラメータ化されたpinnフレームワークを導入する。 並列化PINNは、形状最適化のような逆問題を解決するために将来の研究に使用できる。

A large number of magnetohydrodynamic (MHD) equilibrium calculations are often required for uncertainty quantification, optimization, and real-time diagnostic information, making MHD equilibrium codes vital to the field of plasma physics. In this paper, we explore a method for solving the Grad-Shafranov equation by using Physics-Informed Neural Networks (PINNs). For PINNs, we optimize neural networks by directly minimizing the residual of the PDE as a loss function. We show that PINNs can accurately and effectively solve the Grad-Shafranov equation with several different boundary conditions. We also explore the parameter space by varying the size of the model, the learning rate, and boundary conditions to map various trade-offs such as between reconstruction error and computational speed. Additionally, we introduce a parameterized PINN framework, expanding the input space to include variables such as pressure, aspect ratio, elongation, and triangularity in order to handle a broader range of plasma scenarios within a single network. Parametrized PINNs could be used in future work to solve inverse problems such as shape optimization.
翻訳日:2023-11-23 14:24:15 公開日:2023-11-22
# LLMを用いた長期文書質問応答のための談話構造へのドリルダウン

Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering ( http://arxiv.org/abs/2311.13565v1 )

ライセンス: Link先を確認
Inderjeet Nair, Shwetha Somasundaram, Apoorv Saxena, Koustava Goswami(参考訳) 我々は,文書内の関連する段落を検索して質問に回答することを含む,長文質問応答に対する証拠検索の課題に対処する。 我々は,様々なnlpタスクにおける前例のない性能のため,ゼロショットの文書証拠検索タスクにおける大規模言語モデル(llm)の適用性を評価することを目的とした。 しかし、現在LLMは、限られたコンテキスト長を入力として消費できるため、セグメント間の依存関係の取得に欠如しながら、インプットがグローバルコンテキストを見落としてしまう可能性があるため、ドキュメントチャンクを提供する。 さらに、大きな入力セットを直接供給することで、特にドキュメント全体を処理する場合(OpenAIのGPT変種のようなエンタープライズAPIで金銭的費用がかかる可能性がある)、かなりの計算コストが発生する可能性がある。 これらの課題に対処するために,文書で一般的に見られる談話構造を利用する手法のスイートを提案する。 この構造を利用することで、文書の凝縮表現を作成し、異なる部分間の関係のより包括的な理解と分析を可能にする。 我々は、最高のゼロショットアプローチのパフォーマンスの99.6\%を保ちながら、情報検索検索設定において、最良のアプローチで使用されるトークンの合計の26\%しか処理しない。 また,本手法と<textit{self-ask}推論エージェントを併用して,複雑なマルチホップ質問応答において最高のゼロショット性能を実現し,金の証拠を用いたゼロショット性能を$$\approx 4\%$に短縮できることを示す。

We address the task of evidence retrieval for long document question answering, which involves locating relevant paragraphs within a document to answer a question. We aim to assess the applicability of large language models (LLMs) in the task of zero-shot long document evidence retrieval, owing to their unprecedented performance across various NLP tasks. However, currently the LLMs can consume limited context lengths as input, thus providing document chunks as inputs might overlook the global context while missing out on capturing the inter-segment dependencies. Moreover, directly feeding the large input sets can incur significant computational costs, particularly when processing the entire document (and potentially incurring monetary expenses with enterprise APIs like OpenAI's GPT variants). To address these challenges, we propose a suite of techniques that exploit the discourse structure commonly found in documents. By utilizing this structure, we create a condensed representation of the document, enabling a more comprehensive understanding and analysis of relationships between different parts. We retain $99.6\%$ of the best zero-shot approach's performance, while processing only $26\%$ of the total tokens used by the best approach in the information seeking evidence retrieval setup. We also show how our approach can be combined with \textit{self-ask} reasoning agent to achieve best zero-shot performance in complex multi-hop question answering, just $\approx 4\%$ short of zero-shot performance using gold evidence.
翻訳日:2023-11-23 14:16:53 公開日:2023-11-22
# soulstyler: 大きな言語モデルを使用してターゲットオブジェクトのイメージスタイル転送をガイドする

Soulstyler: Using Large Language Model to Guide Image Style Transfer for Target Object ( http://arxiv.org/abs/2311.13562v1 )

ライセンス: Link先を確認
Junhao Chen, Peng Rong, Jingbo Sun, Chao Li, Xiang Li, Hongwu Lv(参考訳) 画像スタイルの転送はコンピュータグラフィックスとコンピュータビジョンの両方において重要な位置を占める。 しかし、現在の方法の多くは、特定のオブジェクトを個別にスタイリッシュすることができない、スタイリッシュな画像を参照する必要がある。 この制限を克服するために、ユーザーは簡単なテキスト記述を通じて画像内の特定のオブジェクトのスタイル化をガイドできる「Soulstyler」フレームワークを提案する。 テキストを解析し,スタイライゼーション目標と特定のスタイルを識別するための大規模言語モデルを提案する。 CLIPベースのセマンティックな視覚埋め込みエンコーダと組み合わせることで、モデルはテキストと画像の内容を理解し、マッチングする。 また、ターゲット以外の領域が元のスタイルのままであるのに対して、特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する、新しいローカライズされたテキストイメージブロックマッチング損失を導入する。 実験の結果,背景領域のスタイルに影響を与えることなく,テキスト記述による対象オブジェクトのスタイル転送を精度良く行うことができた。 私たちのコードはhttps://github.com/yisuanwang/soulstylerで利用可能です。

Image style transfer occupies an important place in both computer graphics and computer vision. However, most current methods require reference to stylized images and cannot individually stylize specific objects. To overcome this limitation, we propose the "Soulstyler" framework, which allows users to guide the stylization of specific objects in an image through simple textual descriptions. We introduce a large language model to parse the text and identify stylization goals and specific styles. Combined with a CLIP-based semantic visual embedding encoder, the model understands and matches text and image content. We also introduce a novel localized text-image block matching loss that ensures that style transfer is performed only on specified target objects, while non-target regions remain in their original style. Experimental results demonstrate that our model is able to accurately perform style transfer on target objects according to textual descriptions without affecting the style of background regions. Our code will be available at https://github.com/yisuanwang/Soulstyler.
翻訳日:2023-11-23 14:16:23 公開日:2023-11-22
# 伝達学習に基づくリアルタイム拳銃検出

Transfer Learning-based Real-time Handgun Detection ( http://arxiv.org/abs/2311.13559v1 )

ライセンス: Link先を確認
Youssef Elmir, Sid Ahmed Laouar, Larbi Hamdaoui(参考訳) 従来の監視システムは人間の注意に依存し、その効果を制限している。 本研究では,畳み込みニューラルネットワークとトランスファー学習を用いて,拳銃自動検出のためのリアルタイムコンピュータビジョンシステムを開発した。 オンライン拳銃検出手法の包括的分析を行い,偽陽性の低減と学習時間の短縮を強調する。 転校学習は効果的なアプローチとして示される。 技術的課題にもかかわらず、提案システムは84.74%の精度を実現し、関連する作業に匹敵する有望な性能を示し、より高速な学習と精度の高い自動拳銃検出を可能にした。 本研究は, 人体監視依存度を低減し, 効率・信頼性の高い拳銃検出のための伝達学習アプローチの可能性を示す。

Traditional surveillance systems rely on human attention, limiting their effectiveness. This study employs convolutional neural networks and transfer learning to develop a real-time computer vision system for automatic handgun detection. Comprehensive analysis of online handgun detection methods is conducted, emphasizing reducing false positives and learning time. Transfer learning is demonstrated as an effective approach. Despite technical challenges, the proposed system achieves a precision rate of 84.74%, demonstrating promising performance comparable to related works, enabling faster learning and accurate automatic handgun detection for enhanced security. This research advances security measures by reducing human monitoring dependence, showcasing the potential of transfer learning-based approaches for efficient and reliable handgun detection.
翻訳日:2023-11-23 14:16:04 公開日:2023-11-22
# ブレーンワールドブラックホールの背景における高輝度加速放射

Horizon brightened accelerated radiation in the background of braneworld black holes ( http://arxiv.org/abs/2311.13557v1 )

ライセンス: Link先を確認
Ashmita Das, Soham Sen and Sunandan Gangopadhyay(参考訳) 地平面輝度加速放射(HBAR)の概念は、曲線時空における粒子生成の明確なメカニズムを私たちにもたらした。 この写本では、より高次元の重力効果により、(3+1)$次元宇宙において有効理論として現れるブレーンワールドブラックホール(BBH)のHBAR現象について検討する。 一般相対性理論では Reissner-Nordstr$\ddot{\rm o}$m の解にやや似ているが、BBH はその電荷項に関して、むしろ潮流電荷である。 本研究では,原子-磁場相互作用と関連するHBARエントロピーによる原子の遷移確率について検討する。 どちらの量も標準シュワルツシルトの結果に対する修正を取得し、潮流電荷の関数であることが判明した。 この修正は、3ブレーンに誘起されるバルク重力効果によってのみ現れる。 Weenの変位を調べたところ、シュワルツシルトとBBHに対応するHBARの波長は質量に応じて互いにずれているという重要な特徴が観察された。 この偏差は、プランク質量よりも若干大きいか、あるいは同等の質量に対してより顕著である。

The concept of horizon brightened acceleration radiation (HBAR) has brought to us a distinct mechanism of particle production in curved spacetime. In this manuscript we examine the HBAR phenomena for a braneworld black hole (BBH) which emerges as an effective theory in our $(3+1)$ dimensional universe due to the higher dimensional gravitational effects. Despite being somewhat similar to the Reissner-Nordstr$\ddot{\rm o}$m solution in general relativity, the BBH is unique with respect to its charge term which is rather the tidal charge. In this background, we study the transition probability of the atom due to the atom-field interaction and the associated HBAR entropy. Both the quantities acquire modifications over the standard Schwarzschild results and turn out to be the function of the tidal charge. This modifications appear solely due to the bulk gravitational effects as induced on the 3-brane. Studying the Wien's displacement, we observe an important feature that the wavelengths of HBAR corresponding to the Schwarzschild and the BBH, deviate from each other depending on their masses. This deviation is found to be more pronounced for the mass values slightly greater or comparable to the Planck mass.
翻訳日:2023-11-23 14:15:53 公開日:2023-11-22
# トレース誘起量子カーネルのための統一フレームワーク

A Unified Framework for Trace-induced Quantum Kernels ( http://arxiv.org/abs/2311.13552v1 )

ライセンス: Link先を確認
Beng Yee Gan, Daniel Leykam, Supanut Thanasilp(参考訳) 量子カーネルメソッドは、特定の機械学習タスクに実用的な量子アドバンテージを達成するための有望な候補である。 古典的な機械学習と同様に、量子カーネルの正確な形式はモデル性能に大きな影響を与えることが期待されている。 この研究では、一般的に使用されるグローバル忠実度や局所射影量子カーネルを含む、トレース誘起量子カーネルを共通のフレームワークにまとめる。 一般化されたトレース誘導量子カーネルを、我々が「lego」カーネルと呼ぶ基本構成要素の組み合わせとして構築し、結果として生じる量子モデルに帰納的バイアスを課す方法を示す。 我々は, 表現力と一般化能力を, 非ゼロ重みのレゴカーネル数に関連付け, 量子カーネルモデルの複雑性を増大させる体系的アプローチを提案し, 量子ゲート数と計測ショット数でより少ない量子リソースを必要とする, 局所投影型カーネルの新しい形式を導出する。 局所的に投影されたカーネルに基づくモデルがグローバルフィデリティ量子カーネルと同等の性能を達成できることを数値的に示す。 我々の研究は既存の量子カーネルを統一し、それらの特性を比較するための体系的なフレームワークを提供する。

Quantum kernel methods are promising candidates for achieving a practical quantum advantage for certain machine learning tasks. Similar to classical machine learning, an exact form of a quantum kernel is expected to have a great impact on the model performance. In this work we combine all trace-induced quantum kernels, including the commonly-used global fidelity and local projected quantum kernels, into a common framework. We show how generalized trace-induced quantum kernels can be constructed as combinations of the fundamental building blocks we coin "Lego" kernels, which impose an inductive bias on the resulting quantum models. We relate the expressive power and generalization ability to the number of non-zero weight Lego kernels and propose a systematic approach to increase the complexity of a quantum kernel model, leading to a new form of the local projected kernels that require fewer quantum resources in terms of the number of quantum gates and measurement shots. We show numerically that models based on local projected kernels can achieve comparable performance to the global fidelity quantum kernel. Our work unifies existing quantum kernels and provides a systematic framework to compare their properties.
翻訳日:2023-11-23 14:15:35 公開日:2023-11-22
# ADriver-I: 自律運転のための一般的な世界モデル

ADriver-I: A General World Model for Autonomous Driving ( http://arxiv.org/abs/2311.13549v1 )

ライセンス: Link先を確認
Fan Jia, Weixin Mao, Yingfei Liu, Yucheng Zhao, Yuqing Wen, Chi Zhang, Xiangyu Zhang, Tiancai Wang(参考訳) 通常、自律運転はモジュラー設計を採用し、完全なスタックを認識、予測、計画、制御部品に分割する。 このようなモジュラーデザインは解釈可能であるが、かなりの冗長性をもたらす傾向がある。 近年,マルチモーダル大規模言語モデル (MLLM) と拡散技術は,理解と生成能力において優れた性能を示した。 本稿では,まず視覚特徴と制御信号の形式を統一した視覚-動作ペアの概念を紹介する。 視覚と動作のペアに基づいて、自律運転のためのmllmと拡散モデルに基づく一般世界モデルを構築し、adriver-iと呼ぶ。 視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。 生成した制御信号と過去のビジョンアクションペアは、将来のフレームを予測するためにさらに条件付けされる。 予測された次のフレームでは、ADriver-Iはさらなる制御信号予測を行う。 このようなプロセスは無限に繰り返される可能性があり、ADriver-Iは自作の世界における自動運転を実現する。 nuSceneと大規模プライベートデータセットについて大規模な実験を行った。 adriver-iはいくつかのベースラインと比較して印象的なパフォーマンスを示している。 私たちは、ADriver-Iが将来の自動運転と具体化インテリジェンスに新たな洞察を与えることを期待しています。

Typically, autonomous driving adopts a modular design, which divides the full stack into perception, prediction, planning and control parts. Though interpretable, such modular design tends to introduce a substantial amount of redundancy. Recently, multimodal large language models (MLLM) and diffusion techniques have demonstrated their superior performance on comprehension and generation ability. In this paper, we first introduce the concept of interleaved vision-action pair, which unifies the format of visual features and control signals. Based on the vision-action pairs, we construct a general world model based on MLLM and diffusion model for autonomous driving, termed ADriver-I. It takes the vision-action pairs as inputs and autoregressively predicts the control signal of the current frame. The generated control signals together with the historical vision-action pairs are further conditioned to predict the future frames. With the predicted next frame, ADriver-I performs further control signal prediction. Such a process can be repeated infinite times, ADriver-I achieves autonomous driving in the world created by itself. Extensive experiments are conducted on nuScenes and our large-scale private datasets. ADriver-I shows impressive performance compared to several constructed baselines. We hope our ADriver-I can provide some new insights for future autonomous driving and embodied intelligence.
翻訳日:2023-11-23 14:15:16 公開日:2023-11-22
# レバレッジスコアサンプリングによるカーネルヒルベルト空間の効率的な数値積分

Efficient Numerical Integration in Reproducing Kernel Hilbert Spaces via Leverage Scores Sampling ( http://arxiv.org/abs/2311.13548v1 )

ライセンス: Link先を確認
Antoine Chatalic, Nicolas Schreuder, Ernesto De Vito, Lorenzo Rosasco(参考訳) 本研究では,数値積分の問題,すなわち,積分の点的評価のみを用いて,対象確率測度に対して積分を近似する問題を考える。 我々は、ターゲット分布が$n$ i.d. の観測によってのみアクセス可能な設定に焦点を合わせ、積分子は再生されたカーネルヒルベルト空間に属する。 そこで我々は,初期観測から得られる近似レバレッジスコアを用いて,$m<n$サンプルのランダムな小部分集合を均一に描画するか,あるいは利用した。 我々の主な結果は、両方のサンプリング戦略に対するこの手順の近似誤差の上限である。 これは、標準(最適)の$n^{-1/2}$レートを回復するのに十分な条件を与え、機能評価の数を劇的に削減し、全体的な計算コストを削減している。 さらに、その滑らかさに適応する積分器の評価数に対して$m$のレートを得ることができ、例えばソボレフ空間の既知最適レートと一致する。 提案手法は,従来のランダム化法とグリード化法を比較検討し,実データを用いた数値実験により理論的知見を述べる。 rkhsにおける数値積分の問題は、核の離散近似を設計することで、対象分布の埋め込みを意味することに注意する。 その結果,結果の直接適用には,分布間の平均誤差の最大値の効率的な計算や,カーネルベースの効率的なテストの設計も含まれる。

In this work we consider the problem of numerical integration, i.e., approximating integrals with respect to a target probability measure using only pointwise evaluations of the integrand. We focus on the setting in which the target distribution is only accessible through a set of $n$ i.i.d. observations, and the integrand belongs to a reproducing kernel Hilbert space. We propose an efficient procedure which exploits a small i.i.d. random subset of $m<n$ samples drawn either uniformly or using approximate leverage scores from the initial observations. Our main result is an upper bound on the approximation error of this procedure for both sampling strategies. It yields sufficient conditions on the subsample size to recover the standard (optimal) $n^{-1/2}$ rate while reducing drastically the number of functions evaluations, and thus the overall computational cost. Moreover, we obtain rates with respect to the number $m$ of evaluations of the integrand which adapt to its smoothness, and match known optimal rates for instance for Sobolev spaces. We illustrate our theoretical findings with numerical experiments on real datasets, which highlight the attractive efficiency-accuracy tradeoff of our method compared to existing randomized and greedy quadrature methods. We note that, the problem of numerical integration in RKHS amounts to designing a discrete approximation of the kernel mean embedding of the target distribution. As a consequence, direct applications of our results also include the efficient computation of maximum mean discrepancies between distributions and the design of efficient kernel-based tests.
翻訳日:2023-11-23 14:14:57 公開日:2023-11-22
# プレトレーニング埋め込みを用いた医用画像検索

Medical Image Retrieval Using Pretrained Embeddings ( http://arxiv.org/abs/2311.13547v1 )

ライセンス: Link先を確認
Farnaz Khun Jush, Tuan Truong, Steffen Vogler, Matthias Lenga(参考訳) 医療画像に利用可能な幅広い画像技術とデータフォーマットは、画像データベースからの正確な検索を困難にする。 効率的な検索システムは医学研究の進展に不可欠であり、大規模な研究と革新的な診断ツールを可能にする。 したがって,医療画像検索の課題に取り組むことは,医療と研究の継続的な強化に不可欠である。 本研究では,4つの最先端事前訓練モデルを用いて,モダリティ,身体領域,臓器レベルでの医用画像検索の実現可能性を評価し,類似性指標の2つの手法との比較を行った。 使用済みのネットワークが2d画像を撮影するため,重み付けとサンプリング戦略の影響を分析し,3dボリュームの検索に3d情報を組み込む。 トレーニングや微調整を行なわずに,事前訓練ネットワークを用いて医用画像の検索が可能であることを実証した。 訓練済みの埋め込みを用いて,運動,身体領域,臓器レベルでの様々なタスクを1回リコールした。

A wide range of imaging techniques and data formats available for medical images make accurate retrieval from image databases challenging. Efficient retrieval systems are crucial in advancing medical research, enabling large-scale studies and innovative diagnostic tools. Thus, addressing the challenges of medical image retrieval is essential for the continued enhancement of healthcare and research. In this study, we evaluated the feasibility of employing four state-of-the-art pretrained models for medical image retrieval at modality, body region, and organ levels and compared the results of two similarity indexing approaches. Since the employed networks take 2D images, we analyzed the impacts of weighting and sampling strategies to incorporate 3D information during retrieval of 3D volumes. We showed that medical image retrieval is feasible using pretrained networks without any additional training or fine-tuning steps. Using pretrained embeddings, we achieved a recall of 1 for various tasks at modality, body region, and organ level.
翻訳日:2023-11-23 14:14:30 公開日:2023-11-22
# Enigma: 信頼できない量子コンピュータ上でのQAOAのプライバシ保護実行

Enigma: Privacy-Preserving Execution of QAOA on Untrusted Quantum Computers ( http://arxiv.org/abs/2311.13546v1 )

ライセンス: Link先を確認
Ramin Ayanzadeh, Ahmad Mousavi, Narges Alavisamani and Moinuddin Qureshi(参考訳) 量子コンピュータは従来のコンピュータの能力を超えた問題を解決することができる。 量子コンピュータは高価でメンテナンスが難しいため、量子計算を行う典型的なモデルは、回路を量子クラウドプロバイダに送ることである。 これにより、信頼できないサーバが提供された回路から保護された情報を取得できるため、商用エンティティのプライバシの懸念が生じる。 Secure Quantum Computing (SQC) の現在の提案は、新しい技術(量子ネットワークなど)か、禁止的オーバーヘッド(量子同型暗号化)に依存している。 本稿の目的は,現在のシステムで使用可能な低コストなプライバシ保存量子計算を可能にすることである。 我々は,量子近似最適化アルゴリズム(qaoa)用に設計されたプライバシー保護スキームのセットであるenigmaを提案する。 量子回路を難読化する従来のSQC技術とは異なり、エニグマはQAOAの入力問題を変換し、その結果の回路と結果がサーバには理解できない。 エニグマの3つの変種を紹介する。 Enigma-Iはランダム位相反転と値の融合を用いてQAOAの係数を保護する。 enigma-iiは、decoy qubitsを導入することでグラフのノードを保護する。 エニグマIIIはグラフのエッジ情報を保護するため、各ノードが同一数の接続を持つようにグラフを変更する。 エニグマのすべての変種に対して、元の問題の解がまだ得られないことを示す。 我々は、ibm量子デバイスを用いてenigmaを評価し、enigmaのプライバシー改善は、忠実度(1%-13%)がわずかに低下することを示しています。

Quantum computers can solve problems that are beyond the capabilities of conventional computers. As quantum computers are expensive and hard to maintain, the typical model for performing quantum computation is to send the circuit to a quantum cloud provider. This leads to privacy concerns for commercial entities as an untrusted server can learn protected information from the provided circuit. Current proposals for Secure Quantum Computing (SQC) either rely on emerging technologies (such as quantum networks) or incur prohibitive overheads (for Quantum Homomorphic Encryption). The goal of our paper is to enable low-cost privacy-preserving quantum computation that can be used with current systems. We propose Enigma, a suite of privacy-preserving schemes specifically designed for the Quantum Approximate Optimization Algorithm (QAOA). Unlike previous SQC techniques that obfuscate quantum circuits, Enigma transforms the input problem of QAOA, such that the resulting circuit and the outcomes are unintelligible to the server. We introduce three variants of Enigma. Enigma-I protects the coefficients of QAOA using random phase flipping and fudging of values. Enigma-II protects the nodes of the graph by introducing decoy qubits, which are indistinguishable from primary ones. Enigma-III protects the edge information of the graph by modifying the graph such that each node has an identical number of connections. For all variants of Enigma, we demonstrate that we can still obtain the solution for the original problem. We evaluate Enigma using IBM quantum devices and show that the privacy improvements of Enigma come at only a small reduction in fidelity (1%-13%).
翻訳日:2023-11-23 14:14:04 公開日:2023-11-22
# 量子変分アルゴリズムによる固有ベクトルの探索

Finding eigenvectors with a quantum variational algorithm ( http://arxiv.org/abs/2311.13543v1 )

ライセンス: Link先を確認
Juan Carlos Garcia-Escartin(参考訳) 本稿では、既知の量子回路を持つユニタリ行列のランダム固有ベクトルを求めるハイブリッド変分量子アルゴリズムを提案する。 このアルゴリズムは、パラメタライズド量子回路によって生成される試行状態に関するSWAPテストに基づいている。 固有ベクトルは古典的パラメータのコンパクトな集合によって記述され、必要に応じて固有状態への発見された近似を再現することができる。 この変分固有ベクトルファインダは、一般化固有値問題を解き、正規行列の固有ベクトルを見つけ、未知入力混合状態に対して量子主成分分析(qpca)を行うことに適応することができる。 これらのアルゴリズムはすべて低深さの量子回路で実行でき、ノイズの多い中間状態量子コンピュータ(NISQC)や線形光学系での効率的な実装に適している。 限界と潜在的な応用について論じる。

This paper presents a hybrid variational quantum algorithm that finds a random eigenvector of a unitary matrix with a known quantum circuit. The algorithm is based on the SWAP test on trial states generated by a parametrized quantum circuit. The eigenvector is described by a compact set of classical parameters that can be used to reproduce the found approximation to the eigenstate on demand. This variational eigenvector finder can be adapted to solve the generalized eigenvalue problem, to find the eigenvectors of normal matrices and to perform quantum principal component analysis (QPCA) on unknown input mixed states. These algorithms can all be run with low depth quantum circuits, suitable for an efficient implementation on noisy intermediate state quantum computers (NISQC) and, with some restrictions, on linear optical systems. Limitations and potential applications are discussed.
翻訳日:2023-11-23 14:13:34 公開日:2023-11-22
# 無バイアス濃度の線形対数正規注意

Linear Log-Normal Attention with Unbiased Concentration ( http://arxiv.org/abs/2311.13541v1 )

ライセンス: Link先を確認
Yury Nahshan, Joseph Kampeas and Emir Haleva(参考訳) トランスフォーマーモデルは広範囲のアプリケーションで顕著な成果を上げている。 しかし、そのスケーラビリティは、シーケンス長に関する自己注意機構の二次時間とメモリの複雑さによって妨げられる。 この制限は、長い文書や高解像度画像を扱う際にかなりの障害となる。 本研究では,注意行列の分布と集中能力を分析し,自己注意機構について検討する。 さらに,これらの量を計測する手段を提案し,その分布・集中挙動をエミュレートする新しい自己付着機構である線形対数正規注意機構を提案する。 ポピュラーな自然言語ベンチマークによる実験結果から,提案する線形ログNormal Attentionは,他の線形化アテンションよりも優れており,トランスフォーマーモデルのスケーラビリティ向上に期待できる方法であることがわかった。 私たちのコードは補足資料で入手できる。

Transformer models have achieved remarkable results in a wide range of applications. However, their scalability is hampered by the quadratic time and memory complexity of the self-attention mechanism concerning the sequence length. This limitation poses a substantial obstacle when dealing with long documents or high-resolution images. In this work, we study the self-attention mechanism by analyzing the distribution of the attention matrix and its concentration ability. Furthermore, we propose instruments to measure these quantities and introduce a novel self-attention mechanism, Linear Log-Normal Attention, designed to emulate the distribution and concentration behavior of the original self-attention. Our experimental results on popular natural language benchmarks reveal that our proposed Linear Log-Normal Attention outperforms other linearized attention alternatives, offering a promising avenue for enhancing the scalability of transformer models. Our code is available in supplementary materials.
翻訳日:2023-11-23 14:13:20 公開日:2023-11-22
# 臨界サンプリング3次元点クラウド属性圧縮のための学習型非線形予測器

Learned Nonlinear Predictor for Critically Sampled 3D Point Cloud Attribute Compression ( http://arxiv.org/abs/2311.13539v1 )

ライセンス: Link先を確認
Tam Thuc Do, Philip A. Chou, and Gene Cheung(参考訳) 点クラウド幾何学がエンコーダとデコーダの両方で知られていると仮定すると、パラメータ $\theta$ of a continuous attribute function $f: \mathbb{R}^3 \mapsto \mathbb{R}$ is Quantized to $\hat{\theta}$ and encoded となり、離散サンプル $f_{\hat{\theta}}(\mathbf{x}_i)$ は既知の3Dポイント $\mathbf{x}_i \in \mathbb{R}^3$ で復元できる。 Specifically, we consider a nested sequences of function subspaces $\mathcal{F}^{(p)}_{l_0} \subseteq \cdots \subseteq \mathcal{F}^{(p)}_L$, where $\mathcal{F}_l^{(p)}$ is a family of functions spanned by B-spline basis functions of order $p$, $f_l^*$ is the projection of $f$ on $\mathcal{F}_l^{(p)}$ and encoded as low-pass coefficients $F_l^*$, and $g_l^*$ is the residual function in orthogonal subspace $\mathcal{G}_l^{(p)}$ (where $\mathcal{G}_l^{(p)} \oplus \mathcal{F}_l^{(p)} = \mathcal{F}_{l+1}^{(p)}$) and encoded as high-pass coefficients $G_l^*$. 本稿では, [1] に対する符号化性能を向上させるために, レベル $l+1 で $f_{l+1}^*$ を, レベル $l$ で$f_l^*$ を, レベル $p=1 のケースで $g_l^*$ をエンコーディングする (raht($$$))。 本稿では,MPEG-PCCにおけるRAHT(1)線形予測を理論的枠組みで定式化し,二元フィルタの多項式を用いた非線形予測器を提案する。 臨界サンプリングされたハイパス係数$G_l^*$のエンコーディングを効率的に計算する方程式を導出する。 速度歪みラグランジアンを最小化することにより、大量の点雲のトレーニングセット上のフィードフォワードネットワークのパラメータを最適化する。 実験結果から,MPEG G-PCC予測器のビットレート削減効果は,MPEG G-PCC予測器よりも11~12\%向上した。

We study 3D point cloud attribute compression via a volumetric approach: assuming point cloud geometry is known at both encoder and decoder, parameters $\theta$ of a continuous attribute function $f: \mathbb{R}^3 \mapsto \mathbb{R}$ are quantized to $\hat{\theta}$ and encoded, so that discrete samples $f_{\hat{\theta}}(\mathbf{x}_i)$ can be recovered at known 3D points $\mathbf{x}_i \in \mathbb{R}^3$ at the decoder. Specifically, we consider a nested sequences of function subspaces $\mathcal{F}^{(p)}_{l_0} \subseteq \cdots \subseteq \mathcal{F}^{(p)}_L$, where $\mathcal{F}_l^{(p)}$ is a family of functions spanned by B-spline basis functions of order $p$, $f_l^*$ is the projection of $f$ on $\mathcal{F}_l^{(p)}$ and encoded as low-pass coefficients $F_l^*$, and $g_l^*$ is the residual function in orthogonal subspace $\mathcal{G}_l^{(p)}$ (where $\mathcal{G}_l^{(p)} \oplus \mathcal{F}_l^{(p)} = \mathcal{F}_{l+1}^{(p)}$) and encoded as high-pass coefficients $G_l^*$. In this paper, to improve coding performance over [1], we study predicting $f_{l+1}^*$ at level $l+1$ given $f_l^*$ at level $l$ and encoding of $G_l^*$ for the $p=1$ case (RAHT($1$)). For the prediction, we formalize RAHT(1) linear prediction in MPEG-PCC in a theoretical framework, and propose a new nonlinear predictor using a polynomial of bilateral filter. We derive equations to efficiently compute the critically sampled high-pass coefficients $G_l^*$ amenable to encoding. We optimize parameters in our resulting feed-forward network on a large training set of point clouds by minimizing a rate-distortion Lagrangian. Experimental results show that our improved framework outperformed the MPEG G-PCC predictor by $11$ to $12\%$ in bit rate reduction.
翻訳日:2023-11-23 14:13:02 公開日:2023-11-22
# Speak Like a Native: 大規模言語モデルをネイティブスタイルで提案する

Speak Like a Native: Prompting Large Language Models in a Native Style ( http://arxiv.org/abs/2311.13538v1 )

ライセンス: Link先を確認
Zhicheng Yang, Yiwei Wang, Yinya Huang, Jing Xiong, Xiaodan Liang, Jing Tang(参考訳) 既存の研究によると、プロンプトエンジニアリングは大規模言語モデル(llm)のパフォーマンスに大きな影響を与えている。 人気のあるプロンプトエンジニアリング技術であるchain-of-thought(cot)は、コンテキスト内例と推論ステップを使ってllmを誘導した。 最近の研究では、コットの数少ない例は一般に人間が手作りしている。 しかし、文脈内例のテキストスタイルがLLMの出力にどのように影響するかはまだ未解明のままである。 本稿では, LLMのネイティブスタイルとコンテキスト内例を整合させることにより, LLMの推論能力を向上させるために, 新規で効果的なアプローチである「textbf{AlignCoT}」を提案する。 `Native'' は、オリジナルのゼロショットシナリオによって探索できる LLM 固有の特性スタイルを指す。 aligncotは他のプロンプトエンジニアリング手法と直交しており、最先端の技術と組み合わせることでllmsの性能をさらに向上することができる。 いくつかのベンチマークで広範囲で包括的な実験を行う。 実験結果から,aligncotsignificiclyは,手作りのインコンテキスト例よりもパフォーマンスが向上することが示された。 例えば, GPT-3.5-turboでは, GSM8Kは2.5%改善した。 さらに,最先端のプロンプトエンジニアリング手法と組み合わせることで,性能を一貫して向上させる。 ソースコードとデータセットは \href{https://github.com/yangzhch6/AlignCoT}{https://github.com/yangzhch6/AlignCoT} で入手できる。

Existing work has found that the prompt engineering heavily influences the performance of large language models (LLMs). Chain-of-thought (CoT), as a popular prompt engineering technique, prompted LLMs using in-context examples with reasoning steps. In current studies, the few-shot examples of CoT are generally handcrafted by humans. However, how the text style of in-context examples influence the outputs of LLMs still remains under-explored. This paper presents a novel and effective approach, named \textbf{AlignCoT}, to improve the reasoning capability of LLMs by aligning the in-context examples with the native style of LLMs. ``Native'' refers to the inherent characteristic style of LLMs which can be probed by original zero-shot scenarios. AlignCoT is orthogonal to other prompt engineering methods, making it easy to combine with state-of-the-art techniques to further improve the LLMs' performance. We conduct extensive and comprehensive experiments on several benchmarks. The empirical results demonstrate that our AlignCoTsignificantly improves performance over the carefully handcrafted in-context examples. For instance, with GPT-3.5-turbo, we observed a +2.5\% improvement on GSM8K. Furthermore, our AlignCoT consistently improve the performance when combined with other state-of-the-art prompt engineering methods. The source code and dataset will be available at \href{https://github.com/yangzhch6/AlignCoT}{https://github.com/yangzhch6/AlignCoT}.
翻訳日:2023-11-23 14:12:14 公開日:2023-11-22
# 量子熱力学における極限フラックス

Limiting flux in quantum thermodynamics ( http://arxiv.org/abs/2311.13536v1 )

ライセンス: Link先を確認
Domingos S. P. Salazar(参考訳) 量子系では、エントロピー生成は2つの状態の間の量子相対エントロピーとして定義される。 この定義は、有界可観測物の任意のフラックス(粒子、エネルギー、エントロピーなど)に対して上界を与えるが、これは特に平衡付近で有用である。 しかし、この境界は一般の非平衡状態では無関係である。 量子相対エントロピーの観点でそのようなフラックスに対する新しい上限を提案し、平衡から遠く、強い結合状態においても適用できる。 さらに、この境界をランダムな量子ビットとコヒーレンスを持つモンテカルロシミュレーションと、2つの相互作用する核スピンのモデルと比較する。

In quantum systems, entropy production is typically defined as the quantum relative entropy between two states. This definition provides an upper bound for any flux (of particles, energy, entropy, etc.) of bounded observables, which proves especially useful near equilibrium. However, this bound tends to be irrelevant in general nonequilibrium situations. We propose a new upper bound for such fluxes in terms of quantum relative entropy, applicable even far from equilibrium and in the strong coupling regime. Additionally, we compare this bound with Monte Carlo simulations of random qubits with coherence, as well as with a model of two interacting nuclear spins.
翻訳日:2023-11-23 14:11:46 公開日:2023-11-22
# DiffusionMat: シーケンシャルリファインメント学習としてのAlpha Matting

DiffusionMat: Alpha Matting as Sequential Refinement Learning ( http://arxiv.org/abs/2311.13535v1 )

ライセンス: Link先を確認
Yangyang Xu, Shengfeng He, Wenqi Shao, Kwan-Yee K. Wong, Yu Qiao, Ping Luo(参考訳) 本稿では,粗いアルファマットから洗練されたアルファマットへの遷移に拡散モデルを用いる新しい画像マッティングフレームワークである diffusionmat を提案する。 提案手法は,トリマップをアルファマット予測の緩いガイダンスとしてのみ利用する従来の手法と異なり,画像マッチングを逐次改良学習プロセスとして扱う。 このプロセスは、トリマップへのノイズの追加から始まり、事前訓練された拡散モデルを用いてそれらを反復的に分解し、クリーンなアルファマットへの予測を漸進的に導く。 我々のフレームワークのキーとなる革新は、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する補正モジュールである。 また、信頼性の高いアルファ情報を用いてトリマップ領域を選択的に拡張することにより、利用可能なガイダンスの有用性を最大化する新しい手法であるAlpha Reliability Propagationを導入する。 修正モジュールをトレーニングするために,アルファマットのエッジの精度と不透明かつ透明な領域の整合性を目標とした特別な損失関数を考案した。 本研究では,複数の画像マットングベンチマークを用いてモデルの評価を行い,distributionmatが既存の手法を一貫して上回っていることを示す。 Project page at~\url{https://cnnlstm.github.io/DiffusionMat

In this paper, we introduce DiffusionMat, a novel image matting framework that employs a diffusion model for the transition from coarse to refined alpha mattes. Diverging from conventional methods that utilize trimaps merely as loose guidance for alpha matte prediction, our approach treats image matting as a sequential refinement learning process. This process begins with the addition of noise to trimaps and iteratively denoises them using a pre-trained diffusion model, which incrementally guides the prediction towards a clean alpha matte. The key innovation of our framework is a correction module that adjusts the output at each denoising step, ensuring that the final result is consistent with the input image's structures. We also introduce the Alpha Reliability Propagation, a novel technique designed to maximize the utility of available guidance by selectively enhancing the trimap regions with confident alpha information, thus simplifying the correction task. To train the correction module, we devise specialized loss functions that target the accuracy of the alpha matte's edges and the consistency of its opaque and transparent regions. We evaluate our model across several image matting benchmarks, and the results indicate that DiffusionMat consistently outperforms existing methods. Project page at~\url{https://cnnlstm.github.io/DiffusionMat
翻訳日:2023-11-23 14:11:35 公開日:2023-11-22
# コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation ( http://arxiv.org/abs/2311.13602v1 )

ライセンス: Link先を確認
Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa(参考訳) コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。 本稿では,現在のレイアウト生成手法が,高次元レイアウト構造のための限られたトレーニングデータに苦しむことを論じる。 単純な検索拡張により生成品質が大幅に向上することを示す。 Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。 本モデルは,様々な制御可能な生成タスクに検索拡張を適用し,統一アーキテクチャ内で高品質なレイアウトを実現する。 我々の広範囲な実験により、RALFは制約付きおよび制約なしの設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。

Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines.
翻訳日:2023-11-23 14:03:51 公開日:2023-11-22
# visual in-context プロンプト

Visual In-Context Prompting ( http://arxiv.org/abs/2311.13601v1 )

ライセンス: Link先を確認
Feng Li, Qing Jiang, Hao Zhang, Tianhe Ren, Shilong Liu, Xueyan Zou, Huaizhe Xu, Hongyang Li, Chunyuan Li, Jianwei Yang, Lei Zhang, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)におけるインコンテキストプロンプトは、ゼロショット機能を改善するための一般的なアプローチとなっているが、このアイデアはビジョン領域では研究されていない。 既存の視覚的プロンプト手法は、セグメンテーションを参照して最も関係のあるオブジェクトをセグメンテーションすることに焦点を当てており、オープンセットセグメンテーションや検出のような多くの一般的なビジョンタスクに対処するに足らない。 本稿では,両タスクのためのユニバーサルビジュアルインコンテキストプロンプトフレームワークを提案する。 特に、エンコーダ-デコーダアーキテクチャの上に構築し、ストローク、ボックス、ポイントといったさまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発しています。 さらに、任意の数の参照画像セグメントをコンテキストとして取り込むように拡張する。 広範囲にわたる調査の結果から,提案する視覚的インコンテキストは,参照と検出のための特別な参照と汎用的なセグメンテーション能力を示し,クローズドなドメイン内データセットに対する競合性能をもたらし,多くのオープンセットセグメンテーションデータセットで有望な結果を示す。 COCOとSA-1Bの合同トレーニングにより、当社のモデルはCOCOで57.7ドル、ADE20Kで23.2ドルとなる。 コードはhttps://github.com/UX-Decoder/DINOv.comから入手できる。

In-context prompting in large language models (LLMs) has become a prevalent approach to improve zero-shot capabilities, but this idea is less explored in the vision domain. Existing visual prompting methods focus on referring segmentation to segment the most relevant object, falling short of addressing many generic vision tasks like open-set segmentation and detection. In this paper, we introduce a universal visual in-context prompting framework for both tasks. In particular, we build on top of an encoder-decoder architecture, and develop a versatile prompt encoder to support a variety of prompts like strokes, boxes, and points. We further enhance it to take an arbitrary number of reference image segments as the context. Our extensive explorations show that the proposed visual in-context prompting elicits extraordinary referring and generic segmentation capabilities to refer and detect, yielding competitive performance to close-set in-domain datasets and showing promising results on many open-set segmentation datasets. By joint training on COCO and SA-1B, our model achieves $57.7$ PQ on COCO and $23.2$ PQ on ADE20K. Code will be available at https://github.com/UX-Decoder/DINOv.
翻訳日:2023-11-23 14:03:35 公開日:2023-11-22
# ZipLoRA:LoRAを効果的にマージするあらゆるスタイルの課題

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs ( http://arxiv.org/abs/2311.13600v1 )

ライセンス: Link先を確認
Viraj Shah, Nataniel Ruiz, Forrester Cole, Erika Lu, Svetlana Lazebnik, Yuanzhen Li, Varun Jampani(参考訳) 概念駆動パーソナライゼーションのための生成モデルの微調整方法は、一般的に主題駆動またはスタイル駆動生成において強い結果を得る。 近年,概念駆動型パーソナライゼーションを実現する手段として,ローランク適応(LoRA)が提案されている。 最近の研究は、学習スタイルと主題の合同生成を実現するために別々のLoRAの組み合わせを探求しているが、既存のテクニックは問題に確実に対処しない。 ZipLoRAは、ユーザが提供する任意のオブジェクトをユーザが提供するスタイルで生成するために、独立して訓練されたスタイルと主題のLoRAを安価かつ効果的にマージする手法である。 幅広い主題とスタイルの組み合わせの実験により、ZipLoRAは、テキスト化の能力を保ちながら、主題のベースラインやスタイルの忠実さよりも有意義な改善を施した説得力のある結果が得られることが示された。 プロジェクトページ: https://ziplora.github.io

Methods for finetuning generative models for concept-driven personalization generally achieve strong results for subject-driven or style-driven generation. Recently, low-rank adaptations (LoRA) have been proposed as a parameter-efficient way of achieving concept-driven personalization. While recent work explores the combination of separate LoRAs to achieve joint generation of learned styles and subjects, existing techniques do not reliably address the problem; they often compromise either subject fidelity or style fidelity. We propose ZipLoRA, a method to cheaply and effectively merge independently trained style and subject LoRAs in order to achieve generation of any user-provided subject in any user-provided style. Experiments on a wide range of subject and style combinations show that ZipLoRA can generate compelling results with meaningful improvements over baselines in subject and style fidelity while preserving the ability to recontextualize. Project page: https://ziplora.github.io
翻訳日:2023-11-23 14:03:10 公開日:2023-11-22
# T-Rex: Visual Promptingによるカウント

T-Rex: Counting by Visual Prompting ( http://arxiv.org/abs/2311.13596v1 )

ライセンス: Link先を確認
Qing Jiang, Feng Li, Tianhe Ren, Shilong Liu, Zhaoyang Zeng, Kent Yu, Lei Zhang(参考訳) t-rexは対話型オブジェクトカウントモデルで,まず任意のオブジェクトを検出し,その後にカウントするように設計されている。 視覚的プロンプトを統合したオープンセットオブジェクト検出タスクとしてオブジェクトカウントを定式化する。 ユーザは、参照イメージにポイントやボックスをマークすることで、関心のあるオブジェクトを指定することができ、T-Rexは、同じパターンですべてのオブジェクトを検出する。 T-Rexの視覚的フィードバックによってガイドされたユーザは、行方不明または誤検出されたオブジェクトをプッシュすることで、計測結果をインタラクティブに洗練することができる。 T-Rexはいくつかのクラスに依存しないカウントベンチマークで最先端のパフォーマンスを達成した。 その可能性をさらに活用するため,我々は様々なシナリオや課題を包含する新しい計数ベンチマークを確立した。 定量的および定性的な結果は、T-Rexが例外的なゼロショットカウント能力を持っていることを示している。 また,t-rexの様々な実用的応用シナリオを提示し,視覚的プロンプトの領域におけるその可能性を示す。

We introduce T-Rex, an interactive object counting model designed to first detect and then count any objects. We formulate object counting as an open-set object detection task with the integration of visual prompts. Users can specify the objects of interest by marking points or boxes on a reference image, and T-Rex then detects all objects with a similar pattern. Guided by the visual feedback from T-Rex, users can also interactively refine the counting results by prompting on missing or falsely-detected objects. T-Rex has achieved state-of-the-art performance on several class-agnostic counting benchmarks. To further exploit its potential, we established a new counting benchmark encompassing diverse scenarios and challenges. Both quantitative and qualitative results show that T-Rex possesses exceptional zero-shot counting capabilities. We also present various practical application scenarios for T-Rex, illustrating its potential in the realm of visual prompting.
翻訳日:2023-11-23 14:02:55 公開日:2023-11-22
# 共分散アライメント:最大推定からGromov-Wassersteinまで

Covariance alignment: from maximum likelihood estimation to Gromov-Wasserstein ( http://arxiv.org/abs/2311.13595v1 )

ライセンス: Link先を確認
Yanjun Han, Philippe Rigollet, George Stepaniants(参考訳) 機能アライメント手法は、多くの科学分野において、データプーリング、アノテーション、比較に使われる。 置換学習問題の例として、特徴アライメントは重要な統計的および計算上の課題を示す。 本研究では, 共分散アライメントモデルを提案し, 様々なアライメント手法を研究・比較し, ニュアンスパラメータの存在により非標準次元のスケーリングを有する共分散アライメントのためのミニマックス下界を確立する。 この下界は、実際には極小極小であり、自然準 MLE によって達成される。 しかし、この推定器は、問題が適度な大きさであっても計算不可能な全ての置換を探索する。 この制限を克服するために、大規模問題においても高速な実装が可能である最適輸送からのグロモフ・ワッサースタインアルゴリズムも最小限最適であることを示す。 これらの結果は、Gromov-Wassersteinアルゴリズムを実際に展開するための最初の統計的正当化を与える。

Feature alignment methods are used in many scientific disciplines for data pooling, annotation, and comparison. As an instance of a permutation learning problem, feature alignment presents significant statistical and computational challenges. In this work, we propose the covariance alignment model to study and compare various alignment methods and establish a minimax lower bound for covariance alignment that has a non-standard dimension scaling because of the presence of a nuisance parameter. This lower bound is in fact minimax optimal and is achieved by a natural quasi MLE. However, this estimator involves a search over all permutations which is computationally infeasible even when the problem has moderate size. To overcome this limitation, we show that the celebrated Gromov-Wasserstein algorithm from optimal transport which is more amenable to fast implementation even on large-scale problems is also minimax optimal. These results give the first statistical justification for the deployment of the Gromov-Wasserstein algorithm in practice.
翻訳日:2023-11-23 14:02:40 公開日:2023-11-22
# 逆認識による神経表現のラベリング

Labeling Neural Representations with Inverse Recognition ( http://arxiv.org/abs/2311.13594v1 )

ライセンス: Link先を確認
Kirill Bykov, Laura Kopf, Shinichi Nakajima, Marius Kloft, Marina M.-C. H\"ohne(参考訳) ディープニューラルネットワーク(dnn)は、複雑な階層的データ表現を学習する顕著な能力を示したが、これらの表現の性質はほとんど不明である。 ネットワーク分割のような既存のグローバル説明可能性法は、セグメンテーションマスクへの依存、統計学的意義試験の欠如、高い計算要求といった制限に直面している。 Inverse Recognition(INVERT)は,これらの概念を識別する能力を活用して,学習した表現と人間の理解可能な概念を結合するスケーラブルな手法である。 以前の研究とは対照的に、INVERTは多様な種類のニューロンを処理でき、計算の複雑さが小さく、セグメンテーションマスクの可用性に依存しない。 さらに、INVERTは、表現とその対応する説明との整合性を評価し、その有用性と信頼性を強調する統計的意義の尺度を提供する解釈可能な指標を提供する。 本研究では,スプリアス相関の影響を受ける表現の同定,モデル内の意思決定の階層構造解釈など,様々なシナリオにおける逆解析の適用性を示す。

Deep Neural Networks (DNNs) demonstrated remarkable capabilities in learning complex hierarchical data representations, but the nature of these representations remains largely unknown. Existing global explainability methods, such as Network Dissection, face limitations such as reliance on segmentation masks, lack of statistical significance testing, and high computational demands. We propose Inverse Recognition (INVERT), a scalable approach for connecting learned representations with human-understandable concepts by leveraging their capacity to discriminate between these concepts. In contrast to prior work, INVERT is capable of handling diverse types of neurons, exhibits less computational complexity, and does not rely on the availability of segmentation masks. Moreover, INVERT provides an interpretable metric assessing the alignment between the representation and its corresponding explanation and delivering a measure of statistical significance, emphasizing its utility and credibility. We demonstrate the applicability of INVERT in various scenarios, including the identification of representations affected by spurious correlations, and the interpretation of the hierarchical structure of decision-making within the models.
翻訳日:2023-11-23 14:02:25 公開日:2023-11-22
# リスクに敏感なマルコフ決定プロセスと一般ユーティリティ機能による学習

Risk-sensitive Markov Decision Process and Learning under General Utility Functions ( http://arxiv.org/abs/2311.13589v1 )

ライセンス: Link先を確認
Zhengqi Wu and Renyuan Xu(参考訳) 強化学習(rl)は、様々なアプリケーションドメインと理論的調査でかなりの注目を集めている。 既存のRL理論に関する文献は主に、意思決定者が期待される累積報酬を最大化するために学習するリスク中立的な設定に焦点を当てている。 しかし、ポートフォリオ管理やeコマースレコメンデーションのような実践的なシナリオでは、意思決定者は結果の不確実性による不均一なリスク選好を継続することが多い。 これらの選好を定式化することはユーティリティ理論によってアプローチできるが、一般的なユーティリティ関数の下でのリスク感応性RLの開発は、理論的な探索において未解決の課題である。 本稿では,意思決定者がマルコフ決定過程(mdp)の枠組みにおいて累積報酬の一般効用関数を最適化しようとするシナリオについて考察する。 動的プログラミング原理とベルマン方程式を容易にするために、累積報酬を考慮した追加次元で状態空間を拡大する。 本稿では,拡張状態空間下でのMDPに対する離散化近似手法を提案する。 次に、累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。 シミュレータがアクセス可能であれば,提案アルゴリズムは標本の複雑さを保証した準最適ポリシーを効率的に学習する。 シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適方針を定めながら,保証された後悔境界を確保した。 両アルゴリズムは,リスクニュートラル設定の理論的下界と一致する。

Reinforcement Learning (RL) has gained substantial attention across diverse application domains and theoretical investigations. Existing literature on RL theory largely focuses on risk-neutral settings where the decision-maker learns to maximize the expected cumulative reward. However, in practical scenarios such as portfolio management and e-commerce recommendations, decision-makers often persist in heterogeneous risk preferences subject to outcome uncertainties, which can not be well-captured by the risk-neural framework. Incorporating these preferences can be approached through utility theory, yet the development of risk-sensitive RL under general utility functions remains an open question for theoretical exploration. In this paper, we consider a scenario where the decision-maker seeks to optimize a general utility function of the cumulative reward in the framework of a Markov decision process (MDP). To facilitate the Dynamic Programming Principle and Bellman equation, we enlarge the state space with an additional dimension that accounts for the cumulative reward. We propose a discretized approximation scheme to the MDP under enlarged state space, which is tractable and key for algorithmic design. We then propose a modified value iteration algorithm that employs an epsilon-covering over the space of cumulative reward. When a simulator is accessible, our algorithm efficiently learns a near-optimal policy with guaranteed sample complexity. In the absence of a simulator, our algorithm, designed with an upper-confidence-bound exploration approach, identifies a near-optimal policy while ensuring a guaranteed regret bound. For both algorithms, we match the theoretical lower bounds for the risk-neutral setting.
翻訳日:2023-11-23 14:02:08 公開日:2023-11-22
# サーバレス機械学習モデル推論に関する調査

A Survey of Serverless Machine Learning Model Inference ( http://arxiv.org/abs/2311.13587v1 )

ライセンス: Link先を確認
Kamil Kojs(参考訳) ジェネレーティブAI、コンピュータビジョン、自然言語処理の最近の進歩により、AIモデルがさまざまな製品に統合されるようになった。 このAIの普及は、これらのモデルを本番環境にデプロイする上で、多大な努力を必要とする。 リアルタイム予測のために機械学習モデルをホスティングする場合、定義されたサービスレベルオブジェクト(SLO)を満足し、信頼性を確保し、ダウンタイムを最小限にし、基盤となるインフラストラクチャの運用コストを最適化することが重要です。 大規模な機械学習モデルは、しばしばSLOを満たすための効率的な推論のためにGPUリソースを要求する。 これらのトレンドの文脈では、推論タスクにGPUアクセスを提供しながら、サーバレスアーキテクチャでAIモデルをホストすることへの関心が高まっている。 本調査は,大規模ディープラーニングサービスシステムの新たな課題と最適化機会を要約し,分類することを目的とする。 新たな分類学を提供し、最近の傾向を要約することによって、この調査が新たな最適化の視点に光を当て、大規模深層学習サービスシステムにおける新しい研究を動機付けることを期待する。

Recent developments in Generative AI, Computer Vision, and Natural Language Processing have led to an increased integration of AI models into various products. This widespread adoption of AI requires significant efforts in deploying these models in production environments. When hosting machine learning models for real-time predictions, it is important to meet defined Service Level Objectives (SLOs), ensuring reliability, minimal downtime, and optimizing operational costs of the underlying infrastructure. Large machine learning models often demand GPU resources for efficient inference to meet SLOs. In the context of these trends, there is growing interest in hosting AI models in a serverless architecture while still providing GPU access for inference tasks. This survey aims to summarize and categorize the emerging challenges and optimization opportunities for large-scale deep learning serving systems. By providing a novel taxonomy and summarizing recent trends, we hope that this survey could shed light on new optimization perspectives and motivate novel works in large-scale deep learning serving systems.
翻訳日:2023-11-23 14:01:41 公開日:2023-11-22
# 拡散に基づく生成モデルとその誤差境界について:完全収束推定をもつ対数凹の場合

On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates ( http://arxiv.org/abs/2311.13584v1 )

ライセンス: Link先を確認
Stefano Bruno, Ying Zhang, Dong-Young Lim, \"Omer Deniz Akyildiz and Sotirios Sabanis(参考訳) スコア推定に用いる近似関数のクラスはリプシッツ連続関数である一方, 強logconcaveデータ分布を仮定した拡散型生成モデルの収束挙動に関する完全な理論的保証を提供する。 モチベーションの例を通して、未知の平均を持つガウス分布からサンプリングし、我々のアプローチの強力さを示す。 この場合、関連する最適化問題、すなわちスコア近似に対して明示的な推定が提供され、それらと対応するサンプリング推定とを組み合わせる。 その結果、データ分布(ガウス平均)とサンプリングアルゴリズムの間のワッサーシュタイン-2距離について、興味の量や収束率などの重要な値から最もよく知られた上限推定値を得ることができた。 モチベーションの他に,様々な確率的最適化器の使用を可能にするために,我々は,確率的最適化器に対する期待と,既知の情報のみを使用する新たな補助プロセスの下で決定的に形成される$l^2$-accurateスコア推定仮定を用いて結果を提示する。 この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。

We provide full theoretical guarantees for the convergence behaviour of diffusion-based generative models under the assumption of strongly logconcave data distributions while our approximating class of functions used for score estimation is made of Lipschitz continuous functions. We demonstrate via a motivating example, sampling from a Gaussian distribution with unknown mean, the powerfulness of our approach. In this case, explicit estimates are provided for the associated optimization problem, i.e. score approximation, while these are combined with the corresponding sampling estimates. As a result, we obtain the best known upper bound estimates in terms of key quantities of interest, such as the dimension and rates of convergence, for the Wasserstein-2 distance between the data distribution (Gaussian with unknown mean) and our sampling algorithm. Beyond the motivating example and in order to allow for the use of a diverse range of stochastic optimizers, we present our results using an $L^2$-accurate score estimation assumption, which crucially is formed under an expectation with respect to the stochastic optimizer and our novel auxiliary process that uses only known information. This approach yields the best known convergence rate for our sampling algorithm.
翻訳日:2023-11-23 14:01:26 公開日:2023-11-22
# 効率的な非パラメトリックプロキシによるディープラーニングのための適応サンプリング

Adaptive Sampling for Deep Learning via Efficient Nonparametric Proxies ( http://arxiv.org/abs/2311.13583v1 )

ライセンス: Link先を確認
Shabnam Daghaghi, Benjamin Coleman, Benito Geordie, Anshumali Shrivastava(参考訳) データサンプリングは、ニューラルネットワークのトレーニング速度を改善する効果的な方法であり、最近の結果は、ニューラルネットワークのスケーリング法則を破ることさえできることを示している。 これらの結果は、ネットワークへの入力の重要性を推定するために、高品質なスコアに依存する。 静的サンプリングにはトレーニング前にスコアが決定される静的サンプリングと,モデルの重みに依存する動的サンプリングという2つの主要な戦略がある。 静的アルゴリズムは計算コストが安いが、動的アルゴリズムよりも効果が低いため、損失を明示的に計算する必要があるため、エンド・ツー・エンドの減速を引き起こす可能性がある。 この問題に対処するために、ニューラルネットワークのトレーニングにおいて有効な重要スコアを学習する非パラメトリックカーネル回帰に基づく新しいサンプリング分布を提案する。 しかし、非パラメトリック回帰モデルは、エンドツーエンドのトレーニングを加速するには計算コストが高すぎる。 そこで我々は,Nadaraya-Watson推定器に対する効率的なスケッチベース近似を開発した。 高次元統計とランダム化アルゴリズムによる最近の手法を用いて,我々のnadaraya-watsonスケッチが指数収束保証付き推定器を近似していることを証明する。 サンプリングアルゴリズムは,4つのデータセットに対して,壁面時間と精度でベースラインを上回っている。

Data sampling is an effective method to improve the training speed of neural networks, with recent results demonstrating that it can even break the neural scaling laws. These results critically rely on high-quality scores to estimate the importance of an input to the network. We observe that there are two dominant strategies: static sampling, where the scores are determined before training, and dynamic sampling, where the scores can depend on the model weights. Static algorithms are computationally inexpensive but less effective than their dynamic counterparts, which can cause end-to-end slowdown due to their need to explicitly compute losses. To address this problem, we propose a novel sampling distribution based on nonparametric kernel regression that learns an effective importance score as the neural network trains. However, nonparametric regression models are too computationally expensive to accelerate end-to-end training. Therefore, we develop an efficient sketch-based approximation to the Nadaraya-Watson estimator. Using recent techniques from high-dimensional statistics and randomized algorithms, we prove that our Nadaraya-Watson sketch approximates the estimator with exponential convergence guarantees. Our sampling algorithm outperforms the baseline in terms of wall-clock time and accuracy on four datasets.
翻訳日:2023-11-23 14:01:05 公開日:2023-11-22
# pass:並列投機的サンプリング

PaSS: Parallel Speculative Sampling ( http://arxiv.org/abs/2311.13581v1 )

ライセンス: Link先を確認
Giovanni Monea, Armand Joulin, Edouard Grave(参考訳) 言語モデルのサイズを数十億のパラメータに拡大することで、幅広いタスクで素晴らしいパフォーマンスを実現しています。 生成時、これらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスが必要となり、メモリからパラメータの完全なセットを読み込む。 このメモリアクセスは生成の主要なボトルネックを形成し、モデルのサイズが大きくなるにつれて悪化する。 さらに、複数のトークンのフォワードパスを並列に実行するには、1つのトークンとほぼ同じ時間を要することが多い。 これら2つの観測により投機的サンプリングが発展し、2つ目の小さなモデルがいくつかのトークンをドラフトするために使われ、大きなモデルの1つの前方パスを使用して検証または拒否される。 残念なことに、この方法は2つのモデルを必要とする。 代替案として,計算コストや第2モデルの必要性なしに,単一のモデルから複数のトークンを描画する方法として並列デコードを使用することを提案する。 我々のアプローチでは、同時に生成される単語をマークする追加の入力トークンのみを必要とします。 有望なパフォーマンス(最大$30\%$のスピードアップ)を示していますが、追加パラメータは最低$o(d_{emb})$しか必要ありません。

Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30\%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.
翻訳日:2023-11-23 14:00:47 公開日:2023-11-22
# $\sigma$-PCA:線形および非線形主成分分析のための統一ニューラルネットワークモデル

$\sigma$-PCA: a unified neural model for linear and nonlinear principal component analysis ( http://arxiv.org/abs/2311.13580v1 )

ライセンス: Link先を確認
Fahdi Kanavati, Lucy Katsnith, Masayuki Tsuneki(参考訳) 線形主成分分析(PCA)、非線形PCA、線形独立成分分析(ICA)は、データから線形変換を学ぶための単層オートエンコーダを用いた3つの方法である。 線形PCAは、東洋軸が分散を最大化するために直交変換(回転)を学ぶが、これは部分空間回転の不確定性(英語版)(subspace rotational indeterminacy)に悩まされる。 非線形PCAと線形ICAは、単位分散の仮定の下で統計的独立性を最大化することにより、部分空間の不確定性を回転から置換に還元する。 それらの主な違いは、非線形PCAは回転のみを学習し、線型ICAは回転だけでなく、単位分散を伴う線形変換も学習する点である。 これら3つの関係は、線形ICA変換の特異値分解を回転、スケール、回転の列に分解することで理解することができる。 線形PCAは第1回転を学習し、非線形PCAは第2回転を学習する。 スケールは単に標準偏差の逆である。 問題は、線形なpcaとは対照的に、従来の非線形pcaをデータに直接使用して最初の回転を学ぶことができないことである。 本稿では,その原因を特定し,一層オートエンコーダとして線形および非線形PCAの統一ニューラルモデルである$\sigma$-PCAを提案する。 重要な要素の1つは、回転だけでなくスケールもモデル化することである。 このモデルは線形PCAと非線形PCAの相違を橋渡しする。 したがって、線形PCAと同様に、次元と秩序を分散によって減少させる半直交変換を学ぶことができるが、線形PCAとは異なり、回転の不確定性に苦しむことはない。

Linear principal component analysis (PCA), nonlinear PCA, and linear independent component analysis (ICA) -- those are three methods with single-layer autoencoder formulations for learning linear transformations from data. Linear PCA learns orthogonal transformations (rotations) that orient axes to maximise variance, but it suffers from a subspace rotational indeterminacy: it fails to find a unique rotation for axes that share the same variance. Both nonlinear PCA and linear ICA reduce the subspace indeterminacy from rotational to permutational by maximising statistical independence under the assumption of unit variance. The main difference between them is that nonlinear PCA only learns rotations while linear ICA learns not just rotations but any linear transformation with unit variance. The relationship between all three can be understood by the singular value decomposition of the linear ICA transformation into a sequence of rotation, scale, rotation. Linear PCA learns the first rotation; nonlinear PCA learns the second. The scale is simply the inverse of the standard deviations. The problem is that, in contrast to linear PCA, conventional nonlinear PCA cannot be used directly on the data to learn the first rotation, the first being special as it reduces dimensionality and orders by variances. In this paper, we have identified the cause, and as a solution we propose $\sigma$-PCA: a unified neural model for linear and nonlinear PCA as single-layer autoencoders. One of its key ingredients: modelling not just the rotation but also the scale -- the variances. This model bridges the disparity between linear and nonlinear PCA. And so, like linear PCA, it can learn a semi-orthogonal transformation that reduces dimensionality and orders by variances, but, unlike linear PCA, it does not suffer from rotational indeterminacy.
翻訳日:2023-11-23 14:00:25 公開日:2023-11-22
# 家庭内エンボディエージェントの理屈と物計画

Physical Reasoning and Object Planning for Household Embodied Agents ( http://arxiv.org/abs/2311.13577v1 )

ライセンス: Link先を確認
Ayush Agrawal, Raghav Prabhakar, Anirudh Goyal, Dianbo Liu(参考訳) 本研究では,ロバストな家庭用エンボディエージェントのためのタスクプランニングの高度領域について検討し,特に代用オブジェクトを選択する複雑なタスクに着目した。 commonsense object affordance task(coat)は、commonsenseのシナリオにおける推論能力を分析するために設計された新しいフレームワークである。 このアプローチは, 実世界の環境における実践的意思決定の複雑さに対する洞察を与え, 人間の意思決定からインスピレーションを得て, 大規模言語モデルがこの課題にどのように対処するかを, 洗練されたルールと人間のアノテーションを特徴とする3つの精巧に構築されたコモンセンスな問合せデータセットを用いて検討する。 これらのデータセットにおける最先端言語モデルの評価は、3つの重要な考察に光を当てる。 1) 対象物固有のユーティリティを手元にあるタスクと整合させる。 2 文脈依存(社会的規範、安全性、適切性及び効率)をナビゲートし、 3) オブジェクトの現在の物理的状態を説明する。 アクセシビリティを維持するために,対象物の物理的状態を反映した5つの抽象変数を導入し,多様な家庭シナリオをシミュレートする。 私たちのコントリビューションには、最初の考慮に対処する洞察に富んだオブジェクト指向マッピングと、コンテキスト依存とオブジェクト状態の複雑さを調査する2つの広範囲なQAデータセット(15kと130kの質問)が含まれています。 データセットは、我々の発見とともに、次のようにアクセス可能である。 この研究は、言語モデルにおける物理コモンセンス推論の理解を深めるだけでなく、家庭エージェントインテリジェンスにおける将来の改善の道を開く。

In this study, we explore the sophisticated domain of task planning for robust household embodied agents, with a particular emphasis on the intricate task of selecting substitute objects. We introduce the CommonSense Object Affordance Task (COAT), a novel framework designed to analyze reasoning capabilities in commonsense scenarios. This approach is centered on understanding how these agents can effectively identify and utilize alternative objects when executing household tasks, thereby offering insights into the complexities of practical decision-making in real-world environments.Drawing inspiration from human decision-making, we explore how large language models tackle this challenge through three meticulously crafted commonsense question-and-answer datasets, featuring refined rules and human annotations. Our evaluation of state-of-the-art language models on these datasets sheds light on three pivotal considerations: 1) aligning an object's inherent utility with the task at hand, 2) navigating contextual dependencies (societal norms, safety, appropriateness, and efficiency), and 3) accounting for the current physical state of the object. To maintain accessibility, we introduce five abstract variables reflecting an object's physical condition, modulated by human insights to simulate diverse household scenarios. Our contributions include insightful Object-Utility mappings addressing the first consideration and two extensive QA datasets (15k and 130k questions) probing the intricacies of contextual dependencies and object states. The datasets, along with our findings, are accessible at: \url{https://github.com/com-phy-affordance/COAT}. This research not only advances our understanding of physical commonsense reasoning in language models but also paves the way for future improvements in household agent intelligence.
翻訳日:2023-11-23 13:59:50 公開日:2023-11-22
# XAGen:3D表現型アバター

XAGen: 3D Expressive Human Avatars Generation ( http://arxiv.org/abs/2311.13574v1 )

ライセンス: Link先を確認
Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Jiashi Feng, Mike Zheng Shou(参考訳) 近年の3D対応GANモデルの進歩により、現実的で制御可能な人体画像の生成が可能になった。 しかし、既存の手法では、顔の表情、顎のポーズ、手のポーズなどの表現力のある属性の操作を無視して、主要な身体関節の制御に焦点を当てている。 本稿では,人体,顔,手の表現制御が可能なアバターのための最初の3次元生成モデルであるxagenを提案する。 顔や手などの小さな領域の忠実度を高めるため,細部をモデル化したマルチスケール・マルチパート3D表現を考案した。 この表現に基づいて,身体,顔,手の合成を分離し,モデルのトレーニングを容易にし,幾何学的品質を向上させるマルチパートレンダリング手法を提案する。 さらに, 生成するアバターの外観や細粒度制御能力に関して, 品質を評価するマルチパート判別器の設計を行った。 実験によれば、xagenは現実主義、多様性、表現力のある制御能力の観点から最先端の手法を上回っている。 コードとデータはhttps://showlab.github.io/xagen.orgで公開される。

Recent advances in 3D-aware GAN models have enabled the generation of realistic and controllable human body images. However, existing methods focus on the control of major body joints, neglecting the manipulation of expressive attributes, such as facial expressions, jaw poses, hand poses, and so on. In this work, we present XAGen, the first 3D generative model for human avatars capable of expressive control over body, face, and hands. To enhance the fidelity of small-scale regions like face and hands, we devise a multi-scale and multi-part 3D representation that models fine details. Based on this representation, we propose a multi-part rendering technique that disentangles the synthesis of body, face, and hands to ease model training and enhance geometric quality. Furthermore, we design multi-part discriminators that evaluate the quality of the generated avatars with respect to their appearance and fine-grained control capabilities. Experiments show that XAGen surpasses state-of-the-art methods in terms of realism, diversity, and expressive control abilities. Code and data will be made available at https://showlab.github.io/xagen.
翻訳日:2023-11-23 13:59:21 公開日:2023-11-22
# WildFusion:ビュースペースにおける3D対応潜伏拡散モデル学習

WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space ( http://arxiv.org/abs/2311.13570v1 )

ライセンス: Link先を確認
Katja Schwarz, Seung Wook Kim, Jun Gao, Sanja Fidler, Andreas Geiger, Karsten Kreis(参考訳) 現代の3次元画像合成への学習に基づくアプローチは、生成した画像に対して高い光リアリズムと3次元一貫性のある視点変化を実現する。 既存のアプローチは共有正準空間のインスタンスを表す。 しかし、内部データセットの場合、共有標準システムは定義が難しいか、存在すらしない可能性がある。 この作業では、ビュースペースのインスタンスをモデル化し、ポーズ画像の必要性を軽減し、カメラの分布を学習する。 この設定では、既存のGANベースの手法は平坦な幾何学を生成する傾向にあり、分布カバレッジに苦慮している。 そこで我々は,潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。 まず,圧縮された潜在表現を推定するオートエンコーダを訓練し,それに加えてイメージの基盤となる3d構造をキャプチャし,再構成だけでなく,新たなビュー合成を可能にする。 忠実な3次元表現を学ぶために、単眼深度予測からヒントを得る。 そして、3D対応潜伏空間における拡散モデルを訓練し、高品質な3D一貫性画像サンプルの合成を可能にする。 重要なことは、我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されており、ポーズ画像や学習ポーズ、カメラ分布を必要としない。 標準のカメラ座標に頼ることなく、3d表現を直接学習する。 これにより、スケーラブルな3D認識画像合成と3Dコンテンツ作成のための有望な研究の道が開ける。 3d結果のビデオはhttps://katjaschwarz.github.io/wildfusionを参照。

Modern learning-based approaches to 3D-aware image synthesis achieve high photorealism and 3D-consistent viewpoint changes for the generated images. Existing approaches represent instances in a shared canonical space. However, for in-the-wild datasets a shared canonical system can be difficult to define or might not even exist. In this work, we instead model instances in view space, alleviating the need for posed images and learned camera distributions. We find that in this setting, existing GAN-based methods are prone to generating flat geometry and struggle with distribution coverage. We hence propose WildFusion, a new approach to 3D-aware image synthesis based on latent diffusion models (LDMs). We first train an autoencoder that infers a compressed latent representation, which additionally captures the images' underlying 3D structure and enables not only reconstruction but also novel view synthesis. To learn a faithful 3D representation, we leverage cues from monocular depth prediction. Then, we train a diffusion model in the 3D-aware latent space, thereby enabling synthesis of high-quality 3D-consistent image samples, outperforming recent state-of-the-art GAN-based methods. Importantly, our 3D-aware LDM is trained without any direct supervision from multiview images or 3D geometry and does not require posed images or learned pose or camera distributions. It directly learns a 3D representation without relying on canonical camera coordinates. This opens up promising research avenues for scalable 3D-aware image synthesis and 3D content creation from in-the-wild image data. See https://katjaschwarz.github.io/wildfusion for videos of our 3D results.
翻訳日:2023-11-23 13:59:04 公開日:2023-11-22
# 動的モジュール展開と適応による生涯シーケンス生成

Lifelong Sequence Generation with Dynamic Module Expansion and Adaptation ( http://arxiv.org/abs/2310.09886v4 )

ライセンス: Link先を確認
Chengwei Qin, Chen Chen, Shafiq Joty(参考訳) 連続学習の課題である生涯シーケンス生成(LSG)は、連続的なタスクのシーケンス上でモデルを継続的に訓練し、過去の知識の忘れを回避しつつ、常に新しい世代パターンを学習することを目的としている。 既存のLSG手法は主に、タスク間の知識伝達にほとんど注意を払わずに、古い知識を維持することに焦点を当てている。 対照的に、人間は以前に獲得した類似のタスクからの知識を活用することで、新しいタスクをよりよく学べる。 ヒトの学習パラダイムにインスパイアされた動的モジュール拡張・適応(DMEA)を提案し,タスク相関に基づく新しい知識獲得のためのアーキテクチャを動的に決定し,最も類似したタスクを選択し,新しいタスクへの適応を容易にする。 さらに,学習プロセスが現在のタスクに偏りやすく,学習前の知識をより厳しく忘れてしまう可能性があることから,現在のタスクと再生タスクの学習のバランスをとるために,動的勾配スケーリングを提案する。 大規模な実験により、DMEAはLSG設定の異なる既存手法より一貫して優れていることを示す。

Lifelong sequence generation (LSG), a problem in continual learning, aims to continually train a model on a sequence of generation tasks to learn constantly emerging new generation patterns while avoiding the forgetting of previous knowledge. Existing LSG methods mainly focus on maintaining old knowledge while paying little attention to knowledge transfer across tasks. In contrast, humans can better learn new tasks by leveraging previously acquired knowledge from similar tasks. Inspired by the learning paradigm of humans, we propose Dynamic Module Expansion and Adaptation (DMEA), which enables the model to dynamically determine the architecture for acquiring new knowledge based on task correlation and select the most similar previous tasks to facilitate adaptation to new tasks. In addition, as the learning process can easily be biased towards the current task which might cause more severe forgetting of previously learned knowledge, we propose dynamic gradient scaling to balance the learning of the current task and replayed tasks. With extensive experiments, we demonstrate that DMEA can consistently outperform existing methods in different LSG settings.
翻訳日:2023-11-23 12:13:20 公開日:2023-11-22
# 自己制御型畳み込み核を用いた手技的特徴調和 : 心エコーによる左室高血圧疾患の増強

Self supervised convolutional kernel based handcrafted feature harmonization: Enhanced left ventricle hypertension disease phenotyping on echocardiography ( http://arxiv.org/abs/2310.08897v3 )

ライセンス: Link先を確認
Jina Lee, Youngtaek Hong, Dawun Jeong, Yeonggul Jang, Jaeik Jeon, Sihyeon Jeong, Taekgeun Jung, Yeonyee E. Yoon, Inki Moon, Seung-Ah Lee, and Hyuk-Jae Chang(参考訳) 医用イメージング技術であるradiomicsは、画像から手作りの定量的特徴を抽出し、疾患を予測する。 これらの機能の調和は、様々なイメージングデバイスやプロトコル間で一貫した特徴抽出を保証する。 調和の方法には、標準化された撮像プロトコル、統計的調整、特徴ロバスト性の評価が含まれる。 左室肥大 (LVH) や高血圧性心疾患 (HHD) などの心筋疾患は心エコー法で診断されるが, 様々な画像設定が課題となる。 このようなシナリオにおいて, ハーモナイズ技術は手作りの特徴を疾患診断に適用するために重要である。 自己教師付き学習(ssl)は、限られたデータセット内のデータ理解を強化し、さまざまなデータ設定に適応する。 ConvNeXt-V2は、畳み込みレイヤをSSLに統合し、さまざまなタスクにおいて優れたパフォーマンスを示す。 本研究は,SSL内の畳み込みフィルタを前処理として,手作り特徴調和のための特徴マップに変換する。 提案手法は調和評価に優れ,既存の手法に比べて優れたLVH分類性能を示した。

Radiomics, a medical imaging technique, extracts quantitative handcrafted features from images to predict diseases. Harmonization in those features ensures consistent feature extraction across various imaging devices and protocols. Methods for harmonization include standardized imaging protocols, statistical adjustments, and evaluating feature robustness. Myocardial diseases such as Left Ventricular Hypertrophy (LVH) and Hypertensive Heart Disease (HHD) are diagnosed via echocardiography, but variable imaging settings pose challenges. Harmonization techniques are crucial for applying handcrafted features in disease diagnosis in such scenario. Self-supervised learning (SSL) enhances data understanding within limited datasets and adapts to diverse data settings. ConvNeXt-V2 integrates convolutional layers into SSL, displaying superior performance in various tasks. This study focuses on convolutional filters within SSL, using them as preprocessing to convert images into feature maps for handcrafted feature harmonization. Our proposed method excelled in harmonization evaluation and exhibited superior LVH classification performance compared to existing methods.
翻訳日:2023-11-23 12:13:01 公開日:2023-11-22
# 予測・精細・合成:確率的時系列予測のための自己誘導拡散モデル

Predict, Refine, Synthesize: Self-Guiding Diffusion Models for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2307.11494v3 )

ライセンス: Link先を確認
Marcel Kollovieh, Abdul Fatir Ansari, Michael Bohlke-Schneider, Jasper Zschiegner, Hao Wang, Yuyang Wang(参考訳) 拡散モデルは、様々な領域にわたる生成モデリングタスクにおいて最先端のパフォーマンスを達成した。 時系列拡散モデルに関する先行研究は、主に特定の予測や計算タスクに適した条件付きモデルの開発に焦点を当てている。 本研究では,複数の時系列アプリケーションにおけるタスクに依存しない非条件拡散モデルの可能性について検討する。 時系列の非条件学習拡散モデルであるTSDiffを提案する。 提案する自己誘導機構は,補助ネットワークやトレーニング手順の変更を必要とせず,推論中の下流タスクの条件付きtsdiffを可能にする。 本手法は,予測,改良,合成データ生成という3つの異なる時系列タスクにおいて有効であることを示す。 まず,TSDiffは複数のタスク固有の条件予測手法(予測)と競合することを示す。 第二に、学習したTSDiffの確率密度を利用して、逆拡散(refine)による計算オーバーヘッドを低減したベース予測器の予測を反復的に洗練する。 tsdiffの合成サンプルでトレーニングされた下流の予測者は、他の最先端生成時系列モデルのサンプルでトレーニングされ、時には実データ(synthesize)でトレーニングされたモデルよりもパフォーマンスが良い場合もあります。

Diffusion models have achieved state-of-the-art performance in generative modeling tasks across various domains. Prior works on time series diffusion models have primarily focused on developing conditional models tailored to specific forecasting or imputation tasks. In this work, we explore the potential of task-agnostic, unconditional diffusion models for several time series applications. We propose TSDiff, an unconditionally-trained diffusion model for time series. Our proposed self-guidance mechanism enables conditioning TSDiff for downstream tasks during inference, without requiring auxiliary networks or altering the training procedure. We demonstrate the effectiveness of our method on three different time series tasks: forecasting, refinement, and synthetic data generation. First, we show that TSDiff is competitive with several task-specific conditional forecasting methods (predict). Second, we leverage the learned implicit probability density of TSDiff to iteratively refine the predictions of base forecasters with reduced computational overhead over reverse diffusion (refine). Notably, the generative performance of the model remains intact -- downstream forecasters trained on synthetic samples from TSDiff outperform forecasters that are trained on samples from other state-of-the-art generative time series models, occasionally even outperforming models trained on real data (synthesize).
翻訳日:2023-11-23 12:12:45 公開日:2023-11-22
# オーバーザ・エアフェデレーション学習のためのチャネルおよびグラデーション・インポータンス・アウェア・スケジューリング

Channel and Gradient-Importance Aware Device Scheduling for Over-the-Air Federated Learning ( http://arxiv.org/abs/2305.16854v3 )

ライセンス: Link先を確認
Yuchang Sun and Zehong lin and Yuyi Mao and Shi Jin and Jun Zhang(参考訳) Federated Learning(FL)は、複数のデバイスが協力して、ローカルモデルの更新をアップロードすることで機械学習モデルをトレーニングする、一般的なプライバシ保護分散トレーニングスキームである。 通信効率を向上させるため、flはアナログ変調を利用して電波の重ね合わせ特性を利用して、多数のデバイスがモデル更新をアグリゲーションに同時にアップロードできるように、aircomp(over-the-air computation)を適用している。 しかし、アップリンクチャネルノイズは、デバイススケジューリングによって決定的に決定され、学習したモデル性能を損なうかなりのモデル凝集歪みを引き起こす。 本稿では,ある確率に応じて各デバイスをスケジュールし,そのモデル更新をこのアグリゲーションの確率を用いて再重み付けする,チャネルノイズの負の影響を軽減するために,PO-FLと呼ばれるオーバーザエアFLの確率的デバイススケジューリングフレームワークを提案する。 この凝集スキームの不偏性を証明し、凸損失関数と非凸損失関数の両方におけるpo-flの収束を実証する。 我々の収束限界は、デバイススケジューリングがコミュニケーションの歪みとグローバル更新のばらつきを通じて学習性能に影響することを明かした。 収束解析に基づいて、PO-FLにおけるデバイススケジューリング確率を最適化するチャネルと勾配重要度認識アルゴリズムをさらに開発する。 広範なシミュレーション結果から,提案手法は,提案手法がベースライン法よりも高速に収束し,より優れたモデルを生成することを示す。

Federated learning (FL) is a popular privacy-preserving distributed training scheme, where multiple devices collaborate to train machine learning models by uploading local model updates. To improve communication efficiency, over-the-air computation (AirComp) has been applied to FL, which leverages analog modulation to harness the superposition property of radio waves such that numerous devices can upload their model updates concurrently for aggregation. However, the uplink channel noise incurs considerable model aggregation distortion, which is critically determined by the device scheduling and compromises the learned model performance. In this paper, we propose a probabilistic device scheduling framework for over-the-air FL, named PO-FL, to mitigate the negative impact of channel noise, where each device is scheduled according to a certain probability and its model update is reweighted using this probability in aggregation. We prove the unbiasedness of this aggregation scheme and demonstrate the convergence of PO-FL on both convex and non-convex loss functions. Our convergence bounds unveil that the device scheduling affects the learning performance through the communication distortion and global update variance. Based on the convergence analysis, we further develop a channel and gradient-importance aware algorithm to optimize the device scheduling probabilities in PO-FL. Extensive simulation results show that the proposed PO-FL framework with channel and gradient-importance awareness achieves faster convergence and produces better models than baseline methods.
翻訳日:2023-11-23 12:12:25 公開日:2023-11-22
# LASER:弱スーパービジョンを用いた時空間シーングラフ学習のためのニューロシンボリックフレームワーク

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision ( http://arxiv.org/abs/2304.07647v3 )

ライセンス: Link先を確認
Jiani Huang, Ziyang Li, Mayur Naik, Ser-Nam Lim(参考訳) 本研究では,高レベル論理仕様を活用し,映像データの空間的および時間的特性をとらえた意味的映像表現を学習するためのニューロシンボリック手法である laser を提案する。 特に,生映像と時空間論理仕様の整合の観点から問題を定式化する。 アライメントアルゴリズムは、微分可能な記号的推論と、コントラスト的、時間的、セマンティクス的損失の組み合わせを利用する。 低レベルの知覚モデルを効果的かつ効率的に訓練し、所望の高レベル仕様に準拠した時空間グラフの形で微細な映像表現を抽出する。 そこで本研究では,論理仕様による映像意味表現の学習を弱く監督する手法を提案する。 空間的および時間的仕様に富む2つのデータセットについて,本手法を評価した。 提案手法は,既存のベースラインよりもきめ細かなビデオセマンティクスを学習できることを実証する。

We propose LASER, a neuro-symbolic approach to learn semantic video representations that capture rich spatial and temporal properties in video data by leveraging high-level logic specifications. In particular, we formulate the problem in terms of alignment between raw videos and spatio-temporal logic specifications. The alignment algorithm leverages a differentiable symbolic reasoner and a combination of contrastive, temporal, and semantics losses. It effectively and efficiently trains low-level perception models to extract fine-grained video representation in the form of a spatio-temporal scene graph that conforms to the desired high-level specification. In doing so, we explore a novel methodology that weakly supervises the learning of video semantic representations through logic specifications. We evaluate our method on two datasets with rich spatial and temporal specifications: 20BN-Something-Something and MUGEN. We demonstrate that our method learns better fine-grained video semantics than existing baselines.
翻訳日:2023-11-23 12:11:57 公開日:2023-11-22
# AutoDroid-0shot: AndroidにおけるGPTによるUIベースのスマートフォンタスク自動化のためのシンプルなベースライン

AutoDroid-0shot: A Simple Baseline for GPT-powered UI-grounded Smartphone Task Automation in Android ( http://arxiv.org/abs/2304.07061v3 )

ライセンス: Link先を確認
Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li(参考訳) 本稿では,GPTライクな大規模言語モデル(LLM)を用いてAndroidモバイルアプリケーションとのインタラクションを自動化するツールであるDroidBot-GPTを紹介する。 必要なタスクの自然な言語記述が与えられると、droidbot-gptは、タスクを完了させるためにアプリをナビゲートするアクションを自動生成および実行することができる。 これは、スマートフォン画面のgui状態情報と利用可能なアクションを自然言語プロンプトに翻訳し、llmにアクションの選択を依頼することで機能する。 LLMは通常、多様なソフトウェアアプリケーションのハウツーマニュアルを含む大量のデータに基づいて訓練されているため、提供された情報に基づいて適切なアクションを選択することができる。 DroidBot-GPTは10のカテゴリにまたがる17のAndroidアプリケーションから収集した33のタスクを含む自己生成データセットで評価する。 39.39%のタスクを完了し、平均的な部分的な完了確率は約66.76%である。 当社の手法が完全に教師なしであるという事実(アプリとLLMの両方の修正は不要)を考えると、より良いアプリ開発パラダイムやカスタムモデルトレーニングで自動化性能を向上させる大きな可能性があると信じています。

This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
翻訳日:2023-11-23 12:11:45 公開日:2023-11-22
# ロボットのグローバル最適化問題に対するテンソルトレイン

Tensor Train for Global Optimization Problems in Robotics ( http://arxiv.org/abs/2206.05077v5 )

ライセンス: Link先を確認
Suhan Shetty, Teguh Lembono, Tobias Loew, and Sylvain Calinon(参考訳) 多くの数値最適化手法の収束は、解法に与えられた初期推測に大きく依存する。 そこで本研究では,テンソル法を用いて,グローバルオプティマ付近の既存の最適化問題を初期化する手法を提案する。 我々の手法は優れたソリューションのデータベースにアクセスする必要はない。 まず、タスクパラメータと最適化変数の両方に依存するコスト関数を確率密度関数に変換する。 既存の手法とは異なり、タスクパラメータと最適化変数の結合確率分布は、効率的な条件付けとサンプリングを可能にするテンソルトレインモデルを用いて近似される。 タスクパラメータを確率変数として扱い,与えられたタスクに対して条件分布から決定変数のサンプルを生成し,最適化ソルバを初期化する。 提案手法は,既存手法よりも高速に複数の解を生成できる。 まず,線形初期化を用いた勾配最適化解法を用いて,数値最適化のためのベンチマーク関数のアプローチを評価する。 その結果,提案手法はグローバルオプティマや複数のモードからサンプルを生成できることがわかった。 7-DoFマニピュレータを用いた逆運動学と運動計画問題に適用することで,ロボット工学におけるフレームワークの汎用性と妥当性を実証する。

The convergence of many numerical optimization techniques is highly dependent on the initial guess given to the solver. To address this issue, we propose a novel approach that utilizes tensor methods to initialize existing optimization solvers near global optima. Our method does not require access to a database of good solutions. We first transform the cost function, which depends on both task parameters and optimization variables, into a probability density function. Unlike existing approaches, the joint probability distribution of the task parameters and optimization variables is approximated using the Tensor Train model, which enables efficient conditioning and sampling. We treat the task parameters as random variables, and for a given task, we generate samples for decision variables from the conditional distribution to initialize the optimization solver. Our method can produce multiple solutions (when they exist) faster than existing methods. We first evaluate the approach on benchmark functions for numerical optimization that are hard to solve using gradient-based optimization solvers with a naive initialization. The results show that the proposed method can generate samples close to global optima and from multiple modes. We then demonstrate the generality and relevance of our framework to robotics by applying it to inverse kinematics with obstacles and motion planning problems with a 7-DoF manipulator.
翻訳日:2023-11-23 12:11:23 公開日:2023-11-22
# 生物時系列データによる確率力学方程式の発見

Discovering stochastic dynamical equations from biological time series data ( http://arxiv.org/abs/2205.02645v4 )

ライセンス: Link先を確認
Arshed Nabeel, Ashwin Karichannavar, Shuaib Palathingal, Jitesh Jhawar, David B. Br\"uckner, Danny Raj M., Vishwesha Guttal(参考訳) 確率微分方程式(英: stochastic differential equation, sdes)は、ランダム性を持つ力学をモデル化するための重要な枠組みである。 これらのモデルと経験的データを統合するという逆問題はまだ大きな課題である。 本稿では、時系列データを入力として取り出し、解釈可能なSDEを出力するPyDaDDy(Python Library for Data Driven Dynamics)というソフトウェアパッケージを提案する。 確率計算学の従来の手法と最先端の方程式発見技術を組み合わせることでこれを実現できる。 我々は,合成データセットに対する我々のアプローチを検証し,その方法の汎用性と適用性について,空間的スケールの異なる2つの実世界データセット上で実証する。 (i)確率が重要な役割を担う魚学校集団運動、 (ii) 単一細胞の移動は、主に緩やかな発振によって制限される。 我々はPyDaddy(Python Library for Data Driven Dynamics)という,使いやすいオープンソースのPythonパッケージとして,このメソッドを利用可能にしています。

Stochastic differential equations (SDEs) are an important framework to model dynamics with randomness, as is common in most biological systems. The inverse problem of integrating these models with empirical data remains a major challenge. Here, we present a software package, PyDaDDy (Python Library for Data Driven Dynamics) that takes time series data as an input and outputs an interpretable SDE. We achieve this by combining traditional approaches from stochastic calculus literature with state-of-the-art equation discovery techniques. We validate our approach on synthetic datasets, and demonstrate the generality and applicability of the method on two real-world datasets of vastly different spatiotemporal scales: (i) collective movement of fish school where stochasticity plays a crucial role, and (ii) confined migration of a single cell, primarily following a relaxed oscillation. We make the method available as an easy-to-use, open-source Python package, PyDaddy (Python Library for Data Driven Dynamics).
翻訳日:2023-11-23 12:11:04 公開日:2023-11-22
# 大規模基礎モデルの自律運転への適用

Applications of Large Scale Foundation Models for Autonomous Driving ( http://arxiv.org/abs/2311.12144v2 )

ライセンス: Link先を確認
Yu Huang, Yue Chen, Zhu Li(参考訳) 2004/05年のDARPA Grand Challenges、2007年のUrban Challenges以来、自動運転はAIアプリケーションの最も活発な分野となっている。 近年,大規模言語モデル (LLM) を基盤として,チャットGPT や PaLM などのチャットシステムが出現し,自然言語処理 (NLP) において人工知能 (AGI) を実現するための有望な方向となった。 自動運転の改革にこれらの能力を使うことは自然な考えだ。 llmを基礎モデルと組み合わせることで、人間の知識、常識、推論を利用して、現在のロングテールのaiジレンマから自動運転システムを再構築することができる。 本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。

Since DARPA Grand Challenges (rural) in 2004/05 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. Recently powered by large language models (LLMs), chat systems, such as chatGPT and PaLM, emerge and rapidly become a promising direction to achieve artificial general intelligence (AGI) in natural language processing (NLP). There comes a natural thinking that we could employ these abilities to reformulate autonomous driving. By combining LLM with foundation models, it is possible to utilize the human knowledge, commonsense and reasoning to rebuild autonomous driving systems from the current long-tailed AI dilemma. In this paper, we investigate the techniques of foundation models and LLMs applied for autonomous driving, categorized as simulation, world model, data annotation and planning or E2E solutions etc.
翻訳日:2023-11-23 12:06:15 公開日:2023-11-22
# 協調基礎モデルによる新規物体検出の促進

Enhancing Novel Object Detection via Cooperative Foundational Models ( http://arxiv.org/abs/2311.12068v2 )

ライセンス: Link先を確認
Rohit Bharadwaj, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan(参考訳) 本稿では,新規物体検出(nod)の難解かつ創発的な問題に対処し,推論中の未知物体と新規物体のカテゴリの正確な検出に焦点をあてる。 従来の物体検出アルゴリズムは本質的にクローズドセットであり、NODを扱う能力を制限する。 本稿では,既存の閉集合検出器を開集合検出器に変換する新しい手法を提案する。 この変換は、事前訓練された基礎モデル、特にCLIPとSAMの相補的な強みを協調的なメカニズムを通じて活用することで達成される。 さらに,この機構をGDINOなどの最先端のオープンセット検出器と統合することにより,物体検出性能の新たなベンチマークを確立する。 LVISデータセット上の既知のオブジェクトに対して,新しいオブジェクト検出において17.42mAP,42.08mAPを達成する。 COCO OVDの分割にアプローチを適用すると、新しいクラスに対する7.2ドル \text{AP}_{50} のマージンで現在の最先端技術を上回っます。 私たちのコードはhttps://github.com/rohit901/cooperative-foundational-modelsで利用可能です。

In this work, we address the challenging and emergent problem of novel object detection (NOD), focusing on the accurate detection of both known and novel object categories during inference. Traditional object detection algorithms are inherently closed-set, limiting their capability to handle NOD. We present a novel approach to transform existing closed-set detectors into open-set detectors. This transformation is achieved by leveraging the complementary strengths of pre-trained foundational models, specifically CLIP and SAM, through our cooperative mechanism. Furthermore, by integrating this mechanism with state-of-the-art open-set detectors such as GDINO, we establish new benchmarks in object detection performance. Our method achieves 17.42 mAP in novel object detection and 42.08 mAP for known objects on the challenging LVIS dataset. Adapting our approach to the COCO OVD split, we surpass the current state-of-the-art by a margin of 7.2 $ \text{AP}_{50} $ for novel classes. Our code is available at https://github.com/rohit901/cooperative-foundational-models .
翻訳日:2023-11-23 12:05:59 公開日:2023-11-22
# 優れた特徴抽出器は組織病理学における弱い教師付き学習に必要な全てである

A Good Feature Extractor Is All You Need for Weakly Supervised Learning in Histopathology ( http://arxiv.org/abs/2311.11772v2 )

ライセンス: Link先を確認
Georg W\"olflein, Dyke Ferber, Asier Rabasco Meneghetti, Omar S. M. El Nahhas, Daniel Truhn, Zunamys I. Carrero, David J. Harrison, Ognjen Arandjelovi\'c, Jakob N. Kather(参考訳) 深層学習は病理学に革命をもたらしており、病気の予後とパーソナライズされた治療の新しい機会を提供している。 歴史的に、染色正規化は計算病理学パイプラインにおいて重要な前処理ステップであり、深層学習の時代まで続く。 しかし,多種多様な病理データを用いた自己教師付き学習(ssl)を用いた特徴抽出器の出現により,本手法に疑問を呈する。 一般に公開されている特徴抽出器の実証評価において,ステンレス正規化や画像強調は下流の性能を損なうことなく,メモリや計算にかなりの節約をもたらすことがわかった。 さらに, トップパフォーミング特徴抽出器は, 潜在空間における回転などの汚れや増強の変動に対して著しく頑健であることを示した。 従来のパッチレベルのベンチマーク研究とは対照的に,外部検証コホートを用いた弱教師付き環境でのスライドレベルの予測タスクに着目し,臨床関連性を重視した。 この作業は、9つのタスク、5つのデータセット、3つのダウンストリームアーキテクチャ、さまざまな前処理セットアップにわたる6000以上のトレーニングの実行を含む、SSL機能抽出器の最も包括的な堅牢性評価を表している。 本研究は,前処理ニーズを最小化し,特徴抽出器の選択を知らせることで,デジタル病理ワークフローを合理化する。

Deep learning is revolutionising pathology, offering novel opportunities in disease prognosis and personalised treatment. Historically, stain normalisation has been a crucial preprocessing step in computational pathology pipelines, and persists into the deep learning era. Yet, with the emergence of feature extractors trained using self-supervised learning (SSL) on diverse pathology datasets, we call this practice into question. In an empirical evaluation of publicly available feature extractors, we find that omitting stain normalisation and image augmentations does not compromise downstream performance, while incurring substantial savings in memory and compute. Further, we show that the top-performing feature extractors are remarkably robust to variations in stain and augmentations like rotation in their latent space. Contrary to previous patch-level benchmarking studies, our approach emphasises clinical relevance by focusing on slide-level prediction tasks in a weakly supervised setting with external validation cohorts. This work represents the most comprehensive robustness evaluation of public pathology SSL feature extractors to date, involving more than 6,000 training runs across nine tasks, five datasets, three downstream architectures, and various preprocessing setups. Our findings stand to streamline digital pathology workflows by minimising preprocessing needs and informing the selection of feature extractors.
翻訳日:2023-11-23 12:05:10 公開日:2023-11-22
# schufa blackboxの内部を覗く:ドイツの住宅スコアシステムを説明する

Peeking Inside the Schufa Blackbox: Explaining the German Housing Scoring System ( http://arxiv.org/abs/2311.11655v2 )

ライセンス: Link先を確認
Dean-Robin Kern, Gunnar Stevens, Erik Dethier, Sidra Naveed, Fatemeh Alizadeh, Delong Du, Md Shajalal(参考訳) 説明可能な人工知能は、複雑なアルゴリズムを統一ソリューションを通じてユーザに透明にすることを目的とした概念である。 研究者たちは、エンドユーザに合わせた説明を開発するために、ドメイン固有のコンテキストを統合することの重要性を強調した。 本研究では,ドイツのschufaハウジングスコアシステムに着目し,利用者の役割に応じてユーザ情報と説明への期待がどう変化するかを検討する。 投機的設計手法を用いて,住宅信用スコアの説明を行うユーザインターフェースを,テナントと地主の両方の視点から,ビジネス情報系学生に求めた。 予備的な調査結果から,すべてのユーザに適用できる一般的なニーズはあるものの,その役割の実用的現実や,クレジットスコアがユーザに与える影響にも依存する,相反するニーズが存在することが示唆された。 我々は,人間中心のxai研究に貢献し,ユーザの役割やエージェントを考慮した説明的ニーズを検討する今後の研究指針を提案する。

Explainable Artificial Intelligence is a concept aimed at making complex algorithms transparent to users through a uniform solution. Researchers have highlighted the importance of integrating domain specific contexts to develop explanations tailored to end users. In this study, we focus on the Schufa housing scoring system in Germany and investigate how users information needs and expectations for explanations vary based on their roles. Using the speculative design approach, we asked business information students to imagine user interfaces that provide housing credit score explanations from the perspectives of both tenants and landlords. Our preliminary findings suggest that although there are general needs that apply to all users, there are also conflicting needs that depend on the practical realities of their roles and how credit scores affect them. We contribute to Human centered XAI research by proposing future research directions that examine users explanatory needs considering their roles and agencies.
翻訳日:2023-11-23 12:04:49 公開日:2023-11-22
# 機械文化

Machine Culture ( http://arxiv.org/abs/2311.11388v2 )

ライセンス: Link先を確認
Levin Brinkmann, Fabian Baumann, Jean-Fran\c{c}ois Bonnefon, Maxime Derex, Thomas F. M\"uller, Anne-Marie Nussberger, Agnieszka Czaplicka, Alberto Acerbi, Thomas L. Griffiths, Joseph Henrich, Joel Z. Leibo, Richard McElreath, Pierre-Yves Oudeyer, Jonathan Stray and Iyad Rahwan(参考訳) 人類が文化を創造し、広める能力は、種としての成功の最も重要な要素としてしばしば認められている。 本稿では,機械が介在する,あるいは生成する,機械文化の概念について考察する。 知的機械は、変化、伝達、選択の文化的進化過程を同時に変革すると主張する。 Recommenderアルゴリズムは、社会学習のダイナミクスを変えつつある。 チャットボットは新しい文化伝達様式を形成しており、文化モデルとして機能している。 さらに、インテリジェントマシンは、ゲーム戦略や視覚芸術から科学的結果に至るまで、文化的な特徴を生み出す貢献者として進化している。 本稿では,機械の現在および今後の文化的発展への影響を研究するための概念的枠組みと,機械文化研究のための研究課題について述べる。

The ability of humans to create and disseminate culture is often credited as the single most important factor of our success as a species. In this Perspective, we explore the notion of machine culture, culture mediated or generated by machines. We argue that intelligent machines simultaneously transform the cultural evolutionary processes of variation, transmission, and selection. Recommender algorithms are altering social learning dynamics. Chatbots are forming a new mode of cultural transmission, serving as cultural models. Furthermore, intelligent machines are evolving as contributors in generating cultural traits--from game strategies and visual art to scientific results. We provide a conceptual framework for studying the present and anticipated future impact of machines on cultural evolution, and present a research agenda for the study of machine culture.
翻訳日:2023-11-23 12:04:32 公開日:2023-11-22
# ガウス平滑化とガウス微分の離散近似

Discrete approximations of Gaussian smoothing and Gaussian derivatives ( http://arxiv.org/abs/2311.11317v2 )

ライセンス: Link先を確認
Tony Lindeberg(参考訳) 本稿では, 離散データに適用するためのスケール空間理論におけるガウス平滑化およびガウス微分計算の近似問題に関する深い処理法を考案する。 連続的および離散的スケール空間論の以前の公理的処理との密接な関係から、これらのスケール空間演算を明示的離散畳み込みという観点から区別する3つの主要な方法を考える。 (i)ガウス核とガウス微分核をサンプリングする。 (ii)各画素支持領域上にガウス核とガウス微分核を局所的に統合し、 3) ガウス核の離散アナログのスケール空間解析を基礎とし, 空間的スムーズな画像データに小サポート中央差分演算子を適用することにより微分近似を演算する。 本研究では,これら3つの主要な離散化手法の特性を理論的・実験的に検討し,その性能を定量的に評価する。 その結果、サンプル化されたガウス核と導関数、および統合されたガウス核と導関数は、非常に微細なスケールで非常に低性能であることがわかった。 非常に微細なスケールでは、ガウス核の離散的な類似とそれに対応する離散微分近似が大幅に向上する。 一方、サンプル化されたガウス核とサンプル化されたガウス微分は、スケールパラメータが十分に大きい場合、グリッド間隔の単位においてスケールパラメータが約1より大きい場合、対応する連続結果の数値的に非常に良い近似をもたらす。

This paper develops an in-depth treatment concerning the problem of approximating the Gaussian smoothing and Gaussian derivative computations in scale-space theory for application on discrete data. With close connections to previous axiomatic treatments of continuous and discrete scale-space theory, we consider three main ways discretizing these scale-space operations in terms of explicit discrete convolutions, based on either (i) sampling the Gaussian kernels and the Gaussian derivative kernels, (ii) locally integrating the Gaussian kernels and the Gaussian derivative kernels over each pixel support region and (iii) basing the scale-space analysis on the discrete analogue of the Gaussian kernel, and then computing derivative approximations by applying small-support central difference operators to the spatially smoothed image data. We study the properties of these three main discretization methods both theoretically and experimentally, and characterize their performance by quantitative measures, including the results they give rise to with respect to the task of scale selection, investigated for four different use cases, and with emphasis on the behaviour at fine scales. The results show that the sampled Gaussian kernels and derivatives as well as the integrated Gaussian kernels and derivatives perform very poorly at very fine scales. At very fine scales, the discrete analogue of the Gaussian kernel with its corresponding discrete derivative approximations performs substantially better. The sampled Gaussian kernel and the sampled Gaussian derivatives do, on the other hand, lead to numerically very good approximations of the corresponding continuous results, when the scale parameter is sufficiently large, in the experiments presented in the paper, when the scale parameter is greater than a value of about 1, in units of the grid spacing.
翻訳日:2023-11-23 12:04:23 公開日:2023-11-22
# 量子誤り訂正プログラムの記号的実行

Symbolic Execution for Quantum Error Correction Programs ( http://arxiv.org/abs/2311.11313v2 )

ライセンス: Link先を確認
Wang Fang, Mingsheng Ying(参考訳) 我々は,量子プログラムのためのシンボリック実行フレームワークqseを定義し,記号変数を量子状態と量子測定結果に統合する。 QSEの音響定理が証明される。 さらに,量子誤差補正プログラムの効率的な解析を容易にするシンボリック安定化状態を導入する。 QSEフレームワーク内では、シンボリック表現を用いて量子誤り訂正の可能な逆誤差を特徴付けることができ、シミュレータによるサンプリングに依存する既存の手法よりも大幅に改善される。 我々はQuantumSE.jlというプロトタイプツールでシンボル安定化状態をサポートするQSEを実装した。 量子反復符号、北エフのトーリック符号、量子タナー符号を含む代表量子誤り訂正符号の実験により、1000量子ビットを超える量子誤り訂正プログラムをデバッグするためのQuantumSE.jlの効率を実証する。 さらに、QSEの副産物として、QuantumSE.jlの安定化回路のサンプリング機能は、実験において最先端の安定化シミュレータであるGoogleのStimよりも優れている。

We define a symbolic execution framework QSE for quantum programs by integrating symbolic variables into quantum states and the outcomes of quantum measurements. The soundness theorem of QSE is proved. We further introduce symbolic stabilizer states, which facilitate the efficient analysis of quantum error correction programs. Within the QSE framework, we can use symbolic expressions to characterize the possible adversarial errors in quantum error correction, providing a significant improvement over existing methods that rely on sampling with simulators. We implement QSE with the support of symbolic stabilizer states in a prototype tool named QuantumSE.jl. With experiments on representative quantum error correction codes, including quantum repetition codes, Kitaev's toric codes, and quantum Tanner codes, we demonstrate the efficiency of QuantumSE.jl for debugging quantum error correction programs with over 1000 qubits. In addition, as a by-product of QSE, QuantumSE.jl's sampling functionality for stabilizer circuits also outperforms the state-of-the-art stabilizer simulator, Google's Stim, in the experiments.
翻訳日:2023-11-23 12:03:57 公開日:2023-11-22
# luciddreamer: インターバルスコアマッチングによる高忠実度テキスト対3d生成に向けて

LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching ( http://arxiv.org/abs/2311.11284v2 )

ライセンス: Link先を確認
Yixun Liang, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, Yingcong Chen(参考訳) テキスト3d生成の最近の進歩は、様々な現実世界のシナリオにまたがって想像力のある3dアセットを作成する新たな可能性を開くことによって、生成モデルにおける重要なマイルストーンとなった。 テキスト3d生成の最近の進歩は期待されているものの、詳細な高品質な3dモデルのレンダリングには不足していることが多い。 多くのメソッドがSDS(Score Distillation Sampling)に基づいているため、この問題は特に顕著である。 本稿では3次元モデルに不整合かつ低品質な更新方向をもたらし、過度なスムーシング効果をもたらすSDSの顕著な欠陥を同定する。 そこで我々は,ISM (Interval Score Matching) と呼ばれる新しい手法を提案する。 ISMは決定論的拡散軌道を用いており、間隔ベースのスコアマッチングを用いてオーバー・スムーシングに対抗する。 さらに、テキストから3D生成パイプラインに3Dガウススプラッティングを組み込む。 大規模な実験により、我々のモデルは品質と訓練効率の最先端性を大きく上回ることがわかった。

The recent advancements in text-to-3D generation mark a significant milestone in generative models, unlocking new possibilities for creating imaginative 3D assets across various real-world scenarios. While recent advancements in text-to-3D generation have shown promise, they often fall short in rendering detailed and high-quality 3D models. This problem is especially prevalent as many methods base themselves on Score Distillation Sampling (SDS). This paper identifies a notable deficiency in SDS, that it brings inconsistent and low-quality updating direction for the 3D model, causing the over-smoothing effect. To address this, we propose a novel approach called Interval Score Matching (ISM). ISM employs deterministic diffusing trajectories and utilizes interval-based score matching to counteract over-smoothing. Furthermore, we incorporate 3D Gaussian Splatting into our text-to-3D generation pipeline. Extensive experiments show that our model largely outperforms the state-of-the-art in quality and training efficiency.
翻訳日:2023-11-23 12:03:38 公開日:2023-11-22
# BOIS: 相互接続システムのベイズ最適化

BOIS: Bayesian Optimization of Interconnected Systems ( http://arxiv.org/abs/2311.11254v2 )

ライセンス: Link先を確認
Leonardo D. Gonz\'alez and Victor M. Zavala(参考訳) ベイズ最適化(BO)は、高価なサンプルシステムのグローバル最適化に有効なパラダイムであることが証明されている。 boの主な利点の1つは、学習と探索のプロセスを導くのに利用できるモデルの不確かさを特徴付けるために、ガウス過程(gps)を使用することである。 しかし、BOは通常システムをブラックボックスとして扱うため、構造的知識(物理学や疎結合など)を利用する能力は制限される。 複合関数は$f(x, y(x))$であり、gp モデリングはパフォーマンス関数 $f$ から中間関数 $y$ にシフトされ、構造知識を利用するための道筋を提供する。 しかし、BOフレームワークにおける合成関数の使用は、GPによって計算されるガウス密度$y$から$f$の確率密度を生成する必要性により複雑である(例えば、$f$が非線形であれば、閉形式式を得ることはできない)。 従来の作業ではサンプリング技術を使ってこの問題に対処しており、実装が容易で柔軟性があるが、計算集約性が高い。 本稿では,boにおける複合関数の効率的な利用を可能にする新しいパラダイムを提案する。このパラダイムでは,複合関数の統計モーメントに対する閉形式式を得るのに$f$の適応線形化を用いる。 この単純なアプローチ(boisと呼ぶ)により、相互接続されたシステムや複数のgpモデルを埋め込んだシステム、物理モデルとgpモデルの組み合わせなど、構造的知識の活用が可能になる。 化学プロセス最適化ケーススタディを用いて,BOISの標準BOとサンプリングアプローチの有効性をベンチマークした。 その結果,boisは性能向上を達成し,複合関数の統計を正確に捉えることができた。

Bayesian optimization (BO) has proven to be an effective paradigm for the global optimization of expensive-to-sample systems. One of the main advantages of BO is its use of Gaussian processes (GPs) to characterize model uncertainty which can be leveraged to guide the learning and search process. However, BO typically treats systems as black-boxes and this limits the ability to exploit structural knowledge (e.g., physics and sparse interconnections). Composite functions of the form $f(x, y(x))$, wherein GP modeling is shifted from the performance function $f$ to an intermediate function $y$, offer an avenue for exploiting structural knowledge. However, the use of composite functions in a BO framework is complicated by the need to generate a probability density for $f$ from the Gaussian density of $y$ calculated by the GP (e.g., when $f$ is nonlinear it is not possible to obtain a closed-form expression). Previous work has handled this issue using sampling techniques; these are easy to implement and flexible but are computationally intensive. In this work, we introduce a new paradigm which allows for the efficient use of composite functions in BO; this uses adaptive linearizations of $f$ to obtain closed-form expressions for the statistical moments of the composite function. We show that this simple approach (which we call BOIS) enables the exploitation of structural knowledge, such as that arising in interconnected systems as well as systems that embed multiple GP models and combinations of physics and GP models. Using a chemical process optimization case study, we benchmark the effectiveness of BOIS against standard BO and sampling approaches. Our results indicate that BOIS achieves performance gains and accurately captures the statistics of composite functions.
翻訳日:2023-11-23 12:02:53 公開日:2023-11-22
# edgefm: エッジ上のオープンセット学習に基盤モデルを活用する

EdgeFM: Leveraging Foundation Model for Open-set Learning on the Edge ( http://arxiv.org/abs/2311.10986v2 )

ライセンス: Link先を確認
Bufang Yang, Lixing He, Neiwen Ling, Zhenyu Yan, Guoliang Xing, Xian Shuai, Xiaozhe Ren, Xin Jiang(参考訳) ディープラーニング(DL)モデルは、DLアルゴリズムとチップの進歩の助けを借りて、IoTデバイスに広くデプロイされている。 しかし、エッジデバイスの限られたリソースは、これらのデバイス上のDLモデルを様々な環境やタスクに一般化することを困難にしている。 最近出現した基盤モデル(FM)は、驚くべき一般化力を示しているが、リソース制限エッジデバイスにFMの豊富な知識を効果的に活用する方法はまだ検討されていない。 本稿では,オープンセット認識機能を備えたエッジクラウド協調システムであるEdgeFMを提案する。 EdgeFMは、クラウド上のFMに問い合わせるためにラベルのないデータを選択的にアップロードし、エッジモデルの特定の知識とアーキテクチャをカスタマイズする。 一方、EdgeFMは、データ不確実性と動的ネットワークのばらつきの両方を考慮して、実行時に動的モデル切替を行うため、元のFMに常に近い精度が保証される。 2つのエッジプラットフォームに2つのfmsを使用してedgefmを実装します。 EdgeFMを3つの公開データセットと2つの自己収集データセットで評価する。 結果としてEdgeFMは、エンドツーエンドのレイテンシを3.2倍に削減し、ベースラインと比較して34.3%の精度向上を実現している。

Deep Learning (DL) models have been widely deployed on IoT devices with the help of advancements in DL algorithms and chips. However, the limited resources of edge devices make these on-device DL models hard to be generalizable to diverse environments and tasks. Although the recently emerged foundation models (FMs) show impressive generalization power, how to effectively leverage the rich knowledge of FMs on resource-limited edge devices is still not explored. In this paper, we propose EdgeFM, a novel edge-cloud cooperative system with open-set recognition capability. EdgeFM selectively uploads unlabeled data to query the FM on the cloud and customizes the specific knowledge and architectures for edge models. Meanwhile, EdgeFM conducts dynamic model switching at run-time taking into account both data uncertainty and dynamic network variations, which ensures the accuracy always close to the original FM. We implement EdgeFM using two FMs on two edge platforms. We evaluate EdgeFM on three public datasets and two self-collected datasets. Results show that EdgeFM can reduce the end-to-end latency up to 3.2x and achieve 34.3% accuracy increase compared with the baseline.
翻訳日:2023-11-23 12:01:30 公開日:2023-11-22
# 時間的論理課題を伴う確率システムに対する構成的ニューロシンボリック制御の検証

Verified Compositional Neuro-Symbolic Control for Stochastic Systems with Temporal Logic Tasks ( http://arxiv.org/abs/2311.10863v3 )

ライセンス: Link先を確認
Jun Wang, Haojun Chen, Zihe Sun, Yiannis Kantaros(参考訳) 最近、LTL(Linear Temporal Logic)によって捕獲された複雑なミッションをタスクとする未知の確率力学を持つ自律エージェントのためのニューラルネットワーク(NN)コントローラを学習するいくつかの方法が提案されている。 これらの作品の大半のサンプル非効率のため、ltl仕様をより小さなサブタスクに分解する構成学習手法が提案されている。 そして、別個のコントローラを学習し、元のタスクを満たすように構成する。 これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。 本稿では,この問題に対処することを目的とする。 特に,未知の確率ダイナミクスとltlエンコードされたタスクを持つ自律システムを考える。 本システムは,訓練されたNNフィードバックコントローラによってモデル化されたベーススキルの有限セットを備えていると仮定する。 当社の目標は、トレーニングされたnnコントローラの時間的構成が存在するかどうかをチェックすることで、割り当てられたltlタスクを確率1で満足する複合システムの振る舞いを発生させることです。 本稿では,nn制御確率システムのためのオートマトン理論とデータ駆動到達可能性解析ツールの新しい統合手法を提案する。 結果として得られるニューロシンボリックコントローラは、エージェントがベースとなるスキルを活用することによって、知覚できない複雑な時相論理タスクの安全な振る舞いをゼロショット方式で生成することができる。 提案手法の正当性を示し,提案手法が完成する条件を提供する。 我々の知る限りでは、未知および確率的なシステムのためにNNコントローラの時間的構成を検証した最初の作品である。 最後に,ロボットナビゲーションタスクに関する広範な数値シミュレーションとハードウェア実験を行い,提案手法を実証する。

Several methods have been proposed recently to learn neural network (NN) controllers for autonomous agents, with unknown and stochastic dynamics, tasked with complex missions captured by Linear Temporal Logic (LTL). Due to the sample-inefficiency of the majority of these works, compositional learning methods have been proposed decomposing the LTL specification into smaller sub-tasks. Then, separate controllers are learned and composed to satisfy the original task. A key challenge within these approaches is that they often lack safety guarantees or the provided guarantees are impractical. This paper aims to address this challenge. Particularly, we consider autonomous systems with unknown and stochastic dynamics and LTL-encoded tasks. We assume that the system is equipped with a finite set of base skills modeled by trained NN feedback controllers. Our goal is to check if there exists a temporal composition of the trained NN controllers - and if so, to compute it - that will yield a composite system behavior that satisfies the assigned LTL task with probability one. We propose a new approach that relies on a novel integration of automata theory and data-driven reachability analysis tools for NN-controlled stochastic systems. The resulting neuro-symbolic controller allows the agent to generate safe behaviors for unseen complex temporal logic tasks in a zero-shot fashion by leveraging its base skills. We show correctness of the proposed method and we provide conditions under which it is complete. To the best of our knowledge, this is the first work that designs verified temporal compositions of NN controllers for unknown and stochastic systems. Finally, we provide extensive numerical simulations and hardware experiments on robot navigation tasks to demonstrate the proposed method.
翻訳日:2023-11-23 12:01:11 公開日:2023-11-22
# 重み付き深層ニューラルネットワークの探索とiris提示攻撃検出への応用

Investigating Weight-Perturbed Deep Neural Networks With Application in Iris Presentation Attack Detection ( http://arxiv.org/abs/2311.12764v2 )

ライセンス: Link先を確認
Renu Sharma, Redwan Sony, Arun Ross(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、音声認識、生体認証、物体検出など、さまざまな機械学習タスクにおいて優れたパフォーマンスを示す。 しかし、現実のアプリケーションに展開する前にパラメータ摂動に対する感度を分析することが不可欠である。 本研究では,DNNの重みとバイアスパラメータに対する摂動に対する感度を評価する。 感度分析には、3つのdnnアーキテクチャ(vgg、resnet、drknet)、3種類のパラメータ摂動(ゲージノイズ、重みゼロ化、重みスケーリング)、2つの設定(entire networkとlayer-wise)が含まれる。 我々は,公開データセットであるlivdet-iris-2017 と livdet-iris-2020 について iris プレゼンテーションの文脈で実験を行い,その評価を行った。 感度解析に基づいて,ネットワークのパラメータを摂動させることで学習を行なわずに改良モデルを提案する。 さらに、これらの摂動モデルをスコアレベルとパラメータレベルで組み合わせ、元のモデルよりも性能を向上させる。 パラメータレベルのアンサンブルは、LivDet-Iris-2017データセットで43.58%、LivDet-Iris-2020データセットで9.25%の平均的な改善を示している。 ソースコードはhttps://github.com/redwankarimsony/weightperturbation-msuで入手できる。

Deep neural networks (DNNs) exhibit superior performance in various machine learning tasks, e.g., image classification, speech recognition, biometric recognition, object detection, etc. However, it is essential to analyze their sensitivity to parameter perturbations before deploying them in real-world applications. In this work, we assess the sensitivity of DNNs against perturbations to their weight and bias parameters. The sensitivity analysis involves three DNN architectures (VGG, ResNet, and DenseNet), three types of parameter perturbations (Gaussian noise, weight zeroing, and weight scaling), and two settings (entire network and layer-wise). We perform experiments in the context of iris presentation attack detection and evaluate on two publicly available datasets: LivDet-Iris-2017 and LivDet-Iris-2020. Based on the sensitivity analysis, we propose improved models simply by perturbing parameters of the network without undergoing training. We further combine these perturbed models at the score-level and at the parameter-level to improve the performance over the original model. The ensemble at the parameter-level shows an average improvement of 43.58% on the LivDet-Iris-2017 dataset and 9.25% on the LivDet-Iris-2020 dataset. The source code is available at https://github.com/redwankarimsony/WeightPerturbation-MSU.
翻訳日:2023-11-23 11:40:32 公開日:2023-11-22
# 絡み合った光子対の生成とルーティングを埋め込んだハイブリッドIII-V/シリコンフォトニック回路

Hybrid III-V/Silicon photonic circuits embedding generation and routing of entangled photon pairs ( http://arxiv.org/abs/2311.12718v2 )

ライセンス: Link先を確認
J. Schuhmann, L. Lazzari, M. Morassi, A. Lemaitre, I. Sagnes, G. Beaudoin, M.I. Amanti, F. Boeuf, F. Raineri, F. Baboux, S. Ducci(参考訳) 光量子状態の生成と操作を組み合わせた集積フォトニックチップの需要は、量子情報技術のためのコンパクトでスケーラブルなプラットフォームの必要性によって着実に増加している。 多様な機能を持つフォトニック回路は、異なる単一材料プラットフォームで開発されているが、複数の材料の利点を生かし、それぞれの弱点を緩和し、機能強化をもたらすハイブリッドフォトニック回路を実現することが重要である。 本稿では,強2次非線形性とiii-v半導体プラットフォームの電気ポンピングとシリコンフォトニックプラットフォームの高成熟度とcmos互換性を組み合わせたハイブリッドiii-v/シリコン量子フォトニックデバイスを示す。 我々の装置は、光子対の自発パラメトリックダウンコンバージョン(SPDC)をAlGaAs源に埋め込み、それに続くシリコンオン絶縁体回路へのルーティングを、両方の偏光状態を管理するエバネッセントカップリング方式に組み込む。 これにより、ハイブリッドデバイスからの0型および2型SPDCによるブロードバンド通信光子のオンチップ生成が可能となり、内部対生成レートが10^5$$s^{-1}以上となる一方、ポンプビームは強く拒否される。 92%の可視性を持つ2光子干渉(および5nmのスペクトルフィルタリングで最大99%)は、生成した量子状態を特徴付ける高エネルギー時間絡み合いの品質を証明し、量子技術の外部展開の観点から、2つの成熟した高相補的なプラットフォームの資産を融合したハイブリッドアーキテクチャにおいて、チップ上の幅広い量子情報応用を可能にする。

The demand for integrated photonic chips combining the generation and manipulation of quantum states of light is steadily increasing, driven by the need for compact and scalable platforms for quantum information technologies. While photonic circuits with diverse functionalities are being developed in different single material platforms, it has become crucial to realize hybrid photonic circuits that harness the advantages of multiple materials while mitigating their respective weaknesses, resulting in enhanced capabilities. Here, we demonstrate a hybrid III-V/Silicon quantum photonic device combining the strong second-order nonlinearity and compliance with electrical pumping of the III-V semiconductor platform with the high maturity and CMOS compatibility of the silicon photonic platform. Our device embeds the spontaneous parametric down-conversion (SPDC) of photon pairs into an AlGaAs source and their subsequent routing to a silicon-on-insulator circuitry, within an evanescent coupling scheme managing both polarization states. This enables the on-chip generation of broadband telecom photons by type 0 and type 2 SPDC from the hybrid device, at room temperature and with internal pair generation rates exceeding $10^5$ $s^{-1}$ for both types, while the pump beam is strongly rejected. Two-photon interference with 92% visibility (and up to 99% upon 5 nm spectral filtering) proves the high energy-time entanglement quality characterizing the produced quantum state, thereby enabling a wide range of quantum information applications on-chip, within an hybrid architecture merging the assets of two mature and highly complementary platforms in view of out-of-the-lab deployment of quantum technologies.
翻訳日:2023-11-23 11:40:08 公開日:2023-11-22
# ハンドアイ校正

Hand-Eye Calibration ( http://arxiv.org/abs/2311.12655v2 )

ライセンス: Link先を確認
Radu Horaud and Fadi Dornaika(参考訳) ロボットハンドにセンサを装着する場合には,センサと手の関係を知ることが重要である。 この関係を決定する問題は手目校正と呼ばれ、これは少なくとも2種類のタスクにおいて重要である。 (i)ロボット作業空間における地図センサを中心とした計測と (ii)ロボットがセンサーを正確に動かせるようにする。 過去には、カメラの特定のケースでいくつかの解決策が提案された。 ほとんど例外なく、すべての既存の解は同次行列方程式 AX=XB を解こうとする。 まず,手目キャリブレーション問題の定式化が2つ存在することを示す。 一つの定式化は、我々が先ほど述べた古典的なものである。 第二の定式化は以下の等質行列方程式の形式をとる: MY=M'YB。 後者の利点は、外在型および内在型カメラパラメータを明示する必要がないことである。 実際、この定式化はカメラの2つの位置と関連する3×4の視点行列(MとM')を直接使用する。 さらに、この定式化と古典的な定式化は、ロボットハンドに対してキャリブレーションされるカメラベースのセンサーの幅広い範囲をカバーする。 第2に, 2つの定式化を用いて, 手目校正問題に対する共通数学的枠組みを考案する。 2つの方法を紹介します (i)次に回転して翻訳する (ii)回転および翻訳のための非線形解法。 第3に、我々は2つの方法と古典的線形手法であるTsai and Lenz (1989) に対して安定性解析を行う。 この比較から, 回転と変換を同時に解く非線形最適化手法は, 雑音や測定誤差に対して最も頑健な手法であると考えられる。

Whenever a sensor is mounted on a robot hand it is important to know the relationship between the sensor and the hand. The problem of determining this relationship is referred to as hand-eye calibration, which is important in at least two types of tasks: (i) map sensor centered measurements into the robot workspace and (ii) allow the robot to precisely move the sensor. In the past some solutions were proposed in the particular case of a camera. With almost no exception, all existing solutions attempt to solve the homogeneous matrix equation AX=XB. First we show that there are two possible formulations of the hand-eye calibration problem. One formulation is the classical one that we just mentioned. A second formulation takes the form of the following homogeneous matrix equation: MY=M'YB. The advantage of the latter is that the extrinsic and intrinsic camera parameters need not be made explicit. Indeed, this formulation directly uses the 3 by 4 perspective matrices (M and M') associated with two positions of the camera. Moreover, this formulation together with the classical one cover a wider range of camera-based sensors to be calibrated with respect to the robot hand. Second, we develop a common mathematical framework to solve for the hand-eye calibration problem using either of the two formulations. We present two methods, (i) a rotation then translation and (ii) a non-linear solver for rotation and translation. Third, we perform a stability analysis both for our two methods and for the classical linear method of Tsai and Lenz (1989). In the light of this comparison, the non-linear optimization method, that solves for rotation and translation simultaneously, seems to be the most robust one with respect to noise and to measurement errors.
翻訳日:2023-11-23 11:39:34 公開日:2023-11-22
# 位相認識のためのシーケンス規則化を伴う手術時行動認識ネットワーク

Surgical Temporal Action-aware Network with Sequence Regularization for Phase Recognition ( http://arxiv.org/abs/2311.12603v2 )

ライセンス: Link先を確認
Zhen Chen, Yuhao Zhai, Jun Zhang, Jinqiao Wang(参考訳) 外科的位相認識は手術映像の包括的理解を必要とするコンピュータ支援手術システムの開発において重要である。 既存の研究は大きな進歩を遂げたが、まだ改善に値する2つの重要な制限がある。 第一に, 資源消費の妥協により, 2次元ネットワークによりフレームワイズな視覚特徴を抽出し, 手術行動の空間的, 時間的知識を無視して, フェーズ予測のためのフレーム間モデリングを阻害する。 第二に、これらの研究は単に1ホット位相ラベルによる通常の分類損失を利用して位相予測を最適化し、不十分な監督下での手術ビデオを完全に探索することができない。 この2つの限界を克服するために,star-netというシーケンス正規化を用いた手術時行動認識ネットワークを提案し,入力映像から手術相をより正確に認識する。 具体的には,2dネットワークのコストで,視覚特徴と手術行動の空間的,時間的知識を統合した,効率的な多スケール手術時効行動モジュールを提案する。 さらに,dual-classifier sequence regularization (dsr) を考案し,より少ない容量で補助分類器のシーケンスガイダンスによりstar-netのトレーニングを容易にする。 ms-sta と dsr を用いた star-net は,手術動作の視覚的特徴を効果的な正則化で活用することができ,手術相認識の性能が向上する。 大規模胃切除手術データセットと公開cholec80ベンチマークの広範な実験により,star-netは手術相認識の最先端を著しく上回っていることが判明した。

To assist surgeons in the operating theatre, surgical phase recognition is critical for developing computer-assisted surgical systems, which requires comprehensive understanding of surgical videos. Although existing studies made great progress, there are still two significant limitations worthy of improvement. First, due to the compromise of resource consumption, frame-wise visual features are extracted by 2D networks and disregard spatial and temporal knowledge of surgical actions, which hinders subsequent inter-frame modeling for phase prediction. Second, these works simply utilize ordinary classification loss with one-hot phase labels to optimize the phase predictions, and cannot fully explore surgical videos under inadequate supervision. To overcome these two limitations, we propose a Surgical Temporal Action-aware Network with sequence Regularization, named STAR-Net, to recognize surgical phases more accurately from input videos. Specifically, we propose an efficient multi-scale surgical temporal action (MS-STA) module, which integrates visual features with spatial and temporal knowledge of surgical actions at the cost of 2D networks. Moreover, we devise the dual-classifier sequence regularization (DSR) to facilitate the training of STAR-Net by the sequence guidance of an auxiliary classifier with a smaller capacity. Our STAR-Net with MS-STA and DSR can exploit visual features of surgical actions with effective regularization, thereby leading to the superior performance of surgical phase recognition. Extensive experiments on a large-scale gastrectomy surgery dataset and the public Cholec80 benchmark prove that our STAR-Net significantly outperforms state-of-the-arts of surgical phase recognition.
翻訳日:2023-11-23 11:39:12 公開日:2023-11-22
# 一体還元密度行列関数論における多体量子資源の抽出

Extracting Many-Body Quantum Resources within One-Body Reduced Density Matrix Functional Theory ( http://arxiv.org/abs/2311.12596v2 )

ライセンス: Link先を確認
Carlos L. Benavides-Riveros, Tomasz Wasak, Alessio Recati(参考訳) 量子フィッシャー情報(Quantum Fisher information, QFI)は、量子科学において、パラメータ推定の最終的な精度限界の定量化、量子相転移の検出、真のマルチパーティの絡み合いの目撃、非局所性の探索に使用される中心的な概念である。 この広範囲のアプリケーションにもかかわらず、量子多体システムのQFI値を計算することは、一般に非常に要求の多いタスクである。 ここでは、汎関数理論と量子情報からのアイデアを組み合わせて、フェルミオン基底状態とボゾン基底状態のQFIのための新しい機能的枠組みを開発する。 制約探索手法を用いることで、QFIの行列値は1体還元密度行列 (1-RDM) によって普遍的に決定できることを示し、指数関数的に大きな波動関数を用いることを避けることができる。 さらに,QFI関数は結合強度に関する微分を計算することにより,普遍的な1-RDM関数から決定できることを示し,QFI関数の生成関数となる。 本稿では,Bose-Hubbardモデルおよび解析的および数値的QFI関数について述べる。 この結果から, 1体還元密度行列汎関数理論と量子フィッシャー情報との初接続が得られた。

Quantum Fisher information (QFI) is a central concept in quantum sciences used to quantify the ultimate precision limit of parameter estimation, detect quantum phase transitions, witness genuine multipartite entanglement, or probe nonlocality. Despite this widespread range of applications, computing the QFI value of quantum many-body systems is, in general, a very demanding task. Here we combine ideas from functional theories and quantum information to develop a novel functional framework for the QFI of fermionic and bosonic ground states. By relying upon the constrained-search approach, we demonstrate that the QFI matricial values can universally be determined by the one-body reduced density matrix (1-RDM), avoiding thus the use of exponentially large wave functions. Furthermore, we show that QFI functionals can be determined from the universal 1-RDM functional by calculating its derivatives with respect to the coupling strengths, becoming thus the generating functional of the QFI. We showcase our approach with the Bose-Hubbard model and present exact analytical and numerical QFI functionals. Our results provide the first connection between the one-body reduced density matrix functional theory and the quantum Fisher information.
翻訳日:2023-11-23 11:38:45 公開日:2023-11-22
# Masked Latent Generative Modeling を用いた説明可能な異常検出

Explainable Anomaly Detection using Masked Latent Generative Modeling ( http://arxiv.org/abs/2311.12550v2 )

ライセンス: Link先を確認
Daesoo Lee, Sara Malacarne and Erlend Aune(参考訳) 本稿では,より優れた説明性を提供しながら,優れた検出精度を実現する新しい時系列異常検出手法を提案する。 提案手法であるTimeVQVAE-ADは、TimeVQVAEとして知られる最先端の時系列生成法に適応したマスク付き生成モデルを利用する。 先行モデルは、時間周波数領域の離散潜在空間に基づいて訓練される。 特に、時間周波数領域の次元的意味論は潜在空間に保存され、異なる周波数帯域にまたがる異常スコアを計算できるため、検出された異常に対するより良い洞察が得られる。 さらに、先行モデルの生成特性は、検出された異常に対する通常の状態のサンプリングを可能にし、検出された異常の説明可能性を高める。 UCR Time Series Anomaly Archiveの実験結果から,TimeVQVAE-ADは検出精度と説明可能性において既存の手法を大幅に上回っていることが示された。

We present a novel time series anomaly detection method that achieves excellent detection accuracy while offering a superior level of explainability. Our proposed method, TimeVQVAE-AD, leverages masked generative modeling adapted from the cutting-edge time series generation method known as TimeVQVAE. The prior model is trained on the discrete latent space of a time-frequency domain. Notably, the dimensional semantics of the time-frequency domain are preserved in the latent space, enabling us to compute anomaly scores across different frequency bands, which provides a better insight into the detected anomalies. Additionally, the generative nature of the prior model allows for sampling likely normal states for detected anomalies, enhancing the explainability of the detected anomalies through counterfactuals. Our experimental evaluation on the UCR Time Series Anomaly archive demonstrates that TimeVQVAE-AD significantly surpasses the existing methods in terms of detection accuracy and explainability.
翻訳日:2023-11-23 11:38:22 公開日:2023-11-22
# 最小値の変数を持つ文脈内学習関数

In-Context Learning Functions with Varying Number of Minima ( http://arxiv.org/abs/2311.12538v2 )

ライセンス: Link先を確認
David Oniani, Yanshan Wang(参考訳) 大規模言語モデル(LLM)は、ラベル付き例から予測子を作成することができるICL(In-Context Learning)で有効であることが証明されている。 ICLと近似しようとする関数の特定の性質との相互作用について研究する研究はほとんどない。 そこで本研究では,ICLの探索に公式なフレームワークを用い,様々な最小値の関数を近似する新しいタスクを提案する。 与えられた入力をミニマとして関数を生成できる手法を実装した。 ミニマ数の増加はiclのパフォーマンスを低下させる。 同時に、我々はICLが2層ニューラルネットワーク(2NN)モデルより優れていることを示した。 さらに、ICLはすべての設定で2NNよりも高速に学習する。 本研究は, 種々のハイパーパラメータ構成における数発の撮影実験を通して, 実験結果を検証した。

Large Language Models (LLMs) have proven effective at In-Context Learning (ICL), an ability that allows them to create predictors from labeled examples. Few studies have explored the interplay between ICL and specific properties of functions it attempts to approximate. In our study, we use a formal framework to explore ICL and propose a new task of approximating functions with varying number of minima. We implement a method that allows for producing functions with given inputs as minima. We find that increasing the number of minima degrades ICL performance. At the same time, our evaluation shows that ICL outperforms 2-layer Neural Network (2NN) model. Furthermore, ICL learns faster than 2NN in all settings. We validate the findings through a set of few-shot experiments across various hyperparameter configurations.
翻訳日:2023-11-23 11:38:08 公開日:2023-11-22
# 勾配降下によるニューラルネットワークのプルーニング

Neural Network Pruning by Gradient Descent ( http://arxiv.org/abs/2311.12526v2 )

ライセンス: Link先を確認
Zhang Zhang, Ruyi Tao, Jiang Zhang(参考訳) ディープラーニングモデルのパラメータの急速な増加は、かなりのコストと計算効率の挑戦、モデルの解釈可能性を生み出した。 本稿では,gumbel-softmax手法を応用した,新規で分かりやすいニューラルネットワークプルーニングフレームワークを提案する。 このフレームワークは、確率的勾配降下を用いたエンドツーエンドプロセスにおけるネットワークの重みとトポロジーの同時最適化を可能にする。 実験的な結果は、その例外的な圧縮能力を示し、元のネットワークパラメータの0.15倍の精度でMNISTデータセットを高い精度で維持する。 さらに,本フレームワークは,プルーニングネットワークから直接特徴重要度を抽出するだけでなく,特徴対称性の可視化や特徴から結果への情報伝達の経路を可視化することで,ニューラルネットワークの解釈可能性を向上させる。 プルーニング戦略はディープラーニングを通じて学習されるが、重要な特徴の選択とデータパターンの活用に重点を置いて、驚くほど直感的で理解しやすい。 我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。

The rapid increase in the parameters of deep learning models has led to significant costs, challenging computational efficiency and model interpretability. In this paper, we introduce a novel and straightforward neural network pruning framework that incorporates the Gumbel-Softmax technique. This framework enables the simultaneous optimization of a network's weights and topology in an end-to-end process using stochastic gradient descent. Empirical results demonstrate its exceptional compression capability, maintaining high accuracy on the MNIST dataset with only 0.15\% of the original network parameters. Moreover, our framework enhances neural network interpretability, not only by allowing easy extraction of feature importance directly from the pruned network but also by enabling visualization of feature symmetry and the pathways of information propagation from features to outcomes. Although the pruning strategy is learned through deep learning, it is surprisingly intuitive and understandable, focusing on selecting key representative features and exploiting data patterns to achieve extreme sparse pruning. We believe our method opens a promising new avenue for deep learning pruning and the creation of interpretable machine learning systems.
翻訳日:2023-11-23 11:37:57 公開日:2023-11-22
# glad: 大きなドメインギャップを持つ教師なしビデオドメイン適応のためのグローバルローカルビューアライメントと背景デバイアス

GLAD: Global-Local View Alignment and Background Debiasing for Unsupervised Video Domain Adaptation with Large Domain Gap ( http://arxiv.org/abs/2311.12467v2 )

ライセンス: Link先を確認
Hyogun Lee, Kyungho Bae, Seong Jong Ha, Yumin Ko, Gyeong-Moon Park, Jinwoo Choi(参考訳) 本研究では,動作認識のための教師なしビデオドメイン適応(UVDA)の課題に対処する。 既存の作業は、ラベル付きソースドメインとラベルなしターゲットドメインの間の小さなドメインギャップを主に扱うのとは対照的です。 より現実的な設定を確立するために,時間的ダイナミクスと背景シフトの両面において,領域差がかなり大きい,Kineetics->BABELと呼ばれる新しいUVDAシナリオを導入する。 震源領域と対象領域の動作持続時間差といった時間的変化に対処するため,グローバル・ローカル・ビューアライメントアプローチを提案する。 背景変化を軽減するため,時間順学習による時間順センシティブな表現と,背景拡張による背景不変表現を提案する。 本研究では,提案手法がKineetics->BABELデータセットの領域ギャップが大きい既存手法よりも大幅に改善されていることを実証的に検証した。 コードはhttps://github.com/KHUVLL/GLADで公開されている。

In this work, we tackle the challenging problem of unsupervised video domain adaptation (UVDA) for action recognition. We specifically focus on scenarios with a substantial domain gap, in contrast to existing works primarily deal with small domain gaps between labeled source domains and unlabeled target domains. To establish a more realistic setting, we introduce a novel UVDA scenario, denoted as Kinetics->BABEL, with a more considerable domain gap in terms of both temporal dynamics and background shifts. To tackle the temporal shift, i.e., action duration difference between the source and target domains, we propose a global-local view alignment approach. To mitigate the background shift, we propose to learn temporal order sensitive representations by temporal order learning and background invariant representations by background augmentation. We empirically validate that the proposed method shows significant improvement over the existing methods on the Kinetics->BABEL dataset with a large domain gap. The code is available at https://github.com/KHUVLL/GLAD.
翻訳日:2023-11-23 11:37:42 公開日:2023-11-22
# 多施設間クロスモダリティドメイン適応のためのサイト固有スタイルの学習

Learning Site-specific Styles for Multi-institutional Unsupervised Cross-modality Domain Adaptation ( http://arxiv.org/abs/2311.12437v2 )

ライセンス: Link先を確認
Han Liu, Yubo Fan, Zhoubing Xu, Benoit M. Dawant, Ipek Oguz(参考訳) 教師なしクロスモダリティドメイン適応は,医療画像解析において困難な課題であり,複数の機関からソースおよびターゲットドメインデータを収集する場合,さらに困難になる。 本稿では,クロスモダ2023チャレンジに対する多施設非教師付きドメイン適応への取り組みについて述べる。 まず,ソース領域の画像を対象領域に翻訳するために,非ペア画像変換を行い,制御可能なサイト固有のスタイルで合成対象領域画像を生成する動的ネットワークを設計する。 その後,合成画像を用いてセグメンテーションモデルを訓練し,自己学習による領域ギャップの低減を図る。 私たちのソリューションは,課題の検証とテストの両段階において,第1位を獲得しました。 コードリポジトリはhttps://github.com/MedICL-VU/crossmoda2023で公開されている。

Unsupervised cross-modality domain adaptation is a challenging task in medical image analysis, and it becomes more challenging when source and target domain data are collected from multiple institutions. In this paper, we present our solution to tackle the multi-institutional unsupervised domain adaptation for the crossMoDA 2023 challenge. First, we perform unpaired image translation to translate the source domain images to the target domain, where we design a dynamic network to generate synthetic target domain images with controllable, site-specific styles. Afterwards, we train a segmentation model using the synthetic images and further reduce the domain gap by self-training. Our solution achieved the 1st place during both the validation and testing phases of the challenge. The code repository is publicly available at https://github.com/MedICL-VU/crossmoda2023.
翻訳日:2023-11-23 11:37:24 公開日:2023-11-22
# マルチレゾリューションデータのための個別化動的モデル

Individualized Dynamic Model for Multi-resolutional Data ( http://arxiv.org/abs/2311.12392v2 )

ライセンス: Link先を確認
Jiuchen Zhang, Fei Xue, Qi Xu, Jung-Ah Lee, and Annie Qu(参考訳) モバイル健康は、スマートフォンやウェアラブルデバイスの人気とパワーのために、個人の健康状態を追跡する上で大きな成功を収めている。 これはまた、個人から収集された不規則な多変量測定により、モバイルの健康に至るところで発生する不均一で多分解能データを扱う際にも大きな課題をもたらした。 本稿では,不規則な多重解像度時系列データに対する個人化動的潜在因子モデルを提案する。 提案手法の主な利点は,マルチレゾリューションデータを潜在空間にマッピングすることにより,複数の不規則時系列と複数の被写体を統合できる点である。 さらに,提案する個別化動的潜在性因子モデルは,個別化動的潜在性因子を介して不均質な縦断情報を取得することに応用できる。 理論上,提案する推定器の積分補間誤差境界を提供し,b-スプライン近似法を用いて収束率を導出する。 シミュレーション研究とスマートウォッチデータへの適用は,提案手法の既存手法と比較して優れた性能を示している。

Mobile health has emerged as a major success in tracking individual health status, due to the popularity and power of smartphones and wearable devices. This has also brought great challenges in handling heterogeneous, multi-resolution data which arise ubiquitously in mobile health due to irregular multivariate measurements collected from individuals. In this paper, we propose an individualized dynamic latent factor model for irregular multi-resolution time series data to interpolate unsampled measurements of time series with low resolution. One major advantage of the proposed method is the capability to integrate multiple irregular time series and multiple subjects by mapping the multi-resolution data to the latent space. In addition, the proposed individualized dynamic latent factor model is applicable to capturing heterogeneous longitudinal information through individualized dynamic latent factors. In theory, we provide the integrated interpolation error bound of the proposed estimator and derive the convergence rate with B-spline approximation methods. Both the simulation studies and the application to smartwatch data demonstrate the superior performance of the proposed method compared to existing methods.
翻訳日:2023-11-23 11:37:11 公開日:2023-11-22
# 議論の防衛的意味論:再考

Defense semantics of argumentation: revisit ( http://arxiv.org/abs/2311.12207v2 )

ライセンス: Link先を確認
Beishui Liao and Leendert van der Torre(参考訳) 本稿では,1つの引数が(部分的に)別の引数によって攻撃され,別の引数によって(部分的に)防御されるという三重符号化である(部分的)防御の概念を用いて,ダングの抽象的議論フレームワークに対して,新たなセマンティクス,すなわち防御セマンティクスを導入する。 防衛セマンティクスの観点からは、3サイクルの自己攻撃的議論や議論に関連する防衛はいかなる状況でも不可能であり、AFの防衛セマンティクスに影響を与えることなく除去可能であることを示す。 次に, AFsの防衛等価性の概念を導入し, 防御等価性と標準等価性, 強等価性を比較した。 最後に、防衛意味論を利用して、議論を受理する2種類の理由、すなわち直接的理由と根的理由、および議論の要約に使用できるAFの根的等価性の概念を定義する。

In this paper we introduce a novel semantics, called defense semantics, for Dung's abstract argumentation frameworks in terms of a notion of (partial) defence, which is a triple encoding that one argument is (partially) defended by another argument via attacking the attacker of the first argument. In terms of defense semantics, we show that defenses related to self-attacked arguments and arguments in 3-cycles are unsatifiable under any situation and therefore can be removed without affecting the defense semantics of an AF. Then, we introduce a new notion of defense equivalence of AFs, and compare defense equivalence with standard equivalence and strong equivalence, respectively. Finally, by exploiting defense semantics, we define two kinds of reasons for accepting arguments, i.e., direct reasons and root reasons, and a notion of root equivalence of AFs that can be used in argumentation summarization.
翻訳日:2023-11-23 11:36:53 公開日:2023-11-22
# PhysGaussian: 生成ダイナミクスのための物理集積型3Dガウシアン

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics ( http://arxiv.org/abs/2311.12198v2 )

ライセンス: Link先を確認
Tianyi Xie, Zeshun Zong, Yuxing Qiu, Xuan Li, Yutao Feng, Yin Yang, Chenfanfu Jiang(参考訳) 3次元ガウス内における物理的に接地したニュートン力学をシームレスに統合し,高品質な運動合成を実現する新しい手法であるphysgaussianを紹介する。 カスタム・マテリアル・ポイント法(mpm)を用いて,物理的に有意味な運動的変形と機械的応力特性を持つ3次元ガウス核を,連続力学原理に従って拡張した。 本手法の特色は物理シミュレーションと視覚レンダリングのシームレスな統合である:両コンポーネントはそれぞれの離散表現と同じ3次元ガウスカーネルを使用する。 これは三角形/テトラエドロンメッシュ、行進立方体、ケージメッシュ、その他の幾何学的埋め込みの必要性を否定し、「あなたが見ているものは、シミュレーションする(WS$^2$)ものである」という原則を強調している。 本手法は, 弾性体, 金属, 非ニュートン流体, 粒状物質を含む多種多様な材料にまたがる特異な汎用性を示し, 新たな視点と動きを持つ多様な視覚コンテンツを作成する上での強力な能力を示す。 私たちのプロジェクトページは、https://xpandora.github.io/physgaussian/です。

We introduce PhysGaussian, a new method that seamlessly integrates physically grounded Newtonian dynamics within 3D Gaussians to achieve high-quality novel motion synthesis. Employing a custom Material Point Method (MPM), our approach enriches 3D Gaussian kernels with physically meaningful kinematic deformation and mechanical stress attributes, all evolved in line with continuum mechanics principles. A defining characteristic of our method is the seamless integration between physical simulation and visual rendering: both components utilize the same 3D Gaussian kernels as their discrete representations. This negates the necessity for triangle/tetrahedron meshing, marching cubes, "cage meshes," or any other geometry embedding, highlighting the principle of "what you see is what you simulate (WS$^2$)." Our method demonstrates exceptional versatility across a wide variety of materials--including elastic entities, metals, non-Newtonian fluids, and granular materials--showcasing its strong capabilities in creating diverse visual content with novel viewpoints and movements. Our project page is at: https://xpandora.github.io/PhysGaussian/
翻訳日:2023-11-23 11:36:36 公開日:2023-11-22
# 物理対応GANを用いた時間相関高分解能注入プロファイルの作成

Creating Temporally Correlated High-Resolution Power Injection Profiles Using Physics-Aware GAN ( http://arxiv.org/abs/2311.12166v2 )

ライセンス: Link先を確認
Hritik Gopal Shah, Behrouz Azimian, Anamitra Pal(参考訳) 従来のスマートメーターは、リアルタイムな意思決定に必要な粒度を欠いている。 この現実的な問題に対処するため,凸最適化層を用いて高解像度出力に時間的一貫性を強制する生成逆ネットワーク(GAN)モデルを構築した。 GANモデルのユニークな特徴は、歴史的スマートメーターデータから得られる遅い時間スケール集約電力情報のみに基づいて訓練されていることである。 その結果,15分間の平均消費電力情報から時間的に相関した瞬時電力注入プロファイルを作成することができた。 この革新的なアプローチは、ニューロン間制約を強調し、分散システムにおける高速状態推定を改善するための有望な方法を提供し、そのようなシステムを監視するためのデータ駆動ソリューションの適用性を高める。

Traditional smart meter measurements lack the granularity needed for real-time decision-making. To address this practical problem, we create a generative adversarial networks (GAN) model that enforces temporal consistency on its high-resolution outputs via hard inequality constraints using a convex optimization layer. A unique feature of our GAN model is that it is trained solely on slow timescale aggregated power information obtained from historical smart meter data. The results demonstrate that the model can successfully create minutely interval temporally-correlated instantaneous power injection profiles from 15-minute average power consumption information. This innovative approach, emphasizing inter-neuron constraints, offers a promising avenue for improved high-speed state estimation in distribution systems and enhances the applicability of data-driven solutions for monitoring such systems.
翻訳日:2023-11-23 11:36:14 公開日:2023-11-22
# ChemScraper:PDF画像のためのグラフィック抽出、分子図解析、注釈付きデータ生成

ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and Annotated Data Generation for PDF Images ( http://arxiv.org/abs/2311.12161v2 )

ライセンス: Link先を確認
Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore, Blake Ocampo, Scott Denmark, Richard Zanibbi(参考訳) 既存の分子図のビジュアルパーサーは、PNGのようなピクセルベースのラスタ画像を化学構造表現(SMILESなど)に変換する。 しかし、LaTeXやWordなどのワードプロセッサによって作成されたPDFは、文字、行、ポリゴンの明確な位置と形状を提供する。 我々は、生来のデジタルPDF分子画像からシンボルを抽出し、簡単なグラフ変換を適用して、編集可能なChemDrawファイル(CDXML)の視覚構造と化学構造の両方をキャプチャする。 我々の高速(PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph )パイプラインはGPU、光学文字認識(OCR)、ベクトル化を必要としない。 SMILES文字列を用いた標準ベンチマークとグラフベースのメトリクスとLgEvalを用いたエラーコンパイルを提供する新たな評価を行った。 生来のデジタルPDFの幾何学的情報は高度に正確なパーサーを生成し、ラスタ画像から認識される視覚的パーサーのトレーニングデータを生成し、抽出されたグラフィック、視覚構造、化学構造をアノテーションとして生成する。 これを行うために、IndigoでSMILES文字列を描画し、分子構造を解析し、認識された構造を確認して正しいファイルを選択する。

Existing visual parsers for molecule diagrams translate pixel-based raster images such as PNGs to chemical structure representations (e.g., SMILES). However, PDFs created by word processors including LaTeX and Word provide explicit locations and shapes for characters, lines, and polygons. We extract symbols from born-digital PDF molecule images and then apply simple graph transformations to capture both visual and chemical structure in editable ChemDraw files (CDXML). Our fast ( PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph ) pipeline does not require GPUs, Optical Character Recognition (OCR) or vectorization. We evaluate on standard benchmarks using SMILES strings, along with a novel evaluation that provides graph-based metrics and error compilation using LgEval. The geometric information in born-digital PDFs produces a highly accurate parser, motivating generating training data for visual parsers that recognize from raster images, with extracted graphics, visual structure, and chemical structure as annotations. To do this we render SMILES strings in Indigo, parse molecule structure, and then validate recognized structure to select correct files.
翻訳日:2023-11-23 11:36:00 公開日:2023-11-22