このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231221となっている論文です。

PDF登録状況(公開日: 20231221)

TitleAuthorsAbstract論文公表日・翻訳日
# 境界付き同時メッセージ

Bounded Simultaneous Messages ( http://arxiv.org/abs/2310.00334v4 )

ライセンス: Link先を確認
Andrej Bogdanov, Krishnamoorthy Dinesh, Yuval Filmus, Yuval Ishai, Avi Kaplan, Sruthi Sekar, (参考訳) 計算的非有界アリスとボブは、多項式サイズのメッセージを計算的有界キャロルに送信することで、関数の$f(x,y)$を評価できるだろうか? f$ が mod-2 内積関数であり、Carol が AC$^0$ に有界である特別な場合については、以前の研究で研究されている。 この一般的な問題は、分散計算が局所的な計算よりもコストがかかるアプリケーションによって広く動機付けられる。 本研究では,キャロライン上の関数$f$と計算バウンダリを持つBSMモデルについて,より体系的な研究を開始する。 特に,NP完全言語の自然分布変種に対する多項式サイズのCarolを用いたBSMプロトコルの存在を示す。

We consider the following question of bounded simultaneous messages (BSM) protocols: Can computationally unbounded Alice and Bob evaluate a function $f(x,y)$ of their inputs by sending polynomial-size messages to a computationally bounded Carol? The special case where $f$ is the mod-2 inner-product function and Carol is bounded to AC$^0$ has been studied in previous works. The general question can be broadly motivated by applications in which distributed computation is more costly than local computation, including secure two-party computation. In this work, we initiate a more systematic study of the BSM model, with different functions $f$ and computational bounds on Carol. In particular, we give evidence against the existence of BSM protocols with polynomial-size Carol for naturally distributed variants of NP-complete languages.
翻訳日:2024-03-25 14:15:19 公開日:2023-12-21
# ニューラルネットワークアーキテクチャによる高スペクトル画像の高効率化と高精度化

Efficient and Accurate Hyperspectral Image Demosaicing with Neural Network Architectures ( http://arxiv.org/abs/2403.12050v1 )

ライセンス: Link先を確認
Eric L. Wisotzky, Lara Wallburg, Anna Hilsmann, Peter Eisert, Thomas Wittenberg, Stephan Göb, (参考訳) 画像復号化のためのニューラルネットワークアーキテクチャはますます複雑になっている。 これにより、このようなディープネットワークの長いトレーニング期間とネットワークのサイズが巨大になる。 これらの2つの要因は、一般に限られたリソースしか持たないリアルタイムプラットフォームにおけるネットワークの実践的実装と利用を妨げる。 本研究では,ハイパースペクトル画像復調におけるニューラルネットワークアーキテクチャの有効性について検討した。 本稿では,従来の補間手法や既存の参照ネットワーク手法と比較する。 目的は、堅牢で効率的なネットワークアーキテクチャの特定である。 本研究は,マルチスペクトルフィルタアレイ(MSFA)データにおける現実性を表す「SimpleData」と「SimRealData」の2つのデータセットを用いて評価を行った。 その結果、我々のネットワークは、例外的な性能を示す両方のデータセットにおいて、参照モデルよりも優れているか、一致していることがわかった。 特に,本手法は,単に視覚的魅力ではなく,正確なスペクトル再構成の実現に重点を置いており,定量的,質的な評価によってその重点が支えられている。 さらに,本研究では,パラメータの少ない効率的な解法が実用化に不可欠であることが示唆された。 この研究は、ハイパースペクトルイメージングとその医療画像を含む様々な分野への応用に関する貴重な知見に貢献する。

Neural network architectures for image demosaicing have been become more and more complex. This results in long training periods of such deep networks and the size of the networks is huge. These two factors prevent practical implementation and usage of the networks in real-time platforms, which generally only have limited resources. This study investigates the effectiveness of neural network architectures in hyperspectral image demosaicing. We introduce a range of network models and modifications, and compare them with classical interpolation methods and existing reference network approaches. The aim is to identify robust and efficient performing network architectures. Our evaluation is conducted on two datasets, "SimpleData" and "SimRealData," representing different degrees of realism in multispectral filter array (MSFA) data. The results indicate that our networks outperform or match reference models in both datasets demonstrating exceptional performance. Notably, our approach focuses on achieving correct spectral reconstruction rather than just visual appeal, and this emphasis is supported by quantitative and qualitative assessments. Furthermore, our findings suggest that efficient demosaicing solutions, which require fewer parameters, are essential for practical applications. This research contributes valuable insights into hyperspectral imaging and its potential applications in various fields, including medical imaging.
翻訳日:2024-03-25 07:46:43 公開日:2023-12-21
# シンボリックファズリングによる非対称DoS下でのEthereumメムプールセキュリティの理解

Understanding Ethereum Mempool Security under Asymmetric DoS by Symbolic Fuzzing ( http://arxiv.org/abs/2312.02642v2 )

ライセンス: Link先を確認
Yibo Wang, Wanning Ding, Kai Li, Yuzhe Tang, (参考訳) ブロックチェーンでは、mempoolがコンセンサスの前にトランザクションフローを制御し、そのサービスの否定によってブロックチェーンネットワークの健全性とセキュリティが損なわれる。 本稿では,メムプール状態空間を象徴的に探索し,中間状態がバグオラクルに到達する際の有望性を楽観的に推定することで,非対称なDoSバグを発見する最初のメムプールファズナーMPFUZZを提案する。 MPFUZZは、ベースラインのブロックチェーンファッジャと比較して、既知のDETERエクスプロイトを見つける際の100倍のスピードアップを実現している。 6つの主要なEthereumクライアント上でMPFUZZを実行すると、新たなmempool脆弱性が発見され、ステルスなmempool排除やmempoolロックなど、さまざまな高度なパターンが現れる。 新たに発見された脆弱性に対してルールベースの緩和スキームが提案されている。

In blockchains, mempool controls transaction flow before consensus, denial of whose service hurts the health and security of blockchain networks. This paper presents MPFUZZ, the first mempool fuzzer to find asymmetric DoS bugs by symbolically exploring mempool state space and optimistically estimating the promisingness an intermediate state is in reaching bug oracles. Compared to the baseline blockchain fuzzers, MPFUZZ achieves a > 100x speedup in finding known DETER exploits. Running MPFUZZ on six major Ethereum clients leads to the discovering of new mempool vulnerabilities, which exhibit a wide variety of sophisticated patterns including stealthy mempool eviction and mempool locking. Rule-based mitigation schemes are proposed against newly discovered vulnerabilities.
翻訳日:2024-03-18 13:05:51 公開日:2023-12-21
# データ合成のための多段階攻撃・防御シミュレーションの検討

Investigation of Multi-stage Attack and Defense Simulation for Data Synthesis ( http://arxiv.org/abs/2312.13697v1 )

ライセンス: Link先を確認
Ömer Sen, Bozhidar Ivanov, Martin Henze, Andreas Ulbig, (参考訳) 電力網は、現代社会において重要な役割を果たす重要なインフラである。 人命の危険を冒す可能性があるため、その可用性は極めて重要である。 しかし、電力網のデジタル化が進むにつれ、新たなサイバー攻撃に脆弱になり、その可用性を損なう可能性がある。 これらの脅威に対処するため、電力網を標的とするサイバー攻撃を検出するために侵入検知システムを開発し、展開する。 侵入検知システムの中で、機械学習に基づく異常検出モデルは未知の攻撃ベクトルを検出する可能性を示している。 しかしながら、これらのモデルをトレーニングするデータの不足は、機密性に関する懸念から、依然として課題である。 この課題を克服するために,攻撃木を用いて攻撃者のステップ列をモデル化し,攻撃者のアクションを組み込むゲーム理論的アプローチを用いて,電力網内の多段階サイバー攻撃の合成データを生成するモデルを提案する。 このモデルは、機械学習アルゴリズムをトレーニング可能な多様な攻撃データを作成することを目的としている。

The power grid is a critical infrastructure that plays a vital role in modern society. Its availability is of utmost importance, as a loss can endanger human lives. However, with the increasing digitalization of the power grid, it also becomes vulnerable to new cyberattacks that can compromise its availability. To counter these threats, intrusion detection systems are developed and deployed to detect cyberattacks targeting the power grid. Among intrusion detection systems, anomaly detection models based on machine learning have shown potential in detecting unknown attack vectors. However, the scarcity of data for training these models remains a challenge due to confidentiality concerns. To overcome this challenge, this study proposes a model for generating synthetic data of multi-stage cyber attacks in the power grid, using attack trees to model the attacker's sequence of steps and a game-theoretic approach to incorporate the defender's actions. This model aims to create diverse attack data on which machine learning algorithms can be trained.
翻訳日:2024-03-18 11:38:03 公開日:2023-12-21
# スマートグリッドを用いた異常な侵入検知システムのベンチマーク評価

Benchmark Evaluation of Anomaly-Based Intrusion Detection Systems in the Context of Smart Grids ( http://arxiv.org/abs/2312.13705v1 )

ライセンス: Link先を確認
Ömer Sen, Simon Glomb, Martin Henze, Andreas Ulbig, (参考訳) スマートグリッドのデジタル化が進み、電力供給を確保するためにサイバーセキュリティの問題に対処することが重要になった。 異常検出は、スマートグリッドにおけるサイバーセキュリティの重要な技術として現れ、未知の脅威の検出を可能にしている。 多くの研究がグリッド操作における異常検出のための機械学習に基づく様々なアプローチを提案している。 しかし, 異常検出に対する様々なアプローチを検証し, 比較するためには, 再現性, 総合的な評価環境が必要である。 評価プロセスは、特定のアプリケーションに強く依存しており、ユースケースからの代表的データセットとユースケースの特定の特性を考慮に入れた評価が必要である。 本研究では,異なる異常検出手法の再現性および包括的評価を容易にするスマートグリッドにおける異常検出手法の評価環境を提案する。

The increasing digitization of smart grids has made addressing cybersecurity issues crucial in order to secure the power supply. Anomaly detection has emerged as a key technology for cybersecurity in smart grids, enabling the detection of unknown threats. Many research efforts have proposed various machine-learning-based approaches for anomaly detection in grid operations. However, there is a need for a reproducible and comprehensive evaluation environment to investigate and compare different approaches to anomaly detection. The assessment process is highly dependent on the specific application and requires an evaluation that considers representative datasets from the use case as well as the specific characteristics of the use case. In this work, we present an evaluation environment for anomaly detection methods in smart grids that facilitates reproducible and comprehensive evaluation of different anomaly detection methods.
翻訳日:2024-03-18 11:38:03 公開日:2023-12-21
# データリリースにおける個人別プライバシとマイクロアグリゲーションによるプライバシとユーティリティの整合性

Conciliating Privacy and Utility in Data Releases via Individual Differential Privacy and Microaggregation ( http://arxiv.org/abs/2312.13712v1 )

ライセンス: Link先を確認
Jordi Soria-Comas, David Sánchez, Josep Domingo-Ferrer, Sergio Martínez, Luis Del Vasto-Terrientes, (参考訳) $\epsilon$-Differential Privacy(DP)は、強力なプライバシ保証を提供するよく知られたプライバシモデルである。 しかし,データリリースに適用した場合,DPは保護された結果の分析的有用性を著しく低下させる。 データユーティリティを合理的なレベルに保つために、データリリースに対するDPの実践的応用は、DPのプライバシー保証を薄める弱いプライバシパラメータ(大きな$\epsilon$)を使用している。 本研究では,DP のプライバシー保証の代替式である $\epsilon$-individual differential privacy (iDP) を用いてこの問題に対処する。 我々は、属性マスキングとデータマイクロアグリゲーションに基づく前処理ステップに頼ることで、データリリースにiDPを強制する。 このステップの目的は、変更を記録するための感度を下げることであり、iDP(およびDP)を強制するのに必要なノイズの量を決定する。 具体的には,iDP のデータマイクロアグリゲーション戦略を提案する。 その結果,iDPが保護するデータの方がDPよりも有効であることがわかった。 当社のアプローチが強力なプライバシ(小さな$\epsilon$)を提供すると同時に,セカンダリデータ解析の精度を著しく低下させることのない保護データが得られることを示す実験について報告する。

$\epsilon$-Differential privacy (DP) is a well-known privacy model that offers strong privacy guarantees. However, when applied to data releases, DP significantly deteriorates the analytical utility of the protected outcomes. To keep data utility at reasonable levels, practical applications of DP to data releases have used weak privacy parameters (large $\epsilon$), which dilute the privacy guarantees of DP. In this work, we tackle this issue by using an alternative formulation of the DP privacy guarantees, named $\epsilon$-individual differential privacy (iDP), which causes less data distortion while providing the same protection as DP to subjects. We enforce iDP in data releases by relying on attribute masking plus a pre-processing step based on data microaggregation. The goal of this step is to reduce the sensitivity to record changes, which determines the amount of noise required to enforce iDP (and DP). Specifically, we propose data microaggregation strategies designed for iDP whose sensitivities are significantly lower than those used in DP. As a result, we obtain iDP-protected data with significantly better utility than with DP. We report on experiments that show how our approach can provide strong privacy (small $\epsilon$) while yielding protected data that do not significantly degrade the accuracy of secondary data analysis.
翻訳日:2024-03-18 11:38:03 公開日:2023-12-21
# スマートグリッドにおけるMLベースIDSのための多段階サイバー攻撃データ生成の一手法

An Approach to Abstract Multi-stage Cyberattack Data Generation for ML-Based IDS in Smart Grids ( http://arxiv.org/abs/2312.13737v1 )

ライセンス: Link先を確認
Ömer Sen, Philipp Malskorn, Simon Glomb, Immanuel Hacker, Martin Henze, Andreas Ulbig, (参考訳) 電力網はデジタル化され、グリッド運用の新たな機会が生まれつつあり、サイバードメインからの新たな脅威のような新たな課題も生じている。 これらの課題に対処するため、サイバーセキュリティソリューションは、予防的、刑事的、反応的な手段の形で検討されている。 機械学習に基づく侵入検知システムは、サイバー攻撃を検知し、防御するために使用される。 しかし、これらのシステムのトレーニングとテストデータは、しばしば、スマートグリッドにおける多段階のサイバー攻撃を検出する機械学習モデルで使用するのに適していない。 本稿では,スマートグリッドにおける機械学習モデルを学習するためのグラフベースアプローチを用いて,合成データを生成する手法を提案する。 我々は、グラフ定式化によって定義された多段階サイバー攻撃の抽象形式を使用し、ネットワーク内の攻撃の伝播挙動をシミュレートする。 選択したシナリオの中では,有望な結果が得られたが,さらに多くのシナリオが研究され,合成データの適合性に関するより深い結論が導かれる必要がある。

Power grids are becoming more digitized, resulting in new opportunities for the grid operation but also new challenges, such as new threats from the cyber-domain. To address these challenges, cybersecurity solutions are being considered in the form of preventive, detective, and reactive measures. Machine learning-based intrusion detection systems are used as part of detection efforts to detect and defend against cyberattacks. However, training and testing data for these systems are often not available or suitable for use in machine learning models for detecting multi-stage cyberattacks in smart grids. In this paper, we propose a method to generate synthetic data using a graph-based approach for training machine learning models in smart grids. We use an abstract form of multi-stage cyberattacks defined via graph formulations and simulate the propagation behavior of attacks in the network. Within the selected scenarios, we observed promising results, but a larger number of scenarios need to be studied to draw a more informed conclusion about the suitability of synthesized data.
翻訳日:2024-03-18 11:38:03 公開日:2023-12-21
# 非同期認証

Asynchronous Authentication ( http://arxiv.org/abs/2312.13967v1 )

ライセンス: Link先を確認
Marwa Mouallem, Ittay Eyal, (参考訳) 無数の認証機構は、古代の口頭パスワードから現代の多要素認証への継続的な進化を具現化している。 それでも、デジタル資産盗難と多数の個人情報盗難事件は、ユーザー認証の基礎を再考する緊急の必要性を示している。 クレデンシャルの詳細を抽象化し、非同期認証の一般的なケースを非有界メッセージ伝搬時間で形式化する。 我々のモデルは、独立した関心を持つかもしれないが、最終的なメッセージ配信を可能にし、暗号保証を維持するために実行時間を制限している。 資格情報の欠陥確率(損失やリークなど)を考慮すれば、最も成功する確率の高いメカニズムを探します。 すべてのメカニズムがBooleanのメカニズムによって支配されていることを示します。 本稿では,ほぼ最適なメカニズムを探索するアルゴリズムを提案する。 以前の研究はブール機構を特に分析したが、ブルート力を使用し、それは急速に複雑化していった。 問題構造を利用して、複雑さを桁違いに減らします。 このアルゴリズムは、実用的な設定に容易に適用できる。 例えば、いくつかの高品質な認証情報を使用する暗号通貨ウォレットの一般的なアプローチを再考する。 低品質な認証を追加することで,セキュリティが桁違いに向上することを示す。

A myriad of authentication mechanisms embody a continuous evolution from verbal passwords in ancient times to contemporary multi-factor authentication. Nevertheless, digital asset heists and numerous identity theft cases illustrate the urgent need to revisit the fundamentals of user authentication. We abstract away credential details and formalize the general, common case of asynchronous authentication, with unbounded message propagation time. Our model, which might be of independent interest, allows for eventual message delivery, while bounding execution time to maintain cryptographic guarantees. Given credentials' fault probabilities (e.g., loss or leak), we seek mechanisms with the highest success probability. We show that every mechanism is dominated by some Boolean mechanism -- defined by a monotonic Boolean function on presented credentials. We present an algorithm for finding approximately optimal mechanisms. Previous work analyzed Boolean mechanisms specifically, but used brute force, which quickly becomes prohibitively complex. We leverage the problem structure to reduce complexity by orders of magnitude. The algorithm is readily applicable to practical settings. For example, we revisit the common approach in cryptocurrency wallets that use a handful of high-quality credentials. We show that adding low-quality credentials improves security by orders of magnitude.
翻訳日:2024-03-18 11:38:03 公開日:2023-12-21
# 動的マイニングインターバルによるブロックチェーンのスループット向上

Dynamic Mining Interval to Improve Blockchain Throughput ( http://arxiv.org/abs/2312.14038v1 )

ライセンス: Link先を確認
Hou-Wan Long, Xiongfei Zhao, Yain-Whar Si, (参考訳) ブロックチェーン技術によって推進される分散ファイナンス(DeFi)は、従来の金融システムに革命をもたらし、透明性を改善し、コストを削減し、ファイナンシャルインクルージョンを促進する。 しかし、これらのシステムのトランザクションアクティビティは大幅に変動し、スループットが向上する。 この問題に対処するため,ブロックサイズや取引量に応じてマイニング間隔を調整し,ブロックチェーンプラットフォームのトランザクションスループットを向上させる動的マイニングインターバル(DMI)機構を提案する。 さらに、Bitcoin、Ethereum、Litecoinといった公開ブロックチェーンの文脈では、コインベースの報酬よりもトランザクション手数料が優位になる傾向が近日中に予想される。 その結果、生態系は、アンダーカッティング・アタック(英語版)、セルフリッシュ・マイニング(英語版)、プール・ホッピング(英語版)など、先進的な鉱業活動からの脅威に直面し続けている。 近年、動的トランザクションストレージ(DTS)戦略が提案され、手数料に基づいて動的にトランザクションを割り当て、ブロックインセンティブを安定化している。 しかし、DTSのメルクルツリーリーフノードの利用はシステムのスループットを低下させる。 この問題を軽減するために,本稿ではDMIとDTSを組み合わせたアプローチを提案する。 また,様々な要因に基づいて採掘間隔を調整するためのDMI選択機構についても論じる。

Decentralized Finance (DeFi), propelled by Blockchain technology, has revolutionized traditional financial systems, improving transparency, reducing costs, and fostering financial inclusion. However, transaction activities in these systems fluctuate significantly and the throughput can be effected. To address this issue, we propose a Dynamic Mining Interval (DMI) mechanism that adjusts mining intervals in response to block size and trading volume to enhance the transaction throughput of Blockchain platforms. Besides, in the context of public Blockchains such as Bitcoin, Ethereum, and Litecoin, a shift towards transaction fees dominance over coin-based rewards is projected in near future. As a result, the ecosystem continues to face threats from deviant mining activities such as Undercutting Attacks, Selfish Mining, and Pool Hopping, among others. In recent years, Dynamic Transaction Storage (DTS) strategies were proposed to allocate transactions dynamically based on fees thereby stabilizing block incentives. However, DTS' utilization of Merkle tree leaf nodes can reduce system throughput. To alleviate this problem, in this paper, we propose an approach for combining DMI and DTS. Besides, we also discuss the DMI selection mechanism for adjusting mining intervals based on various factors.
翻訳日:2024-03-18 11:38:03 公開日:2023-12-21
# HElium: プロキシ再暗号化をサポートする完全同型暗号化のための言語とコンパイラ

HElium: A Language and Compiler for Fully Homomorphic Encryption with Support for Proxy Re-Encryption ( http://arxiv.org/abs/2312.14250v1 )

ライセンス: Link先を確認
Mirko Günther, Lars Schütze, Kilian Becher, Thorsten Strufe, Jeronimo Castrillon, (参考訳) 機密データのプライバシー保護分析は、そのようなデータの価値を高め、人々の生活を改善する。 完全同型暗号化(FHE)は、プライバシー保護分析を可能にする。 しかし、FHEは大量の計算オーバーヘッドを追加し、その効率的な使用には高いレベルの専門知識が必要である。 コンパイラはパラメータ化や回路最適化といった特定の側面を自動化することができる。 これにより、FHEは非暗号学者にアクセスできる。 しかし、多党のシナリオは依然として複雑であり、医療研究のための大量の健康記録の分析など多くの有望なユースケースを除外している。 Proxy Re-Encryption (PRE)は、複数のソースから共同暗号化キーへのデータの変換を可能にする技術で、複数パーティのシナリオでFHEを有効にする。 現在、プリミティブ機能を備えたFHE用の最適化コンパイラは存在しない。 プロキシ再暗号化をネイティブサポートした最初の最適化FHEコンパイラであるHEliumを提案する。 HEliumは、マルチパーティシナリオ用に特別に設計されたドメイン固有言語(DSL)であるHEDSLを備えている。 暗号鍵を追跡し、コンパイル中に計算回路を変換することで、HEliumは高価なプリ操作の数を最小化する。 腫瘍再発率の実例に基づくHeliumの最適化の有効性について検討した。 実験により, HEliumは複雑な Pre 演算によって生じるオーバーヘッドを大幅に低減し, 入力データ量の増加に寄与することを示した。

Privacy-preserving analysis of confidential data can increase the value of such data and even improve peoples' lives. Fully homomorphic encryption (FHE) can enable privacy-preserving analysis. However, FHE adds a large amount of computational overhead and its efficient use requires a high level of expertise. Compilers can automate certain aspects such as parameterization and circuit optimizations. This in turn makes FHE accessible to non-cryptographers. Yet, multi-party scenarios remain complicated and exclude many promising use cases such as analyses of large amounts of health records for medical research. Proxy re-encryption (PRE), a technique that allows the conversion of data from multiple sources to a joint encryption key, can enable FHE for multi-party scenarios. Today, there are no optimizing compilers for FHE with PRE capabilities. We propose HElium, the first optimizing FHE compiler with native support for proxy re-encryption. HElium features HEDSL, a domain-specific language (DSL) specifically designed for multi-party scenarios. By tracking encryption keys and transforming the computation circuit during compilation, HElium minimizes the number of expensive PRE operations. We evaluate the effectiveness of HElium's optimizations based on the real-world use case of the tumor recurrence rate, a well-known subject of medical research. Our empirical evaluation shows that HElium substantially reduces the overhead introduced through complex PRE operations, an effect that increases for larger amounts of input data.
翻訳日:2024-03-18 11:28:19 公開日:2023-12-21
# L-TUNING:LLMにおけるプロンプトとプリフィックスのための同期ラベルチューニング

L-TUNING: Synchronized Label Tuning for Prompt and Prefix in LLMs ( http://arxiv.org/abs/2402.01643v1 )

ライセンス: Link先を確認
Md. Kowsher, Md. Shohanur Islam Sobuj, Asif Mahmud, Nusrat Jahan Prottasha and Prakash Bhat(参考訳) 特定のタスクを効率的に微調整するLarge Language Models (LLMs) は、自然言語処理において大きな課題となる。 プロンプトやプレフィックスチューニングのような従来のメソッドは通常、トレーニングのための任意のトークンに依存しており、トレーニング時間が長くなり、さまざまなクラスラベルで一般的なトークンが使用される。 これらの問題に対処するために,自然言語推論(NLI)フレームワーク内のタスクの分類を効率的に行うL-Tuningを提案する。 従来の手法と異なり、L-Tuningはラベルトークンの微調整に重点を置いており、既存の意味知識を活用している。 このテクニックは、微調整精度と効率を向上させるだけでなく、各クラスに個別のラベル埋め込みを生成し、モデルのトレーニングニュアンスを高める。 実験結果から,l-チューニングによる学習効率と分類精度は従来の手法と比較して有意に向上し,複雑な言語タスクにおけるllmの高精度化が期待できる。 以下のコードは \textcolor{red}{\href{https://github.com/kowsher/l-tuning}{\texttt{https://github.com/kowsher/l-tuning}}} で利用可能である。

Efficiently fine-tuning Large Language Models (LLMs) for specific tasks presents a considerable challenge in natural language processing. Traditional methods, like prompt or prefix tuning, typically rely on arbitrary tokens for training, leading to prolonged training times and generalized token use across various class labels. To address these issues, this paper introduces L-Tuning, an efficient fine-tuning approach designed for classification tasks within the Natural Language Inference (NLI) framework. Diverging from conventional methods, L-Tuning focuses on the fine-tuning of label tokens processed through a pre-trained LLM, thereby harnessing its pre-existing semantic knowledge. This technique not only improves the fine-tuning accuracy and efficiency but also facilitates the generation of distinct label embeddings for each class, enhancing the model's training nuance. Our experimental results indicate a significant improvement in training efficiency and classification accuracy with L-Tuning compared to traditional approaches, marking a promising advancement in fine-tuning LLMs for complex language tasks. \\ Code is available at: \textcolor{red}{\href{https://github.com/Kowsher/L-Tuning}{\texttt{https://github.com/Kowsher/L-Tuning}}}.
翻訳日:2024-02-11 17:15:35 公開日:2023-12-21
# スマートフォンGPSデータを用いた家検出アルゴリズムの比較

Comparison of home detection algorithms using smartphone GPS data ( http://arxiv.org/abs/2401.06154v1 )

ライセンス: Link先を確認
Rajat Verma, Shagun Mittal, Zengxiang Lei, Xiaowei Chen, Satish V. Ukkusuri(参考訳) スマートフォンの位置情報サービスデータを用いた自宅位置推定は,移動度評価において一般的な課題である。 しかし、一般的に使用されるホーム検出アルゴリズム(HDA)は、しばしば任意であり、未検討である。 本研究では,既存のHDAをレビューし,高品質な8つの携帯電話位置情報データセットを用いて5つのHDAについて検討する。 これらには4つのよく使われるHDAと、この研究で提案されたHDAが含まれている。 定量的な比較を行うために,検出された家の位置の質を評価し,米国の4都市の8つのデータセットで検証する3つの新しい指標を提案する。 3つの指標はいずれもHDAのパフォーマンスに一貫したランクを示し,提案したHDAは他よりも優れていた。 位置情報データポイントの時間的・空間的連続性は、正確な家検出のためのデータ全体のサイズよりも重要であると推定する。 また、高い(そして似たような)パフォーマンスメトリクスを持つHDAは、より良い一貫性と共通の期待に近い結果を生み出す傾向があります。 さらに、相対的な性能パターンは持続するが、装置のデータ品質の低下とともに性能が低下する。 最後に,2つのケーススタディを用いて,住宅検知の違いがその後の推論に重大な違いをもたらすことを示す。 (i)ハリケーン避難推定、 (ii)モビリティ・パターンと社会経済的地位の相関性 本研究は,大規模人力アセスメントアプリケーションの透明性向上に寄与する。

Estimation of people's home locations using location-based services data from smartphones is a common task in human mobility assessment. However, commonly used home detection algorithms (HDAs) are often arbitrary and unexamined. In this study, we review existing HDAs and examine five HDAs using eight high-quality mobile phone geolocation datasets. These include four commonly used HDAs as well as an HDA proposed in this work. To make quantitative comparisons, we propose three novel metrics to assess the quality of detected home locations and test them on eight datasets across four U.S. cities. We find that all three metrics show a consistent rank of HDAs' performances, with the proposed HDA outperforming the others. We infer that the temporal and spatial continuity of the geolocation data points matters more than the overall size of the data for accurate home detection. We also find that HDAs with high (and similar) performance metrics tend to create results with better consistency and closer to common expectations. Further, the performance deteriorates with decreasing data quality of the devices, though the patterns of relative performance persist. Finally, we show how the differences in home detection can lead to substantial differences in subsequent inferences using two case studies - (i) hurricane evacuation estimation, and (ii) correlation of mobility patterns with socioeconomic status. Our work contributes to improving the transparency of large-scale human mobility assessment applications.
翻訳日:2024-01-22 13:07:53 公開日:2023-12-21
# kクラスタビッグバン大Crunchアルゴリズムによるマルチモーダル最適化

Multi-Modal Optimization with k-Cluster Big Bang-Big Crunch Algorithm ( http://arxiv.org/abs/2401.06153v1 )

ライセンス: Link先を確認
Kemal Erdem Yenin, Reha Oguz Sayin, Kuzey Arar, Kadir Kaan Atalay, and Fabio Stroppa(参考訳) マルチモーダル最適化は工学的な問題、特に異なる代替解を求める場合にしばしば発生する。 進化的アルゴリズムは、集団の概念、探索/探索、並列計算などの特徴により、効率的にマルチモーダル最適化に取り組むことができる。 本稿では,クラスタリング,すなわちk-BBBCに基づくBig Bang-Big Crunchアルゴリズムのマルチモーダル最適化版を提案する。 このアルゴリズムは全人口の完全な収束を保証し、特定の問題に対する局所最適値の99\%を平均で取得する。 さらに,2つのポストプロセッシング手法を導入する。 一 回収された一組の溶液(すなわち人口)における局所最適性を識別し、 (ii) 期待値(すなわち成功率)に対して正しく回収された最適値の数を定量化する。 その結果, k-BBBC は, 多数の最適度(379オプティマで検証)と高次元性(32個の決定変数で検証)を有する問題においても良好な性能を示した。 他のマルチモーダル最適化手法と比較すると、特にエリート主義を適用した場合、精度(探索空間と目的空間の両方)と成功率(正しい最適値の値)でそれらを上回ります。 最後に,提案手法の実際の成功率と比較し,提案手法の有効性を検証した。 これらの手法は,探索空間に最適な位置を知ることなく,最適性を正しく同定し,成功を示すことによって,マルチモーダル最適化アルゴリズムの性能評価に有効であることが示唆された。

Multi-modal optimization is often encountered in engineering problems, especially when different and alternative solutions are sought. Evolutionary algorithms can efficiently tackle multi-modal optimization thanks to their features such as the concept of population, exploration/exploitation, and being suitable for parallel computation. This paper introduces a multi-modal optimization version of the Big Bang-Big Crunch algorithm based on clustering, namely, k-BBBC. This algorithm guarantees a complete convergence of the entire population, retrieving on average the 99\% of local optima for a specific problem. Additionally, we introduce two post-processing methods to (i) identify the local optima in a set of retrieved solutions (i.e., a population), and (ii) quantify the number of correctly retrieved optima against the expected ones (i.e., success rate). Our results show that k-BBBC performs well even with problems having a large number of optima (tested on 379 optima) and high dimensionality (tested on 32 decision variables). When compared to other multi-modal optimization methods, it outperforms them in terms of accuracy (in both search and objective space) and success rate (number of correctly retrieved optima) -- especially when elitism is applied. Lastly, we validated our proposed post-processing methods by comparing their success rate to the actual one. Results suggest that these methods can be used to evaluate the performance of a multi-modal optimization algorithm by correctly identifying optima and providing an indication of success -- without the need to know where the optima are located in the search space.
翻訳日:2024-01-22 13:07:35 公開日:2023-12-21
# SE(3)-Discrete Diffusionによる核酸とタンパク質複合体の結合配列構造形成に向けて

Towards Joint Sequence-Structure Generation of Nucleic Acid and Protein Complexes with SE(3)-Discrete Diffusion ( http://arxiv.org/abs/2401.06151v1 )

ライセンス: Link先を確認
Alex Morehead, Jeffrey Ruffolo, Aadyot Bhatnagar, Ali Madani(参考訳) マクロ分子の生成モデルは、タンパク質工学における産業的および生物医学的な取り組みに、豊富で大きな影響を与えている。 しかし、既存の方法は現在、タンパク質と他の高分子との相互作用によらず、独立に、または共同で、タンパク質構造や配列をモデル化することに制限されている。 本研究では, 核酸およびタンパク質複合体の配列と構造を, SE(3) 離散拡散雑音を用いて独立に, あるいは複雑に共同で設計する生成モデル MMDiff を紹介する。 このようなモデルは、構造に基づく転写因子の設計や非コードRNA配列の設計を含む、マクロ分子設計の新しい領域に重要な意味を持つ。 本研究で紹介したマクロ分子複合体生成のための厳密な新しい設計ベンチマークによりMDDiffの有用性を実証する。 以上の結果から,mmdiffはdnaおよびrna分子を多鎖タンパク質複合体と相互作用させながら,マイクロrnaおよび単鎖dna分子を効果的に生成できることが示された。 ソースコード:https://github.com/Profluent-Internships/MMDiff

Generative models of macromolecules carry abundant and impactful implications for industrial and biomedical efforts in protein engineering. However, existing methods are currently limited to modeling protein structures or sequences, independently or jointly, without regard to the interactions that commonly occur between proteins and other macromolecules. In this work, we introduce MMDiff, a generative model that jointly designs sequences and structures of nucleic acid and protein complexes, independently or in complex, using joint SE(3)-discrete diffusion noise. Such a model has important implications for emerging areas of macromolecular design including structure-based transcription factor design and design of noncoding RNA sequences. We demonstrate the utility of MMDiff through a rigorous new design benchmark for macromolecular complex generation that we introduce in this work. Our results demonstrate that MMDiff is able to successfully generate micro-RNA and single-stranded DNA molecules while being modestly capable of joint modeling DNA and RNA molecules in interaction with multi-chain protein complexes. Source code: https://github.com/Profluent-Internships/MMDiff.
翻訳日:2024-01-22 13:07:08 公開日:2023-12-21
# d-stgcnt:患者リハビリテーション評価のためのトランスフォーマーに基づく高密度時空間グラフconv-gruネットワーク

D-STGCNT: A Dense Spatio-Temporal Graph Conv-GRU Network based on transformer for assessment of patient physical rehabilitation ( http://arxiv.org/abs/2401.06150v1 )

ライセンス: Link先を確認
Youssef Mourchid, Rim Slama(参考訳) 本論文は,臨床医の指導を受けずに運動を行う患者に対して,身体的リハビリテーション演習を自動評価する課題に対処する。 目的は、正しいパフォーマンスを確保し、望ましい結果を達成する品質スコアを提供することである。 この目的を達成するために、新しいグラフベースモデルであるDense Spatio-Temporal Graph Conv-GRU Network with Transformerが導入された。 このモデルはSTGCNの修正版とトランスフォーマーアーキテクチャを組み合わせて、時空間データの効率的な処理を行う。 キーとなるアイデアは、その非線形構造をグラフとして扱うスケルトンデータを考慮し、リハビリテーション運動において主要な役割を果たすジョイントを検出することである。 デンス接続とGRU機構は、大きな3次元骨格入力を迅速に処理し、時間的ダイナミクスを効果的にモデル化するために用いられる。 トランスコーダの注意機構は入力シーケンスの関連部分に焦点を当てており、リハビリテーション運動の評価に有用である。 KIMOREおよびUI-PRMDデータセットに対する提案手法の評価は,その可能性を強調し,精度と計算時間の観点から最先端の手法を超越した。 その結果、より速くより正確な学習とリハビリテーション演習の評価が可能となった。 さらに,本モデルは,特定の運動における関節の意義を効果的に強調する,質的イラストレーションを通じて貴重なフィードバックを提供する。

This paper tackles the challenge of automatically assessing physical rehabilitation exercises for patients who perform the exercises without clinician supervision. The objective is to provide a quality score to ensure correct performance and achieve desired results. To achieve this goal, a new graph-based model, the Dense Spatio-Temporal Graph Conv-GRU Network with Transformer, is introduced. This model combines a modified version of STGCN and transformer architectures for efficient handling of spatio-temporal data. The key idea is to consider skeleton data respecting its non-linear structure as a graph and detecting joints playing the main role in each rehabilitation exercise. Dense connections and GRU mechanisms are used to rapidly process large 3D skeleton inputs and effectively model temporal dynamics. The transformer encoder's attention mechanism focuses on relevant parts of the input sequence, making it useful for evaluating rehabilitation exercises. The evaluation of our proposed approach on the KIMORE and UI-PRMD datasets highlighted its potential, surpassing state-of-the-art methods in terms of accuracy and computational time. This resulted in faster and more accurate learning and assessment of rehabilitation exercises. Additionally, our model provides valuable feedback through qualitative illustrations, effectively highlighting the significance of joints in specific exercises.
翻訳日:2024-01-22 13:06:34 公開日:2023-12-21
# udeep:水中クラゲとプラスチック検出のためのエッジベースのコンピュータビジョン

UDEEP: Edge-based Computer Vision for In-Situ Underwater Crayfish and Plastic Detection ( http://arxiv.org/abs/2401.06157v1 )

ライセンス: Link先を確認
Dennis Monari, Jack Larkin, Pedro Machado, Jordan J. Bird, Isibor Kennedy Ihianle, Salisu Wada Yahaya, Farhad Fassihi Tash, Md Mahmudul Hasan, Ahmad Lotfi(参考訳) 侵入信号クラゲは生態系に有害な影響を及ぼす。 彼らは、イギリスで唯一の天然のクラゲである原生の白いクラゲに致命的な真菌型クラゲ疫病(Aphanomyces astaci)を広めた。 侵入信号クレーフィッシュは広範囲に穴を埋め、生息地の破壊、川岸の浸食、水質の悪変化を引き起こし、一方で原生種と資源を競い合い、先住民の減少につながった。 さらに、汚染はホワイト・クレイフィッシュの脆弱性を悪化させ、一部のイングランドの郡では人口が90%以上減少し、絶滅の恐れが強い。 水生生態系を保護するためには、イギリスの河川生態系における侵入種や廃棄プラスチックの課題に対処することが不可欠である。 UDEEPプラットフォームは、AI、IoTデバイス、エッジコンピューティング(NJN)のパワーを活用しながら、Signal crayfishとプラスチックの破片をオンザフライで分類することで、環境監視において重要な役割を果たす。 UDEEPプラットフォームは、これらの種の存在、拡散、豊富性に関する正確なデータを提供することで、モニタリングの取り組みや、外来種の拡散を緩和する支援に貢献することができる。

Invasive signal crayfish have a detrimental impact on ecosystems. They spread the fungal-type crayfish plague disease (Aphanomyces astaci) that is lethal to the native white clawed crayfish, the only native crayfish species in Britain. Invasive signal crayfish extensively burrow, causing habitat destruction, erosion of river banks and adverse changes in water quality, while also competing with native species for resources and leading to declines in native populations. Moreover, pollution exacerbates the vulnerability of White-clawed crayfish, with their populations declining by over 90% in certain English counties, making them highly susceptible to extinction. To safeguard aquatic ecosystems, it is imperative to address the challenges posed by invasive species and discarded plastics in the United Kingdom's river ecosystem's. The UDEEP platform can play a crucial role in environmental monitoring by performing on-the-fly classification of Signal crayfish and plastic debris while leveraging the efficacy of AI, IoT devices and the power of edge computing (i.e., NJN). By providing accurate data on the presence, spread and abundance of these species, the UDEEP platform can contribute to monitoring efforts and aid in mitigating the spread of invasive species.
翻訳日:2024-01-22 12:50:12 公開日:2023-12-21
# 畳み込みニューラルネットワークにおける分類誤差推定に対する確率的アプローチ

A Stochastic Approach to Classification Error Estimates in Convolutional Neural Networks ( http://arxiv.org/abs/2401.06156v1 )

ライセンス: Link先を確認
Jan Peleska, Felix Br\"uning, Mario Gleirscher, Wen-ling Huang(参考訳) この技術報告は、安全クリティカルな応用における画像分類に使用される訓練された畳み込みニューラルネットワーク(CNN)の検証における研究成果を示す。 実例では、将来の自動貨物列車で必要となる障害物検出機能であるgoa(gradle of automation)4を使用する。 従来のEN 50128やEN 50129に加えて、ANSI/UL 4600やISO 21448といった新しい規格で、GoA 4などの貨物列車が認証されていることが示されている。 さらに,障害物検出機能から期待されるシステムレベルのハザード率を定量的に分析する。 センサ/パーセプタ融合を用いて、融合検出システムは、適用すべき安全整合性レベルが許容できると見なされる許容危険度を満たすことができる(SIL-3)。 CNNモデルの数学的解析を行い、CNNの画像入力空間を分割する分類クラスタと等価クラスを識別する。 これらのクラスターとクラスは、訓練されたcnnの残差誤差確率と関連する高い信頼度限界を決定する新しい統計試験法を導入するために使用される。 我々は、CNNモデルの内部構造を考慮した、CNN検証に対するこのグレーボックスアプローチが、トレーニングされたCNNをニューロンと層間マッピングで包括的にカバーしたことを正当化するために不可欠であると論じる。

This technical report presents research results achieved in the field of verification of trained Convolutional Neural Network (CNN) used for image classification in safety-critical applications. As running example, we use the obstacle detection function needed in future autonomous freight trains with Grade of Automation (GoA) 4. It is shown that systems like GoA 4 freight trains are indeed certifiable today with new standards like ANSI/UL 4600 and ISO 21448 used in addition to the long-existing standards EN 50128 and EN 50129. Moreover, we present a quantitative analysis of the system-level hazard rate to be expected from an obstacle detection function. It is shown that using sensor/perceptor fusion, the fused detection system can meet the tolerable hazard rate deemed to be acceptable for the safety integrity level to be applied (SIL-3). A mathematical analysis of CNN models is performed which results in the identification of classification clusters and equivalence classes partitioning the image input space of the CNN. These clusters and classes are used to introduce a novel statistical testing method for determining the residual error probability of a trained CNN and an associated upper confidence limit. We argue that this greybox approach to CNN verification, taking into account the CNN model's internal structure, is essential for justifying that the statistical tests have covered the trained CNN with its neurons and inter-layer mappings in a comprehensive way.
翻訳日:2024-01-22 12:49:48 公開日:2023-12-21
# 複数のgptエージェントを用いた強化学習を用いたde novo薬物設計

De novo Drug Design using Reinforcement Learning with Multiple GPT Agents ( http://arxiv.org/abs/2401.06155v1 )

ライセンス: Link先を確認
Xiuyuan Hu, Guoqing Liu, Yang Zhao, Hao Zhang(参考訳) de novo drug designは薬理学における重要な問題であり、科学研究のためのaiに焦点を絞った新しい分野である。 この分野での中心的な課題は、特定の性質を持つ分子を生成すると同時に、幅広い多様な候補を生成することである。 トランスフォーマーモデルや強化学習といった先進技術は薬物設計に応用されてきたが、その可能性は完全には実現されていない。 そこで本研究では,分子生成のための強化学習アルゴリズムであるMolRL-MGPTを提案する。 分子多様性を促進するために,様々な方向に望ましい分子を探すために,エージェントが協力することを奨励する。 このアルゴリズムはGurcaMolベンチマークで有望な結果を示し,SARS-CoV-2タンパク質標的に対する阻害剤の設計に有効であることを示した。 コードはhttps://github.com/hxyfighter/molrl-mgpt。

De novo drug design is a pivotal issue in pharmacology and a new area of focus in AI for science research. A central challenge in this field is to generate molecules with specific properties while also producing a wide range of diverse candidates. Although advanced technologies such as transformer models and reinforcement learning have been applied in drug design, their potential has not been fully realized. Therefore, we propose MolRL-MGPT, a reinforcement learning algorithm with multiple GPT agents for drug molecular generation. To promote molecular diversity, we encourage the agents to collaborate in searching for desirable molecules in diverse directions. Our algorithm has shown promising results on the GuacaMol benchmark and exhibits efficacy in designing inhibitors against SARS-CoV-2 protein targets. The codes are available at: https://github.com/HXYfighter/MolRL-MGPT.
翻訳日:2024-01-22 12:49:24 公開日:2023-12-21
# 認知的減退予測のためのマルチモーダルニューロイメージングアテンションベースアーキテクチャ

Multimodal Neuroimaging Attention-Based architecture for Cognitive Decline Prediction ( http://arxiv.org/abs/2401.06777v1 )

ライセンス: Link先を確認
Jamie Vo, Naeha Sharif and Ghulam Mubashar Hassan(参考訳) アルツハイマー病の早期発見は早期治療の確保と患者の予後の改善に不可欠である。 その結果、ADとその中間段階である軽度認知障害(MCI)を検出するための拡張研究が行われた。 しかし、通常の認知状態からadとmciへの変換を予測する文献は非常に少ない。 近年,磁気共鳴イメージング(MRI)とポジトロン放射トモグラフィ(PET)を統合した畳み込みニューラルネットワーク(CNN)を用いてMCIとADを分類している。 しかし、これらの研究において、MRIとPETの融合は単に結合によって達成され、結果として相互モーダル相互作用が欠如する。 本稿では,認知正常者(cn)が10年以内にmciまたはadを発症するかどうかを予測するために,mna-net(multimodal neuroimaging attention-based cnn architecture)を提案する。 従来の研究で見られる神経画像モダリティ間の相互作用の欠如を解決するため、MNA-netはMRIとPET画像の共有表現を形成するために注意機構を利用する。 提案したMNA-netはOASIS-3データセットでテストされ、精度83%、真陰率80%、真正率86%でMCIまたはADに変換されたCN個体を予測できる。 その結果, 注意機構を用いることで, 精度と正負率を5%, 10%向上させることができた。 これらの結果は、認知低下の予測を改善するために、異なる神経画像モダリティの融合における認知障害と注意に基づくメカニズムを予測するモデルの可能性を示す。

The early detection of Alzheimer's Disease is imperative to ensure early treatment and improve patient outcomes. There has consequently been extenstive research into detecting AD and its intermediate phase, mild cognitive impairment (MCI). However, there is very small literature in predicting the conversion to AD and MCI from normal cognitive condition. Recently, multiple studies have applied convolutional neural networks (CNN) which integrate Magnetic Resonance Imaging (MRI) and Positron Emission Tomography (PET) to classify MCI and AD. However, in these works, the fusion of MRI and PET features are simply achieved through concatenation, resulting in a lack of cross-modal interactions. In this paper, we propose a novel multimodal neuroimaging attention-based CNN architecture, MNA-net, to predict whether cognitively normal (CN) individuals will develop MCI or AD within a period of 10 years. To address the lack of interactions across neuroimaging modalities seen in previous works, MNA-net utilises attention mechanisms to form shared representations of the MRI and PET images. The proposed MNA-net is tested in OASIS-3 dataset and is able to predict CN individuals who converted to MCI or AD with an accuracy of 83%, true negative rate of 80%, and true positive rate of 86%. The new state of the art results improved by 5% and 10% for accuracy and true negative rate by the use of attention mechanism. These results demonstrate the potential of the proposed model to predict cognitive impairment and attention based mechanisms in the fusion of different neuroimaging modalities to improve the prediction of cognitive decline.
翻訳日:2024-01-22 12:41:10 公開日:2023-12-21
# リミット・オーダーブックのデータによるホークスの暗号通貨予測

Hawkes-based cryptocurrency forecasting via Limit Order Book data ( http://arxiv.org/abs/2312.16190v1 )

ライセンス: Link先を確認
Raffaele Giuseppe Cestari, Filippo Barchi, Riccardo Busetto, Daniele Marazzina, Simone Formentin(参考訳) 金融リターンの方向性を正確に予測することは、金融時系列の本質的な予測不可能性を考えると、恐ろしい課題となる。 暗号市場のカオス的かつ複雑な性質を考えると、暗号通貨のリターンに適用した場合、このタスクはさらに困難になる。 本研究では,点過程のカテゴリであるホークスモデルに根ざしたリミットオーダーブック(LOB)データを用いた新しい予測アルゴリズムを提案する。 提案手法は, 連続出力誤差(COE)モデルと組み合わせて, 将来の金融相互作用の予測を利用して, 戻り信号の正確な予測を行う。 当初の時系列の非一様サンプル構造から得られた戦略は,取引環境における予測精度と累積利益の両方でベンチマークモデルを上回った。 本手法の有効性は,50シナリオにわたるモンテカルロシミュレーションにより検証した。 この研究は、stablecoinのテザーを米国ドルと交換する集中型暗号通貨取引所からのlob測定に基づいている。

Accurately forecasting the direction of financial returns poses a formidable challenge, given the inherent unpredictability of financial time series. The task becomes even more arduous when applied to cryptocurrency returns, given the chaotic and intricately complex nature of crypto markets. In this study, we present a novel prediction algorithm using limit order book (LOB) data rooted in the Hawkes model, a category of point processes. Coupled with a continuous output error (COE) model, our approach offers a precise forecast of return signs by leveraging predictions of future financial interactions. Capitalizing on the non-uniformly sampled structure of the original time series, our strategy surpasses benchmark models in both prediction accuracy and cumulative profit when implemented in a trading environment. The efficacy of our approach is validated through Monte Carlo simulations across 50 scenarios. The research draws on LOB measurements from a centralized cryptocurrency exchange where the stablecoin Tether is exchanged against the U.S. dollar.
翻訳日:2024-01-15 13:05:31 公開日:2023-12-21
# バイトからバイアスへ:大規模言語モデルの文化的自己受容の研究

From Bytes to Biases: Investigating the Cultural Self-Perception of Large Language Models ( http://arxiv.org/abs/2312.17256v1 )

ライセンス: Link先を確認
Wolfgang Messner, Tatum Greene, Josephine Matalone(参考訳) 大規模言語モデル(LLM)は、人間との自然な会話に関わり、情報検索と自動決定支援のための前例のない能力を示す。 彼らは人間とテクノロジーの相互作用とビジネスの運営方法を破壊してきた。 しかし、生成人工知能(GenAI)に基づく技術は、訓練対象の大規模なデータセットによって導入される幻覚、誤報、表示バイアスとして知られている。 既存の研究によると、人間はこれらのバイアスを無意識的に内部化し、プログラムの使用をやめた後も持続する可能性がある。 本研究は,GLOBEプロジェクトから得られた価値質問を,ChatGPT(OpenAI)とBard(Google)に促すことにより,LLMの文化的自己認識を探求する。 その結果,その文化的自己受容は,持続的な経済競争力を特徴とする英語を話す国や国の価値観と最も密接に一致していることが判明した。 LLMの文化的バイアスを認識し、どのように機能するかを理解することは、人工知能のブラックボックスが人間のバイアスを永続させるのを望んでいないため、社会のすべてのメンバーにとって不可欠である。

Large language models (LLMs) are able to engage in natural-sounding conversations with humans, showcasing unprecedented capabilities for information retrieval and automated decision support. They have disrupted human-technology interaction and the way businesses operate. However, technologies based on generative artificial intelligence (GenAI) are known to hallucinate, misinform, and display biases introduced by the massive datasets on which they are trained. Existing research indicates that humans may unconsciously internalize these biases, which can persist even after they stop using the programs. This study explores the cultural self-perception of LLMs by prompting ChatGPT (OpenAI) and Bard (Google) with value questions derived from the GLOBE project. The findings reveal that their cultural self-perception is most closely aligned with the values of English-speaking countries and countries characterized by sustained economic competitiveness. Recognizing the cultural biases of LLMs and understanding how they work is crucial for all members of society because one does not want the black box of artificial intelligence to perpetuate bias in humans, who might, in turn, inadvertently create and train even more biased algorithms.
翻訳日:2024-01-15 12:49:01 公開日:2023-12-21
# hitsndiffs: 真理の発見から連続する性質を持つ行列の復元による能力発見へ

HITSnDIFFs: From Truth Discovery to Ability Discovery by Recovering Matrices with the Consecutive Ones Property ( http://arxiv.org/abs/2401.00013v1 )

ライセンス: Link先を確認
Zixuan Chen, Subhodeep Mitra, R Ravi, Wolfgang Gatterbauer(参考訳) 本研究では,あるユーザが質問(項目)をし,他のユーザが回答(ラベル)を返却するクラウドソース環境での一般的な問題を解析する。 質問に対して最も適切なラベル("真実")を見つけることに焦点を当てた既存のクラウドソーシング作業とは違って、私たちの問題は、質問に答える能力に基づいてユーザのランキングを決定することです。 我々はこの問題を「能力発見」と呼び、よりよく研究された「真実発見」の問題と結びつきと双対性を強調する。 品目とそのラベルを原則的にモデル化するために,SAT や GRE といった標準化テストの背後にある広く受け入れられている理論である Item Response Theory (IRT) を導いた。 私たちはまず、ユーザの相対的なパフォーマンスがアイテム間で一貫性を持ち、より優れたユーザが各項目のラベルを適当に選択できるような、理想的な設定から始めます。 より一般的な問題のアルゴリズム的解法は、この理想的な設定を正しく解き、この設定の応答行列がC1P(Consecutive Ones Property)に従うことを観察するべきである。 C1Pはアルゴリズム的に様々な離散アルゴリズムでよく理解されているが、「HITSNDIFFS(HND)」と呼ばれるHITSアルゴリズムの新たな変種を考案し、もし存在する場合の理想的なC1P置換を復元できることを示す。 連続する順列を見つける高速組合せアルゴリズム(もし存在するなら)とは異なり、hndはそのような順列が存在しない場合も順序を返す。 したがって、理想的な設定で正しい答えを返すことが保証される我々の問題に対して原則的ヒューリスティックを提供する。 実験の結果,HNDは最先端の真理発見手法と比較して,高精度にユーザランキングを生成することがわかった。 また,従来のスペクトルC1P再構成アルゴリズムであるABHよりも,HITSの新規変種の方がユーザ数でよいことを示す。

We analyze a general problem in a crowd-sourced setting where one user asks a question (also called item) and other users return answers (also called labels) for this question. Different from existing crowd sourcing work which focuses on finding the most appropriate label for the question (the "truth"), our problem is to determine a ranking of the users based on their ability to answer questions. We call this problem "ability discovery" to emphasize the connection to and duality with the more well-studied problem of "truth discovery". To model items and their labels in a principled way, we draw upon Item Response Theory (IRT) which is the widely accepted theory behind standardized tests such as SAT and GRE. We start from an idealized setting where the relative performance of users is consistent across items and better users choose better fitting labels for each item. We posit that a principled algorithmic solution to our more general problem should solve this ideal setting correctly and observe that the response matrices in this setting obey the Consecutive Ones Property (C1P). While C1P is well understood algorithmically with various discrete algorithms, we devise a novel variant of the HITS algorithm which we call "HITSNDIFFS" (or HND), and prove that it can recover the ideal C1P-permutation in case it exists. Unlike fast combinatorial algorithms for finding the consecutive ones permutation (if it exists), HND also returns an ordering when such a permutation does not exist. Thus it provides a principled heuristic for our problem that is guaranteed to return the correct answer in the ideal setting. Our experiments show that HND produces user rankings with robustly high accuracy compared to state-of-the-art truth discovery methods. We also show that our novel variant of HITS scales better in the number of users than ABH, the only prior spectral C1P reconstruction algorithm.
翻訳日:2024-01-15 12:25:59 公開日:2023-12-21
# 欠落データを用いた機械学習に基づく粒子識別

Machine-learning-based particle identification with missing data ( http://arxiv.org/abs/2401.01905v1 )

ライセンス: Link先を確認
Mi{\l}osz Kasak, Kamil Deja, Maja Karwowska, Monika Jakubowska, {\L}ukasz Graczykowski, Ma{\l}gorzata Janik(参考訳) 本研究では,CERNの大型ハドロン衝突型加速器におけるALICE実験の範囲内での粒子同定(PID)の新たな手法を提案する。 LHCによる超相対論的衝突の産物の同定はALICEの重要な目的の1つである。 通常、pid法は実験データと理論シミュレーションを比較する手作りの選択に依存する。 ベースライン手法の性能を向上させるために、新しいアプローチでは、分類タスクで適切な割り当てを学ぶ機械学習モデルを使用する。 しかし、異なるサブ検出器が使用する様々な検出技術と限られた検出器の効率と受理のため、生成した粒子はアリス成分の全てに信号をもたらすとは限らない。 その結果、値が不足するデータが得られる。 機械学習のテクニックはそのような例ではトレーニングできないため、トレーニング中にデータの大部分はスキップされる。 本研究では,不完全データを含むすべてのデータ例をトレーニング可能なPIDの最初の手法を提案する。 提案手法は,全粒子種に対して選択された試料のPID純度と効率を向上する。

In this work, we introduce a novel method for Particle Identification (PID) within the scope of the ALICE experiment at the Large Hadron Collider at CERN. Identifying products of ultrarelativisitc collisions delivered by the LHC is one of the crucial objectives of ALICE. Typically employed PID methods rely on hand-crafted selections, which compare experimental data to theoretical simulations. To improve the performance of the baseline methods, novel approaches use machine learning models that learn the proper assignment in a classification task. However, because of the various detection techniques used by different subdetectors, as well as the limited detector efficiency and acceptance, produced particles do not always yield signals in all of the ALICE components. This results in data with missing values. Machine learning techniques cannot be trained with such examples, so a significant part of the data is skipped during training. In this work, we propose the first method for PID that can be trained with all of the available data examples, including incomplete ones. Our approach improves the PID purity and efficiency of the selected sample for all investigated particle species.
翻訳日:2024-01-15 09:57:33 公開日:2023-12-21
# タイムラインに基づくプロセス発見

Timeline-based Process Discovery ( http://arxiv.org/abs/2401.04114v1 )

ライセンス: Link先を確認
Harleen Kaur and Jan Mendling and Christoffer Rubensson and Timotheus Kampik(参考訳) 自動プロセス発見の重要な関心事は、ビジネスプロセスのパフォーマンス面に関する洞察を提供することである。 この文脈では待ち時間が特に重要である。 そのため、現在の自動プロセス発見技術がグラフや同等のプロセスモデルを直接追随するが、時間軸を明示的に表現する機会を逃してしまうことは驚くべきことである。 本稿では,時間軸に明示的に一致するプロセスモデルを自動的に構築する手法を提案する。 直接フォローグラフに対する我々のアプローチを例示する。 2つのbpicデータセットとプロプライエタリデータセットを用いた評価では,標準レイアウト手法と比較して,この表現の利点を強調する。

A key concern of automatic process discovery is to provide insights into performance aspects of business processes. Waiting times are of particular importance in this context. For that reason, it is surprising that current techniques for automatic process discovery generate directly-follows graphs and comparable process models, but often miss the opportunity to explicitly represent the time axis. In this paper, we present an approach for automatically constructing process models that explicitly align with a time axis. We exemplify our approach for directly-follows graphs. Our evaluation using two BPIC datasets and a proprietary dataset highlight the benefits of this representation in comparison to standard layout techniques.
翻訳日:2024-01-15 09:21:28 公開日:2023-12-21
# 時系列画像に基づくデータ表現:脳波アーチファクト検出における比較分析

Image-based Data Representations of Time Series: A Comparative Analysis in EEG Artifact Detection ( http://arxiv.org/abs/2401.05409v1 )

ライセンス: Link先を確認
Aaron Maiwald, Leon Ackermann, Maximilian Kalcher, Daniel J. Wu(参考訳) 代替データ表現は、下流モデルのパフォーマンスを高める強力なツールである。 しかし、機械学習ツールボックスにはそのような表現が多数存在し、各表現方法の適合性に関する比較的な理解が欠如している。 本稿では,時系列データのイメージベースデータ表現をプロファイリングするためのテストベッドとして,脳波データ内のアーティファクト検出と分類を提案する。 次に、一般的な6つの表現法について、11のディープラーニングアーキテクチャを評価する。 表現の選択はバイアスと分散のトレードオフの中で選択を伴っているが、特定の表現はデータの信号対ノイズ比を増加させる特徴を強調するのに効果的である。 我々は脳波データについて結果を示し、将来の比較分析を可能にするためのテストフレームワークをオープンソース化する。

Alternative data representations are powerful tools that augment the performance of downstream models. However, there is an abundance of such representations within the machine learning toolbox, and the field lacks a comparative understanding of the suitability of each representation method. In this paper, we propose artifact detection and classification within EEG data as a testbed for profiling image-based data representations of time series data. We then evaluate eleven popular deep learning architectures on each of six commonly-used representation methods. We find that, while the choice of representation entails a choice within the tradeoff between bias and variance, certain representations are practically more effective in highlighting features which increase the signal-to-noise ratio of the data. We present our results on EEG data, and open-source our testing framework to enable future comparative analyses in this vein.
翻訳日:2024-01-15 08:34:25 公開日:2023-12-21
# ウェアラブルから感情的ヴァレンスをデコードする:データから本当の感情がわかるか?

Decoding Emotional Valence from Wearables: Can Our Data Reveal Our True Feelings? ( http://arxiv.org/abs/2401.05408v1 )

ライセンス: Link先を確認
Michal K. Grzeszczyk, Anna Lisowska, Arkadiusz Sitek, Aneta Lisowska(参考訳) 感情状態の自動検出と追跡は、様々な精神状態の個人を助ける可能性がある。 これまでの研究では、ウェアラブルデバイスを用いた生理的シグナルを実験室で捉え、生理的反応と精神状態の関係についての貴重な洞察を提供してきたが、これらの発見を現実のシナリオに移すことは、まだ初期段階にある。 本研究は, 消費者級ウェアラブルと自己報告手段を活用することで, 実験室型研究と実生活環境とのギャップを埋めることを目的としている。 本研究は,実環境におけるウェアラブルの有効性を評価するため,健常者15名を対象にした予備調査を行った。 本稿では,収集されたデータの初期分析を行い,主に価数分類の結果に注目した。 その結果,高い正価と低い正価を区別し,F1スコア0.65を達成できた。 本研究は、モバイルメンタルヘルス介入分野における今後の研究の道を開くものである。

Automatic detection and tracking of emotional states has the potential for helping individuals with various mental health conditions. While previous studies have captured physiological signals using wearable devices in laboratory settings, providing valuable insights into the relationship between physiological responses and mental states, the transfer of these findings to real-life scenarios is still in its nascent stages. Our research aims to bridge the gap between laboratory-based studies and real-life settings by leveraging consumer-grade wearables and self-report measures. We conducted a preliminary study involving 15 healthy participants to assess the efficacy of wearables in capturing user valence in real-world settings. In this paper, we present the initial analysis of the collected data, focusing primarily on the results of valence classification. Our findings demonstrate promising results in distinguishing between high and low positive valence, achieving an F1 score of 0.65. This research opens up avenues for future research in the field of mobile mental health interventions.
翻訳日:2024-01-15 08:34:14 公開日:2023-12-21
# マルチセンサデータを用いた衝撃落下検出イベントのための機械学習と特徴ランキング

Machine Learning and Feature Ranking for Impact Fall Detection Event Using Multisensor Data ( http://arxiv.org/abs/2401.05407v1 )

ライセンス: Link先を確認
Tresor Y. Koffi, Youssef Mourchid, Mohammed Hindawi and Yohan Dupuis(参考訳) 個人、特に高齢者の転倒は重傷や合併症を引き起こす可能性がある。 秋のイベントにおける影響モーメントの検出は、タイムリーな支援とネガティブな結果の最小化に不可欠である。 本研究では,マルチセンサデータセットに徹底的な前処理技術を適用することで,この課題に対処し,ノイズの除去とデータ品質の向上を目標とする。 さらに,マルチセンサUP-FALLデータセットから得られる最も関連性の高い特徴を特定するために,特徴選択プロセスを採用し,機械学習モデルの性能と効率を向上させる。 次に,複数のセンサから得られたデータ情報を用いて,衝撃モーメントの検出における各種機械学習モデルの効率を評価する。 広範な実験を通じて,様々な評価指標を用いてアプローチの精度を評価する。 本研究では,マルチセンサデータを転倒検出タスクに活用する能力を示すため,衝突検出の精度が向上した。 これは、転倒検知システムを強化し、転倒のリスクがある個人の全体的な安全と幸福を改善するアプローチの可能性を強調します。

Falls among individuals, especially the elderly population, can lead to serious injuries and complications. Detecting impact moments within a fall event is crucial for providing timely assistance and minimizing the negative consequences. In this work, we aim to address this challenge by applying thorough preprocessing techniques to the multisensor dataset, the goal is to eliminate noise and improve data quality. Furthermore, we employ a feature selection process to identify the most relevant features derived from the multisensor UP-FALL dataset, which in turn will enhance the performance and efficiency of machine learning models. We then evaluate the efficiency of various machine learning models in detecting the impact moment using the resulting data information from multiple sensors. Through extensive experimentation, we assess the accuracy of our approach using various evaluation metrics. Our results achieve high accuracy rates in impact detection, showcasing the power of leveraging multisensor data for fall detection tasks. This highlights the potential of our approach to enhance fall detection systems and improve the overall safety and well-being of individuals at risk of falls.
翻訳日:2024-01-15 08:33:57 公開日:2023-12-21
# 生成型人工知能のための拡散モデル:応用数学者への紹介

Diffusion Models for Generative Artificial Intelligence: An Introduction for Applied Mathematicians ( http://arxiv.org/abs/2312.14977v1 )

ライセンス: Link先を確認
Catherine F. Higham and Desmond J. Higham and Peter Grindrod(参考訳) 生成人工知能 (Generative AI, AI) は、人工的だが現実的な出力を生成するアルゴリズムである。 拡散モデルは現在、画像のための生成AIにおけるアートパフォーマンスの状態を提供している。 さらに、テキストから画像へのジェネレータや大きな言語モデルなど、より一般的なツールにおいて重要なコンポーネントを形成します。 拡散モデルは、利用可能なトレーニングデータにノイズを加え、プロセスを逆転する方法を学ぶことで機能する。 逆演算は、新しい出力を生成するために新しいランダムデータに適用することができる。 応用数学者および統計学者に対する拡散モデルの概要を紹介する。 私たちの目標は a) 図式計算の例を示すこと (b)基礎となる数学的公式を慎重に導出すること、及び (c) 偏微分方程式(PDE)拡散モデルとの接続を描く。 計算実験のためのコードを提供します。 この話題は、大学院生や大学院生にとって興味のあるものになるだろう。 教材のポートフォリオはまた、確率過程、推論、機械学習、PDE、科学計算のコースを教える人々にとって有用なモチベーションの例を提供する。

Generative artificial intelligence (AI) refers to algorithms that create synthetic but realistic output. Diffusion models currently offer state of the art performance in generative AI for images. They also form a key component in more general tools, including text-to-image generators and large language models. Diffusion models work by adding noise to the available training data and then learning how to reverse the process. The reverse operation may then be applied to new random data in order to produce new outputs. We provide a brief introduction to diffusion models for applied mathematicians and statisticians. Our key aims are (a) to present illustrative computational examples, (b) to give a careful derivation of the underlying mathematical formulas involved, and (c) to draw a connection with partial differential equation (PDE) diffusion models. We provide code for the computational experiments. We hope that this topic will be of interest to advanced undergraduate students and postgraduate students. Portions of the material may also provide useful motivational examples for those who teach courses in stochastic processes, inference, machine learning, PDEs or scientific computing.
翻訳日:2023-12-31 03:48:41 公開日:2023-12-21
# パラメトリック偏微分方程式の低次モデリングのための重ね合わせテンソルニューラルネットワーク

Stacked tensorial neural networks for reduced-order modeling of a parametric partial differential equation ( http://arxiv.org/abs/2312.14979v1 )

ライセンス: Link先を確認
Caleb G. Wagner(参考訳) TNN(Tensorial Neural Network)は、多線型代数とディープラーニングの成功を組み合わせることで、高次元問題の極めて効率的な低次モデルを実現する。 ここでは、複数のTNNを大きなネットワークに融合させるディープニューラルネットワークアーキテクチャを説明します。 このアーキテクチャを評価し、"stacked tensorial neural network"(stnn)と呼び、3つの独立変数と3つのパラメータを持つパラメトリックpde上で評価します。 3つのパラメータは1つのPDE係数とドメイン幾何学を記述する2つの量に対応する。 STNNは、幅広いパラメーターにわたる解多様体の正確な低次記述を提供する。 また、トレーニングデータ以外のパラメータ値に対する有意義な一般化の証拠もある。 最後に、STNNアーキテクチャは比較的単純で問題に依存しないが、対称性や物理モデリングの仮定のような問題固有の機能を組み込むように規則化することができる。

Tensorial neural networks (TNNs) combine the successes of multilinear algebra with those of deep learning to enable extremely efficient reduced-order models of high-dimensional problems. Here, I describe a deep neural network architecture that fuses multiple TNNs into a larger network, intended to solve a broader class of problems than a single TNN. I evaluate this architecture, referred to as a "stacked tensorial neural network" (STNN), on a parametric PDE with three independent variables and three parameters. The three parameters correspond to one PDE coefficient and two quantities describing the domain geometry. The STNN provides an accurate reduced-order description of the solution manifold over a wide range of parameters. There is also evidence of meaningful generalization to parameter values outside its training data. Finally, while the STNN architecture is relatively simple and problem agnostic, it can be regularized to incorporate problem-specific features like symmetries and physical modeling assumptions.
翻訳日:2023-12-31 03:15:19 公開日:2023-12-21
# 金融ニュースの感情を定量化する -- 私たちは正しいことをしているのか?

On Quantifying Sentiments of Financial News -- Are We Doing the Right Things? ( http://arxiv.org/abs/2312.14978v1 )

ライセンス: Link先を確認
Gourab Nath, Arav Sood, Aanchal Khanna, Savi Wilson, Karan Manot, Sree Kavya Durbaka(参考訳) 典型的な投資家は、市場のパフォーマンスに関する直感を得るために、毎日のニュースを通し始める。 ニュースのトーンに基づく推測は、最終的に市場に対する反応を形作る。 今日、コンピューターはニュースの感情を計算する訓練を受けており、株式市場の動きやリターンを予測する変数として使うことができる。 一部の研究者は、株式市場のリターンを予測するニュースベースの市場指標も開発している。 ニュース感情分析の分野での研究の大部分は、Vader、Loughran-McDonald (LM)、Harvard IV、Patternといったライブラリの利用に重点を置いている。 しかし、金融ニュースの感情を測定するための一般的なアプローチは、感情分析の問題に本当に近づいているのだろうか? 実験の結果,特に金融ニュースにおいて,これらのライブラリを用いた感情測定は真のイメージを表現できないため,信頼性が低い可能性が示唆された。 したがって、金融ニュースの感情を測定する最も効果的で正確なアプローチは何か? 私たちの論文は、これらの質問を探求し、インドの状況に合わせてカスタマイズされた金融ニュースの感情分析ツールsentinewsを通じて答えようとするものです。

Typical investors start off the day by going through the daily news to get an intuition about the performance of the market. The speculations based on the tone of the news ultimately shape their responses towards the market. Today, computers are being trained to compute the news sentiment so that it can be used as a variable to predict stock market movements and returns. Some researchers have even developed news-based market indices to forecast stock market returns. Majority of the research in the field of news sentiment analysis has focussed on using libraries like Vader, Loughran-McDonald (LM), Harvard IV and Pattern. However, are the popular approaches for measuring financial news sentiment really approaching the problem of sentiment analysis correctly? Our experiments suggest that measuring sentiments using these libraries, especially for financial news, fails to depict the true picture and hence may not be very reliable. Therefore, the question remains: What is the most effective and accurate approach to measure financial news sentiment? Our paper explores these questions and attempts to answer them through SENTInews: a one-of-its-kind financial news sentiment analyzer customized to the Indian context
翻訳日:2023-12-31 03:15:04 公開日:2023-12-21
# gaussian harmony:拡散に基づく顔生成モデルにおける公平性の実現

Gaussian Harmony: Attaining Fairness in Diffusion-based Face Generation Models ( http://arxiv.org/abs/2312.14976v1 )

ライセンス: Link先を確認
Basudha Pal, Arunkumar Kannan, Ram Prabhakar Kathirvel, Alice J. O'Toole, Rama Chellappa(参考訳) 拡散モデルは顔生成に大きな進歩を遂げた。 しかし、これらのモデルは生成過程におけるバイアスを増幅し、年齢、性別、人種などの敏感な属性の分布の不均衡をもたらす。 本稿では,生成画像の顔特性のバランスをとることで,この問題に対する新たな解決策を提案する。 ガウス混合モデル(GMM)を用いて拡散モデルの潜時空間における顔特性の手段を局在させることによりバイアスを軽減する。 他のクラスタリングフレームワークよりもGMMを選択する動機は、拡散モデルの柔軟な潜在構造から来ています。 拡散モデルにおける各サンプリングステップはガウス分布に従うので、GMMモデルの適合は特定の属性を生成するための部分空間のローカライズに役立ちます。 さらに,本手法では再トレーニングを必要とせず,部分空間をオンザフライでローカライズし,公平なデータセットを生成するバイアスを軽減する。 我々は,複数の顔属性データセットに対するアプローチを評価し,その効果を実証する。 その結果, 提案手法は, 生成したサンプルの品質を保ちながら, 表現フェアネスの観点からより公平なデータ生成につながることが示された。

Diffusion models have achieved great progress in face generation. However, these models amplify the bias in the generation process, leading to an imbalance in distribution of sensitive attributes such as age, gender and race. This paper proposes a novel solution to this problem by balancing the facial attributes of the generated images. We mitigate the bias by localizing the means of the facial attributes in the latent space of the diffusion model using Gaussian mixture models (GMM). Our motivation for choosing GMMs over other clustering frameworks comes from the flexible latent structure of diffusion model. Since each sampling step in diffusion models follows a Gaussian distribution, we show that fitting a GMM model helps us to localize the subspace responsible for generating a specific attribute. Furthermore, our method does not require retraining, we instead localize the subspace on-the-fly and mitigate the bias for generating a fair dataset. We evaluate our approach on multiple face attribute datasets to demonstrate the effectiveness of our approach. Our results demonstrate that our approach leads to a more fair data generation in terms of representational fairness while preserving the quality of generated samples.
翻訳日:2023-12-31 03:14:47 公開日:2023-12-21
# PDEのための教師なしランダム量子ネットワーク

Unsupervised Random Quantum Networks for PDEs ( http://arxiv.org/abs/2312.14975v1 )

ライセンス: Link先を確認
Josh Dees, Antoine Jacquier, Sylvain Laizet(参考訳) 古典物理学情報ニューラルネットワーク(PINN)は、微分作用素と関連する境界条件を満たすように訓練されたディープニューラルネットワークの助けを借りて、PDEの解を近似する。 我々は、パラメータ化されたランダム量子回路を試行解として、量子コンピューティング領域でこのアイデアを再検討する。 さらに、最近のPINNに基づく手法を量子設定、特にガウス滑らか化に適用する。 我々の分析は、Poisson, the Heat, and Hamilton-Jacobi-Bellman方程式に集中している。 理論的には、このアプローチの複雑性解析を開発し、ランダムな量子ネットワークが従来の量子ネットワークやランダムな古典的ネットワークよりも優れていることを示す。

Classical Physics-informed neural networks (PINNs) approximate solutions to PDEs with the help of deep neural networks trained to satisfy the differential operator and the relevant boundary conditions. We revisit this idea in the quantum computing realm, using parameterised random quantum circuits as trial solutions. We further adapt recent PINN-based techniques to our quantum setting, in particular Gaussian smoothing. Our analysis concentrates on the Poisson, the Heat and the Hamilton-Jacobi-Bellman equations, which are ubiquitous in most areas of science. On the theoretical side, we develop a complexity analysis of this approach, and show numerically that random quantum networks can outperform more traditional quantum networks as well as random classical networks.
翻訳日:2023-12-31 03:14:29 公開日:2023-12-21
# Better Trees: 分類決定木誘導アルゴリズムのハイパーパラメータチューニングに関する実証的研究

Better Trees: An empirical study on hyperparameter tuning of classification decision tree induction algorithms ( http://arxiv.org/abs/1812.02207v3 )

ライセンス: Link先を確認
Rafael Gomes Mantovani, Tom\'a\v{s} Horv\'ath, Andr\'e L. D. Rossi, Ricardo Cerri, Sylvio Barbon Junior, Joaquin Vanschoren, Andr\'e Carlos Ponce de Leon Ferreira de Carvalho(参考訳) 機械学習アルゴリズムは、複雑な方法で誘導されたモデルの予測性能に影響を与える多くのハイパーパラメータ(HP)を含むことが多い。 これらのhp構成とその複雑な相互作用の可能性があるため、最適化技術を使用して高い予測性能をもたらす設定を見つけるのが一般的である。 しかし、この広大な構成空間を効率的に探索し、予測と実行時のパフォーマンスのトレードオフを扱うための洞察は依然として難しい。 さらに、デフォルトのhpsが適切な構成に適合するケースもある。 さらに、モデル検証や新しい法律への出席を含む多くの理由から、決定木誘導アルゴリズム(DT)によって作成されたような解釈可能なモデルへの関心が高まっている。 本稿では,最もよく使用される2つのDT誘導アルゴリズムであるCARTとC4.5に対するハイパーパラメータチューニングの効果を総合的に検討する。 DT誘導アルゴリズムは高い予測性能と解釈可能な分類モデルを示すが、多くのHPを調整する必要がある。 モデル誘導と,openmlの94の分類データセットを用いたhpsの妥当性評価のために,異なるチューニング戦略を用いた実験を行った。 実験の結果,各アルゴリズムのチューニングにおけるhpプロファイルの違いは,cartのデータセットの大部分において統計的に有意な改善をもたらすが,c4.5では3分の1に過ぎなかった。 異なるアルゴリズムは異なるチューニングシナリオを示すかもしれないが、チューニング手法は通常、正確な解を見つけるために少数の評価を必要とした。 さらに、全てのアルゴリズムに最適な技術はIRACEである。 最後に,HPの特定のサブセットをチューニングすることは,最適な予測性能を達成するためのよい方法であることがわかった。

Machine learning algorithms often contain many hyperparameters (HPs) whose values affect the predictive performance of the induced models in intricate ways. Due to the high number of possibilities for these HP configurations and their complex interactions, it is common to use optimization techniques to find settings that lead to high predictive performance. However, insights into efficiently exploring this vast space of configurations and dealing with the trade-off between predictive and runtime performance remain challenging. Furthermore, there are cases where the default HPs fit the suitable configuration. Additionally, for many reasons, including model validation and attendance to new legislation, there is an increasing interest in interpretable models, such as those created by the Decision Tree (DT) induction algorithms. This paper provides a comprehensive approach for investigating the effects of hyperparameter tuning for the two DT induction algorithms most often used, CART and C4.5. DT induction algorithms present high predictive performance and interpretable classification models, though many HPs need to be adjusted. Experiments were carried out with different tuning strategies to induce models and to evaluate HPs' relevance using 94 classification datasets from OpenML. The experimental results point out that different HP profiles for the tuning of each algorithm provide statistically significant improvements in most of the datasets for CART, but only in one-third for C4.5. Although different algorithms may present different tuning scenarios, the tuning techniques generally required few evaluations to find accurate solutions. Furthermore, the best technique for all the algorithms was the IRACE. Finally, we found out that tuning a specific small subset of HPs is a good alternative for achieving optimal predictive performance.
翻訳日:2023-12-25 19:12:12 公開日:2023-12-21
# 加速訓練のための分散実例順序の調整

Coordinating Distributed Example Orders for Provably Accelerated Training ( http://arxiv.org/abs/2302.00845v5 )

ライセンス: Link先を確認
A. Feder Cooper, Wentao Guo, Khiem Pham, Tiancheng Yuan, Charlie F. Ruan, Yucheng Lu, Christopher De Sa(参考訳) オンライングラディエント・バランシング(GraB)に関する最近の研究は、ランダム・リシャッフル(RR)より優れていることが保証されるSGDの置換に基づく例順が存在することを明らかにした。 RRはトレーニングの例を任意に置換するが、GraBは以前のエポックから古い勾配を利用してサンプルを順序付けする。 しかし、GraBは設計によって制限されている。集中型データでトレーニングをスケールアップする素晴らしい能力を示しているが、現代の分散MLワークロードに自然に拡張するわけではない。 そこで本研究では,カーネルの薄型化に関する先行研究から得られた知見をもとに,分散設定への変換を高速化するCoordinated Distributed GraB(CD-GraB)を提案する。 無視可能なオーバーヘッドでは、CD-GraBは集中型GraBよりも収束速度が線形に向上し、様々なベンチマークタスクにおいて分散RRより優れる。

Recent research on online Gradient Balancing (GraB) has revealed that there exist permutation-based example orderings for SGD that are guaranteed to outperform random reshuffling (RR). Whereas RR arbitrarily permutes training examples, GraB leverages stale gradients from prior epochs to order examples -- achieving a provably faster convergence rate than RR. However, GraB is limited by design: while it demonstrates an impressive ability to scale-up training on centralized data, it does not naturally extend to modern distributed ML workloads. We therefore propose Coordinated Distributed GraB (CD-GraB), which uses insights from prior work on kernel thinning to translate the benefits of provably faster permutation-based example ordering to distributed settings. With negligible overhead, CD-GraB exhibits a linear speedup in convergence rate over centralized GraB and outperforms distributed RR on a variety of benchmark tasks.
翻訳日:2023-12-25 19:08:19 公開日:2023-12-21
# 高次テンソルの低階モデル最小化:硬さ、スパン、タイト緩和とその応用

Minimizing low-rank models of high-order tensors: Hardness, span, tight relaxation, and applications ( http://arxiv.org/abs/2210.11413v3 )

ライセンス: Link先を確認
Nicholas D. Sidiropoulos, Paris Karakasis, and Aritra Konar(参考訳) 我々は階数分解によって指定された位数 n のテンソルの最小または最大のエントリを見つける問題を考える。 別の方法で述べると、r-次元ベクトルの n 個の集合が与えられ、選択されたベクトルのハダマール積の和が最小化または最大化されるように各集合から1つのベクトルを選択する。 この基本テンソル問題は1以上のテンソル階数に対してNPハードであり、階数1の場合多項式時間で解けることを示す。 また,連続的な緩和を提案し,任意のランクに対して密接であることを証明する。 低収率階数に対して,提案手法は低複雑度勾配に基づく最適化に応用可能であり,投影勾配降下,フランクウルフ,緩和制約の明示的パラメトリゼーションから得られる勾配に基づく最適化アルゴリズムの一組を提案する。 また,タッカー,hosvd/mlsvd,テンソルトレイン,テンソルリングなど,どのような多進テンソルモデルを用いて興味のあるテンソルを表現する場合でも,コアとなる結果が有効であることを示した。 次に,関心問題の特別な例として提示できる問題の種類について考察する。 このクラスは分割問題(および多項式時間変換によるNP完全問題)、整数最小二乗法、整数線形計画法、整数二次計画法、符号探索法(混合整数プログラミング/位相探索の制限版)、パリティチェック符号の極大復号法を含むことを示す。 低密度パリティチェック符号の復号化や一般パリティチェック符号の復号化など,数多くの難題に対する有望な実験結果を示す。

We consider the problem of finding the smallest or largest entry of a tensor of order N that is specified via its rank decomposition. Stated in a different way, we are given N sets of R-dimensional vectors and we wish to select one vector from each set such that the sum of the Hadamard product of the selected vectors is minimized or maximized. We show that this fundamental tensor problem is NP-hard for any tensor rank higher than one, and polynomial-time solvable in the rank-one case. We also propose a continuous relaxation and prove that it is tight for any rank. For low-enough ranks, the proposed continuous reformulation is amenable to low-complexity gradient-based optimization, and we propose a suite of gradient-based optimization algorithms drawing from projected gradient descent, Frank-Wolfe, or explicit parametrization of the relaxed constraints. We also show that our core results remain valid no matter what kind of polyadic tensor model is used to represent the tensor of interest, including Tucker, HOSVD/MLSVD, tensor train, or tensor ring. Next, we consider the class of problems that can be posed as special instances of the problem of interest. We show that this class includes the partition problem (and thus all NP-complete problems via polynomial-time transformation), integer least squares, integer linear programming, integer quadratic programming, sign retrieval (a special kind of mixed integer programming / restricted version of phase retrieval), and maximum likelihood decoding of parity check codes. We demonstrate promising experimental results on a number of hard problems, including state-of-art performance in decoding low density parity check codes and general parity check codes.
翻訳日:2023-12-25 19:06:15 公開日:2023-12-21
# 超電導量子ビットの動的デカップリング:性能調査

Dynamical decoupling for superconducting qubits: a performance survey ( http://arxiv.org/abs/2207.03670v3 )

ライセンス: Link先を確認
Nic Ezzell, Bibek Pokharel, Lina Tewala, Gregory Quiroz, Daniel A. Lidar(参考訳) dynamical decoupling (dd) は、量子コンピュータの性能を改善するための最も単純でリソース集約的なエラー抑制戦略である。 本稿では,高次エラーキャンセル特性と組込みロバスト性を含む10のファミリーから60種類のDDシークエンスの性能を大規模に調査する。 この調査は、3つの異なる超伝導量子ビットibmqデバイスを用いて行われ、任意の量子状態保存の設定における異なるシーケンスの相対性能を評価することを目的としている。 一般に、高次的ロバスト(UR)および二次DD(QDD)配列は、デバイス間およびパルス間隔設定において、他のすべてのシーケンスより優れている。 驚くべきことに、cpmgやxy4といった基本シーケンスのdd性能は、パルス間隔を最適化することでurやqddとほぼ一致し、最適な間隔は各デバイスで可能な最小間隔よりもかなり大きい。

Dynamical Decoupling (DD) is perhaps the simplest and least resource-intensive error suppression strategy for improving quantum computer performance. Here we report on a large-scale survey of the performance of 60 different DD sequences from 10 families, including basic as well as advanced sequences with high order error cancellation properties and built-in robustness. The survey is performed using three different superconducting-qubit IBMQ devices, with the goal of assessing the relative performance of the different sequences in the setting of arbitrary quantum state preservation. We find that the high-order universally robust (UR) and quadratic DD (QDD) sequences generally outperform all other sequences across devices and pulse interval settings. Surprisingly, we find that DD performance for basic sequences such as CPMG and XY4 can be made to nearly match that of UR and QDD by optimizing the pulse interval, with the optimal interval being substantially larger than the minimum interval possible on each device.
翻訳日:2023-12-25 19:04:31 公開日:2023-12-21
# トポロジ対応密度推定のためのニューラルインプリシトマニフォールド学習

Neural Implicit Manifold Learning for Topology-Aware Density Estimation ( http://arxiv.org/abs/2206.11267v2 )

ライセンス: Link先を確認
Brendan Leigh Ross, Gabriel Loaiza-Ganem, Anthony L. Caterini, Jesse C. Cresswell(参考訳) $\mathbb{R}^n$ で観測される自然データは、$m < n$ であるような $m$-次元多様体 $\mathcal{M}$ に制約されることが多い。 この研究は、理論的に原理化されたデータ生成モデルを構築することに焦点を当てている。 現在の生成モデルは、$m$-次元潜在変数をニューラルネットワーク$f_\theta: \mathbb{R}^m \to \mathbb{R}^n$にマッピングすることで、$\mathcal{M}$を学ぶ。 多様体は一般に単一のパラメータ化では表現できない、つまりそのような試みは、計算不安定性または多様体内の確率密度を学習できないのいずれかを引き起こす。 この問題を解決するために、ニューラルネットワークの零点の集合である神経暗黙多様体として$\mathcal{m}$をモデル化する。 次に、制約付きエネルギーベースモデルを用いて$\mathcal{M}$内の確率密度を学習し、ランゲヴィン力学の制約付き変種を用いて学習多様体から学習およびサンプルを訓練する。 合成データおよび自然データ実験において,本モデルはプッシュフォワードモデルよりも複雑な位相をもつ多様体支援分布を学習できることを示した。

Natural data observed in $\mathbb{R}^n$ is often constrained to an $m$-dimensional manifold $\mathcal{M}$, where $m < n$. This work focuses on the task of building theoretically principled generative models for such data. Current generative models learn $\mathcal{M}$ by mapping an $m$-dimensional latent variable through a neural network $f_\theta: \mathbb{R}^m \to \mathbb{R}^n$. These procedures, which we call pushforward models, incur a straightforward limitation: manifolds cannot in general be represented with a single parameterization, meaning that attempts to do so will incur either computational instability or the inability to learn probability densities within the manifold. To remedy this problem, we propose to model $\mathcal{M}$ as a neural implicit manifold: the set of zeros of a neural network. We then learn the probability density within $\mathcal{M}$ with a constrained energy-based model, which employs a constrained variant of Langevin dynamics to train and sample from the learned manifold. In experiments on synthetic and natural data, we show that our model can learn manifold-supported distributions with complex topologies more accurately than pushforward models.
翻訳日:2023-12-25 19:04:14 公開日:2023-12-21
# 差分プライバシーを用いた効率的な無線フェデレーション学習のためのグラディエントスパシフィケーション

Gradient Sparsification for Efficient Wireless Federated Learning with Differential Privacy ( http://arxiv.org/abs/2304.04164v3 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Chuan Ma, Ming Ding, Feng Shu, Haitao Zhao, Wen Chen and Hongbo Zhu(参考訳) フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。 しかし、それはモデルをアップロードすることによる個人情報の漏洩に悩まされている。 さらに、モデルサイズが大きくなるにつれて、送信帯域の制限によるトレーニング遅延が増加し、差分プライバシー(DP)保護を用いてモデル性能が低下する。 本稿では,コンバージェンス性能を犠牲にすることなくトレーニング効率を向上させるために,無線チャネル上での勾配スパーシフィケーション権限付きflフレームワークを提案する。 具体的には、まず、各クライアントのローカルトレーニングにおける勾配要素のごく一部を保持するためにランダムなスペーシフィケーションアルゴリズムを設計し、DPによって誘導される性能劣化を軽減し、無線チャネル上での伝送パラメータの数を減少させる。 そこで,提案アルゴリズムの収束境界を非凸FL問題をモデル化して解析する。 次に、送信電力の制約、平均送信遅延、およびクライアントのDP要求に基づいて、展開した収束境界を最小化する時間列確率最適化問題を定式化する。 lyapunov drift-plus-penaltyフレームワークを利用して最適化問題に対する解析的解法を開発した。 提案手法の有効性を実証するために,3つの実時間データセットで広範な実験を行った。 提案アルゴリズムは,通信と計算の相互作用をフル活用して,ランダムスケジューリング,ラウンドロビン,遅延最小化アルゴリズムなどのベースラインより優れていることを示す。

Federated learning (FL) enables distributed clients to collaboratively train a machine learning model without sharing raw data with each other. However, it suffers the leakage of private information from uploading models. In addition, as the model size grows, the training latency increases due to limited transmission bandwidth and the model performance degrades while using differential privacy (DP) protection. In this paper, we propose a gradient sparsification empowered FL framework over wireless channels, in order to improve training efficiency without sacrificing convergence performance. Specifically, we first design a random sparsification algorithm to retain a fraction of the gradient elements in each client's local training, thereby mitigating the performance degradation induced by DP and and reducing the number of transmission parameters over wireless channels. Then, we analyze the convergence bound of the proposed algorithm, by modeling a non-convex FL problem. Next, we formulate a time-sequential stochastic optimization problem for minimizing the developed convergence bound, under the constraints of transmit power, the average transmitting delay, as well as the client's DP requirement. Utilizing the Lyapunov drift-plus-penalty framework, we develop an analytical solution to the optimization problem. Extensive experiments have been implemented on three real life datasets to demonstrate the effectiveness of our proposed algorithm. We show that our proposed algorithms can fully exploit the interworking between communication and computation to outperform the baselines, i.e., random scheduling, round robin and delay-minimization algorithms.
翻訳日:2023-12-25 18:57:20 公開日:2023-12-21
# 需要応答アグリゲータを用いたエネルギー取引ゲームにおける近似stackelberg解の分散・プライバシー保存学習

Decentralized and Privacy-Preserving Learning of Approximate Stackelberg Solutions in Energy Trading Games with Demand Response Aggregators ( http://arxiv.org/abs/2304.02086v2 )

ライセンス: Link先を確認
Styliani I. Kampezidou, Justin Romberg, Kyriakos G. Vamvoudakis, and Dimitri N. Mavris(参考訳) 本研究では,需要応答(DR)アグリゲータと代入者の間でエネルギーを双方向に交換する新たなゲーム理論フレームワークを提案する。 この定式化により、フレキシブルなエネルギー仲裁と追加の金銭的報酬が可能となり、消費者の望む日々のエネルギー需要が満たされることが保証される。 そこで,このエネルギーゲーム以外の応用を見出す,オンラインサンプリングと累積ベストレスポンスの学習による近似平衡を求めるために,分散プライバシ保存アルゴリズムを用いたスケーラブルな手法を提案する。 さらに、近似平衡解の品質に基づいてコスト境界を設ける。 最後に、カリフォルニアの日頭市場とカリフォルニア大学デービス校キャンパスのエネルギー需要の実際のデータを用いて、提案したフレームワークとアルゴリズムの有効性を実証する。

In this work, a novel Stackelberg game theoretic framework is proposed for trading energy bidirectionally between the demand-response (DR) aggregator and the prosumers. This formulation allows for flexible energy arbitrage and additional monetary rewards while ensuring that the prosumers' desired daily energy demand is met. Then, a scalable (linear with the number of prosumers), decentralized, privacy-preserving algorithm is proposed to find approximate equilibria with online sampling and learning of the prosumers' cumulative best response, which finds applications beyond this energy game. Moreover, cost bounds are provided on the quality of the approximate equilibrium solution. Finally, real data from the California day-ahead market and the UC Davis campus building energy demands are utilized to demonstrate the efficacy of the proposed framework and algorithm.
翻訳日:2023-12-25 18:56:52 公開日:2023-12-21
# 外観変化を考慮した場所表現一般化のための自己教師あり学習

Self-Supervised Learning for Place Representation Generalization across Appearance Changes ( http://arxiv.org/abs/2303.02370v3 )

ライセンス: Link先を確認
Mohamed Adel Musallam, Vincent Gaudilli\`ere, Djamila Aouada(参考訳) 視覚的な場所認識は、動物、人間、ロボットのための空間ナビゲーションの鍵となる。 state-of-the-artアプローチは教師ありの方法で訓練されているため、異常な条件に一般化するのに必要な情報をほとんど捉えていないが、自己教師あり学習は、状況に関係なく予測できるように場所表現を抽象化するのに役立つと論じている。 より正確には,幾何学的変換に敏感な外観変化に対して頑健な学習特徴を自己指導的に検討する。 この二重目的トレーニングは、2つの自己スーパービジョンのメインパラダイムである \textit{i.e} と予測学習を組み合わせることで実現される。 基準ベンチマークの結果から,このような画像記述子を共同で学習することで,ヒトのアノテートラベルを必要とせず,季節や照明の悪い条件にまたがる視覚的位置認識の競合が生じることが明らかとなった。

Visual place recognition is a key to unlocking spatial navigation for animals, humans and robots. While state-of-the-art approaches are trained in a supervised manner and therefore hardly capture the information needed for generalizing to unusual conditions, we argue that self-supervised learning may help abstracting the place representation so that it can be foreseen, irrespective of the conditions. More precisely, in this paper, we investigate learning features that are robust to appearance modifications while sensitive to geometric transformations in a self-supervised manner. This dual-purpose training is made possible by combining the two self-supervision main paradigms, \textit{i.e.} contrastive and predictive learning. Our results on standard benchmarks reveal that jointly learning such appearance-robust and geometry-sensitive image descriptors leads to competitive visual place recognition results across adverse seasonal and illumination conditions, without requiring any human-annotated labels.
翻訳日:2023-12-25 18:53:37 公開日:2023-12-21
# EDAPS: 拡張ドメイン適応型パノプティブセグメンテーション

EDAPS: Enhanced Domain-Adaptive Panoptic Segmentation ( http://arxiv.org/abs/2304.14291v2 )

ライセンス: Link先を確認
Suman Saha, Lukas Hoyer, Anton Obukhov, Dengxin Dai and Luc Van Gool(参考訳) 自律型産業の台頭により、視覚知覚スタックのドメイン適応はコスト削減の約束のために重要な研究方向である。 多くの先行技術は、合成から現実への文脈におけるドメイン適応意味セグメンテーションに特化していた。 知覚スタックの重要なアウトプットであるにもかかわらず、panopticのセグメンテーションはドメイン適応コミュニティによって見過ごされています。 したがって、ドメイン適応戦略を他の分野から再検討し、パンオプティカルセグメンテーションに適応させ、効果的にパンオプティカルドメイン適応を向上できることを示す。 さらに,パン光学ネットワークの設計について検討し,ドメイン適応型パン光学セグメンテーションのための新しいアーキテクチャ(EDAPS)を提案する。 セマンティクスとインスタンス機能の共用的適応を容易にするために、共有されたドメインロバストトランスフォーマーエンコーダを使用するが、ドメイン適応セマンティクスとインスタンスセグメンテーションの両方の特定の要件に合わせて調整されたタスク固有のデコーダである。 その結果,パン光学ベンチマークにおける性能差は著しく狭められた。 EDAPSは、SynTHIA-to-Cityscapesでは20%、より困難なSynTHIA-to-Mapillary Vistasでは72%という大きなマージンで、パンプトセグメンテーションUDAの最先端性能を著しく向上させる。 実装はhttps://github.com/susaha/edapsで利用可能である。

With autonomous industries on the rise, domain adaptation of the visual perception stack is an important research direction due to the cost savings promise. Much prior art was dedicated to domain-adaptive semantic segmentation in the synthetic-to-real context. Despite being a crucial output of the perception stack, panoptic segmentation has been largely overlooked by the domain adaptation community. Therefore, we revisit well-performing domain adaptation strategies from other fields, adapt them to panoptic segmentation, and show that they can effectively enhance panoptic domain adaptation. Further, we study the panoptic network design and propose a novel architecture (EDAPS) designed explicitly for domain-adaptive panoptic segmentation. It uses a shared, domain-robust transformer encoder to facilitate the joint adaptation of semantic and instance features, but task-specific decoders tailored for the specific requirements of both domain-adaptive semantic and instance segmentation. As a result, the performance gap seen in challenging panoptic benchmarks is substantially narrowed. EDAPS significantly improves the state-of-the-art performance for panoptic segmentation UDA by a large margin of 20% on SYNTHIA-to-Cityscapes and even 72% on the more challenging SYNTHIA-to-Mapillary Vistas. The implementation is available at https://github.com/susaha/edaps.
翻訳日:2023-12-25 18:41:47 公開日:2023-12-21
# MRFI:ニューラルネットワーク処理のためのオープンソースのマルチリゾリューションフォールトインジェクションフレームワーク

MRFI: An Open Source Multi-Resolution Fault Injection Framework for Neural Network Processing ( http://arxiv.org/abs/2306.11758v2 )

ライセンス: Link先を確認
Haitong Huang, Cheng Liu, Bo Liu, Xinghua Xue, Huawei Li, Xiaowei Li(参考訳) 信頼性の低いハードウェア上でもレジリエントなニューラルネットワーク処理を保証するためには、ディープニューラルネットワークモデルがデプロイされる前に、さまざまなハードウェア障害に対する包括的な信頼性分析が必要である。 しかし、既存のフォールトインジェクションツールは、ニューロンへの基本的なフォールトインジェクションに限定されており、きめ細かい脆弱性解析機能を提供していない。 さらに、多くのフォールトインジェクションツールは、依然としてニューラルネットワークモデルを変更し、障害インジェクションを通常のニューラルネットワーク処理と密結合させる必要があり、フォールトインジェクションツールの使用をさらに複雑化し、障害シミュレーションを遅くする。 本研究では,深層ニューラルネットワークのための高構成多分解能故障注入ツールMRFIを提案する。 これにより、障害注入と脆弱性解析のためのニューラルネットワークモデルではなく、独立した障害設定ファイルの変更が可能になる。 特に、異なる視点から広範な障害解析機能を統合し、ニューラルネットワークの脆弱性のマルチレゾリューション調査を可能にする。 さらに、pytorchの主要なニューラルネットワークコンピューティングフレームワークは変更されていない。 したがって,gpu上での並列処理を自然に可能とし,実験により高速故障シミュレーションを行うことができる。

To ensure resilient neural network processing on even unreliable hardware, comprehensive reliability analysis against various hardware faults is generally required before the deep neural network models are deployed, and efficient error injection tools are highly demanded. However, most existing fault injection tools remain rather limited to basic fault injection to neurons and fail to provide fine-grained vulnerability analysis capability. In addition, many of the fault injection tools still need to change the neural network models and make the fault injection closely coupled with normal neural network processing, which further complicates the use of the fault injection tools and slows down the fault simulation. In this work, we propose MRFI, a highly configurable multi-resolution fault injection tool for deep neural networks. It enables users to modify an independent fault configuration file rather than neural network models for the fault injection and vulnerability analysis. Particularly, it integrates extensive fault analysis functionalities from different perspectives and enables multi-resolution investigation of the vulnerability of neural networks. In addition, it does not modify the major neural network computing framework of PyTorch. Hence, it allows parallel processing on GPUs naturally and exhibits fast fault simulation according to our experiments.
翻訳日:2023-12-25 18:32:33 公開日:2023-12-21
# 2つの独立した教師はより良い役割モデルです

Two Independent Teachers are Better Role Model ( http://arxiv.org/abs/2306.05745v2 )

ライセンス: Link先を確認
Afifa Khaled, Ahmed A. Mubarak, Kun He(参考訳) 近年の深層学習モデルは、幼児の脳分析において大きな注目を集めている。 これらのモデルは、半教師技術(例:テンポラルセンスリング、平均教師)など、最先端のパフォーマンスを発揮している。 しかし、これらのモデルは、長い範囲の情報を集めるために局所演算子を積み重ねたエンコーダデコーダ構造に依存し、局所演算子が効率と有効性を制限する。 さらに、$MRI$データは、$T1$や$T2$のような異なる組織特性(TPs$)を含んでいる。 これらのモデルの1つの大きな制限は、セグメンテーションプロセスへの入力として両方のデータ、すなわち、モデルはデータセット上で一度トレーニングされ、推論中に多くの計算とメモリを必要とすることである。 本研究では,3d-denseunetと呼ばれる新しいディープラーニングモデルを設計し,ダウンサンプリング時のグローバルアグリゲーションブロックとして機能し,空間的情報損失の問題を解決することで,上記の制約に対処する。 セルフアテンションモジュールは、ダウンサンプリングブロックとアップサンプリングブロックを接続し、特徴マップを空間とチャネルの3次元に統合し、モデルの表現電位と識別能力を効果的に改善する。 さらに,ラベルの予測ではなくモデル重み付けを要約する「独立教師2名」($2it$)という新しい手法を提案する。 各教師モデルは、それぞれ異なるタイプの脳データ、$T1$と$T2$でトレーニングされる。 次に、テスト精度を向上させるためにfuseモデルを追加し、ネットワークアーキテクチャを変更することなく、テンポラルセンスリング法と比較してパラメータやラベルの少ないトレーニングを可能にする。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-Modelで入手できる。

Recent deep learning models have attracted substantial attention in infant brain analysis. These models have performed state-of-the-art performance, such as semi-supervised techniques (e.g., Temporal Ensembling, mean teacher). However, these models depend on an encoder-decoder structure with stacked local operators to gather long-range information, and the local operators limit the efficiency and effectiveness. Besides, the $MRI$ data contain different tissue properties ($TPs$) such as $T1$ and $T2$. One major limitation of these models is that they use both data as inputs to the segment process, i.e., the models are trained on the dataset once, and it requires much computational and memory requirements during inference. In this work, we address the above limitations by designing a new deep-learning model, called 3D-DenseUNet, which works as adaptable global aggregation blocks in down-sampling to solve the issue of spatial information loss. The self-attention module connects the down-sampling blocks to up-sampling blocks, and integrates the feature maps in three dimensions of spatial and channel, effectively improving the representation potential and discriminating ability of the model. Additionally, we propose a new method called Two Independent Teachers ($2IT$), that summarizes the model weights instead of label predictions. Each teacher model is trained on different types of brain data, $T1$ and $T2$, respectively. Then, a fuse model is added to improve test accuracy and enable training with fewer parameters and labels compared to the Temporal Ensembling method without modifying the network architecture. Empirical results demonstrate the effectiveness of the proposed method. The code is available at https://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-Model.
翻訳日:2023-12-25 18:31:04 公開日:2023-12-21
# ブラックボックス変分推論における確率収束保証

Provable convergence guarantees for black-box variational inference ( http://arxiv.org/abs/2306.03638v3 )

ライセンス: Link先を確認
Justin Domke, Guillaume Garrigos and Robert Gower(参考訳) ブラックボックス変分推論は、確率最適化が成功する証拠がない状況で広く用いられている。 これは既存の確率的最適化の証明の理論的ギャップ、すなわち特異な雑音境界を持つ勾配推定器の挑戦、および合成非滑らかな目的によるものである。 密度ガウス変分族に対しては、再パラメータ化に基づく既存の勾配推定器が二次雑音境界を満たすことを観察し、この境界を用いた近位および近位確率勾配勾配の新規収束保証を与える。 これは、実際に使われるメソッドに似たメソッドが現実的な推論問題に収束するという厳密な保証を提供する。

Black-box variational inference is widely used in situations where there is no proof that its stochastic optimization succeeds. We suggest this is due to a theoretical gap in existing stochastic optimization proofs: namely the challenge of gradient estimators with unusual noise bounds, and a composite non-smooth objective. For dense Gaussian variational families, we observe that existing gradient estimators based on reparameterization satisfy a quadratic noise bound and give novel convergence guarantees for proximal and projected stochastic gradient descent using this bound. This provides rigorous guarantees that methods similar to those used in practice converge on realistic inference problems.
翻訳日:2023-12-25 18:29:49 公開日:2023-12-21
# 強結合系における駆動光学系の時間的進化

Temporal evolution of a driven optomechanical system in the strong coupling regime ( http://arxiv.org/abs/2309.16087v2 )

ライセンス: Link先を確認
L. Medina-Dozal, J. R\'ecamier, H. M. Moya-Cessa, F. Soto-Eguibar, R. Rom\'an-Ancheyta, I. Ramos-Prieto and A. R. Urz\'ua(参考訳) 電磁場と機械振動子の正規化結合である$G/\omega_m$が1と比べて無視できない場合、リー代数法を用いて強制オプトメカニカル量子系の時間進化演算子を得る。 強制項のため、相互作用図ハミルトニアンは指数数演算子を含むので、それに対処するために、これらの指数関数を初期コヒーレント状態間の平均値によって近似する。 我々の近似は、光子数、フォノン数、マンデルパラメータ、およびウィグナー関数の数値解と比較した場合に正当化され、良好な一致を示す。

We obtain a time-evolution operator for a forced optomechanical quantum system using Lie algebraic methods when the normalized coupling between the electromagnetic field and a mechanical oscillator, $G/\omega_m$, is not negligible compared to one. Due to the forcing term, the interaction picture Hamiltonian contains the number operator in the exponents, and in order to deal with it, we approximate these exponentials by their average values taken between initial coherent states. Our approximation is justified when we compare our results with the numerical solution of the number of photons, phonons, Mandel parameter, and the Wigner function, showing an excellent agreement.
翻訳日:2023-12-25 18:22:25 公開日:2023-12-21
# clip as rnn: トレーニングの努力なしに無数のビジュアルコンセプトをセグメント化する

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor ( http://arxiv.org/abs/2312.07661v2 )

ライセンス: Link先を確認
Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li(参考訳) 既存のopen-vocabulary image segmentationメソッドは、マスクアノテーションと/または画像テキストデータセットの微調整ステップを必要とする。 マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。 その結果、訓練済みVLMの開語彙能力は微調整後に著しく低下する。 しかし、微調整なしでは、画像に存在しない概念を参照するテキストクエリがある場合、VLMは画像テキストの監督が弱いため、最適でないマスク予測を行う傾向にある。 これらの問題を緩和するために,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを導入する。 リカレントユニットは、凍結重量のVLM上に作られた2段セグメンタである。 したがって、本モデルはvlmの幅広い語彙空間を維持し、そのセグメンテーション能力を強化する。 実験結果から,本手法はトレーニング不要なデータだけでなく,何百万ものデータサンプルを微調整し,ゼロショットセマンティックタスクと参照画像セグメンテーションタスクの両方に新たな最先端記録を設定する。 具体的には,Pascal VOC,COCO Object,Pascal Contextの28.8,16.0,6.9mIoUを改良した。

Existing open-vocabulary image segmentation methods require a fine-tuning step on mask annotations and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions when there are text queries referring to non-existing concepts in the image. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a VLM with frozen weights. Thus, our model retains the VLM's broad vocabulary space and strengthens its segmentation capability. Experimental results show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of additional data samples, and sets new state-of-the-art records for both zero-shot semantic and referring image segmentation tasks. Specifically, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
翻訳日:2023-12-25 18:00:58 公開日:2023-12-21
# アルツハイマー病マウスにおける新しい物体認識と自発位置認識機械学習解析手法の探索

Exploring Novel Object Recognition and Spontaneous Location Recognition Machine Learning Analysis Techniques in Alzheimer's Mice ( http://arxiv.org/abs/2312.06914v3 )

ライセンス: Link先を確認
Soham Bafana(参考訳) マウスにおける物体認識パターンの理解は行動神経科学の進歩に不可欠であり、特にアルツハイマー研究の領域において人間の健康に重大な影響を及ぼす。 本研究は,新しい物体認識(nor)と自発的位置認識(slr)タスクに着目し,このような振る舞いを分析するための最先端計算パイプラインの開発,応用,評価に重点を置いている。 このパイプラインは、初期データ収集のためのAny-Maze、詳細なポーズ推定のためのDeepLabCut、ニュアンスな行動分類のための畳み込みニューラルネットワーク(CNN)の3つの高度な計算モデルを統合する。 4つの異なるマウス群で採用され、高い精度と堅牢性を示した。 ビデオ品質の制限や手動計算の必要性といったある種の課題にもかかわらず、結果はパイプラインの有効性とスケーラビリティの可能性を確認している。 この研究は、行動神経科学に対する多次元計算アプローチの概念実証となり、将来、より複雑な分析のためのパイプラインの汎用性と準備を強調する。

Understanding object recognition patterns in mice is crucial for advancing behavioral neuroscience and has significant implications for human health, particularly in the realm of Alzheimer's research. This study is centered on the development, application, and evaluation of a state-of-the-art computational pipeline designed to analyze such behaviors, specifically focusing on Novel Object Recognition (NOR) and Spontaneous Location Recognition (SLR) tasks. The pipeline integrates three advanced computational models: Any-Maze for initial data collection, DeepLabCut for detailed pose estimation, and Convolutional Neural Networks (CNNs) for nuanced behavioral classification. Employed across four distinct mouse groups, this pipeline demonstrated high levels of accuracy and robustness. Despite certain challenges like video quality limitations and the need for manual calculations, the results affirm the pipeline's efficacy and potential for scalability. The study serves as a proof of concept for a multidimensional computational approach to behavioral neuroscience, emphasizing the pipeline's versatility and readiness for future, more complex analyses.
翻訳日:2023-12-25 18:00:19 公開日:2023-12-21
# AM-RADIO: 集約モデル - すべてのドメインをひとつに

AM-RADIO: Agglomerative Model -- Reduce All Domains Into One ( http://arxiv.org/abs/2312.06709v2 )

ライセンス: Link先を確認
Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov(参考訳) いくつかのビジュアルファンデーションモデル(VFM)が最近、下流タスクのバックボーンとして登場した。 CLIP、DINOv2、SAMなどのVFMは、異なる目的でトレーニングされており、さまざまな下流タスクに固有の特性を示している。 概念的相違にもかかわらず、これらのモデルはマルチティーチンガー蒸留により効果的に統一モデルにマージ可能である。 このアプローチをAM-RADIO(Agglomerative Model -- Reduce All Domains Into One)と呼ぶ。 この統合的アプローチは、個々の教師モデルのパフォーマンスを超えるだけでなく、ゼロショット視覚言語理解、詳細なピクセルレベルの理解、オープンボキャブラリセグメンテーション機能などの特徴を融合させる。 最もハードウェア効率のよいバックボーンを追求するため、同じトレーニングレシピを用いてマルチティーチンガー蒸留パイプラインの多数のアーキテクチャを評価した。 これは、前任者の性能を超え、教師モデルよりも少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)の開発につながった。 包括的なベンチマークプロセスは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーする。 コード: https://github.com/nvlabs/radio

A handful of visual foundation models (VFMs) have recently emerged as the backbones for numerous downstream tasks. VFMs like CLIP, DINOv2, SAM are trained with distinct objectives, exhibiting unique characteristics for various downstream tasks. We find that despite their conceptual differences, these models can be effectively merged into a unified model through multi-teacher distillation. We name this approach AM-RADIO (Agglomerative Model -- Reduce All Domains Into One). This integrative approach not only surpasses the performance of individual teacher models but also amalgamates their distinctive features, such as zero-shot vision-language comprehension, detailed pixel-level understanding, and open vocabulary segmentation capabilities. In pursuit of the most hardware-efficient backbone, we evaluated numerous architectures in our multi-teacher distillation pipeline using the same training recipe. This led to the development of a novel architecture (E-RADIO) that exceeds the performance of its predecessors and is at least 7x faster than the teacher models. Our comprehensive benchmarking process covers downstream tasks including ImageNet classification, ADE20k semantic segmentation, COCO object detection and LLaVa-1.5 framework. Code: https://github.com/NVlabs/RADIO
翻訳日:2023-12-25 17:59:58 公開日:2023-12-21
# nbi: 天文学者の神経後部推定用パッケージ

nbi: the Astronomer's Package for Neural Posterior Estimation ( http://arxiv.org/abs/2312.03824v2 )

ライセンス: Link先を確認
Keming Zhang, Joshua S. Bloom, St\'efan van der Walt, Nina Hernitschek(参考訳) 天文学におけるニューラル後方推定(NPE)手法の約束にもかかわらず、NPEのルーチン推論ワークフローへの適応は遅かった。 我々は、観測データに合わせたカスタムフェタタイザネットワークの必要性、推論の不正確性、物理フォワードモデルの非特定化という3つの重要な問題を特定する。 最初の2つの問題に対処するために、新しいフレームワークとオープンソースのnbi(neural bayesian inference)を導入し、amortizedとシーケンシャルnpeの両方をサポートする。 まず、nbiはライトカーブやスペクトルといったシーケンシャルなデータに対して有効性を示す、組み込みの"機能"ネットワークを提供する。 第2に,NPE 下でのサロゲート後部を重要サンプリングのための提案分布としてのみ用いることで,漸近的に正確な推論を行うアルゴリズム SNPE-IS を導入する。 これらの特徴により、nbiは、光曲線やスペクトルを含む天文学的推論問題に適用することができる。 我々はnbiがNested Smplingのような既存の手法の効果的な代替手段として機能するかを論じる。 私たちのパッケージはhttps://github.com/kmzzhang/nbiにあります。

Despite the promise of Neural Posterior Estimation (NPE) methods in astronomy, the adaptation of NPE into the routine inference workflow has been slow. We identify three critical issues: the need for custom featurizer networks tailored to the observed data, the inference inexactness, and the under-specification of physical forward models. To address the first two issues, we introduce a new framework and open-source software nbi (Neural Bayesian Inference), which supports both amortized and sequential NPE. First, nbi provides built-in "featurizer" networks with demonstrated efficacy on sequential data, such as light curve and spectra, thus obviating the need for this customization on the user end. Second, we introduce a modified algorithm SNPE-IS, which facilities asymptotically exact inference by using the surrogate posterior under NPE only as a proposal distribution for importance sampling. These features allow nbi to be applied off-the-shelf to astronomical inference problems involving light curves and spectra. We discuss how nbi may serve as an effective alternative to existing methods such as Nested Sampling. Our package is at https://github.com/kmzzhang/nbi.
翻訳日:2023-12-25 17:58:24 公開日:2023-12-21
# openvoice: 汎用的な音声クローン

OpenVoice: Versatile Instant Voice Cloning ( http://arxiv.org/abs/2312.01479v4 )

ライセンス: Link先を確認
Zengyi Qin, Wenliang Zhao, Xumin Yu and Xin Sun(参考訳) OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。 OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。 1)柔軟な音声スタイル制御。 OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションを含む音声スタイルのきめ細かい制御を可能にし、参照話者のトーンカラーを再現する。 音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。 以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力がなかった。 2)ゼロショットクロスリンガル音声クローン。 openvoiceは、大規模話者訓練セットに含まれない言語に対して、ゼロショットのクロスリンガル音声クローンを実現する。 すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。 OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。 この分野のさらなる研究を促進するために、ソースコードとトレーニングモデルを公開アクセス可能にしました。 デモサイトでも質的な結果を提供しています。 OpenVoiceは一般公開される前、2023年5月から10月にかけて世界中で何千万回も利用され、MyShellのバックエンドとして使われていました。

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell.
翻訳日:2023-12-25 17:58:03 公開日:2023-12-21
# p>1における多角形qaoaの性能解析

Performance Analysis of Multi-Angle QAOA for p > 1 ( http://arxiv.org/abs/2312.00200v2 )

ライセンス: Link先を確認
Igor Gaidai, Rebekah Herrman(参考訳) 本稿では,QAOA層数に関するマルチアングルQAOAのスケーラビリティについて考察する。 ma-qaoaは、考慮されたデータセットに対して最大4倍の精度で、qaoa回路の深さを大幅に削減できることがわかった。 しかし、MA-QAOAは総QPU時間の最小化には最適ではない。 最適化初期化戦略はQAOAとMA-QAOAの両方で検討・比較される。 このうち,MA-QAOAは従来研究で用いたランダム初期化よりも連続的に,著しく優れる新しい初期化戦略を提案する。

In this paper we consider the scalability of Multi-Angle QAOA with respect to the number of QAOA layers. We found that MA-QAOA is able to significantly reduce the depth of QAOA circuits, by a factor of up to 4 for the considered data sets. However, MA-QAOA is not optimal for minimization of the total QPU time. Different optimization initialization strategies are considered and compared for both QAOA and MA-QAOA. Among them, a new initialization strategy is suggested for MA-QAOA that is able to consistently and significantly outperform random initialization used in the previous studies.
翻訳日:2023-12-25 17:57:38 公開日:2023-12-21
# MMMU: エキスパートAGIのための大規模多分野マルチモーダル理解と推論ベンチマーク

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI ( http://arxiv.org/abs/2311.16502v3 )

ライセンス: Link先を確認
Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen(参考訳) MMMUは,大学レベルの教科知識と意図的推論を必要とする大規模多分野タスクのマルチモーダルモデルを評価するために設計された新しいベンチマークである。 mmmuには、大学の試験、クイズ、教科書から精細に収集された11.5kのマルチモーダルな質問が含まれており、アートとデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学の6つの分野をカバーしている。 これらの質問は30の被験者と183のサブフィールドにまたがり、チャート、図表、地図、テーブル、楽譜、化学構造など30の非常に異質な画像タイプで構成されている。 既存のベンチマークとは異なり、MMMUは高度な認識とドメイン固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するための挑戦的なモデルである。 14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。 高度な GPT-4V と Gemini Ultra でさえそれぞれ 56% と 59% の精度しか達成していないため、改善の余地は大きい。 我々はMMMUがコミュニティを刺激し、専門家の汎用人工知能に向けた次世代のマルチモーダル基盤モデルを構築するだろうと考えている。

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. Unlike existing benchmarks, MMMU focuses on advanced perception and reasoning with domain-specific knowledge, challenging models to perform tasks akin to those faced by experts. The evaluation of 14 open-source LMMs as well as the proprietary GPT-4V(ision) and Gemini highlights the substantial challenges posed by MMMU. Even the advanced GPT-4V and Gemini Ultra only achieve accuracies of 56% and 59% respectively, indicating significant room for improvement. We believe MMMU will stimulate the community to build next-generation multimodal foundation models towards expert artificial general intelligence.
翻訳日:2023-12-25 17:57:08 公開日:2023-12-21
# スパンニングトレーニングの進歩: データセットの強化のための時間的デュアルディープスコーリング(TDDS)

Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning ( http://arxiv.org/abs/2311.13613v2 )

ライセンス: Link先を確認
Xin Zhang, Jiawei Du, Yunsong Li, Weiying Xie, Joey Tianyi Zhou(参考訳) dataset pruningは、オリジナルのフルデータセットに匹敵するパフォーマンスを実現するコアセットの構築を目指している。 既存のデータセットのプルーニングメソッドの多くは、代表的なサンプルを特定するためにスナップショットベースの基準に依存している。 最近の研究では、通常平均化アプローチを用いて、事象や確率変化を忘れるなど、考慮されるトレーニングダイナミクスの範囲を拡大することでこの問題に対処している。 しかし、これらの研究は、十分に一般化されたサンプルを見渡すことなく、より広い範囲のトレーニングダイナミクスを統合するのに苦労している。 本研究では,この問題を解決するために,時間的デュアルディープス・スコアリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。 tddsは、広範なトレーニングダイナミクスとデータセットのプルーニングのための代表サンプルの識別のバランスを達成するために、デュアルディテール戦略を採用している。 第1の深さでは、トレーニングの進捗にまたがる各サンプルの個々のコントリビューションのシリーズを推定し、トレーニングダイナミクスの総合的な統合を保証する。 第2の奥行きでは,第一の奥行きで同定されたサンプル回りの貢献の変動性に着目し,一般化したサンプルを強調する。 CIFARとImageNetデータセットで実施された大規模な実験は、従来のSOTAメソッドよりもTDDSの優位性を検証する。 具体的には, CIFAR-100では, 10%のトレーニングデータで54.51%の精度を達成し, ランダム選択を7.83%以上, 比較手法を12.69%以上とした。

Dataset pruning aims to construct a coreset capable of achieving performance comparable to the original, full dataset. Most existing dataset pruning methods rely on snapshot-based criteria to identify representative samples, often resulting in poor generalization across various pruning and cross-architecture scenarios. Recent studies have addressed this issue by expanding the scope of training dynamics considered, including factors such as forgetting event and probability change, typically using an averaging approach. However, these works struggle to integrate a broader range of training dynamics without overlooking well-generalized samples, which may not be sufficiently highlighted in an averaging manner. In this study, we propose a novel dataset pruning method termed as Temporal Dual-Depth Scoring (TDDS), to tackle this problem. TDDS utilizes a dual-depth strategy to achieve a balance between incorporating extensive training dynamics and identifying representative samples for dataset pruning. In the first depth, we estimate the series of each sample's individual contributions spanning the training progress, ensuring comprehensive integration of training dynamics. In the second depth, we focus on the variability of the sample-wise contributions identified in the first depth to highlight well-generalized samples. Extensive experiments conducted on CIFAR and ImageNet datasets verify the superiority of TDDS over previous SOTA methods. Specifically on CIFAR-100, our method achieves 54.51% accuracy with only 10% training data, surpassing random selection by 7.83% and other comparison methods by at least 12.69%.
翻訳日:2023-12-25 17:56:42 公開日:2023-12-21
# RadEdit:拡散画像編集によるストレステストバイオメディカルビジョンモデル

RadEdit: stress-testing biomedical vision models via diffusion image editing ( http://arxiv.org/abs/2312.12865v2 )

ライセンス: Link先を確認
Fernando P\'erez-Garc\'ia and Sam Bond-Taylor and Pedro P. Sanchez and Boris van Breugel and Daniel C. Castro and Harshita Sharma and Valentina Salvatelli and Maria T. A. Wetscherek and Hannah Richardson and Matthew P. Lungren and Aditya Nori and Javier Alvarez-Valle and Ozan Oktay and Maximilian Ilse(参考訳) バイオメディカルイメージングデータセットは、しばしば小さく偏りがあり、予測モデルの現実世界のパフォーマンスは、内部テストの期待よりもかなり低い可能性がある。 本研究は,データセットシフトをシミュレートし,生体視覚モデルの障害モードを診断するための生成画像編集手法を提案する。 既存の編集手法は望ましくない変化を生じさせ、病気や治療介入の共起によって学習された素早い相関は、実用性を制限する。 これに対処するために,複数の胸部x線データセット上でテキストから画像への拡散モデルを訓練し,複数のマスクを用いた新たな編集方法radeditを導入することで,変更を制約し,編集画像の一貫性を確保する。 我々は、獲得シフト、表出シフト、人口シフトの3つのタイプのデータセットシフトを検討し、我々のアプローチが、追加のデータ収集なしに障害を診断し、モデルの堅牢性を定量化し、説明可能なaiのためのより質的なツールを補完できることを実証する。

Biomedical imaging datasets are often small and biased, meaning that real-world performance of predictive models can be substantially lower than expected from internal testing. This work proposes using generative image editing to simulate dataset shifts and diagnose failure modes of biomedical vision models; this can be used in advance of deployment to assess readiness, potentially reducing cost and patient harm. Existing editing methods can produce undesirable changes, with spurious correlations learned due to the co-occurrence of disease and treatment interventions, limiting practical applicability. To address this, we train a text-to-image diffusion model on multiple chest X-ray datasets and introduce a new editing method RadEdit that uses multiple masks, if present, to constrain changes and ensure consistency in the edited images. We consider three types of dataset shifts: acquisition shift, manifestation shift, and population shift, and demonstrate that our approach can diagnose failures and quantify model robustness without additional data collection, complementing more qualitative tools for explainable AI.
翻訳日:2023-12-25 17:49:36 公開日:2023-12-21
# 大規模言語モデルのためのフロンティアにおける分散トレーニングの最適化

Optimizing Distributed Training on Frontier for Large Language Models ( http://arxiv.org/abs/2312.12705v2 )

ライセンス: Link先を確認
Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, Prasanna Balaprakash(参考訳) 大規模言語モデル(LLM)は基礎モデルとして顕著に成功し、微調整によって様々な下流アプリケーションに恩恵をもたらした。 損失スケーリングに関する最近の研究は、より小型のLLMと比較して、より大きなLLMの優れた性能を示している。 それでも、数十億のパラメータでLSMを訓練することは重大な課題となり、かなりの計算資源を必要とする。 例えば、20兆のトークンで1兆のパラメータ GPT スタイルのモデルをトレーニングするには、1億2000万の計算処理が必要になります。 本研究は、オープンサイエンスに特化した世界初のエクサスケールスーパーコンピュータであるFrontierから、この計算を抽出する効率的な分散トレーニング戦略を探求する。 テンソル並列性,パイプライン並列性,シャードデータ並列性など,様々なモデルおよびデータ並列トレーニング技術を用いて,フロンティアにおける数兆パラメータモデルのトレーニングを容易にする。 メモリフットプリント,通信遅延,gpuの計算効率に与える影響を判定するために,これらの手法と関連するパラメータを実験的に評価した。 これらの手法の複雑な相互作用を分析し,ハイパーパラメータチューニングにより高いスループットを達成するための戦略を見出した。 実験分析とハイパーパラメータチューニングにより,様々なサイズの大規模llmを訓練するための効率的な戦略を見出した。 22億、175億、および1トリリオンのパラメータに対して、GPUスループットはそれぞれ38.38 %$、36.14 %$、31.96 %$を達成しました。 175億のパラメータモデルと1兆のパラメータモデルのトレーニングでは、それぞれ1024と3072MI250XのGPU上で100\%の弱いスケーリング効率を達成した。 また、この2つのモデルのスケーリング効率は、89\%$と87\%$でした。

Large language models (LLMs) have demonstrated remarkable success as foundational models, benefiting various downstream applications through fine-tuning. Recent studies on loss scaling have demonstrated the superior performance of larger LLMs compared to their smaller counterparts. Nevertheless, training LLMs with billions of parameters poses significant challenges and requires considerable computational resources. For example, training a one trillion parameter GPT-style model on 20 trillion tokens requires a staggering 120 million exaflops of computation. This research explores efficient distributed training strategies to extract this computation from Frontier, the world's first exascale supercomputer dedicated to open science. We enable and investigate various model and data parallel training techniques, such as tensor parallelism, pipeline parallelism, and sharded data parallelism, to facilitate training a trillion-parameter model on Frontier. We empirically assess these techniques and their associated parameters to determine their impact on memory footprint, communication latency, and GPU's computational efficiency. We analyze the complex interplay among these techniques and find a strategy to combine them to achieve high throughput through hyperparameter tuning. We have identified efficient strategies for training large LLMs of varying sizes through empirical analysis and hyperparameter tuning. For 22 Billion, 175 Billion, and 1 Trillion parameters, we achieved GPU throughputs of $38.38\%$, $36.14\%$, and $31.96\%$, respectively. For the training of the 175 Billion parameter model and the 1 Trillion parameter model, we achieved $100\%$ weak scaling efficiency on 1024 and 3072 MI250X GPUs, respectively. We also achieved strong scaling efficiencies of $89\%$ and $87\%$ for these two models.
翻訳日:2023-12-25 17:49:16 公開日:2023-12-21
# 大規模言語モデルを用いたテストケース構築に関する事例研究:実践的考察と課題

A Case Study on Test Case Construction with Large Language Models: Unveiling Practical Insights and Challenges ( http://arxiv.org/abs/2312.12598v2 )

ライセンス: Link先を確認
Roberto Francisco de Lima Junior and Luiz Fernando Paes de Barros Presta and Lucca Santos Borborema and Vanderson Nogueira da Silva and Marcio Leal de Melo Dahia and Anderson Carlos Sousa e Santos(参考訳) 本稿では,ソフトウェア工学におけるテストケース構築における大規模言語モデル(llms)の適用に関する詳細なケーススタディについて述べる。 llmは高度な自然言語処理機能を特徴とし、ソフトウェア開発ライフサイクルの様々な側面を自動化するツールとして、ますます注目を集めています。 ケーススタディの方法論を活用して,テストケース構築プロセスにおけるllmの統合を体系的に検討し,その実用性,遭遇した課題,ソフトウェア品質保証への影響を明らかにすることを目的とした。 本研究は, 代表的なソフトウェアアプリケーションの選択, LLMを用いたテストケース構築手法の定式化, その後の結果の評価を含む。 定性分析と定量分析の混合により, LLMがテストケースの包括性, 精度, 効率に与える影響を評価する。 さらに、モデル解釈可能性や多様なソフトウェアコンテキストへの適応といった課題も掘り下げている。 このケーススタディから得られた知見は, テストケース構築分野におけるLLMの実用的有用性に関する微妙な洞察に寄与し, その潜在的なメリットと限界を解明する。 この研究は、現実のシナリオや複雑さに対処することによって、ソフトウェア実践者と研究者に、LLMをソフトウェアテストの現場に組み込むことによる具体的な意味について、ソフトウェア開発プロセスの最適化における彼らの役割に関するより包括的な理解を促進することを目的としています。

This paper presents a detailed case study examining the application of Large Language Models (LLMs) in the construction of test cases within the context of software engineering. LLMs, characterized by their advanced natural language processing capabilities, are increasingly garnering attention as tools to automate and enhance various aspects of the software development life cycle. Leveraging a case study methodology, we systematically explore the integration of LLMs in the test case construction process, aiming to shed light on their practical efficacy, challenges encountered, and implications for software quality assurance. The study encompasses the selection of a representative software application, the formulation of test case construction methodologies employing LLMs, and the subsequent evaluation of outcomes. Through a blend of qualitative and quantitative analyses, this study assesses the impact of LLMs on test case comprehensiveness, accuracy, and efficiency. Additionally, delves into challenges such as model interpretability and adaptation to diverse software contexts. The findings from this case study contributes with nuanced insights into the practical utility of LLMs in the domain of test case construction, elucidating their potential benefits and limitations. By addressing real-world scenarios and complexities, this research aims to inform software practitioners and researchers alike about the tangible implications of incorporating LLMs into the software testing landscape, fostering a more comprehensive understanding of their role in optimizing the software development process.
翻訳日:2023-12-25 17:48:48 公開日:2023-12-21
# 量子情報処理のための捕捉イオン二層結晶

Bilayer crystals of trapped ions for quantum information processing ( http://arxiv.org/abs/2312.10681v2 )

ライセンス: Link先を確認
Samarth Hawaldar, Prakriti Shahi, Allison L. Carter, Ana Maria Rey, John J. Bollinger, Athreya Shankar(参考訳) トラップされたイオンシステムは量子情報処理の主要なプラットフォームであるが、現在は1Dおよび2D配列に制限されており、スケーラビリティとアプリケーション範囲の両方に制限が課されている。 本稿では,この限界を克服するために,数百個のイオンが2つのよく定義された層に自己組織化する2層結晶を実現するために,ペニングトラップを用いる方法を提案する。 これらの二層結晶は、現在の技術で容易に実装できるアンハーモニックトラップポテンシャルを包含することにより可能となる。 本システムでは, 通常のモードについて検討し, 単平面結晶のモードと相違点について検討した。 2層構造と正規モードのユニークな性質は、単一平面結晶では単純ではない量子情報処理における新たな機会を開く。 さらに,2層以上の多層結晶を実現するために,ここで提示したアイデアを拡張できる可能性が示唆された。 本研究は,3次元の空間的次元を効率的に活用し,捕獲イオンの多層3次元結晶を用いた新しい量子情報処理実験の基礎を築いた。

Trapped ion systems are a leading platform for quantum information processing, but they are currently limited to 1D and 2D arrays, which imposes restrictions on both their scalability and their range of applications. Here, we propose a path to overcome this limitation by demonstrating that Penning traps can be used to realize remarkably clean bilayer crystals, wherein hundreds of ions self-organize into two well-defined layers. These bilayer crystals are made possible by the inclusion of an anharmonic trapping potential, which is readily implementable with current technology. We study the normal modes of this system and discover salient differences compared to the modes of single-plane crystals. The bilayer geometry and the unique properties of the normal modes open new opportunities in quantum information processing that are not straightforward in single-plane crystals. Furthermore, we illustrate that it may be possible to extend the ideas presented here to realize multilayer crystals with more than two layers. Our work increases the dimensionality of trapped ion systems by efficiently utilizing all three spatial dimensions and lays the foundation for a new generation of quantum information processing experiments with multilayer 3D crystals of trapped ions.
翻訳日:2023-12-25 17:47:03 公開日:2023-12-21
# CogAgent: GUIエージェントのためのビジュアル言語モデル

CogAgent: A Visual Language Model for GUI Agents ( http://arxiv.org/abs/2312.08914v2 )

ライセンス: Link先を確認
Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxuan Zhang, Juanzi Li, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang(参考訳) 人々はグラフィカルユーザインタフェース(GUI)、例えばコンピュータやスマートフォンの画面を通じて、デジタルデバイスに膨大な時間を費やしています。 ChatGPTのような大きな言語モデル(LLM)は、電子メールを書くといったタスクを補助するが、GUIを理解したり操作したりするのに苦労するため、自動化レベルを増やす可能性を制限することができる。 本稿では,GUIの理解とナビゲーションに特化した18ビリオンパラメータビジュアル言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートし、小さなページ要素とテキストを認識できる。 一般的なビジュアル言語モデルとして、CogAgentはVQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPEを含む5つのテキストリッチおよび4つの一般的なVQAベンチマーク上で、最先端を達成している。 CogAgentはスクリーンショットのみを入力として使用し、PCとAndroidのGUIナビゲーションタスク(Mind2WebとAITW)で抽出したHTMLテキストを消費するLLMベースのメソッドよりも優れており、最先端の技術が進歩している。 モデルとコードはhttps://github.com/THUDM/CogVLM で公開されている。

People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .
翻訳日:2023-12-25 17:44:52 公開日:2023-12-21
# 強化学習に基づく列生成のための複数カラム選択戦略

A Reinforcement-Learning-based Multiple-Column Selection Strategy for Column Generation ( http://arxiv.org/abs/2312.14213v1 )

ライセンス: Link先を確認
Haofeng Yuan, Lichang Fang, Shiji Song(参考訳) カラム生成(CG)は、大規模線形プログラミング(LP)問題を解決する最も成功した手法の一つである。 非常に多くの変数(列)を持つLPが与えられた場合、CGの考え方は列のサブセットのみを明示的に考慮し、目的値を改善するために潜在的カラムを反復的に追加することである。 最も負のコストでカラムを追加するとcgの収束が保証されるが、単一のカラムではなく、イテレーション毎に複数のカラムを追加することがより高速な収束につながることが示されている。 しかし、多数の候補列から最も有望な列を選択するために、複数列選択戦略を設計することは依然として課題である。 本稿では,新しい強化学習ベース(RL)マルチカラム選択戦略を提案する。 私たちの知る限りでは、cgに対するrlベースの最初のマルチカラム選択戦略です。 本手法の有効性は,カットストック問題とグラフカラー問題という2つの問題に対して評価される。 RLをベースとした複数カラム選択戦略は, 広く使用されている単一カラムと複数カラムの選択戦略と比較して, より高速に収束し, CGイテレーション数や実行回数を大幅に削減する。

Column generation (CG) is one of the most successful approaches for solving large-scale linear programming (LP) problems. Given an LP with a prohibitively large number of variables (i.e., columns), the idea of CG is to explicitly consider only a subset of columns and iteratively add potential columns to improve the objective value. While adding the column with the most negative reduced cost can guarantee the convergence of CG, it has been shown that adding multiple columns per iteration rather than a single column can lead to faster convergence. However, it remains a challenge to design a multiple-column selection strategy to select the most promising columns from a large number of candidate columns. In this paper, we propose a novel reinforcement-learning-based (RL) multiple-column selection strategy. To the best of our knowledge, it is the first RL-based multiple-column selection strategy for CG. The effectiveness of our approach is evaluated on two sets of problems: the cutting stock problem and the graph coloring problem. Compared to several widely used single-column and multiple-column selection strategies, our RL-based multiple-column selection strategy leads to faster convergence and achieves remarkable reductions in the number of CG iterations and runtime.
翻訳日:2023-12-25 17:26:55 公開日:2023-12-21
# Beyond mirkwood: コンフォーマル予測によるSEDモデリングの強化

Beyond mirkwood: Enhancing SED Modeling with Conformal Predictions ( http://arxiv.org/abs/2312.14212v1 )

ライセンス: Link先を確認
Sankalp Gilda(参考訳) 従来のスペクトルエネルギー分布(SED)フィッティング技術は、星形成史や塵の減衰曲線の仮定によって不確実性に直面している。 本稿では、SEDフィッティングにおける柔軟性と不確実性を向上する高度な機械学習ベースのアプローチを提案する。 mirkwoodで使われる固定ngboostモデルとは異なり、このアプローチは決定論的モデルを含む任意のsklearn互換モデルを可能にする。 我々は,点予測を誤りバーに変換し,解釈可能性と信頼性を高めるために,等角化分位回帰(conformalized quantile regression)を導入する。 catboostをベース予測器として使用し,コンフォーメーション予測の有無と結果を比較し,カバレッジや間隔幅といった指標によるパフォーマンス向上を実証した。 本手法は観測データから銀河の物理的性質を導出するためのより汎用的で正確なツールを提供する。

Traditional spectral energy distribution (SED) fitting techniques face uncertainties due to assumptions in star formation histories and dust attenuation curves. We propose an advanced machine learning-based approach that enhances flexibility and uncertainty quantification in SED fitting. Unlike the fixed NGBoost model used in mirkwood, our approach allows for any sklearn-compatible model, including deterministic models. We incorporate conformalized quantile regression to convert point predictions into error bars, enhancing interpretability and reliability. Using CatBoost as the base predictor, we compare results with and without conformal prediction, demonstrating improved performance using metrics such as coverage and interval width. Our method offers a more versatile and accurate tool for deriving galaxy physical properties from observational data.
翻訳日:2023-12-25 17:26:37 公開日:2023-12-21
# NASA SciXにおける大規模言語モデルとベクトル埋め込みの実験

Experimenting with Large Language Models and vector embeddings in NASA SciX ( http://arxiv.org/abs/2312.14211v1 )

ライセンス: Link先を確認
Sergi Blanco-Cuaresma, Ioana Ciuc\u{a}, Alberto Accomazzi, Michael J. Kurtz, Edwin A. Henneken, Kelly E. Lockhart, Felix Grezes, Thomas Allen, Golnaz Shapurian, Carolyn S. Grant, Donna M. Thompson, Timothy W. Hostetler, Matthew R. Templeton, Shinyi Chen, Jennifer Koch, Taylor Jacovich, Daniel Chivvis, Fernanda de Macedo Alves, Jean-Claude Paquin, Jennifer Bartlett, Mugdha Polimera, and Stephanie Jarmak(参考訳) オープンソースのLarge Language Modelsは、NASA SciX(つまりNASA ADS)のようなプロジェクトで、データの著作権とユーザのプライバシーを尊重しながら、情報検索とデータ拡張のための代替アプローチを試すことができる。 しかし、大きな言語モデルが文脈のない質問で直接誘導される場合、幻覚を起こす傾向にある。 nasa scixで私たちは、大量の抽象とフルテキストコンテンツのためのセマンティックベクターを作成する実験を開発し、システムからコンテキストチャンクを使って質問するプロンプトシステムを設計しました。 非体系的人間評価に基づいて,検索拡張生成を用いた場合の幻覚の程度が低く,反応も良好であることを示す。 NASA SciXでは、この技術を活用しながら、プロジェクトの持つ高いレベルの信頼と品質を尊重する新機能とデータ拡張プロセスを設計するために、さらなる調査が必要である。

Open-source Large Language Models enable projects such as NASA SciX (i.e., NASA ADS) to think out of the box and try alternative approaches for information retrieval and data augmentation, while respecting data copyright and users' privacy. However, when large language models are directly prompted with questions without any context, they are prone to hallucination. At NASA SciX we have developed an experiment where we created semantic vectors for our large collection of abstracts and full-text content, and we designed a prompt system to ask questions using contextual chunks from our system. Based on a non-systematic human evaluation, the experiment shows a lower degree of hallucination and better responses when using Retrieval Augmented Generation. Further exploration is required to design new features and data augmentation processes at NASA SciX that leverages this technology while respecting the high level of trust and quality that the project holds.
翻訳日:2023-12-25 17:26:26 公開日:2023-12-21
# 物理インフォームド畳み込みニューラルネットワークによるフォルド分岐予測

Forecasting Fold Bifurcations through Physics-Informed Convolutional Neural Networks ( http://arxiv.org/abs/2312.14210v1 )

ライセンス: Link先を確認
Giuseppe Habib and \'Ad\'am Horv\'ath(参考訳) 本研究では,2次分岐近傍の力学系の時系列を同定する物理インフォームド畳み込みニューラルネットワーク(CNN)を提案する。 この研究の特徴は、CNNが比較的少量のデータと単一の非常に単純なシステムで訓練されていることである。 対照的に、CNNはより複雑なシステムで検証されている。 同様のタスクには、物理学に基づく情報を利用して得られる重要な外挿機能が必要である。 物理ベースの情報は入力データの特定の前処理によって提供され、主に極座標への変換、正規化、対数スケールへの変換、移動平均によるフィルタリングからなる。 これらのデータ前処理により,cnnは折り畳み分岐に接近する重要な特徴,すなわち振動振幅の傾向を把握でき,振動周波数などの他の特性を無視できることを示した。 開発したcnnは,マスオン移動ベルトシステム,ファンデルpolダフリング発振器,ピッチ・アンド・プルングウィングプロファイルにおいて,折りたたみ近傍の軌道を正しく分類することができた。 その結果、実際の応用に有効な類似CNNの開発に道を開いた。

This study proposes a physics-informed convolutional neural network (CNN) for identifying dynamical systems' time series near a fold bifurcation. The peculiarity of this work is that the CNN is trained with a relatively small amount of data and on a single, very simple system. In contrast, the CNN is validated on much more complicated systems. A similar task requires significant extrapolation capabilities, which are obtained by exploiting physics-based information. Physics-based information is provided through a specific pre-processing of the input data, consisting mostly of a transformation into polar coordinates, normalization, transformation into the logarithmic scale, and filtering through a moving mean. The results illustrate that such data pre-processing enables the CNN to grasp the important features related to approaching a fold bifurcation, namely, the trend of the oscillation amplitude, and neglect other characteristics that are not particularly relevant, such as the vibration frequency. The developed CNN was able to correctly classify trajectories near a fold for a mass-on-moving-belt system, a van der Pol-Duffing oscillator with an attached tuned mass damper, and a pitch-and-plunge wing profile. The results obtained pave the way for the development of similar CNNs effective in real-life applications.
翻訳日:2023-12-25 17:26:10 公開日:2023-12-21
# テキストフュージョン:制御可能な画像融合のためのテキストセマンティクスのパワー

TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion ( http://arxiv.org/abs/2312.14209v1 )

ライセンス: Link先を確認
Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, Zhangyong Tang, Josef Kittler(参考訳) 高度な画像融合法は、ソース画像が伝達する補完情報を集約して融合結果を生成する。 しかし,画像のシーン内容のソース固有の表現の違いは,堅牢で制御可能な融合プロセスの設計を困難にしている。 この問題は、テキストモダリティによって伝達される高レベルの意味論の助けを借りて緩和できるため、可視化や下流タスクなど、さまざまな目的のために融合した画像を制御可能な方法で生成することが可能である。 これは、視覚・言語モデルを利用してテキストと画像信号の間の粗大な結合機構を構築することで実現される。 関連マップの指導により、アフィン融合ユニットがトランスフォーマーネットワークに埋め込まれ、テキストと視覚のモダリティを特徴レベルで融合する。 本研究のもう1つの要素として,画像品質評価を融合タスクに適用するためのテキストアテンションの利用を提案する。 提案するテキストガイド型融合パラダイムの実装と,その広範な研究コミュニティによる採用を容易にするため,テキストアノテーション付き画像融合データセットivtをリリースする。 広範な実験により,我々のアプローチ(textfusion)は,従来の外観ベース融合法を一貫して上回っていることが示された。 私たちのコードとデータセットはプロジェクトのホームページで公開されます。

Advanced image fusion methods are devoted to generating the fusion results by aggregating the complementary information conveyed by the source images. However, the difference in the source-specific manifestation of the imaged scene content makes it difficult to design a robust and controllable fusion process. We argue that this issue can be alleviated with the help of higher-level semantics, conveyed by the text modality, which should enable us to generate fused images for different purposes, such as visualisation and downstream tasks, in a controllable way. This is achieved by exploiting a vision-and-language model to build a coarse-to-fine association mechanism between the text and image signals. With the guidance of the association maps, an affine fusion unit is embedded in the transformer network to fuse the text and vision modalities at the feature level. As another ingredient of this work, we propose the use of textual attention to adapt image quality assessment to the fusion task. To facilitate the implementation of the proposed text-guided fusion paradigm, and its adoption by the wider research community, we release a text-annotated image fusion dataset IVT. Extensive experiments demonstrate that our approach (TextFusion) consistently outperforms traditional appearance-based fusion methods. Our code and dataset will be publicly available on the project homepage.
翻訳日:2023-12-25 17:25:48 公開日:2023-12-21
# LLM4VG:ビデオグラウンドのための大規模言語モデルの評価

LLM4VG: Large Language Models Evaluation for Video Grounding ( http://arxiv.org/abs/2312.14206v1 )

ライセンス: Link先を確認
Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu(参考訳) 近年,ビデオ処理におけるLLMの有効性について検討し,いくつかのビデオLLMモデルを提案する。 しかし、llmがビデオグラウンド(vg)を処理する能力は、与えられたテキストクエリにマッチするビデオの時間的モーメントの開始と終了のタイムスタンプを正確に特定するモデルを必要とする重要な時間関連のビデオタスクであり、文献にはまだ不明で未調査のままである。 このギャップを埋めるために,ビデオグラウンド処理における異なるLLMの性能を体系的に評価するLLM4VGベンチマークを提案する。 提案したLLM4VGに基づいて,ビデオグラウンド上でのビデオLLMモデルの2つのグループを調べるための広範な実験を設計する。 (i)テキストとビデオのペア(vidllmと表記)で訓練されたビデオllmと (ii)llmはビデオ・画像キャプションモデルなどの事前学習された視覚記述モデルと組み合わせる。 本稿では,視覚的直接記述のためのキャプションベースジェネレータや情報強調のためのVQAベースのジェネレータなど,さまざまな種類のジェネレータからのVG命令と記述を統合する手法を提案する。 また、様々なVidLLMの総合的な比較を行い、視覚モデル、LLM、プロンプトデザインなど様々な選択の影響についても検討する。 実験結果から2つの結論が得られた。 (i)既存のVidLLMは、まだ満足のいくビデオグラウンドのパフォーマンスには程遠いので、これらのモデルをさらに微調整するためには、もっと時間関連のビデオタスクを含めるべきです。 (ii)llmと視覚モデルの組み合わせは,より信頼性の高いモデルに頼り,さらに手軽な指示の指導を行うことにより,映像グラウンディングの予備的能力を示す。

Recently, researchers have attempted to investigate the capability of LLMs in handling videos and proposed several video LLM models. However, the ability of LLMs to handle video grounding (VG), which is an important time-related video task requiring the model to precisely locate the start and end timestamps of temporal moments in videos that match the given textual queries, still remains unclear and unexplored in literature. To fill the gap, in this paper, we propose the LLM4VG benchmark, which systematically evaluates the performance of different LLMs on video grounding tasks. Based on our proposed LLM4VG, we design extensive experiments to examine two groups of video LLM models on video grounding: (i) the video LLMs trained on the text-video pairs (denoted as VidLLM), and (ii) the LLMs combined with pretrained visual description models such as the video/image captioning model. We propose prompt methods to integrate the instruction of VG and description from different kinds of generators, including caption-based generators for direct visual description and VQA-based generators for information enhancement. We also provide comprehensive comparisons of various VidLLMs and explore the influence of different choices of visual models, LLMs, prompt designs, etc, as well. Our experimental evaluations lead to two conclusions: (i) the existing VidLLMs are still far away from achieving satisfactory video grounding performance, and more time-related video tasks should be included to further fine-tune these models, and (ii) the combination of LLMs and visual models shows preliminary abilities for video grounding with considerable potential for improvement by resorting to more reliable models and further guidance of prompt instructions.
翻訳日:2023-12-25 17:25:26 公開日:2023-12-21
# 自己監督知識のメタトランスファー:外傷後てんかん予測のための基礎モデル

Meta Transfer of Self-Supervised Knowledge: Foundation Model in Action for Post-Traumatic Epilepsy Prediction ( http://arxiv.org/abs/2312.14204v1 )

ライセンス: Link先を確認
Wenhui Cui, Haleh Akrami, Ganning Zhao, Anand A. Joshi, Richard M. Leahy(参考訳) 機能的脳活動分析にディープラーニングを用いた驚くべき進歩にもかかわらず、外傷性脳損傷(tbi)の直後に取得したデータから、外傷後てんかん(pte)の発症を予測するといったタスクにおいて、機能パターンの不均一性と画像データの不足が依然として課題となっている。 大規模なデータセットを個別に事前トレーニングしたファンデーションモデルは、不足したデータセットと異種データセットのパフォーマンスを改善することができる。 機能的磁気共鳴イメージング(fMRI)では、データは健康的なコントロールから十分に利用できるが、臨床データは少なく、基礎モデルが臨床的に関連のある特徴を識別する能力を制限する。 我々は,メタラーニングと自己指導型学習を統合し,通常の特徴から臨床的特徴への一般化を改善することによって,基礎モデルの新たなトレーニング戦略を導入することで,この制限を克服する。 このようにして、他の下流臨床タスクへの一般化を可能にし、PTEの予測を行う。 これを実現するために,我々は,制御データセット上で自己教師付きトレーニングを行い,メタラーニングを適用しながら,特定の教師付きタスクに限定されない固有の特徴に注目し,バイレベル最適化によるモデルの一般化性を強く改善する。 神経障害分類課題の実験を通じて,提案手法が小規模臨床データセットのタスク性能を大幅に向上させることを示した。 下流アプリケーションにおける基礎モデルの一般化可能性を探るため,ゼロショット学習を用いたPTE予測のための未知のTBIデータセットに適用する。 その結果,基礎モデルの一般化性がさらに向上した。

Despite the impressive advancements achieved using deep-learning for functional brain activity analysis, the heterogeneity of functional patterns and scarcity of imaging data still pose challenges in tasks such as prediction of future onset of Post-Traumatic Epilepsy (PTE) from data acquired shortly after traumatic brain injury (TBI). Foundation models pre-trained on separate large-scale datasets can improve the performance from scarce and heterogeneous datasets. For functional Magnetic Resonance Imaging (fMRI), while data may be abundantly available from healthy controls, clinical data is often scarce, limiting the ability of foundation models to identify clinically-relevant features. We overcome this limitation by introducing a novel training strategy for our foundation model by integrating meta-learning with self-supervised learning to improve the generalization from normal to clinical features. In this way we enable generalization to other downstream clinical tasks, in our case prediction of PTE. To achieve this, we perform self-supervised training on the control dataset to focus on inherent features that are not limited to a particular supervised task while applying meta-learning, which strongly improves the model's generalizability using bi-level optimization. Through experiments on neurological disorder classification tasks, we demonstrate that the proposed strategy significantly improves task performance on small-scale clinical datasets. To explore the generalizability of the foundation model in downstream applications, we then apply the model to an unseen TBI dataset for prediction of PTE using zero-shot learning. Results further demonstrated the enhanced generalizability of our foundation model.
翻訳日:2023-12-25 17:24:53 公開日:2023-12-21
# Shai: 資産管理のための大規模言語モデル

Shai: A large language model for asset management ( http://arxiv.org/abs/2312.14203v1 )

ライセンス: Link先を確認
Zhongyang Guo, Guanran Jiang, Zhongdan Zhang, Peng Li, Zhefeng Wang, and Yinchun Wang(参考訳) 本稿では,オープンソースの基盤モデルを基に,資産管理産業に特化した10bレベルの大規模言語モデルであるshaiについて紹介する。 ターゲットコーパスを使用した継続的事前トレーニングと微調整により、Shaiはドメインに関連するタスクのパフォーマンスを向上し、ベースラインモデルを上回っている。 本研究は,シャイの能力を総合的に評価するために,専門的資格試験,調整作業,オープンエンド質問応答,安全評価を統合した革新的評価枠組みの開発を含む。 さらに、資産管理におけるパフォーマンス評価にGPT-4のような大規模言語モデルを活用することの課題と意義について考察し、自動評価と人的判断の組み合わせを提案する。 シャイの開発は、金融セクターにおける10Bレベルの大規模言語モデルの可能性と汎用性を、大きなパフォーマンスと控えめな計算要件で示しており、同様の取り組みで業界の仲間を支援するための実践的な洞察と方法論を提供したいと考えている。

This paper introduces "Shai" a 10B level large language model specifically designed for the asset management industry, built upon an open-source foundational model. With continuous pre-training and fine-tuning using a targeted corpus, Shai demonstrates enhanced performance in tasks relevant to its domain, outperforming baseline models. Our research includes the development of an innovative evaluation framework, which integrates professional qualification exams, tailored tasks, open-ended question answering, and safety assessments, to comprehensively assess Shai's capabilities. Furthermore, we discuss the challenges and implications of utilizing large language models like GPT-4 for performance assessment in asset management, suggesting a combination of automated evaluation and human judgment. Shai's development, showcasing the potential and versatility of 10B-level large language models in the financial sector with significant performance and modest computational requirements, hopes to provide practical insights and methodologies to assist industry peers in their similar endeavors.
翻訳日:2023-12-25 17:24:24 公開日:2023-12-21
# ブラックボックスの照明 : 大規模言語モデルの多面性に関する心理計測的研究

Illuminating the Black Box: A Psychometric Investigation into the Multifaceted Nature of Large Language Models ( http://arxiv.org/abs/2312.14202v1 )

ライセンス: Link先を確認
Yang Lu, Jordan Yu, Shou-Hsuan Stephen Huang(参考訳) 本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。 これらのパターンを人間と共有していると仮定し,Mers-Briggs Type Indicator(MBTI),Big Five Inventory(BFI),Short Dark Triad(SD3)といった人間中心の心理測定テストを用いてLLMの性格タイプを特定し,確認する。 ロールプレイプロンプトを導入することで、LLMの適応性を示し、異なるパーソナリティタイプ間で動的に切り替える能力を示す。 ワシントン大学Sentence Completion Test (WUSCT) などのプロジェクティブテストを用いて, 直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。 プロジェクティブテストにより、LLMの認知過程と思考パターンの深い探索が可能となり、AInalityの多次元的なビューが得られました。 機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に対する動的変化を示した。 この研究は、LSMの射影試験の適用の先駆者であり、多様で適応可能なAinality特性に光を当てている。

This study explores the idea of AI Personality or AInality suggesting that Large Language Models (LLMs) exhibit patterns similar to human personalities. Assuming that LLMs share these patterns with humans, we investigate using human-centered psychometric tests such as the Myers-Briggs Type Indicator (MBTI), Big Five Inventory (BFI), and Short Dark Triad (SD3) to identify and confirm LLM personality types. By introducing role-play prompts, we demonstrate the adaptability of LLMs, showing their ability to switch dynamically between different personality types. Using projective tests, such as the Washington University Sentence Completion Test (WUSCT), we uncover hidden aspects of LLM personalities that are not easily accessible through direct questioning. Projective tests allowed for a deep exploration of LLMs cognitive processes and thought patterns and gave us a multidimensional view of AInality. Our machine learning analysis revealed that LLMs exhibit distinct AInality traits and manifest diverse personality types, demonstrating dynamic shifts in response to external instructions. This study pioneers the application of projective tests on LLMs, shedding light on their diverse and adaptable AInality traits.
翻訳日:2023-12-25 17:24:06 公開日:2023-12-21
# 展開と帰属指導によるネットワークの決定基盤の視認性向上に向けて

Towards Better Visualizing the Decision Basis of Networks via Unfold and Conquer Attribution Guidance ( http://arxiv.org/abs/2312.14201v1 )

ライセンス: Link先を確認
Jung-Ho Hong, Woo-Jeoung Nam, Kyu-Sung Jeon, and Seong-Whan Lee(参考訳) ディープニューラルネットワーク(DNN)の透明性について,ネットワーク内部構造の決定機構を説明するために広く研究されている。 本稿では,モデル信頼度に関して入力特徴を空間的に精査することにより,ネットワーク決定の説明可能性を高める,新しいポストホックフレームワークUnfold and Conquer Attribution Guidance(UCAG)を提案する。 詳細な説明が欠落している現象に対処するため、UCAGは画像のスライスに対する信頼を順に満たし、豊富な明確な解釈を提供する。 したがって、主に意味のある領域に圧倒されるアシスタント入力特徴の詳細な記述を保存することで、説明の表現能力を向上することができる。 いくつかのメトリクスでパフォーマンスを検証するために、数多くの評価を行います。 一 削除及び挿入 二 ポインティングゲーム(エネルギーベース)、及び iii)正と負の密度マップ。 定性比較を含む実験結果から,本手法が既存手法よりも明確かつ詳細な説明と適用性に優れていることが示された。

Revealing the transparency of Deep Neural Networks (DNNs) has been widely studied to describe the decision mechanisms of network inner structures. In this paper, we propose a novel post-hoc framework, Unfold and Conquer Attribution Guidance (UCAG), which enhances the explainability of the network decision by spatially scrutinizing the input features with respect to the model confidence. Addressing the phenomenon of missing detailed descriptions, UCAG sequentially complies with the confidence of slices of the image, leading to providing an abundant and clear interpretation. Therefore, it is possible to enhance the representation ability of explanation by preserving the detailed descriptions of assistant input features, which are commonly overwhelmed by the main meaningful regions. We conduct numerous evaluations to validate the performance in several metrics: i) deletion and insertion, ii) (energy-based) pointing games, and iii) positive and negative density maps. Experimental results, including qualitative comparisons, demonstrate that our method outperforms the existing methods with the nature of clear and detailed explanations and applicability.
翻訳日:2023-12-25 17:23:40 公開日:2023-12-21
# bi-level data pruningによる効率的なアーキテクチャ検索

Efficient Architecture Search via Bi-level Data Pruning ( http://arxiv.org/abs/2312.14200v1 )

ライセンス: Link先を確認
Chongjun Tu, Peng Ye, Weihao Lin, Hancheng Ye, Chong Yu, Tao Chen, Baopu Li, Wanli Ouyang(参考訳) ニューラルネットワーク探索(NAS)の効率性を改善することは、非常に難しいが重要なタスクであり、多くの注目を集めている。 これまでは主にDARTSを採用し、検索効率を向上させるために検索戦略やモジュールを改善してきた。 近年, 高速化のためのデータ削減の検討が始まっているが, アーキテクチャ探索プロセスと密結合していないため, 準最適性能が得られる。 この目的のために、この研究は、DARTSの双方向最適化のためのデータセット特性の重要な役割を探求し、データの観点から効率を高めるために、DARTSの重みとアーキテクチャレベルをターゲットにした、新しいBDP(Bi-level Data Pruning)パラダイムを提案する。 具体的には,スーパーネット予測ダイナミクスを指標として,探索中にダーツに不適当なサンプルを徐々にプルーピングする,新たなプログレッシブデータプルーニング戦略を提案する。 データ効率のアルゴリズムによる潜在的なクラス不均衡を抑制するために、効果的な自動クラスバランス制約もBDPに統合される。 nas-bench-201 検索空間、darts 検索空間、mobilenet ライクな検索空間に関する包括的評価により、bdp は検索コストを50%以上削減し、ベースライン dart に適用すると優れた性能が得られることが確認された。 さらに、BDPはPC-DARTSや \b{eta}-DARTSのような先進的なDARTSと調和して統合できることを示し、最小性能の妥協で約2倍のスピードアップを提供する。

Improving the efficiency of Neural Architecture Search (NAS) is a challenging but significant task that has received much attention. Previous works mainly adopted the Differentiable Architecture Search (DARTS) and improved its search strategies or modules to enhance search efficiency. Recently, some methods have started considering data reduction for speedup, but they are not tightly coupled with the architecture search process, resulting in sub-optimal performance. To this end, this work pioneers an exploration into the critical role of dataset characteristics for DARTS bi-level optimization, and then proposes a novel Bi-level Data Pruning (BDP) paradigm that targets the weights and architecture levels of DARTS to enhance efficiency from a data perspective. Specifically, we introduce a new progressive data pruning strategy that utilizes supernet prediction dynamics as the metric, to gradually prune unsuitable samples for DARTS during the search. An effective automatic class balance constraint is also integrated into BDP, to suppress potential class imbalances resulting from data-efficient algorithms. Comprehensive evaluations on the NAS-Bench-201 search space, DARTS search space, and MobileNet-like search space validate that BDP reduces search costs by over 50% while achieving superior performance when applied to baseline DARTS. Besides, we demonstrate that BDP can harmoniously integrate with advanced DARTS variants, like PC-DARTS and \b{eta}-DARTS, offering an approximately 2 times speedup with minimal performance compromises.
翻訳日:2023-12-25 17:23:21 公開日:2023-12-21
# ZeroShape: 回帰に基づくゼロショット形状再構成

ZeroShape: Regression-based Zero-shot Shape Reconstruction ( http://arxiv.org/abs/2312.14198v1 )

ライセンス: Link先を確認
Zixuan Huang, Stefan Stojanov, Anh Thai, Varun Jampani, James M. Rehg(参考訳) 単一画像ゼロショット3次元形状再構成の問題点について検討する。 近年の研究では、3Dアセットの生成モデルを用いてゼロショット形状の再構成を学習しているが、これらのモデルは電車や推論時に計算コストが高い。 対照的に、この問題に対する従来のアプローチは回帰ベースであり、決定論的モデルは直接オブジェクト形状を後退させるように訓練される。 このような回帰法は生成法よりも計算効率が高い。 生成モデリングはハイパフォーマンスに必要なのか、それとも逆にレグレッションベースのアプローチはまだ競争力があるのか? そこで我々は,この領域における収束する発見と新たな洞察に基づいて,ZeroShapeと呼ばれる強力な回帰モデルを構築した。 また、3つの異なる実世界の3Dデータセットのオブジェクトで、大規模な実世界の評価ベンチマークをキュレートします。 この評価ベンチマークは,従来よりも多種多様であり,各分野における評価のばらつきを低減し,定量的評価に用いたものよりも桁違いに大きい。 その結果,ゼロシェイプは最先端の手法よりも優れた性能を実現するだけでなく,計算能力やデータ効率も著しく向上することが示された。

We study the problem of single-image zero-shot 3D shape reconstruction. Recent works learn zero-shot shape reconstruction through generative modeling of 3D assets, but these models are computationally expensive at train and inference time. In contrast, the traditional approach to this problem is regression-based, where deterministic models are trained to directly regress the object shape. Such regression methods possess much higher computational efficiency than generative methods. This raises a natural question: is generative modeling necessary for high performance, or conversely, are regression-based approaches still competitive? To answer this, we design a strong regression-based model, called ZeroShape, based on the converging findings in this field and a novel insight. We also curate a large real-world evaluation benchmark, with objects from three different real-world 3D datasets. This evaluation benchmark is more diverse and an order of magnitude larger than what prior works use to quantitatively evaluate their models, aiming at reducing the evaluation variance in our field. We show that ZeroShape not only achieves superior performance over state-of-the-art methods, but also demonstrates significantly higher computational and data efficiency.
翻訳日:2023-12-25 17:22:51 公開日:2023-12-21
# 大規模言語モデルにおける間接的プロンプトインジェクション攻撃のベンチマークと防御

Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models ( http://arxiv.org/abs/2312.14197v1 )

ライセンス: Link先を確認
Jingwei Yi, Yueqi Xie, Bin Zhu, Keegan Hines, Emre Kiciman, Guangzhong Sun, Xing Xie, Fangzhao Wu(参考訳) 近年の大規模言語モデル(llm)の発展は、様々なアプリケーションで広く採用されている。 これらのアプリケーションの重要な特徴は、LCMと外部コンテンツの組み合わせであり、ユーザ命令とサードパーティコンテンツを組み合わせてLCM処理のプロンプトを作成する。 しかしながら、これらのアプリケーションは間接的なインジェクション攻撃に対して脆弱であり、外部コンテンツに埋め込まれた悪意のある命令がLCMの出力を損なうため、ユーザからの期待から応答が逸脱する。 このセキュリティ問題の発見にもかかわらず、ベンチマークの欠如により、異なるllmに対する間接的なプロンプトインジェクション攻撃の包括的な分析は不可能である。 また、効果的な防御は提案されていない。 本研究では,各種LSMのロバスト性および間接的インジェクション攻撃に対する防御性を評価するための最初のベンチマークであるBIPIAを紹介する。 実験の結果,LLMはテキストタスクに対する間接的インジェクション攻撃に対してより脆弱であり,より高いASRが得られることがわかった。 間接的インジェクション攻撃は、主にLCMが命令と外部コンテンツを区別できないためである、という仮説を立てる。 この予想に基づき,プロンプト学習に基づく4つのブラックボックス法と,敵意トレーニングによる微調整に基づくホワイトボックス防御法を提案し,llmが命令と外部コンテンツの区別と外部コンテンツの命令の無視を可能にした。 実験結果から,我々のブラックボックス防御法はASRを効果的に抑制できるが,間接的インジェクション攻撃を完全に抑制することは不可能であり,一方,ホワイトボックス防御法は一般タスクにおけるLSMの性能にほとんど悪影響を及ぼさず,ASRをほぼゼロに抑えることができることがわかった。 当社のベンチマークと防衛が、この重要な領域における将来の作業に刺激を与えてくれることを期待しています。

Recent remarkable advancements in large language models (LLMs) have led to their widespread adoption in various applications. A key feature of these applications is the combination of LLMs with external content, where user instructions and third-party content are combined to create prompts for LLM processing. These applications, however, are vulnerable to indirect prompt injection attacks, where malicious instructions embedded within external content compromise LLM's output, causing their responses to deviate from user expectations. Despite the discovery of this security issue, no comprehensive analysis of indirect prompt injection attacks on different LLMs is available due to the lack of a benchmark. Furthermore, no effective defense has been proposed. In this work, we introduce the first benchmark, BIPIA, to measure the robustness of various LLMs and defenses against indirect prompt injection attacks. Our experiments reveal that LLMs with greater capabilities exhibit more vulnerable to indirect prompt injection attacks for text tasks, resulting in a higher ASR. We hypothesize that indirect prompt injection attacks are mainly due to the LLMs' inability to distinguish between instructions and external content. Based on this conjecture, we propose four black-box methods based on prompt learning and a white-box defense methods based on fine-tuning with adversarial training to enable LLMs to distinguish between instructions and external content and ignore instructions in the external content. Our experimental results show that our black-box defense methods can effectively reduce ASR but cannot completely thwart indirect prompt injection attacks, while our white-box defense method can reduce ASR to nearly zero with little adverse impact on the LLM's performance on general tasks. We hope that our benchmark and defenses can inspire future work in this important area.
翻訳日:2023-12-25 17:22:31 公開日:2023-12-21
# 強化学習による米国の公衆衛生のためのヒートアラート発行の最適化

Optimizing Heat Alert Issuance for Public Health in the United States with Reinforcement Learning ( http://arxiv.org/abs/2312.14196v1 )

ライセンス: Link先を確認
Ellen M. Considine, Rachel C. Nethery, Gregory A. Wellenius, Francesca Dominici, Mauricio Tec(参考訳) 暑さが健康に害を及ぼす可能性があることを国民に警告することは重要なサービスであり、特に気候変動下では極端な熱現象が頻繁に起きることを考慮すればなおさらだ。 米国におけるヒートアラート発行の現在のプラクティスは、ローカルアラート基準を最適化する現代的なデータサイエンス手法を活用していない。 具体的には、強化学習(RL)の適用は、より健康保護的な政策、地域的および社会的な異質性、および警告の逐次的依存を説明する可能性がある。 本研究は, 熱警報の発行を逐次意思決定問題として定式化し, 環境環境に共通する課題に対処するため, RLワークフローを改良する。 主な変更点は、階層的なベイズによる低信号の健康効果のモデル化と実際の気象軌跡(外生的特徴)のサンプリングを組み合わせたシミュレータの作成、発せられるアラートの総数制限、低熱日のアラートの防止、位置特化ポリシーの最適化などである。 ポストホックなコントラスト分析は、rlをヒートアラート発行に使用する場合、現在のポリシーや代替ポリシーよりも公衆の健康を保護できるシナリオに関する洞察を提供する。 この研究は、公衆衛生および気候変動適応のためのデータ駆動型政策最適化の進展に寄与する。

Alerting the public when heat may harm their health is a crucial service, especially considering that extreme heat events will be more frequent under climate change. Current practice for issuing heat alerts in the US does not take advantage of modern data science methods for optimizing local alert criteria. Specifically, application of reinforcement learning (RL) has the potential to inform more health-protective policies, accounting for regional and sociodemographic heterogeneity as well as sequential dependence of alerts. In this work, we formulate the issuance of heat alerts as a sequential decision making problem and develop modifications to the RL workflow to address challenges commonly encountered in environmental health settings. Key modifications include creating a simulator that pairs hierarchical Bayesian modeling of low-signal health effects with sampling of real weather trajectories (exogenous features), constraining the total number of alerts issued as well as preventing alerts on less-hot days, and optimizing location-specific policies. Post-hoc contrastive analysis offers insights into scenarios when using RL for heat alert issuance may protect public health better than the current or alternative policies. This work contributes to a broader movement of advancing data-driven policy optimization for public health and climate change adaptation.
翻訳日:2023-12-25 17:22:01 公開日:2023-12-21
# テキストにCLIPを教えるParrot Caption

Parrot Captions Teach CLIP to Spot Text ( http://arxiv.org/abs/2312.14232v1 )

ライセンス: Link先を確認
Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou(参考訳) CLIPは多くのビジョン言語アプリケーションの基礎モデルであるにもかかわらず、CLIPは厳しいテキストスポッティングバイアスに悩まされている。 このようなバイアスは、CLIPモデルにイメージ内に埋め込まれたビジュアルテキストを‘Parrot’させ、真のビジュアルセマンティクスを無視します。 我々は、最も人気のある画像テキストデータセットLAION-2Bで、キャプションが画像に埋め込まれたテキストを密にパロット(スペル)することを発見した。 分析の結果,画像の約 \textbf{50\%} が視覚テキストコンテンツに埋め込まれており,字幕の \textbf{90\%} が視覚テキストを多かれ少なかれ包み込んでいることがわかった。 このような観察に基づいて、CLIPモデルの異なるリリースdバージョンを徹底的に検査し、これらのモデルに対するLAIONスタイルの画像-テキスト類似度を測定する上で、視覚テキストが重要な要素であることを検証した。 これらのキャプションがテキストスポッティングバイアスを形成するかどうかを調べるため、異なるparrot-caption指向の基準でキュレートされたlaionサブセットを持つ一連のクリップモデルをトレーニングする。 パロットキャプションによる訓練は、このようなバイアスを生じやすいが、クリップモデルで期待される視覚言語表現学習を損なう。 これは、CLIPライクなモデルの設計か、CLIPスコアフィルタリング上に構築された既存のイメージテキストデータセットキュレーションパイプラインを再検討することが緊急であることを示している。

Despite CLIP being the foundation model in numerous vision-language applications, the CLIP suffers from a severe text spotting bias. Such bias causes CLIP models to `Parrot' the visual text embedded within images while disregarding the authentic visual semantics. We uncover that in the most popular image-text dataset LAION-2B, the captions also densely parrot (spell) the text embedded in images. Our analysis shows that around \textbf{50\%} of images are embedded with visual text content, and \textbf{90\%} of their captions more or less parrot the visual text. Based on such observation, we thoroughly inspect the different release d versions of CLIP models and verify that the visual text is the dominant factor in measuring the LAION-style image-text similarity for these models. To examine whether these parrot captions shape the text spotting bias, we train a series of CLIP models with LAION subsets curated by different parrot-caption-oriented criteria. We show that training with parrot captions easily shapes such bias but harms the expected visual-language representation learning in CLIP models. This suggests that it is urgent to revisit either the design of CLIP-like models or the existing image-text dataset curation pipeline built on CLIP score filtering.
翻訳日:2023-12-25 17:16:11 公開日:2023-12-21
# 独自のプロダクトコパイロットを構築する - 課題、機会、ニーズ

Building Your Own Product Copilot: Challenges, Opportunities, and Needs ( http://arxiv.org/abs/2312.14231v1 )

ライセンス: Link先を確認
Chris Parnin, Gustavo Soares, Rahul Pandita, Sumit Gulwani, Jessica Rich, Austin Z. Henley(参考訳) 高度なAI機能を製品に組み込むためのレースが進行中である。 これらの製品の組み合わせにより、ユーザは自然言語で質問をしたり、ユーザのコンテキストに特有の応答を受け取ることができる。 実際、事実上すべての大企業が、これらの機能をソフトウェア製品に追加しようとしている。 しかし、ほとんどのソフトウェアエンジニアにとって、これはai技術を統合する最初の機会となる。 さらに、ソフトウェアエンジニアリングのプロセスやツールは、AIベースのアプリケーション構築に関わる課題やスケールに追いついていません。 そこで本研究では,26名のプロソフトウェアエンジニアを対象に,各種企業における製品コーディット構築に関するインタビューを行った。 インタビューでは、エンジニアリングプロセスのあらゆるステップと、既存の開発プラクティスを圧迫した課題について、問題点を見つけました。 続いてグループブレインストーミングセッションを実施して、幅広いソフトウェアエンジニアリングコミュニティのための機会とツールデザインのコラボレーションを行いました。

A race is underway to embed advanced AI capabilities into products. These product copilots enable users to ask questions in natural language and receive relevant responses that are specific to the user's context. In fact, virtually every large technology company is looking to add these capabilities to their software products. However, for most software engineers, this is often their first encounter with integrating AI-powered technology. Furthermore, software engineering processes and tools have not caught up with the challenges and scale involved with building AI-powered applications. In this work, we present the findings of an interview study with 26 professional software engineers responsible for building product copilots at various companies. From our interviews, we found pain points at every step of the engineering process and the challenges that strained existing development practices. We then conducted group brainstorming sessions to collaborative on opportunities and tool designs for the broader software engineering community.
翻訳日:2023-12-25 17:15:44 公開日:2023-12-21
# AIについて二進的思考に足を踏み入れるな

Don't slip into binary thinking about AI ( http://arxiv.org/abs/2312.14230v1 )

ライセンス: Link先を確認
Thorin Bristow and Luke Thorburn(参考訳) AIの開発とガバナンスに関する議論では、AIの既存の社会的影響を最も心配するグループと、人間の関心と一致しない行動を取る強力なAIシステムの将来のリスクを最も心配するグループという2つのグループの間で、誤ったバイナリが描かれることが多い。 この作品では、 (i)この偽のバイナリの出現を記述する。 (二)この2つのグループの間で引き起こされた見かけ上清潔な区別が、精査を受けない理由を説明すること。 (iii)この分断を橋渡しする努力を強調する。

In discussions about the development and governance of AI, a false binary is often drawn between two groups: those most concerned about the existing, social impacts of AI, and those most concerned about possible future risks of powerful AI systems taking actions that don't align with human interests. In this piece, we (i) describe the emergence of this false binary, (ii) explain why the seemingly clean distinctions drawn between these two groups don't hold up under scrutiny and (iii) highlight efforts to bridge this divide.
翻訳日:2023-12-25 17:15:33 公開日:2023-12-21
# 非常に弱いデバイス上でのリアルタイムニューラルネットワーク推論 - 説明可能なaiによるアジャイルオフロード

Real-time Neural Network Inference on Extremely Weak Devices: Agile Offloading with Explainable AI ( http://arxiv.org/abs/2312.14229v1 )

ライセンス: Link先を確認
Kai Huang, Wei Gao(参考訳) aiアプリケーションの普及により、小さな組み込みデバイス上でリアルタイムニューラルネットワーク(nn)推論を可能にする必要性が高まっているが、nnをデプロイし、これらの小さなデバイス上でnn推論の高性能化を実現することは、その非常に弱い機能のために困難である。 NNパーティショニングとオフロードはそのようなデプロイメントに寄与するが、組み込みデバイスのローカルコストを最小限に抑えることはできない。 代わりに、オンライン推論からオフライン学習へ、NNのオフロードに必要な計算を移行するアジャイルNNオフロードを通じて、この問題に対処することを提案する。 本稿では,eXplainable AI技術を利用して,組込みデバイス上でのリアルタイムNN推論を実現する新しいNNオフロード技術であるAgileNNについて述べる。 実験の結果、AgileNNの推論レイテンシは既存のスキームの6倍も低く、組み込みデバイスのセンサデータがタイムリーに消費されることが確認された。 また、推論精度を損なうことなく、ローカルデバイスのリソース消費量を8倍以上削減する。

With the wide adoption of AI applications, there is a pressing need of enabling real-time neural network (NN) inference on small embedded devices, but deploying NNs and achieving high performance of NN inference on these small devices is challenging due to their extremely weak capabilities. Although NN partitioning and offloading can contribute to such deployment, they are incapable of minimizing the local costs at embedded devices. Instead, we suggest to address this challenge via agile NN offloading, which migrates the required computations in NN offloading from online inference to offline learning. In this paper, we present AgileNN, a new NN offloading technique that achieves real-time NN inference on weak embedded devices by leveraging eXplainable AI techniques, so as to explicitly enforce feature sparsity during the training phase and minimize the online computation and communication costs. Experiment results show that AgileNN's inference latency is >6x lower than the existing schemes, ensuring that sensory data on embedded devices can be timely consumed. It also reduces the local device's resource consumption by >8x, without impairing the inference accuracy.
翻訳日:2023-12-25 17:15:23 公開日:2023-12-21
# ElasticTrainer: 実行時のElastic Tensor選択によるオンデバイストレーニングの高速化

ElasticTrainer: Speeding Up On-Device Training with Runtime Elastic Tensor Selection ( http://arxiv.org/abs/2312.14227v1 )

ライセンス: Link先を確認
Kai Huang, Boyuan Yang, Wei Gao(参考訳) デバイス上のトレーニングは、ニューラルネットワーク(nns)が新しいオンラインデータに継続的に適応するためには不可欠であるが、デバイスのコンピューティング能力が限られているため、時間がかかる可能性がある。 デバイス上でのトレーニングを高速化するために、既存のスキームはトレーニング可能なNN部分をオフラインにするか、実行時に回復不可能な選択を行う。 代わりに、オンデバイストレーニングのランタイム適応は完全に弾力性があり、トレーニング中いつでもトレーニング可能なNN部分からすべてのNNサブ構造を自由に取り除いたり、追加したりできる。 本稿では, NNの精度損失を最小限に抑えながら, 必要なトレーニングスピードアップを実現するために, 弾力性を実現する新しい手法であるElasticTrainerを提案する。 実験結果から,ElasticTrainerは壁面時間で最大3.5倍のトレーニング速度を達成でき,既存のスキームに比べてエネルギー消費を2倍-3倍削減できることがわかった。

On-device training is essential for neural networks (NNs) to continuously adapt to new online data, but can be time-consuming due to the device's limited computing power. To speed up on-device training, existing schemes select trainable NN portion offline or conduct unrecoverable selection at runtime, but the evolution of trainable NN portion is constrained and cannot adapt to the current need for training. Instead, runtime adaptation of on-device training should be fully elastic, i.e., every NN substructure can be freely removed from or added to the trainable NN portion at any time in training. In this paper, we present ElasticTrainer, a new technique that enforces such elasticity to achieve the required training speedup with the minimum NN accuracy loss. Experiment results show that ElasticTrainer achieves up to 3.5x more training speedup in wall-clock time and reduces energy consumption by 2x-3x more compared to the existing schemes, without noticeable accuracy loss.
翻訳日:2023-12-25 17:15:04 公開日:2023-12-21
# deep de finetti: 大きな言語モデルからトピック分布を復元する

Deep de Finetti: Recovering Topic Distributions from Large Language Models ( http://arxiv.org/abs/2312.14226v1 )

ライセンス: Link先を確認
Liyi Zhang, R. Thomas McCoy, Theodore R. Sumers, Jian-Qiao Zhu, Thomas L. Griffiths(参考訳) 大きな言語モデル(LLM)は長い一貫性のあるテキストのパスを生成することができ、LLMは次の単語の予測に基づいて訓練されているが、文書を特徴づける潜在構造を表現しなければならないことを示唆している。 従来の研究では、LCMの内部表現が潜在構造、すなわち構文の1つの側面を符号化していることが判明している。 我々は,LLM最適化と暗黙ベイズ推論を結びつけることで,LLMがトピック構造を捉えるという仮説を動機付けている。 ド・フィニッティの定理は、交換可能な確率分布は潜在生成分布に関して混合として表現できることを示している。 テキストは構文レベルでは交換できないが、トピック構造にとって交換性は合理的な開始仮定である。 したがって、テキストの次のトークンを予測すると、llmが潜在トピックの分布を回復すると仮定する。 この仮説を,交換可能な確率的トピックモデルであるlatent dirichlet allocation (lda) を用いて検証し,llms による表現が合成データの生成に用いられるトピックと自然コーパスデータを説明するために使用されるトピックの両方を符号化することを示す。

Large language models (LLMs) can produce long, coherent passages of text, suggesting that LLMs, although trained on next-word prediction, must represent the latent structure that characterizes a document. Prior work has found that internal representations of LLMs encode one aspect of latent structure, namely syntax; here we investigate a complementary aspect, namely the document's topic structure. We motivate the hypothesis that LLMs capture topic structure by connecting LLM optimization to implicit Bayesian inference. De Finetti's theorem shows that exchangeable probability distributions can be represented as a mixture with respect to a latent generating distribution. Although text is not exchangeable at the level of syntax, exchangeability is a reasonable starting assumption for topic structure. We thus hypothesize that predicting the next token in text will lead LLMs to recover latent topic distributions. We examine this hypothesis using Latent Dirichlet Allocation (LDA), an exchangeable probabilistic topic model, as a target, and we show that the representations formed by LLMs encode both the topics used to generate synthetic data and those used to explain natural corpus data.
翻訳日:2023-12-25 17:14:44 公開日:2023-12-21
# 高速拡散方式によるショートカット除去・生成対策

Fast Diffusion-Based Counterfactuals for Shortcut Removal and Generation ( http://arxiv.org/abs/2312.14223v1 )

ライセンス: Link先を確認
Nina Weng, Paraskevas Pegios, Aasa Feragen, Eike Petersen, Siavash Bigdeli(参考訳) ショートカット学習とは、モデル(例えば、心臓病分類器)がターゲットラベルとスプリアスショートカット機能(例えばペースメーカー)との相関関係を暴露して、実際の識別機能ではなく、そのショートカットに基づいてターゲットラベルを予測する場合である。 これは医療画像において一般的であり、治療と臨床アノテーションは疾患のラベルと相関しており、疾患を予測するためのショートカットが容易である。 本稿では,ショートカットを合成的に除去あるいは付加できる高速拡散型反ファクト画像生成により,潜在的ショートカット特徴の影響の新たな検出と定量化を提案する。 新たなインペインティングベースの修正により、追加の推論ステップなしでした変更を空間的に制限し、空間的に制約されたショートカット特徴の排除を奨励し、ショートカットフリーな偽物が残りの画像特徴を高いレベルに保持することを保証します。 これらを用いて,ショートカットがモデル予測に与える影響を評価する。 これは2つ目の貢献によって実現された: 効率的な拡散に基づく対実的説明法。 2つの胸部x線データ、皮膚病変データセット、celebaについて確認した。

Shortcut learning is when a model -- e.g. a cardiac disease classifier -- exploits correlations between the target label and a spurious shortcut feature, e.g. a pacemaker, to predict the target label based on the shortcut rather than real discriminative features. This is common in medical imaging, where treatment and clinical annotations correlate with disease labels, making them easy shortcuts to predict disease. We propose a novel detection and quantification of the impact of potential shortcut features via a fast diffusion-based counterfactual image generation that can synthetically remove or add shortcuts. Via a novel inpainting-based modification we spatially limit the changes made with no extra inference step, encouraging the removal of spatially constrained shortcut features while ensuring that the shortcut-free counterfactuals preserve their remaining image features to a high degree. Using these, we assess how shortcut features influence model predictions. This is enabled by our second contribution: An efficient diffusion-based counterfactual explanation method with significant inference speed-up at comparable image quality as state-of-the-art. We confirm this on two large chest X-ray datasets, a skin lesion dataset, and CelebA.
翻訳日:2023-12-25 17:14:07 公開日:2023-12-21
# 階層的トポロジー同型専門知識埋め込みグラフコントラスト学習

Hierarchical Topology Isomorphism Expertise Embedded Graph Contrastive Learning ( http://arxiv.org/abs/2312.14222v1 )

ライセンス: Link先を確認
Jiangmeng Li, Yifan Jin, Hang Gao, Wenwen Qiang, Changwen Zheng, Fuchun Sun(参考訳) グラフコントラスト学習(gcl)は、対のコントラスト損失を最小化し、潜在空間の否定的な特徴を区別しながら、ポジティブな特徴を整合させることを目的としている。 識別的非教師なしグラフ表現学習アプローチの具体例として、gclは様々なグラフベンチマークで印象的な成功を収めている。 しかし、そのようなアプローチはグラフの位相同型を認識できないため、比較的均質なノード特徴を持つグラフは十分に判別できない。 古典的なグラフトポロジ認識作業を再考することにより、対応する専門知識が直感的にGCL法を補完することを明らかにする。 そこで我々は,GCLモデルに知識蒸留を導入し,グラフ層とサブグラフ層を含む階層的トポロジー同型専門知識を学習する,新しい階層的トポロジー同型専門知識グラフコントラスト学習を提案する。 さらに,提案手法はプラグアンドプレイの特徴を持ち,提案手法が複数の最先端GCLモデルに対して普遍的であることを実証的に示す。 さらに,従来のgcl法と比較してベイズ分類誤差の上限値がより強くなることを示すため,固体理論的解析を行った。 提案手法は,実世界のグラフ表現学習実験において,実世界ベンチマークにおいて,実世界のグラフ表現学習において0.23\%,教師なし表現学習設定では 0.43\%,実世界のグラフ表現学習実験では0.23\%,実世界ベンチマークでは0。 私たちのコードはhttps://github.com/jyf123/HTMLで利用可能です。

Graph contrastive learning (GCL) aims to align the positive features while differentiating the negative features in the latent space by minimizing a pair-wise contrastive loss. As the embodiment of an outstanding discriminative unsupervised graph representation learning approach, GCL achieves impressive successes in various graph benchmarks. However, such an approach falls short of recognizing the topology isomorphism of graphs, resulting in that graphs with relatively homogeneous node features cannot be sufficiently discriminated. By revisiting classic graph topology recognition works, we disclose that the corresponding expertise intuitively complements GCL methods. To this end, we propose a novel hierarchical topology isomorphism expertise embedded graph contrastive learning, which introduces knowledge distillations to empower GCL models to learn the hierarchical topology isomorphism expertise, including the graph-tier and subgraph-tier. On top of this, the proposed method holds the feature of plug-and-play, and we empirically demonstrate that the proposed method is universal to multiple state-of-the-art GCL models. The solid theoretical analyses are further provided to prove that compared with conventional GCL methods, our method acquires the tighter upper bound of Bayes classification error. We conduct extensive experiments on real-world benchmarks to exhibit the performance superiority of our method over candidate GCL methods, e.g., for the real-world graph representation learning experiments, the proposed method beats the state-of-the-art method by 0.23\% on unsupervised representation learning setting, 0.43\% on transfer learning setting. Our code is available at https://github.com/jyf123/HTML.
翻訳日:2023-12-25 17:13:32 公開日:2023-12-21
# MRI, コンピュータモデル, 機械学習を用いた平均肺動脈圧の非侵襲的推定

Noninvasive Estimation of Mean Pulmonary Artery Pressure Using MRI, Computer Models, and Machine Learning ( http://arxiv.org/abs/2312.14221v1 )

ライセンス: Link先を確認
Michal K. Grzeszczyk, Tadeusz Satlawa, Angela Lungu, Andrew Swift, Andrew Narracott, Rod Hose, Tomasz Trzcinski, Arkadiusz Sitek(参考訳) 肺高血圧 (PH) は肺動脈圧の上昇を特徴とする重篤な疾患である。 ph診断の金の基準は、侵襲的右心カテーテル手術中の平均肺動脈圧(mpap)の測定である。 本稿では,磁気共鳴イメージング,コンピュータモデル,機械学習を用いた非侵襲的なPH検出手法について検討する。 本研究は,血液循環モデルに基づく物理インフォームド特徴工学を用いて,PHの分類とmPAP値の回帰のための勾配ブースティング決定木に基づくアルゴリズムの性能を向上することを示す。 回帰(推定mPAPのしきい値の閾値)と分類の結果を比較し,両実験で達成した指標が同等であることを示す。 予測されたmPAP値は、分類モデルによって返されるPHの確率よりも医師にとってより有益である。 それらは機械学習モデルの結果を直感的に説明する(クリニックはPH確率とは対照的にmPAP測定に慣れている)。

Pulmonary Hypertension (PH) is a severe disease characterized by an elevated pulmonary artery pressure. The gold standard for PH diagnosis is measurement of mean Pulmonary Artery Pressure (mPAP) during an invasive Right Heart Catheterization. In this paper, we investigate noninvasive approach to PH detection utilizing Magnetic Resonance Imaging, Computer Models and Machine Learning. We show using the ablation study, that physics-informed feature engineering based on models of blood circulation increases the performance of Gradient Boosting Decision Trees-based algorithms for classification of PH and regression of values of mPAP. We compare results of regression (with thresholding of estimated mPAP) and classification and demonstrate that metrics achieved in both experiments are comparable. The predicted mPAP values are more informative to the physicians than the probability of PH returned by classification models. They provide the intuitive explanation of the outcome of the machine learning model (clinicians are accustomed to the mPAP metric, contrary to the PH probability).
翻訳日:2023-12-25 17:12:39 公開日:2023-12-21
# 潜伏拡散モデルを用いた単一セルRNA配列合成

Single-Cell RNA-seq Synthesis with Latent Diffusion Model ( http://arxiv.org/abs/2312.14220v1 )

ライセンス: Link先を確認
Yixuan Wang and Shuangyin Li and Shimin DI and Lei Chen(参考訳) シングルセルRNAシークエンシング(scRNA-seq)技術により、研究者は複雑な生物学的システムや疾患を高解像度で研究することができる。 中心的な課題は、十分なscRNA-seqサンプルを合成することである。 過去の研究では様々な方法が試みられているが、結果として得られたscRNA-seqサンプルは、しばしば品質が悪く、有用な特定の細胞サブ集団の点で制限されていた。 そこで本研究では, 拡散モデルに基づくscld(single-cell latent diffusion)と呼ばれる新しい手法を提案する。 この方法は、統一されたフレームワーク内で「総括的」または特定の細胞亜集団の両方を含む、大規模で高品質なscrna-seqサンプルを合成することができる。 pre-guidance機構は特定の細胞サブポピュレーションを合成するために設計され、post-guidance機構はscrna-seqサンプルの品質を向上させることを目的としている。 SCLDは、様々な下流タスクのために、大規模で高品質なscRNA-seqサンプルを合成することができる。 実験により,2つのscRNA-seqベンチマークで評価した場合,細胞分類とデータ分布距離の最先端性能を示す。 さらに、可視化実験は、特定の細胞サブポピュレーションを合成するSCLDの機能を示している。

The single-cell RNA sequencing (scRNA-seq) technology enables researchers to study complex biological systems and diseases with high resolution. The central challenge is synthesizing enough scRNA-seq samples; insufficient samples can impede downstream analysis and reproducibility. While various methods have been attempted in past research, the resulting scRNA-seq samples were often of poor quality or limited in terms of useful specific cell subpopulations. To address these issues, we propose a novel method called Single-Cell Latent Diffusion (SCLD) based on the Diffusion Model. This method is capable of synthesizing large-scale, high-quality scRNA-seq samples, including both 'holistic' or targeted specific cellular subpopulations within a unified framework. A pre-guidance mechanism is designed for synthesizing specific cellular subpopulations, while a post-guidance mechanism aims to enhance the quality of scRNA-seq samples. The SCLD can synthesize large-scale and high-quality scRNA-seq samples for various downstream tasks. Our experimental results demonstrate state-of-the-art performance in cell classification and data distribution distances when evaluated on two scRNA-seq benchmarks. Additionally, visualization experiments show the SCLD's capability in synthesizing specific cellular subpopulations.
翻訳日:2023-12-25 17:11:51 公開日:2023-12-21
# DCFL:フェデレートラーニングを支援する非IID認識データ凝縮

DCFL: Non-IID awareness Data Condensation aided Federated Learning ( http://arxiv.org/abs/2312.14219v1 )

ライセンス: Link先を確認
Shaohan Sha and YaFeng Sun(参考訳) フェデレートラーニング(Federated Learning)とは、特定の量のプライベートデータセットを持つクライアントを活用して、中央サーバがグローバルモデルを反復的にトレーニングする分散学習パラダイムである。 課題は、クライアント側のプライベートデータが同一で独立に分散していない可能性があり、グローバルモデルの精度に大きな影響を与えているという事実にある。 既存の手法は、最適化、クライアントの選択、データ補完に焦点を当てて、非IIDの課題に対処する。 しかし、プライバシー上の制約により、ほとんどのアプローチはプライベートデータ自体の観点を軽視する傾向にあり、直観的には、クライアント側のプライベートデータ間の統計的区別は、非IID度の緩和に役立つ。 さらに、最近のデータセット凝縮技術の進歩は、プライバシーを維持しながら、非IID問題に対処する可能性を探るきっかけとなった。 そこで本研究では,CKA(Centered Kernel Alignment)法を用いてクライアントをグループに分割し,IID非認識によるデータセット凝縮法を用いてクライアントを完全化するDCFLを提案する。 同じグループ内のクライアントからのプライベートデータは補完的であり、その凝縮されたデータはグループ内のすべてのクライアントにアクセスできる。 さらに、CKA誘導クライアント選択戦略、フィルタリング機構、およびデータ拡張技術が組み込まれ、凝縮データを効率的にかつ正確に利用し、モデル性能を高め、通信時間を最小化する。 実験の結果,DCFL は MNIST,FashionMNIST,SVHN,CIFAR-10 など,既存の FL プロトコルと競合する性能を示した。

Federated learning is a decentralized learning paradigm wherein a central server trains a global model iteratively by utilizing clients who possess a certain amount of private datasets. The challenge lies in the fact that the client side private data may not be identically and independently distributed, significantly impacting the accuracy of the global model. Existing methods commonly address the Non-IID challenge by focusing on optimization, client selection and data complement. However, most approaches tend to overlook the perspective of the private data itself due to privacy constraints.Intuitively, statistical distinctions among private data on the client side can help mitigate the Non-IID degree. Besides, the recent advancements in dataset condensation technology have inspired us to investigate its potential applicability in addressing Non-IID issues while maintaining privacy. Motivated by this, we propose DCFL which divides clients into groups by using the Centered Kernel Alignment (CKA) method, then uses dataset condensation methods with non-IID awareness to complete clients. The private data from clients within the same group is complementary and their condensed data is accessible to all clients in the group. Additionally, CKA-guided client selection strategy, filtering mechanisms, and data enhancement techniques are incorporated to efficiently and precisely utilize the condensed data, enhance model performance, and minimize communication time. Experimental results demonstrate that DCFL achieves competitive performance on popular federated learning benchmarks including MNIST, FashionMNIST, SVHN, and CIFAR-10 with existing FL protocol.
翻訳日:2023-12-25 17:11:18 公開日:2023-12-21
# 高転送可能な標的攻撃に対するオートオーグメント入力変換

AutoAugment Input Transformation for Highly Transferable Targeted Attacks ( http://arxiv.org/abs/2312.14218v1 )

ライセンス: Link先を確認
Haobo Lu, Xin Liu, Kun He(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は, 多様な入力変換攻撃を通じて, クリーンな例に知覚できない摂動を加えることで, 敵の例に影響を受けやすいと広く認識されている。 しかし、これらの手法は本来、標的攻撃において成功率の低い非目標攻撃のために設計されたものである。 最近の標的攻撃は主に勾配最適化に注意を払い、適切な摂動方向を見つけようとする。 しかし,本研究では,対象クラスのロジット/プロビタビリティとターゲット攻撃における多様な入力変換手法との正の相関を観察する。 そこで本稿では,AutoAugment Input Transformation (AAIT) と呼ばれる新たな敵攻撃を提案する。 AAITは手作りの戦略に頼る代わりに、様々な操作からなる変換空間から最適な変換ポリシーを探索する。 次に、AAITは、検出された最適変換ポリシーを用いて敵の例を作成し、標的攻撃における敵の移動可能性を高める。 CIFAR-10とImageNet-Compatibleデータセットで実施された大規模な実験は、提案されたAAITが他の転送ベースのターゲットアタックを大きく上回っていることを示している。

Deep Neural Networks (DNNs) are widely acknowledged to be susceptible to adversarial examples, wherein imperceptible perturbations are added to clean examples through diverse input transformation attacks. However, these methods originally designed for non-targeted attacks exhibit low success rates in targeted attacks. Recent targeted adversarial attacks mainly pay attention to gradient optimization, attempting to find the suitable perturbation direction. However, few of them are dedicated to input transformation.In this work, we observe a positive correlation between the logit/probability of the target class and diverse input transformation methods in targeted attacks. To this end, we propose a novel targeted adversarial attack called AutoAugment Input Transformation (AAIT). Instead of relying on hand-made strategies, AAIT searches for the optimal transformation policy from a transformation space comprising various operations. Then, AAIT crafts adversarial examples using the found optimal transformation policy to boost the adversarial transferability in targeted attacks. Extensive experiments conducted on CIFAR-10 and ImageNet-Compatible datasets demonstrate that the proposed AAIT surpasses other transfer-based targeted attacks significantly.
翻訳日:2023-12-25 17:10:49 公開日:2023-12-21
# 逆赤外線曲線:物理世界の赤外線歩行者検出器への攻撃

Adversarial Infrared Curves: An Attack on Infrared Pedestrian Detectors in the Physical World ( http://arxiv.org/abs/2312.14217v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) 深層ニューラルネットワークのセキュリティは、可視光物理攻撃の研究が盛んであるが、赤外線領域での探索は限られている。 電球ボードやQRスーツを使ったホワイトボックスの赤外線攻撃のような既存のアプローチは、現実主義とステルスネスを欠いている。 一方、冷たく熱いパッチを用いたブラックボックス法は、堅牢性を確保するためにしばしば苦労する。 これらのギャップを埋めるために,AdvIC(Adversarial Infrared Curves)を提案する。 粒子群最適化を用いて, 2つのベジアー曲線を最適化し, 物理領域の寒冷パッチを用いて摂動を導入することで, 物理試料生成のための赤外曲線パターンを作成する。 大規模な実験により、AdvICの有効性が確認され、それぞれ94.8\%と67.2\%の攻撃成功率を達成した。 定常性は比較分析によって示され、ロバスト性評価はベースライン法よりもAdvICの方が優れていることを示している。 多様な先進検出器に対して展開すると、AdvICは76.8\%の平均攻撃成功率を達成し、その堅牢性を強調している。 我々は,AdvICに対する敵防衛戦略を探求し,その影響を様々な防衛機構の下で検討する。 AdvICが現実世界の視覚ベースのアプリケーションに重大なセキュリティに影響を及ぼすと、緊急の注意と緩和の努力が保証される。

Deep neural network security is a persistent concern, with considerable research on visible light physical attacks but limited exploration in the infrared domain. Existing approaches, like white-box infrared attacks using bulb boards and QR suits, lack realism and stealthiness. Meanwhile, black-box methods with cold and hot patches often struggle to ensure robustness. To bridge these gaps, we propose Adversarial Infrared Curves (AdvIC). Using Particle Swarm Optimization, we optimize two Bezier curves and employ cold patches in the physical realm to introduce perturbations, creating infrared curve patterns for physical sample generation. Our extensive experiments confirm AdvIC's effectiveness, achieving 94.8\% and 67.2\% attack success rates for digital and physical attacks, respectively. Stealthiness is demonstrated through a comparative analysis, and robustness assessments reveal AdvIC's superiority over baseline methods. When deployed against diverse advanced detectors, AdvIC achieves an average attack success rate of 76.8\%, emphasizing its robust nature. we explore adversarial defense strategies against AdvIC and examine its impact under various defense mechanisms. Given AdvIC's substantial security implications for real-world vision-based applications, urgent attention and mitigation efforts are warranted.
翻訳日:2023-12-25 17:10:30 公開日:2023-12-21
# DreamDistribution: テキスト-画像拡散モデルのためのプロンプト分布学習

DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.14216v1 )

ライセンス: Link先を確認
Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge(参考訳) テキスト画像拡散モデル(T2I)の普及により、テキスト記述から高品質な画像を生成することができる。 しかし、視覚的属性を基準とした多様なカスタマイズ画像の生成は依然として困難である。 この研究は、より抽象的な概念やカテゴリレベルでT2I拡散モデルをパーソナライズすることに焦点を当て、参照画像の集合から共通性を適応し、十分なバリエーションを持つ新しいインスタンスを作成する。 本稿では,事前学習したT2I拡散モデルを用いてソフトプロンプトの集合を学習し,学習した分布からプロンプトを抽出して新しい画像を生成する方法を提案する。 これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。 また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。 最後に,自動評価とヒューマンアセスメントを含む定量的分析により,本手法の有効性を示す。 プロジェクトウェブサイト:https://briannlongzhao.github.io/DreamDistribution

The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution
翻訳日:2023-12-25 17:10:07 公開日:2023-12-21
# SimLM: 言語モデルは物理系のパラメータを推測できるか?

SimLM: Can Language Models Infer Parameters of Physical Systems? ( http://arxiv.org/abs/2312.14215v1 )

ライセンス: Link先を確認
Sean Memery, Mirella Lapata, Kartic Subr(参考訳) 汎用理解、翻訳、言語生成のための大規模機械学習モデルの開発は、医学、ロボティクス、科学的発見を含む様々な分野に影響を与えている。 このような言語モデル(LLM)の強みは、彼らが訓練している大きなコーパスに由来する。 このことは彼らに幅広い能力を与えるが、高度な数学のような特定の問題には適さないことが判明している。 本稿では,LLMが物理タスクを推論できないことを強調する。 物理シミュレーションからフィードバックを得てコンテキストを増大させることにより,物理系のパラメータを再学習することなく推論できることを示す。

Recent developments in large-scale machine learning models for general-purpose understanding, translation and generation of language are driving impact across a variety of sectors including medicine, robotics, and scientific discovery. The strength of such Large Language Models (LLMs) stems from the large corpora that they are trained with. While this imbues them with a breadth of capabilities, they have been found unsuitable for some specific types of problems such as advanced mathematics. In this paper, we highlight the inability of LLMs to reason about physics tasks. We demonstrate that their ability to infer parameters of physical systems can be improved, without retraining, by augmenting their context with feedback from physical simulation.
翻訳日:2023-12-25 17:09:51 公開日:2023-12-21
# 非同期ニューロモルフィックハードウェアを用いた低消費電力イベントベース顔検出

Low-power event-based face detection with asynchronous neuromorphic hardware ( http://arxiv.org/abs/2312.14261v1 )

ライセンス: Link先を確認
Caterina Caccavella, Federico Paredes-Vall\'es, Marco Cannici, Lyes Khacef(参考訳) モビリティ、iot、ウェアラブルの台頭は、レイテンシ、通信コスト、全体的なエネルギー消費を減らす必要性によって、処理をセンサーの端に移した。 ディープラーニングモデルはさまざまな領域で目覚ましい成果を上げているが、リアルタイムアプリケーションのためのエッジへのデプロイは計算コストが高いままである。 ニューロモルフィックコンピューティングは、同時ローカライズされたメモリとコンピューティング、イベント駆動の非同期センシングと処理によって特徴付けられる、有望なパラダイムシフトとして現れる。 本研究では、イベントベースN-Caltech101データセットを用いて、低電力要求でエッジでの物体検出のユビキタスコンピュータビジョンタスクを解決する可能性を示す。 イベントベースセンサとインテグレート・アンド・ファイアニューロンを実装したスパイクベースの非同期プロセッサを組み合わせた,SynSense Speckニューロモルフィックチップ上に展開されたイベントベース顔検出のためのオンチップスパイクニューラルネットワークの最初の例を示す。 トレーニングに用いるオフチップクロック駆動シミュレーションとオンチップイベント駆動推論との精度の相違について述べる。 これはシミュレーションにおいてインテグレート・アンド・ファイアニューロンのマルチスパイクバージョンを使用し、スパイクは膜電位が発射閾値を超える程度に比例する値を持つ。 本稿では,マルチスパイクアクティベーションと発火速度の正規化を用いて,バックプロパゲーションによるスパイクニューラルネットワークのトレーニングを行い,出力スパイクをバウンディングボックスにデコードする方法を示す。 スパイクニューラルネットワークのシナプス動作数にチップの消費電力が直接比例していることを示し,20mw程度を消費しながら,オンチップの面検出マップ[0.5]を0.6まで達成し,異なる発火率の正規化による消費電力と検出精度のトレードオフについて検討した。

The rise of mobility, IoT and wearables has shifted processing to the edge of the sensors, driven by the need to reduce latency, communication costs and overall energy consumption. While deep learning models have achieved remarkable results in various domains, their deployment at the edge for real-time applications remains computationally expensive. Neuromorphic computing emerges as a promising paradigm shift, characterized by co-localized memory and computing as well as event-driven asynchronous sensing and processing. In this work, we demonstrate the possibility of solving the ubiquitous computer vision task of object detection at the edge with low-power requirements, using the event-based N-Caltech101 dataset. We present the first instance of an on-chip spiking neural network for event-based face detection deployed on the SynSense Speck neuromorphic chip, which comprises both an event-based sensor and a spike-based asynchronous processor implementing Integrate-and-Fire neurons. We show how to reduce precision discrepancies between off-chip clock-driven simulation used for training and on-chip event-driven inference. This involves using a multi-spike version of the Integrate-and-Fire neuron on simulation, where spikes carry values that are proportional to the extent the membrane potential exceeds the firing threshold. We propose a robust strategy to train spiking neural networks with back-propagation through time using multi-spike activation and firing rate regularization and demonstrate how to decode output spikes into bounding boxes. We show that the power consumption of the chip is directly proportional to the number of synaptic operations in the spiking neural network, and we explore the trade-off between power consumption and detection precision with different firing rate regularization, achieving an on-chip face detection mAP[0.5] of ~0.6 while consuming only ~20 mW.
翻訳日:2023-12-25 17:03:41 公開日:2023-12-21
# 防衛の強化: モデルレジリエンスのための橋渡し敵訓練と透かし

Elevating Defenses: Bridging Adversarial Training and Watermarking for Model Resilience ( http://arxiv.org/abs/2312.14260v1 )

ライセンス: Link先を確認
Janvi Thakkar, Giulio Zizzo, Sergio Maffeis(参考訳) 機械学習モデルは、多くの重要なアプリケーションで使用されているため、その完全性とオーナシップの確保が不可欠である。 最近の研究では、敵対的な訓練と透かしが相反する相互作用を持つことが観察されている。 本研究は,知的財産盗難の際,回避攻撃を防ぎ,確実なモデル検証を提供するため,透かし技術と敵対的トレーニングを統合する新しい枠組みを導入する。 防犯訓練と防犯用透かしを併用し,堅牢な透かしモデルの訓練を行った。 重要な直観は、対立を避けるために、敵の訓練に使用される予算よりも高い摂動予算を使用して敵のウォーターマークを生成することである。 我々は、MNISTとFashion-MNISTデータセットを用いて、様々なモデル盗難攻撃における提案手法の評価を行う。 その結果、ロバスト性性能において既存のベースラインを一貫して上回り、プルーニングと微調整除去攻撃に対するこの防御のレジリエンスをさらに証明した。

Machine learning models are being used in an increasing number of critical applications; thus, securing their integrity and ownership is critical. Recent studies observed that adversarial training and watermarking have a conflicting interaction. This work introduces a novel framework to integrate adversarial training with watermarking techniques to fortify against evasion attacks and provide confident model verification in case of intellectual property theft. We use adversarial training together with adversarial watermarks to train a robust watermarked model. The key intuition is to use a higher perturbation budget to generate adversarial watermarks compared to the budget used for adversarial training, thus avoiding conflict. We use the MNIST and Fashion-MNIST datasets to evaluate our proposed technique on various model stealing attacks. The results obtained consistently outperform the existing baseline in terms of robustness performance and further prove the resilience of this defense against pruning and fine-tuning removal attacks.
翻訳日:2023-12-25 17:03:05 公開日:2023-12-21
# 異種行動消去チャンネルによるマルチエージェント帯域学習

Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels ( http://arxiv.org/abs/2312.14259v1 )

ライセンス: Link先を確認
Osama A. Hanna, Merve Karakas, Lin F. Yang, Christina Fragouli(参考訳) Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃しており、協調MABアルゴリズムの進歩につながっている。 このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。 分散学習における主な課題は行動消去であり、しばしば通信遅延やチャネルノイズによって引き起こされる。 この結果、エージェントは学習者から意図したアクションを受け取らず、フィードバックを誤ったものにしてしまう可能性がある。 本稿では,行動消去確率が異なる異種行動消去チャネル間で,学習者が分散エージェントと並行して対話できる新しいアルゴリズムを提案する。 我々は,線形後悔を経験する既存のバンディットアルゴリズムとは対照的に,サブリニア後悔保証を保証するアルゴリズムを示す。 提案手法は、厳密な繰り返しプロトコルと、異種チャネル間の学習のスケジューリングに基づいて構築されている。 我々の知る限り、これらは異種行動消去チャネルを通して効果的に学習できる最初のアルゴリズムである。 我々は,マルチエージェント環境における通信制約や遅延の問題に対処する上で,その実用的意義を強調し,数値実験によるアルゴリズムの性能評価を行った。

Multi-Armed Bandit (MAB) systems are witnessing an upswing in applications within multi-agent distributed environments, leading to the advancement of collaborative MAB algorithms. In such settings, communication between agents executing actions and the primary learner making decisions can hinder the learning process. A prevalent challenge in distributed learning is action erasure, often induced by communication delays and/or channel noise. This results in agents possibly not receiving the intended action from the learner, subsequently leading to misguided feedback. In this paper, we introduce novel algorithms that enable learners to interact concurrently with distributed agents across heterogeneous action erasure channels with different action erasure probabilities. We illustrate that, in contrast to existing bandit algorithms, which experience linear regret, our algorithms assure sub-linear regret guarantees. Our proposed solutions are founded on a meticulously crafted repetition protocol and scheduling of learning across heterogeneous channels. To our knowledge, these are the first algorithms capable of effectively learning through heterogeneous action erasure channels. We substantiate the superior performance of our algorithm through numerical experiments, emphasizing their practical significance in addressing issues related to communication constraints and delays in multi-agent environments.
翻訳日:2023-12-25 17:02:46 公開日:2023-12-21
# 条件付き確率ゲートを用いた文脈特徴選択

Contextual Feature Selection with Conditional Stochastic Gates ( http://arxiv.org/abs/2312.14254v1 )

ライセンス: Link先を確認
Ram Dyuthi Sristi, Ofir Lindenbaum, Maria Lavzin, Jackie Schiller, Gal Mishne and Hadas Benisty(参考訳) そこでは,特定の文脈で条件付けられた情報的特徴のサブセットを特定しながら,予測関数の学習を目標とする文脈的特徴選択の問題について検討する。 この目標に向けて、最近提案された確率ゲート(STG)山田らを一般化する。 [2020] 変数が文脈変数に基づいて予測される条件付きベルヌーイ変数として確率ゲートをモデル化する。 我々の新しいスキームである条件付きSTG(c-STG)は、文脈変数と確率的特徴選択パラメータのマッピングを確立するハイパーネットワークと、選択した特徴を応答変数にマッピングする予測ネットワークの2つのネットワークから構成される。 2つのネットワークをトレーニングすることで、統一モデルにおけるコンテキストと機能選択の包括的統合が保証される。 提案手法の諸性質を検討するための理論的解析を行う。 重要なのは、当社のモデルが機能選択の柔軟性と適応性の向上につながり、従ってデータのニュアンスやバリエーションをよりよく捉えられることです。 我々は,c-stgを医療,住宅,神経科学などのシミュレーションおよび実世界のデータセットに適用し,文脈的に有意義な特徴を効果的に選択し,予測性能と解釈可能性を高めることを実証する。

We study the problem of contextual feature selection, where the goal is to learn a predictive function while identifying subsets of informative features conditioned on specific contexts. Towards this goal, we generalize the recently proposed stochastic gates (STG) Yamada et al. [2020] by modeling the probabilistic gates as conditional Bernoulli variables whose parameters are predicted based on the contextual variables. Our new scheme, termed conditional-STG (c-STG), comprises two networks: a hypernetwork that establishes the mapping between contextual variables and probabilistic feature selection parameters and a prediction network that maps the selected feature to the response variable. Training the two networks simultaneously ensures the comprehensive incorporation of context and feature selection within a unified model. We provide a theoretical analysis to examine several properties of the proposed framework. Importantly, our model leads to improved flexibility and adaptability of feature selection and, therefore, can better capture the nuances and variations in the data. We apply c-STG to simulated and real-world datasets, including healthcare, housing, and neuroscience, and demonstrate that it effectively selects contextually meaningful features, thereby enhancing predictive performance and interpretability.
翻訳日:2023-12-25 17:02:27 公開日:2023-12-21
# 弦理論とホログラフィーにおけるブラックホールの量子エンタングルメント

Quantum Entanglement on Black Hole Horizons in String Theory and Holography ( http://arxiv.org/abs/2312.14253v1 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra(参考訳) 我々は、ブラックホールの質量とスピンの関数と$\mathrm{AdS}_3$半径の関数として弦理論におけるブラックホール水平線のエンタングルメントエントロピーを計算することを目的として、ユークリッドBTZブラックホールの$\mathbb{Z}_N$オービフォールドの正確な1ループ分割関数を計算する。 奇数整数$N>1$で知られている分割函数に対するモジュラー積分に対するタキニックな寄与を分析し、解析的連続性を認めて、物理的領域$0<N \leq 1$のモジュラー積分に対する有限解が得られることを示す。 熱エントロピーに関連したブラックホール地平線とホログラフィー付近の量子重力に対する平坦な空間限界とこの計算の関連性について論じる。

We compute the exact one-loop partition function of $\mathbb{Z}_N$ orbifolds of Euclidean BTZ black hole with the aim to compute the entanglement entropy of the black hole horizon in string theory as a function of the mass and spin of the black hole and the $\mathrm{AdS}_3$ radius. We analyze the tachyonic contribution to the modular integrand for the partition function known for odd integers $N>1$ and show that it admits an analytic continuation resulting in a finite answer for the modular integral in the physical region $0< N \leq 1$. We discuss the flat space limit and the relevance of this computation for quantum gravity near black hole horizons and holography in relation to the thermal entropy.
翻訳日:2023-12-25 17:02:06 公開日:2023-12-21
# GenoCraft: 高スループットオミクスデータ分析と可視化のための総合的でユーザフレンドリーなWebベースプラットフォーム

GenoCraft: A Comprehensive, User-Friendly Web-Based Platform for High-Throughput Omics Data Analysis and Visualization ( http://arxiv.org/abs/2312.14249v1 )

ライセンス: Link先を確認
Yingzhou Lu, Minjie Shen, Yue Zhao, Chenhao Li, Fan Meng, Xiao Wang, David Herrington, Yue Wang, Tim Fu, Capucine Van Rechem(参考訳) ハイスループットのomcsデータの急増は、生物学的研究の展望を再構築し、パワフルでユーザフレンドリーなデータ分析と解釈ツールの必要性を強調した。 本稿では,omicsデータ処理のパイプライン全体を扱うwebベースの包括的なソフトウェアソリューションであるgenocraftを提案する。 GenoCraftは、高度なバイオインフォマティクスツールを備えた統一プラットフォームを提供し、オミクスデータ分析のあらゆる側面をカバーする。 正規化、品質制御、微分解析、ネットワーク分析、経路解析、多様な可視化技術といった様々な機能を含んでいる。 このソフトウェアは、最先端のomcsデータ分析をより広い範囲のユーザーにアクセスしやすくする。 genocraftでは、研究者やデータサイエンティストがユーザフレンドリーなインターフェースの下で最先端のバイオインフォマティクスツールの配列にアクセスでき、大規模なomcsデータの管理と分析に有用なリソースになります。 インタラクティブなWebインターフェースを備えたAPIはhttps://genocraft.stanford.comで公開されている。 edu/。 また、すべてのコードをhttps://github.com/futianfan/genocraftでリリースしています。

The surge in high-throughput omics data has reshaped the landscape of biological research, underlining the need for powerful, user-friendly data analysis and interpretation tools. This paper presents GenoCraft, a web-based comprehensive software solution designed to handle the entire pipeline of omics data processing. GenoCraft offers a unified platform featuring advanced bioinformatics tools, covering all aspects of omics data analysis. It encompasses a range of functionalities, such as normalization, quality control, differential analysis, network analysis, pathway analysis, and diverse visualization techniques. This software makes state-of-the-art omics data analysis more accessible to a wider range of users. With GenoCraft, researchers and data scientists have access to an array of cutting-edge bioinformatics tools under a user-friendly interface, making it a valuable resource for managing and analyzing large-scale omics data. The API with an interactive web interface is publicly available at https://genocraft.stanford. edu/. We also release all the codes in https://github.com/futianfan/GenoCraft.
翻訳日:2023-12-25 17:01:52 公開日:2023-12-21
# 深層強化学習に基づくUAV支援無線ネットワークにおける統合アクセスバックホールの配置

Deep Reinforcement Learning Based Placement for Integrated Access Backhauling in UAV-Assisted Wireless Networks ( http://arxiv.org/abs/2312.14247v1 )

ライセンス: Link先を確認
Yuhui Wang and Junaid Farooq(参考訳) 第5世代(5g)ネットワークの出現は、特に遠隔地や災害地域のような困難な環境において、接続性を高めるための新しい道を開いた。 無人航空機(uavs)は、特に5gのiab(integrated access and backhaul)機能によりネットワーク性能を向上させるため、この文脈で多用途なツールとして認識されている。 しかしながら、既存のuav支援ネットワーク拡張アプローチは、異なるユーザ位置とネットワーク要求に動的に適応する上での限界に直面している。 本稿では, リアルタイムにUAV配置を最適化し, ネットワーク条件やユーザ要求に応じて動的に調整する, 深層強化学習(DRL)を活用した新しいアプローチを提案する。 提案手法は, フォアホールリンクとバックホールリンクの複雑なバランスに重点を置いている。 この取り組みの独特な貢献は、地上ユーザーとの堅牢な接続を保証するだけでなく、中央ネットワークインフラストラクチャとのシームレスな統合を維持するために、無人でUAVを配置できることにある。 さまざまなシミュレーションシナリオを通じて,我々のアプローチがこれらの課題に対して効果的に対処し,重要な領域におけるカバレッジとネットワークパフォーマンスを向上させることを実証する。 この研究は、UAV支援5Gネットワークにおける大きなギャップを埋め、将来のモバイルネットワークにスケーラブルで適応的なソリューションを提供する。

The advent of fifth generation (5G) networks has opened new avenues for enhancing connectivity, particularly in challenging environments like remote areas or disaster-struck regions. Unmanned aerial vehicles (UAVs) have been identified as a versatile tool in this context, particularly for improving network performance through the Integrated access and backhaul (IAB) feature of 5G. However, existing approaches to UAV-assisted network enhancement face limitations in dynamically adapting to varying user locations and network demands. This paper introduces a novel approach leveraging deep reinforcement learning (DRL) to optimize UAV placement in real-time, dynamically adjusting to changing network conditions and user requirements. Our method focuses on the intricate balance between fronthaul and backhaul links, a critical aspect often overlooked in current solutions. The unique contribution of this work lies in its ability to autonomously position UAVs in a way that not only ensures robust connectivity to ground users but also maintains seamless integration with central network infrastructure. Through various simulated scenarios, we demonstrate how our approach effectively addresses these challenges, enhancing coverage and network performance in critical areas. This research fills a significant gap in UAV-assisted 5G networks, providing a scalable and adaptive solution for future mobile networks.
翻訳日:2023-12-25 17:01:34 公開日:2023-12-21
# 古典最適化ユニタリ回路による非平衡量子力学のスケーラブルシミュレーション

Scalable simulation of non-equilibrium quantum dynamics via classically optimised unitary circuits ( http://arxiv.org/abs/2312.14245v1 )

ライセンス: Link先を確認
Luke Causer, Felix Jung, Asimpunya Mitra, Frank Pollmann, Adam Smith(参考訳) 短期的なデジタル量子コンピュータの出現は、古典的コンピューティング以上の量子多体現象を研究するエキサイティングな機会になるかもしれない。 ハードウェアを最大限に活用するためには、限られた回路深さに対してハミルトン力学を正確にシミュレートする手法が最重要である。 本稿では,ユニタリブリックウォール回路を古典的に最適化し,量子時間発展演算子を近似する手法を提案する。 本手法はテンソルネットワークを用いてシステムサイズを拡張可能である。 様々な3体ハミルトニアンの手法は、その精度と力学を実装するのに必要な量子回路の深さの両方においてロータライズを上回る量子回路を生成し、正確な詳細はハミルトニアンに依存することを実証する。 また,量子デバイスとブロックウォール回路の近似誤差を最小化する最適な時間ステップを選択する方法についても述べる。

The advent of near-term digital quantum computers could offer us an exciting opportunity to investigate quantum many-body phenomena beyond that of classical computing. To make the best use of the hardware available, it is paramount that we have methods that accurately simulate Hamiltonian dynamics for limited circuit depths. In this paper, we propose a method to classically optimise unitary brickwall circuits to approximate quantum time evolution operators. Our method is scalable in system size through the use of tensor networks. We demonstrate that, for various three-body Hamiltonians, our approach produces quantum circuits that can outperform Trotterization in both their accuracy and the quantum circuit depth needed to implement the dynamics, with the exact details being dependent on the Hamiltonian. We also explain how to choose an optimal time step that minimises the combined errors of the quantum device and the brickwall circuit approximation.
翻訳日:2023-12-25 17:01:10 公開日:2023-12-21
# ラマンキャビティハイブリッドにおける平衡パラメトリック増幅

Equilibrium parametric amplification in Raman-cavity hybrids ( http://arxiv.org/abs/2312.14243v1 )

ライセンス: Link先を確認
H. P. Ojeda Collado, Marios H. Michael, Jim Skulte, Angel Rubio, and Ludwig Mathey(参考訳) パラメトリック共鳴と増幅はポンププローブ実験で異常な光誘起現象をもたらした。 これらの現象は平衡外設定で現れるが、ここではパラメトリック増幅の顕著な結果を示す。 特に,ラマンモードの量子および熱揺らぎは,ラマンモードの周波数がキャビティモードの周波数の2倍である場合,キャビティ内の光を平衡で増幅する。 このノイズ駆動増幅により、異常なパラメトリックなラマン偏光子が生成され、ラマンモードとキャビティのゆらぎが交わり、ラマン分光における銃のシグネチャが喫煙される。 共振系では、量子光増幅だけでなく、ラマンモードの局在化と静的シフトの出現を示す。 平衡パラメトリック増幅の基本的な関心とは別に,本研究はラマンモードを制御する共振機構とキャビティゆらぎによる物質特性を示唆する。 結論として,ラマンキャビティカップリングの計算方法を概説し,実験的実現の可能性を提案する。

Parametric resonances and amplification have led to extraordinary photo-induced phenomena in pump-probe experiments. While these phenomena manifest themselves in out-of-equilibrium settings, here, we present the striking result of parametric amplification in equilibrium. In particular, we demonstrate that quantum and thermal fluctuations of a Raman-active mode amplifies light inside a cavity, at equilibrium, when the Raman mode frequency is twice the cavity mode frequency. This noise-driven amplification leads to the creation of an unusual parametric Raman polariton, intertwining the Raman mode with cavity squeezing fluctuations, with smoking gun signatures in Raman spectroscopy. In the resonant regime, we show the emergence of not only quantum light amplification but also localization and static shift of the Raman mode. Apart from the fundamental interest of equilibrium parametric amplification our study suggests a resonant mechanism for controlling Raman modes and thus matter properties by cavity fluctuations. We conclude by outlining how to compute the Raman-cavity coupling, and suggest possible experimental realization
翻訳日:2023-12-25 17:00:54 公開日:2023-12-21
# PlatoNeRF:シングルビュー2バウンスライダーによるプラトン洞窟の3次元再構成

PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar ( http://arxiv.org/abs/2312.14239v1 )

ライセンス: Link先を確認
Tzofi Klinghoffer, Xiaoyu Xiang, Siddharth Somasundaram, Yuchen Fan, Christian Richardt, Ramesh Raskar, Rakesh Ranjan(参考訳) 単眼からのあいまいさと閉塞領域に関する情報の欠如から,単眼からの3次元再構成は困難である。 ニューラルレイディアンス場(NeRF)は、ビュー合成や3D再構成に人気があるが、通常はマルチビュー画像に依存している。 既存のNeRFを用いた単視3D再構成法は、物理的に正確ではないかもしれない閉鎖領域の幻覚的な視界に先行するデータや、周囲の光や低アルベドの背景を検出できないRGBカメラで観測される影に頼っている。 単一光子アバランシェダイオードで捉えた飛行時間データを用いてこれらの制限を克服する。 提案手法は,lidarトランジェントデータを用いて2バウンス光路をnrfでモデル化する。 lidarによって測定されたnerfと2バウンス光の両方の利点を生かして、データの事前設定や制御された環境照明やシーンアルベドに依存することなく、可視および遮蔽幾何学を再構築できることを実証する。 さらに,センサ空間分解能と時間分解能の実用的制約下での一般化を実証する。 我々は,携帯電話やタブレット,ヘッドセットなどのコンシューマデバイス上では,単光子ライダーが普及するにつれ,我々の方法が有望な方向であると信じている。

3D reconstruction from a single-view is challenging because of the ambiguity from monocular cues and lack of information about occluded regions. Neural radiance fields (NeRF), while popular for view synthesis and 3D reconstruction, are typically reliant on multi-view images. Existing methods for single-view 3D reconstruction with NeRF rely on either data priors to hallucinate views of occluded regions, which may not be physically accurate, or shadows observed by RGB cameras, which are difficult to detect in ambient light and low albedo backgrounds. We propose using time-of-flight data captured by a single-photon avalanche diode to overcome these limitations. Our method models two-bounce optical paths with NeRF, using lidar transient data for supervision. By leveraging the advantages of both NeRF and two-bounce light measured by lidar, we demonstrate that we can reconstruct visible and occluded geometry without data priors or reliance on controlled ambient lighting or scene albedo. In addition, we demonstrate improved generalization under practical constraints on sensor spatial- and temporal-resolution. We believe our method is a promising direction as single-photon lidars become ubiquitous on consumer devices, such as phones, tablets, and headsets.
翻訳日:2023-12-25 17:00:35 公開日:2023-12-21
# InternVL:視覚基礎モデルのスケールアップとジェネリック視覚言語課題への適応

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks ( http://arxiv.org/abs/2312.14238v1 )

ライセンス: Link先を確認
Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai(参考訳) 大規模言語モデル(LLM)の指数的成長は、多モードAGIシステムに多くの可能性をもたらした。 しかし、マルチモーダルAGIの重要な要素でもあるビジョンと視覚言語基盤モデルの進歩は、LLMと歩調を合わせていない。 本研究では,視覚基盤モデルを60億のパラメータに拡張し,様々な情報源のWebスケール画像テキストデータを用いて大規模言語モデルに段階的に対応させる大規模視覚基礎モデル(InternVL)を設計する。 このモデルは、画像レベルやピクセルレベル認識などの視覚知覚タスク、ゼロショット画像/ビデオ分類、ゼロショット画像/ビデオテキスト検索などの視覚言語タスク、llmとのリンク、マルチモーダル対話システムの作成など、最先端のパフォーマンスに広く適用することができる。 マルチモーダル大規模モデルの開発に,我々の研究が貢献できることを願っています。 コードとモデルはhttps://github.com/OpenGVLab/InternVLで公開されている。

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multi-modal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the large language model, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.
翻訳日:2023-12-25 17:00:10 公開日:2023-12-21
# AI-Lorenz: 記号回帰を伴うカオスシステムのブラックボックスとグレーボックス識別のための物理データ駆動フレームワーク

AI-Lorenz: A physics-data-driven framework for black-box and gray-box identification of chaotic systems with symbolic regression ( http://arxiv.org/abs/2312.14237v1 )

ライセンス: Link先を確認
Mario De Florio, Ioannis G. Kevrekidis, George Em Karniadakis(参考訳) 力学系の観察された挙動を特徴づける数学的モデルの発見は、特にカオス的な状態にあるシステムにとって大きな課題である。 このようなシステムの基盤となる物理がまだ理解されていない場合、科学的調査は経験的データのみに依存する必要がある。 このギャップを埋める必要性に触発され、ノイズやスパース観測可能なデータから微分方程式を識別することで、複雑な動的挙動をモデル化する数式を学習するフレームワークを開発した。 我々は,システムのダイナミクス,時間変化率,モデル項の欠如を学習するために,小さなニューラルネットワークを訓練し,明示的な数学的用語を自律的に蒸留する記号回帰アルゴリズムの入力として用いる。 これにより、動的挙動の将来的な進化を予測することができる。 このフレームワークの性能は、よく知られたローレンツ系や6次元のハイパーカオス系、非自律的なスプロットカオス系の右辺と未知の複雑なカオス系を復元し、それらの既知の解析的表現と比較することによって検証される。

Discovering mathematical models that characterize the observed behavior of dynamical systems remains a major challenge, especially for systems in a chaotic regime. The challenge is even greater when the physics underlying such systems is not yet understood, and scientific inquiry must solely rely on empirical data. Driven by the need to fill this gap, we develop a framework that learns mathematical expressions modeling complex dynamical behaviors by identifying differential equations from noisy and sparse observable data. We train a small neural network to learn the dynamics of a system, its rate of change in time, and missing model terms, which are used as input for a symbolic regression algorithm to autonomously distill the explicit mathematical terms. This, in turn, enables us to predict the future evolution of the dynamical behavior. The performance of this framework is validated by recovering the right-hand sides and unknown terms of certain complex, chaotic systems such as the well-known Lorenz system, a six-dimensional hyperchaotic system, and the non-autonomous Sprott chaotic system, and comparing them with their known analytical expressions.
翻訳日:2023-12-25 16:59:49 公開日:2023-12-21
# バースト画像融合と層分離のための神経スプライン場

Neural Spline Fields for Burst Image Fusion and Layer Separation ( http://arxiv.org/abs/2312.14235v1 )

ライセンス: Link先を確認
Ilya Chugunov, David Shustin, Ruyu Yan, Chenyang Lei, Felix Heide(参考訳) 画像バースト内のそれぞれの写真は、パララックス、拡散およびスペクトル材料、シーンモーション、および照度変化の産物である複雑な3Dシーンのサンプルとみなすことができる。 これらすべての効果を、不整合したイメージのスタックから分解することは、非常に不整合なタスクであるが、従来のアライメント・アンド・マージバーストパイプラインは、もう一方の極端、すなわちそれらを単一のイメージに混ぜる。 本研究では,入力座標をスプライン制御点にマッピングするために訓練された,ニューラルネットワークスプラインフィールドを用いた2層アルファ合成画像プラスフローモデルを提案する。 本手法は, テスト時間最適化中にバースト画像キャプチャを1つの高分解能再構成に融合し, 伝達層と妨害層に分解することができる。 そして, 閉塞層を廃棄することにより, 閉塞, 反射抑制, シャドウ除去など, 様々な作業を行うことができる。 複雑な合成画像とインザワイルドキャプチャーで検証した結果、後処理のステップや事前学習がなければ、我々の一般化可能なモデルは、既存の専用画像とマルチビューの障害物除去アプローチより優れていることがわかった。

Each photo in an image burst can be considered a sample of a complex 3D scene: the product of parallax, diffuse and specular materials, scene motion, and illuminant variation. While decomposing all of these effects from a stack of misaligned images is a highly ill-conditioned task, the conventional align-and-merge burst pipeline takes the other extreme: blending them into a single image. In this work, we propose a versatile intermediate representation: a two-layer alpha-composited image plus flow model constructed with neural spline fields -- networks trained to map input coordinates to spline control points. Our method is able to, during test-time optimization, jointly fuse a burst image capture into one high-resolution reconstruction and decompose it into transmission and obstruction layers. Then, by discarding the obstruction layer, we can perform a range of tasks including seeing through occlusions, reflection suppression, and shadow removal. Validated on complex synthetic and in-the-wild captures we find that, with no post-processing steps or learned priors, our generalizable model is able to outperform existing dedicated single-image and multi-view obstruction removal approaches.
翻訳日:2023-12-25 16:59:29 公開日:2023-12-21
# フロッケ多体系における演算子ダイナミクス

Operator dynamics in Floquet many-body systems ( http://arxiv.org/abs/2312.14234v1 )

ライセンス: Link先を確認
Takato Yoshimura, Samuel J. Garratt, J. T. Chalker(参考訳) 多体量子系における作用素動力学の研究を行い、エルゴード的、空間的に拡張され、保存密度が欠如している系の総称的特徴に焦点を当てた。 可解モデルおよび数値モデルにおいて、時間関数および演算子支持の大きさとして演算子自己相関関数の挙動を特徴付ける。 標準的な期待は、そのような系の作用素自己相関関数は、時間ゼロで最大であり、数回のフロケ周期で崩壊し、統計的に類似したシステムのアンサンブルよりも平均でゼロになる変動値になる。 我々の中心的な結果は、アンサンブル平均相関関数もまた、後続のピークからなる第2のジェネリック特徴を示すことである。 個々の多体系では、このピークは有限空間領域で支持される作用素の完全集合上での自己相関関数を平均化し、部分スペクトル形成因子を生成することでも明らかとなる。 ピークの持続時間は演算子支持の大きさとともに無限に増加し、その振幅は減少するが、操作子を含むのに十分大きな場合、基本的にはシステムサイズとは独立である。 有限系では、平均相関関数は、スペクトルフォームファクターのいわゆるランプと高原に対応する、後の時間にさらに特徴を示し、自己相関関数の振幅は、システムサイズが大きくなるにつれてゼロに減少する。 後のピークとランプ・アンド・プラトーの特徴は、フロッケ系や時間に依存しないハミルトニアンを持つモデルのような時間変換対称性を持つモデルに特異的であり、広範囲に研究されたランダムユニタリ回路のような時間のランダムな関数である進化作用素を持つモデルには存在しない。

We study operator dynamics in many-body quantum systems, focusing on generic features of systems which are ergodic, spatially extended, and lack conserved densities, as exemplified by spin chains with Floquet time evolution. To characterise dynamics we examine, in solvable models and numerically, the behaviour of operator autocorrelation functions, as a function of time and the size of the operator support. The standard expectation is that operator autocorrelation functions in such systems are maximum at time zero and decay, over a few Floquet periods, to a fluctuating value that reduces to zero under an average over an ensemble of statistically similar systems. Our central result is that ensemble-averaged correlation functions also display a second generic feature, which consists of a peak at a later time. In individual many-body systems, this peak can also be revealed by averaging autocorrelation functions over complete sets of operators supported within a finite spatial region, thereby generating a partial spectral form factor. The duration of the peak grows indefinitely with the size of the operator support, and its amplitude shrinks, but both are essentially independent of system size provided this is sufficiently large to contain the operator. In finite systems, the averaged correlation functions also show a further feature at still later times, which is a counterpart to the so-called ramp and plateau of the spectral form factor; its amplitude in the autocorrelation function decreases to zero with increasing system size. Both the later-time peak and the ramp-and-plateau feature are specific to models with time-translation symmetry, such as Floquet systems or models with a time-independent Hamiltonian, and are absent in models with an evolution operator that is a random function of time, such as the extensively-studied random unitary circuits.
翻訳日:2023-12-25 16:59:07 公開日:2023-12-21
# VCoder: マルチモーダル大規模言語モデルのためのVersatile Vision Encoder

VCoder: Versatile Vision Encoders for Multimodal Large Language Models ( http://arxiv.org/abs/2312.14233v1 )

ライセンス: Link先を確認
Jitesh Jain, Jianwei Yang, Humphrey Shi(参考訳) 人間は視覚的な知覚の卓越したスキルを持ち、目に見えるものを見たり理解したりする能力を持ち、視覚の世界を理解するのに役立ち、そして理性を持っている。 MLLM(Multimodal Large Language Models)は近年,視覚的質問応答や画像キャプション,視覚的推論や画像生成など,視覚言語タスクにおける印象的なパフォーマンスを実現している。 しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。 知覚と推論のための正確なMLLMシステムの開発を目指して,マルチモーダルLLMの知覚眼としてVersatile Vision enCoders(VCoder)を提案する。 我々は,VCoderにセグメンテーションや深度マップなどの知覚モダリティを与え,MLLMの知覚能力を向上させる。 第2に、COCOの画像を活用し、市販の視覚知覚モデルから出力し、オブジェクト認識タスク上でMLLMをトレーニングおよび評価するためのCOCOセグメンテーションテキスト(COST)データセットを作成する。 第3に,COSTデータセット上でMLLMの物体知覚能力を評価する指標を導入する。 最後に、GPT-4Vを含む既存のマルチモーダルLLMに対して、VCoderのオブジェクトレベルの認識能力の向上を実証する広範な実験的な証拠を提供する。 研究を促進するために、データセット、コード、モデルをオープンソースにしています。 私たちは、https://github.com/SHI-Labs/VCoderでコードをオープンソース化しました。

Humans possess the remarkable skill of Visual Perception, the ability to see and understand the seen, helping them make sense of the visual world and, in turn, reason. Multimodal Large Language Models (MLLM) have recently achieved impressive performance on vision-language tasks ranging from visual question-answering and image captioning to visual reasoning and image generation. However, when prompted to identify or count (perceive) the entities in a given image, existing MLLM systems fail. Working towards developing an accurate MLLM system for perception and reasoning, we propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the VCoder with perception modalities such as segmentation or depth maps, improving the MLLM's perception abilities. Secondly, we leverage the images from COCO and outputs from off-the-shelf vision perception models to create our COCO Segmentation Text (COST) dataset for training and evaluating MLLMs on the object perception task. Thirdly, we introduce metrics to assess the object perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive experimental evidence proving the VCoder's improved object-level perception skills over existing Multimodal LLMs, including GPT-4V. We open-source our dataset, code, and models to promote research. We open-source our code at https://github.com/SHI-Labs/VCoder
翻訳日:2023-12-25 16:58:33 公開日:2023-12-21
# フェデレーション量子長短期記憶(FedQLSTM)

Federated Quantum Long Short-term Memory (FedQLSTM) ( http://arxiv.org/abs/2312.14309v1 )

ライセンス: Link先を確認
Mahdi Chehimi, Samuel Yen-Chi Chen, Walid Saad, Shinjae Yoo(参考訳) 量子フェデレーション学習(QFL)は、データのプライバシを保持しながら、量子機械学習(QML)モデルを使用して、複数のクライアント間の協調学習を容易にする。 QFLの最近の進歩は、いくつかのデータ型を活用しながら分類のような様々なタスクにまたがっているが、時間的データを利用して分散量子センシングネットワークの性能を解析するのに有用な関数を近似するQFLフレームワークの開発に注力する以前の研究はない。 本稿では,量子長短期メモリ(QLSTM)モデルと時間データを統合するための新しいQFLフレームワークを提案する。 提案するフェデレーションQLSTM(FedQLSTM)フレームワークは,関数近似のタスクを実行するために利用される。 この点において、ベッセル関数近似、正弦波遅延量子フィードバック制御関数近似、ストルーブ関数近似の3つの主要なユースケースが提示される。 シミュレーションの結果,提案するFedQLSTMフレームワークは,すべてのユースケースにおいて,1つのローカルトレーニングエポック下での収束速度の向上,全体的な計算の最小化,および従来のLSTMモデルを用いたFLフレームワークと比較して収束までの通信ラウンドの25~33%の削減を実現していることを確認した。

Quantum federated learning (QFL) can facilitate collaborative learning across multiple clients using quantum machine learning (QML) models, while preserving data privacy. Although recent advances in QFL span different tasks like classification while leveraging several data types, no prior work has focused on developing a QFL framework that utilizes temporal data to approximate functions useful to analyze the performance of distributed quantum sensing networks. In this paper, a novel QFL framework that is the first to integrate quantum long short-term memory (QLSTM) models with temporal data is proposed. The proposed federated QLSTM (FedQLSTM) framework is exploited for performing the task of function approximation. In this regard, three key use cases are presented: Bessel function approximation, sinusoidal delayed quantum feedback control function approximation, and Struve function approximation. Simulation results confirm that, for all considered use cases, the proposed FedQLSTM framework achieves a faster convergence rate under one local training epoch, minimizing the overall computations, and saving 25-33% of the number of communication rounds needed until convergence compared to an FL framework with classical LSTM models.
翻訳日:2023-12-25 16:52:25 公開日:2023-12-21
# 動的周期で定義した長期的・短期的選好の不均一グラフモデリングによる社会的勧告

Social Recommendation through Heterogeneous Graph Modeling of the Long-term and Short-term Preference Defined by Dynamic Periods ( http://arxiv.org/abs/2312.14306v1 )

ライセンス: Link先を確認
Behafarid Mohammad Jafari, Xiao Luo, Ali Jafari(参考訳) 社会的レコメンデーションは、かなりの領域で広く採用されている。 近年,グラフ表現学習の成功により,グラフニューラルネットワーク(GNN)が推奨システムに採用されている。 しかし、ソーシャルネットワークデータの動的な性質を扱うことは困難である。 本研究では,ソーシャルネットワークデータの動的特性をヘテロジニアスグラフに組み込むことにより,ソーシャルレコメンデーションを提供する新しい手法を提案する。 このモデルは、ユーザの長期的および短期的嗜好を定義し、割り当てられたエッジ重みを集約することにより、動的グラフの複雑さを乗り越えることなく、時間の経過とともにユーザの嗜好を捉えることを目的としている。 このモデルは実世界データに適用され、優れた性能を主張する。 このモデルの有効性を実証する。

Social recommendations have been widely adopted in substantial domains. Recently, graph neural networks (GNN) have been employed in recommender systems due to their success in graph representation learning. However, dealing with the dynamic property of social network data is a challenge. This research presents a novel method that provides social recommendations by incorporating the dynamic property of social network data in a heterogeneous graph. The model aims to capture user preference over time without going through the complexities of a dynamic graph by adding period nodes to define users' long-term and short-term preferences and aggregating assigned edge weights. The model is applied to real-world data to argue its superior performance. Promising results demonstrate the effectiveness of this model.
翻訳日:2023-12-25 16:52:00 公開日:2023-12-21
# Geo2SigMap:地理データベースを用いた高忠実RF信号マッピング

Geo2SigMap: High-Fidelity RF Signal Mapping Using Geographic Databases ( http://arxiv.org/abs/2312.14303v1 )

ライセンス: Link先を確認
Yiming Li, Zeyu Li, Zhihui Gao, Tingjun Chen(参考訳) 無線周波数(RF)信号マッピングは、特定の領域にわたるRF信号の強度と分布を分析し予測するプロセスであり、細胞ネットワークの計画と展開に不可欠である。 従来のrf信号マッピングのアプローチは、低複雑性だが精度に欠ける測定データに基づいて構築された統計モデルや、ターゲット領域の精度が向上するが計算複雑性が増大するレイトレーシングツールに依存している。 近年、機械学習(ML)は、合成データセットで訓練されたモデルを利用して「見えない」領域でRF信号マッピングを行う、RF信号伝搬をモデル化するデータ駆動手法として登場した。 本稿では,地理データベースを用いた高速かつ高忠実なRF信号マッピングのためのMLベースのフレームワークGeo2SigMapを提案する。 まず,OpenStreetMap (地理データベース), Blender (コンピュータグラフィックス), Sionna (レイトレーシング) の3つのオープンソースツールをシームレスに統合する自動フレームワークを開発し,大規模3Dビルディングマップとレイトレーシングモデルの効率的な生成を可能にする。 第2に,合成データセットを事前学習し,環境情報とスパース計測データを利用して詳細なRF信号マップを生成するカスケードU-Netモデルを提案する。 最後に,3種類のユーザ機器(UE)が市民ブロードバンド無線サービス(CBRS)帯域で動作する6つのLTEセルのセル情報に関連する45,000以上のデータポイントを収集し,Geo2SigMapの性能を評価する。 以上の結果から,Geo2SigMap は UE における基準信号受信電力 (RSRP) の予測に 6.04 dB の平均ルート平均二乗誤差 (RMSE) を達成し,既存の手法と比較して平均 3.59 dB の改善率を示した。

Radio frequency (RF) signal mapping, which is the process of analyzing and predicting the RF signal strength and distribution across specific areas, is crucial for cellular network planning and deployment. Traditional approaches to RF signal mapping rely on statistical models constructed based on measurement data, which offer low complexity but often lack accuracy, or ray tracing tools, which provide enhanced precision for the target area but suffer from increased computational complexity. Recently, machine learning (ML) has emerged as a data-driven method for modeling RF signal propagation, which leverages models trained on synthetic datasets to perform RF signal mapping in "unseen" areas. In this paper, we present Geo2SigMap, an ML-based framework for efficient and high-fidelity RF signal mapping using geographic databases. First, we develop an automated framework that seamlessly integrates three open-source tools: OpenStreetMap (geographic databases), Blender (computer graphics), and Sionna (ray tracing), enabling the efficient generation of large-scale 3D building maps and ray tracing models. Second, we propose a cascaded U-Net model, which is pre-trained on synthetic datasets and employed to generate detailed RF signal maps, leveraging environmental information and sparse measurement data. Finally, we evaluate the performance of Geo2SigMap via a real-world measurement campaign, where three types of user equipment (UE) collect over 45,000 data points related to cellular information from six LTE cells operating in the citizens broadband radio service (CBRS) band. Our results show that Geo2SigMap achieves an average root-mean-square-error (RMSE) of 6.04 dB for predicting the reference signal received power (RSRP) at the UE, representing an average RMSE improvement of 3.59 dB compared to existing methods.
翻訳日:2023-12-25 16:51:47 公開日:2023-12-21
# 新しいGPT-4 APIの公開

Exploiting Novel GPT-4 APIs ( http://arxiv.org/abs/2312.14302v1 )

ライセンス: Link先を確認
Kellin Pelrine, Mohammad Taufeeque, Micha{\l} Zaj\k{a}c, Euan McLean, Adam Gleave(参考訳) 言語モデル攻撃は通常、モデル重みへの完全なホワイトボックスアクセス、テキスト生成apiに限定されたブラックボックスアクセスの2つの極端な脅威モデルの1つを想定する。 これらのAPIは `gray-box'' アクセスを公開して新たな脅威ベクトルを生成する。 これを探るため、我々はGPT-4 APIで公開された3つの新機能(微調整、関数呼び出し、知識検索)を再設計した。 15個の有害な例や100個の良質な例でモデルを微調整すれば、gpt-4からコアセーフガードを取り除き、さまざまな有害なアウトプットが可能になることが分かりました。 さらに、GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。 最後に,検索文書に指示を挿入することで,知識検索をハイジャックできることを示す。 これらの脆弱性は、apiが公開する機能への追加が新たな脆弱性を生み出すことを強調する。

Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
翻訳日:2023-12-25 16:51:14 公開日:2023-12-21
# オートエンコーダに基づく顔認証システム

Autoencoder Based Face Verification System ( http://arxiv.org/abs/2312.14301v1 )

ライセンス: Link先を確認
Enoch Solomon, Abraham Woubie and Eyael Solomon Emiru(参考訳) この研究の主な目的は、ラベル付きデータへの依存性を減らすための代替アプローチを提供することである。 提案手法は,顔画像認識タスクにおけるオートエンコーダの事前学習を2ステッププロセスで行う。 当初、オートエンコーダは大量のラベルのないトレーニングデータセットを使用して教師なしの方法でトレーニングされる。 その後、事前訓練されたオートエンコーダから初期化パラメータでディープラーニングモデルを訓練する。 このディープラーニングトレーニングプロセスは、比較的限られたラベル付きトレーニングデータセットを用いて教師付き方法で実行される。 評価フェーズでは、ディープニューラルネットワーク層の出力として顔画像埋め込みを生成する。 トレーニングはCelebAデータセット上で行われ、評価はLFW(Labeled Faces in the Wild)やYTF(YouTube Faces)といったベンチマーク顔認識データセットを用いて行われる。 実験の結果、事前学習されたオートエンコーダパラメータでディープニューラルネットワークを初期化することで、最先端の手法に匹敵する結果が得られることがわかった。

The primary objective of this work is to present an alternative approach aimed at reducing the dependency on labeled data. Our proposed method involves utilizing autoencoder pre-training within a face image recognition task with two step processes. Initially, an autoencoder is trained in an unsupervised manner using a substantial amount of unlabeled training dataset. Subsequently, a deep learning model is trained with initialized parameters from the pre-trained autoencoder. This deep learning training process is conducted in a supervised manner, employing relatively limited labeled training dataset. During evaluation phase, face image embeddings is generated as the output of deep neural network layer. Our training is executed on the CelebA dataset, while evaluation is performed using benchmark face recognition datasets such as Labeled Faces in the Wild (LFW) and YouTube Faces (YTF). Experimental results demonstrate that by initializing the deep neural network with pre-trained autoencoder parameters achieve comparable results to state-of-the-art methods.
翻訳日:2023-12-25 16:50:56 公開日:2023-12-21
# 量子インターネットのための非同期エンタングルメントルーティング

Asynchronous Entanglement Routing for the Quantum Internet ( http://arxiv.org/abs/2312.14300v1 )

ライセンス: Link先を確認
Zebo Yang, Ali Ghubaish, Raj Jain, Hassan Shapourian, Alireza Shabani(参考訳) 量子インターネットの出現に伴い、高度な量子ネットワーク技術の必要性が著しく高まっている。 量子リピータの様々なモデルが提示され、それぞれが長距離の量子通信を確実にするためのユニークな戦略を示している。 エンタングルメント生成とスワップを使用するリピータに注目します。 これは、"quantum-native"リピータ(文献によっては"first-generation"リピータとも呼ばれる)と呼ばれる概念である。 量子ネイティブリピータのルーティングにおける課題は、確率的絡み合い生成とコヒーレンス時間制限から生じる。 現在のアプローチでは、同期時間スロットを使用して絡み合うスワッピング経路を探索し、効率が悪くなっている。 本稿では,分散的に動的トポロジを維持できるという考え方を取り入れ,量子ネットワークのための新しい非同期ルーティングプロトコルを提案する。このプロトコルは,デスティネーション指向有向非巡回グラフ(dodag)やスパンディングツリーなど,損失のあるネットワークの古典的なルーティングにおいて広く研究されてきた。 プロトコルは、エンタングルメントリンクトポロジーを非同期に更新し、最適なエンタングルメントスワッピングパスを特定し、未使用の直接リンクエンタングルメントを保存する。 以上の結果から,非同期プロトコルは,既存の同期手法よりも適切な設定で大きな上限を達成でき,また,コヒーレンス時間とともに速度が向上し,技術進歩とともに量子ネットワークにさらに大きな影響を与えることが示唆された。

With the emergence of the Quantum Internet, the need for advanced quantum networking techniques has significantly risen. Various models of quantum repeaters have been presented, each delineating a unique strategy to ensure quantum communication over long distances. We focus on repeaters that employ entanglement generation and swapping. This revolves around establishing remote end-to-end entanglement through repeaters, a concept we denote as the "quantum-native" repeaters (also called "first-generation" repeaters in some literature). The challenges in routing with quantum-native repeaters arise from probabilistic entanglement generation and restricted coherence time. Current approaches use synchronized time slots to search for entanglement-swapping paths, resulting in inefficiencies. Here, we propose a new set of asynchronous routing protocols for quantum networks by incorporating the idea of maintaining a dynamic topology in a distributed manner, which has been extensively studied in classical routing for lossy networks, such as using a destination-oriented directed acyclic graph (DODAG) or a spanning tree. The protocols update the entanglement-link topology asynchronously, identify optimal entanglement-swapping paths, and preserve unused direct-link entanglements. Our results indicate that asynchronous protocols achieve a larger upper bound with an appropriate setting and significantly higher entanglement rate than existing synchronous approaches, and the rate increases with coherence time, suggesting that it will have a much more profound impact on quantum networks as technology advances.
翻訳日:2023-12-25 16:50:40 公開日:2023-12-21
# マトロイド制約上の部分モジュラー最大化の公平性

Fairness in Submodular Maximization over a Matroid Constraint ( http://arxiv.org/abs/2312.14299v1 )

ライセンス: Link先を確認
Marwa El Halabi, Jakub Tarnawski, Ashkan Norouzi-Fard, Thuy-Duong Vuong(参考訳) マトロイド制約上のサブモジュラー最大化は、機械学習における様々な応用において根本的な問題である。 これらのアプリケーションの中には、性別や人種などのセンシティブな属性を持つデータポイントに対する意思決定を含むものもある。 このような設定では、選択されたソリューションがこの属性に対してかなり分散していることを保証することが重要です。 近年,ストリーミング設定とオフライン設定の両方において,濃度制約の下でのサブモジュラー最大化についてフェアネスが研究されているが,マトロイド制約に関するより一般的な問題はストリーミング設定においてのみ考慮されており,モノトーン目的のみである。 この仕事はこのギャップを埋める。 本稿では,品質,公平性,汎用性に異なるトレードオフをもたらす様々なアルゴリズムと不合理性の結果を提案する。

Submodular maximization over a matroid constraint is a fundamental problem with various applications in machine learning. Some of these applications involve decision-making over datapoints with sensitive attributes such as gender or race. In such settings, it is crucial to guarantee that the selected solution is fairly distributed with respect to this attribute. Recently, fairness has been investigated in submodular maximization under a cardinality constraint in both the streaming and offline settings, however the more general problem with matroid constraint has only been considered in the streaming setting and only for monotone objectives. This work fills this gap. We propose various algorithms and impossibility results offering different trade-offs between quality, fairness, and generality.
翻訳日:2023-12-25 16:50:14 公開日:2023-12-21
# ヒューマンAIチームのためのマルチエージェント推論に基づく強化学習のベンチマーク

Benchmarking Multi-Agent Preference-based Reinforcement Learning for Human-AI Teaming ( http://arxiv.org/abs/2312.14292v1 )

ライセンス: Link先を確認
Siddhant Bhambri, Mudit Verma, Anil Murthy, Subbarao Kambhampati(参考訳) 嗜好に基づく強化学習(PbRL)は研究の活発な領域であり、シングルエージェントアクターや観察者のループシナリオにおいて大きな進歩を遂げている。 しかし, エージェント行動の嗜好を積極的に参加し, 表現する, 協調的マルチエージェントRLフレームワークへの応用は, ほとんど未完成のままである。 我々は,両エージェントがチームに対する報酬機能に応じて報酬を受ける2エージェント(人間-ai)協調設定を検討する。 しかし、エージェントはそれにアクセスできず、代わりに、人間ロボットチームにおけるロボットの目的と人間の好みを引き出すために、好みに基づくクエリを利用する。 我々は、ヒューマン・フレキシビリティの概念、すなわち、人間のパートナーが複数のチーム戦略に適応できるかどうか、特に、人間が1つのチームポリシーを念頭に置いて(ほとんどが制約されたケース)、特定のオーケストレーションである、という概念を紹介します。 我々は,PbRLを強制的な協調を必要とする,人間とAIの協調作業のための一組のドメインを提案する。 最先端のシングルエージェントPbRLアルゴリズムを2エージェント設定に適用し、ドメインスイート全体にわたって包括的なベンチマーク調査を行います。 本研究は,PbRLにおける高い柔軟性の確保と,PbRLにおける人間とAIの連携に関する政策への限定的アクセスに関する課題を明らかにする。 特に、PbRLアルゴリズムは、特定オーケストレーションの場合のみに有効な性能を示しており、これは将来の研究において上界のPbRL性能と見なすことができる。

Preference-based Reinforcement Learning (PbRL) is an active area of research, and has made significant strides in single-agent actor and in observer human-in-the-loop scenarios. However, its application within the co-operative multi-agent RL frameworks, where humans actively participate and express preferences for agent behavior, remains largely uncharted. We consider a two-agent (Human-AI) cooperative setup where both the agents are rewarded according to human's reward function for the team. However, the agent does not have access to it, and instead, utilizes preference-based queries to elicit its objectives and human's preferences for the robot in the human-robot team. We introduce the notion of Human-Flexibility, i.e. whether the human partner is amenable to multiple team strategies, with a special case being Specified Orchestration where the human has a single team policy in mind (most constrained case). We propose a suite of domains to study PbRL for Human-AI cooperative setup which explicitly require forced cooperation. Adapting state-of-the-art single-agent PbRL algorithms to our two-agent setting, we conduct a comprehensive benchmarking study across our domain suite. Our findings highlight the challenges associated with high degree of Human-Flexibility and the limited access to the human's envisioned policy in PbRL for Human-AI cooperation. Notably, we observe that PbRL algorithms exhibit effective performance exclusively in the case of Specified Orchestration which can be seen as an upper bound PbRL performance for future research.
翻訳日:2023-12-25 16:50:01 公開日:2023-12-21
# 非平衡量子貯水池の元素から散乱する光量子場モードの熱平衡、絡み合い、非古典性へのアプローチに関する厳密な研究

Rigorous results on approach to thermal equilibrium, entanglement, and nonclassicality of an optical quantum field mode scattering from the elements of a non-equilibrium quantum reservoir ( http://arxiv.org/abs/2312.14290v1 )

ライセンス: Link先を確認
Stephan De Bievre, Marco Merkli, Paul E. Parris(参考訳) 大きな孤立系の個々の元素の任意の初期状態から始まる熱平衡状態へのアプローチの厳密な導出は極めて稀である。 これは特に量子力学系に当てはまる。 ここでは、繰り返し散乱のメカニズムを通じて、このタイプの平衡へのアプローチが、実際に特定の量子系で発生し、以前に研究されたいくつかの古典モデルの自然量子アナログと見なすことができる。 特に,同一周波数のシーケンシャルな多数のモードからなる貯水池を通過する光モードについて検討し,それぞれがビームスプリッタを介して相互作用する。 次に、このモードの漸近状態が、貯水池モードの仮定された定常共通初期状態$\sigma$とビームスプリッターの透過率$\tau=\cos\lambda$に対する依存性を分析する。 これらの結果は、小さな$\lambda$でそのようなモードが任意の初期システム状態から$\rho$から始まり、貯水池モードが初期熱化されていない場合でも熱平衡状態に近づくことを証明できる。 また,初期状態が純粋である場合には,光学モードの漸近状態が貯水池と最大に絡み合っており,貯水池モードの状態よりも非古典性が小さいことを示す。

Rigorous derivations of the approach of individual elements of large isolated systems to a state of thermal equilibrium, starting from arbitrary initial states, are exceedingly rare. This is particularly true for quantum mechanical systems. We demonstrate here how, through a mechanism of repeated scattering, an approach to equilibrium of this type actually occurs in a specific quantum system, one that can be viewed as a natural quantum analog of several previously studied classical models. In particular, we consider an optical mode passing through a reservoir composed of a large number of sequentially-encountered modes of the same frequency, each of which it interacts with through a beam splitter. We then analyze the dependence of the asymptotic state of this mode on the assumed stationary common initial state $\sigma$ of the reservoir modes and on the transmittance $\tau=\cos\lambda$ of the beam splitters. These results allow us to establish that at small $\lambda$ such a mode will, starting from an arbitrary initial system state $\rho$, approach a state of thermal equilibrium even when the reservoir modes are not themselves initially thermalized. We show in addition that, when the initial states are pure, the asymptotic state of the optical mode is maximally entangled with the reservoir and exhibits less nonclassicality than the state of the reservoir modes.
翻訳日:2023-12-25 16:49:34 公開日:2023-12-21
# タスク依存型神経多様体を用いた生物・人工ニューラルネットワークの探索

Probing Biological and Artificial Neural Networks with Task-dependent Neural Manifolds ( http://arxiv.org/abs/2312.14285v1 )

ライセンス: Link先を確認
Michael Kuoch, Chi-Ning Chou, Nikhil Parthasarathy, Joel Dapello, James J. DiCarlo, Haim Sompolinsky, SueYeon Chung(参考訳) 近年,生体および人工ニューラルネットワークにおける計算の理解度は,低レベルの機械工学的研究か,あるいはグローバル規範的アプローチによって大きく向上している。 しかし、これらの抽象レベル間のギャップを埋める具体的な手法はいまだ解明されていない。 本研究では,そのギャップを橋渡しする手段として,中間的な抽象レベルでの理解を提供することを目的として,神経集団幾何学のレンズを通して,ニューラルネットワークの内部機構について検討する。 高次元統計量から統計物理学および多様体アライメント解析(MAA)から多様体容量理論(MCT)を応用し、ディープニューラルネットワークおよびマカクニューラル記録におけるタスク依存多様体の基盤構造を考察する。 具体的には,これらのモデルの組織戦略の違いによる学習目標の差異を定量的に評価し,これらの幾何学的分析が課題関連情報の認知可能性とどのように結びついているかを示す。 これらの分析は、ニューラルネットワークの機械論と規範理論をニューラルネットワークの集団幾何学を通して橋渡しするための強い方向を示しており、機械学習と神経科学の両方の将来の研究の道を開く可能性がある。

Recently, growth in our understanding of the computations performed in both biological and artificial neural networks has largely been driven by either low-level mechanistic studies or global normative approaches. However, concrete methodologies for bridging the gap between these levels of abstraction remain elusive. In this work, we investigate the internal mechanisms of neural networks through the lens of neural population geometry, aiming to provide understanding at an intermediate level of abstraction, as a way to bridge that gap. Utilizing manifold capacity theory (MCT) from statistical physics and manifold alignment analysis (MAA) from high-dimensional statistics, we probe the underlying organization of task-dependent manifolds in deep neural networks and macaque neural recordings. Specifically, we quantitatively characterize how different learning objectives lead to differences in the organizational strategies of these models and demonstrate how these geometric analyses are connected to the decodability of task-relevant information. These analyses present a strong direction for bridging mechanistic and normative theories in neural networks through neural population geometry, potentially opening up many future research avenues in both machine learning and neuroscience.
翻訳日:2023-12-25 16:49:09 公開日:2023-12-21
# ガウス過程のぼやけ効果による細粒度予測モデル

Fine-grained Forecasting Models Via Gaussian Process Blurring Effect ( http://arxiv.org/abs/2312.14280v1 )

ライセンス: Link先を確認
Sepideh Koohfar and Laura Dietz(参考訳) 時系列予測は、複雑でダイナミックな時間依存が存在するため、困難なタスクである。 これは、最高の予測モデルでさえ、誤った予測につながる可能性がある。 より多くのトレーニングデータを使用することで精度が向上するが、このソースは制限されることが多い。 対照的に、私たちは、エンドツーエンドの予測と推論のパラダイムを提唱することで、画像生成のデノイジングアプローチを成功させています。 本稿では,予測モデルと分別モデルの間での作業分担を奨励し,エンドツーエンドの予測・ブルール・デノエーズ予測フレームワークを提案する。 初期予測モデルは粗粒度を正確に予測することに集中し、デノイザーモデルはガウス過程モデルを統合することで局所的にぼやけた粒度の挙動を捉えることに重点を置いている。 3つのパートはすべて、最高のエンドツーエンドパフォーマンスのために相互作用しています。 提案手法は,いくつかの最先端予測モデルの予測精度を向上し,他の予測手法も改善可能であることを示す。

Time series forecasting is a challenging task due to the existence of complex and dynamic temporal dependencies. This can lead to incorrect predictions by even the best forecasting models. Using more training data is one way to improve the accuracy, but this source is often limited. In contrast, we are building on successful denoising approaches for image generation by advocating for an end-to-end forecasting and denoising paradigm. We propose an end-to-end forecast-blur-denoise forecasting framework by encouraging a division of labors between the forecasting and the denoising models. The initial forecasting model is directed to focus on accurately predicting the coarse-grained behavior, while the denoiser model focuses on capturing the fine-grained behavior that is locally blurred by integrating a Gaussian Process model. All three parts are interacting for the best end-to-end performance. Our extensive experiments demonstrate that our proposed approach is able to improve the forecasting accuracy of several state-of-the-art forecasting models as well as several other denoising approaches.
翻訳日:2023-12-25 16:48:49 公開日:2023-12-21
# 開発者フォーラム投稿の意図による特徴付けと分類

Characterizing and Classifying Developer Forum Posts with their Intentions ( http://arxiv.org/abs/2312.14279v1 )

ライセンス: Link先を確認
Xingfang Wu, Eric Laufer, Heng Li, Foutse Khomh, Santhosh Srinivasan, Jayden Luo(参考訳) 開発者コミュニティの急速な成長に伴い、オンライン技術フォーラムの投稿数は急速に増加しており、ユーザーが有用な投稿をフィルタリングして重要な情報を見つけるのが困難になっている。 タグは、ユーザーが興味のある投稿を見つけるための簡潔な機能ディメンションを提供し、検索エンジンはクエリに応じて最も関連する投稿をインデックスする。 しかし、ほとんどのタグは技術的な観点(プログラム言語、プラットフォーム、ツールなど)にのみ焦点が当てられている。 多くの場合、オンライン開発者コミュニティのフォーラム投稿は、問題の解決やアドバイス、情報共有といった著者の意図を明らかにしている。 ポストの意図のモデル化は、現在のタグ分類に余分な次元を与えることができる。 産業的観点からの先行研究と学習を参考に,技術フォーラム投稿の意図を洗練した分類法を作成する。 オンラインフォーラムから抽出したサンプルポストデータセットのラベリングと分析により,ポストの構成(コード,エラーメッセージ)とそれらの意図との関係を解明する。 さらに,手動による研究に触発されて,姿勢を自動的に予測する事前学習型トランスフォーマーモデルの設計を行った。 マイクロf1-スコア0.589、トップ1-3の精度62.6%から87.8%、平均的なauc 0.787を達成する意図予測フレームワークの最良の変種は、最先端のベースラインアプローチを上回っている。 フォーラムのメンテナやサードパーティのツール開発者が、テクニカルフォーラムの投稿の整理や検索を改善する上で、フォーラム投稿の意図に関する特性と自動分類が役立ちます。 補足資料パッケージに注釈付きデータセットとコードをリリースしました。

With the rapid growth of the developer community, the amount of posts on online technical forums has been growing rapidly, which poses difficulties for users to filter useful posts and find important information. Tags provide a concise feature dimension for users to locate their interested posts and for search engines to index the most relevant posts according to the queries. However, most tags are only focused on the technical perspective (e.g., program language, platform, tool). In most cases, forum posts in online developer communities reveal the author's intentions to solve a problem, ask for advice, share information, etc. The modeling of the intentions of posts can provide an extra dimension to the current tag taxonomy. By referencing previous studies and learning from industrial perspectives, we create a refined taxonomy for the intentions of technical forum posts. Through manual labeling and analysis on a sampled post dataset extracted from online forums, we understand the relevance between the constitution of posts (code, error messages) and their intentions. Furthermore, inspired by our manual study, we design a pre-trained transformer-based model to automatically predict post intentions. The best variant of our intention prediction framework, which achieves a Micro F1-score of 0.589, Top 1-3 accuracy of 62.6% to 87.8%, and an average AUC of 0.787, outperforms the state-of-the-art baseline approach. Our characterization and automated classification of forum posts regarding their intentions may help forum maintainers or third-party tool developers improve the organization and retrieval of posts on technical forums. We have released our annotated dataset and codes in our supplementary material package.
翻訳日:2023-12-25 16:48:34 公開日:2023-12-21
# 任意次元上の任意の順序のディープニューラルネットワークと有限要素

Deep Neural Networks and Finite Elements of Any Order on Arbitrary Dimensions ( http://arxiv.org/abs/2312.14276v1 )

ライセンス: Link先を確認
Juncai He, Jinchao Xu(参考訳) 本研究では,reluおよびrelu$^2$アクティベーション関数を用いた深層ニューラルネットワークが,任意の次元にまたがる単純メッシュ上の任意の順序のラグランジュ有限要素関数を表現できることを示す。 これらの要素の幾何学的分解に基礎を置き、高次元のsimplicial mesh とbarycentric coordinate function の2つの本質的な性質を利用する、ラグランジュ要素の基底関数の新たなグローバルな定式化を導入する。 この表現理論は、そのようなディープニューラルネットワークの自然な近似結果を促進する。 本研究は,ディープニューラルネットワークが一般連続分節多項式関数を体系的に生成できることを示す最初の例である。

In this study, we establish that deep neural networks employing ReLU and ReLU$^2$ activation functions are capable of representing Lagrange finite element functions of any order on simplicial meshes across arbitrary dimensions. We introduce a novel global formulation of the basis functions for Lagrange elements, grounded in a geometric decomposition of these elements and leveraging two essential properties of high-dimensional simplicial meshes and barycentric coordinate functions. This representation theory facilitates a natural approximation result for such deep neural networks. Our findings present the first demonstration of how deep neural networks can systematically generate general continuous piecewise polynomial functions.
翻訳日:2023-12-25 16:48:07 公開日:2023-12-21
# 磁気トンネル接合を用いたランダムアクセスメモリの実証実験

Experimental demonstration of magnetic tunnel junction-based computational random-access memory ( http://arxiv.org/abs/2312.14264v1 )

ライセンス: Link先を確認
Yang Lv, Brandon R. Zink, Robert P. Bloom, H\"usrev C{\i}lasun, Pravin Khanal, Salonik Resch, Zamshed Chowdhury, Ali Habiboglu, Weigang Wang, Sachin S. Sapatnekar, Ulya Karpuczu, Jian-Ping Wang(参考訳) 従来のコンピューティングパラダイムは、ロジックとメモリモジュール間の一定のデータ転送によって電力とエネルギーが消費されるため、新興アプリケーション、特にマシンインテリジェンスに対する要求が急速に増大している。 計算ランダムアクセスメモリ(CRAM)と呼ばれる新しいパラダイムが、この基本的な制限に対処するために登場した。 CRAMは、データがメモリを離れることなく、メモリセルを直接使用するロジック操作を実行する。 従来および新興のアプリケーションにおけるクラムのエネルギーと性能の利点は、事前の数値的研究によってよく確立されている。 しかし、CRAMの計算精度を評価するための実験的実証や研究は欠けており、これはその技術的実現可能性と競争性のための現実的でアプリケーションクリティカルな指標である。 本研究では,磁気トンネル接合(MTJ)に基づくCRAMアレイ実験を行った。 まず,基本メモリ操作と2-,3,5入力論理演算について検討した。 次に、2つの異なる設計の1ビットフル加算器を示す。 実験結果に基づいて,CRAM計算の精度を特徴付けるためのモデリングスイートが開発された。 スカラー加算、乗算、行列乗算のさらなる分析は有望な結果を示している。 これらの結果は、アプリケーションパフォーマンスとさらなるmtj開発との関係を示す例として、ニューラルネットワークベースの手書き桁分類器(hand written digit classificationifier)という完全なアプリケーションに適用されます。 分類器はほぼ完全な分類精度を達成し、将来のMTJ開発を合理的に予測した。 MTJベースのCRAMの精度の確認により、この技術が機械知能の電力およびエネルギー需要の応用に大きな影響を与えるという強いケースがある。

Conventional computing paradigm struggles to fulfill the rapidly growing demands from emerging applications, especially those for machine intelligence, because much of the power and energy is consumed by constant data transfers between logic and memory modules. A new paradigm, called "computational random-access memory (CRAM)" has emerged to address this fundamental limitation. CRAM performs logic operations directly using the memory cells themselves, without having the data ever leave the memory. The energy and performance benefits of CRAM for both conventional and emerging applications have been well established by prior numerical studies. However, there lacks an experimental demonstration and study of CRAM to evaluate its computation accuracy, which is a realistic and application-critical metrics for its technological feasibility and competitiveness. In this work, a CRAM array based on magnetic tunnel junctions (MTJs) is experimentally demonstrated. First, basic memory operations as well as 2-, 3-, and 5-input logic operations are studied. Then, a 1-bit full adder with two different designs is demonstrated. Based on the experimental results, a suite of modeling has been developed to characterize the accuracy of CRAM computation. Further analysis of scalar addition, multiplication, and matrix multiplication shows promising results. These results are then applied to a complete application: a neural network based handwritten digit classifier, as an example to show the connection between the application performance and further MTJ development. The classifier achieved almost-perfect classification accuracy, with reasonable projections of future MTJ development. With the confirmation of MTJ-based CRAM's accuracy, there is a strong case that this technology will have a significant impact on power- and energy-demanding applications of machine intelligence.
翻訳日:2023-12-25 16:47:54 公開日:2023-12-21
# ジェネレーティブAIとソフトウェア開発の交差点を探る

Exploring the intersection of Generative AI and Software Development ( http://arxiv.org/abs/2312.14262v1 )

ライセンス: Link先を確認
Filipe Calegario, Vanilson Bur\'egio, Francisco Erivaldo, Daniel Moraes Costa Andrade, Kailane Felix, Nathalia Barbosa, Pedro Lucas da Silva Lucena, C\'esar Fran\c{c}a(参考訳) 進化を続ける人工知能(AI)の世界では、生成AIとソフトウェアエンジニアリングの相乗効果が変革的なフロンティアとして現れます。 このホワイトペーパーは未開発の領域に入り込み、生成的なai技術がソフトウェア開発にどのように革命をもたらすかを解明する。 プロジェクト管理からサポートと更新まで、私たちは、各開発ステージの要求を慎重にマッピングし、それらに対応するための生成AIの可能性を明らかにします。 zero-shot prompting、self-consistency、multimodal chain-of-thoughtなどの技術が研究され、生成型aiモデルの拡張における独自の能力を示している。 ベクトル埋め込み、コンテキスト、プラグイン、ツール、コードアシスタントの重要性は、意味情報をキャプチャし、生成AI能力を増幅する彼らの役割を強調している。 この交差点は、生産性の向上、コード品質の改善、ソフトウェア開発プロセスの合理化を約束します。 このホワイトペーパーはステークホルダーのためのガイドとして機能し、ソフトウェア工学における生成AIの適用に関する議論と実験を奨励し、ソフトウェア開発の効率性と効果の質的な飛躍のためにイノベーションとコラボレーションを促進する。

In the ever-evolving landscape of Artificial Intelligence (AI), the synergy between generative AI and Software Engineering emerges as a transformative frontier. This whitepaper delves into the unexplored realm, elucidating how generative AI techniques can revolutionize software development. Spanning from project management to support and updates, we meticulously map the demands of each development stage and unveil the potential of generative AI in addressing them. Techniques such as zero-shot prompting, self-consistency, and multimodal chain-of-thought are explored, showcasing their unique capabilities in enhancing generative AI models. The significance of vector embeddings, context, plugins, tools, and code assistants is underscored, emphasizing their role in capturing semantic information and amplifying generative AI capabilities. Looking ahead, this intersection promises to elevate productivity, improve code quality, and streamline the software development process. This whitepaper serves as a guide for stakeholders, urging discussions and experiments in the application of generative AI in Software Engineering, fostering innovation and collaboration for a qualitative leap in the efficiency and effectiveness of software development.
翻訳日:2023-12-25 16:47:11 公開日:2023-12-21
# 文脈認識デコードによるクエリ中心の要約における幻覚の低減

Context-aware Decoding Reduces Hallucination in Query-focused Summarization ( http://arxiv.org/abs/2312.14335v1 )

ライセンス: Link先を確認
Zhichao Xu(参考訳) query-focused summarization (qfs) は、与えられたクエリの情報ニーズを満たす単一のドキュメント/マルチドキュメントの要約を提供することを目的としている。 抽象スニペット生成やより最近の検索拡張生成(RAG)など、現実世界の様々なアプリケーションに有用である。 原型的なqfsパイプラインは、レトリバー(疎検索または密検索)とジェネレータ(通常、大きな言語モデル)から構成される。 しかし、大きな言語モデル(LLM)を適用すると、特にその証拠が以前のLLMの信念と矛盾する場合、幻覚につながる可能性がある。 世代品質を改善し幻覚を減少させる新しい復号法の開発に関心が高まっている。 本研究では,最近提案された1つの復号法であるコンテキスト認識復号法(CAD)について,大規模な再現性を実現する。 ニュース要約データセットに関するCADの実験の複製に加えて、QFSデータセットの実験も含み、計算複雑性とハイパーパラメータ感度に関するより厳密な分析を行う。 8つの異なる言語モデルを用いた実験により,CADは(1)事実性エラー/幻覚の低減,(2)ROUGEスコアによる語彙パターンの一致の維持,さらには推論時間FLOPの増大と復号速度の低減によるQFS品質の向上が示された。 Huggingface Libraryに基づくコード実装はhttps://github.com/zhichaoxu-shufe/context-aware-decoding-qfsで利用可能である。

Query-focused summarization (QFS) aims to provide a summary of a single document/multi documents that can satisfy the information needs of a given query. It is useful for various real-world applications, such as abstractive snippet generation or more recent retrieval augmented generation (RAG). A prototypical QFS pipeline consists of a retriever (sparse or dense retrieval) and a generator (usually a large language model). However, applying large language models (LLM) potentially leads to hallucinations, especially when the evidence contradicts the prior belief of LLMs. There has been growing interest in developing new decoding methods to improve generation quality and reduce hallucination. In this work, we conduct a large-scale reproducibility on one recently proposed decoding method -- Context-aware Decoding (CAD). In addition to replicating CAD's experiments on news summarization datasets, we include experiments on QFS datasets, and conduct more rigorous analysis on computational complexity and hyperparameter sensitivity. Experiments with eight different language models show that performance-wise, CAD improves QFS quality by (1) reducing factuality errors/hallucinations while (2) mostly retaining the match of lexical patterns, measured by ROUGE scores, while also at a cost of increased inference-time FLOPs and reduced decoding speed. The code implementation based on Huggingface Library is made available https://github.com/zhichaoxu-shufe/context-aware-decoding-qfs
翻訳日:2023-12-25 16:38:39 公開日:2023-12-21
# dp-adambc:あなたのdp-adamは実際にはdp-sgdです(バイアス補正を適用しない限り)

DP-AdamBC: Your DP-Adam Is Actually DP-SGD (Unless You Apply Bias Correction) ( http://arxiv.org/abs/2312.14334v1 )

ライセンス: Link先を確認
Qiaoyue Tang, Frederick Shpilevskiy, Mathias L\'ecuyer(参考訳) adamオプティマイザは、その強力な経験的パフォーマンスのために、現代のディープラーニングで人気のある選択肢である。 しかし、プライバシーに敏感なシナリオでは、Adamオプティマイザを用いた従来の微分プライバシ(DP)の使用は、いくつかのタスクにおいてサブ最適パフォーマンスをもたらす。 この性能低下はアダムの第二モーメント推定器におけるdpバイアスが原因であり、勾配計算における独立ノイズの追加によってdp保証が強制される。 このDPバイアスは、非プライベートAdamの振る舞いと矛盾する低分散パラメータ更新のための異なるスケーリングをもたらす。 本稿では,第2モーメント推定におけるバイアスを除去し,Adamの期待挙動を検索する最適化アルゴリズムDP-AdamBCを提案する。 DP-AdamBCは、画像、テキスト、グラフノードの分類タスクにおいて、DP-Adamの最適化性能を最大3.5%向上させる。

The Adam optimizer is a popular choice in contemporary deep learning, due to its strong empirical performance. However we observe that in privacy sensitive scenarios, the traditional use of Differential Privacy (DP) with the Adam optimizer leads to sub-optimal performance on several tasks. We find that this performance degradation is due to a DP bias in Adam's second moment estimator, introduced by the addition of independent noise in the gradient computation to enforce DP guarantees. This DP bias leads to a different scaling for low variance parameter updates, that is inconsistent with the behavior of non-private Adam. We propose DP-AdamBC, an optimization algorithm which removes the bias in the second moment estimation and retrieves the expected behaviour of Adam. Empirically, DP-AdamBC significantly improves the optimization performance of DP-Adam by up to 3.5% in final accuracy in image, text, and graph node classification tasks.
翻訳日:2023-12-25 16:38:13 公開日:2023-12-21
# 因果構造発見とグラフニューラルネットワークによる社会動物の行動モデリング

Behaviour Modelling of Social Animals via Causal Structure Discovery and Graph Neural Networks ( http://arxiv.org/abs/2312.14333v1 )

ライセンス: Link先を確認
Ga\"el Gendron, Yang Chen, Mitchell Rogers, Yiping Liu, Mihailo Azhar, Shahrokh Heidari, David Arturo Soriano Valdez, Kobe Knowles, Padriac O'Leary, Simon Eyre, Michael Witbrock, Gillian Dobbie, Jiamou Liu and Patrice Delmas(参考訳) 自然界をより深く理解することは、幅広いアプリケーションにおいて重要なタスクです。 人間と動物、例えば動物園との距離が近い環境では、動物行動の原因や行動の変化にどのような介入が関与するかをよりよく理解することが不可欠である。 これは異常な行動を予測し、有害な影響を軽減し、動物の健康を高めるのに役立つ。 鳥類や昆虫の群れの背後にある力学をモデル化する研究は行われているが、哺乳類群の複雑な社会行動はいまだに解明されていない。 本研究では,時系列の因果構造発見とグラフニューラルネットワークを用いて行動モデルを構築する手法を提案する。 本手法を動物園環境におけるメスカットの群集に適用し,将来の行動を予測する能力と個体レベルでの行動分布をモデル化する能力について検討する。 提案手法は標準ディープラーニングアーキテクチャに適合し,よりリアルなデータを生成するとともに,パラメータが少なく,解釈可能性も向上することを示す。

Better understanding the natural world is a crucial task with a wide range of applications. In environments with close proximity between humans and animals, such as zoos, it is essential to better understand the causes behind animal behaviour and what interventions are responsible for changes in their behaviours. This can help to predict unusual behaviours, mitigate detrimental effects and increase the well-being of animals. There has been work on modelling the dynamics behind swarms of birds and insects but the complex social behaviours of mammalian groups remain less explored. In this work, we propose a method to build behavioural models using causal structure discovery and graph neural networks for time series. We apply this method to a mob of meerkats in a zoo environment and study its ability to predict future actions and model the behaviour distribution at an individual-level and at a group level. We show that our method can match and outperform standard deep learning architectures and generate more realistic data, while using fewer parameters and providing increased interpretability.
翻訳日:2023-12-25 16:37:57 公開日:2023-12-21
# ソフトQ学習による最大エントロピーGFlowNets

Maximum entropy GFlowNets with soft Q-learning ( http://arxiv.org/abs/2312.14331v1 )

ライセンス: Link先を確認
Sobhan Mohammadpour and Emmanuel Bengio and Emma Frejinger and Pierre-Luc Bacon(参考訳) Generative Flow Networks (GFNs) は、非正規分布から離散オブジェクトをサンプリングする強力なツールとして登場し、Markov Chain Monte Carlo (MCMC) 法に代わるスケーラブルな代替手段を提供している。 gfnsは最大エントロピー強化学習(rl)から着想を得ているが、この2つの関係は、特定のケースのみに適用できるため、ほとんど不明である。 本稿では,適切な報酬関数を構築することで,gfnsと最大エントロピーrlの正確な関係を確立する。 この構成により、一様後方方針を持つGFNとは対照的に、状態空間に制約を加えることなくGFNが達成できる最大エントロピーを実現することができる。

Generative Flow Networks (GFNs) have emerged as a powerful tool for sampling discrete objects from unnormalized distributions, offering a scalable alternative to Markov Chain Monte Carlo (MCMC) methods. While GFNs draw inspiration from maximum entropy reinforcement learning (RL), the connection between the two has largely been unclear and seemingly applicable only in specific cases. This paper addresses the connection by constructing an appropriate reward function, thereby establishing an exact relationship between GFNs and maximum entropy RL. This construction allows us to introduce maximum entropy GFNs, which, in contrast to GFNs with uniform backward policy, achieve the maximum entropy attainable by GFNs without constraints on the state space.
翻訳日:2023-12-25 16:37:39 公開日:2023-12-21
# 分布シフト下における不変異常検出:因果的視点

Invariant Anomaly Detection under Distribution Shifts: A Causal Perspective ( http://arxiv.org/abs/2312.14329v1 )

ライセンス: Link先を確認
Jo\~ao B. S. Carvalho, Mengtao Zhang, Robin Geyer, Carlos Cotrini, Joachim M. Buhmann(参考訳) 異常検出(anomaly detection, aad)は、正常なトレーニングサンプルの一貫性のみを頼りに異常サンプルを識別する機械学習タスクである。 分散シフトの制約の下では、トレーニングサンプルとテストサンプルが同じ分布から引き出されるという仮定が崩壊する。 本研究では,因果推論からツールを活用することで,異常検出モデルのレジリエンスを,異なる種類の分布シフトに高めようとする。 まず、整域と共変量シフトの両方においてロバスト ad にとって重要である不変表現を保証する単純で必要な統計特性を解明する。 この性質から、最小化されると環境間の部分分布不変性をもたらす正規化項を導出する。 6種類の異なる広告方法をカバーする合成および実世界のタスクを広範囲に実験的に評価した結果,分散性能が大幅に向上した。 共変量とドメインシフトの両条件で,提案項に規則化されたモデルでは,ロバスト性が顕著に向上した。 コードは、https://github.com/joaocarv/invariant-anomaly-detectionで入手できる。

Anomaly detection (AD) is the machine learning task of identifying highly discrepant abnormal samples by solely relying on the consistency of the normal training samples. Under the constraints of a distribution shift, the assumption that training samples and test samples are drawn from the same distribution breaks down. In this work, by leveraging tools from causal inference we attempt to increase the resilience of anomaly detection models to different kinds of distribution shifts. We begin by elucidating a simple yet necessary statistical property that ensures invariant representations, which is critical for robust AD under both domain and covariate shifts. From this property, we derive a regularization term which, when minimized, leads to partial distribution invariance across environments. Through extensive experimental evaluation on both synthetic and real-world tasks, covering a range of six different AD methods, we demonstrated significant improvements in out-of-distribution performance. Under both covariate and domain shift, models regularized with our proposed term showed marked increased robustness. Code is available at: https://github.com/JoaoCarv/invariant-anomaly-detection.
翻訳日:2023-12-25 16:37:25 公開日:2023-12-21
# テキスト入力のためのLLMのスケーラブルなパーソナライズを可能にするパラメータ効率的なチューニング:省略拡大の一事例

Parameter Efficient Tuning Allows Scalable Personalization of LLMs for Text Entry: A Case Study on Abbreviation Expansion ( http://arxiv.org/abs/2312.14327v1 )

ライセンス: Link先を確認
Katrin Tomanek, Shanqing Cai, Subhashini Venugopalan(参考訳) 省略拡張は、入力量を制限し、言語モデルを使用して拡張を提案することによって通信を高速化する戦略である。 ここでは,先行会話に基づく大規模言語モデル(llm)の提案をパーソナライズして,特にユーザデータが小さければ(約1000サンプル),予測の妥当性を高めることを検討する。 具体的には、短縮入力のための拡張テキスト提案の微調整、即時調整、検索の強化生成を比較した。 8bパラメータllmをalsに配置したケーススタディと,映画キャラクタのパーソナライゼーション実験から,(1)いくつかのシナリオにおいてカスタマイズが必要であること,(2)ドメイン内データの微調整(600サンプル未満)は依然としてメリットがあるが,(3)拡張された少数ショット選択の検索は,微調整よりも優れることが示唆された。 (4) パラメータ効率のよいチューニングは、効率的でスケーラブルなパーソナライズを可能にする。 また,学習した"ソフトプロンプト"をユーザに関連する概念トークンに初期化すると,ランダムな初期化よりも高い精度が得られることがわかった。

Abbreviation expansion is a strategy used to speed up communication by limiting the amount of typing and using a language model to suggest expansions. Here we look at personalizing a Large Language Model's (LLM) suggestions based on prior conversations to enhance the relevance of predictions, particularly when the user data is small (~1000 samples). Specifically, we compare fine-tuning, prompt-tuning, and retrieval augmented generation of expanded text suggestions for abbreviated inputs. Our case study with a deployed 8B parameter LLM on a real user living with ALS, and experiments on movie character personalization indicates that (1) customization may be necessary in some scenarios and prompt-tuning generalizes well to those, (2) fine-tuning on in-domain data (with as few as 600 samples) still shows some gains, however (3) retrieval augmented few-shot selection also outperforms fine-tuning. (4) Parameter efficient tuning allows for efficient and scalable personalization. For prompt-tuning, we also find that initializing the learned "soft-prompts" to user relevant concept tokens leads to higher accuracy than random initialization.
翻訳日:2023-12-25 16:37:05 公開日:2023-12-21
# 量子ドットデバイス自動化におけるデータニーズと課題:ワークショップ報告

Data Needs and Challenges of Quantum Dot Devices Automation: Workshop Report ( http://arxiv.org/abs/2312.14322v1 )

ライセンス: Link先を確認
Justyna P. Zwolak, Jacob M. Taylor, Reed Andrews, Jared Benson, Garnett Bryant, Donovan Buterakos, Anasua Chatterjee, Sankar Das Sarma, Mark A. Eriksson, Eli\v{s}ka Greplov\'a, Michael J. Gullans, Fabian Hader, Tyler J. Kovach, Pranav S. Mundada, Mick Ramsey, Torbjoern Rasmussen, Brandon Severin, Anthony Sigillito, Brennan Undseth, and Brian Weber(参考訳) ゲート定義量子ドットは、スケーラブルで結合された量子ビットシステムを実現し、量子コンピュータの基本構成要素として機能する有望な候補システムである。 しかし、現在の量子ドットデバイスは、特性評価、チューニング、および操作プロセスを妨げるため、考慮しなければならない不完全さに苦しむ。 さらに量子ドット量子ビット数の増加に伴い、関連するパラメータ空間が十分に増大し、ヒューリスティック制御が実現できなくなる。 したがって、信頼性が高くスケーラブルな自律チューニング手法が開発されることが不可欠である。 本稿では,量子ドットデバイスのチューニングと動作を自動化する際の課題を,データセット,ベンチマーク,標準化を中心に概説する。 また、量子ドットコミュニティが提案する、量子ドットの克服方法に関するアイデアも提示する。

Gate-defined quantum dots are a promising candidate system to realize scalable, coupled qubit systems and serve as a fundamental building block for quantum computers. However, present-day quantum dot devices suffer from imperfections that must be accounted for, which hinders the characterization, tuning, and operation process. Moreover, with an increasing number of quantum dot qubits, the relevant parameter space grows sufficiently to make heuristic control infeasible. Thus, it is imperative that reliable and scalable autonomous tuning approaches are developed. In this report, we outline current challenges in automating quantum dot device tuning and operation with a particular focus on datasets, benchmarking, and standardization. We also present ideas put forward by the quantum dot community on how to overcome them.
翻訳日:2023-12-25 16:36:39 公開日:2023-12-21
# ML駆動型テストケース選択手法による文法的進化の促進

A Novel ML-driven Test Case Selection Approach for Enhancing the Performance of Grammatical Evolution ( http://arxiv.org/abs/2312.14321v1 )

ライセンス: Link先を確認
Krishn Kumar Gupt, Meghana Kshirsagar, Douglas Mota Dias, Joseph P. Sullivan, Conor Ryan(参考訳) 進化的アルゴリズム(EA)のようなメタヒューリスティックスの計算コストは、特にスケールする能力において、しばしば大きな関心事である。 データベースのトレーニングでは、従来のEAは、モデルトレーニングと各世代における適合度評価のために、データセットのかなりの部分を使用する。 これにより、EAは、特に大規模なデータセットを扱う場合、人口の適合度評価中に発生する高い計算コストに悩まされる。 この問題を軽減するために,テストケースの最適化により適合性評価時間を短縮する機械学習(ML)駆動距離ベース選択(DBS)アルゴリズムを提案する。 我々は,Symbolic Regression(SR)とDigital Circuit Domainの24のベンチマーク問題に適用し,次に文法進化(GE)を用いて,縮小データセットを用いたモデルのトレーニングを行う。 GE を用いて SR 上で DBS をテストし、さらにデジタル回路問題でテストするのに十分なフレキシブルなシステムを生成する。 ソリューションの品質をテストし、従来のトレーニング方法と比較し、dbで選択されたトレーニングデータのカバレッジ、すなわち、サブセットがデータセット全体の統計特性にどの程度合っているかを測定する。 さらに、最適化されたトレーニングデータが実行時間と進化したソリューションの有効サイズに与える影響を分析する。 実験および統計的評価により,GE法は,より小さいサイズで(全データセットを用いて)ベースラインに対して優れた,あるいは同等の解が得られることを示すとともに,速度の観点から計算効率を示す。

Computational cost in metaheuristics such as Evolutionary Algorithms (EAs) is often a major concern, particularly with their ability to scale. In data-based training, traditional EAs typically use a significant portion, if not all, of the dataset for model training and fitness evaluation in each generation. This makes EAs suffer from high computational costs incurred during the fitness evaluation of the population, particularly when working with large datasets. To mitigate this issue, we propose a Machine Learning (ML)-driven Distance-based Selection (DBS) algorithm that reduces the fitness evaluation time by optimizing test cases. We test our algorithm by applying it to 24 benchmark problems from Symbolic Regression (SR) and digital circuit domains and then using Grammatical Evolution (GE) to train models using the reduced dataset. We use GE to test DBS on SR and produce a system flexible enough to test it on digital circuit problems further. The quality of the solutions is tested and compared against the conventional training method to measure the coverage of training data selected using DBS, i.e., how well the subset matches the statistical properties of the entire dataset. Moreover, the effect of optimized training data on run time and the effective size of the evolved solutions is analyzed. Experimental and statistical evaluations of the results show our method empowered GE to yield superior or comparable solutions to the baseline (using the full datasets) with smaller sizes and demonstrates computational efficiency in terms of speed.
翻訳日:2023-12-25 16:36:28 公開日:2023-12-21
# 集積ナノフォトニックマイクロリング回路における捕捉原子と超放射

Trapped atoms and superradiance on an integrated nanophotonic microring circuit ( http://arxiv.org/abs/2312.14318v1 )

ライセンス: Link先を確認
Xinchao Zhou, Hikaru Tamura, Tzu-Han Chang, Chen-Lung Hung(参考訳) 寒冷原子とナノフォトニックデバイスの統合により、原子-光相互作用をエンジニアリングするための新しいパラダイムを提供し、量子センシング、メトロロジー、量子情報処理に潜在的にスケーラブルな経路を提供することができる。 しかし、集積ナノフォトニクス回路で大量の冷えた原子を効率的にトラップするのは難しい。 ここでは、ナノフォトニックマイクロリング回路上の光マイクロトラップに100個近い原子のアンサンブルを初めて直接ロードし、トラップ寿命が1秒に近づくことを実証する。 マイクロトラップ内にスピンモーションカップリングを組み込んだ縮退ラマンサイドバンド冷却と、光ポンピングのために自由空間から送信される単一光ビームを用いることにより、効率的なトラップローディングを実現する。 マイクロリング共振器の共振モードにおいて, 捕捉された原子は大きな協調結合と超ラジカル崩壊を示し, 新たな集団効果の探索を約束する。 我々の技術は、様々な量子応用のためにナノフォトニック回路上の大量の冷媒原子をトラップするために拡張することができる。

Interfacing cold atoms with integrated nanophotonic devices could offer new paradigms for engineering atom-light interactions and provide a potentially scalable route for quantum sensing, metrology, and quantum information processing. However, it remains a challenging task to efficiently trap a large ensemble of cold atoms on an integrated nanophotonic circuit. Here, we demonstrate the first direct loading of an ensemble of nearly a hundred atoms into an optical microtrap on a nanophotonic microring circuit, with a trap lifetime approaching one second. Efficient trap loading is achieved by employing degenerate Raman-sideband cooling with a built-in spin-motion coupling in the microtrap and a single optical beam sent from free space for optical pumping. We show that the trapped atoms display large cooperative coupling and superradiant decay into a whispering-gallery mode of the microring resonator, holding promise for explorations of new collective effects. Our technique can be extended to trapping a large ensemble of cold atoms on nanophotonic circuits for various quantum applications.
翻訳日:2023-12-25 16:36:02 公開日:2023-12-21
# 可変開口マイクロキャビティによるダイヤモンド中のゲルマニウム原子価欠陥の寿命低減

Lifetime Reduction of Single Germanium-Vacancy Defects in Diamond via a Tunable Open Microcavity ( http://arxiv.org/abs/2312.14313v1 )

ライセンス: Link先を確認
Rigel Zifkin, C\'esar Daniel Rodr\'iguez-Rosenblueth, Erika Janitz, Yannik Fontana and Lilian Childress(参考訳) 単一量子エミッタと光学キャビティの結合は、将来の量子ネットワークアプリケーションにとって重要な機能である。 ここでは,ダイヤモンド中のゲルマニウム空洞(GeV)欠陥と極低温におけるオープンマイクロキャビティとの相互作用について検討する。 マイクロキャビティシステムのチューナビリティを活用してエミッタの特性と選択を行い,Purcell効果誘起寿命を最大4.5 pm0.3$まで低減し,最大350 pm20$MHzまでのコヒーレント結合率を抽出する。 以上の結果から,GeV欠陥は共振器結合に有利な光学特性を有し,量子効率は0.32\pm0.05$以上である可能性が示唆された。

Coupling between a single quantum emitter and an optical cavity presents a key capability for future quantum networking applications. Here, we explore interactions between individual germanium-vacancy (GeV) defects in diamond and an open microcavity at cryogenic temperatures. Exploiting the tunability of our microcavity system to characterize and select emitters, we observe a Purcell-effect-induced lifetime reduction of up to $4.5\pm0.3$, and extract coherent coupling rates up to $350\pm20$ MHz. Our results indicate that the GeV defect has favorable optical properties for cavity coupling, with a quantum efficiency of at least $0.32\pm0.05$ and likely much higher.
翻訳日:2023-12-25 16:35:42 公開日:2023-12-21
# ダイヤモンド中のElectron-14Nハイブリッドスピンレジスタの高忠実度2量子状態トモグラフィ

High fidelity two-qubit quantum state tomography of Electron-14N hybrid spin register in diamond ( http://arxiv.org/abs/2312.14310v1 )

ライセンス: Link先を確認
Abhishek Shukla, Boo Carmans, Michael Petrov, Daan Vrancken and Milos Nesladek(参考訳) 本稿では、ダイヤモンド中の単一NV中心の14N核スピンの制御とキャラクタリゼーションの大幅な改善と、Ravi実験を用いた量子状態トモグラフィー(quantum state tomography)のキャラクタリゼーションのために考案した新しい手法について報告する。 我々はRabi実験の振幅情報や位相情報を利用するかによって、Rabi振幅量子状態トモグラフィ(RAQST)とRabi位相量子状態トモグラフィ(RPQST)という2つのサブメソッドを定義する。 rabiベースのトモグラフィ手法の利点は、他の方法、特に標準法で使用されるユニタリ操作の要件を解除できることである。 一方、これは大きなレジスタにおけるトモグラフィ実験の複雑さを増大させるものではなく、一方、MW照射による誤差を減少させる。 我々は、RAQSTとRPQSTを用いて、セットアップにおける様々な2ビット純状態の品質を調査した。 予想通り、テスト量子状態は理論状態と非常に高い忠実性を示す。

We report here on a major improvement of the control and characterization capabilities of 14N nuclear spin of single NV centers in diamond, as well as on a new method that we have devised for characterizing quantum states, i.e. quantum state tomography using Rabi experiments. Depending on whether we use amplitude information or phase information from Rabi experiments, we define two sub-methods namely Rabi amplitude quantum state tomography (RAQST) and Rabi phase quantum state tomography (RPQST). The advantage of Rabi-based tomography methods is that they lift the requirement of unitary operations used in other methods in general and standard methods in particular. On one hand, this does not increase the complexity of the tomography experiments in large registers, and on the other hand, it decreases the error induced by MW irradiation. We used RAQST and RPQST to investigate the quality of various two-qubit pure states in our setup. As expected, test quantum states show very high fidelity with the theoretical counterpart.
翻訳日:2023-12-25 16:35:25 公開日:2023-12-21
# Restricted Bernoulli Matrix Factorization: 分類に基づく協調フィルタリングにおける予測精度とカバレッジのトレードオフのバランス

Restricted Bernoulli Matrix Factorization: Balancing the trade-off between prediction accuracy and coverage in classification based collaborative filtering ( http://arxiv.org/abs/2210.10619v2 )

ライセンス: Link先を確認
\'Angel Gonz\'alez-Prieto and Abraham Guti\'errez and Fernando Ortega and Ra\'ul Lara-Cabrera(参考訳) 機械学習モデルの予測に関連する信頼性対策は、人工知能に対するユーザの信頼を高めるために重要である。 したがって、予測だけでなく信頼性も提供できるモデルの方が、より高い人気を享受できる。 推薦システムの分野では、信頼性が不可欠である。ユーザーは、確実に興味を持つレコメンデーション、すなわち高い信頼性を持つ高い予測を好む傾向があるからだ。 本稿では,分類に基づく協調フィルタリングの性能向上を目的とした新しいアルゴリズムであるRestricted Bernoulli Matrix Factorization (ResBeMF)を提案する。 提案手法は, 予測品質(絶対誤差と精度スコア), 予測量(被覆スコア), 推奨品質(平均精度スコア)という観点で, 文献の既存の手法と比較されてきた。 実験により,提案モデルが他のレコメンデーションモデルと比較して,使用した品質指標のバランスが良好であることを実証した。

Reliability measures associated with the prediction of the machine learning models are critical to strengthening user confidence in artificial intelligence. Therefore, those models that are able to provide not only predictions, but also reliability, enjoy greater popularity. In the field of recommender systems, reliability is crucial, since users tend to prefer those recommendations that are sure to interest them, that is, high predictions with high reliabilities. In this paper, we propose Restricted Bernoulli Matrix Factorization (ResBeMF), a new algorithm aimed at enhancing the performance of classification-based collaborative filtering. The proposed model has been compared to other existing solutions in the literature in terms of prediction quality (Mean Absolute Error and accuracy scores), prediction quantity (coverage score) and recommendation quality (Mean Average Precision score). The experimental results demonstrate that the proposed model provides a good balance in terms of the quality measures used compared to other recommendation models.
翻訳日:2023-12-22 19:46:24 公開日:2023-12-21
# 電子を介する非平衡スピントロニクスデバイスにおける2つの遠距離マクロ磁性体の絡み合い

Electron-mediated entanglement of two distant macroscopic ferromagnets within a nonequilibrium spintronic device ( http://arxiv.org/abs/2210.06634v2 )

ライセンス: Link先を確認
A. Suresh, R. D. Soares, P. Mondal, J. P. Santos Pires, J. M. Viana Parente Lopes, Aires Ferreira, A. E. Feiguin, P. Plech\'a\v{c}, B. K. Nikoli\'c(参考訳) 量子スピン移動トルクの創生概念を用いて [in japanese] Zholud et al., Phys. Rev. Lett. bf 119}, 257201 (2017); M. D. Petrovi\'{c} {\em et al。 とPhys。 X {\bf 11}, 021062 (2021)] では、電流パルスが最初は絡まっていない2つの空間的に分離された強磁性体(FM)の量子局在スピンを絡み合わせることができることを示した。 スピン偏光器(FM$_p$)と、通常の金属(NM)スペーサで分離されたスピン分析器(FM$_a$)とを備える。 デバイスへの電流パルスの注入は、2つの遠方のfm層のスピン自由度の間の高い絡み合いによって特徴づけられる多体状態の時間に依存した重ね合わせとなる。 非平衡力学は、fm$_p$ と fm$_a$ の磁化(従来のスピントークが存在しない状況)の共線形だが反平行な配置においてもアクティブな量子スピン-トーク機構を介して、遍歴電子から局在スピンへのスピン角運動量移動によるものである。 fm層間の混合状態絡み合いを,全密度行列の時間変化を追跡し,時間とともに相互対数ネガティビティの蓄積を解析することにより定量化する。 また, 有限温度でのボゾン浴とのカップリングによるFM層内の脱コヒーレンスおよび消散の影響, 多電子電流パルスの利用, スピン数依存性についても, 現実的な条件下での予測の堅牢性を確認するために検討した。 最後に、超高速X線分光法を用いて、時間依存の量子フィッシャー情報を抽出してFM層の非平衡および過渡的絡み合いを観測できる「電流励起/X線プローブ」方式を提案する。

Using the nascent concept of quantum spin-transfer torque [A. Zholud et al., Phys. Rev. Lett. {\bf 119}, 257201 (2017); M. D. Petrovi\'{c} {\em et al.}, Phys. Rev. X {\bf 11}, 021062 (2021)], we demonstrate that a current pulse can be harnessed to entangle quantum localized spins of two spatially separated ferromagnets (FMs) which are initially unentangled. The envisaged setup comprises a spin-polarizer (FM$_p$) and a spin-analyzer (FM$_a$) FM layers separated by normal metal (NM) spacer. The injection of a current pulse into the device leads to a time-dependent superposition of many-body states characterized by a high degree of entanglement between the spin degrees of freedom of the two distant FM layers. The non-equilibrium dynamics are due to the transfer of spin angular momentum from itinerant electrons to the localized spins via a quantum spin-torque mechanism that remains active even for {\em collinear but antiparallel} arrangements of the FM$_p$ and FM$_a$ magnetizations (a situation in which the conventional spin-torque is absent). We quantify the mixed-state entanglement generated between the FM layers by tracking the time-evolution of the full density matrix and analyzing the build-up of the mutual logarithmic negativity over time. The effect of decoherence and dissipation in the FM layers due to coupling to bosonic baths at finite temperature, the use of multi-electron current pulses and the dependence on the number of spins are also considered in an effort to ascertain the robustness of our predictions under realistic conditions. Finally, we propose a ``current-pump/X-ray-probe'' scheme, utilizing ultrafast X-ray spectroscopy, that can witness nonequilibrium and transient entanglement of the FM layers by extracting its time-dependent quantum Fisher information.
翻訳日:2023-12-22 19:46:06 公開日:2023-12-21
# ThoraX-PriorNet: 胸部疾患分類のための解剖学的事前確率マップを用いた新しい注意型アーキテクチャ

ThoraX-PriorNet: A Novel Attention-Based Architecture Using Anatomical Prior Probability Maps for Thoracic Disease Classification ( http://arxiv.org/abs/2210.02998v3 )

ライセンス: Link先を確認
Md. Iqbal Hossain, Mohammad Zunaed, Md. Kawsar Ahmed, S. M. Jawwad Hossain, Anwarul Hasan, and Taufiq Hasan(参考訳) 目的: 医療画像に基づくコンピュータ支援疾患診断と予後は急速に発展している分野である。 多くの畳み込みニューラルネットワーク(CNN)アーキテクチャは、胸部X線画像から疾患分類と局所化の研究者によって開発されている。 胸部疾患の病変は、特定の解剖学的領域において他の部位よりも多く発生することが知られている。 本稿は,この疾患と地域依存の事前確率分布をディープラーニングフレームワークに組み込むことを目的としている。 方法:胸部疾患分類のための新しい注意型CNNモデルToraX-PriorNetを提案する。 まず、胸部x線画像における特定の領域における疾患の発生確率を示す、疾患依存的空間確率、すなわち解剖学的前兆を推定する。 次に, 深層畳み込みネットワークから生成された特徴マップに注意を向けるために, 推定解剖学的事前情報と自動抽出された胸部関心領域(roi)マスク情報を組み合わせた新しい注意に基づく分類モデルを開発した。 提案手法は, 様々な自己追跡機構を用いた先行研究とは異なり, 抽出された胸部roiマスクと確率的解剖学的事前情報を併用し, 異なる疾患に対する関心領域を選択し, 注意を喚起する。 結果: NIH ChestX-ray14データセットにおいて, ROC曲線 (%AUC) の84.67の範囲に到達しながら, 既存の最先端手法と比較して, 疾患分類における優れた性能を示した。 疾患の局在について、解剖学的事前注意法では、最先端法と比較して、0.80, 0.63, 0.49, 0.33, 0.28, 0.21, 0.04の精度をそれぞれ0.1, 0.2, 0.3, 0.3, 0.4, 0.5, 0.6, 0.6, 0.7の交叉閾値で達成している。

Objective: Computer-aided disease diagnosis and prognosis based on medical images is a rapidly emerging field. Many Convolutional Neural Network (CNN) architectures have been developed by researchers for disease classification and localization from chest X-ray images. It is known that different thoracic disease lesions are more likely to occur in specific anatomical regions compared to others. This article aims to incorporate this disease and region-dependent prior probability distribution within a deep learning framework. Methods: We present the ThoraX-PriorNet, a novel attention-based CNN model for thoracic disease classification. We first estimate a disease-dependent spatial probability, i.e., an anatomical prior, that indicates the probability of occurrence of a disease in a specific region in a chest X-ray image. Next, we develop a novel attention-based classification model that combines information from the estimated anatomical prior and automatically extracted chest region of interest (ROI) masks to provide attention to the feature maps generated from a deep convolution network. Unlike previous works that utilize various self-attention mechanisms, the proposed method leverages the extracted chest ROI masks along with the probabilistic anatomical prior information, which selects the region of interest for different diseases to provide attention. Results: The proposed method shows superior performance in disease classification on the NIH ChestX-ray14 dataset compared to existing state-of-the-art methods while reaching an area under the ROC curve (%AUC) of 84.67. Regarding disease localization, the anatomy prior attention method shows competitive performance compared to state-of-the-art methods, achieving an accuracy of 0.80, 0.63, 0.49, 0.33, 0.28, 0.21, and 0.04 with an Intersection over Union (IoU) threshold of 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, and 0.7, respectively.
翻訳日:2023-12-22 19:45:28 公開日:2023-12-21
# 神経keyphrase抽出のための双曲的関連マッチング

Hyperbolic Relevance Matching for Neural Keyphrase Extraction ( http://arxiv.org/abs/2205.02047v2 )

ライセンス: Link先を確認
Mingyang Song, Yi Feng and Liping Jing(参考訳) キーフレーズ抽出は自然言語処理と情報検索の基本的な課題であり、ソース文書から重要な情報を持つフレーズの集合を抽出することを目的としている。 重要なキーフレーズを識別することは、キーフレーズ抽出タスクの中心的な構成要素であり、その主な課題は、情報を包括的に表現し、重要度を正確に判別する方法である。 本稿では,これらの問題に対処するために,同一の双曲空間におけるフレーズや文書を表現するための新しい双曲マッチングモデル(HyperMatch)を設計し,各フレーズの重要スコアとしてポアンカー距離を経由したフレーズ文書関連性を明示的に推定する。 具体的には、階層的な構文と意味構造情報をキャプチャするために、HyperMatchはRoBERTaの複数の層に隠された表現を活用し、適応混合層を介して単語埋め込みとして統合する。 一方、ドキュメントに隠された階層構造を考慮して、hypermatchは双曲句エンコーダと双曲文書エンコーダを介して、同じ双曲空間にフレーズとドキュメントの両方を埋め込む。 この戦略は双曲空間の良し悪しによる句文書の関連性の推定をさらに高めることができる。 この設定では、キーフレーズ抽出をマッチング問題とし、双曲マージンに基づく三重項損失を最小化することにより効果的に実現することができる。 6つのベンチマークで広範な実験が行われ、hypermatchが最先端のベースラインを上回ることを実証する。

Keyphrase extraction is a fundamental task in natural language processing and information retrieval that aims to extract a set of phrases with important information from a source document. Identifying important keyphrase is the central component of the keyphrase extraction task, and its main challenge is how to represent information comprehensively and discriminate importance accurately. In this paper, to address these issues, we design a new hyperbolic matching model (HyperMatch) to represent phrases and documents in the same hyperbolic space and explicitly estimate the phrase-document relevance via the Poincar\'e distance as the important score of each phrase. Specifically, to capture the hierarchical syntactic and semantic structure information, HyperMatch takes advantage of the hidden representations in multiple layers of RoBERTa and integrates them as the word embeddings via an adaptive mixing layer. Meanwhile, considering the hierarchical structure hidden in the document, HyperMatch embeds both phrases and documents in the same hyperbolic space via a hyperbolic phrase encoder and a hyperbolic document encoder. This strategy can further enhance the estimation of phrase-document relevance due to the good properties of hyperbolic space. In this setting, the keyphrase extraction can be taken as a matching problem and effectively implemented by minimizing a hyperbolic margin-based triplet loss. Extensive experiments are conducted on six benchmarks and demonstrate that HyperMatch outperforms the state-of-the-art baselines.
翻訳日:2023-12-22 19:44:07 公開日:2023-12-21
# 弱教師付き時間行動定位のための隣接スニペットのポテンシャルの解き放つ

Unleashing the Potential of Adjacent Snippets for Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2205.00400v2 )

ライセンス: Link先を確認
Qinying Liu, Zilei Wang, Ruoxi Chen, Zhilin Li(参考訳) WTAL (Weakly-supervised temporal action Localization) は、弱い監督力を持つアクションインスタンスを検出することを目的としている。 現在の~\textit{de facto}パイプラインは、時間クラスのアクティベーションシーケンス上の連続的な高スコア領域のしきい値化とグループ化によって、アクションインスタンスを見つける。 この経路では、隣接するスニペット間の関係を認識するモデルの能力は、アクションバウンダリの品質を決定する上で極めて重要である。 しかし、隣接するスニペット間のばらつきは典型的には微妙であるため誤りが多く、残念ながら文献では見落としている。 この問題に対処するため,近隣住民間のコンベックス結合一貫性(C$^3$BN)という新しいWTALアプローチを提案する。 C$3$BNは、隣接するスニペットの凸結合によって隣接するスニペット間の多様性を増大させるマイクロデータ拡張戦略と、モデルを変換に不変に強制するマクロ-マイクロ一貫性正規化と、ビデオセマンティクス、スニペット予測、スニペット表現の2つの主要な要素から構成される。 その結果, 隣接するスニペット間のきめ細かいパターンの探索が可能となり, より堅牢な動作境界の定位が可能となった。 実験の結果,ビデオレベルおよびポイントレベルの監督を伴うwtalの各種ベースライン上でc$^3$bnの有効性が示された。 コードはhttps://github.com/Qinying-Liu/C3BNにある。

Weakly-supervised temporal action localization (WTAL) intends to detect action instances with only weak supervision, \eg, video-level labels. The current~\textit{de facto} pipeline locates action instances by thresholding and grouping continuous high-score regions on temporal class activation sequences. In this route, the capacity of the model to recognize the relationships between adjacent snippets is of vital importance which determines the quality of the action boundaries. However, it is error-prone since the variations between adjacent snippets are typically subtle, and unfortunately this is overlooked in the literature. To tackle the issue, we propose a novel WTAL approach named Convex Combination Consistency between Neighbors (C$^3$BN). C$^3$BN consists of two key ingredients: a micro data augmentation strategy that increases the diversity in-between adjacent snippets by convex combination of adjacent snippets, and a macro-micro consistency regularization that enforces the model to be invariant to the transformations~\textit{w.r.t.} video semantics, snippet predictions, and snippet representations. Consequently, fine-grained patterns in-between adjacent snippets are enforced to be explored, thereby resulting in a more robust action boundary localization. Experimental results demonstrate the effectiveness of C$^3$BN on top of various baselines for WTAL with video-level and point-level supervisions. Code is at https://github.com/Qinying-Liu/C3BN.
翻訳日:2023-12-22 19:43:10 公開日:2023-12-21
# 自律運転のための画像からの3次元物体検出:調査

3D Object Detection from Images for Autonomous Driving: A Survey ( http://arxiv.org/abs/2202.02980v5 )

ライセンス: Link先を確認
Xinzhu Ma, Wanli Ouyang, Andrea Simonelli, Elisa Ricci(参考訳) 自動運転における基本的かつ困難な問題の一つである画像からの3dオブジェクト検出は、近年、産学界からも注目を集めている。 ディープラーニング技術の急速な発展により、画像に基づく3D検出は目覚ましい進歩を遂げた。 特に、2015年から2021年にかけて200以上の著作がこの問題を研究しており、幅広い理論、アルゴリズム、応用を含んでいる。 しかし、この知識を収集・整理するための最近の調査は存在しない。 本稿では,このギャップを文献に埋めて,この新規かつ継続的な研究分野の包括的調査を行い,イメージベース3d検出のための最も一般的なパイプラインを要約し,各コンポーネントを深く分析する。 さらに,最新の手法を異なるカテゴリに整理するための2つの新しい分類法を提案し,既存の手法をより体系的に検討し,今後の手法との公平な比較を促進することを意図した。 これまでの成果を振り返って,この分野の課題を分析し,画像に基づく3次元検出研究の今後の方向性について考察する。

3D object detection from images, one of the fundamental and challenging problems in autonomous driving, has received increasing attention from both industry and academia in recent years. Benefiting from the rapid development of deep learning technologies, image-based 3D detection has achieved remarkable progress. Particularly, more than 200 works have studied this problem from 2015 to 2021, encompassing a broad spectrum of theories, algorithms, and applications. However, to date no recent survey exists to collect and organize this knowledge. In this paper, we fill this gap in the literature and provide the first comprehensive survey of this novel and continuously growing research field, summarizing the most commonly used pipelines for image-based 3D detection and deeply analyzing each of their components. Additionally, we also propose two new taxonomies to organize the state-of-the-art methods into different categories, with the intent of providing a more systematic review of existing methods and facilitating fair comparisons with future works. In retrospect of what has been achieved so far, we also analyze the current challenges in the field and discuss future directions for image-based 3D detection research.
翻訳日:2023-12-22 19:42:43 公開日:2023-12-21
# キーフレーズ抽出のための多視点からの重要度推定

Importance Estimation from Multiple Perspectives for Keyphrase Extraction ( http://arxiv.org/abs/2110.09749v5 )

ライセンス: Link先を確認
Mingyang Song, Liping Jing and Lin Xiao(参考訳) キーフレーズ抽出は自然言語処理において基本的なタスクであり、通常、候補キーフレーズ抽出とキーフレーズ重要度推定の2つの主要部分を含んでいる。 人間の理解文書の観点からは,構文的正確性,情報保存性,概念整合性を同時に測定するのが一般的である。 しかしながら、ほとんどの既存のキーフレーズ抽出アプローチは、その部分のみに焦点を当て、バイアスのある結果をもたらす。 本稿では,複数の視点からキーフレーズの重要性を推定する新しい手法を提案し,キーフレーズ抽出の性能をさらに向上させる。 具体的には、音節の重要性を3つのモジュールで見積もる: 構文的精度を測定するチャンキングモジュール、情報の正確性をチェックするランク付けモジュール、およびフレーズと文書全体の間の概念(トピック)の一貫性を判断するマッチングモジュール。 これら3つのモジュールは、エンドツーエンドのマルチタスク学習モデルを介してシームレスに結合される。 6つのベンチマークデータセットによる実験結果から, <textit{KIEMP} は既存の最先端キーフレーズ抽出手法よりも優れていることがわかった。

Keyphrase extraction is a fundamental task in Natural Language Processing, which usually contains two main parts: candidate keyphrase extraction and keyphrase importance estimation. From the view of human understanding documents, we typically measure the importance of phrase according to its syntactic accuracy, information saliency, and concept consistency simultaneously. However, most existing keyphrase extraction approaches only focus on the part of them, which leads to biased results. In this paper, we propose a new approach to estimate the importance of keyphrase from multiple perspectives (called as \textit{KIEMP}) and further improve the performance of keyphrase extraction. Specifically, \textit{KIEMP} estimates the importance of phrase with three modules: a chunking module to measure its syntactic accuracy, a ranking module to check its information saliency, and a matching module to judge the concept (i.e., topic) consistency between phrase and the whole document. These three modules are seamlessly jointed together via an end-to-end multi-task learning model, which is helpful for three parts to enhance each other and balance the effects of three perspectives. Experimental results on six benchmark datasets show that \textit{KIEMP} outperforms the existing state-of-the-art keyphrase extraction approaches in most cases.
翻訳日:2023-12-22 19:42:03 公開日:2023-12-21
# 変圧器; 変圧器

Transformers \`a Grande Vitesse ( http://arxiv.org/abs/2105.08526v2 )

ライセンス: Link先を確認
Farid Arthaud, Guillaume Lecoeur, Alban Pierre(参考訳) 堅牢な走行時間予測は、交通インフラ、特に交通規制と乗客満足度の両方に大きな影響を与える鉄道網の管理において最も重要なものである。 我々は,鉄道網全体の規模で鉄道区間を走行する列車の走行時間を予測することを目的として,理論的循環計画に対する列車の遅延を推定する。 列車の遅延の進行を予測することは、主要な道路交通予測問題と異なり、列車の間隔、駅の混雑、不均一な車両など、いくつかの難解な現象を含むため、ユニークな難題である。 まず、鉄道網の規模での遅延伝搬の未解明現象を実証的に証明し、列車とネットワークの物理的制限との相互作用によって遅延が増幅されることを示す。 次に,鉄道網全体のスケールで列車の遅延をリアルタイムに並列に予測する(ピーク時3000本以上の列車をピーク時に運転し,平均地平線70分で予測を行う)ために,トランスフォーマーアーキテクチャと事前学習した組込みを用いた新しい手法を提案する。 提案手法は,現在使われている,実験的な予測手法と比較して,実世界のデータに対して非常に肯定的な結果をもたらす。

Robust travel time predictions are of prime importance in managing any transportation infrastructure, and particularly in rail networks where they have major impacts both on traffic regulation and passenger satisfaction. We aim at predicting the travel time of trains on rail sections at the scale of an entire rail network in real-time, by estimating trains' delays relative to a theoretical circulation plan. Predicting the evolution of a given train's delay is a uniquely hard problem, distinct from mainstream road traffic forecasting problems, since it involves several hard-to-model phenomena: train spacing, station congestion and heterogeneous rolling stock among others. We first offer empirical evidence of the previously unexplored phenomenon of delay propagation at the scale of a railway network, leading to delays being amplified by interactions between trains and the network's physical limitations. We then contribute a novel technique using the transformer architecture and pre-trained embeddings to make real-time massively parallel predictions for train delays at the scale of the whole rail network (over 3000 trains at peak hours, making predictions at an average horizon of 70 minutes). Our approach yields very positive results on real-world data when compared to currently-used and experimental prediction techniques.
翻訳日:2023-12-22 19:41:15 公開日:2023-12-21
# パラメトリック発振器を用いた焼成プロトコルの効果

Effects of quenching protocols based on parametric oscillators ( http://arxiv.org/abs/2007.02150v2 )

ライセンス: Link先を確認
Mariagiovanna Gianfreda and Giulio Landolfi(参考訳) パラメトリック発振器によって記述される量子システムの基本特性を理解する問題は、時間依存周波数パラメータ $\omega(t)$ が進化の過程で連続的に変化するので、異なるタイプのクエンチプロトコルを実現する。 このスコープでは、$\omega(t)^2$ が Morse ポテンシャルのように振る舞う場合に焦点を当て、$(t,\omega^2)$ 平面の符号の逆転や変換が可能である。 我々は、古典的および量子的パラメトリック振動子の両方の記述に入る非常に基本的な動的対象である準正規モードの時間依存性振幅に対する閉形式解を導出し、駆動特異性に基づいてその顕著な特徴を強調する。 その後、位置モメンタム・ハイゼンベルクの不確実性原理と2階相関関数による数型状態上の統計的側面に注意を払って量子状態の進化の仕方について考察する。

We consider the problem of understanding the basic features displayed by quantum systems described by parametric oscillators whose time-dependent frequency parameter $\omega(t)$ varies continuously during evolution so to realise quenching protocols of different types. To this scope we focus on the case where $\omega(t)^2$ behaves like a Morse potential, up to possible sign reversion and translations in the $(t,\omega^2)$ plane. We derive closed form solution for the time-dependent amplitude of quasi-normal modes, which is the very fundamental dynamical object entering the description of both classical and quantum parametric oscillators, and highlight its significant characteristics for distinctive cases arising based on the driving specifics. After doing so, we provide an insight on the way quantum states evolve by paying attention on the position-momentum Heisenberg uncertainty principle and the statistical aspects implied by second-order correlation functions over number-type states.
翻訳日:2023-12-22 19:40:53 公開日:2023-12-21
# ゲーミフィケーションはmHealthアプリケーションにおける自己申告の負担を軽減するか? スマートウォッチデータからの機械学習による認知負荷推定の実現可能性の検討

Can gamification reduce the burden of self-reporting in mHealth applications? A feasibility study using machine learning from smartwatch data to estimate cognitive load ( http://arxiv.org/abs/2302.03616v3 )

ライセンス: Link先を確認
Michal K. Grzeszczyk and Paulina Adamczyk and Sylwia Marek and Ryszard Pr\k{e}cikowski and Maciej Ku\'s and M. Patrycja Lelujko and Rosmary Blanco and Tomasz Trzci\'nski and Arkadiusz Sitek and Maciej Malawski and Aneta Lisowska(参考訳) デジタル治療の有効性は、患者にアプリケーションを通じて自身の状態を自己報告するよう要求することで測定できるが、圧倒的であり、離脱を引き起こす可能性がある。 我々は,ゲーミフィケーションが自己報告に与える影響を調査する。 本研究のアプローチは,光胸腺造影(PPG)信号の解析を通じて認知負荷(CL)を評価するシステムの構築である。 11人の参加者のデータを機械学習モデルにトレーニングしてCLを検出する。 その後、ゲーミフィケーションと従来の調査の2つのバージョンを作成します。 調査終了後に他の参加者(13)が経験したclを推定した。 CL検出器の性能は,ストレス検出タスクの事前学習により向上できることがわかった。 13人中10人に対して、パーソナライズされたCL検出器は0.7以上のF1スコアを達成できる。 CLでは,ゲーミフィケーション版と非ゲーミフィケーション版の違いは認められなかったが,参加者はゲーミフィケーション版を好んだ。

The effectiveness of digital treatments can be measured by requiring patients to self-report their state through applications, however, it can be overwhelming and causes disengagement. We conduct a study to explore the impact of gamification on self-reporting. Our approach involves the creation of a system to assess cognitive load (CL) through the analysis of photoplethysmography (PPG) signals. The data from 11 participants is utilized to train a machine learning model to detect CL. Subsequently, we create two versions of surveys: a gamified and a traditional one. We estimate the CL experienced by other participants (13) while completing surveys. We find that CL detector performance can be enhanced via pre-training on stress detection tasks. For 10 out of 13 participants, a personalized CL detector can achieve an F1 score above 0.7. We find no difference between the gamified and non-gamified surveys in terms of CL but participants prefer the gamified version.
翻訳日:2023-12-22 19:34:16 公開日:2023-12-21
# マルチアームバンディットにおけるコミュニケーション効率の高い協調的後悔最小化

Communication-Efficient Collaborative Regret Minimization in Multi-Armed Bandits ( http://arxiv.org/abs/2301.11442v3 )

ライセンス: Link先を確認
Nikolai Karpov, Qin Zhang(参考訳) 本稿では,マルチエージェントマルチアームバンドにおける並列性と通信オーバーヘッドのトレードオフを考慮した協調学習モデルについて検討する。 マルチアームバンディットにおける後悔の最小化のために,エージェント間のコミュニケーションのラウンド数と協調学習プロセスの後悔の間のトレードオフについて述べる。

In this paper, we study the collaborative learning model, which concerns the tradeoff between parallelism and communication overhead in multi-agent multi-armed bandits. For regret minimization in multi-armed bandits, we present the first set of tradeoffs between the number of rounds of communication among the agents and the regret of the collaborative learning process.
翻訳日:2023-12-22 19:33:35 公開日:2023-12-21
# 航空機lidarデータとcir画像の併用による単一樹木崩壊段階の分類

Classification of Single Tree Decay Stages from Combined Airborne LiDAR Data and CIR Imagery ( http://arxiv.org/abs/2301.01841v3 )

ライセンス: Link先を確認
Tsz Chung Wong, Abubakar Sani-Mohammed, Jinhong Wang, Puzuo Wang, Wei Yao, Marco Heurich(参考訳) 森林の健康を理解することは森林生態系の保全にとって非常に重要である。 この点において, 死木材の量と品質を評価することは, 生物多様性の指標として好まれる。 リモートセンシングベースの機械学習技術は、森林在庫において前例のない精度で、より効率的で持続可能なことが証明されている。 本研究は,3つの異なる機械学習手法(3Dポイントクラウドベースディープラーニング(KPConv),畳み込みニューラルネットワーク(CNN),ランダムフォレスト(RF))を用いて,空中レーザー走査(ALS)点群とカラー赤外(CIR)画像から,個々の針葉樹(ノルウェイ・スプルース)を5つの崩壊段階(ライブ,ダウン,ダウン,バーク,クリーン)に自動的に分類した。 まず、als点雲とカラー赤外線画像を用いてcir着色点雲を作成する。 そして、個々の木のセグメンテーションを行い、その結果をさらに4つの直交平面に投影する。 最後に、3つの機械学習アルゴリズムに基づいて2つのデータセット(3d multispectral point cloudsと2d projected images)上で分類を行う。 すべてのモデルで有望な結果が得られ、kpconv、cnn、rfでは88.8%、88.4%、85.9%となった。 実験の結果,色情報,3次元座標,点雲の強度が有望な分類性能に有意な影響を及ぼすことが明らかとなった。 そこで,本モデルの性能は,倒木段別分類におけるマシン/ディープ学習の重要性を示し,近代的空中リモートセンシング技術を用いて枯木量と品質のランドスケープな評価を行った。 提案手法は,森林生態系の生物多様性をモニタリングするための重要かつ信頼性の高いツールとして有用である。

Understanding forest health is of great importance for the conservation of the integrity of forest ecosystems. In this regard, evaluating the amount and quality of dead wood is of utmost interest as they are favorable indicators of biodiversity. Apparently, remote sensing-based machine learning techniques have proven to be more efficient and sustainable with unprecedented accuracy in forest inventory. This study, for the first time, automatically categorizing individual coniferous trees (Norway spruce) into five decay stages (live, declining, dead, loose bark, and clean) from combined airborne laser scanning (ALS) point clouds and color infrared (CIR) images using three different Machine Learning methods - 3D point cloud-based deep learning (KPConv), Convolutional Neural Network (CNN), and Random Forest (RF). First, CIR colorized point clouds are created by fusing the ALS point clouds and color infrared images. Then, individual tree segmentation is conducted, after which the results are further projected onto four orthogonal planes. Finally, the classification is conducted on the two datasets (3D multispectral point clouds and 2D projected images) based on the three Machine Learning algorithms. All models achieved promising results, reaching overall accuracy (OA) of up to 88.8%, 88.4% and 85.9% for KPConv, CNN and RF, respectively. The experimental results reveal that color information, 3D coordinates, and intensity of point clouds have significant impact on the promising classification performance. The performance of our models, therefore, shows the significance of machine/deep learning for individual tree decay stages classification and landscape-wide assessment of the dead wood amount and quality by using modern airborne remote sensing techniques. The proposed method can contribute as an important and reliable tool for monitoring biodiversity in forest ecosystems.
翻訳日:2023-12-22 19:33:29 公開日:2023-12-21
# アナログ量子シミュレータにおける量子アドバンテージと誤差の安定性

Quantum advantage and stability to errors in analogue quantum simulators ( http://arxiv.org/abs/2212.04924v2 )

ライセンス: Link先を確認
Rahul Trivedi, Adrian Franco Rubio, J. Ignacio Cirac(参考訳) いくつかの量子ハードウェアプラットフォームは完全なフォールトトレラント量子計算を実行できないが、多体問題に対処するためのアナログ量子シミュレータとして動作する。 しかし、エラーがあるため、これらのデバイスが従来のコンピュータに対してどの程度の利点を提供できるかは明らかではない。 本研究では,多体系の物理特性を平衡と動作力学の両方で計算するために,雑音型アナログ量子シミュレータの利用を検討する。 まず,広範な誤差に対する安定性のシステムサイズ独立な概念を定式化し,ガウスフェルミオンモデルおよび制限されたスピン系のクラスについて証明した。 驚くべきことに、ガウスフェルミオンモデルでは、長距離相関を持つ臨界モデルの安定性を示す。 さらに,この安定性が多体モデルの熱力学的限界を計算する問題に対して,一定の誤差率と明示的な誤差補正を伴わずに,量子的な利点をもたらす可能性があることを解析した。

Several quantum hardware platforms, while being unable to perform fully fault-tolerant quantum computation, can still be operated as analogue quantum simulators for addressing many-body problems. However, due to the presence of errors, it is not clear to what extent those devices can provide us with an advantage with respect to classical computers. In this work we consider the use of noisy analogue quantum simulators for computing physically relevant properties of many-body systems both in equilibrium and undergoing dynamics. We first formulate a system-size independent notion of stability against extensive errors, which we prove for Gaussian fermion models, as well as for a restricted class of spin systems. Remarkably, for the Gaussian fermion models, our analysis shows the stability of critical models which have long-range correlations. Furthermore, we analyze how this stability may lead to a quantum advantage, for the problem of computing the thermodynamic limit of many-body models, in the presence of a constant error rate and without any explicit error correction.
翻訳日:2023-12-22 19:32:37 公開日:2023-12-21
# 人物再同定のための動的特徴抽出と統合

Dynamic Feature Pruning and Consolidation for Occluded Person Re-Identification ( http://arxiv.org/abs/2211.14742v2 )

ライセンス: Link先を確認
YuTeng Ye, Hang Zhou, Jiale Cai, Chenxing Gao, Youjia Zhang, Junle Wang, Qiang Hu, Junqing Yu, Wei Yang(参考訳) occluded person re-identification (reid) はoccludersの汚染による問題である。 既存のアプローチでは、人間の身体のキーポイントやセマンティックセグメンテーションのような事前知識の手がかりでこの問題に対処している。 本稿では,明示的な構造解析を回避するためのfpc(feature pruning and consolidated)フレームワークを提案する。 このフレームワークは、主にスパースエンコーダ、マルチビュー機能認証モジュール、機能統合デコーダで構成されている。 具体的には、スパースエンコーダは、クラストークンの注意点内の相関のみに基づいて、背景ノイズやオクローダに関連する重要な画像トークンをドロップする。 その後、マッチングステージはスパースエンコーダが生成した保存トークンに依存し、画像とパッチレベルの組み合わせの類似度を測定してギャラリー内のk-アネレスト隣人を識別する。 最後に, 特徴統合モジュールを用いて, 同定された隣人を用いたプルーン特徴の補償を行い, 騒音や咬合の混乱を無視しながら本質情報を復元する。 実験結果は,occluded, partial, and holistic re-idデータセットに対する提案フレームワークの有効性を示す。 特に,本手法は,難解なOccluded-Dukeデータセットに対して,少なくとも8.6\% mAPと6.0\% Rank-1の精度で,最先端の結果より優れている。

Occluded person re-identification (ReID) is a challenging problem due to contamination from occluders. Existing approaches address the issue with prior knowledge cues, such as human body key points and semantic segmentations, which easily fail in the presence of heavy occlusion and other humans as occluders. In this paper, we propose a feature pruning and consolidation (FPC) framework to circumvent explicit human structure parsing. The framework mainly consists of a sparse encoder, a multi-view feature mathcing module, and a feature consolidation decoder. Specifically, the sparse encoder drops less important image tokens, mostly related to background noise and occluders, solely based on correlation within the class token attention. Subsequently, the matching stage relies on the preserved tokens produced by the sparse encoder to identify k-nearest neighbors in the gallery by measuring the image and patch-level combined similarity. Finally, we use the feature consolidation module to compensate pruned features using identified neighbors for recovering essential information while disregarding disturbance from noise and occlusion. Experimental results demonstrate the effectiveness of our proposed framework on occluded, partial, and holistic Re-ID datasets. In particular, our method outperforms state-of-the-art results by at least 8.6\% mAP and 6.0\% Rank-1 accuracy on the challenging Occluded-Duke dataset.
翻訳日:2023-12-22 19:32:22 公開日:2023-12-21
# パネルデータの設定等における戦略的意思決定

Strategyproof Decision-Making in Panel Data Settings and Beyond ( http://arxiv.org/abs/2211.14236v4 )

ライセンス: Link先を確認
Keegan Harris, Anish Agarwal, Chara Podimata, Zhiwei Steven Wu(参考訳) 意思決定者が複数の単位(またはエージェント)の繰り返し測定を行うパネルデータを用いた意思決定の問題を考える。 本稿では,各単位の結果を主が観察し,その後,主がこれらの観測結果を用いて各単位に治療を割り当てる,事前介入期間が存在することを考察する。 この古典的な設定とは異なり、パネルデータを生成するユニットは戦略的であり、例えば、より望ましい介入を受けるために、ユニットは事前介入の結果を変更することができる。 プリンシパルの目標は、戦略的な介入政策を設計することであり、すなわち、その潜在的戦略にもかかわらず、その効用を最大化する介入にユニットを割り当てる政策である。 まず,戦略的介入政策が存在する必要十分条件を特定し,その存在時に簡単な閉じた形で戦略的防御機構を提供する。 その過程で,戦略的多クラス分類における不合理性(不合理性)の証明を行う。 2つの介入がある場合、我々は常に防御機構が存在し、そのようなメカニズムを学習するためのアルゴリズムを提供する。 3以上の介入に対して,各介入の報酬に十分に大きな差がある場合,戦略的防御機構を学習するためのアルゴリズムを提供する。 最後に,18ヶ月にわたって製品販売から収集した実世界のパネルデータを用いて,実証的にモデルを評価する。 提案手法は, モデル不特定性が存在する場合でも, 戦略的相互作用を考慮に入れないベースラインと良好に比較できる。

We consider the problem of decision-making using panel data, in which a decision-maker gets noisy, repeated measurements of multiple units (or agents). We consider a setup where there is a pre-intervention period, when the principal observes the outcomes of each unit, after which the principal uses these observations to assign a treatment to each unit. Unlike this classical setting, we permit the units generating the panel data to be strategic, i.e. units may modify their pre-intervention outcomes in order to receive a more desirable intervention. The principal's goal is to design a strategyproof intervention policy, i.e. a policy that assigns units to their utility-maximizing interventions despite their potential strategizing. We first identify a necessary and sufficient condition under which a strategyproof intervention policy exists, and provide a strategyproof mechanism with a simple closed form when one does exist. Along the way, we prove impossibility results for strategic multiclass classification, which may be of independent interest. When there are two interventions, we establish that there always exists a strategyproof mechanism, and provide an algorithm for learning such a mechanism. For three or more interventions, we provide an algorithm for learning a strategyproof mechanism if there exists a sufficiently large gap in the principal's rewards between different interventions. Finally, we empirically evaluate our model using real-world panel data collected from product sales over 18 months. We find that our methods compare favorably to baselines which do not take strategic interactions into consideration, even in the presence of model misspecification.
翻訳日:2023-12-22 19:31:29 公開日:2023-12-21
# 修正コントラスト学習によるオブジェクト検出

Few-shot Object Detection with Refined Contrastive Learning ( http://arxiv.org/abs/2211.13495v2 )

ライセンス: Link先を確認
Zeyu Shangguan, Lian Huai, Tong Liu, Xingqun Jiang(参考訳) 実際のサンプリングデータの不足により、少ないデータで新しい検出概念を迅速に訓練する能力により、少数ショットオブジェクト検出(FSOD)がますます注目を集めている。 しかし,難解なクラスを区別することが難しいため,障害の識別はいまだに残っている。 また,平均精度の標準偏差が不整合検出性能を示すことも確認した。 そこで本稿では,Refined Contrastive Learning (FSRC) を用いた新しいFSOD手法を提案する。 共用クラスを含む新規クラスから類似グループを見つけるために、事前決定コンポーネントが導入された。 その後,Refined Contrastive Learning (RCL) が,クラス間の距離を増やすために,このクラス群で指摘される。 一方、検出結果はより均一に分散され、さらに性能が向上する。 PASCAL VOCとCOCOデータセットに基づく実験結果から,提案手法が最先端の研究より優れていることを示す。

Due to the scarcity of sampling data in reality, few-shot object detection (FSOD) has drawn more and more attention because of its ability to quickly train new detection concepts with less data. However, there are still failure identifications due to the difficulty in distinguishing confusable classes. We also notice that the high standard deviation of average precision reveals the inconsistent detection performance. To this end, we propose a novel FSOD method with Refined Contrastive Learning (FSRC). A pre-determination component is introduced to find out the Resemblance Group from novel classes which contains confusable classes. Afterwards, Refined Contrastive Learning (RCL) is pointedly performed on this group of classes in order to increase the inter-class distances among them. In the meantime, the detection results distribute more uniformly which further improve the performance. Experimental results based on PASCAL VOC and COCO datasets demonstrate our proposed method outperforms the current state-of-the-art research.
翻訳日:2023-12-22 19:31:03 公開日:2023-12-21
# 多分野協調学習のための適応型プロンプトチューニング

Federated Adaptive Prompt Tuning for Multi-domain Collaborative Learning ( http://arxiv.org/abs/2211.07864v3 )

ライセンス: Link先を確認
Shangchao Su and Mingzhao Yang and Bin Li and Xiangyang Xue(参考訳) フェデレートラーニング(FL)は、複数のクライアントがデータを開示することなく、協力的にグローバルモデルをトレーニングすることを可能にする。 以前の研究では、しばしば完全なモデルパラメータを訓練する必要がある。 しかし、強力な事前学習モデルの出現により、FLの学習可能なパラメータが少なく、より高い性能を達成することができる。 本稿では,CLIPのような強力な基盤モデルを用いた多領域協調画像分類のための適応型プロンプトチューニングアルゴリズムであるFedAPTを提案する。 直接のフェデレーションプロンプトチューニングと比較して、私たちの核となるアイデアは、各テストサンプルの特定のドメイン知識を適応的にアンロックして、パーソナライズされたプロンプトを提供することです。 このアイデアを実現するために,メタプロンプト,適応ネットワーク,いくつかのキーからなる適応型プロンプトチューニングモジュールを設計した。 サーバはランダムにキーのセットを生成し、各クライアントにユニークなキーを割り当てる。 そして、すべてのクライアントがグローバル適応ネットワークとメタプロンプトをローカルデータセットと凍結キーで協調的にトレーニングする。 最終的に、グローバルアグリゲーションモデルは、各テストサンプルのドメイン機能に基づいて、パーソナライズされたプロンプトをCLIPに割り当てることができる。 教師なしと教師なしの2つの異なる設定にまたがる2つのマルチドメイン画像分類データセットに関する広範な実験を行います。 その結果、FedAPTは、完全に訓練されたモデルのパラメータの10分の1以下でより良い性能を達成でき、グローバルモデルは多様なクライアントドメインで同時に性能を発揮できることがわかった。

Federated learning (FL) enables multiple clients to collaboratively train a global model without disclosing their data. Previous researches often require training the complete model parameters. However, the emergence of powerful pre-trained models makes it possible to achieve higher performance with fewer learnable parameters in FL. In this paper, we propose a federated adaptive prompt tuning algorithm, FedAPT, for multi-domain collaborative image classification with powerful foundation models, like CLIP. Compared with direct federated prompt tuning, our core idea is to adaptively unlock specific domain knowledge for each test sample in order to provide them with personalized prompts. To implement this idea, we design an adaptive prompt tuning module, which consists of a meta prompt, an adaptive network, and some keys. The server randomly generates a set of keys and assigns a unique key to each client. Then all clients cooperatively train the global adaptive network and meta prompt with the local datasets and the frozen keys. Ultimately, the global aggregation model can assign a personalized prompt to CLIP based on the domain features of each test sample. We perform extensive experiments on two multi-domain image classification datasets across two different settings -- supervised and unsupervised. The results show that FedAPT can achieve better performance with less than 10\% of the number of parameters of the fully trained model, and the global model can perform well in diverse client domains simultaneously.
翻訳日:2023-12-22 19:30:48 公開日:2023-12-21
# 共変量分布シフトによるグラフデータの増大力の解放

Unleashing the Power of Graph Data Augmentation on Covariate Distribution Shift ( http://arxiv.org/abs/2211.02843v2 )

ライセンス: Link先を確認
Yongduo Sui, Qitian Wu, Jiancan Wu, Qing Cui, Longfei Li, Jun Zhou, Xiang Wang, Xiangnan He(参考訳) 分布シフトの問題は、グラフ表現学習における重要な関心事として浮上している。 不変学習と安定学習の観点から、最近確立された分布外一般化のパラダイムとして、グラフの安定な特徴はラベルを因果的に決定するが、環境的特徴は不安定であり、2種類の分散シフトをもたらす可能性がある。 相関シフトは、トレーニングデータとテストデータとの違いである環境特徴とラベルとの散発的な相関によって引き起こされることが多く、共変量シフトはテストデータに新しい環境特徴が存在することに起因することが多い。 しかしながら、不変学習やグラフ拡張のようなほとんどの戦略は、通常、限られた訓練環境や不安定な特徴に苦しむため、共変シフトの問題を扱う際の制限が露呈する。 この課題に対処するために,グラフ上の共変量シフトを扱うための,簡便かつ効率的なデータ拡張戦略であるadversarial invariant augmentation (aia)を提案する。 具体的には、トレーニングデータに基づき、AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。 このような設計は、グラフ分類モデルに、新しい環境で安定した特徴を識別する能力を強化し、データの共変量シフトに効果的に取り組む。 深部実験分析による広範囲な実験は,我々のアプローチの優位性を示している。 実装コードはhttps://github.com/yongduosui/aiaで公開されている。

The issue of distribution shifts is emerging as a critical concern in graph representation learning. From the perspective of invariant learning and stable learning, a recently well-established paradigm for out-of-distribution generalization, stable features of the graph are assumed to causally determine labels, while environmental features tend to be unstable and can lead to the two primary types of distribution shifts. The correlation shift is often caused by the spurious correlation between environmental features and labels that differs between the training and test data; the covariate shift often stems from the presence of new environmental features in test data. However, most strategies, such as invariant learning or graph augmentation, typically struggle with limited training environments or perturbed stable features, thus exposing limitations in handling the problem of covariate shift. To address this challenge, we propose a simple-yet-effective data augmentation strategy, Adversarial Invariant Augmentation (AIA), to handle the covariate shift on graphs. Specifically, given the training data, AIA aims to extrapolate and generate new environments, while concurrently preserving the original stable features during the augmentation process. Such a design equips the graph classification model with an enhanced capability to identify stable features in new environments, thereby effectively tackling the covariate shift in data. Extensive experiments with in-depth empirical analysis demonstrate the superiority of our approach. The implementation codes are publicly available at https://github.com/yongduosui/AIA.
翻訳日:2023-12-22 19:30:24 公開日:2023-12-21
# mmによる凸クラスタリング:階層クラスタリングを行う効率的なアルゴリズム

Convex Clustering through MM: An Efficient Algorithm to Perform Hierarchical Clustering ( http://arxiv.org/abs/2211.01877v2 )

ライセンス: Link先を確認
Daniel J. W. Touw, Patrick J. F. Groenen, Yoshikazu Terada(参考訳) 凸クラスタリングは階層的および$k$-meansクラスタリング特性を持つ現代的な手法である。 convexクラスタリングは、データに隠された複雑なクラスタリング構造をキャプチャできるが、既存のconvexクラスタリングアルゴリズムは、数千以上のサンプルサイズを持つ大規模データセットにスケーラブルではない。 さらに、凸クラスタリングは時に完全な階層的クラスタリング構造を生成できないことが知られている。 この問題は、クラスタが分割されたり、最小のクラスタ数が所望のクラスタ数よりも大きい場合に発生する。 本稿では,クラスタ融合を用いた反復アルゴリズムCCMMによる凸クラスタリングと,対角磁化を用いた高効率な更新手法を提案する。 さらに,階層的クラスタリング構造が単一クラスタ内で終了することを保証するために,さまざまな戦略を検討する。 現在のデスクトップコンピュータでは、CCMMは、7次元空間に100万以上のオブジェクトを含む凸クラスタリング問題を効率的に解決し、平均51秒の解時間を達成する。

Convex clustering is a modern method with both hierarchical and $k$-means clustering characteristics. Although convex clustering can capture complex clustering structures hidden in data, the existing convex clustering algorithms are not scalable to large data sets with sample sizes greater than several thousands. Moreover, it is known that convex clustering sometimes fails to produce a complete hierarchical clustering structure. This issue arises if clusters split up or the minimum number of possible clusters is larger than the desired number of clusters. In this paper, we propose convex clustering through majorization-minimization (CCMM) -- an iterative algorithm that uses cluster fusions and a highly efficient updating scheme derived using diagonal majorization. Additionally, we explore different strategies to ensure that the hierarchical clustering structure terminates in a single cluster. With a current desktop computer, CCMM efficiently solves convex clustering problems featuring over one million objects in seven-dimensional space, achieving a solution time of 51 seconds on average.
翻訳日:2023-12-22 19:29:56 公開日:2023-12-21
# クロスドメイン3次元形状検索のための3次元形状知識グラフ

3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval ( http://arxiv.org/abs/2210.15136v2 )

ライセンス: Link先を確認
Rihao Chang, Yongtao Ma, Tong Hao, Weizhi Nie(参考訳) 3dモデリングの急増は、3d形状検索の分野で明らかに研究の重点が置かれている。 この複雑な課題に取り組むために、多くの現代的アプローチが試みられている。 にもかかわらず、3次元の立体形状検索の複雑さを効果的に解決することは、本質的なモダリティに基づく相違のため、恐ろしい作業である。 この研究は「幾何学的単語」と呼ばれる革新的な概念を示し、組み合わせによって実体を表現する要素成分として機能する。 ナレッジグラフを確立するために、幾何学的単語をノードとして、形状カテゴリと幾何学的属性を介してそれらを接続する。 その後,知識獲得のための独自のグラフ埋め込み手法を考案した。 最後に,検索目的に有効な類似度尺度を導入する。 重要なことに、各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。 その結果,複数のクロスドメイン3d形状検索タスクが容易になった。 本研究では,ModelNet40およびShapeNetCore55データセットを用いて,3次元形状検索とクロスドメイン検索のシナリオを含む提案手法の性能を評価する。 さらに,mi3dor(cross-modal dataset)を用いて3次元形状検索を行った。 その結果、最先端技術との比較とともに、我々のアプローチの優位性を明確に示している。

The surge in 3D modeling has led to a pronounced research emphasis on the field of 3D shape retrieval. Numerous contemporary approaches have been put forth to tackle this intricate challenge. Nevertheless, effectively addressing the intricacies of cross-modal 3D shape retrieval remains a formidable undertaking, owing to inherent modality-based disparities. This study presents an innovative notion, termed "geometric words", which functions as elemental constituents for representing entities through combinations. To establish the knowledge graph, we employ geometric words as nodes, connecting them via shape categories and geometry attributes. Subsequently, we devise a unique graph embedding method for knowledge acquisition. Finally, an effective similarity measure is introduced for retrieval purposes. Importantly, each 3D or 2D entity can anchor its geometric terms within the knowledge graph, thereby serving as a link between cross-domain data. As a result, our approach facilitates multiple cross-domain 3D shape retrieval tasks. We evaluate the proposed method's performance on the ModelNet40 and ShapeNetCore55 datasets, encompassing scenarios related to 3D shape retrieval and cross-domain retrieval. Furthermore, we employ the established cross-modal dataset (MI3DOR) to assess cross-modal 3D shape retrieval. The resulting experimental outcomes, in conjunction with comparisons against state-of-the-art techniques, clearly highlight the superiority of our approach.
翻訳日:2023-12-22 19:29:19 公開日:2023-12-21
# samが医用画像に出会うとき:多相肝腫瘍分画におけるsegment anything model(sam)の検討

When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation ( http://arxiv.org/abs/2304.08506v6 )

ライセンス: Link先を確認
Chuanfei Hu, Tianyi Xia, Shenghong Ju, Xinde Li(参考訳) 大規模なサンプルなしでセグメンテーションを学ぶことは、人間の固有の能力である。 最近、segment anything model (sam)は、コンピュータビジョンコミュニティからかなりの注目を集めるゼロショット画像のセグメンテーションを実行する。 本稿では,医療画像解析におけるSAMの有用性,特にMPLiTS(multi-phase liver tumor segmentation)について,プロンプト,データ分解能,位相の観点から検討する。 実験の結果、SAMと期待性能の間に大きなギャップがあることが示されている。 幸いなことに、質的な結果はSAMがインタラクティブな医療画像セグメンテーションのコミュニティにとって強力なアノテーションツールであることを示している。

Learning to segmentation without large-scale samples is an inherent capability of human. Recently, Segment Anything Model (SAM) performs the significant zero-shot image segmentation, attracting considerable attention from the computer vision community. Here, we investigate the capability of SAM for medical image analysis, especially for multi-phase liver tumor segmentation (MPLiTS), in terms of prompts, data resolution, phases. Experimental results demonstrate that there might be a large gap between SAM and expected performance. Fortunately, the qualitative results show that SAM is a powerful annotation tool for the community of interactive medical image segmentation.
翻訳日:2023-12-22 19:23:27 公開日:2023-12-21
# 検索による自己回帰型言語モデルの事前学習は可能か? 総合的研究

Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study ( http://arxiv.org/abs/2304.06762v3 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro(参考訳) 大規模なデコーダのみの言語モデル(LM)は、検索による難易度(例えばRETRO)の観点から大きく改善されるが、テキスト生成の品質とダウンストリームタスクの精度への影響は不明確である。 したがって、まだ未解決の問題であり、大規模な自己回帰型LMを検索で事前訓練すべきだろうか? そこで我々は,拡張性のある事前学習型検索拡張LM(RETRO)について,通常のGPTおよび検索強化型GPTと比較して総合的な研究を行った。 まず、RETROを最大9.5Bパラメータまで再現するレシピを提供し、330Bトークンでテキストコーパスを検索する。 それに基づいて、以下の新たな発見がある。 一 テキスト生成におけるgptをはるかに少ない変性(反復)、適度に高い事実的正確性、無害な検索データベースによる毒性の低下で上回っていること。 二 LMアセスメント・ハーネスのベンチマークにおいて、RETROは知識集約的なタスクにおいてGPTを上回っているが、他のタスクではGPTと同等である。 さらに,オリジナルのレトロのオープンドメインqa結果(自然問題ではemスコア+8.6)を大幅に改善し,微調整とゼロショット評価の両方において検索可能なgptを大幅に上回るretro++を導入した。 本研究は,将来の基礎モデルとして,自己回帰型lmsの事前学習の方向性を浮き彫りにする。 コードとモデルはhttps://github.com/nvidia/megatron-lm/blob/main/tools/retro/readme.mdでリリースします。

Large decoder-only language models (LMs) can be largely improved in terms of perplexity by retrieval (e.g., RETRO), but its impact on text generation quality and downstream task accuracy is unclear. Thus, it is still an open question: shall we pretrain large autoregressive LMs with retrieval? To answer it, we perform a comprehensive study on a scalable pre-trained retrieval-augmented LM (i.e., RETRO) compared with standard GPT and retrieval-augmented GPT incorporated at fine-tuning or inference stages. We first provide the recipe to reproduce RETRO up to 9.5B parameters while retrieving a text corpus with 330B tokens. Based on that, we have the following novel findings: i) RETRO outperforms GPT on text generation with much less degeneration (i.e., repetition), moderately higher factual accuracy, and slightly lower toxicity with a nontoxic retrieval database. ii) On the LM Evaluation Harness benchmark, RETRO largely outperforms GPT on knowledge-intensive tasks, but is on par with GPT on other tasks. Furthermore, we introduce a simple variant of the model, RETRO++, which largely improves open-domain QA results of original RETRO (e.g., EM score +8.6 on Natural Question) and significantly outperforms retrieval-augmented GPT in both fine-tuning and zero-shot evaluation settings. Our findings highlight the promising direction of pretraining autoregressive LMs with retrieval as future foundation models. We release our code and model at: https://github.com/NVIDIA/Megatron-LM/blob/main/tools/retro/README.md
翻訳日:2023-12-22 19:23:15 公開日:2023-12-21
# 車両内ドライバ認知負荷計測のためのマルチモーダル脳-コンピュータインタフェース:データセットとベースライン

Multimodal Brain-Computer Interface for In-Vehicle Driver Cognitive Load Measurement: Dataset and Baselines ( http://arxiv.org/abs/2304.04273v2 )

ライセンス: Link先を確認
Prithila Angkan, Behnam Behinaein, Zunayed Mahmud, Anubhav Bhatti, Dirk Rodenburg, Paul Hungler and Ali Etemad(参考訳) 本稿では、心電図(ECG)や心電図(EDA)などの他の生理的信号とともに、眼球追跡データとともに脳波(EEG)信号を含む新しいドライバ認知負荷評価データセットCL-Driveを紹介する。 対象者の認知負荷の異なるレベルを誘発するために, 様々な運転条件において, 没入車シミュレータで運転中, 被験者21名から収集した。 作業は3分ごとに9つの複雑性レベルで構成された。 各ドライバーは実験中10秒ごとに主観的認知負荷を報告した。 データセットは、基底真理として記録された主観的認知負荷を含む。 本稿では,二項ラベル分布と三項ラベル分布の両方に対して,異なる機械学習モデルとディープラーニングモデルのためのベンチマーク分類結果を提供する。 評価基準は10倍, LOSO (Left-one-subject-out) の2つであった。 我々は手作りの機能と生データの両方でモデルを訓練しました。

Through this paper, we introduce a novel driver cognitive load assessment dataset, CL-Drive, which contains Electroencephalogram (EEG) signals along with other physiological signals such as Electrocardiography (ECG) and Electrodermal Activity (EDA) as well as eye tracking data. The data was collected from 21 subjects while driving in an immersive vehicle simulator, in various driving conditions, to induce different levels of cognitive load in the subjects. The tasks consisted of 9 complexity levels for 3 minutes each. Each driver reported their subjective cognitive load every 10 seconds throughout the experiment. The dataset contains the subjective cognitive load recorded as ground truth. In this paper, we also provide benchmark classification results for different machine learning and deep learning models for both binary and ternary label distributions. We followed 2 evaluation criteria namely 10-fold and leave-one-subject-out (LOSO). We have trained our models on both hand-crafted features as well as on raw data.
翻訳日:2023-12-22 19:22:40 公開日:2023-12-21
# 有限次元スペクトル動的埋め込みによる確率非線形制御

Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding ( http://arxiv.org/abs/2304.03907v3 )

ライセンス: Link先を確認
Tongzheng Ren, Zhaolin Ren, Haitong Ma, Na Li and Bo Dai(参考訳) 本稿では,非線形確率系の最適制御のためのスペクトルダイナミクス埋め込み制御(SDEC)を提案する。 この方法は無限次元の特徴を利用して状態-作用値関数を線形に表現し、実用的な実装のために有限次元のトランケーション近似を利用する。 これらの有限次元近似の有効性を特徴付けるために,有限次元切断による近似誤差と有限サンプル近似による統計誤差を,政策評価と政策最適化の両方において詳細に理論的に解析する。 我々の分析には、2つの顕著なカーネル近似法が含まれている。 また,このアルゴリズムを実験的に検証し,いくつかのベンチマーク問題に対するクープマン法,iLQR法,エネルギー法との比較を行った。

This paper presents an approach, Spectral Dynamics Embedding Control (SDEC), to optimal control for nonlinear stochastic systems. This method leverages an infinite-dimensional feature to linearly represent the state-action value function and exploits finite-dimensional truncation approximation for practical implementation. To characterize the effectiveness of these finite dimensional approximations, we provide an in-depth theoretical analysis to characterize the approximation error induced by the finite-dimension truncation and statistical error induced by finite-sample approximation in both policy evaluation and policy optimization. Our analysis includes two prominent kernel approximation methods: truncations onto random features and Nystrom features. We also empirically test the algorithm and compare the performance with Koopman-based, iLQR, and energy-based methods on a few benchmark problems.
翻訳日:2023-12-22 19:22:23 公開日:2023-12-21
# モデル非依存性偏差画像キャプション

Model-Agnostic Gender Debiased Image Captioning ( http://arxiv.org/abs/2304.03693v3 )

ライセンス: Link先を確認
Yusuke Hirota, Yuta Nakashima, Noa Garcia(参考訳) 画像キャプションモデルは、トレーニングセット内の有害な社会バイアスを持続し、増幅することが知られている。 本研究では,画像キャプションモデルにおける性別バイアスを軽減することを目的とする。 先行研究は、モデルに性別の誤分類を減らすよう人々に強制することによってこの問題に対処してきたが、逆に、正しい性別を予測するために、性別のステレオタイプな単語を生成する。 この観察から、画像キャプションモデルに影響を及ぼす性別バイアスは2種類あると仮定する。 1)性別を予測するために文脈を利用するバイアス 2) 性別によって特定の(しばしばステレオタイプな)単語を生成する確率のバイアス。 両性バイアスを緩和するため, 合成バイアスサンプルから学習し, 男女間の偏見を低減し, 性別の誤分類を補正し, ジェンダー・ステレオタイプの単語をより中立なものに変更する枠組みであるLIBRAを提案する。 コードはhttps://github.com/rebnej/LIBRAで入手できる。

Image captioning models are known to perpetuate and amplify harmful societal bias in the training set. In this work, we aim to mitigate such gender bias in image captioning models. While prior work has addressed this problem by forcing models to focus on people to reduce gender misclassification, it conversely generates gender-stereotypical words at the expense of predicting the correct gender. From this observation, we hypothesize that there are two types of gender bias affecting image captioning models: 1) bias that exploits context to predict gender, and 2) bias in the probability of generating certain (often stereotypical) words because of gender. To mitigate both types of gender biases, we propose a framework, called LIBRA, that learns from synthetically biased samples to decrease both types of biases, correcting gender misclassification and changing gender-stereotypical words to more neutral ones. Code is available at https://github.com/rebnej/LIBRA.
翻訳日:2023-12-22 19:22:10 公開日:2023-12-21
# BloombergGPT: 金融のための大規模言語モデル

BloombergGPT: A Large Language Model for Finance ( http://arxiv.org/abs/2303.17564v3 )

ライセンス: Link先を確認
Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann(参考訳) 金融技術の領域におけるNLPの利用は広範かつ複雑であり、感情分析や名前付きエンティティ認識から質問応答まで幅広い応用がある。 大規模言語モデル(LLM)は様々なタスクに有効であることが示されているが、金融分野に特化したLLMは文献で報告されていない。 本稿では、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを紹介する。 我々は、bloombergの広範なデータソースに基づいて363億のトークンデータセットを構築しています。 我々はBloombergGPTを標準LLMベンチマーク、オープンファイナンシャルベンチマーク、そして我々の意図した使用を最も正確に反映した内部ベンチマークで検証する。 当社の混合データセットトレーニングは、一般的なllmベンチマークのパフォーマンスを犠牲にすることなく、財務タスクの既存モデルをかなりのマージンで上回るモデルにつながります。 さらに、モデリングの選択、トレーニングプロセス、評価方法論を説明します。 BloombergGPTのトレーニングの経験を詳しく説明したトレーニング年代記(Appendix C)をリリースします。

The use of NLP in the realm of financial technology is broad and complex, with applications ranging from sentiment analysis and named entity recognition to question answering. Large Language Models (LLMs) have been shown to be effective on a variety of tasks; however, no LLM specialized for the financial domain has been reported in literature. In this work, we present BloombergGPT, a 50 billion parameter language model that is trained on a wide range of financial data. We construct a 363 billion token dataset based on Bloomberg's extensive data sources, perhaps the largest domain-specific dataset yet, augmented with 345 billion tokens from general purpose datasets. We validate BloombergGPT on standard LLM benchmarks, open financial benchmarks, and a suite of internal benchmarks that most accurately reflect our intended usage. Our mixed dataset training leads to a model that outperforms existing models on financial tasks by significant margins without sacrificing performance on general LLM benchmarks. Additionally, we explain our modeling choices, training process, and evaluation methodology. We release Training Chronicles (Appendix C) detailing our experience in training BloombergGPT.
翻訳日:2023-12-22 19:21:53 公開日:2023-12-21
# DeID-GPT:GPT-4によるゼロショット医療用テキストの同定

DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 ( http://arxiv.org/abs/2303.11032v2 )

ライセンス: Link先を確認
Zhengliang Liu, Yue Huang, Xiaowei Yu, Lu Zhang, Zihao Wu, Chao Cao, Haixing Dai, Lin Zhao, Yiwei Li, Peng Shu, Fang Zeng, Lichao Sun, Wei Liu, Dinggang Shen, Quanzheng Li, Tianming Liu, Dajiang Zhu, Xiang Li(参考訳) 医療データのデジタル化は、医療データの共有と再利用を促進する一方で、機密性やプライバシーに関する懸念も提起している。 HIPAA (Health Insurance Portability and Accountability Act) は、医療記録の拡散前に再識別情報を削除することを義務付けている。 したがって、医療データ、特に自由テキスト形式のデータを識別するための効率的かつ効率的なソリューションが必要である。 ルールベースと学習ベースの両方を含む様々なコンピュータ支援の非識別手法が従来から開発・使用されてきたが、これらのソリューションは依然として一般化性に欠けており、様々なシナリオに応じて微調整する必要がある。 chatgptやgpt-4といった大規模言語モデル(llm)の進歩は、医療領域におけるテキストデータをゼロショットのインコンテキスト学習で処理する上で、特にプライバシ保護のタスクにおいて、その強力な名前付きエンティティ認識(ner)能力によって機密情報を識別できるため、大きな可能性を秘めている。 本研究では,識別情報を自動的に識別・削除する新しいGPT4対応脱識別フレームワーク (`DeID-GPT) を開発した。 既存の医用テキストデータ復号化手法と比較して,本研究で開発されたDeID-GPTは,原文の構造と意味を保ちながら,非構造化医用テキストから個人情報を隠蔽する上で,最も正確かつ顕著な信頼性を示した。 本研究は, chatgpt や gpt-4 を医療用テキストデータ処理や非識別に活用した最初期の例であり, chatgpt/gpt-4 などの llm の使用に関するさらなる研究とソリューション開発への洞察を提供する。 コードとベンチマークデータ情報はhttps://github.com/yhydhx/ChatGPT-APIで公開されている。

The digitization of healthcare has facilitated the sharing and re-using of medical data but has also raised concerns about confidentiality and privacy. HIPAA (Health Insurance Portability and Accountability Act) mandates removing re-identifying information before the dissemination of medical records. Thus, effective and efficient solutions for de-identifying medical data, especially those in free-text forms, are highly needed. While various computer-assisted de-identification methods, including both rule-based and learning-based, have been developed and used in prior practice, such solutions still lack generalizability or need to be fine-tuned according to different scenarios, significantly imposing restrictions in wider use. The advancement of large language models (LLM), such as ChatGPT and GPT-4, have shown great potential in processing text data in the medical domain with zero-shot in-context learning, especially in the task of privacy protection, as these models can identify confidential information by their powerful named entity recognition (NER) capability. In this work, we developed a novel GPT4-enabled de-identification framework (``DeID-GPT") to automatically identify and remove the identifying information. Compared to existing commonly used medical text data de-identification methods, our developed DeID-GPT showed the highest accuracy and remarkable reliability in masking private information from the unstructured medical text while preserving the original structure and meaning of the text. This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text data processing and de-identification, which provides insights for further research and solution development on the use of LLMs such as ChatGPT/GPT-4 in healthcare. Codes and benchmarking data information are available at https://github.com/yhydhx/ChatGPT-API.
翻訳日:2023-12-22 19:21:20 公開日:2023-12-21
# 証明数に基づくモンテカルロ木探索

Proof Number Based Monte-Carlo Tree Search ( http://arxiv.org/abs/2303.09449v2 )

ライセンス: Link先を確認
Jakub Kowalski, Elliot Doe, Mark H. M. Winands, Daniel G\'orski, Dennis J. N. J. Soemers(参考訳) 本稿では,モンテカルロ木探索(MCTS)とProof-Number Search(PNS)を組み合わせた新しいゲーム検索アルゴリズムであるPN-MCTSを提案する。 これら2つのアルゴリズムは、様々な領域における意思決定にうまく適用されている。 我々は,mcts木に収集された証明と不完全数によって提供される付加的な知識が,最終移動選択,部分木解決,ucb1選択機構の3つの領域を定義できる。 さまざまな時間設定で可能な組み合わせをすべてテストし、いくつかのゲームでバニラUCTと対戦する: Lines of Action(7$\times$7$と8$\times$8$のボードサイズ)、MiniShogi、Knightthrough、Awari。 さらに,新たなアルゴリズムを拡張して,MCTSツリー上にPNSの付加層を追加することで,Awariのようなドローを持つゲームに適切に対処する。 実験の結果、PN-MCTSは全てのゲーム領域でMCTSを確実に上回り、ライン・オブ・アクションで96.2\%の勝利率を達成した。

This paper proposes a new game-search algorithm, PN-MCTS, which combines Monte-Carlo Tree Search (MCTS) and Proof-Number Search (PNS). These two algorithms have been successfully applied for decision making in a range of domains. We define three areas where the additional knowledge provided by the proof and disproof numbers gathered in MCTS trees might be used: final move selection, solving subtrees, and the UCB1 selection mechanism. We test all possible combinations on different time settings, playing against vanilla UCT on several games: Lines of Action ($7$$\times$$7$ and $8$$\times$$8$ board sizes), MiniShogi, Knightthrough, and Awari. Furthermore, we extend this new algorithm to properly address games with draws, like Awari, by adding an additional layer of PNS on top of the MCTS tree. The experiments show that PN-MCTS confidently outperforms MCTS in all tested game domains, achieving win rates up to 96.2\% for Lines of Action.
翻訳日:2023-12-22 19:20:22 公開日:2023-12-21
# バッチスタイル標準化によるドメイン不変自己教師付き学習に向けて

Towards domain-invariant Self-Supervised Learning with Batch Styles Standardization ( http://arxiv.org/abs/2303.06088v5 )

ライセンス: Link先を確認
Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy(参考訳) Self-Supervised Learning (SSL)では、モデルは通常、トレーニング済み、微調整され、同じドメインで評価される。 しかし、非監視ドメインの評価では性能が低下する傾向があり、unsupervised domain generalization (udg) が対処しようとしている。 現在のUDGメソッドは、収集が困難なドメインラベルと、多くのドメインに直面するとスケーラビリティに欠けるドメイン固有のアーキテクチャに依存しているため、現在の方法論は非現実的で厳密である。 同じドメインの例との比較を制限することで、スプリアス相関を緩和するコントラストベースのudg法に触発されて、バッチ内のスタイル変動の排除により、ドメインラベルを必要とせずにスプリアス相関を低減できる、より便利で柔軟な方法を提供できると仮定した。 この仮説を検証するために,我々は,UDGに対処するSSLメソッドとの統合に特化して設計されたバッチにおいて,画像のスタイルを標準化する比較的単純なFourierベースの手法であるBatch Styles Standardization (BSS)を紹介した。 既存のSSLメソッドとBSSを組み合わせることで、従来のUDGメソッドよりも大きなメリットがある。(1)SSL表現のドメイン不変性を高めるためにドメインラベルやドメイン固有のネットワークコンポーネントを不要にし、(2)BSSが多様なコントラストベースでも非コントラストベースのSSLメソッドとシームレスに統合できるため、柔軟性を提供する。 いくつかのudgデータセットにおける実験により、非シードドメインにおけるダウンストリームタスクのパフォーマンスが大幅に向上し、udgメソッドよりもパフォーマンスが向上するか、あるいは競合していることが示されている。 最後に、この研究は、SSL表現におけるドメイン不変性の改善におけるBSSの有効性に寄与する基盤メカニズムを明らかにします。

In Self-Supervised Learning (SSL), models are typically pretrained, fine-tuned, and evaluated on the same domains. However, they tend to perform poorly when evaluated on unseen domains, a challenge that Unsupervised Domain Generalization (UDG) seeks to address. Current UDG methods rely on domain labels, which are often challenging to collect, and domain-specific architectures that lack scalability when confronted with numerous domains, making the current methodology impractical and rigid. Inspired by contrastive-based UDG methods that mitigate spurious correlations by restricting comparisons to examples from the same domain, we hypothesize that eliminating style variability within a batch could provide a more convenient and flexible way to reduce spurious correlations without requiring domain labels. To verify this hypothesis, we introduce Batch Styles Standardization (BSS), a relatively simple yet powerful Fourier-based method to standardize the style of images in a batch specifically designed for integration with SSL methods to tackle UDG. Combining BSS with existing SSL methods offers serious advantages over prior UDG methods: (1) It eliminates the need for domain labels or domain-specific network components to enhance domain-invariance in SSL representations, and (2) offers flexibility as BSS can be seamlessly integrated with diverse contrastive-based but also non-contrastive-based SSL methods. Experiments on several UDG datasets demonstrate that it significantly improves downstream task performances on unseen domains, often outperforming or rivaling with UDG methods. Finally, this work clarifies the underlying mechanisms contributing to BSS's effectiveness in improving domain-invariance in SSL representations and performances on unseen domain.
翻訳日:2023-12-22 19:20:02 公開日:2023-12-21
# ランダム化されたマルチArmed Banditアルゴリズムの解析のための一般レシピ

A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms ( http://arxiv.org/abs/2303.06058v2 )

ライセンス: Link先を確認
Dorian Baudry and Kazuya Suzuki and Junya Honda(参考訳) 本稿では,ランダム化マルチアームドバンディットアルゴリズムの後悔境界を導出する一般的な手法を提案する。 それは、各アームのサンプリング確率と分布の族について十分な条件のセットをチェックすることで、対数的後悔を証明する。 直接的応用として、単一パラメータ指数族、ガウス分布、有界分布、モーメント上の条件を満たす分布を含む分布の様々なモデルの下で、MED(Minimum Empirical Divergence)とTS(Thompson Sampling)の2つの有名なバンディットアルゴリズムを再検討する。 特に,MEDがこれらのモデルすべてに対して漸近的に最適であることを示すとともに,その最適性がすでに知られているTSアルゴリズムの簡単な後悔解析も提供する。 さらに,H-モーメントを持つ非有界報酬分布の族に適応した新しい非パラメトリックTSアルゴリズム (h-NPTS) を解析することによって,本手法の関心をさらに深める。 このモデルは例えば、分散が既知の定数によって上界を持つ分布の非パラメトリックな族をキャプチャすることができる。

In this paper we propose a general methodology to derive regret bounds for randomized multi-armed bandit algorithms. It consists in checking a set of sufficient conditions on the sampling probability of each arm and on the family of distributions to prove a logarithmic regret. As a direct application we revisit two famous bandit algorithms, Minimum Empirical Divergence (MED) and Thompson Sampling (TS), under various models for the distributions including single parameter exponential families, Gaussian distributions, bounded distributions, or distributions satisfying some conditions on their moments. In particular, we prove that MED is asymptotically optimal for all these models, but also provide a simple regret analysis of some TS algorithms for which the optimality is already known. We then further illustrate the interest of our approach, by analyzing a new Non-Parametric TS algorithm (h-NPTS), adapted to some families of unbounded reward distributions with a bounded h-moment. This model can for instance capture some non-parametric families of distributions whose variance is upper bounded by a known constant.
翻訳日:2023-12-22 19:19:30 公開日:2023-12-21
# アスペクトベース感情分析のためのコントラスト変動情報ボトルネック

Contrastive variational information bottleneck for aspect-based sentiment analysis ( http://arxiv.org/abs/2303.02846v3 )

ライセンス: Link先を確認
Mingshan Chang, Min Yang, Qingshan Jiang, and Ruifeng Xu(参考訳) ディープラーニング技術はアスペクトベース感情分析(ABSA)の文献を支配し、最先端のパフォーマンスを実現している。 しかし、深いモデルは一般的に入力特徴と出力ラベルの間のスプリアス相関に苦しむため、ロバスト性や一般化能力が大きく損なわれる。 本稿では, CVIB(Contrastive Variational Information Bottleneck)フレームワークを用いて, ABSAの素因的相関を低減させる手法を提案する。 提案するCVIBフレームワークは,元のネットワークと自走ネットワークで構成され,これら2つのネットワークは,コントラスト学習によって同時に最適化される。 具体的には,入力特徴と予測ラベル間の過剰なパターンや急激な相関を排除した情報圧縮ネットワーク(自己表現型ネットワーク)を元のネットワークから学習するために,変分情報ボトルネック(VIB)の原理を用いる。 次に、意味的に類似する正の対を引き合いに出し、類似の対を押し出すために、自己相関学習を考案し、元のネットワークで学習されたアンカーの表現をそれぞれ正のペアとし、ミニバッチ内の2つの異なる文の表現を負のペアとして扱う。 CVIB法の有効性を検証するため, 5つのベンチマークABSAデータセットを用いて広範囲な実験を行い, 実験結果から, 総合予測性能, 堅牢性, 一般化の点で, 強力な競合相手よりも優れた性能が得られることが示された。 本論文の結果を再現するコードとデータは、https://github.com/shesshan/CVIB.comで公開されている。

Deep learning techniques have dominated the literature on aspect-based sentiment analysis (ABSA), achieving state-of-the-art performance. However, deep models generally suffer from spurious correlations between input features and output labels, which hurts the robustness and generalization capability by a large margin. In this paper, we propose to reduce spurious correlations for ABSA, via a novel Contrastive Variational Information Bottleneck framework (called CVIB). The proposed CVIB framework is composed of an original network and a self-pruned network, and these two networks are optimized simultaneously via contrastive learning. Concretely, we employ the Variational Information Bottleneck (VIB) principle to learn an informative and compressed network (self-pruned network) from the original network, which discards the superfluous patterns or spurious correlations between input features and prediction labels. Then, self-pruning contrastive learning is devised to pull together semantically similar positive pairs and push away dissimilar pairs, where the representations of the anchor learned by the original and self-pruned networks respectively are regarded as a positive pair while the representations of two different sentences within a mini-batch are treated as a negative pair. To verify the effectiveness of our CVIB method, we conduct extensive experiments on five benchmark ABSA datasets and the experimental results show that our approach achieves better performance than the strong competitors in terms of overall prediction performance, robustness, and generalization. Code and data to reproduce the results in this paper is available at: https://github.com/shesshan/CVIB.
翻訳日:2023-12-22 19:18:29 公開日:2023-12-21
# 2次元アノテーションによる3次元空間構造の推定

Estimating Generic 3D Room Structures from 2D Annotations ( http://arxiv.org/abs/2306.09077v2 )

ライセンス: Link先を確認
Denys Rozumnyi, Stefan Popov, Kevis-Kokitsi Maninis, Matthias Nie{\ss}ner, Vittorio Ferrari(参考訳) 室内の部屋は3Dシーン理解において最も一般的なユースケースである。 このタスクの現在の最先端メソッドは、大きな注釈付きデータセットによって駆動される。 部屋のレイアウトは特に重要で、壁、床、天井などの3d構造要素で構成されている。 しかし、特に純粋なRGBビデオではアノテートが困難である。 そこで本研究では,人間のアノテートが容易な2次元セグメンテーションマスクから,汎用的な3次元部屋レイアウトを生成する手法を提案する。 これらの2次元アノテーションに基づいて,シーン内の構造要素とその空間範囲の3次元平面方程式を自動再構成し,隣接要素を適切な接点で接続する。 我々は、YouTubeビデオを含むRealEstate10kデータセットに2246の3Dルームレイアウトを注釈して公開しています。 我々は,これら3dレイアウトアノテーションの高品質を広範囲な実験で実証する。

Indoor rooms are among the most common use cases in 3D scene understanding. Current state-of-the-art methods for this task are driven by large annotated datasets. Room layouts are especially important, consisting of structural elements in 3D, such as wall, floor, and ceiling. However, they are difficult to annotate, especially on pure RGB video. We propose a novel method to produce generic 3D room layouts just from 2D segmentation masks, which are easy to annotate for humans. Based on these 2D annotations, we automatically reconstruct 3D plane equations for the structural elements and their spatial extent in the scene, and connect adjacent elements at the appropriate contact edges. We annotate and publicly release 2246 3D room layouts on the RealEstate10k dataset, containing YouTube videos. We demonstrate the high quality of these 3D layouts annotations with extensive experiments.
翻訳日:2023-12-22 19:10:30 公開日:2023-12-21
# 生成粒子モデルとしてのGANとスコアベース拡散の統一

Unifying GANs and Score-Based Diffusion as Generative Particle Models ( http://arxiv.org/abs/2305.16150v3 )

ライセンス: Link先を確認
Jean-Yves Franceschi, Mike Gartrell, Ludovic Dos Santos, Thibaut Issenhuth, Emmanuel de B\'ezenac, Micka\"el Chen, Alain Rakotomamonjy(参考訳) 勾配流やスコアベース拡散モデルなどの粒子に基づく深部生成モデルは,近年,その顕著な性能により,注目を集めている。 微分方程式を用いて粒子分布を分解するという彼らの原理は、これまで広く普及していた生成逆数ネットワーク(GAN)とは対照的である。 本稿では,この解釈に挑戦し,粒子モデルの一般化としてジェネレータトレーニングをフレーミングすることで,粒子生成モデルと逆生成モデルを統一する新しい枠組みを提案する。 これは、ジェネレータが任意の生成モデルに追加されることを示唆している。 その結果、ジェネレータをスコアベース拡散モデルに統合し、ジェネレータを使わずにGANを訓練することが可能になる。 フレームワークの潜在的な応用の概念の証明として、これらのオリジナルのモデルの有効性を実証的に検証する。

Particle-based deep generative models, such as gradient flows and score-based diffusion models, have recently gained traction thanks to their striking performance. Their principle of displacing particle distributions using differential equations is conventionally seen as opposed to the previously widespread generative adversarial networks (GANs), which involve training a pushforward generator network. In this paper we challenge this interpretation, and propose a novel framework that unifies particle and adversarial generative models by framing generator training as a generalization of particle models. This suggests that a generator is an optional addition to any such generative model. Consequently, integrating a generator into a score-based diffusion model and training a GAN without a generator naturally emerge from our framework. We empirically test the viability of these original models as proofs of concepts of potential applications of our framework.
翻訳日:2023-12-22 19:09:58 公開日:2023-12-21
# ディープグラフニューラルネットワークのための可逆および不可逆ブラケットに基づくダイナミクス

Reversible and irreversible bracket-based dynamics for deep graph neural networks ( http://arxiv.org/abs/2305.15616v3 )

ライセンス: Link先を確認
Anthony Gruber, Kookjin Lee, Nathaniel Trask(参考訳) 近年の研究では、物理にインスパイアされたアーキテクチャにより、過剰なスムーシングなしにディープグラフニューラルネットワーク(GNN)のトレーニングが可能になることが示されている。 しかし、これらの物理学の役割は明らかではなく、可逆現象(例えばハミルトニアン)と非可逆現象(例えば拡散現象)の両方が、ダイアメトリックな反対のメカニズムにもかかわらず同等の結果を生じさせ、数学理論からの経験的な離脱によってさらに複雑化する例がある。 この研究は、構造保存ブラケットに基づく動的システムに基づく、新しいGNNアーキテクチャのシリーズを提示する。 ここで採用されている理論的原理の枠組みは、現在のアーキテクチャにおける理論からの離脱を文脈化し、ネットワーク性能における可逆性と非可逆性の役割をよりよく解明する、本質的に説明可能な構成を可能にする。

Recent works have shown that physics-inspired architectures allow the training of deep graph neural networks (GNNs) without oversmoothing. The role of these physics is unclear, however, with successful examples of both reversible (e.g., Hamiltonian) and irreversible (e.g., diffusion) phenomena producing comparable results despite diametrically opposed mechanisms, and further complications arising due to empirical departures from mathematical theory. This work presents a series of novel GNN architectures based upon structure-preserving bracket-based dynamical systems, which are provably guaranteed to either conserve energy or generate positive dissipation with increasing depth. It is shown that the theoretically principled framework employed here allows for inherently explainable constructions, which contextualize departures from theory in current architectures and better elucidate the roles of reversibility and irreversibility in network performance.
翻訳日:2023-12-22 19:09:44 公開日:2023-12-21
# DiffBlender:スケーラブルで構成可能なマルチモーダルテキスト・画像拡散モデル

DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.15194v2 )

ライセンス: Link先を確認
Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn(参考訳) 本研究では,スケッチ,ボックス,カラーパレット,スタイル埋め込みといったテキスト記述以外の多様なモダリティを1つのモデルに組み込むことにより,拡散型テキスト・ツー・イメージモデル(t2i)の機能拡張を目指している。 そこで我々は,条件のチャネルを画像形式,空間トークン,非空間トークンの3つのタイプに分割することで,DiffBlenderと呼ばれるマルチモーダルT2I拡散モデルを設計する。 DiffBlenderのユニークなアーキテクチャは、条件付き画像生成のためのスケーラブルなフレームワークを開拓し、新しい入力モダリティの追加を容易にする。 特に、既存の生成モデルである安定拡散のパラメータを変更することなく、部分的なコンポーネントを更新するだけでこれを実現する。 本研究では,既存の条件付き生成法と定量的・質的比較を行い,マルチモーダル生成の新しいベンチマークを確立する。 DiffBlenderは提供された全ての情報を忠実にブレンドし、その様々な応用を詳細な画像合成で示す。

In this study, we aim to extend the capabilities of diffusion-based text-to-image (T2I) generation models by incorporating diverse modalities beyond textual description, such as sketch, box, color palette, and style embedding, within a single model. We thus design a multimodal T2I diffusion model, coined as DiffBlender, by separating the channels of conditions into three types, i.e., image forms, spatial tokens, and non-spatial tokens. The unique architecture of DiffBlender facilitates adding new input modalities, pioneering a scalable framework for conditional image generation. Notably, we achieve this without altering the parameters of the existing generative model, Stable Diffusion, only with updating partial components. Our study establishes new benchmarks in multimodal generation through quantitative and qualitative comparisons with existing conditional generation methods. We demonstrate that DiffBlender faithfully blends all the provided information and showcase its various applications in the detailed image synthesis.
翻訳日:2023-12-22 19:09:26 公開日:2023-12-21
# 生存分析のためのディープラーニング: レビュー

Deep Learning for Survival Analysis: A Review ( http://arxiv.org/abs/2305.14961v3 )

ライセンス: Link先を確認
Simon Wiegrebe, Philipp Kopper, Raphael Sonabend, Bernd Bischl, and Andreas Bender(参考訳) 近年の深層学習(DL)技術の生存分析分野への流入は、例えば、画像、テキスト、オミクスデータなどの非構造化データや高次元データから学ぶなど、大きな方法論的進歩をもたらした。 本研究は, DL関連属性と生存関連属性の両方に基づいて, DL-based method for time-to-event analysisを包括的に検討する。 まとめると、レビューされたメソッドは、時間から時間までのデータに関連するタスクの小さなサブセットにのみ対処する。 シングルリスクの右チャージされたデータで、より複雑な設定を組み込むことを無視する。 我々の発見は編集可能でオープンソースでインタラクティブなテーブルで要約されている。 この研究領域は急速に進歩しているので、このデータベースを最新に保つため、コミュニティの貢献を奨励します。

The influx of deep learning (DL) techniques into the field of survival analysis in recent years has led to substantial methodological progress; for instance, learning from unstructured or high-dimensional data such as images, text or omics data. In this work, we conduct a comprehensive systematic review of DL-based methods for time-to-event analysis, characterizing them according to both survival- and DL-related attributes. In summary, the reviewed methods often address only a small subset of tasks relevant to time-to-event data - e.g., single-risk right-censored data - and neglect to incorporate more complex settings. Our findings are summarized in an editable, open-source, interactive table: https://survival-org.github.io/DL4Survival. As this research area is advancing rapidly, we encourage community contribution in order to keep this database up to date.
翻訳日:2023-12-22 19:09:07 公開日:2023-12-21
# 完全不完全情報を用いた意味的不変マルチビュークラスタリング

Semantic Invariant Multi-view Clustering with Fully Incomplete Information ( http://arxiv.org/abs/2305.12743v2 )

ライセンス: Link先を確認
Pengxin Zeng, Mouxing Yang, Yiding Lu, Changqing Zhang, Peng Hu, Xi Peng(参考訳) 不完全な情報を含む堅牢なマルチビュー学習は、実世界のマルチビューアプリケーションに影響を与える不完全対応や不完全インスタンスといった問題によって、大きな注目を集めている。 既存のアプローチは、ペア化されたサンプルに強く依存して、欠陥を認識またはインプットするが、データ収集と送信の複雑さのため、実際にそのような前提条件を満たすことはできない。 この問題に対処するために、ペア化サンプルを必要としない不完全な情報を持つ多視点クラスタリングのためのSemantic Invariance LEarning(SMILE)という新しいフレームワークを提案する。 具体的には、異なるビューにまたがる不変なセマンティクス分布の存在を発見し、ペアのサンプルを必要とせずに、クロスビューの相違を緩和してコンセンサスセマンティクスを学ぶ。 結果として生じるコンセンサスセマンティクスは、クロスビューの分散シフトの影響を受けないままであり、欠陥インスタンスの修正/インプットやクラスタ形成に役立ちます。 5つのベンチマークにおいて,13の最先端ベースラインとの比較実験を行い,スマイルの有効性を実証した。 我々の手法は、NoisyMNISTのクラスタリング精度を19.3\%/23.2\%から82.7\%/69.0\%に改善する。 コードはhttps://pengxi.me.comからアクセスできる。

Robust multi-view learning with incomplete information has received significant attention due to issues such as incomplete correspondences and incomplete instances that commonly affect real-world multi-view applications. Existing approaches heavily rely on paired samples to realign or impute defective ones, but such preconditions cannot always be satisfied in practice due to the complexity of data collection and transmission. To address this problem, we present a novel framework called SeMantic Invariance LEarning (SMILE) for multi-view clustering with incomplete information that does not require any paired samples. To be specific, we discover the existence of invariant semantic distribution across different views, which enables SMILE to alleviate the cross-view discrepancy to learn consensus semantics without requiring any paired samples. The resulting consensus semantics remain unaffected by cross-view distribution shifts, making them useful for realigning/imputing defective instances and forming clusters. We demonstrate the effectiveness of SMILE through extensive comparison experiments with 13 state-of-the-art baselines on five benchmarks. Our approach improves the clustering accuracy of NoisyMNIST from 19.3\%/23.2\% to 82.7\%/69.0\% when the correspondences/instances are fully incomplete. The code could be accessed from https://pengxi.me.
翻訳日:2023-12-22 19:08:54 公開日:2023-12-21
# Moment Matching Denoisingギブズサンプリング

Moment Matching Denoising Gibbs Sampling ( http://arxiv.org/abs/2305.11650v5 )

ライセンス: Link先を確認
Mingtian Zhang and Alex Hawkins-Hooker and Brooks Paige and David Barber(参考訳) エネルギーベースモデル(ebms)は複雑なデータ分布をモデリングするための汎用フレームワークを提供する。 しかし、ESMからのトレーニングとサンプリングは引き続き大きな課題を呈している。 スケーラブルなEMMトレーニングのための広く使われているDenoising Score Matching (DSM) 法は不整合の問題に悩まされ、エネルギーモデルが「ノイズの多い」データ分布を学習する。 そこで本研究では,DSM で十分に訓練された 'ノイズ' モデルが与えられた場合に,基礎となるクリーンモデルから効果的なサンプリングを可能にする,モーメントマッチングを用いた効率的なサンプリングフレームワークを提案する。 関連手法と比較して,本手法の利点を考察し,高次元データセットへの拡張方法を示す。

Energy-Based Models (EBMs) offer a versatile framework for modeling complex data distributions. However, training and sampling from EBMs continue to pose significant challenges. The widely-used Denoising Score Matching (DSM) method for scalable EBM training suffers from inconsistency issues, causing the energy model to learn a `noisy' data distribution. In this work, we propose an efficient sampling framework: (pseudo)-Gibbs sampling with moment matching, which enables effective sampling from the underlying clean model when given a `noisy' model that has been well-trained via DSM. We explore the benefits of our approach compared to related methods and demonstrate how to scale the method to high-dimensional datasets.
翻訳日:2023-12-22 19:08:30 公開日:2023-12-21
# 相関や多様性の微妙な変化も、データセットとバイアスの問題

Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues ( http://arxiv.org/abs/2305.05807v2 )

ライセンス: Link先を確認
Alceu Bissoto, Catarina Barata, Eduardo Valle, Sandra Avila(参考訳) 分散シフトは現実世界のデータセットで一般的であり、ディープラーニングモデルのパフォーマンスと信頼性に影響を与える可能性がある。 本稿では,テストサンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと,テストデータにみられる不変性と刺激的特徴の相関関係を示す場合の相関シフトの2つのタイプの分布シフトについて検討する。 そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。 最後に,本手法を皮膚がん解析の現実世界の分類問題に適用し,アウト・オブ・ディストリビューション・データセットと専用バイアス・アノテーションを用いた。 私たちのプロトコルは3つの発見を示しています 1)低バイアストレーニングにおいても相関シフトを学習し,伝播させるモデル。これは,非可算弱バイアスを蓄積し,組み合わせるリスクを生じさせる。 2) モデルは,高次・低次シナリオにおいて頑健な特徴を学習するが,テストサンプルが持てば刺激的な特徴を使用する。 3) 多様性シフトは、偏りのあるモデルが不変な特徴が欠けているときにバイアスに依存することを期待するので、これは直感的ではない。 私たちの研究は、分散シフトの研究と実践に影響を与え、モデルがどのように学習し、異なるタイプのシフトの下で急激な相関に依存するかについて、新たな洞察を提供する。

Distribution shifts are common in real-world datasets and can affect the performance and reliability of deep learning models. In this paper, we study two types of distribution shifts: diversity shifts, which occur when test samples exhibit patterns unseen during training, and correlation shifts, which occur when test data present a different correlation between seen invariant and spurious features. We propose an integrated protocol to analyze both types of shifts using datasets where they co-exist in a controllable manner. Finally, we apply our approach to a real-world classification problem of skin cancer analysis, using out-of-distribution datasets and specialized bias annotations. Our protocol reveals three findings: 1) Models learn and propagate correlation shifts even with low-bias training; this poses a risk of accumulating and combining unaccountable weak biases; 2) Models learn robust features in high- and low-bias scenarios but use spurious ones if test samples have them; this suggests that spurious correlations do not impair the learning of robust features; 3) Diversity shift can reduce the reliance on spurious correlations; this is counter intuitive since we expect biased models to depend more on biases when invariant features are missing. Our work has implications for distribution shift research and practice, providing new insights into how models learn and rely on spurious correlations under different types of shifts.
翻訳日:2023-12-22 19:07:55 公開日:2023-12-21
# MARS: 車両損傷事例セグメンテーションのためのシークエンシャル・クアドツリーノードを用いたマスク注意保持

MARS: Mask Attention Refinement with Sequential Quadtree Nodes for Car Damage Instance Segmentation ( http://arxiv.org/abs/2305.04743v3 )

ライセンス: Link先を確認
Teerapong Panboonyuen, Naphat Nithisopa, Panin Pienroj, Laphonchai Jirachuphun, Chaiwasut Watthanasirikrit, Naruepon Pornwiriyakul(参考訳) 自動車保険業界にとって不運による自動車被害の評価は重要である。 しかし、ディープラーニングネットワークは入力として車の損傷画像用に設計されておらず、セグメンテッドマスクはいまだに非常に粗いため、現実のアプリケーションでは精度が不十分である。 本稿では,車両損傷事例分割のためのmars(mask attentionfine with sequential quadtree node)を提案する。 我々のMARSは、シーケンシャルなクアッドツリーノード層とクアッドツリートランスフォーマーの間のグローバルな依存関係を引き出す自己注意機構を示し、チャネル重みを補正し、高精度なインスタンスマスクを予測する。 広範囲にわたる実験により,mars は +1.3 maskap ベースの r50-fpn バックボーンと +2.3 maskap ベースの r101-fpn バックボーンによって,マスキング r-cnn [9] や pointrend [13] や mask transfiner [12] といった3つの人気のあるベンチマークで,最先端 (sota) インスタンスのセグメンテーション法を上回っていることが証明された。 デモはhttps://github.com/kaopanboonyuen/MARS.comで公開しています。

Evaluating car damages from misfortune is critical to the car insurance industry. However, the accuracy is still insufficient for real-world applications since the deep learning network is not designed for car damage images as inputs, and its segmented masks are still very coarse. This paper presents MARS (Mask Attention Refinement with Sequential quadtree nodes) for car damage instance segmentation. Our MARS represents self-attention mechanisms to draw global dependencies between the sequential quadtree nodes layer and quadtree transformer to recalibrate channel weights and predict highly accurate instance masks. Our extensive experiments demonstrate that MARS outperforms state-of-the-art (SOTA) instance segmentation methods on three popular benchmarks such as Mask R-CNN [9], PointRend [13], and Mask Transfiner [12], by a large margin of +1.3 maskAP-based R50-FPN backbone and +2.3 maskAP-based R101-FPN backbone on Thai car-damage dataset. Our demos are available at https://github.com/kaopanboonyuen/MARS.
翻訳日:2023-12-22 19:07:30 公開日:2023-12-21
# Persistent HomologyがObject Unityと出会う: Clutterにおけるオブジェクト認識

Persistent Homology Meets Object Unity: Object Recognition in Clutter ( http://arxiv.org/abs/2305.03815v3 )

ライセンス: Link先を確認
Ekta U. Samani, Ashis G. Banerjee(参考訳) 屋内環境における閉塞物体の認識は,移動ロボットにとって困難な問題である。 この課題に対処するために,深度画像から生成する点雲のための新しいディスクリプタtopsと,人間の推論にインスパイアされた関連する認識フレームワークthorを提案する。 ディスクリプタは、持続的ホモロジーを用いた単純複体の濾過から位相的特徴を計算するために新しいスライシングに基づくアプローチを採用し、オブジェクトの統一を用いた推論に基づく認識を促進する。 ベンチマークデータセットとは別に,環境条件の異なる実世界のシナリオを反映し,コモディティハードウェアを用いてキュレートした新しいデータセットUW Indoor Scenes (UW-IS)Occludedデータセットの性能を報告する。 THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度はかなり高い。 そのためthorは、屋内での日常使用を目的とした低コストロボットにおけるロバストな認識に向けた有望なステップである。

Recognition of occluded objects in unseen and unstructured indoor environments is a challenging problem for mobile robots. To address this challenge, we propose a new descriptor, TOPS, for point clouds generated from depth images and an accompanying recognition framework, THOR, inspired by human reasoning. The descriptor employs a novel slicing-based approach to compute topological features from filtrations of simplicial complexes using persistent homology, and facilitates reasoning-based recognition using object unity. Apart from a benchmark dataset, we report performance on a new dataset, the UW Indoor Scenes (UW-IS) Occluded dataset, curated using commodity hardware to reflect real-world scenarios with different environmental conditions and degrees of object occlusion. THOR outperforms state-of-the-art methods on both the datasets and achieves substantially higher recognition accuracy for all the scenarios of the UW-IS Occluded dataset. Therefore, THOR, is a promising step toward robust recognition in low-cost robots, meant for everyday use in indoor settings.
翻訳日:2023-12-22 19:07:04 公開日:2023-12-21
# 駆動量子系のクリロフ構成と複雑性

Krylov construction and complexity for driven quantum systems ( http://arxiv.org/abs/2305.00256v3 )

ライセンス: Link先を確認
Amin A. Nizami and Ankit W. Shrestha(参考訳) クリロフ複雑性は作用素の成長と量子カオスの研究と関連する重要な力学量であり、最近では様々な時間に依存しない系で多くの研究がなされている。 時間依存型(駆動型)量子システムにおけるK-複素性の研究を開始する。 周期時間依存(フローク)システムでは、クリロフ構成を行うための自然な方法を開発し、そのようなシステムに対して(状態と演算子)k-複素性を定義する。 キックド系、特にトーラス上の量子キックローターに着目して、弱い結合系と強い結合系の間を補間する系結合定数とのK-複素性とともにアルノルディ係数の時間依存性の詳細な数値的研究を行う。 また,システム結合定数の関数としてのクリロフ部分空間次元の成長についても検討した。

Krylov complexity is an important dynamical quantity with relevance to the study of operator growth and quantum chaos, and has recently been much studied for various time-independent systems. We initiate the study of K-complexity in time-dependent (driven) quantum systems. For periodic time-dependent (Floquet) systems, we develop a natural method for doing the Krylov construction and then define (state and operator) K-complexity for such systems. Focusing on kicked systems, in particular the quantum kicked rotor on a torus, we provide a detailed numerical study of the time dependence of Arnoldi coefficients as well as of the K-complexity with the system coupling constant interpolating between the weak and strong coupling regime. We also study the growth of the Krylov subspace dimension as a function of the system coupling constant.
翻訳日:2023-12-22 19:06:44 公開日:2023-12-21
# 部分順序の共役フリージェネリック集合の連結性に関する一考察

A note on the connectedness property of union-free generic sets of partial orders ( http://arxiv.org/abs/2304.10549v2 )

ライセンス: Link先を確認
Georg Schollmeyer, Hannah Blocher(参考訳) この短い注記は、blocherらによって導入された連結性の性質を記述し、証明している。 2023] 部分順序に対するデータ深さ関数の文脈において。 連結性はユニオンフリーな一般集合の構造的洞察を与える。 これらの集合はblocher et alで示される。 2023]は、形式的概念解析理論の中に自然に現れるすべての部分順序の集合上のクロージャ演算子を用いて定義される。 形式的概念解析の言語では、連結性の性質は鮮明に証明できる。 しかし、その後Blocherらで活動した。 2023] 形式的な概念分析を議論しなかったので, このノートに証明をアウトソースした。

This short note describes and proves a connectedness property which was introduced in Blocher et al. [2023] in the context of data depth functions for partial orders. The connectedness property gives a structural insight into union-free generic sets. These sets, presented in Blocher et al. [2023], are defined by using a closure operator on the set of all partial orders which naturally appears within the theory of formal concept analysis. In the language of formal concept analysis, the property of connectedness can be vividly proven. However, since within Blocher et al. [2023] we did not discuss formal concept analysis, we outsourced the proof to this note.
翻訳日:2023-12-22 19:06:30 公開日:2023-12-21
# オンライン求人勧告におけるグラフデータ理解のための大規模言語モデルの検討

Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations ( http://arxiv.org/abs/2307.05722v2 )

ライセンス: Link先を確認
Likang Wu, Zhaopeng Qiu, Zhi Zheng, Hengshu Zhu, and Enhong Chen(参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらし、様々な領域でその例外的な能力を実証している。 しかし、仕事の推薦における行動グラフ理解の可能性はほとんど未解明のままである。 本稿では、行動グラフの理解における大規模言語モデルの能力を明らかにすることに焦点を当て、この理解を活用してオンライン採用における推薦を強化することを目的とした。 本稿では,大規模言語モデルが提供する豊かな文脈情報と意味表現を活用し,行動グラフを分析し,基礎となるパターンと関係を明らかにする新しい枠組みを提案する。 具体的には,llmレコメンデータを利用して行動グラフを初めて理解し,対応する経路拡張モジュールを設計し,経路に基づくシーケンス入力によって引き起こされるプロンプトバイアスを軽減するメタパスプロンプトコンストラクタを提案する。 この機能を活用すれば、個々のユーザに対してパーソナライズされ、正確なジョブレコメンデーションが可能になります。 提案手法の有効性を包括的データセットで評価し、推奨品質の妥当性と品質を向上させる能力を示す。 この研究は、大規模言語モデルの未完成の可能性だけでなく、採用市場における高度なレコメンデーションシステムの開発にも有用な洞察を提供する。 本研究は, 自然言語処理の分野の拡大に寄与し, 求職経験の向上に実際的な意味合いを与える。 コードをhttps://github.com/WLiK/GLRecでリリースします。

Large Language Models (LLMs) have revolutionized natural language processing tasks, demonstrating their exceptional capabilities in various domains. However, their potential for behavior graph understanding in job recommendations remains largely unexplored. This paper focuses on unveiling the capability of large language models in understanding behavior graphs and leveraging this understanding to enhance recommendations in online recruitment, including the promotion of out-of-distribution (OOD) application. We present a novel framework that harnesses the rich contextual information and semantic representations provided by large language models to analyze behavior graphs and uncover underlying patterns and relationships. Specifically, we propose a meta-path prompt constructor that leverages LLM recommender to understand behavior graphs for the first time and design a corresponding path augmentation module to alleviate the prompt bias introduced by path-based sequence input. By leveraging this capability, our framework enables personalized and accurate job recommendations for individual users. We evaluate the effectiveness of our approach on a comprehensive dataset and demonstrate its ability to improve the relevance and quality of recommended quality. This research not only sheds light on the untapped potential of large language models but also provides valuable insights for developing advanced recommendation systems in the recruitment market. The findings contribute to the growing field of natural language processing and offer practical implications for enhancing job search experiences. We release the code at https://github.com/WLiK/GLRec.
翻訳日:2023-12-22 19:00:41 公開日:2023-12-21
# 普遍的、体系的に即効性があり、サイズに一貫性のある量子コンピュータ上の物理に制約されたハードウェア効率のansatz

Physics-Constrained Hardware-Efficient Ansatz on Quantum Computers that is Universal, Systematically Improvable, and Size-consistent ( http://arxiv.org/abs/2307.03563v2 )

ライセンス: Link先を確認
Xiaoxiao Xiao, Hewang Zhao, Jiajun Ren, Wei-hai Fang, Zhendong Li(参考訳) 変分波動関数 ans\"{a}tze は、物理学や化学における量子多体問題の核心である。 量子コンピュータにおけるハードウェア効率アンサッツ(HEA)の以前の設計は、主にヒューリスティックスに基づいており、厳密な理論的基礎が欠如している。 本稿では,いくつかの基本的な制約を課すことで,厳密な理論保証を伴うhea設計法を提案する。 具体的には、ターゲットHEAは普遍的で、体系的に実装可能で、サイズに一貫性を持たなければならないが、これは拡張性に関する量子多体理論において重要な概念である。 我々はサイズ一貫性の概念をHEAに拡張し、線形量子ビット接続のみを必要としながら、これらの基本的な制約をすべて満たすHEAの具体的実現を示す。 物理学に制約されたHEAは、ハイゼンベルクモデルやいくつかの典型的な分子で数値的に示されるように、精度とスケーラビリティの両方の観点から他のヒューリスティックに設計されたHEAよりも優れている。 特に, 復元サイズ整合性により, 一定の精度に達するために必要な層数を大幅に削減できることがわかった。 対照的に、これらの制約を満たす他のHEAの失敗は、スケーラビリティを10キュービットを超える大規模システムに著しく制限します。 量子コンピュータにおける多体問題を効率的に解くため,heaの設計に物理的制約を組み込むことの重要性を強調した。

Variational wavefunction ans\"{a}tze are at the heart of solving quantum many-body problems in physics and chemistry. Previous designs of hardware-efficient ansatz (HEA) on quantum computers are largely based on heuristics and lack rigorous theoretical foundations. In this work, we introduce a physics-constrained approach for designing HEA with rigorous theoretical guarantees by imposing a few fundamental constraints. Specifically, we require that the target HEA to be universal, systematically improvable, and size-consistent, which is an important concept in quantum many-body theories for scalability, but has been overlooked in previous designs of HEA. We extend the notion of size-consistency to HEA, and present a concrete realization of HEA that satisfies all these fundamental constraints while only requiring linear qubit connectivity. The developed physics-constrained HEA is superior to other heuristically designed HEA in terms of both accuracy and scalability, as demonstrated numerically for the Heisenberg model and some typical molecules. In particular, we find that restoring size-consistency can significantly reduce the number of layers needed to reach certain accuracy. In contrast, the failure of other HEA to satisfy these constraints severely limits their scalability to larger systems with more than ten qubits. Our work highlights the importance of incorporating physical constraints into the design of HEA for efficiently solving many-body problems on quantum computers.
翻訳日:2023-12-22 19:00:15 公開日:2023-12-21
# 階層的オープン語彙的ユニバーサルイメージセグメンテーション

Hierarchical Open-vocabulary Universal Image Segmentation ( http://arxiv.org/abs/2307.00764v2 )

ライセンス: Link先を確認
Xudong Wang and Shufan Li and Konstantinos Kallidromitis and Yusuke Kato and Kazuki Kozuka and Trevor Darrell(参考訳) Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。 しかし、複雑な視覚シーンは自然により単純な部品に分解され、複数のレベルの粒度で抽象化され、固有のセグメンテーションあいまいさをもたらす。 この曖昧さを回避し、外部要因として扱う既存の方法とは異なり、このアプローチでは、異なる意味レベルを包含する階層表現を学習プロセスに積極的に組み込む。 本稿では,分離されたテキスト画像融合機構と表現学習モジュールを提案する。 さらに,これらのカテゴリー間のテキスト的特徴と視覚的特徴の相違を系統的に検討した。 結果として得られたHIPIEは、統一フレームワーク内の階層的、oPen-vocabulary、unIvErsalセグメンテーションタスクに取り組む。 ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW、SeginWなど40以上のデータセットでベンチマークされたHIPIEは、セマンティックレベル(セマンティックセグメンテーションなど)、インスタンスレベル(パンプト/リリファレンスセグメンテーションとオブジェクト検出など)、および部分レベル(パート/サブパートセグメンテーションなど)タスクを含む、さまざまなレベルのイメージ理解において、最先端の結果を達成する。 私たちのコードはhttps://github.com/berkeley-hipie/hipieでリリースしています。

Open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can be naturally decomposed into simpler parts and abstracted at multiple levels of granularity, introducing inherent segmentation ambiguity. Unlike existing methods that typically sidestep this ambiguity and treat it as an external factor, our approach actively incorporates a hierarchical representation encompassing different semantic-levels into the learning process. We propose a decoupled text-image fusion mechanism and representation learning modules for both "things" and "stuff". Additionally, we systematically examine the differences that exist in the textual and visual features between these types of categories. Our resulting model, named HIPIE, tackles HIerarchical, oPen-vocabulary, and unIvErsal segmentation tasks within a unified framework. Benchmarked on over 40 datasets, e.g., ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW and SeginW, HIPIE achieves the state-of-the-art results at various levels of image comprehension, including semantic-level (e.g., semantic segmentation), instance-level (e.g., panoptic/referring segmentation and object detection), as well as part-level (e.g., part/subpart segmentation) tasks. Our code is released at https://github.com/berkeley-hipie/HIPIE.
翻訳日:2023-12-22 18:59:49 公開日:2023-12-21
# 超伝導量子ビットの完全分離と最大局在化のためのチューナブルカプラ

Tunable coupler to fully decouple and maximally localize superconducting qubits ( http://arxiv.org/abs/2306.17007v2 )

ライセンス: Link先を確認
Lukas Heunisch, Christopher Eichler, Michael J. Hartmann(参考訳) 超伝導量子ハードウェアの能力を向上させるには、高いゲートフィダリティと低いクロストーク、特に量子ビットを複数の隣接ノードに結合する大規模デバイスが必要となる。 これら両方の目的の進展は、量子ビットのペア間のすべての相互作用を完全に制御する能力の恩恵を受ける。 本稿では,分散分散したトランスモン量子ビットの完全分離を可能にする新しいカプラモデルを提案する。すなわちzz-クロストークは,量子ビットの計算基底状態の最大局在を維持しながら完全に抑制される。 さらに、分散デチューンされたトランスモン系の場合、カプラの非調和性がアイドリング点において正である場合に限り、これは成り立つ。 ランプ要素モデルに対する40ns CZゲートのシミュレーションにより、トランスモン量子ビットの最先端コヒーレンス時間によって課される限界以下で達成可能なプロセス不忠実性を推算できる。 一方、キュービット間のアイドルゲートは寄生相互作用によってもはや制限されない。 提案手法を大規模集積量子ビットグリッドに適用し, ゲート操作を行う1組の量子ビットをチップの他の部分から完全に分離すると同時に, ゲートの忠実度を個々の量子ビットのコヒーレンス時間によって設定された限界まで押し上げることができることを示した。

Enhancing the capabilities of superconducting quantum hardware, requires higher gate fidelities and lower crosstalk, particularly in larger scale devices, in which qubits are coupled to multiple neighbors. Progress towards both of these objectives would highly benefit from the ability to fully control all interactions between pairs of qubits. Here we propose a new coupler model that allows to fully decouple dispersively detuned Transmon qubits from each other, i.e. ZZ-crosstalk is completely suppressed while maintaining a maximal localization of the qubits' computational basis states. We further reason that, for a dispersively detuned Transmon system, this can only be the case if the anharmonicity of the coupler is positive at the idling point. A simulation of a 40ns CZ-gate for a lumped element model suggests that achievable process infidelity can be pushed below the limit imposed by state-of-the-art coherence times of Transmon qubits. On the other hand, idle gates between qubits are no longer limited by parasitic interactions. We show that our scheme can be applied to large integrated qubit grids, where it allows to fully isolate a pair of qubits, that undergoes a gate operation, from the rest of the chip while simultaneously pushing the fidelity of gates to the limit set by the coherence time of the individual qubits.
翻訳日:2023-12-22 18:59:17 公開日:2023-12-21
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク

Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v7 )

ライセンス: Link先を確認
Jonas B. Sandbrink(参考訳) 人工知能(AI)の進歩が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。 本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。 GPT-4などのLCMは、二重用途の情報を提供し、歴史的生物兵器による障壁を取り除く可能性がある。 LLMはマルチモーダルなラボアシスタントや自律科学ツールに変換されるため、実験室での作業において、非専門家をサポートする能力が向上する。 したがって、LDMは特に生物学的誤用に対する障壁を低くすることができる。 対照的に、BDTは高度なアクターの能力を拡大する。 具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。 LLMとBDTの収束は、生物学的剤による害の天井を上昇させ、それらが広くアクセスできるようにする。 さまざまな介入がリスク管理に役立ちます。 独立したプレリリース評価は、モデルの能力とセーフガードの有効性を理解するのに役立つだろう。 このようなツールへのアクセスを差別化するための選択肢は、オープンリリースシステムのメリットを慎重に考慮すべきである。 最後に、リスク軽減に必須となるのは、遺伝子合成産物の普遍的スクリーニングと強化である。

As advancements in artificial intelligence (AI) propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that could pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4 and its successors, might provide dual-use information and thus remove some barriers encountered by historical biological weapons efforts. As LLMs are turned into multi-modal lab assistants and autonomous science tools, this will increase their ability to support non-experts in performing laboratory work. Thus, LLMs may in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, the convergence of LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. A range of interventions would help to manage risks. Independent pre-release evaluations could help understand the capabilities of models and the effectiveness of safeguards. Options for differentiated access to such tools should be carefully weighed with the benefits of openly releasing systems. Lastly, essential for mitigating risks will be universal and enhanced screening of gene synthesis products.
翻訳日:2023-12-22 18:58:53 公開日:2023-12-21
# ChessGPT:ブリッジング政策学習と言語モデリング

ChessGPT: Bridging Policy Learning and Language Modeling ( http://arxiv.org/abs/2306.09200v2 )

ライセンス: Link先を確認
Xidong Feng, Yicheng Luo, Ziyan Wang, Hongrui Tang, Mengyue Yang, Kun Shao, David Mguni, Yali Du, Jun Wang(参考訳) 意思決定課題の解決には,(1) 環境からのインタラクションを再現する歴史的政策データ,(2) 自然言語形態の分析的洞察, 価値ある思考過程や戦略的考察, の2つの主要な情報源からの情報に依存する。 それにもかかわらず、先行研究の大部分は、政策や価値関数を直接学習するためにのみ履歴リプレイを使用するか、単なる言語コーパスを利用した言語モデルのトレーニングに携わる、という1つのソースのみに焦点を当てている。 本稿では、強力な自律エージェントが両方のソースをカバーするべきであると論じる。 そこで我々は,これら2つの情報源からのデータをチェスゲームに組み込むことで,GPTモデルのブリッジングポリシ学習と言語モデリングを行うChessGPTを提案する。 具体的には,チェスに関連する大規模ゲームと言語データセットを構築する。 データセットを活用することで,政策学習と言語モデリングの統合という2つのモデル例を紹介する。 最後に,言語モデルのチェス能力を評価するための完全評価フレームワークを提案する。 実験結果は,モデルとデータセットの有効性を検証する。 コード、モデル、データセットをhttps://github.com/waterhorse1/ChessGPTでオープンソースにしています。

When solving decision-making tasks, humans typically depend on information from two key sources: (1) Historical policy data, which provides interaction replay from the environment, and (2) Analytical insights in natural language form, exposing the invaluable thought process or strategic considerations. Despite this, the majority of preceding research focuses on only one source: they either use historical replay exclusively to directly learn policy or value functions, or engaged in language model training utilizing mere language corpus. In this paper, we argue that a powerful autonomous agent should cover both sources. Thus, we propose ChessGPT, a GPT model bridging policy learning and language modeling by integrating data from these two sources in Chess games. Specifically, we build a large-scale game and language dataset related to chess. Leveraging the dataset, we showcase two model examples ChessCLIP and ChessGPT, integrating policy learning and language modeling. Finally, we propose a full evaluation framework for evaluating language model's chess ability. Experimental results validate our model and dataset's effectiveness. We open source our code, model, and dataset at https://github.com/waterhorse1/ChessGPT.
翻訳日:2023-12-22 18:58:31 公開日:2023-12-21
# Image Captionersはスケーラブルな視覚学習ツール

Image Captioners Are Scalable Vision Learners Too ( http://arxiv.org/abs/2306.07915v5 )

ライセンス: Link先を確認
Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer(参考訳) webからのイメージテキストペアでのコントラストプリトレーニングは、ビジョンバックボーン、特に大規模マルチモーダルモデルのコンテキストにおいて、最も一般的な大規模プリトレーニング戦略の1つです。 同時に、この種のデータに対する画像キャプションは、一般的に、劣等な事前訓練戦略とみなされる。 本稿では,この2つの事前学習戦略を公正に比較し,学習データ,計算量,モデル容量を慎重にマッチングする。 分類タスクにおいて、キャプションは、視覚と言語タスクでそれらを上回りながら、コントラスト的に事前学習されたエンコーダと競合する視覚エンコーダを生成します。 さらに,モデルアーキテクチャとスケール,および事前学習データが表現品質に与える影響を解析し,これらの軸に沿ってキャプションが同等かそれ以上のスケーリング行動を示すことを見出した。 その結果,画像の字幕化は従来考えられていたよりも強力な事前学習戦略であることが示唆された。

Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed.
翻訳日:2023-12-22 18:58:11 公開日:2023-12-21
# 2光子励起による非同定エミッタ間の最大絡み合いの散逸安定化

Dissipative stabilization of maximal entanglement between non-identical emitters via two-photon excitation ( http://arxiv.org/abs/2306.06028v2 )

ライセンス: Link先を確認
Alejandro Vivas-Via\~na, Diego Mart\'in-Cano, Carlos S\'anchez Mu\~noz(参考訳) 2つの非同一の量子エミッタは、キャビティ内に配置され、2光子共鳴でコヒーレントに励起されるとき、ほぼ最大エンタングルメントの定常状態に達することができる。 vivas-via\~na等では、空洞に埋め込まれた強く相互作用する量子エミッタの間で、w$状態の絡み合いを安定化する周波数分解型パーセル効果を導入する。 ここでは、2光子共鳴においてコヒーレント励起の下で相互作用する2つの量子エミッタという、特にリッチな現象論による特定の構成を深く掘り下げる。 このシナリオでは、2光子駆動とパーセル増進崩壊の組み合わせがそれぞれ系を準放射状態と超放射状態に安定化させる2つの共振器空洞周波数が生じる。 非退化エミッタの場合を考慮し、系のパラメータ空間を探索することにより、この機構は、2光子共鳴でエミッタを駆動する際に静止および準安定な絡み合いを生じさせる複雑な現象の1つに過ぎないことを示した。 我々は,このメカニズムの展望をグローバルに捉え,これらの現象に関する解析的特徴と洞察を提供し,文献における過去の報告とのつながりを確立し,これらの効果を光学的に検出する方法について議論する。

Two non-identical quantum emitters, when placed within a cavity and coherently excited at the two-photon resonance, can reach stationary states of nearly maximal entanglement. In Vivas-Via\~na et al., we introduce a frequency-resolved Purcell effect stabilizing entangled $W$ states among strongly interacting quantum emitters embedded in a cavity. Here, we delve deeper into a specific configuration with a particularly rich phenomenology: two interacting quantum emitters under coherent excitation at the two-photon resonance. This scenario yields two resonant cavity frequencies where the combination of two-photon driving and Purcell-enhanced decay stabilizes the system into the sub- and superradiant states, respectively. By considering the case of non-degenerate emitters and exploring the parameter space of the system, we show that this mechanism is merely one among a complex family of phenomena that can generate both stationary and metastable entanglement when driving the emitters at the two-photon resonance. We provide a global perspective of this landscape of mechanisms and contribute analytical characterizations and insights into these phenomena, establishing connections with previous reports in the literature and discussing how some of these effects can be optically detected.
翻訳日:2023-12-22 18:57:52 公開日:2023-12-21
# グラディエント・トレンド同定の改善:ファイナンスにインスパイアされたトリプル指数移動平均を用いた高速適応モーメント推定

Improving Gradient-Trend Identification: Fast-Adaptive Moment Estimation with Finance-Inspired Triple Exponential Moving Average ( http://arxiv.org/abs/2306.01423v2 )

ライセンス: Link先を確認
Roi Peleg, Teddy Lazebnik, Assaf Hoogi(参考訳) ディープネットワークの性能改善は最適化に大きく依存する。 既存のオプティマイザでは、グラデーショントレンドの正確かつ効率的な認識は依然として課題である。 既存のオプティマイザは主に1次指数移動平均(EMA)に基づく手法を採用しており、これは勾配トレンドのリアルタイム追跡を妨げる顕著な遅延をもたらし、結果として準最適性能が得られる。 この制限を克服するために、高速適応モーメント推定(FAME)と呼ばれる新しい最適化手法を導入する。 金融分野で使われる3倍指数移動平均(TEMA)にインスパイアされたFAMEは、高次TEMAの有効性を活用して勾配傾向の特定精度を向上させる。 TEMAは、最適化力学に積極的に影響を与えるため、学習プロセスにおいて中心的な役割を果たす。 最適化プロセスにTEMAを導入することにより、FAMEはより高精度でラグの少ない勾配傾向を識別できるため、従来の1次EMAよりもスムーズで一貫性のある勾配変動に対応することができる。 提案手法の有効性を検討するため,6種類のコンピュータビジョンベンチマークとタスク,スパンニング検出,分類,意味理解を包含する総合実験を行った。 我々はFAMEを15の学習アーキテクチャに統合し、その性能を6つの人気のあるオプティマイザと比較した。 その結果、FAMEはより堅牢で正確であり、ノイズ(トレンド変動)を最小限に抑えることにより、優れた性能の安定性を提供することが示された。 特に、FAMEは、コンピュータビジョンタスクにおいてディープネットワークを最適化することの重要性を明確に示し、トレーニングのエポックを著しく少なくする。

The performance improvement of deep networks significantly depends on their optimizers. With existing optimizers, precise and efficient recognition of the gradients trend remains a challenge. Existing optimizers predominantly adopt techniques based on the first-order exponential moving average (EMA), which results in noticeable delays that impede the real-time tracking of gradients trend and consequently yield sub-optimal performance. To overcome this limitation, we introduce a novel optimizer called fast-adaptive moment estimation (FAME). Inspired by the triple exponential moving average (TEMA) used in the financial domain, FAME leverages the potency of higher-order TEMA to improve the precision of identifying gradient trends. TEMA plays a central role in the learning process as it actively influences optimization dynamics; this role differs from its conventional passive role as a technical indicator in financial contexts. Because of the introduction of TEMA into the optimization process, FAME can identify gradient trends with higher accuracy and fewer lag issues, thereby offering smoother and more consistent responses to gradient fluctuations compared to conventional first-order EMA. To study the effectiveness of our novel FAME optimizer, we conducted comprehensive experiments encompassing six diverse computer-vision benchmarks and tasks, spanning detection, classification, and semantic comprehension. We integrated FAME into 15 learning architectures and compared its performance with those of six popular optimizers. Results clearly showed that FAME is more robust and accurate and provides superior performance stability by minimizing noise (i.e., trend fluctuations). Notably, FAME achieves higher accuracy levels in remarkably fewer training epochs than its counterparts, clearly indicating its significance for optimizing deep networks in computer-vision tasks.
翻訳日:2023-12-22 18:56:34 公開日:2023-12-21
# 持続可能なAI規制

Sustainable AI Regulation ( http://arxiv.org/abs/2306.00292v3 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) AI規制の現在の提案は、EUなどにおいて、信頼できる(例えば、AI法)と説明可能な(例えば、AIの責任)AIを促進することを目的としている。 本稿では,このギャップを埋めるための第一歩を踏み出す。 ICTセクターは、温室効果ガス(GHG)排出量の最大3.9%に貢献している。 AIの炭素フットプリントと水消費、特にGPT-4のような大規模生成モデルは、持続可能性に大きな懸念を提起している。 この論文は、EU環境法、GDPR(General Data Protection Regulation)、AI法など、現在および提案されている技術規制が、環境の持続可能性をよりよく考慮するためにどのように調整されるかを評価する最初のものである。 例えば、GDPRは、これらの権利がより広範な持続可能性目標と著しく矛盾している場合、消去する権利のような特定の個人の権利を制限するように解釈することができる。 第2のステップでは、持続可能なAI規制を実現するための多面的アプローチを提案する。 提案されたEU AI Actに規定されているように、AIシステムのGHGフットプリントを開示するなどの透明性メカニズムを提唱している。 しかし、持続可能なAI規制は単なる透明性を超えなければならない。 本稿では,共同規制,サステナビリティ・バイ・デザインの原則,トレーニングデータに対する制限,消費上限を含む規制ツールキットを提案する。 最後に、この規制ツールキットはブロックチェーンやMetaverseアプリケーション、データセンタといった他の高エミッション技術やインフラストラクチャを規制するための青写真として機能する可能性がある、と論文は主張する。 このフレームワークは、デジタルトランスフォーメーションと気候変動の緩和という、私たちの時代の重要な2つの課題を凝集的に解決することを目的としています。

Current proposals for AI regulation, in the EU and beyond, aim to spur AI that is trustworthy (e.g., AI Act) and accountable (e.g., AI Liability) What is missing, however, is a robust regulatory discourse and roadmap to make AI, and technology more broadly, environmentally sustainable. This paper aims to take first steps to fill this gap. The ICT sector contributes up to 3.9 percent of global greenhouse gas (GHG) emissions-more than global air travel at 2.5 percent. The carbon footprint and water consumption of AI, especially large-scale generative models like GPT-4, raise significant sustainability concerns. The paper is the first to assess how current and proposed technology regulations, including EU environmental law, the General Data Protection Regulation (GDPR), and the AI Act, could be adjusted to better account for environmental sustainability. The GDPR, for instance, could be interpreted to limit certain individual rights like the right to erasure if these rights significantly conflict with broader sustainability goals. In a second step, the paper suggests a multi-faceted approach to achieve sustainable AI regulation. It advocates for transparency mechanisms, such as disclosing the GHG footprint of AI systems, as laid out in the proposed EU AI Act. However, sustainable AI regulation must go beyond mere transparency. The paper proposes a regulatory toolkit comprising co-regulation, sustainability-by-design principles, restrictions on training data, and consumption caps, including integration into the EU Emissions Trading Scheme. Finally, the paper argues that this regulatory toolkit could serve as a blueprint for regulating other high-emission technologies and infrastructures like blockchain, Metaverse applications, and data centers. The framework aims to cohesively address the crucial dual challenges of our era: digital transformation and climate change mitigation.
翻訳日:2023-12-22 18:56:06 公開日:2023-12-21
# One-line-of-Code Data Mollificationは、類似生成モデルの最適化を改善する

One-Line-of-Code Data Mollification Improves Optimization of Likelihood-based Generative Models ( http://arxiv.org/abs/2305.18900v2 )

ライセンス: Link先を確認
Ba-Hien Tran, Giulio Franzese, Pietro Michiardi, Maurizio Filippone(参考訳) 生成モデル(gms)は、コンピュータビジョンのような、印象的なリアルなイメージを生成できる様々な領域で大きな成功を収めているため、多くの注目を集めている。 LikelihoodベースのGMは、単一のモデル評価によって新しいデータを生成する可能性から魅力的である。 しかし、それらは通常、最先端のスコアベース拡散モデル(DM)と比較して低いサンプル品質を達成する。 本稿では,この限界に対処するための重要なステップを提供する。 この考え方は、低密度領域で正確な密度推定を行うことのできるスコアベースのDMの強みの1つを借り、データモリフィケーションによる過剰適合に対処することを目的としている。 我々はガウス雑音をガウスホモトピーに付加することでデータモリフィケーションを接続する。 データモラフィケーションは最適化ループに1行のコードを追加することで実装でき、計算のオーバーヘッドなしにラピッドベースgmsの生成品質を向上できることを実証する。 可変オートエンコーダの変種や正規化フローを含む,一般的な確率ベースGMを用いた画像データセットの結果を報告する。

Generative Models (GMs) have attracted considerable attention due to their tremendous success in various domains, such as computer vision where they are capable to generate impressive realistic-looking images. Likelihood-based GMs are attractive due to the possibility to generate new data by a single model evaluation. However, they typically achieve lower sample quality compared to state-of-the-art score-based diffusion models (DMs). This paper provides a significant step in the direction of addressing this limitation. The idea is to borrow one of the strengths of score-based DMs, which is the ability to perform accurate density estimation in low-density regions and to address manifold overfitting by means of data mollification. We connect data mollification through the addition of Gaussian noise to Gaussian homotopy, which is a well-known technique to improve optimization. Data mollification can be implemented by adding one line of code in the optimization loop, and we demonstrate that this provides a boost in generation quality of likelihood-based GMs, without computational overheads. We report results on image data sets with popular likelihood-based GMs, including variants of variational autoencoders and normalizing flows, showing large improvements in FID score.
翻訳日:2023-12-22 18:55:35 公開日:2023-12-21
# RAPHAEL: 大きな拡散経路によるテキスト・画像生成

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths ( http://arxiv.org/abs/2305.18295v4 )

ライセンス: Link先を確認
Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo(参考訳) テキストから画像への生成は、最近目覚ましい成果を上げている。 我々は,複数の名詞,形容詞,動詞を含む文のプロンプトを正確に表現し,高度に芸術的な画像を生成するために,RAPHAELと呼ばれるテキスト条件画像拡散モデルを導入する。 これは、ネットワーク入力から出力への数十億の拡散経路(ルート)を可能にする、空間-MoE層と時間-MoE層を積み重ねることによって達成される。 各パスは、拡散時間ステップで特定の画像領域に特定のテキスト概念を記述するための「ページ」として直感的に機能する。 総合的な実験により、RAPHAELは画像の品質と美的魅力の両方の観点から、最近の最先端モデル、例えばStable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2を上回っていることが明らかになった。 第一に、RAPHAELは日本の漫画、リアリズム、サイバーパンク、インクイラストのような様々なスタイルの画像を切り替える際の優れたパフォーマンスを示す。 第二に、30億のパラメータを持つ単一のモデルで、2ヶ月間1,000A100 GPUでトレーニングされ、COCOデータセットで最先端のゼロショットFIDスコア6.61を達成する。 さらに、RAPHAELはViLG-300ベンチマークの人間による評価において、その性能を大幅に上回っている。 我々は、ラファエルが学界と産業の両方における画像生成研究のフロンティアを促進する可能性を秘めており、この急速に発展する分野における将来のブレークスルーへの道を開くと信じている。 詳細はwebページにある。 https://raphael-painter.github.io/。

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://raphael-painter.github.io/.
翻訳日:2023-12-22 18:55:15 公開日:2023-12-21
# ウィーンの視点から見たベルトルマンの靴下

Bertlmann's socks from a Viennese perspective ( http://arxiv.org/abs/2308.03341v2 )

ライセンス: Link先を確認
Marcello Poletti(参考訳) 量子力学(Quantum mechanics)は、反直観的であるのと同じくらい効果的である理論である。 量子的な実践は不可解に作用するが、状態ベクトルの崩壊や非局所性のような謎めいた現象を我々に受け入れさせ、その結果、持続不可能な「非フィンゴ」のスタンスへと押し上げる。 しかし、その誕生から1世紀後、1974年にホイーラーによって近似された有望な解釈キーが提示された。 この理論の解釈的パラドックスは、論理的不決定性と量子的不決定性の関係を見極めれば解決されるかもしれない。 両者が観測者/観測された関係問題とどのように密接に結びついているか、また量子物理学の慣用的な振る舞いが、この経路に従う規範とどのように一致しているかを示す。

Quantum mechanics is a theory that is as effective as it is counterintuitive. While quantum practices operate impeccably, they compel us to embrace enigmatic phenomena like the collapse of the state vector and non-locality, thereby pushing us towards untenable "hypotheses non fingo" stances. However, a century after its inception, we are presented with a promising interpretive key, intimated by Wheeler as early as 1974. The interpretative paradoxes of this theory might be resolved if we discern the relationship between logical undecidability and quantum undecidability. It will be demonstrated how both are intricately linked to an observer/observed relational issue, and how the idiosyncratic behaviours of quantum physics can be reconciled with the normative, following this path.
翻訳日:2023-12-22 18:48:29 公開日:2023-12-21
# レコメンダシステムの持続的透明性:説明可能性のための画像のベイズランク付け

Sustainable Transparency in Recommender Systems: Bayesian Ranking of Images for Explainability ( http://arxiv.org/abs/2308.01196v2 )

ライセンス: Link先を確認
Jorge Paz-Ruza, Amparo Alonso-Betanzos, Berta Guijarro-Berdi\~nas, Brais Cancela, Carlos Eiras-Franco(参考訳) Recommender Systemsは現代の世界では重要であり、一般的にユーザを関連コンテンツや製品に誘導し、ユーザや市民の判断に大きな影響を与えている。 パーソナライズされた説明がソリューションとして登場し、レコメンデーションの正当化を提供する。 パーソナライズされた説明を生成する既存のアプローチの中で、ユーザによって作成された既存のビジュアルコンテンツを使用することは、透明性とユーザ信頼を最大化するための有望な選択肢である。 高度に最適化されたアーキテクチャを活用しているにもかかわらず、このアプローチに従う最先端のモデルは、与えられた推奨の説明として画像のランク付けの目的を効率的にモデル化しない代理学習タスクを採用する。 BRIEは、ベイジアンペアワイドランキングを活用してトレーニングプロセスを強化する新しいモデルで、6つの実世界のデータセットにおける最先端モデルを一貫して上回り、モデルサイズを最大64倍に削減し、トレーニングと推論において最大75%のCO${_2}$排出量を削減できる。

Recommender Systems have become crucial in the modern world, commonly guiding users towards relevant content or products, and having a large influence over the decisions of users and citizens. However, ensuring transparency and user trust in these systems remains a challenge; personalized explanations have emerged as a solution, offering justifications for recommendations. Among the existing approaches for generating personalized explanations, using existing visual content created by users is a promising option to maximize transparency and user trust. State-of-the-art models that follow this approach, despite leveraging highly optimized architectures, employ surrogate learning tasks that do not efficiently model the objective of ranking images as explanations for a given recommendation; this leads to a suboptimal training process with high computational costs that may not be reduced without affecting model performance. This work presents BRIE, a novel model where we leverage Bayesian Pairwise Ranking to enhance the training process, allowing us to consistently outperform state-of-the-art models in six real-world datasets while reducing its model size by up to 64 times and its CO${_2}$ emissions by up to 75% in training and inference.
翻訳日:2023-12-22 18:48:13 公開日:2023-12-21
# samflow: segment anythingモデルによる光フローのフラグメンテーションの排除

SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model ( http://arxiv.org/abs/2307.16586v4 )

ライセンス: Link先を確認
Shili Zhou, Ruian He, Weimin Tan and Bo Yan(参考訳) 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。 モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。 理論解析により,事前学習された大視野モデルが光フロー推定に有用であることを見出し,最近有名になったsegment anything model (sam) が,フラグメンテーション問題を解決するのに適した完全物体を分割する強力な能力を示していることに気付いた。 そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。 本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。 提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。 さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。

Optical Flow Estimation aims to find the 2D dense motion field between two frames. Due to the limitation of model structures and training datasets, existing methods often rely too much on local clues and ignore the integrity of objects, resulting in fragmented motion estimation. Through theoretical analysis, we find the pre-trained large vision models are helpful in optical flow estimation, and we notice that the recently famous Segment Anything Model (SAM) demonstrates a strong ability to segment complete objects, which is suitable for solving the fragmentation problem. We thus propose a solution to embed the frozen SAM image encoder into FlowFormer to enhance object perception. To address the challenge of in-depth utilizing SAM in non-segmentation tasks like optical flow estimation, we propose an Optical Flow Task-Specific Adaption scheme, including a Context Fusion Module to fuse the SAM encoder with the optical flow context encoder, and a Context Adaption Module to adapt the SAM features for optical flow task with Learned Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10 clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set, surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks, ranking #1 among all two-frame methods on Sintel clean pass.
翻訳日:2023-12-22 18:46:37 公開日:2023-12-21
# oafuser:光場意味セグメンテーションのためのomni-aperture fusionに向けて

OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation ( http://arxiv.org/abs/2307.15588v2 )

ライセンス: Link先を確認
Fei Teng, Jiaming Zhang, Kunyu Peng, Yaonan Wang, Rainer Stiefelhagen, Kailun Yang(参考訳) 光界カメラはマイクロレンズアレイのパワーを利用して、複雑な角と空間の詳細を捉えることができる。 これにより、複数の角度から複雑な光パターンや詳細を取得でき、視覚情報におけるシーン解釈の重要な側面であるイメージセマンティックセグメンテーションの精度を大幅に向上することができる。 しかし、ライトフィールドカメラの広範囲な角情報には大量の冗長データが含まれており、インテリジェントな車両の限られたハードウェア資源では圧倒的である。 さらに、不適切な圧縮は情報の腐敗とデータ損失につながる。 代表情報を探索するために,中央から密集したコンテキストを利用して,サブ開口画像から角情報を発見し,意味的に一貫した結果を生成するOmni-Aperture Fusion Model (OAFuser)を提案する。 ネットワーク伝搬時の特徴損失を回避し,光界カメラからの冗長情報を同時に合理化するために,サブアパーチャイメージを追加のメモリコストを伴わない角度特徴に埋め込むための,シンプルなサブアパーチャ・フュージョン・モジュール(SAFM)を提案する。 さらに,不整合空間情報に対して,非対称な情報による特徴の排除と特徴の活用を実現するために,CARM(Central Angular Rectification Module)を提案する。 提案したOAFuserは,UrbanLF-RealデータセットとSynデータセットの最先端性能を達成し,UrbanLF-Real Extendedデータセットの84.93%の新記録を+4.53%のアップで設定した。 OAFuserのソースコードはhttps://github.com/FeiBryantkit/OAFuserで入手できる。

Light field cameras, by harnessing the power of micro-lens array, are capable of capturing intricate angular and spatial details. This allows for acquiring complex light patterns and details from multiple angles, significantly enhancing the precision of image semantic segmentation, a critical aspect of scene interpretation in vision intelligence. However, the extensive angular information of light field cameras contains a large amount of redundant data, which is overwhelming for the limited hardware resources of intelligent vehicles. Besides, inappropriate compression leads to information corruption and data loss. To excavate representative information, we propose a new paradigm, Omni-Aperture Fusion model (OAFuser), which leverages dense context from the central view and discovers the angular information from sub-aperture images to generate a semantically consistent result. To avoid feature loss during network propagation and simultaneously streamline the redundant information from the light field camera, we present a simple yet very effective Sub-Aperture Fusion Module (SAFM) to embed sub-aperture images into angular features without any additional memory cost. Furthermore, to address the mismatched spatial information across viewpoints, we present a Center Angular Rectification Module (CARM) to realize feature resorting and prevent feature occlusion caused by asymmetric information. Our proposed OAFuser achieves state-of-the-art performance on the UrbanLF-Real and -Syn datasets and sets a new record of 84.93% in mIoU on the UrbanLF-Real Extended dataset, with a gain of +4.53%. The source code of OAFuser will be available at https://github.com/FeiBryantkit/OAFuser.
翻訳日:2023-12-22 18:46:02 公開日:2023-12-21
# マスク付きハードインスタンスマイニングによる全スライド画像分類のための複数インスタンス学習フレームワーク

Multiple Instance Learning Framework with Masked Hard Instance Mining for Whole Slide Image Classification ( http://arxiv.org/abs/2307.15254v3 )

ライセンス: Link先を確認
Wenhao Tang and Sheng Huang and Xiaoxian Zhang and Fengtao Zhou and Yi Zhang and Bo Liu(参考訳) スライド画像全体(WSI)分類は、しばしば多重インスタンス学習(MIL)問題として定式化される。 正の組織はギガピクセルWSIのごく一部に過ぎず,既存のMIL法は注意機構による正のインスタンスの同定に直感的に重点を置いている。 しかし、これは分類が難しいインスタンスを無視しながら、容易に分類できるインスタンスへのバイアスにつながる。 いくつかの文献は、ハードな例が判別境界を正確にモデル化するのに有用であることを明かしている。 このようなアイデアをインスタンスレベルで適用することにより,サイメス構造(Teacher-Student)を用いて潜在的なハードインスタンスを探索するマスク付きハードインスタンスマイニング(MHIM-MIL)を備えた新しいMILフレームワークを精査する。 MHIM-MILは、注意スコアに基づくいくつかのケースマスキング戦略を用いて、留学生モデルのトレーニングのために暗黙的にハードインスタンスをマイニングするモーメント・インスツルメンツを採用。 この逆直観的な戦略により、生徒はより明確な境界を学ぶことができる。 さらに、生徒は教師を指数関数的移動平均(ema)で更新し、その後のトレーニングイテレーションで新しいハードインスタンスを特定し、最適化を安定化する。 CAMELYON-16およびTCGA肺がんデータセットの実験結果は、MHIM-MILがパフォーマンスとトレーニングコストの点で他の最新の方法よりも優れていることを示している。 コードは、https://github.com/DearCaat/MHIM-MILで入手できる。

The whole slide image (WSI) classification is often formulated as a multiple instance learning (MIL) problem. Since the positive tissue is only a small fraction of the gigapixel WSI, existing MIL methods intuitively focus on identifying salient instances via attention mechanisms. However, this leads to a bias towards easy-to-classify instances while neglecting hard-to-classify instances. Some literature has revealed that hard examples are beneficial for modeling a discriminative boundary accurately. By applying such an idea at the instance level, we elaborate a novel MIL framework with masked hard instance mining (MHIM-MIL), which uses a Siamese structure (Teacher-Student) with a consistency constraint to explore the potential hard instances. With several instance masking strategies based on attention scores, MHIM-MIL employs a momentum teacher to implicitly mine hard instances for training the student model, which can be any attention-based MIL model. This counter-intuitive strategy essentially enables the student to learn a better discriminating boundary. Moreover, the student is used to update the teacher with an exponential moving average (EMA), which in turn identifies new hard instances for subsequent training iterations and stabilizes the optimization. Experimental results on the CAMELYON-16 and TCGA Lung Cancer datasets demonstrate that MHIM-MIL outperforms other latest methods in terms of performance and training cost. The code is available at: https://github.com/DearCaat/MHIM-MIL.
翻訳日:2023-12-22 18:45:31 公開日:2023-12-21
# Prot2Text:GNNとトランスフォーマーを用いたマルチモーダルタンパク質の機能生成

Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers ( http://arxiv.org/abs/2307.14367v2 )

ライセンス: Link先を確認
Hadi Abdine, Michail Chatzianastasis, Costas Bouyioukos, Michalis Vazirgiannis(参考訳) ビッグバイオシステムの複雑な性質により、一部の科学者はその理解を想像もつかないミッションで分類した。 異なるレベルの課題がこのタスクを複雑にしており、その1つはタンパク質の機能の予測である。 近年,様々な機械学習手法の開発を通じて,この分野において大きな進歩を遂げている。 しかし、既存のほとんどの手法はタスクを多分類問題として定式化し、事前に定義されたラベルをタンパク質に割り当てる。 本研究では,従来の二分分類やカテゴリ分類を超越して,タンパク質関数を自由テキスト形式で予測する新しい手法である \textbf{prot2text} を提案する。 エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることで,タンパク質の配列,構造,テキストアノテーションなど,さまざまなデータタイプを効果的に統合する。 このマルチモーダルアプローチはタンパク質の機能の全体的表現を可能にし、詳細で正確な記述を生成できる。 本モデルを評価するために,swissprotからマルチモーダルタンパク質データセットを抽出し,prot2textの有効性を実証した。 これらの結果は、マルチモーダルモデル、特にGNNとLLMの融合による変換効果を強調し、タンパク質の機能をより正確に予測するための強力なツールを研究者に提供する。 コード、モデル、デモは公開される予定だ。

The complex nature of big biological systems pushed some scientists to classify its understanding under the inconceivable missions. Different leveled challenges complicated this task, one of is the prediction of a protein's function. In recent years, significant progress has been made in this field through the development of various machine learning approaches. However, most existing methods formulate the task as a multi-classification problem, i.e assigning predefined labels to proteins. In this work, we propose a novel approach, \textbf{Prot2Text}, which predicts a protein function's in a free text style, moving beyond the conventional binary or categorical classifications. By combining Graph Neural Networks(GNNs) and Large Language Models(LLMs), in an encoder-decoder framework, our model effectively integrates diverse data types including proteins' sequences, structures, and textual annotations. This multimodal approach allows for a holistic representation of proteins' functions, enabling the generation of detailed and accurate descriptions. To evaluate our model, we extracted a multimodal protein dataset from SwissProt, and demonstrate empirically the effectiveness of Prot2Text. These results highlight the transformative impact of multimodal models, specifically the fusion of GNNs and LLMs, empowering researchers with powerful tools for more accurate prediction of proteins' functions. The code, the models and a demo will be publicly released.
翻訳日:2023-12-22 18:44:26 公開日:2023-12-21
# 不均質アンサンブルにおける大サンプル集合崩壊のn$スケーリング

$N$ Scaling of Large-Sample Collective Decay in Inhomogeneous Ensembles ( http://arxiv.org/abs/2307.11623v2 )

ライセンス: Link先を確認
Sergiy Stryzhenko, Alexander Bruns, and Thorsten Peters(参考訳) ホロウコアファイバ内におけるN$原子の分散アンサンブルの集合崩壊を実験的に検討した。 最大300ドルの高分解率,強い光バースト,コヒーレントリングを観測した。 原子の同期を制限する不均一性のため、データは典型的なスケールを$N$で示さない。 有効数の集合エミッタが,パラメータ範囲の広い均一なアンサンブルで知られている$N$スケールを回復するために決定できることを示す。 これにより、集団崩壊の限界に関する物理的洞察が得られ、量子光学、精密時間維持、導波路qedなどの拡張アンサンブルにおいてその最適化が可能となる。

We experimentally study collective decay of an extended disordered ensemble of $N$ atoms inside a hollow-core fiber. We observe up to $300$-fold enhanced decay rates, strong optical bursts and a coherent ringing. Due to inhomogeneities limiting the synchronization of atoms, the data does not show the typical scaling with $N$. We show that an effective number of collective emitters can be determined to recover the $N$ scaling known to homogeneous ensembles over a large parameter range. This provides physical insight into the limits of collective decay and allows for its optimization in extended ensembles as used, e.g., in quantum optics, precision time-keeping or waveguide QED.
翻訳日:2023-12-22 18:44:00 公開日:2023-12-21
# 合成一般化のための層間表現融合

Layer-wise Representation Fusion for Compositional Generalization ( http://arxiv.org/abs/2307.10799v2 )

ライセンス: Link先を確認
Yafang Zheng, Lei Lin, Shuangtao Li, Yuxuan Yuan, Zhaohong Lai, Shan Liu, Biao Fu, Yidong Chen, Xiaodong Shi(参考訳) 既存のニューラルネットワークは、構成一般化(CG)、すなわち、目に見えない構成要素の組成に体系的に一般化する能力に苦しむ。 CG上で失敗する主な理由は、エンコーダとデコーダの両方の最上層におけるシーケンスの構文的および意味的表現が絡み合っていることである。 しかし、従来の研究は、表現絡み(RE)問題の背後にある理由を探るのではなく、構文と意味学の学習を分離することに集中していた。 トランスレイヤの下部から上部への表現進化機構を解析することにより,なぜ存在するのかを説明する。 各レイヤ内の ``shallow'' の残差接続は、以前のレイヤの情報を効果的に融合しないため、レイヤ間の情報を忘れることになり、さらにreの問題が発生する。 そこで,本稿では,各エンコーダ層とデコーダ層に \emph{fuse-attention module} を導入することで,従来のレイヤの情報をエンコードおよびデコードプロセスに戻すことを学習する,cgのための新しい \textbf{l}ayer-wise \textbf{r}epresentation \textbf{f}usion frameworkを提案する。 LRFは2つの現実的なベンチマークで有望な結果を達成し,提案手法の有効性を実証的に実証した。

Existing neural models are demonstrated to struggle with compositional generalization (CG), i.e., the ability to systematically generalize to unseen compositions of seen components. A key reason for failure on CG is that the syntactic and semantic representations of sequences in both the uppermost layer of the encoder and decoder are entangled. However, previous work concentrates on separating the learning of syntax and semantics instead of exploring the reasons behind the representation entanglement (RE) problem to solve it. We explain why it exists by analyzing the representation evolving mechanism from the bottom to the top of the Transformer layers. We find that the ``shallow'' residual connections within each layer fail to fuse previous layers' information effectively, leading to information forgetting between layers and further the RE problems. Inspired by this, we propose LRF, a novel \textbf{L}ayer-wise \textbf{R}epresentation \textbf{F}usion framework for CG, which learns to fuse previous layers' information back into the encoding and decoding process effectively through introducing a \emph{fuse-attention module} at each encoder and decoder layer. LRF achieves promising results on two realistic benchmarks, empirically demonstrating the effectiveness of our proposal.
翻訳日:2023-12-22 18:43:48 公開日:2023-12-21
# 非同期ニューロモルフィックシステムのためのメムリスタベースルータのスケーリング限界

Scaling Limits of Memristor-Based Routers for Asynchronous Neuromorphic Systems ( http://arxiv.org/abs/2307.08116v2 )

ライセンス: Link先を確認
Junren Chen, Siyao Yang, Huaqiang Wu, Giacomo Indiveri, Melika Payvand(参考訳) マルチコアニューロモルフィックシステムは、通常、コア間のスパイク伝達にオンチップルータを使用する。 これらのルータは重要なメモリ資源を必要とし、システム全体のエネルギー予算の大部分を消費する。 標準のCMOSおよびSRAMベースのルータを使用するための有望なアプローチは、メムリシブなクロスバーアレイの機能を利用して、スパイクをルーティングするプログラム可能なスイッチ行列として使用することである。 しかし、これらのクロスバーアレイのスケーリングは、寄生抵抗による金属線上の「IRドロップ」や、その「オフ」状態にある複数の活性膜上の漏れ電流の蓄積といった物理的な課題を示す。 このタイプの信頼性の課題は、メモリ内行列ベクトル乗算(MVM)アクセラレータとストレージクラスメモリの同期システムで広く研究されているが、メムリスタベースのクロスバールータのスケーリング限界を特徴づける努力はほとんど行われていない。 本稿では,非同期スパイキングニューラルネットワーク(SNN)ハードウェアでスパイクを送信するためのルーティングチャネルとして使用する場合,メムリシティブクロスバーアレイの課題について検討する。 4K-ReRAMチップから得られた実験結果を用いて解析結果を検証し,ルーティングクロスバーとしての機能を示す。 理論的モデリング,22nmFDSOI技術のための回路シミュレーション,実験結果に基づいて,IRドロップおよびリーク問題によるルーティング上の機能境界を決定する。 本研究は、このアプローチの限界を強調し、マルチコア非同期ニューロモルフィックシステムのためのmemristive crossbarルータにおけるmemristorデバイス特性のエンジニアリングのための有用なガイドラインを提供する。

Multi-core neuromorphic systems typically use on-chip routers to transmit spikes among cores. These routers require significant memory resources and consume a large part of the overall system's energy budget. A promising alternative approach to using standard CMOS and SRAM-based routers is to exploit the features of memristive crossbar arrays and use them as programmable switch-matrices that route spikes. However, the scaling of these crossbar arrays presents physical challenges, such as "IR drop" on the metal lines due to the parasitic resistance, and leakage current accumulation on multiple active memristors in their "off" state. While reliability challenges of this type have been extensively studied in synchronous systems for compute-in-memory matrix-vector multiplication (MVM) accelerators and storage class memory, little effort has been devoted so far to characterizing the scaling limits of memristor-based crossbar routers. Here, we study the challenges of memristive crossbar arrays, when used as routing channels to transmit spikes in asynchronous Spiking Neural Network (SNN) hardware. We validate our analytical findings with experimental results obtained from a 4K-ReRAM chip which demonstrates its functionality as a routing crossbar. We determine the functionality bounds on the routing due to the IR drop and leak problem, based on theoretical modeling, circuit simulations for a 22nm FDSOI technology, and experimental measurements. This work highlights the limitations of this approach and provides useful guidelines for engineering the memristor device properties in memristive crossbar routers for multi-core asynchronous neuromorphic systems.
翻訳日:2023-12-22 18:43:21 公開日:2023-12-21
# 実際の説明としての短いブール公式

Short Boolean Formulas as Explanations in Practice ( http://arxiv.org/abs/2307.06971v2 )

ライセンス: Link先を確認
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander(参考訳) 単項関係に基づくデータモデルにおける短いブール式による説明可能性について検討する。 長さ k の説明として、説明すべき対象属性に関して誤差を最小限にする長さ k のブール公式を取る。 このシナリオで期待される誤差に対して、まず新しい定量的境界を提供する。 さらに,具体的データセットを3つ検討することで,実際に設定がどのように機能するかを実証する。 いずれの場合も、アンサーセットプログラミングの符号化を用いて、異なる長さの説明公式を計算する。 得られた最も正確な公式は、同じデータセット上の他の方法と同様の誤差が得られる。 しかし、過度な適合のため、これらの公式は必ずしも理想的な説明ではないため、クロス検証を用いて説明に適する長さを特定する。 最短式に限定することで、過剰に適合しないが合理的に正確かつ重要な解釈可能な説明を得る。

We investigate explainability via short Boolean formulas in the data model based on unary relations. As an explanation of length k, we take a Boolean formula of length k that minimizes the error with respect to the target attribute to be explained. We first provide novel quantitative bounds for the expected error in this scenario. We then also demonstrate how the setting works in practice by studying three concrete data sets. In each case, we calculate explanation formulas of different lengths using an encoding in Answer Set Programming. The most accurate formulas we obtain achieve errors similar to other methods on the same data sets. However, due to overfitting, these formulas are not necessarily ideal explanations, so we use cross validation to identify a suitable length for explanations. By limiting to shorter formulas, we obtain explanations that avoid overfitting but are still reasonably accurate and also, importantly, human interpretable.
翻訳日:2023-12-22 18:42:51 公開日:2023-12-21
# テンソルネットワークを用いた量子機械学習モデルの定式化

Dequantizing quantum machine learning models using tensor networks ( http://arxiv.org/abs/2307.06937v2 )

ライセンス: Link先を確認
Seongwook Shin, Yong Siah Teo, and Hyunseok Jeong(参考訳) 古典モデルが与えられた量子モデル -- 脱量子化 -- を効率的に置き換えることができるかどうかを確認することは、量子アルゴリズムの真のポテンシャルを評価する上で重要である。 本研究では、テンソルネットワークフォーマリズムを用いて、変動量子機械学習~(VQML)モデルの関数クラスを定式化し、全てのVQMLモデルを制約係数MPSとテンソル積に基づく特徴写像を特徴付ける行列積状態(MPS)モデルのサブクラスとして効果的に同定する。 この形式主義から、VQMLモデルの関数クラスが等化可能か否かの条件を特定する。 さらに,任意の量子カーネルと同等の表現力を持つ効率的な量子カーネル誘導古典カーネルを導入し,量子カーネル法を解量化する方法を示唆する。 本稿では、VQMLモデルの徹底的な解析を行い、量子特性に応じてVQMLモデルを適切に識別するテンソルネットワーク形式の有効性を示し、単一のフレームワーク内で古典的および量子機械学習モデルを統一する。

Ascertaining whether a classical model can efficiently replace a given quantum model -- dequantization -- is crucial in assessing the true potential of quantum algorithms. In this work, we introduced the dequantizability of the function class of variational quantum-machine-learning~(VQML) models by employing the tensor network formalism, effectively identifying every VQML model as a subclass of matrix product state (MPS) model characterized by constrained coefficient MPS and tensor product-based feature maps. From this formalism, we identify the conditions for which a VQML model's function class is dequantizable or not. Furthermore, we introduce an efficient quantum kernel-induced classical kernel which is as expressive as given any quantum kernel, hinting at a possible way to dequantize quantum kernel methods. This presents a thorough analysis of VQML models and demonstrates the versatility of our tensor-network formalism to properly distinguish VQML models according to their genuine quantum characteristics, thereby unifying classical and quantum machine-learning models within a single framework.
翻訳日:2023-12-22 18:42:39 公開日:2023-12-21
# 波長可変相互作用を利用した物質波干渉計用高束源システム

A high-flux source system for matter-wave interferometry exploiting tunable interactions ( http://arxiv.org/abs/2307.06766v3 )

ライセンス: Link先を確認
Alexander Herbst, Timoth\'e Estrampes, Henning Albers, Vera Vollenkemper, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul and Dennis Schlippert(参考訳) 原子干渉計は慣性効果を高精度に決定できる。 量子投射ノイズと体系的な効果は、大きな原子束と超低膨張率に対する要求を課す。 ここでは,ハイゼンベルク限界付近で自由膨張速度を持つ超低温原子の高流動源について報告する。 本研究は, 時間平均光双極子トラップを用いて, 磁気フェッシュバッハ共鳴による2桁の相互作用強度で原子散乱長を動的に調整することで得られた。 我々は, 蒸発冷却を170$msで行い, その後の放出を1方向に4.5$nKの最小膨張エネルギーで行った後, 6\times 10^{4}$粒子のBECを実証した。 以上の結果に基づき、原子干渉計の性能を推定し、マイクロ重力環境での超高精度測定に利用できる高性能チップトラップと比較した。

Atom interferometers allow determining inertial effects to high accuracy. Quantum-projection noise as well as systematic effects impose demands on large atomic flux as well as ultra-low expansion rates. Here we report on a high-flux source of ultra-cold atoms with free expansion rates near the Heisenberg limit directly upon release from the trap. Our results are achieved in a time-averaged optical dipole trap and enabled through dynamic tuning of the atomic scattering length across two orders of magnitude interaction strength via magnetic Feshbach resonances. We demonstrate BECs with more than $6\times 10^{4}$ particles after evaporative cooling for $170$ ms and their subsequent release with a minimal expansion energy of $4.5$ nK in one direction. Based on our results we estimate the performance of an atom interferometer and compare our source system to a high performance chip-trap, as readily available for ultra-precise measurements in micro-gravity environments.
翻訳日:2023-12-22 18:42:18 公開日:2023-12-21
# 人工現実から現実へ:低リソース分子発見のための大規模言語モデルからの疑似データ活用

From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery ( http://arxiv.org/abs/2309.05203v2 )

ライセンス: Link先を確認
Yuhan Chen, Nuwa Xi, Yanrui Du, Haochun Wang, Chen Jianyu, Sendong Zhao, Bing Qin(参考訳) 分子発見は多くの科学分野の基盤となり、新しい材料や革新的な医薬品の設計を加速させた。 近年のシリカ分子発見は、分子構造を記述的アノテーションで橋渡しするクロスモーダル手法の有望な成果を浮き彫りにした。 しかし、これらのクロスモーダルメソッドは、しばしばデータ不足の問題に遭遇し、パフォーマンスとアプリケーションを妨げる。 本稿では,Large Language Models (LLM) が生成する人工現実データを活用することで,低リソースの課題に対処する。 まず,質の高い疑似データを構築するための検索に基づくプロンプト戦略を導入し,この疑似データを効果的に活用するための最適な方法を検討する。 実験によると、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドよりも優れており、モデルスケールの縮小、データサイズ削減、トレーニングコストの削減、効率の向上も必要である。 さらに,疑似データ量の増加に伴い,低リソースのクロスモーダル分子の発見において,疑似データの潜在能力が著しく向上することを示す。 私たちのコードとデータはhttps://github.com/scir-hi/artificiallyr2rで入手できます。

Molecule discovery serves as a cornerstone in numerous scientific domains, fueling the development of new materials and innovative drug designs. Recent developments of in-silico molecule discovery have highlighted the promising results of cross-modal techniques, which bridge molecular structures with their descriptive annotations. However, these cross-modal methods frequently encounter the issue of data scarcity, hampering their performance and application. In this paper, we address the low-resource challenge by utilizing artificially-real data generated by Large Language Models (LLMs). We first introduce a retrieval-based prompting strategy to construct high-quality pseudo data, then explore the optimal method to effectively leverage this pseudo data. Experiments show that using pseudo data for domain adaptation outperforms all existing methods, while also requiring a smaller model scale, reduced data size and lower training cost, highlighting its efficiency. Furthermore, our method shows a sustained improvement as the volume of pseudo data increases, revealing the great potential of pseudo data in advancing low-resource cross-modal molecule discovery. Our code and data are available at https://github.com/SCIR-HI/ArtificiallyR2R.
翻訳日:2023-12-22 18:36:37 公開日:2023-12-21
# R2D2ディープニューラルネットワークによるCygnus Aの超高速高ダイナミックレンジイメージング

Ultra-fast high-dynamic range imaging of Cygnus A with the R2D2 deep neural network series ( http://arxiv.org/abs/2309.03291v2 )

ライセンス: Link先を確認
Aghabiglou A, Chu C S, Jackson A, Dabbech A, Wiaux Y(参考訳) 天文学における電波干渉計(RI)による高分解能高ダイナミックレンジ合成イメージングのための新しいAI手法を提案する。 R2D2は‘{R}esidual-to-{R}esidual {D}NN series for high-{D}ynamic range imaging'’の略で、ハイブリッドディープニューラルネットワーク(DNN)とデータ一貫性更新に依存するモデルベースのデータ駆動アプローチである。 その再構成は、DNNの出力として推定される残像の連続として構築され、それぞれが前回の残像の残像を入力とする。 この手法は、モデルコンポーネントが残留汚い画像から反復的に識別され、CLEANがよく知られた例であるマッチング追従アプローチの学習版として解釈することができる。 本稿では,標準のU-Netと新しいアンロールアーキテクチャの2つの特徴を持つDNNアーキテクチャ上に構築されたR2D2モデルの2つの変種を提案する。 我々は、超大型アレイ(VLA)によるS帯の電波銀河Cygnus Aの高感度観測における単色強度イメージングの応用を実証した。 R2D2 は CLEAN と最近の RI アルゴリズム AIRI と uSARA に対して検証され、それぞれ学習された暗黙の正則化と高度な手作りのスパーシティベース正則化をRI データに注入する。 r2d2モデルは、ほんのわずかな期間で高精度の画像撮影が可能で、クリーンの解像度に取って代わり、airiとusaraの精度にマッチする。 計算効率の面では、R2D2はAIRIとuSARAのコストのごく一部で動作し、CLEANよりも高速で、RIのほぼリアルタイムの精度画像にドアを開く。

We present a novel AI approach for high-resolution high-dynamic range synthesis imaging by radio interferometry (RI) in astronomy. R2D2, standing for ``{R}esidual-to-{R}esidual {D}NN series for high-{D}ynamic range imaging'', is a model-based data-driven approach relying on hybrid deep neural networks (DNNs) and data-consistency updates. Its reconstruction is built as a series of residual images estimated as the outputs of DNNs, each taking the residual dirty image of the previous iteration as an input. The approach can be interpreted as a learned version of a matching pursuit approach, whereby model components are iteratively identified from residual dirty images, and of which CLEAN is a well-known example. We propose two variants of the R2D2 model, built upon two distinctive DNN architectures: a standard U-Net, and a novel unrolled architecture. We demonstrate their use for monochromatic intensity imaging on highly-sensitive observations of the radio galaxy Cygnus A at S band, from the Very Large Array (VLA). R2D2 is validated against CLEAN and the recent RI algorithms AIRI and uSARA, which respectively inject a learned implicit regularization and an advanced handcrafted sparsity-based regularization into the RI data. With only few terms in its series, the R2D2 model is able to deliver high-precision imaging, superseding the resolution of CLEAN, and matching the precision of AIRI and uSARA. In terms of computational efficiency, R2D2 runs at a fraction of the cost of AIRI and uSARA, and is also faster than CLEAN, opening the door to near real-time precision imaging in RI.
翻訳日:2023-12-22 18:36:14 公開日:2023-12-21
# Kretschmann-Schlingemann-Werner Conjectureの進展

Progress on the Kretschmann-Schlingemann-Werner Conjecture ( http://arxiv.org/abs/2308.15389v3 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 任意の量子チャネルの対 $\Phi_1,\Phi_2$ が、少なくとも一方がクラウス階数 1 を持ち、また任意のスタインスプリング等距離 $V_1,V_2$ を持つとすると、$\|V_1-({\bf1}\otimes U)V_2\|_\infty\leq\sqrt{2\|\Phi_1-\Phi_2\|_\diamond}$ のような環境上には、ユニタリ $U$ が存在することが証明される。 さらに、右辺の係数 $\sqrt2$ が最適であることを示す単純な例を示し、この不等式が全てのチャネルに対して成り立つことを予想する。

Given any pair of quantum channels $\Phi_1,\Phi_2$ such that at least one of them has Kraus rank one, as well as any respective Stinespring isometries $V_1,V_2$, we prove that there exists a unitary $U$ on the environment such that $\|V_1-({\bf1}\otimes U)V_2\|_\infty\leq\sqrt{2\|\Phi_1-\Phi_2\|_\diamond}$. Moreover, we provide a simple example which shows that the factor $\sqrt2$ on the right-hand side is optimal, and we conjecture that this inequality holds for every pair of channels.
翻訳日:2023-12-22 18:35:38 公開日:2023-12-21
# confucius: 分かり易いカリキュラムによるイントロスペクションフィードバックによる反復的ツール学習

Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum ( http://arxiv.org/abs/2308.14034v2 )

ライセンス: Link先を確認
Shen Gao, Zhengliang Shi, Minghang Zhu, Bowen Fang, Xin Xin, Pengjie Ren, Zhumin Chen, Jun Ma, Zhaochun Ren(参考訳) 大規模言語モデル(LLM)を外部ツールで拡張することは、LLMの能力を拡張するための有望なアプローチとして現れている。 ツール学習タスクにはオープンソースのLLMを使用している研究もあるが、そのほとんどは、LLMが人間が提供するツールの実行のみを学ぶ制御環境で訓練されている。 しかし、大きなツールセットから適切なツールを選択することは、ツール学習モデルを現実世界のアプリケーションに適用するための重要な能力である。 既存のメソッドは通常、モデルのトレーニングに自己指示メソッドを直接使用するが、ツールの複雑さの違いを無視する。 本稿では,実世界のシナリオで複雑なツールを使うようにllmを訓練する新しいツール学習フレームワークであるconfuciusを提案する。(1) 難解なカリキュラムから様々なツールを使うようllmに教えるマルチステージ学習手法を提案し,(2) イントロスペクティブフィードバック(isif)からの反復的自己説明を提案し,複雑なツールの使い方を改善するためにデータセットを動的に構築する。 制御および実世界の両方の設定で実施された大規模な実験は、チューニング不要(ChatGPT、Claudeなど)とチューニングベースライン(GPT4Toolsなど)の両方と比較して、実世界のアプリケーションシナリオにおけるツール学習フレームワークの優位性を示している。

Augmenting large language models (LLMs) with external tools has emerged as a promising approach to extending the capability of LLMs. Although some works employ open-source LLMs for the tool learning task, most of them are trained in a controlled environment in which LLMs only learn to execute the human-provided tools. However, selecting proper tools from the large toolset is also a crucial ability for the tool learning model to be applied in real-world applications. Existing methods usually directly employ self-instruction methods to train the model, which ignores differences in tool complexity. In this paper, we propose the Confucius, a novel tool learning framework to train LLM to use complicated tools in real-world scenarios, which contains two main phases: (1) We first propose a multi-stage learning method to teach the LLM to use various tools from an easy-to-difficult curriculum; (2) thenceforth, we propose the Iterative Self-instruct from Introspective Feedback (ISIF) to dynamically construct the dataset to improve the ability to use the complicated tool. Extensive experiments conducted on both controlled and real-world settings demonstrate the superiority of our tool learning framework in the real-world application scenarios compared to both tuning-free (e.g. ChatGPT, Claude) and tuning-based baselines (e.g. GPT4Tools).
翻訳日:2023-12-22 18:34:36 公開日:2023-12-21
# eecs学生のための量子プログラミングラボ

Hands-on Quantum Programming Labs for EECS Students ( http://arxiv.org/abs/2308.14002v3 )

ライセンス: Link先を確認
Janche Sang and Chansu Yu(参考訳) 本報告は,電子工学・計算機科学(eecs)学生に専用ハンズオンプログラミングラボを通して量子コンピューティングを教える実践的アプローチを提案する。 研究所は、エンタングルメント、量子ゲート、回路などの基本的な要素、量子鍵分布、deutschおよびdeutsch-jozsaアルゴリズム、simonのアルゴリズム、groverのアルゴリズムといった高度なアルゴリズムを含む、さまざまなトピックをカバーしている。 教育者として、私たちはこの分野の仲間のインストラクターと教えの洞察とリソースを共有することを目標としています。 興味のあるインストラクターには、完全なラボハンドアウトとプログラムテンプレートが提供される。 さらに、報告書は各実験の設計の背後にある理論的根拠を解明し、量子コンピューティングのより深い理解を可能にした。

This report presents a practical approach to teaching quantum computing to Electrical Engineering & Computer Science (EECS) students through dedicated hands-on programming labs. The labs cover a diverse range of topics, encompassing fundamental elements, such as entanglement, quantum gates and circuits, as well as advanced algorithms including Quantum Key Distribution, Deutsch and Deutsch-Jozsa Algorithms, Simon's algorithm, and Grover's algorithm. As educators, we aim to share our teaching insights and resources with fellow instructors in the field. The full lab handouts and program templates are provided for interested instructors. Furthermore, the report elucidates the rationale behind the design of each experiment, enabling a deeper understanding of quantum computing.
翻訳日:2023-12-22 18:34:10 公開日:2023-12-21
# ChatGPTとGPT-4は良いポーカープレイヤーか? --プレフロップ解析

Are ChatGPT and GPT-4 Good Poker Players? -- A Pre-Flop Analysis ( http://arxiv.org/abs/2308.12466v2 )

ライセンス: Link先を確認
Akshat Gupta(参考訳) ChatGPTとGPT-4の導入以来、これらのモデルは多数のタスクでテストされてきた。 ドメイン間の類似性は明らかだが、ゲームにおける彼らの適性、特にポーカーの領域における彼らの適性は未解明のままである。 ポーカーは不確実性と不完全な情報の下で意思決定を必要とするゲームである。 本稿では,ChatGPTとGPT-4をポーカー試験に投入し,ポーカーの能力を評価する。 その結果,両モデルともポーカーの高度な理解を示し,開始手の評価,プレイポジション,ゲーム理論の最適ポーカー(GTO)の複雑さなどを含む一方で,ChatGPTとGPT-4はゲーム理論の最適ポーカープレイヤーではないことがわかった。 ポーカーの利益戦略は、大きなサンプルよりも期待して評価される。 実験により,まず,これらのモデルでポーカーをプレイする際の最適なプロンプトとモデルパラメータの特徴を明らかにする。 そして、この2つのモデルの異なる演奏ペルソナを明らかにする。 GPT-4はChatGPTよりも先進的なポーカープレイヤーである。 この調査は、ChatGPTの保守性とGPT-4の攻撃性という2つのモデルの分岐ポーカー戦術に光を当てた。 ポーカーの頂点では、GTOポーカーをプレイするよう指示されたとき、ChatGPTはニットのように振る舞う。 同じ指示を受けると、GPT-4はマニアックのように演奏し、緩やかで攻撃的な演奏スタイルを示す。 どちらの戦略も比較的先進的であるが、ゲーム理論は最適ではない。

Since the introduction of ChatGPT and GPT-4, these models have been tested across a large number of tasks. Their adeptness across domains is evident, but their aptitude in playing games, and specifically their aptitude in the realm of poker has remained unexplored. Poker is a game that requires decision making under uncertainty and incomplete information. In this paper, we put ChatGPT and GPT-4 through the poker test and evaluate their poker skills. Our findings reveal that while both models display an advanced understanding of poker, encompassing concepts like the valuation of starting hands, playing positions and other intricacies of game theory optimal (GTO) poker, both ChatGPT and GPT-4 are NOT game theory optimal poker players. Profitable strategies in poker are evaluated in expectations over large samples. Through a series of experiments, we first discover the characteristics of optimal prompts and model parameters for playing poker with these models. Our observations then unveil the distinct playing personas of the two models. We first conclude that GPT-4 is a more advanced poker player than ChatGPT. This exploration then sheds light on the divergent poker tactics of the two models: ChatGPT's conservativeness juxtaposed against GPT-4's aggression. In poker vernacular, when tasked to play GTO poker, ChatGPT plays like a nit, which means that it has a propensity to only engage with premium hands and folds a majority of hands. When subjected to the same directive, GPT-4 plays like a maniac, showcasing a loose and aggressive style of play. Both strategies, although relatively advanced, are not game theory optimal.
翻訳日:2023-12-22 18:33:56 公開日:2023-12-21
# テキストによる人物検索のためのCLIPの実証的研究

An Empirical Study of CLIP for Text-based Person Search ( http://arxiv.org/abs/2308.10045v2 )

ライセンス: Link先を確認
Min Cao, Yang Bai, Ziyin Zeng, Mang Ye, Min Zhang(参考訳) テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。 近年,クロスモーダルな視覚-言語事前学習モデルであるContrastive Language Image Pretraining (CLIP) が,その強力なクロスモーダルなセマンティック学習能力により,様々な下流タスクにおいて顕著に機能している。 細粒度クロスモーダル検索タスクとしてのTBPSは、CLIPベースのTBPSの研究の高まりに直面している。 本稿では,下流TBPSタスクのための視覚言語事前学習モデルの可能性を探るため,TBPSのためのCLIPの総合的な実証的研究を行い,TBPSコミュニティに直感的かつインクリメンタルで強力なTBPS-CLIPベースラインを提供する。 データ拡張や損失関数など,CLIPにおける重要な設計上の考慮点を再考する。 このモデルは、前述の設計と実践的な訓練のトリックにより、洗練されたモジュールを使わずに満足なパフォーマンスを達成できる。 また,モデル一般化とモデル圧縮におけるTBPS-CLIPの探索実験を行い,様々な側面からTBPS-CLIPの有効性を示す。 この研究は実証的な洞察を与え、将来のCLIPベースのTBPS研究を強調することが期待されている。

Text-based Person Search (TBPS) aims to retrieve the person images using natural language descriptions. Recently, Contrastive Language Image Pretraining (CLIP), a universal large cross-modal vision-language pre-training model, has remarkably performed over various cross-modal downstream tasks due to its powerful cross-modal semantic learning capacity. TPBS, as a fine-grained cross-modal retrieval task, is also facing the rise of research on the CLIP-based TBPS. In order to explore the potential of the visual-language pre-training model for downstream TBPS tasks, this paper makes the first attempt to conduct a comprehensive empirical study of CLIP for TBPS and thus contribute a straightforward, incremental, yet strong TBPS-CLIP baseline to the TBPS community. We revisit critical design considerations under CLIP, including data augmentation and loss function. The model, with the aforementioned designs and practical training tricks, can attain satisfactory performance without any sophisticated modules. Also, we conduct the probing experiments of TBPS-CLIP in model generalization and model compression, demonstrating the effectiveness of TBPS-CLIP from various aspects. This work is expected to provide empirical insights and highlight future CLIP-based TBPS research.
翻訳日:2023-12-22 18:33:29 公開日:2023-12-21
# 外科用SAM : プロンプタブルな外科用機器セグメンテーション

SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation ( http://arxiv.org/abs/2308.08746v2 )

ライセンス: Link先を確認
Wenxi Yue, Jing Zhang, Kun Hu, Yong Xia, Jiebo Luo, Zhiyong Wang(参考訳) Segment Anything Model (SAM)は、画像セグメンテーションに革命をもたらした強力な基礎モデルである。 SAMを手術器具のセグメンテーションに適用するには、楽器の正確な点や箱を見つけ出し、SAMのプロンプトとしてゼロショットで使用するのが一般的である。 しかし,本パイプラインでは,(1)自然物と外科器具の領域ギャップがSAMの一般化を損なうこと,(2)SAMは精度の高いセグメンテーションを行うために正確な点やボックスの位置に依存していること,(3)手動による手動指導や,あるいは複雑な多段パイプラインを実現するための優れた特殊検出器を必要とすること,の2つの問題を考察した。 これらの課題に対処するため,本研究では,SAMの事前学習知識と外科的特異情報を効果的に統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介する。 具体的には,クラスプロトタイプから直接プロンプト埋め込みを生成し,ロバスト性向上のための明示的なプロンプトとパイプラインを不要にする,チューニングのための軽量なプロトタイプベースのクラスプロンプトエンコーダを提案する。 また,手術器具カテゴリー間のクラス間差異の低さに対処するため,コントラスト学習を提案し,より正確なクラスプロンプトのためのクラスプロトタイプの識別を強化した。 EndoVis2018とEndoVis2017のデータセットに関する広範な実験の結果は、StudioSAMが最先端のパフォーマンスを達成すると同時に、少数の調整可能なパラメータのみを必要とすることを示した。 ソースコードはhttps://github.com/wenxi-yue/SurgicalSAMで入手できる。

The Segment Anything Model (SAM) is a powerful foundation model that has revolutionised image segmentation. To apply SAM to surgical instrument segmentation, a common approach is to locate precise points or boxes of instruments and then use them as prompts for SAM in a zero-shot manner. However, we observe two problems with this naive pipeline: (1) the domain gap between natural objects and surgical instruments leads to inferior generalisation of SAM; and (2) SAM relies on precise point or box locations for accurate segmentation, requiring either extensive manual guidance or a well-performing specialist detector for prompt preparation, which leads to a complex multi-stage pipeline. To address these problems, we introduce SurgicalSAM, a novel end-to-end efficient-tuning approach for SAM to effectively integrate surgical-specific information with SAM's pre-trained knowledge for improved generalisation. Specifically, we propose a lightweight prototype-based class prompt encoder for tuning, which directly generates prompt embeddings from class prototypes and eliminates the use of explicit prompts for improved robustness and a simpler pipeline. In addition, to address the low inter-class variance among surgical instrument categories, we propose contrastive prototype learning, further enhancing the discrimination of the class prototypes for more accurate class prompting. The results of extensive experiments on both EndoVis2018 and EndoVis2017 datasets demonstrate that SurgicalSAM achieves state-of-the-art performance while only requiring a small number of tunable parameters. The source code is available at https://github.com/wenxi-yue/SurgicalSAM.
翻訳日:2023-12-22 18:33:06 公開日:2023-12-21
# 極めて不均衡なクラス分布に対するモデル再バランスによる公正なGAN

Fair GANs through model rebalancing for extremely imbalanced class distributions ( http://arxiv.org/abs/2308.08638v2 )

ライセンス: Link先を確認
Anubhav Jain, Nasir Memon, Julian Togelius(参考訳) 深層生成モデルは大量のトレーニングデータを必要とする。 これはしばしば、データセットの収集が高価で難しいため、特に適切な基礎となる分布(例えば人口統計学)を表すデータセットが問題となる。 これにより、モデルにさらに伝播するデータセットのバイアスが発生する。 本稿では,モデル分布を再バランスさせることにより,既存のバイアス付きGANからGANを構築する手法を提案する。 進化的アルゴリズムを用いて、既存の不均衡な深層生成モデルから平衡データを生成し、このデータを用いてバランスの取れた生成モデルを訓練する。 さらに,学習したクラス分布の偏差を等確率に抑えるバイアス緩和損失関数を提案する。 Flickr Faces High Quality(FFHQ)データセットで人種的公正度をトレーニングしながら、StyleGAN2モデルの結果を示し、画像品質を維持しながら、提案手法が公正度基準をほぼ5倍改善することを確認する。 さらに、バランスの取れないCIFAR10データセットに適用することで、バランスのとれたCIFAR10データセットのトレーニングにおいて、同等の公平性と画質を得ることができることを示す。 最後に,Frechet Inception distance (FID) などの従来の画像品質指標は,クラス分布が不均衡であり,参照セットのバランスが取れないシナリオには適さないと論じる。

Deep generative models require large amounts of training data. This often poses a problem as the collection of datasets can be expensive and difficult, in particular datasets that are representative of the appropriate underlying distribution (e.g. demographic). This introduces biases in datasets which are further propagated in the models. We present an approach to construct an unbiased generative adversarial network (GAN) from an existing biased GAN by rebalancing the model distribution. We do so by generating balanced data from an existing imbalanced deep generative model using an evolutionary algorithm and then using this data to train a balanced generative model. Additionally, we propose a bias mitigation loss function that minimizes the deviation of the learned class distribution from being equiprobable. We show results for the StyleGAN2 models while training on the Flickr Faces High Quality (FFHQ) dataset for racial fairness and see that the proposed approach improves on the fairness metric by almost 5 times, whilst maintaining image quality. We further validate our approach by applying it to an imbalanced CIFAR10 dataset where we show that we can obtain comparable fairness and image quality as when training on a balanced CIFAR10 dataset which is also twice as large. Lastly, we argue that the traditionally used image quality metrics such as Frechet inception distance (FID) are unsuitable for scenarios where the class distributions are imbalanced and a balanced reference set is not available.
翻訳日:2023-12-22 18:32:34 公開日:2023-12-21
# 数理最適化におけるデータ駆動説明可能性の枠組み

A Framework for Data-Driven Explainability in Mathematical Optimization ( http://arxiv.org/abs/2308.08309v2 )

ライセンス: Link先を確認
Kevin-Martin Aigner, Marc Goerigk, Michael Hartisch, Frauke Liers, Arthur Miehlich(参考訳) 数理プログラミングの進歩により、数十年前には難解と見なされていた大規模な実世界の問題に効率的に取り組めるようになった。 しかし、最適化ソフトウェアをブラックボックスとして認識するため、証明可能な最適解は受け入れられない。 科学者はよく理解しているが、これは実践者にとって容易なアクセシビリティを欠いている。 したがって、目的値の横にある別の評価基準としてソリューションの説明可能性を導入することで、これらの2つの基準間のトレードオフソリューションを見つけることができる。 説明可能性は、過去に同様の状況で実装された(必ずしも最適ではない)ソリューションと比較することによって達成される。 したがって、同様の特徴を示すソリューションが好まれる。 すでに単純な場合では説明可能なモデルはnpハードであることが証明されているが、説明可能な最短経路問題のような関連する多項式可解の場合を特徴付ける。 実世界の道路網と人工道路網の両方に関する数値実験は,パレートフロントの結果を示している。 説明責任を強制するコストは非常に小さいことが分かりました。

Advancements in mathematical programming have made it possible to efficiently tackle large-scale real-world problems that were deemed intractable just a few decades ago. However, provably optimal solutions may not be accepted due to the perception of optimization software as a black box. Although well understood by scientists, this lacks easy accessibility for practitioners. Hence, we advocate for introducing the explainability of a solution as another evaluation criterion, next to its objective value, which enables us to find trade-off solutions between these two criteria. Explainability is attained by comparing against (not necessarily optimal) solutions that were implemented in similar situations in the past. Thus, solutions are preferred that exhibit similar features. Although we prove that already in simple cases the explainable model is NP-hard, we characterize relevant polynomially solvable cases such as the explainable shortest path problem. Our numerical experiments on both artificial as well as real-world road networks show the resulting Pareto front. It turns out that the cost of enforcing explainability can be very small.
翻訳日:2023-12-22 18:32:10 公開日:2023-12-21
# スマート農業の基礎モデル : 基礎, 機会, 課題

Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges ( http://arxiv.org/abs/2308.06668v3 )

ライセンス: Link先を確認
Jiajia Li, Mingle Xu, Lirong Xiang, Dong Chen, Weichao Zhuang, Xunyuan Yin and Zhaojian Li(参考訳) 過去10年間、農業システムにおけるMLとDLの方法論の急速な発展を目撃してきた。 しかし、これらの従来のML/DLモデルには、いくつかの制限がある: トレーニングには、大きくて費用がかかるラベル付きデータセットに強く依存し、開発とメンテナンスに特別な専門知識を必要とし、主に特定のタスクに適したため、一般化性に欠ける。 近年,基礎モデルは言語や視覚のタスクにおいて,様々な領域で顕著な成功を収めている。 これらのモデルは、複数のドメインとモダリティから大量のデータに基づいて訓練されている。 トレーニングをすれば、小さな微調整と最小限のタスク固有のラベル付きデータだけで、多用途なタスクを実現できる。 その実証された効果と大きな潜在能力にもかかわらず、農業分野にFMを適用するという調査はほとんど行われていない。 そこで本研究では,スマート農業分野におけるFMの可能性を探究する。 特に,問題空間の理解と新たな研究の方向性を明らかにするための概念的ツールと技術的背景について述べる。 この目的のために、コンピュータ科学分野における最近のFMをまずレビューし、言語FM、ビジョンFM、マルチモーダルFM、強化学習FMの4つのカテゴリに分類した。 続いて,農業fmsの展開過程を概説し,スマート農業におけるその可能性について論じる。 また,モデルトレーニングや検証,デプロイメントなど,afm開発に伴うユニークな課題についても論じる。 本研究は農業におけるAIの進歩に寄与し、AFMを広範なラベル付きデータセットへの依存を著しく軽減し、農業AIシステムの効率、有効性、一般化を向上する有望なパラダイムとして導入する。

The past decade has witnessed the rapid development of ML and DL methodologies in agricultural systems, showcased by great successes in variety of agricultural applications. However, these conventional ML/DL models have certain limitations: They heavily rely on large, costly-to-acquire labeled datasets for training, require specialized expertise for development and maintenance, and are mostly tailored for specific tasks, thus lacking generalizability. Recently, foundation models have demonstrated remarkable successes in language and vision tasks across various domains. These models are trained on a vast amount of data from multiple domains and modalities. Once trained, they can accomplish versatile tasks with just minor fine-tuning and minimal task-specific labeled data. Despite their proven effectiveness and huge potential, there has been little exploration of applying FMs to agriculture fields. Therefore, this study aims to explore the potential of FMs in the field of smart agriculture. In particular, we present conceptual tools and technical background to facilitate the understanding of the problem space and uncover new research directions in this field. To this end, we first review recent FMs in the general computer science domain and categorize them into four categories: language FMs, vision FMs, multimodal FMs, and reinforcement learning FMs. Subsequently, we outline the process of developing agriculture FMs and discuss their potential applications in smart agriculture. We also discuss the unique challenges associated with developing AFMs, including model training, validation, and deployment. Through this study, we contribute to the advancement of AI in agriculture by introducing AFMs as a promising paradigm that can significantly mitigate the reliance on extensive labeled datasets and enhance the efficiency, effectiveness, and generalization of agricultural AI systems.
翻訳日:2023-12-22 18:31:32 公開日:2023-12-21
# 符号化復号量子回路におけるエラーレジリエンス相転移

Error-resilience Phase Transitions in Encoding-Decoding Quantum Circuits ( http://arxiv.org/abs/2308.06321v2 )

ライセンス: Link先を確認
Xhek Turkeshi, Piotr Sierant(参考訳) 多体量子システムでエンコードされた情報のエラーがどのように悪化するかを理解することは、量子技術にとって実用的な意味を持つ根本的な問題である。 本稿では,局所コヒーレントおよび非コヒーレントエラーを受ける符号化復号ランダム回路のクラスについて検討する。 誤差強度が増大した場合に発生する誤差保護相からエラー回避相への位相遷移の存在を解析的に実証する。 この遷移は、R'enyiエントロピー遷移と、系の多フラクタル特性の開始を伴う。 提案手法は,多体系における動的臨界現象の解析的理解を可能にする一方で,量子情報の保存と処理に関する新たな視点を提供する。

Understanding how errors deteriorate the information encoded in a many-body quantum system is a fundamental problem with practical implications for quantum technologies. Here, we investigate a class of encoding-decoding random circuits subject to local coherent and incoherent errors. We analytically demonstrate the existence of a phase transition from an error-protecting phase to an error-vulnerable phase occurring when the error strength is increased. This transition is accompanied by R\'enyi entropy transitions and by onset of multifractal features in the system. Our results provide a new perspective on storing and processing quantum information, while the introduced framework enables an analytic understanding of a dynamical critical phenomenon in a many-body system.
翻訳日:2023-12-22 18:30:43 公開日:2023-12-21
# dunkl型微分項による一般化フォッカー・プランク方程式

The Generalized Fokker-Planck Equation in terms of Dunkl-type Derivatives ( http://arxiv.org/abs/2310.05017v3 )

ライセンス: Link先を確認
R. D. Mota, D. Ojeda-Guill\'en and M. A. Xicot\'encatl(参考訳) 本研究では、(1+1)次元のフォッカー・プランク方程式の2つの異なる一般化を導入し、空間微分を反射作用素を含む一般化ダンクル型微分に置き換える。 これらの結果の応用として、調和振動子と遠心型ポテンシャルに対する一般化されたフォッカー・プランク方程式を正確に解く。

In this work we introduce two different generalizations of the Fokker-Planck equation in (1+1) dimensions by replacing the spatial derivatives in terms of generalized Dunkl-type derivatives involving reflection operators. As applications of these results, we solve exactly the generalized Fokker-Planck equations for the harmonic oscillator and the centrifugal-type potentials.
翻訳日:2023-12-22 18:24:49 公開日:2023-12-21
# 都市におけるホットスポットとクールスポットの識別のための縦断熱画像の意味セグメンテーション

Semantic segmentation of longitudinal thermal images for identification of hot and cool spots in urban areas ( http://arxiv.org/abs/2310.04247v2 )

ライセンス: Link先を確認
Vasantha Ramani, Pandarasamy Arjunan, Kameshwar Poolla and Clayton Miller(参考訳) 本研究は,都市部におけるホットスポットとクールスポットを特定するために,近隣のスケールで収集したセマンティックセグメンテーション,縦,空間的にリッチな熱画像の解析を行う。 シンガポール国立大学教育キャンパスの様々な建物の熱画像を集めるために、数ヶ月にわたって赤外線観測所が運営された。 熱画像データセットのサブセットは、最先端のディープラーニングモデルのトレーニングに使われ、建物、植生、空、道路など、さまざまな都市の特徴を分割した。 CNNバックボーンを持つU-Netセグメンテーションモデルは、DeepLabV3、DeeplabV3+、FPN、PSPnetといった他のモデルと比較して、テストデータセット上で最もmIoUスコアが0.99であることがわかった。 次に, セグメンテーションモデルを用いて生成したマスクを用いて, 熱画像から温度を抽出し, 様々な都市特性の放射率差を補正した。 さらに、予測セグメンテーションマスクを用いて抽出した温度の様々な統計的測定値を示し、地上の真理マスクを用いて抽出した温度と密に一致した。 最後に、マスクは都市の特徴のホットスポットとクールスポットを様々な場面で識別するために使用された。 これは、都市熱島(UHI)効果の低減、建設エネルギー効率の向上、屋外熱快適性を最大化するための緩和戦略を考案する都市計画家にとって潜在的に有用である、熱画像の自動解析を実証する数少ない研究の1つである。

This work presents the analysis of semantically segmented, longitudinally, and spatially rich thermal images collected at the neighborhood scale to identify hot and cool spots in urban areas. An infrared observatory was operated over a few months to collect thermal images of different types of buildings on the educational campus of the National University of Singapore. A subset of the thermal image dataset was used to train state-of-the-art deep learning models to segment various urban features such as buildings, vegetation, sky, and roads. It was observed that the U-Net segmentation model with `resnet34' CNN backbone has the highest mIoU score of 0.99 on the test dataset, compared to other models such as DeepLabV3, DeeplabV3+, FPN, and PSPnet. The masks generated using the segmentation models were then used to extract the temperature from thermal images and correct for differences in the emissivity of various urban features. Further, various statistical measure of the temperature extracted using the predicted segmentation masks is shown to closely match the temperature extracted using the ground truth masks. Finally, the masks were used to identify hot and cool spots in the urban feature at various instances of time. This forms one of the very few studies demonstrating the automated analysis of thermal images, which can be of potential use to urban planners for devising mitigation strategies for reducing the urban heat island (UHI) effect, improving building energy efficiency, and maximizing outdoor thermal comfort.
翻訳日:2023-12-22 18:24:42 公開日:2023-12-21
# ヒューマンチュータスタイルプログラミングフィードバックの自動化:Hint生成のためのGPT-4チュータモデルとHint検証のためのGPT-3.5学生モデルを活用する

Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation ( http://arxiv.org/abs/2310.03780v3 )

ライセンス: Link先を確認
Tung Phung, Victor-Alexandru P\u{a}durean, Anjali Singh, Christopher Brooks, Jos\'e Cambronero, Sumit Gulwani, Adish Singla, Gustavo Soares(参考訳) 生成型AIと大規模言語モデルは、学生に対する個別のフィードバックを自動的に生成することにより、プログラミング教育の強化に大いに貢献する。 学習者型プログラミングヒントの提供における生成型aiモデルの役割について検討し,学生のバギープログラムにおけるエラー解決を支援する。 最近の研究は、様々なフィードバック生成シナリオの最先端モデルをベンチマークしているが、その全体的な品質は、人間のチューターに劣り、実際の展開の準備が整っていない。 本稿では,生成型AIモデルの限界を高品質なプログラミングヒントの提供に推し進め,新しい技術であるGPT4Hints-GPT3.5Valを開発する。 最初のステップとして、GPT-4 を ``tutor'' モデルとして利用してヒントを生成する -- 失敗するテストケースのシンボル情報とプロンプト修正を使用することで、生成品質を向上させる。 次のステップとして、より弱いモデルである GPT-3.5 を ``student'' モデルとして活用して、ヒントの品質をさらに検証します。 基礎アルゴリズムから正規表現, pandasライブラリを用いたデータ解析まで,様々な概念をカバーするpythonプログラムの3つの実世界データセットを用いて,本手法の有効性を示す。

Generative AI and large language models hold great promise in enhancing programming education by automatically generating individualized feedback for students. We investigate the role of generative AI models in providing human tutor-style programming hints to help students resolve errors in their buggy programs. Recent works have benchmarked state-of-the-art models for various feedback generation scenarios; however, their overall quality is still inferior to human tutors and not yet ready for real-world deployment. In this paper, we seek to push the limits of generative AI models toward providing high-quality programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a first step, our technique leverages GPT-4 as a ``tutor'' model to generate hints -- it boosts the generative quality by using symbolic information of failing test cases and fixes in prompts. As a next step, our technique leverages GPT-3.5, a weaker model, as a ``student'' model to further validate the hint quality -- it performs an automatic quality validation by simulating the potential utility of providing this feedback. We show the efficacy of our technique via extensive evaluation using three real-world datasets of Python programs covering a variety of concepts ranging from basic algorithms to regular expressions and data analysis using pandas library.
翻訳日:2023-12-22 18:24:12 公開日:2023-12-21
# グラフニューラルネットワークは最適な近似アルゴリズムか?

Are Graph Neural Networks Optimal Approximation Algorithms? ( http://arxiv.org/abs/2310.00526v4 )

ライセンス: Link先を確認
Morris Yau, Eric Lu, Nikolaos Karalias, Jessica Xu, Stefanie Jegelka(参考訳) 本研究では,半定義型プログラミング(sdp)の強力なアルゴリズムツールを用いて,組合せ最適化問題に対する最適近似アルゴリズムを得るためのグラフニューラルネットワークアーキテクチャを設計する。 具体的には, 多項式サイズのメッセージパッシングアルゴリズムは, ユニクゲーム・コンジェクチャを仮定した最大制約満足度問題に対して, 最も強力な多項式時間アルゴリズムを表現できることを示す。 この結果を利用して効率的なグラフニューラルネットワークアーキテクチャOpsGNNを構築し、マックスカットや最大独立集合のようなランドマーク組合せ最適化問題に対する高品質な近似解を得る。 我々のアプローチは、ニューラルネットワークと古典アルゴリズムの両方に対して、広範囲の現実世界および合成データセットに対して強力な経験的結果を得る。 最後に, コンベックス緩和を捉えた OptGNN の機能を利用して, 学習した OptGNN の埋め込みから最適性(最適解のバウンド)の二重証明を生成するアルゴリズムを設計する。

In this work we design graph neural network architectures that can be used to obtain optimal approximation algorithms for a large class of combinatorial optimization problems using powerful algorithmic tools from semidefinite programming (SDP). Concretely, we prove that polynomial-sized message passing algorithms can represent the most powerful polynomial time algorithms for Max Constraint Satisfaction Problems assuming the Unique Games Conjecture. We leverage this result to construct efficient graph neural network architectures, OptGNN, that obtain high-quality approximate solutions on landmark combinatorial optimization problems such as Max Cut and maximum independent set. Our approach achieves strong empirical results across a wide range of real-world and synthetic datasets against both neural baselines and classical algorithms. Finally, we take advantage of OptGNN's ability to capture convex relaxations to design an algorithm for producing dual certificates of optimality (bounds on the optimal solution) from the learned embeddings of OptGNN.
翻訳日:2023-12-22 18:22:24 公開日:2023-12-21
# カオスにおける順序を見つける: コントラスト学習における時系列の新しいデータ拡張法

Finding Order in Chaos: A Novel Data Augmentation Method for Time Series in Contrastive Learning ( http://arxiv.org/abs/2309.13439v2 )

ライセンス: Link先を確認
Berken Utku Demirel and Christian Holz(参考訳) コントラスト学習の成功は、データ拡張に依存することがよく知られている。 視覚などの領域で予め定義された技術を利用することで、データ拡張の程度は十分に制御されているが、時系列データ拡張の探求は少なく、心血管系に関わる複雑なメカニズムのようなデータ生成メカニズムの複雑さにより、依然として課題となっている。 さらに、異なるタスクにまたがって適用可能な、広く認識され、一般的な時系列拡張方法は存在しない。 本稿では,クラス内サンプルを結合し,潜在空間における順序を求めることを目的とした,準周期時系列タスクのための新しいデータ拡張手法を提案する。 本手法は,非定常時間系列の周期的性質を考慮に入れた新しい手法を取り入れた,よく知られた混合手法に基づく。 また,データ拡張によって生じるカオスの度合いを制御することにより,下流タスクにおける特徴表現の改善と性能向上につながる。 提案手法は心拍数推定,ヒューマンアクティビティ認識,心血管疾患検出の3つの課題について検討した。 提案手法は, 提案手法の有効性を反映して, 3つのタスクにおいて, 最適データ生成および既知のデータ拡張技術に関する先行研究より優れていることを示す。 ソースコード: https://github.com/eth-siplab/finding_order_in_chaos

The success of contrastive learning is well known to be dependent on data augmentation. Although the degree of data augmentations has been well controlled by utilizing pre-defined techniques in some domains like vision, time-series data augmentation is less explored and remains a challenging problem due to the complexity of the data generation mechanism, such as the intricate mechanism involved in the cardiovascular system. Moreover, there is no widely recognized and general time-series augmentation method that can be applied across different tasks. In this paper, we propose a novel data augmentation method for quasi-periodic time-series tasks that aims to connect intra-class samples together, and thereby find order in the latent space. Our method builds upon the well-known mixup technique by incorporating a novel approach that accounts for the periodic nature of non-stationary time-series. Also, by controlling the degree of chaos created by data augmentation, our method leads to improved feature representations and performance on downstream tasks. We evaluate our proposed method on three time-series tasks, including heart rate estimation, human activity recognition, and cardiovascular disease detection. Extensive experiments against state-of-the-art methods show that the proposed approach outperforms prior works on optimal data generation and known data augmentation techniques in the three tasks, reflecting the effectiveness of the presented method. Source code: https://github.com/eth-siplab/Finding_Order_in_Chaos
翻訳日:2023-12-22 18:21:49 公開日:2023-12-21
# 模倣学習におけるデータ強化によるゲームエージェントの一般化改善

Improving Generalization in Game Agents with Data Augmentation in Imitation Learning ( http://arxiv.org/abs/2309.12815v2 )

ライセンス: Link先を確認
Derek Yadgaroff, Alessandro Sestini, Konrad Tollmar, Ayca Ozcelikkale, Linus Gissl\'en(参考訳) 模倣学習は、ゲームプレイングエージェントを訓練し、その結果、効率的なゲーム生産のための効果的なアプローチである。 しかし、一般化 - 関連するが見えないシナリオでうまく機能する能力 - は、ゲームAIにとって未解決の課題である。 アルゴリズムがトレーニング分布外の有意義な行動を取る必要があるため、模倣学習エージェントには一般化が難しい。 本稿では,この問題に対する解決策を提案する。 教師あり学習におけるデータ強化の成功に触発されて、トレーニングデータを拡張し、データセット内の状態と行動の分布が実際の状態-行動分布をより良く表現できるようにします。 本研究は, 模倣学習エージェントの一般化を改善するため, データの強化を観察に応用する方法を評価・評価する。 また、複数の3D環境にまたがるこれらの拡張のパフォーマンスベンチマークも提供する。 これらの結果は、データ拡張が模倣学習エージェントの一般化を改善するための有望なフレームワークであることを示している。

Imitation learning is an effective approach for training game-playing agents and, consequently, for efficient game production. However, generalization - the ability to perform well in related but unseen scenarios - is an essential requirement that remains an unsolved challenge for game AI. Generalization is difficult for imitation learning agents because it requires the algorithm to take meaningful actions outside of the training distribution. In this paper we propose a solution to this challenge. Inspired by the success of data augmentation in supervised learning, we augment the training data so the distribution of states and actions in the dataset better represents the real state-action distribution. This study evaluates methods for combining and applying data augmentations to observations, to improve generalization of imitation learning agents. It also provides a performance benchmark of these augmentations across several 3D environments. These results demonstrate that data augmentation is a promising framework for improving generalization in imitation learning agents.
翻訳日:2023-12-22 18:21:27 公開日:2023-12-21
# lmc:トレーニングフリーオープンセット物体認識のためのクロスアセスメントによる大規模モデル協調

LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition ( http://arxiv.org/abs/2309.12780v3 )

ライセンス: Link先を確認
Haoxuan Qu, Xiaofei Hui, Yujun Cai, Jun Liu(参考訳) オープンセットオブジェクト認識は、トレーニング中に遭遇したクラスからオブジェクトを識別することを目的としている。 オープンセットオブジェクト認識を正確に行うためには、素早い識別的特徴への依存を減らすかが課題である。 本稿では,異なるパラダイムを通じて事前学習された異なる大規模モデルが,異なる暗黙の知識を持つことができることを動機として,この課題に対処する新たなフレームワークであるLarge Model Collaboration(LMC)を提案する。 さらに,提案フレームワークをいくつかの新しい設計に組み込んで,大規模モデルから暗黙的な知識を効果的に抽出する。 広範な実験により,提案手法の有効性が実証された。 コードはhttps://github.com/Harryqu123/LMCで入手できる。

Open-set object recognition aims to identify if an object is from a class that has been encountered during training or not. To perform open-set object recognition accurately, a key challenge is how to reduce the reliance on spurious-discriminative features. In this paper, motivated by that different large models pre-trained through different paradigms can possess very rich while distinct implicit knowledge, we propose a novel framework named Large Model Collaboration (LMC) to tackle the above challenge via collaborating different off-the-shelf large models in a training-free manner. Moreover, we also incorporate the proposed framework with several novel designs to effectively extract implicit knowledge from large models. Extensive experiments demonstrate the efficacy of our proposed framework. Code is available https://github.com/Harryqu123/LMC
翻訳日:2023-12-22 18:21:11 公開日:2023-12-21
# 十分かつ必要な原因の確率による不変学習

Invariant Learning via Probability of Sufficient and Necessary Causes ( http://arxiv.org/abs/2309.12559v4 )

ライセンス: Link先を確認
Mengyue Yang, Zhen Fang, Yonggang Zhang, Yali Du, Furui Liu, Jean-Francois Ton, Jianhong Wang, Jun Wang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、一般にテスト分布が未知であり、トレーニングとは異なる、野生のモデルの学習には不可欠である。 因果関係から導かれる最近の手法は、OOD一般化の実現に大きな可能性を示している。 しかし、既存の方法は主に原因の不変性に焦点を合わせ、主に \textit{sufficiency} と \textit{necessity} の条件の性質を見下ろしている。 すなわち、必要だが不十分な原因(特徴)は分布シフトに不変であるが、正確さは必要ではない。 対照的に、十分な不必要な原因(機能)は特定のデータによく適合する傾向があるが、新しいドメインに適応するリスクがある。 十分かつ必要な原因に関する情報を収集するために、我々は、必要かつ十分な原因であるかどうかを示す古典的な概念、充足確率と必要原因(PNS)を用いる。 PNS と OOD の一般化を関連付けるために,我々は PNS リスクを提案し,高い PNS 値で表現を学習するアルゴリズムを定式化する。 PNSリスクの一般化性を理論的に分析し,実証する。 合成および実世界のベンチマーク実験により,提案手法の有効性が示された。 実装の詳細はgithubリポジトリにある。 https://github.com/ymy4323460/casn。

Out-of-distribution (OOD) generalization is indispensable for learning models in the wild, where testing distribution typically unknown and different from the training. Recent methods derived from causality have shown great potential in achieving OOD generalization. However, existing methods mainly focus on the invariance property of causes, while largely overlooking the property of \textit{sufficiency} and \textit{necessity} conditions. Namely, a necessary but insufficient cause (feature) is invariant to distribution shift, yet it may not have required accuracy. By contrast, a sufficient yet unnecessary cause (feature) tends to fit specific data well but may have a risk of adapting to a new domain. To capture the information of sufficient and necessary causes, we employ a classical concept, the probability of sufficiency and necessary causes (PNS), which indicates the probability of whether one is the necessary and sufficient cause. To associate PNS with OOD generalization, we propose PNS risk and formulate an algorithm to learn representation with a high PNS value. We theoretically analyze and prove the generalizability of the PNS risk. Experiments on both synthetic and real-world benchmarks demonstrate the effectiveness of the proposed method. The details of the implementation can be found at the GitHub repository: https://github.com/ymy4323460/CaSN.
翻訳日:2023-12-22 18:20:52 公開日:2023-12-21
# FedJudge:Federated Legal Large Language Model

FedJudge: Federated Legal Large Language Model ( http://arxiv.org/abs/2309.08173v2 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Yichao Du, Weibo Gao, Ye Liu, Fangzhou Yao(参考訳) 大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。 しかし、これらの法定llmの集中的な訓練は、機密情報を含む様々な機関に法定データが配布されるため、データのプライバシーに関する懸念を引き起こす。 本稿では,LLMとFL(Federated Learning)方法論の統合を検討することで,この問題に対処する。 FLを使用することで、LLMをデバイスやクライアント上でローカルに微調整し、パラメータを集約して中央サーバに分散することで、生データを直接共有することなくデータのプライバシを保証できる。 しかし、計算と通信のオーバーヘッドは、FL設定下でのLLMの完全な微調整を妨げる。 さらに、法データの分布シフトにより、fl法の有効性が低下する。 そこで本稿では,法定llmを効率的かつ効率的に微調整する最初のfederated legal large language model (fedjudge)フレームワークを提案する。 特に、FedJudgeはパラメータ効率のよい微調整手法を使用して、FLトレーニング中に追加のパラメータのみを更新する。 さらに,データシフトの問題を緩和するために,地域クライアントのトレーニングを行う際に,グローバルモデルの重要なパラメータを保存するための連続学習手法についても検討する。 実世界の3つのデータセットの大規模な実験結果から,FedJudgeの有効性が明らかとなった。 コードはhttps://github.com/yuelinan/fedjudgeでリリースされる。

Large Language Models (LLMs) have gained prominence in the field of Legal Intelligence, offering potential applications in assisting legal professionals and laymen. However, the centralized training of these Legal LLMs raises data privacy concerns, as legal data is distributed among various institutions containing sensitive individual information. This paper addresses this challenge by exploring the integration of Legal LLMs with Federated Learning (FL) methodologies. By employing FL, Legal LLMs can be fine-tuned locally on devices or clients, and their parameters are aggregated and distributed on a central server, ensuring data privacy without directly sharing raw data. However, computation and communication overheads hinder the full fine-tuning of LLMs under the FL setting. Moreover, the distribution shift of legal data reduces the effectiveness of FL methods. To this end, in this paper, we propose the first Federated Legal Large Language Model (FedJudge) framework, which fine-tunes Legal LLMs efficiently and effectively. Specifically, FedJudge utilizes parameter-efficient fine-tuning methods to update only a few additional parameters during the FL training. Besides, we explore the continual learning methods to preserve the global model's important parameters when training local clients to mitigate the problem of data shifts. Extensive experimental results on three real-world datasets clearly validate the effectiveness of FedJudge. Code is released at https://github.com/yuelinan/FedJudge.
翻訳日:2023-12-22 18:20:14 公開日:2023-12-21
# 動的ビジュアルセマンティックサブ埋め込みと高速リランキング

Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking ( http://arxiv.org/abs/2309.08154v2 )

ライセンス: Link先を確認
Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Dehua Peng, Huayi Wu(参考訳) クロスモーダルマッチングのコアは、統一表現空間における異なるモダリティ間の類似性を正確に測定することである。 しかし、ある視点のテキスト記述と比較すると、視覚的モダリティはより意味的なバリエーションを持つ。 そのため、画像は通常、データベース内の複数のテキストキャプションに関連付けられる。 一般的な対称埋め込み法は多数のモーダル相互作用のアプローチを探索してきたが、画像埋め込みにおける複数の意味的変動の平均表現確率を高めるためにしばしば学習される。 これにより、埋め込みにおける情報エントロピーが増大し、冗長性と精度が低下する。 本稿では,情報エントロピーの低減を目的とした動的ビジュアルセマンティクスサブエンベディングフレームワーク(dvse)を提案する。 具体的には,動的直交制約損失による不均一な視覚サブエンベディングのセットを得る。 生成した候補埋め込みに様々な意味的変動を捉えるよう促すため、混合分布を構築し、分散認識重み損失を用いて最適化プロセスに異なる重みを割り当てる。 さらに,検索結果を効率的に評価し,性能を向上させるための高速リランク戦略 (FR) を開発した。 MSCOCO, Flickr30K, CUB Captionsの3つのベンチマークデータセット上で, 4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いた既存のセットベース手法との比較を行った。 また,アブレーション研究によって異なる成分の役割を示し,ハイパーパラメータの感度解析を行う。 さらに,可視化された双方向検索とアテンションマップの質的解析により,セマンティックなバリエーションを符号化できることを示す。

The core of cross-modal matching is to accurately measure the similarity between different modalities in a unified representation space. However, compared to textual descriptions of a certain perspective, the visual modality has more semantic variations. So, images are usually associated with multiple textual captions in databases. Although popular symmetric embedding methods have explored numerous modal interaction approaches, they often learn toward increasing the average expression probability of multiple semantic variations within image embeddings. Consequently, information entropy in embeddings is increased, resulting in redundancy and decreased accuracy. In this work, we propose a Dynamic Visual Semantic Sub-Embeddings framework (DVSE) to reduce the information entropy. Specifically, we obtain a set of heterogeneous visual sub-embeddings through dynamic orthogonal constraint loss. To encourage the generated candidate embeddings to capture various semantic variations, we construct a mixed distribution and employ a variance-aware weighting loss to assign different weights to the optimization process. In addition, we develop a Fast Re-ranking strategy (FR) to efficiently evaluate the retrieval results and enhance the performance. We compare the performance with existing set-based method using four image feature encoders and two text feature encoders on three benchmark datasets: MSCOCO, Flickr30K and CUB Captions. We also show the role of different components by ablation studies and perform a sensitivity analysis of the hyperparameters. The qualitative analysis of visualized bidirectional retrieval and attention maps further demonstrates the ability of our method to encode semantic variations.
翻訳日:2023-12-22 18:19:49 公開日:2023-12-21
# 制約付き組合せ最適化問題に対する後処理変分計画量子アルゴリズム

Post-processing variationally scheduled quantum algorithm for constrained combinatorial optimization problems ( http://arxiv.org/abs/2309.08120v2 )

ライセンス: Link先を確認
Tatsuhiko Shirai, Nozomu Togawa(参考訳) 本稿では,制約付き組合せ最適化問題(COP)の解法として,変分計画量子アルゴリズム(pVSQA)を提案する。 一般的に、COPは量子アニールまたはゲート型量子デバイス上のイジングモデルの基底状態探索問題に変換される。 変分法は、短時間で高品質なソリューションにつながる最適なスケジュール関数を見つけるために使われる。 後処理技術は、量子デバイスの出力解をCOPの制約を満たすように変換する。 pVSQAは変分法と後処理技術を組み合わせたものである。 我々は、制約付きCOPがgreedy後処理アルゴリズムに基づいてpVSQAを適用するのに十分な条件を得る。 提案手法はグラフ分割問題と2次クナップサック問題という2つの制約付きNPハードCOPに適用する。 シミュレータ上のpVSQAは,所定操作時間内に最適性能を達成するのに,少数の変動パラメータが十分であることを示す。 次に,シミュレーション結果に基づいて,量子アニールとゲート型量子デバイス上にpVSQAを実装した。 実験の結果,提案手法の有効性が示された。

We propose a post-processing variationally scheduled quantum algorithm (pVSQA) for solving constrained combinatorial optimization problems (COPs). COPs are typically transformed into ground-state search problems of the Ising model on a quantum annealer or gate-type quantum device. Variational methods are used to find an optimal schedule function that leads to high-quality solutions in a short amount of time. Post-processing techniques convert the output solutions of the quantum devices to satisfy the constraints of the COPs. pVSQA combines the variational methods and the post-processing technique. We obtain a sufficient condition for constrained COPs to apply pVSQA based on a greedy post-processing algorithm. We apply the proposed method to two constrained NP-hard COPs: the graph partitioning problem and the quadratic knapsack problem. pVSQA on a simulator shows that a small number of variational parameters is sufficient to achieve a (near-)optimal performance within a predetermined operation time. Then building upon the simulator results, we implement pVSQA on a quantum annealer and a gate-type quantum device. The experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2023-12-22 18:19:26 公開日:2023-12-21
# 顔画像生成の限界

Limitations of Face Image Generation ( http://arxiv.org/abs/2309.07277v2 )

ライセンス: Link先を確認
Harrison Rosenberg, Shimaa Ahmed, Guruprasad V Ramesh, Ramya Korlakai Vinayak, Kassem Fawaz(参考訳) テキストから画像への拡散モデルは、前例のない画像生成能力によって広く普及している。 特に、人間の顔の合成と修正能力は、トレーニングデータ増強とモデルパフォーマンス評価の両方において生成された顔画像の使用の研究を加速させてきた。 本稿では,顔生成の文脈における生成モデルの有効性と欠点について検討する。 埋め込み型メトリクスとユーザスタディを含む質的,定量的な尺度を組み合わせることで,社会的属性のセットに条件付けされた生成顔の特徴を監査する枠組みを提案する。 我々は,最先端のテキストから画像への拡散モデルを用いて生成した顔に対して,このフレームワークを適用した。 テキストプロンプトへの忠実さ,人口格差,分布シフトなど,顔画像生成のいくつかの制限を明らかにする。 さらに、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。

Text-to-image diffusion models have achieved widespread popularity due to their unprecedented image generation capability. In particular, their ability to synthesize and modify human faces has spurred research into using generated face images in both training data augmentation and model performance assessments. In this paper, we study the efficacy and shortcomings of generative models in the context of face generation. Utilizing a combination of qualitative and quantitative measures, including embedding-based metrics and user studies, we present a framework to audit the characteristics of generated faces conditioned on a set of social attributes. We applied our framework on faces generated through state-of-the-art text-to-image diffusion models. We identify several limitations of face image generation that include faithfulness to the text prompt, demographic disparities, and distributional shifts. Furthermore, we present an analytical model that provides insights into how training data selection contributes to the performance of generative models.
翻訳日:2023-12-22 18:19:11 公開日:2023-12-21
# gc-mvsnet:マルチビュー、マルチスケール、幾何学的一貫性のあるマルチビューステレオ

GC-MVSNet: Multi-View, Multi-Scale, Geometrically-Consistent Multi-View Stereo ( http://arxiv.org/abs/2310.19583v3 )

ライセンス: Link先を確認
Vibhas K. Vats, Sripad Joshi, David J. Crandall, Md. Alimoor Reza, Soon-heung Jung(参考訳) 従来のマルチビューステレオ(MVS)手法は、測光的および幾何的整合性制約に大きく依存するが、より新しい機械学習ベースのMVS法は、後処理ステップとしてのみ複数のソースビューにまたがる幾何的整合性をチェックする。 本稿では,学習中に異なるスケールで複数のソースビューにまたがる参照ビュー深度マップの幾何学的一貫性を明示的に奨励する新しいアプローチを提案する(図1参照)。 この幾何整合性損失を加えることで、幾何的不整合画素を明示的にペナル化することで学習を著しく加速し、訓練の繰り返し要求を他のMVS手法のほぼ半分に削減する。 広範な実験により,dtu と blendedmvs データセットにおける新たな最先端技術と,タンク・テンプルベンチマークの競合結果が得られた。 我々の知る限り、GC-MVSNetは学習中にマルチビュー、マルチスケールの幾何的一貫性を強制する最初の試みである。

Traditional multi-view stereo (MVS) methods rely heavily on photometric and geometric consistency constraints, but newer machine learning-based MVS methods check geometric consistency across multiple source views only as a post-processing step. In this paper, we present a novel approach that explicitly encourages geometric consistency of reference view depth maps across multiple source views at different scales during learning (see Fig. 1). We find that adding this geometric consistency loss significantly accelerates learning by explicitly penalizing geometrically inconsistent pixels, reducing the training iteration requirements to nearly half that of other MVS methods. Our extensive experiments show that our approach achieves a new state-of-the-art on the DTU and BlendedMVS datasets, and competitive results on the Tanks and Temples benchmark. To the best of our knowledge, GC-MVSNet is the first attempt to enforce multi-view, multi-scale geometric consistency during learning.
翻訳日:2023-12-22 18:13:00 公開日:2023-12-21
# Recommender システムへの埋め込み: 調査

Embedding in Recommender Systems: A Survey ( http://arxiv.org/abs/2310.18608v2 )

ライセンス: Link先を確認
Xiangyu Zhao, Maolin Wang, Xinjian Zhao, Jiansheng Li, Shucheng Zhou, Dawei Yin, Qing Li, Jiliang Tang, Ruocheng Guo(参考訳) レコメンダシステムは、多くのオンラインプラットフォームで不可欠なコンポーネントとなり、ユーザにパーソナライズされたレコメンデーションを提供している。 重要な側面は、ユーザやアイテムIDのような高次元の離散的な特徴を低次元の連続ベクトルに隠蔽し、レコメンデーション性能を高める技術である。 埋め込み技術の適用は複雑なエンティティ関係を捉え、実質的な研究を促している。 本稿では,レコメンダシステムにおける埋め込み技術に関する最近の文献の概要について述べる。 この調査では、協調フィルタリング、自己教師付き学習、グラフベースのテクニックなどの埋め込み手法を取り上げている。 協調フィルタリングは、ユーザの好みを捉え、スパースデータに優れた埋め込みを生成する。 自己管理手法は、様々なタスクにコントラスト学習または生成学習を利用する。 node2vecのようなグラフベースのテクニックは、ネットワークリッチな環境で複雑な関係を利用する。 メソッドの埋め込みに固有のスケーラビリティの課題に対処するため、調査はレコメンデーションシステムの分野で革新的な方向に向かいます。 これらの方向は性能の向上と計算複雑性の低減を目標とし、レコメンダシステムの改善への道を開く。 これらの革新的なアプローチの中で、このサーベイでAuto Machine Learning(AutoML)、ハッシュ技術、量子化技術を紹介する。 我々は,様々なアーキテクチャと技術について議論し,これらの側面における課題と今後の方向性を強調する。 本調査は,この急速に発展する分野における最先端技術の概要を包括的に把握し,レコメンデーションシステム分野で働く研究者や実践者にとって有用な資源となることを目的としている。

Recommender systems have become an essential component of many online platforms, providing personalized recommendations to users. A crucial aspect is embedding techniques that coverts the high-dimensional discrete features, such as user and item IDs, into low-dimensional continuous vectors and can enhance the recommendation performance. Applying embedding techniques captures complex entity relationships and has spurred substantial research. In this survey, we provide an overview of the recent literature on embedding techniques in recommender systems. This survey covers embedding methods like collaborative filtering, self-supervised learning, and graph-based techniques. Collaborative filtering generates embeddings capturing user-item preferences, excelling in sparse data. Self-supervised methods leverage contrastive or generative learning for various tasks. Graph-based techniques like node2vec exploit complex relationships in network-rich environments. Addressing the scalability challenges inherent to embedding methods, our survey delves into innovative directions within the field of recommendation systems. These directions aim to enhance performance and reduce computational complexity, paving the way for improved recommender systems. Among these innovative approaches, we will introduce Auto Machine Learning (AutoML), hash techniques, and quantization techniques in this survey. We discuss various architectures and techniques and highlight the challenges and future directions in these aspects. This survey aims to provide a comprehensive overview of the state-of-the-art in this rapidly evolving field and serve as a useful resource for researchers and practitioners working in the area of recommender systems.
翻訳日:2023-12-22 18:12:18 公開日:2023-12-21
# フォトニック量子ビットの2光子量子状態トモグラフィー

Two-photon quantum state tomography of photonic qubits ( http://arxiv.org/abs/2310.17411v2 )

ライセンス: Link先を確認
Guilherme P. Tempor\~ao and Pedro Ripper and Thiago B. Guerreiro and Gustavo C. do Amaral(参考訳) 本研究では,2次干渉,すなわちHong-Ou-Mandel(HOM)干渉計を用いてストークスパラメータと単一光子の偏光度を測定する。 この手法は、偏光状態と到達時間などの内部自由度が結合された部分偏光子と、環境との外部の絡み合いによる部分偏光子を区別できることが示されている。 この方法はいかなる偏光選択成分にも直接依存せず、したがって偏光剤の絶滅率に制限されない。 さらにこの技術は、タイムビンや軌道角運動量量子ビットのような単一光子における量子情報の任意の2レベルエンコーディングに一般化することができる。

We provide a tool for measuring the Stokes parameters and the degree of polarization of single photons by employing second order interference, namely the Hong-Ou-Mandel (HOM) interferometer. It is shown that the technique is able to distinguish a partially polarized photon where the polarization state is coupled to an internal degree of freedom, such as time of arrival, from partial polarization due to external entanglement with the environment. The method does not directly resort to any kind of polarization-selective components and therefore is not limited by the extinction ratio of polarizers. Moreover, the technique can be generalized to any two-level encoding of quantum information in single photons, such as time-bin or orbital angular momentum qubits.
翻訳日:2023-12-22 18:11:56 公開日:2023-12-21
# 消散アンシラによる量子電池の定常充電

Steady-state charging of quantum batteries via dissipative ancillas ( http://arxiv.org/abs/2310.17174v2 )

ライセンス: Link先を確認
F. H. Kamin, S. Salimi and M. B. Arjmandi(参考訳) 量子ビットのNセル星ネットワークに埋め込まれた単一セル量子電池の定常帯電過程について検討し、それぞれがフェルミオン貯水池と相互作用し、それぞれ平衡シナリオと非平衡シナリオを個別に行う。 両シナリオで最適な定常電荷が得られ、貯水池の化学的ポテンシャルと化学的ポテンシャルの差により単調に成長する。 貯水池の高温は、全てのパラメーター状態において破壊的な役割を果たす。 非平衡状態の強度にかかわらず、電池の対応する貯水池の高塩基性化学ポテンシャルは帯電過程を著しく向上できることを示す。 一方、弱い結合強度は帯電を強く抑制することができる。 その結果, 自己放電による有害な効果に対処でき, 外部充電場がない場合に, オープン量子電池の安定充電性を高めるための貴重なガイドラインを提供することができた。

We investigate the steady-state charging process of a single-cell quantum battery embedded in an N-cell star network of qubits, each interacting with a fermion reservoir, collectively and individually in equilibrium and non-equilibrium scenarios, respectively. We find an optimal steady-state charging in both scenarios, which grows monotonically with the reservoirs' chemical potential and chemical potential difference. Where the high base temperature of the reservoirs has a destructive role in all parameter regimes. We indicate that regardless of the strength of the non-equilibrium condition, the high base chemical potential of the battery's corresponding reservoir can significantly enhance the charging process. On the other hand, a weak coupling strength can strongly suppress the charging. Consequently, our results could counteract the detrimental effects of self-discharging and provide valuable guidelines for enhancing the stable charging of open quantum batteries in the absence of an external charging field.
翻訳日:2023-12-22 18:11:43 公開日:2023-12-21
# MCUFormer: 限られたメモリでマイクロコントローラにビジョントランスフォーマーをデプロイする

MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory ( http://arxiv.org/abs/2310.16898v3 )

ライセンス: Link先を確認
Yinan Liang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu(参考訳) GPUの高価格と高エネルギー消費のため、マイクロコントローラのようなIoTデバイスにディープモデルをデプロイすることは、エコロジーAIに大きな貢献をする。 従来の手法では、マイクロコントローラ上の高分解能画像の畳み込みニューラルネットワークの推論に成功しているが、視覚トランスフォーマーのフレームワークは、多くの視覚アプリケーションで最先端のパフォーマンスを達成している。 本稿では,超限られたメモリを持つマイクロコントローラに視覚トランスフォーマーを展開するために,mcuformerと呼ばれるハードウェア・アルゴリズムの共最適化手法を提案する。 より具体的には、1ショットネットワークアーキテクチャサーチ(NAS)を一般化し、マイクロコントローラからのメモリ予算から最高のタスク性能で最適なアーキテクチャを探索し、低ランク分解次元とメモリ削減のためのパッチ解像度を考慮して既存の視覚トランスフォーマーの探索空間を拡大する。 視覚変換器の推論演算子ライブラリを構築するために、演算子統合、パッチ埋め込み分解、トークン上書きによる推論中にメモリバッファをスケジュールし、メモリバッファを十分に活用してビジョン変換器の前方通過に適応させる。 STM32F746 マイクロコントローラ上で320KB のメモリを持つ画像分類において,MCUFormer は 73.62\% のトップ-1 の精度を実現している。 コードはhttps://github.com/liangyn22/mcuformerで入手できる。

Due to the high price and heavy energy consumption of GPUs, deploying deep models on IoT devices such as microcontrollers makes significant contributions for ecological AI. Conventional methods successfully enable convolutional neural network inference of high resolution images on microcontrollers, while the framework for vision transformers that achieve the state-of-the-art performance in many vision applications still remains unexplored. In this paper, we propose a hardware-algorithm co-optimizations method called MCUFormer to deploy vision transformers on microcontrollers with extremely limited memory, where we jointly design transformer architecture and construct the inference operator library to fit the memory resource constraint. More specifically, we generalize the one-shot network architecture search (NAS) to discover the optimal architecture with highest task performance given the memory budget from the microcontrollers, where we enlarge the existing search space of vision transformers by considering the low-rank decomposition dimensions and patch resolution for memory reduction. For the construction of the inference operator library of vision transformers, we schedule the memory buffer during inference through operator integration, patch embedding decomposition, and token overwriting, allowing the memory buffer to be fully utilized to adapt to the forward pass of the vision transformer. Experimental results demonstrate that our MCUFormer achieves 73.62\% top-1 accuracy on ImageNet for image classification with 320KB memory on STM32F746 microcontroller. Code is available at https://github.com/liangyn22/MCUFormer.
翻訳日:2023-12-22 18:11:25 公開日:2023-12-21
# 3m-transformer:エンボディドターンテイク予測のための多段マルチストリームマルチモーダルトランス

3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction ( http://arxiv.org/abs/2310.14859v3 )

ライセンス: Link先を確認
Mehdi Fatan, Emanuele Mincato, Dimitra Pintzou, Mariella Dimiccoli(参考訳) マルチパーティ会話におけるターンテイクの予測は、人間とコンピュータ/ロボットのインタラクションに多くの実践的応用がある。 しかし、人間のコミュニケーションの複雑さは難しい課題となっている。 近年の進歩により、同期型マルチパースペクティブなエゴセントリックデータは、非同期のシングルパースペクティブな書き起こしと比較して、ターンテイク予測を著しく改善できることが示されている。 本研究では,エンボディ化・同期化マルチパースペクティブデータのターンテイクを予測するための,新しいマルチモーダルトランスフォーマティブアーキテクチャを提案する。 最近導入されたEgoComデータセットの実験結果は、既存のベースラインや代替トランスフォーマーベースのアプローチと比較して、平均で14.01%の大幅なパフォーマンス向上を示している。 3M-Transformerのソースコードと事前訓練済みのモデルは、受け入れ次第利用可能になります。

Predicting turn-taking in multiparty conversations has many practical applications in human-computer/robot interaction. However, the complexity of human communication makes it a challenging task. Recent advances have shown that synchronous multi-perspective egocentric data can significantly improve turn-taking prediction compared to asynchronous, single-perspective transcriptions. Building on this research, we propose a new multimodal transformer-based architecture for predicting turn-taking in embodied, synchronized multi-perspective data. Our experimental results on the recently introduced EgoCom dataset show a substantial performance improvement of up to 14.01% on average compared to existing baselines and alternative transformer-based approaches. The source code, and the pre-trained models of our 3M-Transformer will be available upon acceptance.
翻訳日:2023-12-22 18:10:27 公開日:2023-12-21
# 単一光子の連続変調変数におけるGottesman-Kitaev-Preskill符号化

Gottesman-Kitaev-Preskill encoding in continuous modal variables of single photons ( http://arxiv.org/abs/2310.12618v3 )

ライセンス: Link先を確認
\'Eloi Descamps, Arne Keller and P\'erola Milman(参考訳) Gottesman, Kitaev, Preskillによって導入されたGKP状態は連続変数論理量子ビットであり、位相空間の変位による誤差に対して補正することができる。 それらの実験的な実現は、特に電磁場の二次構造に量子情報が符号化される伝播場を用いて困難である。 しかし、進行光子は量子情報の長距離伝送を含むgkp符号の多くの応用において必須である。 本稿では,単一光子を用いた伝播場におけるGKP状態の符号化手法を提案する。 GKP状態は、時間と周波数の集合的連続モードによって記述される高相関状態として定義される。 誤差検出・補正プロトコルは、全光子数とスペクトル幅でどのようにスケールするかを分析する。 得られた符号は、二次位相空間における位相差や回転、光子損失に対応する時間周波数位相空間における変位を補正できることを示した。 最も重要なことは、2光子GKP状態の生成は比較的単純であり、これらの状態は現在、周波数と時間ビンの双光子絡み状態がエンジニアリング可能な複数のフォトニックプラットフォームで生成・操作されていることである。

GKP states, introduced by Gottesman, Kitaev, and Preskill, are continuous variable logical qubits that can be corrected for errors caused by phase space displacements. Their experimental realization is challenging, in particular using propagating fields, where quantum information is encoded in the quadratures of the electromagnetic field. However, travelling photons are essential in many applications of GKP codes involving the long-distance transmission of quantum information. We introduce a new method for encoding GKP states in propagating fields using single photons, each occupying a distinct auxiliary mode given by the propagation direction. The GKP states are defined as highly correlated states described by collective continuous modes, as time and frequency. We analyze how the error detection and correction protocol scales with the total photon number and the spectral width. We show that the obtained code can be corrected for displacements in time-frequency phase space - which correspond to dephasing, or rotations, in the quadrature phase space - and to photon losses. Most importantly, we show that generating two-photon GKP states is relatively simple, and that such states are currently produced and manipulated in several photonic platforms where frequency and time-bin biphoton entangled states can be engineered.
翻訳日:2023-12-22 18:10:14 公開日:2023-12-21
# ツイストを持つバビロフ・チェレンコフの放出:最後の絡み合い状態の研究

Vavilov-Cherenkov emission with a twist: a study of the final entangled state ( http://arxiv.org/abs/2310.09864v2 )

ライセンス: Link先を確認
A.D. Chaikovskaia, D.V. Karlovets, V.G. Serbo(参考訳) 本稿では、平面波またはねじれ電子によるvavilov-cherenkov(vc)放射の理論的検討を行う。 特別に強調されるのは、放出されたVC光子がどのような条件でねじれられるかである。 この目的のために、放射過程自体の結果であり検出器の特性に依存しない最終電子-光子系の量子状態の座標と運動量表現の一般式を得る。 この進化状態は電子と光子の絡み合った状態であり、どちらの粒子もねじれることが示されている。 この結果の直接の結果は次のようになる:もし、全角運動量(tam)の定射影を持つツイスト電子(光子)に敏感な検出器を使用するなら、最終的な光子(電子)は、一定のtam射影を持つツイスト状態になる。 さらに、これまで計算されたよりも一般的な条件下で、最終的なツイスト光子の偏光特性について検討する。 最後に、議論されたVC放射とWeizs\"acker-Williams法における等価光子放出の過程の密接な類似性を利用して、対応する最終状態を求める。

We present a theoretical investigation of the Vavilov-Cherenkov (VC) radiation by a plane-wave or twisted electron. Special emphasis is put on the question whether and at what conditions the emitted VC photons can be twisted. For this aim we obtain a general expression in the coordinate and momentum representations for the quantum state of the final electron-photon system that is a result of the radiation process itself and does not depend on the properties of a detector. It is shown that this evolved state is an entangled state of an electron and a photon, and both particles can be twisted. A direct consequence of this result follows: if one uses a detector sensitive to the twisted electron (photon) with the definite projection of the total angular momentum (TAM), then the final photon (electron) also will be in the twisted state with a definite TAM projection. Further, we investigate the polarization properties of the final twisted photon in more general conditions than has been calculated before. Finally, we exploit a close similarity between the discussed VC radiation and the process of the equivalent photon emission in the Weizs\"acker-Williams method and find the corresponding final state.
翻訳日:2023-12-22 18:09:51 公開日:2023-12-21
# 無バイアスベースを用いた古典的シャドウトモグラフィ

Classical Shadow Tomography with Mutually Unbiased Bases ( http://arxiv.org/abs/2310.09644v2 )

ライセンス: Link先を確認
Yu Wang and Wei Cui(参考訳) 古典的シャドウトモグラフィーは、ランダム化された情報完全(IC)測定を利用して、未知の量子状態の多くの特性をサンプル効率の精度で予測する有効な方法を提供する。 2^n+1$の相互偏差ベース(mub)への投影は、フルステートトモグラフィのための最小かつ最適なic測定として広く認識されている。 従来のシャドウトモグラフィではMUB回路をアンサンブルとして用いる方法が研究されている。 一般観測値に対して、それらの期待値を予測する分散は、クォービット数$n$の指数関数であることが示される。 しかし、適切な mubs-average (ama) observables と呼ばれる特別なクラスでは、分散は $poly(n)$ に減少する。 さらに、MUBs回路のバイアスサンプリングにより、非AMA観測値のばらつきを再びMUBsスパース条件で$poly(n)$に縮めることができる。 古典シャドウトモグラフィにおけるアンサンブルとして MUB と Clifford 回路を用いた場合の性能と複雑さを比較した。

Classical shadow tomography, harnessing randomized informationally complete (IC) measurements, provides an effective avenue for predicting many properties of unknown quantum states with sample-efficient precision. Projections onto $2^n+1$ mutually unbiased bases (MUBs) are widely recognized as minimal and optimal IC measurements for full-state tomography. We study how to use MUBs circuits as the ensemble in classical shadow tomography. For the general observables, the variance to predict their expectation value is shown to be exponential to the number of qubits $n$. However, for a special class termed as appropriate MUBs-average (AMA) observables, the variance decreases to $poly(n)$. Additionally, we find that through biased sampling of MUBs circuits, the variance for non-AMA observables can again be reduced to $poly(n)$ with the MUBs-sparse condition. The performance and complexity of using the MUBs and Clifford circuits as the ensemble in the classical shadow tomography are compared in the end.
翻訳日:2023-12-22 18:09:26 公開日:2023-12-21
# 同じコインの2つの側面:ホモトピー継続による深い平衡モデルと神経オデムの橋渡し

Two Sides of The Same Coin: Bridging Deep Equilibrium Models and Neural ODEs via Homotopy Continuation ( http://arxiv.org/abs/2310.09583v2 )

ライセンス: Link先を確認
Shutong Ding, Tianyu Cui, Jingya Wang, Ye Shi(参考訳) 深部平衡モデル(deqs)と神経常微分方程式(neural ordinary differential equation,neural odes)は、その優れた性能とメモリ消費の低さにより顕著な成功を収めた暗黙のモデルの2つの分野である。 どちらも暗黙のモデルであるが、DECとNeural ODEは異なる数学的定式化から派生している。 ホモトピー連続性に着想を得て、これらの2つのモデル間の接続を確立し、それらが実際に同じコインの2つの側面であることを示す。 ホモトピー継続は、対応するODEに基づいて非線形方程式を解く古典的な方法である。 この関係を前提に,deqsから高精度な性質と神経odesからの安定性を継承するhomoodeと呼ばれる新しい暗黙的モデルを提案した。 フォワードパスにおけるニュートン法による平衡点フィニング問題を明示的に解くDECとは異なり、ホモトピー継続を通じて修正されたニューラルODEを用いて暗黙的に平衡点フィニング問題を解く。 さらに,共有学習可能な初期点を持つhomoodeの高速化手法を開発した。 私たちのモデルは、拡張部が発見すべき平衡点である限り、Augmented Neural ODEsがなぜ機能するのかをよりよく理解している点にも注意が必要だ。 複数の画像分類タスクによる総合的な実験により、HomoODEは精度とメモリ消費の両方の観点から既存の暗黙のモデルを上回ることを示した。

Deep Equilibrium Models (DEQs) and Neural Ordinary Differential Equations (Neural ODEs) are two branches of implicit models that have achieved remarkable success owing to their superior performance and low memory consumption. While both are implicit models, DEQs and Neural ODEs are derived from different mathematical formulations. Inspired by homotopy continuation, we establish a connection between these two models and illustrate that they are actually two sides of the same coin. Homotopy continuation is a classical method of solving nonlinear equations based on a corresponding ODE. Given this connection, we proposed a new implicit model called HomoODE that inherits the property of high accuracy from DEQs and the property of stability from Neural ODEs. Unlike DEQs, which explicitly solve an equilibrium-point-finding problem via Newton's methods in the forward pass, HomoODE solves the equilibrium-point-finding problem implicitly using a modified Neural ODE via homotopy continuation. Further, we developed an acceleration method for HomoODE with a shared learnable initial point. It is worth noting that our model also provides a better understanding of why Augmented Neural ODEs work as long as the augmented part is regarded as the equilibrium point to find. Comprehensive experiments with several image classification tasks demonstrate that HomoODE surpasses existing implicit models in terms of both accuracy and memory consumption.
翻訳日:2023-12-22 18:09:06 公開日:2023-12-21
# 制約付き連続制御のための緩和政策最適化

Reduced Policy Optimization for Continuous Control with Hard Constraints ( http://arxiv.org/abs/2310.09574v2 )

ライセンス: Link先を確認
Shutong Ding, Jingya Wang, Yali Du, Ye Shi(参考訳) 拘束強化学習(RL)の最近の進歩は、一定の安全性を確保した強化学習を授けている。 しかし, 従来の制約付きRLアルゴリズムを, 一般的な制約付き連続制御タスクにデプロイすることは, 特に非凸制約のある状況では困難である。 従来の制約付き最適化手法である一般化還元勾配(grg)アルゴリズムに着想を得て,rlとgrgを併用して一般的な制約に対処する還元ポリシー最適化(rpo)アルゴリズムを提案する。 RPOは、アクションをGRGメソッドに従って基本アクションと非基本アクションに分割し、ポリシーネットワークを介して基本アクションを出力する。 その後、RPOは得られた基本作用を用いて等式制約に基づいて方程式を解くことによって非基本作用を計算する。 ポリシーネットワークは、基本アクションに関する非基本アクションを暗黙的に区別することで更新される。 さらに,減少勾配に基づく動作投影手順を導入し,不等式制約を満たすために修正されたラグランジュ緩和手法を適用する。 我々の知る限りでは、RPOはGRGをRLに導入する最初の試みであり、等式制約と不等式制約の両方を効率的に扱う方法である。 2つのロボティクス操作タスクとスマートグリッド操作制御タスクという、3つの新しいベンチマークを開発する動機となっている。 これらのベンチマークにより、RPOは累積報酬と制約違反の両方の観点から、従来の制約付きRLアルゴリズムよりも優れた性能を達成する。 RPOは、新しいベンチマークとともに、複雑な制約のある実世界の問題にRLを適用する新たな機会を開くだろうと考えています。

Recent advances in constrained reinforcement learning (RL) have endowed reinforcement learning with certain safety guarantees. However, deploying existing constrained RL algorithms in continuous control tasks with general hard constraints remains challenging, particularly in those situations with non-convex hard constraints. Inspired by the generalized reduced gradient (GRG) algorithm, a classical constrained optimization technique, we propose a reduced policy optimization (RPO) algorithm that combines RL with GRG to address general hard constraints. RPO partitions actions into basic actions and nonbasic actions following the GRG method and outputs the basic actions via a policy network. Subsequently, RPO calculates the nonbasic actions by solving equations based on equality constraints using the obtained basic actions. The policy network is then updated by implicitly differentiating nonbasic actions with respect to basic actions. Additionally, we introduce an action projection procedure based on the reduced gradient and apply a modified Lagrangian relaxation technique to ensure inequality constraints are satisfied. To the best of our knowledge, RPO is the first attempt that introduces GRG to RL as a way of efficiently handling both equality and inequality hard constraints. It is worth noting that there is currently a lack of RL environments with complex hard constraints, which motivates us to develop three new benchmarks: two robotics manipulation tasks and a smart grid operation control task. With these benchmarks, RPO achieves better performance than previous constrained RL algorithms in terms of both cumulative reward and constraint violation. We believe RPO, along with the new benchmarks, will open up new opportunities for applying RL to real-world problems with complex constraints.
翻訳日:2023-12-22 18:08:37 公開日:2023-12-21
# ラマン分光器とCARS分光器のベイズニューラルネットワーク訓練のための対数ガウスガンマ過程

Log-Gaussian Gamma Processes for Training Bayesian Neural Networks in Raman and CARS Spectroscopies ( http://arxiv.org/abs/2310.08055v2 )

ライセンス: Link先を確認
Teemu H\"ark\"onen, Erik M. Vartiainen, Lasse Lensu, Matthew T. Moores, and Lassi Roininen(参考訳) 本稿では,ガンマ分布確率変数と対数ガウスモデルを組み合わせて,ニューラルネットワークの学習に適した合成データセットを生成する手法を提案する。 これは、様々な応用における限られた実観測の課題に対処する。 この手法をラマンおよびコヒーレント反ストークスラマン散乱(cars)スペクトルに適用し,実験スペクトルを用いてガンマ過程パラメータを推定する。 パラメータ推定はマルコフ連鎖モンテカルロ法を用いて行われ、合成データ生成のためにサンプル化できるモデルに対してベイズ後部分布を完全化する。 さらに,ガウス過程を持つラマンおよび自動車の加法および乗法背景関数をモデル化する。 ガンマ過程のパラメータを推定するために2つのベイズニューラルネットワークを訓練し、基礎となるラマンスペクトルを推定し、確率分布のパラメータを推定することで不確実性を提供する。 トレーニングされたベイズニューラルネットワークは、フタロシアニンブルー、アニリンブラック、ナフトールレッド、レッド264色素のラマンスペクトルおよびアデノシンリン酸、フルクトース、グルコース、スクロースの実験CARSスペクトルに適用した。 結果は、基礎となるラマンスペクトルとCARSスペクトルの定点推定と一致する。

We propose an approach utilizing gamma-distributed random variables, coupled with log-Gaussian modeling, to generate synthetic datasets suitable for training neural networks. This addresses the challenge of limited real observations in various applications. We apply this methodology to both Raman and coherent anti-Stokes Raman scattering (CARS) spectra, using experimental spectra to estimate gamma process parameters. Parameter estimation is performed using Markov chain Monte Carlo methods, yielding a full Bayesian posterior distribution for the model which can be sampled for synthetic data generation. Additionally, we model the additive and multiplicative background functions for Raman and CARS with Gaussian processes. We train two Bayesian neural networks to estimate parameters of the gamma process which can then be used to estimate the underlying Raman spectrum and simultaneously provide uncertainty through the estimation of parameters of a probability distribution. We apply the trained Bayesian neural networks to experimental Raman spectra of phthalocyanine blue, aniline black, naphthol red, and red 264 pigments and also to experimental CARS spectra of adenosine phosphate, fructose, glucose, and sucrose. The results agree with deterministic point estimates for the underlying Raman and CARS spectral signatures.
翻訳日:2023-12-22 18:08:09 公開日:2023-12-21
# rlhf と iia: 逆インセンティブ

RLHF and IIA: Perverse Incentives ( http://arxiv.org/abs/2312.01057v2 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Xiuyuan Lu, Grace Lam, Zheng Wen, Benjamin Van Roy(参考訳) 人間からのフィードバック(RLHF)からの強化学習のための既存のアルゴリズムは、無関係な選択肢(IIA)の独立を前提としたモデルであるため、好ましくない反応をインセンティブにすることができる。 IIAによって誘導される逆のインセンティブは、クエリフォーマットや学習アルゴリズムを革新するときに、過激な振る舞いを引き起こす。

Existing algorithms for reinforcement learning from human feedback (RLHF) can incentivize responses at odds with preferences because they are based on models that assume independence of irrelevant alternatives (IIA). The perverse incentives induced by IIA give rise to egregious behavior when innovating on query formats or learning algorithms.
翻訳日:2023-12-22 18:02:10 公開日:2023-12-21
# 動的モード分解アルゴリズムのマルチバース

The Multiverse of Dynamic Mode Decomposition Algorithms ( http://arxiv.org/abs/2312.00137v2 )

ライセンス: Link先を確認
Matthew J. Colbrook(参考訳) ダイナミックモード分解(Dynamic Mode Decomposition, DMD)は、複雑な非線形システムを一連のモードに分解するために使われる一般的なデータ駆動分析手法である。 本稿では, 複素非線形力学を線形フレームワークに変換する上でのクープマン作用素の役割を強調し, DMDの包括的かつ系統的検討を行う。 このレビューの特筆すべき特徴は、DMDとクープマン作用素のスペクトル特性の関係、特にスペクトル計算におけるDMDアルゴリズムの理論と実践に焦点を当てた点である。 線形回帰法, ガレルキン近似, 構造保存技法の3つの分野に分類し, DMD法を多種多種多種多種多種多型に分類する。 それぞれのカテゴリは、そのユニークな貢献と挑戦のために研究され、テーブル1で概説されている重要なアルゴリズムとその応用に関する詳細な概要を提供する。 これらの手法の実践的理解を高めるために,MATLABパッケージの例と応用例を含める。 このレビューは、専門家と新参者の両方がアクセスできる様々なdmd手法に関する実践的ガイドと理論的参照の両方として機能し、読者がdmdの広範囲な分野に関心を持つ領域を掘り下げることができる。

Dynamic Mode Decomposition (DMD) is a popular data-driven analysis technique used to decompose complex, nonlinear systems into a set of modes, revealing underlying patterns and dynamics through spectral analysis. This review presents a comprehensive and pedagogical examination of DMD, emphasizing the role of Koopman operators in transforming complex nonlinear dynamics into a linear framework. A distinctive feature of this review is its focus on the relationship between DMD and the spectral properties of Koopman operators, with particular emphasis on the theory and practice of DMD algorithms for spectral computations. We explore the diverse "multiverse" of DMD methods, categorized into three main areas: linear regression-based methods, Galerkin approximations, and structure-preserving techniques. Each category is studied for its unique contributions and challenges, providing a detailed overview of significant algorithms and their applications as outlined in Table 1. We include a MATLAB package with examples and applications to enhance the practical understanding of these methods. This review serves as both a practical guide and a theoretical reference for various DMD methods, accessible to both experts and newcomers, and enabling readers to delve into their areas of interest in the expansive field of DMD.
翻訳日:2023-12-22 18:02:03 公開日:2023-12-21
# デポーライゼーションノイズ下における量子ニューラルネットワーク:ホワイトボックス攻撃と防御を探求する

Quantum Neural Networks under Depolarization Noise: Exploring White-Box Attacks and Defenses ( http://arxiv.org/abs/2311.17458v2 )

ライセンス: Link先を確認
David Winderl, Nicola Franco, Jeanette Miriam Lorenz(参考訳) 量子力学のユニークな性質を活用して、量子機械学習(QML)は計算的なブレークスルーと、従来のシステムが境界に達するようなリッチな視点を約束する。 しかし、古典的な機械学習と同様に、QMLは敵の攻撃に免疫を持たない。 量子対向機械学習は、QMLモデルの弱い点と、対向した特徴ベクトルに直面するときの強調に役立っている。 この領域に深く入り込むと、我々の探索は偏極ノイズと対向ロバスト性の間の相互作用に光を当てます。 前報では非分極ノイズによる敵対的脅威からのロバスト性が高まったが,本研究は異なる像を呈する。 興味深いことに、脱分極ノイズの追加は、マルチクラス分類シナリオにさらなる堅牢性を提供する効果を中止した。 その結果を整理し,ゲート型量子シミュレータで逆向きに学習した多クラス分類器を用いて実験を行った。

Leveraging the unique properties of quantum mechanics, Quantum Machine Learning (QML) promises computational breakthroughs and enriched perspectives where traditional systems reach their boundaries. However, similarly to classical machine learning, QML is not immune to adversarial attacks. Quantum adversarial machine learning has become instrumental in highlighting the weak points of QML models when faced with adversarial crafted feature vectors. Diving deep into this domain, our exploration shines light on the interplay between depolarization noise and adversarial robustness. While previous results enhanced robustness from adversarial threats through depolarization noise, our findings paint a different picture. Interestingly, adding depolarization noise discontinued the effect of providing further robustness for a multi-class classification scenario. Consolidating our findings, we conducted experiments with a multi-class classifier adversarially trained on gate-based quantum simulators, further elucidating this unexpected behavior.
翻訳日:2023-12-22 18:00:56 公開日:2023-12-21
# CoSeR:認知的超解法のための画像と言語

CoSeR: Bridging Image and Language for Cognitive Super-Resolution ( http://arxiv.org/abs/2311.16512v4 )

ライセンス: Link先を確認
Haoze Sun, Wenbo Li, Jianzhuang Liu, Haoyu Chen, Renjing Pei, Xueyi Zou, Youliang Yan, Yujiu Yang(参考訳) 既存の超解像モデル(SR)は主に局所的なテクスチャの詳細の復元に焦点を当てており、しばしばシーン内のグローバルな意味情報を無視する。 この見落としは、重要な意味的詳細の欠落や、回復プロセス中に不正確なテクスチャの導入につながる可能性がある。 本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。 我々は、画像の外観と言語理解を結合して認知埋め込みを生成することで、大きなテキスト・画像拡散モデルから事前情報を活性化するだけでなく、高品質な参照画像を生成することでSRプロセスの最適化を実現する。 画像の忠実度をより高めるために,全ての条件情報を単一のモジュールに統合する"All-in-Attention"と呼ばれる新しい条件注入方式を提案する。 その結果,本手法は意味論的・フォトリアリスティックな詳細を復元し,複数のベンチマークで最先端の性能を実証することに成功した。 コード:https://github.com/VINHYU/CoSeR

Existing super-resolution (SR) models primarily focus on restoring local texture details, often neglecting the global semantic information within the scene. This oversight can lead to the omission of crucial semantic details or the introduction of inaccurate textures during the recovery process. In our work, we introduce the Cognitive Super-Resolution (CoSeR) framework, empowering SR models with the capacity to comprehend low-resolution images. We achieve this by marrying image appearance and language understanding to generate a cognitive embedding, which not only activates prior information from large text-to-image diffusion models but also facilitates the generation of high-quality reference images to optimize the SR process. To further improve image fidelity, we propose a novel condition injection scheme called "All-in-Attention", consolidating all conditional information into a single module. Consequently, our method successfully restores semantically correct and photorealistic details, demonstrating state-of-the-art performance across multiple benchmarks. Code: https://github.com/VINHYU/CoSeR
翻訳日:2023-12-22 18:00:39 公開日:2023-12-21
# 特徴ゆがみ指導によるマルチタスク平面再構成

Multi-task Planar Reconstruction with Feature Warping Guidance ( http://arxiv.org/abs/2311.14981v2 )

ライセンス: Link先を確認
Luan Wei, Anna Hilsmann and Peter Eisert(参考訳) ピアースワイドな平面3D再構成は、平面のインスタンスを同時に分割し、画像からそれらの3D平面パラメータを復元する。 3次元平面の効率的な再構成と意味予測は、シーン理解と同時空間マッピングを必要とする幅広いアプリケーションに有利である。 しかし、ほとんどの既存の平面再構成モデルは意味論的予測を無視するか、リアルタイムアプリケーションで十分に効率的に動作しない。 修正されたインスタンスセグメンテーションアーキテクチャをベースとしたリアルタイム平面再構成モデルであるSOLOPlanesを導入し,各プレーンインスタンスのセマンティクスを同時に予測する。 トレーニングプロセスにおいて,平面予測のためのマルチビューガイダンスを組み込むことにより,インスタンスマスクのセグメンテーションを改善する。 このクロスタスクの改善、平面予測のためのトレーニング、マスクセグメンテーションの改善は、マルチタスク学習における機能共有の性質によるものだ。 本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。

Piece-wise planar 3D reconstruction simultaneously segments plane instances and recovers their 3D plane parameters from an image, which is particularly useful for indoor or man-made environments. Efficient reconstruction of 3D planes coupled with semantic predictions offers advantages for a wide range of applications requiring scene understanding and concurrent spatial mapping. However, most existing planar reconstruction models either neglect semantic predictions or do not run efficiently enough for real-time applications. We introduce SOLOPlanes, a real-time planar reconstruction model based on a modified instance segmentation architecture which simultaneously predicts semantics for each plane instance, along with plane parameters and piece-wise plane instance masks. We achieve an improvement in instance mask segmentation by including multi-view guidance for plane predictions in the training process. This cross-task improvement, training for plane prediction but improving the mask segmentation, is due to the nature of feature sharing in multi-task learning. Our model simultaneously predicts semantics using single images at inference time, while achieving real-time predictions at 43 FPS.
翻訳日:2023-12-22 18:00:20 公開日:2023-12-21
# 土地利用分類のための2つのデータ融合手法の比較

Comparison of two data fusion approaches for land use classification ( http://arxiv.org/abs/2311.07967v2 )

ライセンス: Link先を確認
Martin Cubaud (LaSTIG), Arnaud Le Bris (LaSTIG), Laurence Jolivet (LaSTIG), Ana-Maria Olteanu-Raimond (LaSTIG)(参考訳) 正確な土地利用地図は、人為的利用の観点から、土地管理と計画に有用なツールである。 製造にあたっては、光学画像のみの使用は限られている。 したがって、不完全性や異なる仕様のために相補的あるいは矛盾する情報を持つ異種情報源を複数使用する必要がある。 本研究は,土地利用分類の文脈において,複数の空間データソースを組み合わせた事前分類と後分類融合の2つのアプローチを比較した。 これらのアプローチは、フランス南西部のガーズ県にある権威ある土地利用データに適用される。 分類前の融合は、明確に不完全さをモデル化していないが、最終的な結果が最高で、全体の精度は97%、マクロ平均f1スコアは88%に達する。

Accurate land use maps, describing the territory from an anthropic utilisation point of view, are useful tools for land management and planning. To produce them, the use of optical images alone remains limited. It is therefore necessary to make use of several heterogeneous sources, each carrying complementary or contradictory information due to their imperfections or their different specifications. This study compares two different approaches i.e. a pre-classification and a post-classification fusion approach for combining several sources of spatial data in the context of land use classification. The approaches are applied on authoritative land use data located in the Gers department in the southwest of France. Pre-classification fusion, while not explicitly modeling imperfections, has the best final results, reaching an overall accuracy of 97% and a macro-mean F1 score of 88%.
翻訳日:2023-12-22 17:59:32 公開日:2023-12-21
# Qwen-Audio: 大規模音声言語モデルによるユニバーサル音声理解の促進

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models ( http://arxiv.org/abs/2311.07919v2 )

ライセンス: Link先を確認
Yunfei Chu, Jin Xu, Xiaohuan Zhou, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, Jingren Zhou(参考訳) 近年,指示追従型音声言語モデルは人間との音声対話に広く注目を集めている。 しかし、多様なオーディオタイプやタスクを扱える事前訓練されたオーディオモデルがないため、この分野の進歩は妨げられている。 その結果、既存の作品のほとんどは限られた範囲の対話機能しかサポートできなかった。 本稿では,Qwen-Audioモデルを開発し,この制限に対処するために,30以上のタスクや人間の音声,自然音,音楽,歌など,さまざまなオーディオタイプをカバーするために,音声事前学習をスケールアップし,普遍的な音声理解能力を促進する。 しかし、タスクフォーカス、言語、アノテーションの粒度、テキスト構造の違いにより、異なるデータセットに関連付けられたテキストラベルにかなりのバリエーションがあるため、すべてのタスクとデータセットを直接コトレーニングすることは干渉問題を引き起こす可能性がある。 1対1の干渉を克服するために,階層タグのシーケンスをデコーダに条件付けし,知識共有を促進し,共有タグと指定タグによる干渉を回避することにより,マルチタスクトレーニングフレームワークを慎重に設計する。 驚くべきことに、qwen-audioはタスク固有の微調整を必要とせず、様々なベンチマークタスクで印象的なパフォーマンスを実現している。 qwen-audioの機能に基づいて、さまざまなオーディオとテキスト入力からの入力を可能にし、マルチターン対話を可能にし、さまざまなオーディオ中心シナリオをサポートするqwen-audio-chatをさらに開発する。

Recently, instruction-following audio-language models have received broad attention for audio interaction with humans. However, the absence of pre-trained audio models capable of handling diverse audio types and tasks has hindered progress in this field. Consequently, most existing works have only been able to support a limited range of interaction capabilities. In this paper, we develop the Qwen-Audio model and address this limitation by scaling up audio-language pre-training to cover over 30 tasks and various audio types, such as human speech, natural sounds, music, and songs, to facilitate universal audio understanding abilities. However, directly co-training all tasks and datasets can lead to interference issues, as the textual labels associated with different datasets exhibit considerable variations due to differences in task focus, language, granularity of annotation, and text structure. To overcome the one-to-many interference, we carefully design a multi-task training framework by conditioning on a sequence of hierarchical tags to the decoder for encouraging knowledge sharing and avoiding interference through shared and specified tags respectively. Remarkably, Qwen-Audio achieves impressive performance across diverse benchmark tasks without requiring any task-specific fine-tuning, surpassing its counterparts. Building upon the capabilities of Qwen-Audio, we further develop Qwen-Audio-Chat, which allows for input from various audios and text inputs, enabling multi-turn dialogues and supporting various audio-central scenarios.
翻訳日:2023-12-22 17:59:19 公開日:2023-12-21
# 脱離拡散模型の蒸留における空間適合誤差の低減

Reducing Spatial Fitting Error in Distillation of Denoising Diffusion Models ( http://arxiv.org/abs/2311.03830v2 )

ライセンス: Link先を確認
Shengzhe Zhou, Zejian Lee, Shengyuan Zhang, Lefan Hou, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun(参考訳) Denoising Diffusion Modelは、画像生成において顕著な能力を示した。 しかし、高品質なサンプルを生成するには大量のイテレーションが必要となる。 拡散モデルの知識蒸留は、この制限に短いサンプリングプロセスで対処する有効な方法であるが、劣化した生成品質を引き起こす。 偏差分解と実験観察による分析から,教師モデルと学生モデルの両方のトレーニングにおいて発生する空間的嵌合誤差を考察した。 したがって、$\textbf{s}$patial$\textbf{f}$itting-$\textbf{e}$rror$\textbf{r}$eduction$\textbf{d}$istillation model ($\textbf{sferd}$)を提案する。 SFERDは教師モデルと設計した意味勾配予測器からの注意誘導を利用して、学生の適合誤差を低減する。 提案手法は,いくつかの機能評価において,高品質なサンプル生成を容易にする。 1ステップで、cifar-10で5.31、imagenet 64$\times$64で9.39のfidを達成し、既存の拡散法を上回った。 本研究は,本質的なデノナイジング能力を強調することで,拡散蒸留の新しい視点を提供する。 プロジェクトリンク: \url{https://github.com/Sainzerjj/SFERD}。

Denoising Diffusion models have exhibited remarkable capabilities in image generation. However, generating high-quality samples requires a large number of iterations. Knowledge distillation for diffusion models is an effective method to address this limitation with a shortened sampling process but causes degraded generative quality. Based on our analysis with bias-variance decomposition and experimental observations, we attribute the degradation to the spatial fitting error occurring in the training of both the teacher and student model. Accordingly, we propose $\textbf{S}$patial $\textbf{F}$itting-$\textbf{E}$rror $\textbf{R}$eduction $\textbf{D}$istillation model ($\textbf{SFERD}$). SFERD utilizes attention guidance from the teacher model and a designed semantic gradient predictor to reduce the student's fitting error. Empirically, our proposed model facilitates high-quality sample generation in a few function evaluations. We achieve an FID of 5.31 on CIFAR-10 and 9.39 on ImageNet 64$\times$64 with only one step, outperforming existing diffusion methods. Our study provides a new perspective on diffusion distillation by highlighting the intrinsic denoising ability of models. Project link: \url{https://github.com/Sainzerjj/SFERD}.
翻訳日:2023-12-22 17:57:59 公開日:2023-12-21
# 分散マルチgpu ab initio density matrix renormalization group algorithmとそのp-cluster of nitrogenaseへの応用

A distributed multi-GPU ab initio density matrix renormalization group algorithm with applications to the P-cluster of nitrogenase ( http://arxiv.org/abs/2311.02854v2 )

ライセンス: Link先を確認
Chunyang Xiang, Weile Jia, Wei-Hai Fang, Zhendong Li(参考訳) 多くの縮退した$d/f$軌道の存在により、鉄-硫黄クラスターのような多核遷移金属化合物は、最先端の量子化学法に挑戦する。 この課題に対処するために、現代の高性能コンピューティング(HPC)インフラに適した分散マルチGPU(Graphics Processing Unit) \emph{ab initio} density matrix renormalization (DMRG)アルゴリズムを提案する。 中心となるアイデアは、最も計算集約的な部分である$o(k^2)$演算子と試行的な波動関数の乗算を並列化することであり、ここで$k$は空間軌道の数である。 この新しい実装により、Pクラスタのアクティブ空間モデル(73個のアクティブ軌道で114個の電子)に対して、48個のGPU(NVIDIA A100 80 GB SXM)上で、前例のないほど大きな結合次元のD=14000$に達することができる。

The presence of many degenerate $d/f$ orbitals makes polynuclear transition metal compounds such as iron-sulfur clusters in nitrogenase challenging for state-of-the-art quantum chemistry methods. To address this challenge, we present the first distributed multi-GPU (Graphics Processing Unit) \emph{ab initio} density matrix renormalization (DMRG) algorithm, suitable for modern high-performance computing (HPC) infrastructures. The central idea is to parallelize the most computationally intensive part - the multiplication of $O(K^2)$ operators with a trial wavefunction, where $K$ is the number of spatial orbitals, by combining operator parallelism for distributing the workload with a batched algorithm for performing contractions on GPU. With this new implementation, we are able to reach an unprecedentedly large bond dimension $D=14000$ on 48 GPUs (NVIDIA A100 80 GB SXM) for an active space model (114 electrons in 73 active orbitals) of the P-cluster, which is nearly three times larger than the bond dimensions reported in previous DMRG calculations for the same system using only CPUs.
翻訳日:2023-12-22 17:57:10 公開日:2023-12-21
# 画像超解像における潜時空間(DTLS)の領域移動-非分解モデル

Domain Transfer in Latent Space (DTLS) Wins on Image Super-Resolution -- a Non-Denoising Model ( http://arxiv.org/abs/2311.02358v4 )

ライセンス: Link先を確認
Chun-Chuen Hui, Wan-Chi Siu, Ngai-Fong Law(参考訳) 大規模な画像スーパーレゾリューションはコンピュータビジョンの課題であり、例えばforscale x16スーパーレゾリューションのような高度に劣化した画像には膨大な情報が欠落している。 拡散モデルは近年、超高分解能な応用において成功しており、ガウスノイズは潜在光写実空間を形成する手段として使われ、潜光写実空間と潜光写実空間の間のリンクとして機能する。 拡散モデルを成功させるガウス雑音の統計のマッピングには、かなり洗練された数学的導出がある。 本稿では,ガウス雑音を回避しつつ,画像の高分解能化に拡散モデルの基本構造を応用した簡易な手法を提案する。 基本的には,統計的性質の違いを学習し,適度な品質の結果として段階的な補間を容易にする,隣接領域間のドメイン転送を行うdnnを提案する。 入力LR画像を参照してドメイン転送を条件付けすることにより、さらなる品質向上を実現する。 実験結果から,本手法は最先端の大規模超解像モデルだけでなく,画像超解像に対する現在の拡散モデルよりも優れていた。 このアプローチは、画像の啓蒙、塗装、装飾など、他のイメージ・ツー・イメージタスクに容易に拡張できる。

Large scale image super-resolution is a challenging computer vision task, since vast information is missing in a highly degraded image, say for example forscale x16 super-resolution. Diffusion models are used successfully in recent years in extreme super-resolution applications, in which Gaussian noise is used as a means to form a latent photo-realistic space, and acts as a link between the space of latent vectors and the latent photo-realistic space. There are quite a few sophisticated mathematical derivations on mapping the statistics of Gaussian noises making Diffusion Models successful. In this paper we propose a simple approach which gets away from using Gaussian noise but adopts some basic structures of diffusion models for efficient image super-resolution. Essentially, we propose a DNN to perform domain transfer between neighbor domains, which can learn the differences in statistical properties to facilitate gradual interpolation with results of reasonable quality. Further quality improvement is achieved by conditioning the domain transfer with reference to the input LR image. Experimental results show that our method outperforms not only state-of-the-art large scale super resolution models, but also the current diffusion models for image super-resolution. The approach can readily be extended to other image-to-image tasks, such as image enlightening, inpainting, denoising, etc.
翻訳日:2023-12-22 17:56:46 公開日:2023-12-21
# カーネル密度推定による未知連続文脈分布を用いた確率ベイズ最適化

Stochastic Bayesian Optimization with Unknown Continuous Context Distribution via Kernel Density Estimation ( http://arxiv.org/abs/2312.10423v2 )

ライセンス: Link先を確認
Xiaobin Huang, Lei Song, Ke Xue, Chao Qian(参考訳) ベイズ最適化はサンプル効率の良い手法であり、高価なブラックボックス関数の最適化に広く使われている。 近年,意思決定者による制御不能な環境における文脈変数の影響を受けやすい関数の最適化におけるBO文献への関心が高まっている。 本稿では,未知の分布を考慮した連続的文脈変数に対する関数の期待値の最適化に焦点をあてる。 この問題を解決するために,カーネル密度推定を用いて連続文脈変数の確率密度関数(PDF)をオンラインで学習する2つのアルゴリズムを提案する。 最初のアルゴリズムは単純で、推定されたPDFで期待を直接最適化する。 真の分布が複雑である場合、推定されたpdfは高い推定誤差を持つ可能性があることを考慮し、分布にロバストな目標を最適化する第2のアルゴリズムを提案する。 理論的結果は、両方のアルゴリズムが期待する目的に対して準線形ベイズ累積後悔を持つことを示している。 さらに,本アルゴリズムの有効性を実証的に示す数値実験を行った。

Bayesian optimization (BO) is a sample-efficient method and has been widely used for optimizing expensive black-box functions. Recently, there has been a considerable interest in BO literature in optimizing functions that are affected by context variable in the environment, which is uncontrollable by decision makers. In this paper, we focus on the optimization of functions' expectations over continuous context variable, subject to an unknown distribution. To address this problem, we propose two algorithms that employ kernel density estimation to learn the probability density function (PDF) of continuous context variable online. The first algorithm is simpler, which directly optimizes the expectation under the estimated PDF. Considering that the estimated PDF may have high estimation error when the true distribution is complicated, we further propose the second algorithm that optimizes the distributionally robust objective. Theoretical results demonstrate that both algorithms have sub-linear Bayesian cumulative regret on the expectation objective. Furthermore, we conduct numerical experiments to empirically demonstrate the effectiveness of our algorithms.
翻訳日:2023-12-22 17:49:56 公開日:2023-12-21
# ガウス過程分類器を用いたビデオによる手術スキル評価

Video-based Surgical Skill Assessment using Tree-based Gaussian Process Classifier ( http://arxiv.org/abs/2312.10208v2 )

ライセンス: Link先を確認
Arefeh Rezaei, Mohammad Javad Ahmadi, Amir Molaei, Hamid. D. Taghirad(参考訳) 本稿では, 映像データを用いた外科的スキル評価のための新しいパイプラインを提案し, 手術の熟練度評価における提案手法の有効性, 訓練介入の可能性, 外科部における品質保証について述べる。 このパイプラインには、表現フロー畳み込みニューラルネットワークと、新しいツリーベースのガウスプロセス分類器が組み込まれている。 さらに、精度を高めるために新しいカーネルが導入される。 パイプラインのパフォーマンスはJIGSAWSデータセットを使用して評価される。 既存の文献との比較分析では、計算コストの精度と改善が著しく向上している。 提案するパイプラインは,映像データを用いた手術スキル評価において,計算効率と精度の向上に寄与する。 当院の同僚外科医のコメントに基づいて検討した結果,本手法は,外科領域における訓練介入や品質保証等を通じて,手術仲間のスキル向上と患者の安全性向上を促進する可能性が示唆された。

This paper aims to present a novel pipeline for automated surgical skill assessment using video data and to showcase the effectiveness of the proposed approach in evaluating surgeon proficiency, its potential for targeted training interventions, and quality assurance in surgical departments. The pipeline incorporates a representation flow convolutional neural network and a novel tree-based Gaussian process classifier, which is robust to noise, while being computationally efficient. Additionally, new kernels are introduced to enhance accuracy. The performance of the pipeline is evaluated using the JIGSAWS dataset. Comparative analysis with existing literature reveals significant improvement in accuracy and betterment in computation cost. The proposed pipeline contributes to computational efficiency and accuracy improvement in surgical skill assessment using video data. Results of our study based on comments of our colleague surgeons show that the proposed method has the potential to facilitate skill improvement among surgery fellows and enhance patient safety through targeted training interventions and quality assurance in surgical departments.
翻訳日:2023-12-22 17:49:40 公開日:2023-12-21
# 準振動子に対する経路積分:分割関数の簡単な解析式

Path integral for the quartic oscillator: A simple analytic expression for the partition function ( http://arxiv.org/abs/2312.09859v2 )

ライセンス: Link先を確認
Michel Caffarel(参考訳) パス積分法は、ポテンシャル $V(x) = \frac{1}{2} \omega^2 x^2 + g x^4$ で表されるクォート振動子の分配関数に対する単純なパラメータフリーな式を導出するために用いられる。 この新しい表現は、温度と結合強度の全体にわたって、自由エネルギーを数パーセント精度良くする。 調和(g\rightarrow 0$)と古典的(高温)の制限はどちらも正確に回復される。 基底および第一励起状態エネルギーの解析式を導出する。 摂動エネルギーの因子成長を特徴とする弱結合における基底状態エネルギーのパワー級数の発散を、正確な係数とともに強結合膨張の機能形態とともに再現する。 我々の単純な式は、ファインマンとクラインナートとB\'uttnerとFlytzanisによって提案された近似分割関数と比較される。

The path-integral method is used to derive a simple parameter-free expression for the partition function of the quartic oscillator described by the potential $V(x) = \frac{1}{2} \omega^2 x^2 + g x^4$. This new expression gives a free energy accurate to a few percent over the entire range of temperatures and coupling strengths $g$. Both the harmonic ($g\rightarrow 0$) and classical (high-temperature) limits are exactly recovered. Analytic expressions for the ground- and first-excited state energies are derived. The divergence of the power series of the ground-state energy at weak coupling, characterized by a factorial growth of the perturbational energies, is reproduced as well as the functional form of the strong-coupling expansion along with accurate coefficients. Our simple expression is compared to the approximate partition functions proposed by Feynman and Kleinert and by B\"uttner and Flytzanis.
翻訳日:2023-12-22 17:49:25 公開日:2023-12-21
# ParsNets: ゼロショット学習のための同期直交・低ランク線形ネットワーク

ParsNets: A Parsimonious Orthogonal and Low-Rank Linear Networks for Zero-Shot Learning ( http://arxiv.org/abs/2312.09709v2 )

ライセンス: Link先を確認
Jingcai Guo, Qihua Zhou, Ruibing Li, Xiaocheng Lu, Ziming Liu, Junyang Chen, Xin Xie, Jie Zhang(参考訳) 本稿では、ゼロショット学習(ZSL)のための新しいパースネット(ParsNets)について、直交性および低ランク性を持つデバイス上のフレンドリな線形ネットワークの構成を学習することに興味を持ち、既存の深層モデルに対して同等あるいはより優れた性能を実現する。 具体的には、まずZSLのコアモジュール、すなわち視覚意味マッピング関数を、複雑な非線形性を単純な局所線型性に分解できる意味空間の様々な構成要素に対応する複数のベース線形ネットワークにリファクタリングする。 次に,局所線型性の一般化を容易にするために,クラス内サンプルの低次制約とクラス間サンプルの高次制約を課し,各部分空間がコンパクト多様体上の直交部分空間となることにより,学習した特徴量に対する最大マージン幾何学を構築する。 zslにおけるモデルの適応性と不適合性を高めるために、これらのベース線形ネットワークからスパース部分集合を選択して各サンプル用の複合意味予測器を形成するサンプルワイズインジケータのセットを用いる。 特に、最大辺幾何学は特徴の多様性を保証し、一方局所線型性は効率を保証できる。 したがって、私たちのParsNetsは、目に見えないクラスをより一般化することができ、リソース制約のあるデバイスに柔軟にデプロイできます。 提案手法の有効性を検証するため,理論的な説明と広範な実験を行った。

This paper provides a novel parsimonious yet efficient design for zero-shot learning (ZSL), dubbed ParsNets, where we are interested in learning a composition of on-device friendly linear networks, each with orthogonality and low-rankness properties, to achieve equivalent or even better performance against existing deep models. Concretely, we first refactor the core module of ZSL, i.e., visual-semantics mapping function, into several base linear networks that correspond to diverse components of the semantic space, where the complex nonlinearity can be collapsed into simple local linearities. Then, to facilitate the generalization of local linearities, we construct a maximal margin geometry on the learned features by enforcing low-rank constraints on intra-class samples and high-rank constraints on inter-class samples, resulting in orthogonal subspaces for different classes and each subspace lies on a compact manifold. To enhance the model's adaptability and counterbalance over/under-fittings in ZSL, a set of sample-wise indicators is employed to select a sparse subset from these base linear networks to form a composite semantic predictor for each sample. Notably, maximal margin geometry can guarantee the diversity of features, and meanwhile, local linearities guarantee efficiency. Thus, our ParsNets can generalize better to unseen classes and can be deployed flexibly on resource-constrained devices. Theoretical explanations and extensive experiments are conducted to verify the effectiveness of the proposed method.
翻訳日:2023-12-22 17:49:10 公開日:2023-12-21
# 助けか 牧畜か? Reward ModelはMitigateをアンサンブルするが、Rewardハッキングを排除しない

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking ( http://arxiv.org/abs/2312.09244v2 )

ライセンス: Link先を確認
Jacob Eisenstein and Chirag Nagpal and Alekh Agarwal and Ahmad Beirami and Alex D'Amour and DJ Dvijotham and Adam Fisch and Katherine Heller and Stephen Pfohl and Deepak Ramachandran and Peter Shaw and Jonathan Berant(参考訳) リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。 しかし、この設定は、高い推定報酬を達成するために報酬モデルにおけるエラーを利用する言語モデルにインセンティブを与え、これはしばしば「emph{reward hacking}」と呼ばれる現象である。 自然な緩和は、報酬モデルのアンサンブルを訓練し、モデル出力を集約し、よりロバストな報酬推定を得ることである。 トレーニング時間(強化学習)と推論時間(再評価)の両方でアライメントに報酬アンサンブルを適用する方法について検討する。 まず、報酬モデルが \emph{underspecified} であることが示される: 分布シフトによってアライメントで使用する場合、同様に分配される報酬モデルは非常に異なる報酬が得られる。 第二に、過度に最適化され、ある報酬モデルにアライメントしても、同じデータで訓練された別の報酬モデルによって測定された報酬が改善されない。 第三に、過剰最適化は報奨アンサンブルの使用によって緩和され、その種によって異なるアンサンブルは、それぞれの報奨モデルよりも優れていて、それらの種によってのみ異なるアンサンブルよりもより良い一般化をもたらす。 しかし、プリトレーニング報酬アンサンブルであっても、報酬ハッキングは排除されない:アンサンブル内のすべての報酬モデルが同じようなエラーパターンを示すため、センシングによって軽減されないいくつかの質的報酬ハッキング現象を示す。

Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed \emph{reward hacking}. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are \emph{underspecified}: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their \emph{pretraining} seeds lead to better generalization than ensembles that differ only by their \emph{fine-tuning} seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.
翻訳日:2023-12-22 17:48:44 公開日:2023-12-21
# 物理に変形したニューラルネットワークlyapunov関数--pdeのキャラクタリゼーション、学習、検証

Physics-Informed Neural Network Lyapunov Functions: PDE Characterization, Learning, and Verification ( http://arxiv.org/abs/2312.09131v3 )

ライセンス: Link先を確認
Jun Liu and Yiming Meng and Maxwell Fitzsimmons and Ruikun Zhou(参考訳) 本稿では,Lyapunov関数の計算に物理インフォームドニューラルネットワークを用いる方法を提案する。 我々は、Lyapunov条件を偏微分方程式(PDE)としてエンコードし、これをニューラルネットワークLyapunov関数のトレーニングに使用する。 Lyapunov および Zubov PDE に対する解の解析的性質を解析した。 特に、神経リアプノフ関数の訓練にzubov方程式を用いると、真のアトラクション領域に近いアトラクション領域が近似的に得られることが示されている。 また,zubov方程式の一意解に対する近似誤差と神経近似の収束についても検討した。 次に,学習した神経リアプノフ関数に対して十分条件を与え,smtソルバによって容易に検証可能とし,局所安定性解析と大規模領域抽出推定の両方の形式的検証を可能にした。 低次元から高次元まで、多くの非線形例を通して、提案フレームワークは半定値プログラミング(SDP)を用いて得られる従来の和(SOS)リャプノフ関数より優れていることを示した。

We provide a systematic investigation of using physics-informed neural networks to compute Lyapunov functions. We encode Lyapunov conditions as a partial differential equation (PDE) and use this for training neural network Lyapunov functions. We analyze the analytical properties of the solutions to the Lyapunov and Zubov PDEs. In particular, we show that employing the Zubov equation in training neural Lyapunov functions can lead to approximate regions of attraction close to the true domain of attraction. We also examine approximation errors and the convergence of neural approximations to the unique solution of Zubov's equation. We then provide sufficient conditions for the learned neural Lyapunov functions that can be readily verified by satisfiability modulo theories (SMT) solvers, enabling formal verification of both local stability analysis and region-of-attraction estimates in the large. Through a number of nonlinear examples, ranging from low to high dimensions, we demonstrate that the proposed framework can outperform traditional sums-of-squares (SOS) Lyapunov functions obtained using semidefinite programming (SDP).
翻訳日:2023-12-22 17:48:16 公開日:2023-12-21
# MLNet:Universal Domain Adaptationのための近隣不変性を持つ相互学習ネットワーク

MLNet: Mutual Learning Network with Neighborhood Invariance for Universal Domain Adaptation ( http://arxiv.org/abs/2312.07871v3 )

ライセンス: Link先を確認
Yanzuo Lu, Meng Shen, Andy J Ma, Xiaohua Xie, Jian-Huang Lai(参考訳) ユニバーサルドメイン適応(UniDA)は、ソースとターゲットドメインの関係に関する情報を知識伝達のために与えない、実用的だが困難な問題である。 既存のUniDAメソッドは、ターゲットドメイン内のドメイン内変異を見落としている問題と、同様の既知のクラスと未知のクラスを分離することが困難である。 これらの課題に対処するために,UniDA の近傍不変性を考慮した新しい相互学習ネットワーク (MLNet) を提案する。 本手法では,自己適応的近傍選択を用いた信頼誘導型不変特徴学習により,より一般化可能な特徴表現のための領域内変動を低減する。 未知クラス識別を改善するためにクロスドメインミックスアップスキームを用いることにより、提案手法は、クローズドセットとオープンセットの分類器間の相互学習により、誤識別された既知のクラスエラーを補償する。 一般に公開されている3つのベンチマークの大規模な実験により、我々の手法は、ほとんどの場合において最先端の手法と比較して最高の結果が得られることが示され、UniDAの4つの設定のベースラインをはるかに上回る結果となった。 コードはhttps://github.com/YanzuoLu/MLNetで入手できる。

Universal domain adaptation (UniDA) is a practical but challenging problem, in which information about the relation between the source and the target domains is not given for knowledge transfer. Existing UniDA methods may suffer from the problems of overlooking intra-domain variations in the target domain and difficulty in separating between the similar known and unknown class. To address these issues, we propose a novel Mutual Learning Network (MLNet) with neighborhood invariance for UniDA. In our method, confidence-guided invariant feature learning with self-adaptive neighbor selection is designed to reduce the intra-domain variations for more generalizable feature representation. By using the cross-domain mixup scheme for better unknown-class identification, the proposed method compensates for the misidentified known-class errors by mutual learning between the closed-set and open-set classifiers. Extensive experiments on three publicly available benchmarks demonstrate that our method achieves the best results compared to the state-of-the-arts in most cases and significantly outperforms the baseline across all the four settings in UniDA. Code is available at https://github.com/YanzuoLu/MLNet.
翻訳日:2023-12-22 17:46:51 公開日:2023-12-21
# LMDrive: 大規模言語モデルによるエンドツーエンド運転

LMDrive: Closed-Loop End-to-End Driving with Large Language Models ( http://arxiv.org/abs/2312.07488v2 )

ライセンス: Link先を確認
Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu, Hongsheng Li(参考訳) 自動運転の分野における最近の大きな進歩にもかかわらず、現代の手法は依然として苦戦し、長期にわたる予期せぬ出来事や都市シナリオに遭遇した場合に深刻な事故を引き起こす可能性がある。 一方、大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。 一方、従来の自律運転法は限定的な入力(センサデータやナビゲーションの経路ポイントなど)に依存し、車両が言語情報を理解し人間と対話する能力を制限する傾向にある。 そこで本研究では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。 LMDriveは、マルチモーダルセンサーデータを自然言語命令と一意に処理し統合し、現実的な命令設定で人間やナビゲーションソフトウェアとの対話を可能にする。 言語ベースのクローズドループ自動運転のさらなる研究を促進するために、約64Kの命令追従データクリップを含む対応するデータセットと、複雑な命令を処理するシステムの能力と運転シナリオの課題をテストするLangAutoベンチマークも公開しています。 LMDriveの有効性を示す大規模なクローズドループ実験を行った。 私たちの知る限りでは、私たちはLLMをクローズドループのエンドツーエンド自動運転に活用する最初の取り組みです。 コード、モデル、データセットはhttps://github.com/opendilab/LMDriveにある。

Despite significant recent progress in the field of autonomous driving, modern methods still struggle and can incur serious accidents when encountering long-tail unforeseen events and challenging urban scenarios. On the one hand, large language models (LLM) have shown impressive reasoning capabilities that approach "Artificial General Intelligence". On the other hand, previous autonomous driving methods tend to rely on limited-format inputs (e.g. sensor data and navigation waypoints), restricting the vehicle's ability to understand language information and interact with humans. To this end, this paper introduces LMDrive, a novel language-guided, end-to-end, closed-loop autonomous driving framework. LMDrive uniquely processes and integrates multi-modal sensor data with natural language instructions, enabling interaction with humans and navigation software in realistic instructional settings. To facilitate further research in language-based closed-loop autonomous driving, we also publicly release the corresponding dataset which includes approximately 64K instruction-following data clips, and the LangAuto benchmark that tests the system's ability to handle complex instructions and challenging driving scenarios. Extensive closed-loop experiments are conducted to demonstrate LMDrive's effectiveness. To the best of our knowledge, we're the very first work to leverage LLMs for closed-loop end-to-end autonomous driving. Codes, models, and datasets can be found at https://github.com/opendilab/LMDrive
翻訳日:2023-12-22 17:46:30 公開日:2023-12-21
# 文脈問題:科学応用のための大規模言語モデルのデータ効率向上

Context Matters: Data-Efficient Augmentation of Large Language Models for Scientific Applications ( http://arxiv.org/abs/2312.07069v2 )

ライセンス: Link先を確認
Xiang Li, Haoran Tang, Siyu Chen, Ziwei Wang, Anurag Maravi, Marcin Abram(参考訳) 本稿では,gpt-4のような大規模言語モデル(llm)が生み出す課題,特に幻覚や論理ミス,複雑な質問に答える際の誤った結論などについて考察する。 コヒーレントで意味的に厳密な方法で誤った回答を提示するllmの能力は、事実的不正確性の検出をさらに複雑にする。 この問題は専門知識を必要とする分野において特に顕著である。 我々の研究はこれらの課題を深く掘り下げ、これらの誤りの理解と軽減を図り、科学や他の専門分野におけるLCMの精度と信頼性の向上に寄与する。 その結果,文脈の関連性と回答の質の非直線的関係が明らかになった。 さらに, 正しい校正を行うことで, グラデーション手順の自動化が可能であることを実証し, 少なくともある程度は, LLMを自己検査に利用することができることを示した。 最後に,本研究で記述した手法の概念実証として考えられる実験的なプラットフォームについて述べる。

In this paper, we explore the challenges inherent to Large Language Models (LLMs) like GPT-4, particularly their propensity for hallucinations, logic mistakes, and incorrect conclusions when tasked with answering complex questions. The capacity of LLMs to present erroneous answers in a coherent and semantically rigorous manner further complicates the detection of factual inaccuracies. This issue is especially pronounced in fields that require specialized expertise. Our work delves into these challenges, aiming to enhance the understanding and mitigation of such errors, thereby contributing to the improvement of LLM accuracy and reliability in scientific and other specialized domains. Our findings reveal a non-linear relationship between the context's relevancy and the answers' measured quality. In addition, we demonstrate that with the correct calibration, it is possible to automate the grading procedure -- a finding suggesting that, at least to some degree, the LLMs can be used to self-examine the quality of their own performance. Finally, we describe an experimental platform that can be seen as a proof-of-concept of the techniques described in this work.
翻訳日:2023-12-22 17:46:07 公開日:2023-12-21
# トランスフォーマーは文脈で逐次関数クラスを学習できるか?

Can Transformers Learn Sequential Function Classes In Context? ( http://arxiv.org/abs/2312.12655v2 )

ライセンス: Link先を確認
Ryan Campbell, Emma Guo, Evan Hu, Reya Vir, Ethan Hsiao(参考訳) インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。 本プロジェクトでは,インバータが逐次的,非テクスチュアルな関数クラスデータ分布から学習できるかどうかを調べることで,ICLを支えるメカニズムの理解を深める。 我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。 解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。 さらに,yラベル列のランダム化実験では,ラベル関連が難読化されてもトランスフォーマーが何らかのicl機能を保っていることを強調する。 提案するタスクの効果的な学習に反映されるように,トランスフォーマが関数クラス内でエンコードされた逐次性を推論し理解できることの証拠を提供する。 また,ラベルの無作為性が増大するにつれて,ラベルノイズに対して学習した逐次性が潜在的に頑健になる可能性が示唆された。 将来の研究は、誘導ヘッドやタスクベクトルといったトランスフォーマーの以前の説明が、これらのトイ例におけるiclの逐次性にどのように関係しているかを考察したいかもしれない。 我々の調査は、トランスフォーマーがどのようにシーケンシャルデータを処理し知覚するかに関するさらなる研究の土台となるものです。

In-context learning (ICL) has revolutionized the capabilities of transformer models in NLP. In our project, we extend the understanding of the mechanisms underpinning ICL by exploring whether transformers can learn from sequential, non-textual function class data distributions. We introduce a novel sliding window sequential function class and employ toy-sized transformers with a GPT-2 architecture to conduct our experiments. Our analysis indicates that these models can indeed leverage ICL when trained on non-textual sequential function classes. Additionally, our experiments with randomized y-label sequences highlights that transformers retain some ICL capabilities even when the label associations are obfuscated. We provide evidence that transformers can reason with and understand sequentiality encoded within function classes, as reflected by the effective learning of our proposed tasks. Our results also show that the performance deteriorated with increasing randomness in the labels, though not to the extent one might expect, implying a potential robustness of learned sequentiality against label noise. Future research may want to look into how previous explanations of transformers, such as induction heads and task vectors, relate to sequentiality in ICL in these toy examples. Our investigation lays the groundwork for further research into how transformers process and perceive sequential data.
翻訳日:2023-12-22 17:38:43 公開日:2023-12-21
# RealCraft: ゼロショットビデオ編集の解決策としての注意制御

RealCraft: Attention Control as A Solution for Zero-shot Long Video Editing ( http://arxiv.org/abs/2312.12635v2 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Florian T. Pokorny(参考訳) 大規模テキスト画像生成モデルは高品質な画像の合成において有望な性能を示したが、これらのモデルを画像編集に直接適用することは大きな課題である。 この課題は、追加の時間次元のため、ビデオ編集においてさらに増幅される。 特に、フレーム間の安定したセマンティックレイアウトを維持しながら、既存のバックグラウンドを壊さずに、正確にローカライズされた編集を実行する必要がある。 本稿では,実動画におけるゼロショット編集のためのアテンション制御方式であるRealCraftを提案する。 プロンプトとフレーム間のクロスアテンションのオブジェクト中心の操作とフレーム内の空間的注意を併用することにより、整合性の向上とともに正確な形状編集を実現する。 我々のモデルは、安定した拡散と共に直接使用することができ、追加のローカライズ情報なしで操作できる。 提案手法は,動画の局所化,高精細化,形状予測,時間一貫性のある編集を64フレームまでの様々な長さの映像で行った。

Although large-scale text-to-image generative models have shown promising performance in synthesizing high-quality images, directly applying these models to image editing remains a significant challenge. This challenge is further amplified in video editing due to the additional dimension of time. Especially for editing real videos as it necessitates maintaining a stable semantic layout across the frames while executing localized edits precisely without disrupting the existing backgrounds. In this paper, we propose RealCraft, an attention-control-based method for zero-shot editing in real videos. By employing the object-centric manipulation of cross-attention between prompts and frames and spatial-temporal attention within the frames, we achieve precise shape-wise editing along with enhanced consistency. Our model can be used directly with Stable Diffusion and operates without the need for additional localized information. We showcase our zero-shot attention-control-based method across a range of videos, demonstrating localized, high-fidelity, shape-precise and time-consistent editing in videos of various lengths, up to 64 frames.
翻訳日:2023-12-22 17:38:19 公開日:2023-12-21
# グループ会話における社会ロボットの行動に関する研究

A Study on Social Robot Behavior in Group Conversation ( http://arxiv.org/abs/2312.12473v2 )

ライセンス: Link先を確認
Tung Nguyen and Eric Nichols and Randy Gomez(参考訳) 近年,人間とロボットの相互作用に関する研究が,グループレベルでロボットの影響を考察し始めた。 グループ内のロボットの影響を調査する研究が最近増えているにもかかわらず、ロボットがグループや人々のチームに配置されたときに起こることの全体的な理解はまだ限られている。 本稿では,グループで会話を管理するソーシャルロボットにおいて,参加者が2人以上いる場合の課題について検討する。 グループ設定では、会話のダイナミクスは従来の1対1の会話よりもはるかに複雑であるため、解決すべき課題はもっと多い。

Recently, research in human-robot interaction began to consider a robot's influence at the group level. Despite the recent growth in research investigating the effects of robots within groups of people, our overall understanding of what happens when robots are placed within groups or teams of people is still limited. This paper investigates several key problems for social robots that manage conversations in a group setting, where the number of participants is more than two. In a group setting, the conversation dynamics are a lot more complicated than the conventional one-to-one conversation, thus, there are more challenges need to be solved.
翻訳日:2023-12-22 17:37:57 公開日:2023-12-21
# 大規模言語モデルを用いたマイナショット分類のための表データのシリアライズ

Towards Better Serialization of Tabular Data for Few-shot Classification with Large Language Models ( http://arxiv.org/abs/2312.12464v2 )

ライセンス: Link先を確認
Sukriti Jaitly, Tanay Shah, Ashish Shugani, Razik Singh Grewal(参考訳) 本稿では,表型データ分類における大規模言語モデル(llm)の統合について検討し,効率的なフレームワークを強調する。 既存のTabLLM(arXiv:2210.10723)をベースとして,LaTeXシリアライゼーション手法を含む3つの新しいシリアライゼーション手法を導入する。 本手法は,ドメイン固有のデータセットの処理におけるLCMの性能を大幅に向上させ,そのメモリ効率と複雑なデータ構造を十分に活用する能力に注目する。 機能の組み合わせや重要性といった様々なシリアライズアプローチを含む広範な実験を通じて、従来のモデルよりも精度と効率が優れていることを示す。

We present a study on the integration of Large Language Models (LLMs) in tabular data classification, emphasizing an efficient framework. Building upon existing work done in TabLLM (arXiv:2210.10723), we introduce three novel serialization techniques, including the standout LaTeX serialization method. This method significantly boosts the performance of LLMs in processing domain-specific datasets, Our method stands out for its memory efficiency and ability to fully utilize complex data structures. Through extensive experimentation, including various serialization approaches like feature combination and importance, we demonstrate our work's superiority in accuracy and efficiency over traditional models.
翻訳日:2023-12-22 17:37:46 公開日:2023-12-21
# 編集できますか? 大規模言語モデルによるコード編集指導の追跡能力の評価

Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions ( http://arxiv.org/abs/2312.12450v2 )

ライセンス: Link先を確認
Federico Cassano, Luisa Li, Akul Sethi, Noah Shinn, Abby Brennan-Jones, Anton Lozhkov, Carolyn Jane Anderson, Arjun Guha(参考訳) 様々なコード合成タスクのための大規模言語モデルの開発と評価に、かなりの量の研究が集中している。 これには、自然言語命令からのコード合成、コードからのテストの合成、コードの説明の合成が含まれる。 対照的に、LLMを用いた命令コード編集の動作について検討する。 これらはモデルがプロンプトで提供されるコードのブロックを更新するよう指示されるタスクである。 編集命令は、追加または削除する機能、バグの説明、修正の要求、異なる種類のソリューションの要求、その他の多くの一般的なコード編集タスクを要求できる。 コード編集タスクのベンチマークを慎重に作成し,いくつかの最先端LCMを評価した。 我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。 例えば、GPT-3.5-Turboでさえ、コード編集において最高のオープンモデルよりも8.8%良い。 また、新しく、慎重にキュレートされ、パーミッシブにライセンスされたコード編集セットと自然言語命令も導入しました。 このトレーニングセットを使うことで、オープンコードllmを微調整して、コード編集能力を大幅に改善できることを示します。

A significant amount of research is focused on developing and evaluating large language models for a variety of code synthesis tasks. These include synthesizing code from natural language instructions, synthesizing tests from code, and synthesizing explanations of code. In contrast, the behavior of instructional code editing with LLMs is understudied. These are tasks in which the model is instructed to update a block of code provided in a prompt. The editing instruction may ask for a feature to added or removed, describe a bug and ask for a fix, ask for a different kind of solution, or many other common code editing tasks. We introduce a carefully crafted benchmark of code editing tasks and use it evaluate several cutting edge LLMs. Our evaluation exposes a significant gap between the capabilities of state-of-the-art open and closed models. For example, even GPT-3.5-Turbo is 8.8% better than the best open model at editing code. We also introduce a new, carefully curated, permissively licensed training set of code edits coupled with natural language instructions. Using this training set, we show that we can fine-tune open Code LLMs to significantly improve their code editing capabilities.
翻訳日:2023-12-22 17:37:34 公開日:2023-12-21
# pixelSplat:スケーラブルな汎用3D再構成のためのイメージペアからの3Dガウススプラット

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction ( http://arxiv.org/abs/2312.12337v2 )

ライセンス: Link先を確認
David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann(参考訳) 画像から3次元ガウス原始体をパラメータ化した3次元放射界の再構成を学習するフィードフォワードモデルであるPixelSplatを導入する。 我々のモデルは、スケーラブルなトレーニングのためのリアルタイムおよびメモリ効率のレンダリングと、推論時の高速な3D再構成を備えている。 スパースおよび局所支持表現に固有な局所的極小を克服するために,その確率分布から3次元およびサンプルガウス平均上の密度確率分布を推定する。 我々はこのサンプリング操作をパラメータ化トリックで微分可能とし、ガウススプラッティング表現を通して勾配をバックプロパゲートすることができる。 我々は,実世界のRealEstate10kおよびACデータセット上での広義の新規ビュー合成をベンチマークし,解釈可能で編集可能な3Dラジアンスフィールドを再構成しながら,最先端の光電場変換器を上回り,2.5桁のレンダリングを高速化する。

We introduce pixelSplat, a feed-forward model that learns to reconstruct 3D radiance fields parameterized by 3D Gaussian primitives from pairs of images. Our model features real-time and memory-efficient rendering for scalable training as well as fast 3D reconstruction at inference time. To overcome local minima inherent to sparse and locally supported representations, we predict a dense probability distribution over 3D and sample Gaussian means from that probability distribution. We make this sampling operation differentiable via a reparameterization trick, allowing us to back-propagate gradients through the Gaussian splatting representation. We benchmark our method on wide-baseline novel view synthesis on the real-world RealEstate10k and ACID datasets, where we outperform state-of-the-art light field transformers and accelerate rendering by 2.5 orders of magnitude while reconstructing an interpretable and editable 3D radiance field.
翻訳日:2023-12-22 17:37:17 公開日:2023-12-21
# 量子力学における不定因数順序の利点の再評価

Reassessing the advantage of indefinite causal orders for quantum metrology ( http://arxiv.org/abs/2312.12172v2 )

ライセンス: Link先を確認
Rapha\"el Mothe, Cyril Branciard and Alastair A. Abbott(参考訳) 不定因果順序を持つ過程の標準的例である量子スイッチは、量子メトロロジーの分野における特定の特定のタスクに対して決定的な因果順序を持つ過程に対して様々な利点をもたらすと主張されている。 この研究において、これらの利点のいくつかは、より公平な比較がなされても、実際には成り立たないと論じる。 この目的のために、量子フィッシャー情報によって定量化された性能と、不定因果順序過程の異なるクラスと、与えられたメトロロジータスクにおける因果戦略とを適切に比較できる枠組みを検討する。 より一般的には、最近提案された因果順序を古典的または量子的に制御する回路のクラスを考えることによって、不定因果順序を持つプロセスが、決定的因果順序を持つプロセスよりも有利である(またはそうではない)という異なる例を考え出す。 その結果、様々な例において、物理的に実現可能であることが知られている因果順序の量子制御を持つ量子回路のクラスは、因果重畳を持つ量子回路のクラスと同様に因果重畳を持つ因果順序の量子回路よりも厳密な優位性を持つことが示された。 したがって、このクラスを考えると、不定因数順序戦略が量子力学において明確な因数順序戦略より厳密に優れているという新たな証拠が得られる。 さらに, 因果順序を量子制御する量子回路の特徴である因果順序の動的制御は, 単に因果重ね合わせの量子回路ではなく, 因果順序を量子制御する量子回路の特徴であることを示す。

The quantum switch, the canonical example of a process with indefinite causal order, has been claimed to provide various advantages over processes with definite causal orders for some particular tasks in the field of quantum metrology. In this work, we argue that some of these advantages in fact do not hold if a fairer comparison is made. To this end, we consider a framework that allows for a proper comparison between the performance, quantified by the quantum Fisher information, of different classes of indefinite causal order processes and that of causal strategies on a given metrological task. More generally, by considering the recently proposed classes of circuits with classical or quantum control of the causal order, we come up with different examples where processes with indefinite causal order offer (or not) an advantage over processes with definite causal order, qualifying the interest of indefinite causal order regarding quantum metrology. As it turns out, for a range of examples, the class of quantum circuits with quantum control of causal order, which are known to be physically realizable, is shown to provide a strict advantage over causally ordered quantum circuits as well as over the class of quantum circuits with causal superposition. Thus, considering this class provides new evidence that indefinite causal order strategies can strictly outperform definite causal order strategies in quantum metrology. Moreover, it shows that the so-called dynamical control of causal order, a feature of quantum circuits with quantum control of the causal order but not of quantum circuits with mere causal superposition, can be a useful resource in quantum metrology.
翻訳日:2023-12-22 17:36:58 公開日:2023-12-21
# シングルコントローラを用いたマルチプレイヤーマルコフゲームにおける最適ポリシー勾配:ミニティプロパティを超えての収束

Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property ( http://arxiv.org/abs/2312.12067v2 )

ライセンス: Link先を確認
Ioannis Anagnostides, Ioannis Panageas, Gabriele Farina, Tuomas Sandholm(参考訳) ポリシーグラデーション手法は強化学習における多くのタスクにおいて強力な実用的性能を享受する。 しかし、マルチエージェント設定に関する理論的理解は、特に2人のプレイヤーの競争と潜在的なマルコフゲームを超えて、限定的のままである。 本論文では,マルチプレイヤーマルコフゲームにおける楽観的なポリシー勾配手法を単一コントローラで特徴付ける新しいフレームワークを開発する。 特に、ゲームが平衡崩壊を示すというさらに仮定の下では、粗相関平衡(CCE)の限界がナッシュ平衡(NE)を誘導するので、ゲームの自然パラメータの多項式因子を$O(\cdot)$が抑制するような固定的な$\epsilon$-NE in $O(1/\epsilon^2)$反復に収束することを示す。 このような平衡崩壊は、2つのプレイヤーゼロサムマルコフゲームでも現れることがよく知られているが、最近の研究で確立されたような、分離可能な相互作用を持つマルチプレイヤーマルコフゲームでも起こる。 その結果、仮定のいずれかが失敗すると、定常NEを計算するための既知の複雑性障壁を回避できる。 我々のアプローチは、導入した古典的なミンティの自然一般化に依存しており、マルコフゲーム以外の応用が期待できる。

Policy gradient methods enjoy strong practical performance in numerous tasks in reinforcement learning. Their theoretical understanding in multiagent settings, however, remains limited, especially beyond two-player competitive and potential Markov games. In this paper, we develop a new framework to characterize optimistic policy gradient methods in multi-player Markov games with a single controller. Specifically, under the further assumption that the game exhibits an equilibrium collapse, in that the marginals of coarse correlated equilibria (CCE) induce Nash equilibria (NE), we show convergence to stationary $\epsilon$-NE in $O(1/\epsilon^2)$ iterations, where $O(\cdot)$ suppresses polynomial factors in the natural parameters of the game. Such an equilibrium collapse is well-known to manifest itself in two-player zero-sum Markov games, but also occurs even in a class of multi-player Markov games with separable interactions, as established by recent work. As a result, we bypass known complexity barriers for computing stationary NE when either of our assumptions fails. Our approach relies on a natural generalization of the classical Minty property that we introduce, which we anticipate to have further applications beyond Markov games.
翻訳日:2023-12-22 17:36:26 公開日:2023-12-21
# aidac:all-analogマルチビット計算とインターコネクトを備えた低コストインメモリコンピューティングアーキテクチャ

AiDAC: A Low-Cost In-Memory Computing Architecture with All-Analog Multi-Bit Compute and Interconnect ( http://arxiv.org/abs/2312.11836v2 )

ライセンス: Link先を確認
Zihao Xuan, Song Chen, Yi Kang(参考訳) analog in-memory computing (aimc) はニューラルネットワークの高速化に素晴らしい性能を示す新しい技術である。 しかし、計算ビット幅とスケールの増加に伴い、高精度データ変換と長距離データルーティングは、AIMCシステムにおいて許容できないエネルギーと遅延オーバーヘッドをもたらす。 本研究では,(1)AiDACがマルチビットコンピューティング効率を向上し,キャパシタ技術をグループ化することでデータ変換時間を短縮する,(2)AiDACはまず行ドライバと列時間アキュムレータを採用し,データ移動のエネルギーコストを最小化しながら,大規模AiMCアレイの統合を実現する,という3つの重要な貢献により,インチャージコンピューティングとインタイムインターコネクトの可能性に注目した。 (3) AiDACは, 大規模全アナログマルチビットベクトル行列乗算(VMM)演算をサポートする最初の研究である。 評価の結果、AiDACは高い並列性(26.2TOPSまで)、低レイテンシ(20ns/VMM)、高エネルギー効率(123.8TOPS/W)などの優れた性能を備え、1024の入力チャネルを持つ8ビットVMMに対して高速計算(0.79%の総計算誤差)を維持している。

Analog in-memory computing (AiMC) is an emerging technology that shows fantastic performance superiority for neural network acceleration. However, as the computational bit-width and scale increase, high-precision data conversion and long-distance data routing will result in unacceptable energy and latency overheads in the AiMC system. In this work, we focus on the potential of in-charge computing and in-time interconnection and show an innovative AiMC architecture, named AiDAC, with three key contributions: (1) AiDAC enhances multibit computing efficiency and reduces data conversion times by grouping capacitors technology; (2) AiDAC first adopts row drivers and column time accumulators to achieve large-scale AiMC arrays integration while minimizing the energy cost of data movements. (3) AiDAC is the first work to support large-scale all-analog multibit vector-matrix multiplication (VMM) operations. The evaluation shows that AiDAC maintains high-precision calculation (less than 0.79% total computing error) while also possessing excellent performance features, such as high parallelism (up to 26.2TOPS), low latency (<20ns/VMM), and high energy efficiency (123.8TOPS/W), for 8bits VMM with 1024 input channels.
翻訳日:2023-12-22 17:36:02 公開日:2023-12-21
# あなたは ['xem'] か ['x', 'em'] と話していますか。 固有化パリティを持つLLMにおけるトークン化と対処ミス

Are you talking to ['xem'] or ['x', 'em']? On Tokenization and Addressing Misgendering in LLMs with Pronoun Tokenization Parity ( http://arxiv.org/abs/2312.11779v2 )

ライセンス: Link先を確認
Anaelia Ovalle, Ninareh Mehrabi, Palash Goyal, Jwala Dhamala, Kai-Wei Chang, Richard Zemel, Aram Galstyan, Rahul Gupta(参考訳) 多くのnlp研究は、大規模な言語モデル(llm)の中でジェンダーバイアスが顕在化し、増幅する方法を文書化しているが、この研究は主にジェンダーのバイナリ中心の文脈で行われている。 多くのLDMは、特に新名詞を使用する場合、性別のバイナリ以外の人について正しく一貫して言及することはできない。 データ不足が原因として特定されているが、LSMの誤認に影響を及ぼす正確なメカニズムは未解明のままである。 我々の研究は、サブワードトークン化におけるデータ不足の役割を研究した結果、LLMワード表現の形成によって、このギャップに対処する。 Byte-Pair Encoding (BPE) トークンライザは,多くのLLMのバックボーンであり,語彙外動作によるニュープロノウン誤認識にどのように貢献するかを明らかにする。 代名詞トークン化パリティ (PTP) は, トークンの機能的構造を保ち, LLMネオプロノウン誤認を減らすための新しいアプローチである。 代名詞整合性に基づく尺度と新しい構文に基づく尺度を用いて,PTPの有効性を評価する。 いくつかの制御された実験を通じて、LPMをPTPで微調整することで、新生ニューロンの一貫性が14.5%から58.4%に向上し、LLM代名詞の一貫性において重要な役割を担っている。

A large body of NLP research has documented the ways gender biases manifest and amplify within large language models (LLMs), though this research has predominantly operated within a gender binary-centric context. A growing body of work has identified the harmful limitations of this gender-exclusive framing; many LLMs cannot correctly and consistently refer to persons outside the gender binary, especially if they use neopronouns. While data scarcity has been identified as a possible culprit, the precise mechanisms through which it influences LLM misgendering remain underexplored. Our work addresses this gap by studying data scarcity's role in subword tokenization and, consequently, the formation of LLM word representations. We uncover how the Byte-Pair Encoding (BPE) tokenizer, a backbone for many popular LLMs, contributes to neopronoun misgendering through out-of-vocabulary behavior. We introduce pronoun tokenization parity (PTP), a novel approach to reduce LLM neopronoun misgendering by preserving a token's functional structure. We evaluate PTP's efficacy using pronoun consistency-based metrics and a novel syntax-based metric. Through several controlled experiments, finetuning LLMs with PTP improves neopronoun consistency from 14.5% to 58.4%, highlighting the significant role tokenization plays in LLM pronoun consistency.
翻訳日:2023-12-22 17:35:30 公開日:2023-12-21
# 基礎モデルによる推論に関する調査:概念・方法論・展望

A Survey of Reasoning with Foundation Models: Concepts, Methodologies, and Outlook ( http://arxiv.org/abs/2312.11562v3 )

ライセンス: Link先を確認
Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, Zhenguo Li(参考訳) 複雑な問題解決において重要な能力である推論は、交渉、医療診断、刑事捜査など、現実世界の様々な場面で重要な役割を果たしている。 人工知能(AGI)の分野における基本的な方法論として機能する。 基礎モデルの開発が進み、推論タスクの能力を探究することへの関心が高まっている。 本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応可能な基礎モデルを提案する。 次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。 また,マルチモーダル学習,自律エージェント,スーパーアライメントとの関連性についても論じる。 これらの今後の研究の方向性を議論することで、この分野の探索に研究者を刺激し、基礎モデルによる推論のさらなる進歩を刺激し、agiの開発に貢献することを望んでいる。

Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.
翻訳日:2023-12-22 17:35:03 公開日:2023-12-21
# より高速なLDM推論のためのカスケード投機

Cascade Speculative Drafting for Even Faster LLM Inference ( http://arxiv.org/abs/2312.11462v2 )

ライセンス: Link先を確認
Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang(参考訳) 投機的復号化は、ドラフトモデルを利用して、より大きなターゲットモデルをレビューするためのドラフトを作成することにより、大規模言語モデル(llm)の効率を高める。 しかし、投機的復号法における起草には、自己回帰生成が遅くなり、同じ時間割当で異なる重要性のトークンが生成される。 この2つの非効率さは、その準最適性能につながる。 この問題に対処するために,2種類のカスケードを用いた新しいアプローチであるカスケード投機ドラフト(CS. Drafting)を紹介する。 垂直カスケードは神経モデルから自己回帰生成を除去する。 水平方向カスケードは, 設計時の効率的な時間割当を構成し, その最適性は理論解析によって支持される。 どちらのカスケードも組み合わせて、CSです。 ドラフトアルゴリズムは,同じ出力分布を維持しながら,投機的復号よりも最大72パーセントの高速化を達成している。

Speculative decoding enhances the efficiency of large language models (LLMs) by leveraging a draft model to draft for a larger target model to review. However, drafting in speculative decoding involves slow autoregressive generation and generating tokens of different importance with the same time allocation. These two inefficiencies lead to its suboptimal performance. To address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a novel approach that employs two types of cascades. The Vertical Cascade eliminates autoregressive generation from neural models. The Horizontal Cascade constitutes efficient time allocation in drafting with its optimality supported by our theoretical analysis. Combining both cascades, our CS. Drafting algorithm has achieved up to 72 percent additional speedup over speculative decoding in our experiments while keeping the same output distribution.
翻訳日:2023-12-22 17:34:51 公開日:2023-12-21
# hybrid internal model: アジャイル脚歩行のためのシンプルで効率的な学習者

Hybrid Internal Model: A Simple and Efficient Learner for Agile Legged Locomotion ( http://arxiv.org/abs/2312.11460v2 )

ライセンス: Link先を確認
Junfeng Long, Zirui Wang, Quanyi Li, Jiawei Gao, Liu Cao, Jiangmiao Pang(参考訳) ロバストな移動制御は正確な状態推定に依存する。 しかし、ほとんどの脚を持つロボットのセンサーは、部分的かつ騒がしい観測しか行えないため、特に地形摩擦や標高マップのような外部状態において、推定は困難である。 従来の内部モデル制御原理に触発されて,これらの外部状態は外乱であり,ロボットの応答に応じて推定するためにハイブリッド内部モデル(him)を導入する。 この応答は、ロボットの明示的な速度と暗黙的な安定性の表現を含み、移動タスクの2つの主要な目標、すなわち、速度を明示的に追跡し、安定性を暗黙的に維持する。 我々は、ロボットの後継状態に近いように埋め込みを最適化するために、対照的な学習を使用し、その応答が自然に埋め込まれている。 HIMにはいくつかの魅力的な利点がある: ロボットのプロトリオセプション、すなわち関節エンコーダとIMUを観察するのみである。 シミュレーション参照と現実の間の一貫した観察を革新的に維持し、学習を模倣する情報損失を避ける。 ノイズに対してより堅牢なバッチレベルの情報を活用し、より優れたサンプル効率を維持する。 RTX 4090のトレーニングには1時間しかかからず、四足歩行ロボットはどんな障害でも地形を横切ることができる。 実世界の豊富な実験が、トレーニングプロセス中に発生したことのない高ディフィキュティなタスクやケースでさえも、その俊敏さを示しています。

Robust locomotion control depends on accurate state estimations. However, the sensors of most legged robots can only provide partial and noisy observations, making the estimation particularly challenging, especially for external states like terrain frictions and elevation maps. Inspired by the classical Internal Model Control principle, we consider these external states as disturbances and introduce Hybrid Internal Model (HIM) to estimate them according to the response of the robot. The response, which we refer to as the hybrid internal embedding, contains the robot's explicit velocity and implicit stability representation, corresponding to two primary goals for locomotion tasks: explicitly tracking velocity and implicitly maintaining stability. We use contrastive learning to optimize the embedding to be close to the robot's successor state, in which the response is naturally embedded. HIM has several appealing benefits: It only needs the robot's proprioceptions, i.e., those from joint encoders and IMU as observations. It innovatively maintains consistent observations between simulation reference and reality that avoids information loss in mimicking learning. It exploits batch-level information that is more robust to noises and keeps better sample efficiency. It only requires 1 hour of training on an RTX 4090 to enable a quadruped robot to traverse any terrain under any disturbances. A wealth of real-world experiments demonstrates its agility, even in high-difficulty tasks and cases never occurred during the training process, revealing remarkable open-world generalizability.
翻訳日:2023-12-22 17:34:36 公開日:2023-12-21
# MAG-Edit: マスクベースのアテンション調整誘導による複雑なシナリオでの局所画像編集

MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance ( http://arxiv.org/abs/2312.11396v2 )

ライセンス: Link先を確認
Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou(参考訳) 近年の拡散型画像編集手法は, 単純な構成を持つ画像に印象的な編集機能を備えている。 しかし、複雑なシナリオにおけるローカライズド編集は、現実の要求が増大しているにもかかわらず、文献では十分に研究されていない。 既存のマスクベースの塗り込み方法は、編集領域の基盤構造を保持するのに不足している。 一方、マスフリーアテンションベースの手法では、より複雑な構成の編集漏れや修正ミスがしばしば現れる。 本研究では,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発する。 特に、MAG-Editは、2つのマスクベースの編集トークンのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化し、徐々に所望のプロンプトとの局所アライメントを高める。 大規模定量的・質的実験により,複雑なシナリオにおける局所編集におけるテキストアライメントと構造保存の両立が本手法の有効性を実証した。

Recent diffusion-based image editing approaches have exhibited impressive editing capabilities in images with simple compositions. However, localized editing in complex scenarios has not been well-studied in the literature, despite its growing real-world demands. Existing mask-based inpainting methods fall short of retaining the underlying structure within the edit region. Meanwhile, mask-free attention-based methods often exhibit editing leakage and misalignment in more complex compositions. In this work, we develop MAG-Edit, a training-free, inference-stage optimization method, which enables localized image editing in complex scenarios. In particular, MAG-Edit optimizes the noise latent feature in diffusion models by maximizing two mask-based cross-attention constraints of the edit token, which in turn gradually enhances the local alignment with the desired prompt. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method in achieving both text alignment and structure preservation for localized editing within complex scenarios.
翻訳日:2023-12-22 17:34:10 公開日:2023-12-21
# クエリベースのAPIレコメンデーションに関する調査

A Survey on Query-based API Recommendation ( http://arxiv.org/abs/2312.10623v2 )

ライセンス: Link先を確認
Moshi Wei, Nima Shiri Harzevili, Alvine Boaye Belle, Junjie Wang, Lin Shi, Jinqiu Yang, Song Wang, Ming Zhen (Jack) Jiang(参考訳) アプリケーションプログラミングインタフェース(API)は、開発者がより効率的にソフトウェアを構築するのを助けるように設計されている。 近年,特定のタスクに対する適切なAPIの再推奨が研究者や開発者の間で注目を集めている。 この研究領域を包括的に理解するため,過去10年間に公開されたAPIレコメンデーション研究を分析した。 私たちの研究は、apiレコメンデーションツールの構造の概要から始まります。 その後,先行研究を体系的に分析し,4つの重要な研究課題を提起する。 RQ1では,これらの論文がAPIレコメンデーション分野に出現する論文の量と会場について検討する。 RQ2では、APIレコメンデーション研究で使われる一般的なデータソースとコレクションメソッドを分類し、まとめる。 RQ3では、APIレコメンデーションアプローチが利用するデータの種類と共通データ表現について検討する。 また,既存の手法による典型的なデータ抽出手法と収集手法についても検討する。 RQ4は、統計モデルとディープラーニングモデルの両方を含む、APIレコメンデーションアプローチが採用するモデリングテクニックを掘り下げている。 さらに,apiレコメンデーションツールの評価に使用される,一般的なランキング戦略と評価指標の概要をまとめる。 調査結果から,さらなる探索を保証し,今後の研究の道筋を示すため,APIレコメンデーション研究における現在の課題を特定した。

Application Programming Interfaces (APIs) are designed to help developers build software more effectively. Recommending the right APIs for specific tasks has gained increasing attention among researchers and developers in recent years. To comprehensively understand this research domain, we have surveyed to analyze API recommendation studies published in the last 10 years. Our study begins with an overview of the structure of API recommendation tools. Subsequently, we systematically analyze prior research and pose four key research questions. For RQ1, we examine the volume of published papers and the venues in which these papers appear within the API recommendation field. In RQ2, we categorize and summarize the prevalent data sources and collection methods employed in API recommendation research. In RQ3, we explore the types of data and common data representations utilized by API recommendation approaches. We also investigate the typical data extraction procedures and collection approaches employed by the existing approaches. RQ4 delves into the modeling techniques employed by API recommendation approaches, encompassing both statistical and deep learning models. Additionally, we compile an overview of the prevalent ranking strategies and evaluation metrics used for assessing API recommendation tools. Drawing from our survey findings, we identify current challenges in API recommendation research that warrant further exploration, along with potential avenues for future research.
翻訳日:2023-12-22 17:33:49 公開日:2023-12-21
# Repaint123:プログレッシブ・コントロール可能な2Dリペイントによる高速かつ高品質な1次元画像から3D生成

Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting ( http://arxiv.org/abs/2312.13271v2 )

ライセンス: Link先を確認
Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Munan Ning, Li Yuan(参考訳) 近年の3次元画像生成法では, スコア蒸留サンプリング (SDS) が一般的である。 印象的な結果にもかかわらず、マルチビューの不整合、過飽和、過度にスムースなテクスチャ、そして遅い生成速度など、複数の欠陥がある。 これらの欠陥に対処するため,多視点バイアスを緩和し,テクスチャ劣化を緩和し,生成プロセスを高速化するRepaint123を提案する。 中心となる考え方は、2次元拡散モデルの強力な画像生成能力と、高画質のマルチビュー画像を生成するための塗り替え戦略のテクスチャアライメント能力を組み合わせることである。 さらに, 重なり領域に対する可視性を考慮した適応塗り戻し強度を提案し, 塗り返し過程における画像品質の向上を図る。 生成された高品質で複数ビューの一貫性のある画像は、高速な3Dコンテンツ生成に単純なMean Square Error(MSE)損失を利用することができる。 提案手法は,多視点整合性,微視的テクスチャをスクラッチから2分で生成し,高品質な3Dコンテンツを生成する能力に優れることを示す。 私たちのwebページはhttps://junwuzhang19.github.io/repaint123/で閲覧できます。

Recent one image to 3D generation methods commonly adopt Score Distillation Sampling (SDS). Despite the impressive results, there are multiple deficiencies including multi-view inconsistency, over-saturated and over-smoothed textures, as well as the slow generation speed. To address these deficiencies, we present Repaint123 to alleviate multi-view bias as well as texture degradation and speed up the generation process. The core idea is to combine the powerful image generation capability of the 2D diffusion model and the texture alignment ability of the repainting strategy for generating high-quality multi-view images with consistency. We further propose visibility-aware adaptive repainting strength for overlap regions to enhance the generated image quality in the repainting process. The generated high-quality and multi-view consistent images enable the use of simple Mean Square Error (MSE) loss for fast 3D content generation. We conduct extensive experiments and show that our method has a superior ability to generate high-quality 3D content with multi-view consistency and fine textures in 2 minutes from scratch. Our webpage is available at https://junwuzhang19.github.io/repaint123/.
翻訳日:2023-12-22 17:25:31 公開日:2023-12-21
# 視覚ロボットマニピュレーションのための大規模ビデオ生成事前学習

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation ( http://arxiv.org/abs/2312.13139v2 )

ライセンス: Link先を確認
Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong(参考訳) 生成事前学習モデルは、有用な表現を学習することで、言語と視覚領域において顕著な効果を示した。 本稿では,視覚ロボット操作が大規模映像生成事前学習の恩恵を受けることを示すことにより,この効果の範囲を広げる。 本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。 GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。 ロボットの動作と将来のイメージをエンドツーエンドで予測する。 フレキシブルな設計のおかげで、GR-1は大規模なビデオデータセットで事前訓練された後、ロボットデータに対してシームレスに微調整できる。 我々は、挑戦的なCALVINベンチマークと本物のロボットについて広範な実験を行った。 CALVINベンチマークでは,最先端のベースライン手法より優れ,88.9%から94.9%に改善されている。 ゼロショットのシーン一般化の設定では、GR-1は成功率を53.3%から85.4%に改善する。 実際のロボット実験では、GR-1はベースライン法よりも優れており、見えないシーンや物体への一般化に強い可能性を示している。 本稿では,大規模ビデオ生成事前学習を併用した統一型GPT型トランスフォーマーが,マルチタスク視覚ロボット操作に対する顕著な一般化を示すことを示す。 プロジェクトページ: https://GR1-Manipulation.github.io

Generative pre-trained models have demonstrated remarkable effectiveness in language and vision domains by learning useful representations. In this paper, we extend the scope of this effectiveness by showing that visual robot manipulation can significantly benefit from large-scale video generative pre-training. We introduce GR-1, a straightforward GPT-style model designed for multi-task language-conditioned visual robot manipulation. GR-1 takes as inputs a language instruction, a sequence of observation images, and a sequence of robot states. It predicts robot actions as well as future images in an end-to-end manner. Thanks to a flexible design, GR-1 can be seamlessly finetuned on robot data after pre-trained on a large-scale video dataset. We perform extensive experiments on the challenging CALVIN benchmark and a real robot. On CALVIN benchmark, our method outperforms state-of-the-art baseline methods and improves the success rate from 88.9% to 94.9%. In the setting of zero-shot unseen scene generalization, GR-1 improves the success rate from 53.3% to 85.4%. In real robot experiments, GR-1 also outperforms baseline methods and shows strong potentials in generalization to unseen scenes and objects. We provide inaugural evidence that a unified GPT-style transformer, augmented with large-scale video generative pre-training, exhibits remarkable generalization to multi-task visual robot manipulation. Project page: https://GR1-Manipulation.github.io
翻訳日:2023-12-22 17:25:12 公開日:2023-12-21
# 分子ハイパーグラフニューラルネットワーク

Molecular Hypergraph Neural Networks ( http://arxiv.org/abs/2312.13136v2 )

ライセンス: Link先を確認
Junwu Chen, Philippe Schwaller(参考訳) グラフニューラルネットワーク(GNN)は、様々な化学関連タスクで有望なパフォーマンスを示している。 しかし、従来のグラフは分子の対接続のみをモデル化し、多中心結合や共役構造のような高次結合を適切に表現できない。 この課題に対処するため,分子ハイパーグラフを導入し,有機半導体の光電子特性を予測する分子ハイパーグラフニューラルネットワーク(MHNN)を提案する。 一般的なアルゴリズムは不規則な高次接続のために設計されており、様々な順序のハイパーエッジを持つ分子ハイパーグラフを効率的に操作することができる。 その結果、MHNNはOPV、OCELOTv1、PCQM4Mv2データセットのほとんどのタスクにおけるベースラインモデルよりも優れていた。 特に、MHNNは3次元幾何学的情報なしでこれを達成し、原子の位置を利用するベースラインモデルを超えた。 さらに、MHNNは、限られたトレーニングデータの下で事前訓練されたGNNよりも優れた性能を達成し、その優れたデータ効率を裏付ける。 この研究は、より一般的な分子表現と高次接続に関連する特性予測タスクのための新しい戦略を提供する。

Graph neural networks (GNNs) have demonstrated promising performance across various chemistry-related tasks. However, conventional graphs only model the pairwise connectivity in molecules, failing to adequately represent higher-order connections like multi-center bonds and conjugated structures. To tackle this challenge, we introduce molecular hypergraphs and propose Molecular Hypergraph Neural Networks (MHNN) to predict the optoelectronic properties of organic semiconductors, where hyperedges represent conjugated structures. A general algorithm is designed for irregular high-order connections, which can efficiently operate on molecular hypergraphs with hyperedges of various orders. The results show that MHNN outperforms all baseline models on most tasks of OPV, OCELOTv1 and PCQM4Mv2 datasets. Notably, MHNN achieves this without any 3D geometric information, surpassing the baseline model that utilizes atom positions. Moreover, MHNN achieves better performance than pretrained GNNs under limited training data, underscoring its excellent data efficiency. This work provides a new strategy for more general molecular representations and property prediction tasks related to high-order connections.
翻訳日:2023-12-22 17:24:51 公開日:2023-12-21
# ChatGPT と Prompt Engineering に基づく高速開発のための新しいアプローチ

A Novel Approach for Rapid Development Based on ChatGPT and Prompt Engineering ( http://arxiv.org/abs/2312.13115v2 )

ライセンス: Link先を確認
Youjia Li, Jianjun Shi, Zheng Zhang(参考訳) コード生成は、現代のソフトウェア開発における強力な技術であり、開発効率を改善し、エラーを減らし、標準化と一貫性を育む。 近年、ChatGPTは自動コード生成において大きな可能性を秘めている。 しかし、コード生成に関する既存の研究は、実用的なソフトウェア開発プロセスのガイダンスを欠いている。 本研究では、ChatGPTを利用して、ユーザインターフェース、Prompt Builder、バックエンドサービスといった主要なコンポーネントからなるWebベースのコード生成プラットフォームを開発しました。 具体的には、Prompt Builderはモデル生成性能を向上させるための包括的なプロンプトを動的に生成する。 その結果,1) Prompt Builderは有効であり,EMが65.06%,BLEUが38.45%,CodeBLEUが15.70%,Pass@1が50.64%向上した。 2) 実際の開発シナリオでは,テストケースの98.5%が手作業による検証によって検証され,ChatGPTベースのコード生成アプローチによる真の支援が強調される。

Code generation stands as a powerful technique in modern software development, improving development efficiency, reducing errors, and fostering standardization and consistency. Recently, ChatGPT has exhibited immense potential in automatic code generation. However, existing researches on code generation lack guidance for practical software development process. In this study, we utilized ChatGPT to develop a web-based code generation platform consisting of key components: User Interface, Prompt Builder and Backend Service. Specifically, Prompt Builder dynamically generated comprehensive prompts to enhance model generation performance. We conducted experiments on 2 datasets, evaluating the generated code through 8 widely used metrics.The results demonstrate that (1) Our Prompt Builder is effective, resulting in a 65.06% improvement in EM, a 38.45% improvement in BLEU, a 15.70% improvement in CodeBLEU, and a 50.64% improvement in Pass@1. (2) In real development scenarios, 98.5% of test cases can be validated through manual validation, highlighting the genuine assistance provided by the ChatGPT-based code generation approach.
翻訳日:2023-12-22 17:24:32 公開日:2023-12-21
# NodeMixup: グラフニューラルネットワークのアンダーリーチ処理

NodeMixup: Tackling Under-Reaching for Graph Neural Networks ( http://arxiv.org/abs/2312.13032v2 )

ライセンス: Link先を確認
Weigang Lu, Ziyu Guan, Wei Zhao, Yaming Yang, Long Jin(参考訳) グラフニューラルネットワーク(GNN)は,半教師付きノード分類問題の解法として主流となっている。 しかし、グラフ内のラベル付きノードの位置分布が不均一であるため、ラベル付きノードはラベルなしノードのごく一部にしかアクセスできないため、 \emph{under-reaching} 問題が発生する。 本研究では,まず,様々な既知のグラフについて経験的調査を行い,その限界を明らかにする。 そして, ラベル付きノードとラベルなしノード間の不満足な分布アライメントが, 系統的な実験解析によって実現され, GNNの性能は著しく低下することを示した。 GNNのアンダーリーチングに取り組むために,NodeMixupと呼ばれるアーキテクチャに依存しない手法を提案する。 基本的考え方は,(1)ラベル付き未ラベルペアによるラベル付きノードの到達性の向上,(2)クラス内ノードペアの隣り合う接続を融合してミキアップの性能向上を図ること,(3)ノード度を組み込んだ近隣ラベル分布類似度を用いてノードミックスアップのサンプリング重量を決定することである。 大規模な実験では、アンダーリーチング処理においてGNNを支援するNodeMixupの有効性が実証されている。 ソースコードは \url{https://github.com/weiganglu/nodemixup} で入手できる。

Graph Neural Networks (GNNs) have become mainstream methods for solving the semi-supervised node classification problem. However, due to the uneven location distribution of labeled nodes in the graph, labeled nodes are only accessible to a small portion of unlabeled nodes, leading to the \emph{under-reaching} issue. In this study, we firstly reveal under-reaching by conducting an empirical investigation on various well-known graphs. Then, we demonstrate that under-reaching results in unsatisfactory distribution alignment between labeled and unlabeled nodes through systematic experimental analysis, significantly degrading GNNs' performance. To tackle under-reaching for GNNs, we propose an architecture-agnostic method dubbed NodeMixup. The fundamental idea is to (1) increase the reachability of labeled nodes by labeled-unlabeled pairs mixup, (2) leverage graph structures via fusing the neighbor connections of intra-class node pairs to improve performance gains of mixup, and (3) use neighbor label distribution similarity incorporating node degrees to determine sampling weights for node mixup. Extensive experiments demonstrate the efficacy of NodeMixup in assisting GNNs in handling under-reaching. The source code is available at \url{https://github.com/WeigangLu/NodeMixup}.
翻訳日:2023-12-22 17:24:15 公開日:2023-12-21
# DiffPortrait3D:ゼロショットポートレートビュー合成のための制御可能な拡散

DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis ( http://arxiv.org/abs/2312.13016v2 )

ライセンス: Link先を確認
Yuming Gu, Hongyi Xu, You Xie, Guoxian Song, Yichun Shi, Di Chang, Jing Yang, Linjie Luo(参考訳) 本稿では,DiffPortrait3Dという条件付き拡散モデルについて述べる。 具体的には、単一のRGB入力を前提として、アイデンティティと表情の両方を保持する新しいカメラビューから、可塑性だが一貫した顔の詳細を合成することを目的としている。 時間を要する最適化と微調整に代えて,ゼロショット方式は,不適切なカメラビュー,極端な表情,多彩な芸術的描写を備えた任意の顔のポートレートにうまく一般化する。 その中心となるのが,大規模画像データセットで事前学習した2次元拡散モデルの生成前処理をレンダリングバックボーンとして活用すると同時に,外観とカメラの姿勢の無角な注意制御によって雑音を誘導する手法である。 そこで我々はまず,凍結したユニセットの自己注意層に参照画像から外観コンテキストを注入する。 そして、レンダリングビューを、同じビューから横断被写体の条件画像を見て、カメラポーズを解釈する新しい条件制御モジュールで操作する。 さらに,学習可能なクロスビューアテンションモジュールを挿入することで,新たな3dアウェアノイズ生成プロセスによってさらに強化され,ビュー一貫性が向上する。 我々は,本研究の課題であるマルチビュー・イン・ザ・ワイルドベンチマークを質的かつ定量的に評価し,最新結果を実証する。

We present DiffPortrait3D, a conditional diffusion model that is capable of synthesizing 3D-consistent photo-realistic novel views from as few as a single in-the-wild portrait. Specifically, given a single RGB input, we aim to synthesize plausible but consistent facial details rendered from novel camera views with retained both identity and facial expression. In lieu of time-consuming optimization and fine-tuning, our zero-shot method generalizes well to arbitrary face portraits with unposed camera views, extreme facial expressions, and diverse artistic depictions. At its core, we leverage the generative prior of 2D diffusion models pre-trained on large-scale image datasets as our rendering backbone, while the denoising is guided with disentangled attentive control of appearance and camera pose. To achieve this, we first inject the appearance context from the reference image into the self-attention layers of the frozen UNets. The rendering view is then manipulated with a novel conditional control module that interprets the camera pose by watching a condition image of a crossed subject from the same view. Furthermore, we insert a trainable cross-view attention module to enhance view consistency, which is further strengthened with a novel 3D-aware noise generation process during inference. We demonstrate state-of-the-art results both qualitatively and quantitatively on our challenging in-the-wild and multi-view benchmarks.
翻訳日:2023-12-22 17:23:50 公開日:2023-12-21
# Machine Mindset: MBTIによる大規模言語モデルの探索

Machine Mindset: An MBTI Exploration of Large Language Models ( http://arxiv.org/abs/2312.12999v2 )

ライセンス: Link先を確認
Jiaxi Cui, Liuzhenghao Lv, Jing Wen, Jing Tang, YongHong Tian, Li Yuan(参考訳) 本稿では,パーソナライズaiにおけるパーソナリティ一貫性の課題に対処するために,mbti(myers-briggs type indicator)パーソナリティ特性を大規模言語モデル(llm)に統合する新しいアプローチを提案する。 提案手法は,MBTI特性をLLMに埋め込むための2相微調整と直接選好最適化(DPO)を含む。 このアプローチにより、モデルはこれらの特性を内部化し、安定的で一貫したパーソナリティプロファイルを提供する。 我々は,様々な領域におけるモデルの有効性を実証し,モデル性能とそれぞれのmbti特性の整合を示す。 本稿では、パーソナリティデータセットの開発における重要な貢献と、llmにおけるパーソナリティ統合のための新しいトレーニング方法論を強調し、パーソナライズされたaiアプリケーションの可能性を高める。 また、当社のモデルとデータの一部を、 \url{https://github.com/PKU-YuanGroup/Machine-Mindset}でオープンソース化しました。

We present a novel approach for integrating Myers-Briggs Type Indicator (MBTI) personality traits into large language models (LLMs), addressing the challenges of personality consistency in personalized AI. Our method, "Machine Mindset," involves a two-phase fine-tuning and Direct Preference Optimization (DPO) to embed MBTI traits into LLMs. This approach ensures that models internalize these traits, offering a stable and consistent personality profile. We demonstrate the effectiveness of our models across various domains, showing alignment between model performance and their respective MBTI traits. The paper highlights significant contributions in the development of personality datasets and a new training methodology for personality integration in LLMs, enhancing the potential for personalized AI applications. We also open-sourced our model and part of the data at \url{https://github.com/PKU-YuanGroup/Machine-Mindset}.
翻訳日:2023-12-22 17:23:21 公開日:2023-12-21
# ゼロショットマシン生成テキスト検出器のロバスト性の測定

Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors ( http://arxiv.org/abs/2312.12918v2 )

ライセンス: Link先を確認
Yi-Fan Zhang and Zhang Zhang and Liang Wang and Tieniu Tan and Rong Jin(参考訳) 自然言語生成技術(NLG)の潜在的な誤用に対抗するため、AI生成テキストの検出のために様々なアルゴリズムが開発された。 伝統的に、このタスクは二項分類問題として扱われる。 教師付き学習は有望な結果を示しているが、検出目的のラベル付きデータを取得すると、現実の課題や過度な適合のリスクが生じる。 これらの問題に対処するため、ゼロショットマシン生成テキスト検出の領域を探究しました。 既存のゼロショット検出器は、通常特定のタスクやトピック用に設計されており、しばしば一様のテストシナリオを仮定し、実用性を制限する。 本研究では,多種多様な大規模言語モデル (LLM) とその特殊変種を探索し,この分野にいくつかの形で貢献する。 実証実験では,トピックと検出性能の有意な相関が明らかになった。 次に,話題シフトがゼロショット検出器に与える影響について考察する。 これらの調査は、様々なトピックにわたる検出手法の適応性と堅牢性に光を当てた。 コードは \url{https://github.com/yfzhang114/robustness-detection} で入手できる。

To combat the potential misuse of Natural Language Generation (NLG) technology, a variety of algorithms have been developed for the detection of AI-generated texts. Traditionally, this task is treated as a binary classification problem. Although supervised learning has demonstrated promising results, acquiring labeled data for detection purposes poses real-world challenges and the risk of overfitting. In an effort to address these issues, we delve into the realm of zero-shot machine-generated text detection. Existing zero-shot detectors, typically designed for specific tasks or topics, often assume uniform testing scenarios, limiting their practicality. In our research, we explore various advanced Large Language Models (LLMs) and their specialized variants, contributing to this field in several ways. In empirical studies, we uncover a significant correlation between topics and detection performance. Secondly, we delve into the influence of topic shifts on zero-shot detectors. These investigations shed light on the adaptability and robustness of these detection methods across diverse topics. The code is available at \url{https://github.com/yfzhang114/robustness-detection}.
翻訳日:2023-12-22 17:23:04 公開日:2023-12-21
# wigner-dunkl量子力学の経路積分公式について

On the Path Integral Formulation of Wigner-Dunkl Quantum Mechanics ( http://arxiv.org/abs/2312.12895v2 )

ライセンス: Link先を確認
Georg Junker(参考訳) ファインマンの経路積分アプローチは、量子力学のウィグナー・ダンクル変形の枠組みで研究されている。 まず、ダンクル理論のいくつかの基礎をレビューし、標準量子力学で観測されるのと同じ分散関係を示すガウス波パケットの時間発展について考察する。 ファインマンの経路積分法はウィグナー・デュンケル量子力学に拡張される。 調和振動子問題を明示的に解く。 次に、ユークリッドの時間進化と関連するダンクル過程を考察する。 ジャンプを示すこの過程は、2つの連続したベッセル過程によって表現できる。 調和振動子問題に対するファインマン・カック経路積分を明示的に計算する。

Feynman's path integral approach is studied in the framework of the Wigner-Dunkl deformation of quantum mechanics. We start with reviewing some basics from Dunkl theory and investigate the time evolution of a Gaussian wave packet, which exhibits the same dispersion relation as observed in standard quantum mechanics. Feynman's path integral approach is then extended to Wigner-Dunkl quantum mechanics. The harmonic oscillator problem is solved explicitly. We then look at the Euclidean time evolution and the related Dunkl process. This process, which exhibit jumps, can be represented by two continuous Bessel processes, one with reflection and one with absorbtion at the origin. The Feynman-Kac path integral for the harmonic oscillator problem is explicitly calculated.
翻訳日:2023-12-22 17:22:47 公開日:2023-12-21
# サービスとしてのモデル提供中のフェデレートラーニング:共同トレーニングと推論最適化

Federated Learning While Providing Model as a Service: Joint Training and Inference Optimization ( http://arxiv.org/abs/2312.12863v2 )

ライセンス: Link先を確認
Pengchao Han, Shiqiang Wang, Yang Jiao, Jianwei Huang(参考訳) ユーザの推論要求を処理するサービスとしてマシンラーニングモデルを提供する一方で、オンラインアプリケーションは、新たに収集したデータを使用して、定期的にモデルをアップグレードすることができる。 フェデレーション学習(fl)は、データをローカルに保持しながら、分散クライアント間でモデルのトレーニングを可能にする上で有用である。 しかし、既存の研究は、クライアントの限られたリソースの下でのモデルトレーニングと推論の共存を見落としている。 本稿では,モデル学習と推論の同時最適化に着目し,クライアントの推論性能を最大化する。 このような最適化にはいくつかの課題がある。 最初の課題は、クライアントがFLに参加する場合、クライアントの推論性能を特徴づけることである。 この課題を解決するために,クライアント側のモデルフレッシュネスを定量化するための新しいモデルエイジ・オブ・モデル(aom)の概念を導入し,flのグローバルモデル収束誤差を推定性能の近似尺度として用いる。 第2の課題は、FLへの参加確率、モデルダウンロード確率、サービスレートなど、クライアントの決定間の密結合である。 課題に向けて,問題の複雑性を低減し,モデルトレーニングと推論の必要性のバランスをとるために資源を最適化するオンライン問題近似を提案する。 実験の結果,提案アルゴリズムは平均推定精度を最大12%向上することがわかった。

While providing machine learning model as a service to process users' inference requests, online applications can periodically upgrade the model utilizing newly collected data. Federated learning (FL) is beneficial for enabling the training of models across distributed clients while keeping the data locally. However, existing work has overlooked the coexistence of model training and inference under clients' limited resources. This paper focuses on the joint optimization of model training and inference to maximize inference performance at clients. Such an optimization faces several challenges. The first challenge is to characterize the clients' inference performance when clients may partially participate in FL. To resolve this challenge, we introduce a new notion of age of model (AoM) to quantify client-side model freshness, based on which we use FL's global model convergence error as an approximate measure of inference performance. The second challenge is the tight coupling among clients' decisions, including participation probability in FL, model download probability, and service rates. Toward the challenges, we propose an online problem approximation to reduce the problem complexity and optimize the resources to balance the needs of model training and inference. Experimental results demonstrate that the proposed algorithm improves the average inference accuracy by up to 12%.
翻訳日:2023-12-22 17:22:37 公開日:2023-12-21
# 一般化確率論における非分極基準デバイス

Depolarizing Reference Devices in Generalized Probabilistic Theories ( http://arxiv.org/abs/2312.12790v2 )

ライセンス: Link先を確認
Matthew B. Weiss(参考訳) QBismは量子論の解釈であり、量子力学をいくつかの特別な規範的制約を補足した標準確率論とみなす。 基本的なギャンビットは、情報的に完全な参照装置に関して、状態や測定値、時間発展を表現することである。 この観点から、ボルンの規則は、全確率法則(LTP)の変形として現れるいくつかの異なる実験における確率割り当てのコヒーレンス条件として現れる。 本研究では、この変形が「簡単」な(短期的なアフィン)形式をとる参照デバイスを、完全に特徴づける。 一般化確率論(gpts)の枠組みにおいて、任意の基準測定値が与えられたとき、測定後の参照状態の組が常に選択され、その確率規則をこの形式で与えることができることを示した。 必須条件は、対応する測度とプレパアチャネルが脱分極可能であることである。 また, szymusiak と s{\l}omczy\'nski が最近導入した morphophoriity の概念と, 行列ノルムに基づく ltp 変形測定を批判的に再検討した。 この分析から QBist プロジェクトで際立つことは、それは、規範的に理解しなければならないボルンの規則の純粋な形式であるだけでなく、その内部の定数でもあるということである。 量子論の細部を担っているのが彼らです。

QBism is an interpretation of quantum theory which views quantum mechanics as standard probability theory supplemented with a few extra normative constraints. The fundamental gambit is to represent states and measurements, as well as time evolution, with respect to an informationally complete reference device. From this point of view, the Born rule appears as a coherence condition on probability assignments across several different experiments which manifests as a deformation of the law of total probability (LTP). In this work, we fully characterize those reference devices for which this deformation takes a "simplest possible" (term-wise affine) form. Working in the framework of generalized probability theories (GPTs), we show that, given any reference measurement, a set of post-measurement reference states can always be chosen to give its probability rule this very form. The essential condition is that the corresponding measure-and-prepare channel be depolarizing. We also relate our construction to Szymusiak and S{\l}omczy\'nski's recently introduced notion of morphophoricity and re-examine critically a matrix-norm-based measure of LTP deformation in light of our results. What stands out for the QBist project from this analysis is that it is not only the pure form of the Born rule that must be understood normatively, but the constants within it as well. It is they that carry the details of quantum theory.
翻訳日:2023-12-22 17:22:16 公開日:2023-12-21
# AMD:解釈可能な運動分解と融合を伴う解剖学的運動拡散

AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition and Fusion ( http://arxiv.org/abs/2312.12763v2 )

ライセンス: Link先を確認
Beibei Jing, Youjia Zhang, Zikai Song, Junqing Yu, Wei Yang(参考訳) Generating realistic human motion sequences from text descriptions is a challenging task that requires capturing the rich expressiveness of both natural language and human motion.Recent advances in diffusion models have enabled significant progress in human motion synthesis.However, existing methods struggle to handle text inputs that describe complex or long motions.In this paper, we propose the Adaptable Motion Diffusion (AMD) model, which leverages a Large Language Model (LLM) to parse the input text into a sequence of concise and interpretable anatomical scripts that correspond to the target motion.This process exploits the LLM's ability to provide anatomical guidance for complex motion synthesis.We then devise a two-branch fusion scheme that balances the influence of the input text and the anatomical scripts on the inverse diffusion process, which adaptively ensures the semantic fidelity and diversity of the synthesized motion.Our method can effectively handle texts with complex or long motion descriptions, where existing methods often fail. CLCD1やCLCD2のような比較的複雑な動きを持つデータセットの実験は、我々のAMDが既存の最先端モデルよりも大幅に優れていることを示した。

Generating realistic human motion sequences from text descriptions is a challenging task that requires capturing the rich expressiveness of both natural language and human motion.Recent advances in diffusion models have enabled significant progress in human motion synthesis.However, existing methods struggle to handle text inputs that describe complex or long motions.In this paper, we propose the Adaptable Motion Diffusion (AMD) model, which leverages a Large Language Model (LLM) to parse the input text into a sequence of concise and interpretable anatomical scripts that correspond to the target motion.This process exploits the LLM's ability to provide anatomical guidance for complex motion synthesis.We then devise a two-branch fusion scheme that balances the influence of the input text and the anatomical scripts on the inverse diffusion process, which adaptively ensures the semantic fidelity and diversity of the synthesized motion.Our method can effectively handle texts with complex or long motion descriptions, where existing methods often fail. Experiments on datasets with relatively more complex motions, such as CLCD1 and CLCD2, demonstrate that our AMD significantly outperforms existing state-of-the-art models.
翻訳日:2023-12-22 17:21:52 公開日:2023-12-21
# DyBluRF:Blury Monocular Videoのための動的劣化型ニューラルラジアンス場

DyBluRF: Dynamic Deblurring Neural Radiance Fields for Blurry Monocular Video ( http://arxiv.org/abs/2312.13528v1 )

ライセンス: Link先を確認
Minh-Quan Viet Bui, Jongmin Park, Jihyong Oh, Munchurl Kim(参考訳) 任意の視点や時間から視覚的に魅力的なフレームを作成できるビデオビュー合成は没入型視聴体験を提供する。 ニューラルネットワーク、特にNeRFは、当初は静的なシーンのために開発されたが、ビデオビュー合成のための様々な方法が作成されている。 しかし、映像映像合成の課題は、露出中の物体やカメラの動きの結果である動きのぼやけから生じ、鮮明な時空間ビューの正確な合成を妨げる。 そこで本研究では,IRR(Interleave Ray Refinement)ステージとMDD(Motion Decomposition-based Deblurring)ステージで構成された,ぼやけたモノクロビデオのための動的分解NeRFフレームワークDyBluRFを提案する。 われわれのdyblurfは、ぼやけた単眼ビデオの新しいビュー合成に対応し、処理する最初の企業だ。 IRRステージは、動的3Dシーンを共同で再構成し、不正確なカメラポーズ情報を洗練し、与えられたぼやけたフレームから抽出した不正確なポーズ情報と戦う。 MDDステージは、静止画をグローバルカメラモーションと局所オブジェクトモーションコンポーネントに分解することで、ぼやけたモノクロビデオフレームに対して、新たな潜時シャープ線予測(ILSP)アプローチである。 実験結果から,DyBluRFは最近の最先端手法よりも質的に,定量的に優れていることが示された。 ソースコードや事前訓練済みモデルを含む我々のプロジェクトページはhttps://kaist-viclab.github.io/dyblurf-site/.comで公開されている。

Video view synthesis, allowing for the creation of visually appealing frames from arbitrary viewpoints and times, offers immersive viewing experiences. Neural radiance fields, particularly NeRF, initially developed for static scenes, have spurred the creation of various methods for video view synthesis. However, the challenge for video view synthesis arises from motion blur, a consequence of object or camera movement during exposure, which hinders the precise synthesis of sharp spatio-temporal views. In response, we propose a novel dynamic deblurring NeRF framework for blurry monocular video, called DyBluRF, consisting of an Interleave Ray Refinement (IRR) stage and a Motion Decomposition-based Deblurring (MDD) stage. Our DyBluRF is the first that addresses and handles the novel view synthesis for blurry monocular video. The IRR stage jointly reconstructs dynamic 3D scenes and refines the inaccurate camera pose information to combat imprecise pose information extracted from the given blurry frames. The MDD stage is a novel incremental latent sharp-rays prediction (ILSP) approach for the blurry monocular video frames by decomposing the latent sharp rays into global camera motion and local object motion components. Extensive experimental results demonstrate that our DyBluRF outperforms qualitatively and quantitatively the very recent state-of-the-art methods. Our project page including source codes and pretrained model are publicly available at https://kaist-viclab.github.io/dyblurf-site/.
翻訳日:2023-12-22 16:19:25 公開日:2023-12-21
# 量子力学における時間と事象対称性

Time and event symmetry in quantum mechanics ( http://arxiv.org/abs/2312.13524v1 )

ライセンス: Link先を確認
Michael Ridley and Emily Adlam(参考訳) 量子力学における2種類の時間対称性について検討する。 最初のタイプである時間対称性は、等価な物理的足場に反対の時間方向を含めることを指す。 第2のイベント対称性(event symmetry)は、全ての時間インスタントを、同じ物理基盤上の履歴列に包含することを指す。 近年の量子力学の対称解釈は事象対称性を尊重しない。 量子論の最近の固定点定式化(FPF)に基づいて、ケルディシュ時間輪郭上の固定点制約としてイベントの概念を正確に定式化する。 そして、時間内の測定事象の列を考えると、時間と事象の対称性は量子論のこの多重時間定式化において保持できることを示す。 次に、このモデルを用いて、時間対称量子力学による概念パラドックスを 'all-at-once', atemporal picture 内で解決する。

We investigate two types of temporal symmetry in quantum mechanics. The first type, time symmetry, refers to the inclusion of opposite time orientations on an equivalent physical footing. The second, event symmetry, refers to the inclusion of all time instants in a history sequence on an equivalent physical footing. We find that recent time symmetric interpretations of quantum mechanics fail to respect event symmetry. Building on the recent fixed-point formulation (FPF) of quantum theory, we formulate the notion of an event precisely as a fixed point constraint on the Keldysh time contour. Then, considering a sequence of measurement events in time, we show that both time and event symmetry can be retained in this multiple-time formulation of quantum theory. We then use this model to resolve conceptual paradoxes with time symmetric quantum mechanics within an `all-at-once', atemporal picture.
翻訳日:2023-12-22 16:18:55 公開日:2023-12-21
# gpt-4プロンプトを用いた変異病原性を裏付ける機能的証拠を含むか

Using GPT-4 Prompts to Determine Whether Articles Contain Functional Evidence Supporting or Refuting Variant Pathogenicity ( http://arxiv.org/abs/2312.13521v1 )

ライセンス: Link先を確認
Samuel J. Aronson (1,2), Kalotina Machini (1,3), Pranav Sriraman (1), Jiyeon Shin (2), Emma R. Henricks (1), Charlotte Mailly (1,2), Angie J. Nottage (1), Michael Oates (1,2), Matthew S. Lebo (1,3) ((1) Mass Gneral Brigham Personalized Medicine, (2) Accelerator for Clinical Transformation, Mass General Brigham, (3) Department of Pathology, Brigham and Women's Hospital)(参考訳) 目的: 生成前訓練トランスフォーマーバージョン4(gpt-4)の病原性評価に関連する機能的証拠を含む物品を分類する能力を評価すること。 結果: GPT-4設定とプロンプトは45の項目と遺伝的変異体で訓練された。 72の項目を手作業で分類し、遺伝的変異を2つのプロンプトで処理した。 プロンプトはGPT-4に、変種に関する記事にあるすべての機能的エビデンスを供給するか、機能的エビデンスがないことを示すよう依頼した。 機能的証拠を持つ記事については、第2のプロンプトがGPT-4に、証拠を病原性、良性、中性、不確定のカテゴリに分類するよう依頼した。 最初のプロンプトは87%の感度と89%の正の予測値(PPV)を持つ変量レベルの機能的エビデンスを持つ論文を同定した。 機能的データを持たない26項目中5項目は, GPT-4で機能的証拠が認められた。 手動検査とGPT-4の両方で測定された機能的アッセイでは、GPT-4の感度とPVは、病原性(92%が感受性、73%がPV)、中間性(67%が感受性、93%がPV)、ベニン(100%が感受性、73%がPV)であった。 結論: gpt-4プロンプトは高い感度とppvを持つ機能的アッセイの有無を検出し,高感度かつ合理的なppvで良性または病原性分類を支持する曖昧な証拠を有する。 プロンプトは,感度は低いがppvの高い中間的または決定的証拠を有する論文を検知した。 本研究は,GPT-4が病原性を支持し,否定する機能的証拠を有する可能性のあるレビュー記事の優先順位付けを可能にすることにより,変異分類ワークフローにおいて有用である可能性が示唆された。

Purpose: To assess Generative Pre-trained Transformer version 4's (GPT-4) ability to classify articles containing functional evidence relevant to assessments of variant pathogenicity. Results: GPT-4 settings and prompts were trained on a set of 45 articles and genetic variants. A final test set of 72 manually classified articles and genetic variants were then processed using two prompts. The prompts asked GPT-4 to supply all functional evidence present in an article for a variant or indicate that no functional evidence is present. For articles with having functional evidence, a second prompt asked GPT-4 to classify the evidence into pathogenic, benign, intermediate, and inconclusive categories. The first prompt identified articles with variant-level functional evidence with 87% sensitivity and 89% positive predictive value (PPV). Five of 26 articles with no functional data were indicated as having functional evidence by GPT-4. For variants with functional assays present as determined by both manual review and GPT-4, the sensitivity and PPV of GPT-4 prompt concordance was: Pathogenic (92% sensitive and 73% PPV), Intermediate or Inconclusive (67% sensitive and 93% PPV), Benign (100% sensitive and 73% PPV). Conclusion: The GPT-4 prompts detected the presence or absence of a functional assay with high sensitivity and PPV, and articles with unambiguous evidence supporting a benign or pathogenic classification with high sensitivity and reasonable PPV. Our prompts detected papers with intermediate or inconclusive evidence with lower sensitivity but high PPV. Our results support that GPT-4 may be useful in variant classification workflows by enabling prioritization of articles for review that are likely to have functional evidence supporting or refuting pathogenicity, but not that GPT-4 is capable of fully automating the genetics literature review component of variant classification.
翻訳日:2023-12-22 16:18:40 公開日:2023-12-21
# ハイブリッドfireflyアルゴリズムによる画像へのセキュアな情報埋め込み

Secure Information Embedding in Images with Hybrid Firefly Algorithm ( http://arxiv.org/abs/2312.13519v1 )

ライセンス: Link先を確認
Sahil Nokhwal, Manoj Chandrasekharan, Ankit Chaudhary(参考訳) インターネット上でのセキュアな通信を容易にするために使用される多くの暗号手法など、機密情報へのアクセスを確保するための様々な方法が提案されている。 しかし、ステガノグラフィーのような他の手法は見過ごされ、機密情報の伝達行為自体が秘密のままである場合により適している可能性がある。 このようなシナリオでよく議論される複数のテクニックは、出力信号の低容量と高歪みに悩まされる。 本研究では,Hybrid Fireflyアルゴリズム(HFA)を用いて画素配置を選択することで,秘密のポータブル文書フォーマット(PDF)文書をホストイメージ内に隠蔽する新たなステガノグラフィ手法を提案する。 このアルゴリズムは2つの広く使われている最適化アルゴリズムを組み合わせて性能を向上する。 提案手法はHFAアルゴリズムを用いて空間領域における最適な画素配置の探索を行う。 この検索の目的は、ホスト画像のキャパシティの増大と歪みの低減という2つの主な目標を達成することである。 さらに,提案手法は組込み手続きに要する時間を短縮することを目的としている。 その結果,画像の歪みの減少と探索過程における収束速度の加速が示唆された。 その結果, ステガナリシス攻撃に対するロバスト性が示され, 組込みデータの同定が困難な作業となる。

Various methods have been proposed to secure access to sensitive information over time, such as the many cryptographic methods in use to facilitate secure communications on the internet. But other methods like steganography have been overlooked which may be more suitable in cases where the act of transmission of sensitive information itself should remain a secret. Multiple techniques that are commonly discussed for such scenarios suffer from low capacity and high distortion in the output signal. This research introduces a novel steganographic approach for concealing a confidential portable document format (PDF) document within a host image by employing the Hybrid Firefly algorithm (HFA) proposed to select the pixel arrangement. This algorithm combines two widely used optimization algorithms to improve their performance. The suggested methodology utilizes the HFA algorithm to conduct a search for optimal pixel placements in the spatial domain. The purpose of this search is to accomplish two main goals: increasing the host image's capacity and reducing distortion. Moreover, the proposed approach intends to reduce the time required for the embedding procedure. The findings indicate a decrease in image distortion and an accelerated rate of convergence in the search process. The resultant embeddings exhibit robustness against steganalytic assaults, hence rendering the identification of the embedded data a formidable undertaking.
翻訳日:2023-12-22 16:18:03 公開日:2023-12-21
# 高密度予測によるマルチタスク学習のための機能インタラクション再考

Rethinking of Feature Interaction for Multi-task Learning on Dense Prediction ( http://arxiv.org/abs/2312.13514v1 )

ライセンス: Link先を確認
Jingdong Zhang, Jiayuan Fan, Peng Ye, Bo Zhang, Hancheng Ye, Baopu Li, Yancheng Cai, Tao Chen(参考訳) 既存の作業では、エンコーダがタスクジェネリックな特徴を抽出し、複数のデコーダが予測のためにタスク固有の特徴を生成する。 我々は,多タスクインタラクションプロセスには,豊富な詳細と豊富なタスク情報を持つ高レベル表現が関与していないことを観察した。 さらに、現在のマルチタスク学習アーキテクチャには、低品質と低効率の問題も存在する。 本研究では,タスク生成機能とタスク固有機能の両方から総合的な中間機能を学ぶことを提案し,この中間機能,すなわちブリッジ機能は,上記の問題に対する優れた解決策であることを示す。 そこで本研究では,BRFI(Bridge-Feature-Centirc Interaction)法を提案する。 橋梁特徴抽出器(bfe)は強固な橋梁特徴の生成のために設計され、タスクパターン伝播(tpp)は高品質なタスクインタラクション参加者の確保に適用される。 次に,橋梁の特徴から得られた知識を活かして最終タスク予測を洗練するタスク特徴リファインダ(tfr)を開発した。 nyud-v2とpascalコンテキストベンチマークで広範な実験を行い,提案するアーキテクチャは,異なる密集した予測タスクを同時に推進する上で効果的かつ強力であることを示す。

Existing works generally adopt the encoder-decoder structure for Multi-task Dense Prediction, where the encoder extracts the task-generic features, and multiple decoders generate task-specific features for predictions. We observe that low-level representations with rich details and high-level representations with abundant task information are not both involved in the multi-task interaction process. Additionally, low-quality and low-efficiency issues also exist in current multi-task learning architectures. In this work, we propose to learn a comprehensive intermediate feature globally from both task-generic and task-specific features, we reveal an important fact that this intermediate feature, namely the bridge feature, is a good solution to the above issues. Based on this, we propose a novel Bridge-Feature-Centirc Interaction (BRFI) method. A Bridge Feature Extractor (BFE) is designed for the generation of strong bridge features and Task Pattern Propagation (TPP) is applied to ensure high-quality task interaction participants. Then a Task-Feature Refiner (TFR) is developed to refine final task predictions with the well-learned knowledge from the bridge features. Extensive experiments are conducted on NYUD-v2 and PASCAL Context benchmarks, and the superior performance shows the proposed architecture is effective and powerful in promoting different dense prediction tasks simultaneously.
翻訳日:2023-12-22 16:17:44 公開日:2023-12-21
# 対称性強化ニューラルネットワークと構成モデリングへの応用

Symmetry-enforcing neural networks with applications to constitutive modeling ( http://arxiv.org/abs/2312.13511v1 )

ライセンス: Link先を確認
K\'evin Garanger, Julie Kraus, Julian J. Rimoli(参考訳) 任意のミクロ構造の効果的な挙動を均質化する機械学習技術は、効率的であるだけでなく、正確であることも示されている。 最近の研究では、最先端のマイクロメカニカルモデリングと高度な機械学習技術を組み合わせることで、非線形および履歴依存行動を示す複雑な微細構造を均質化する方法を実証した。 結果として、スマート構成法則(SCL)と呼ばれるホモジェナイズドモデルにより、従来の並列マルチスケールアプローチで必要とされる計算コストのごく一部で、マイクロ構造的に情報を得た構成法則を有限要素ソルバに適用することができる。 本研究では、ニューロンレベルで物質対称性を強制する新しい手法を導入することで、様々なニューラルネットワークアーキテクチャに適用可能なsclの能力を拡大する。 このアプローチでは、ニューラルネットワークのテンソルベースの特徴を利用し、対称性保存操作の簡潔で正確な表現を促進し、構成的モデリングを超えて問題に拡張できるほど一般的である。 これらのテンソル系ニューラルネットワークの構成の詳細と学習構成則への応用について, 弾性材料と非弾性材料の両方について述べる。 従来のニューラルネットワークに対するこのアプローチの優位性は、等方性ネオhookean材料やテンセグリティ格子メタマテリアルを含む様々な材料の包括的なテストを通じて、限られたデータと強い対称性を持つシナリオで実証される。 本研究は, 材料中の対称性の基盤を探索する手法の可能性に関する議論と, 今後の研究方向性の概要によって結論づけられた。

The use of machine learning techniques to homogenize the effective behavior of arbitrary microstructures has been shown to be not only efficient but also accurate. In a recent work, we demonstrated how to combine state-of-the-art micromechanical modeling and advanced machine learning techniques to homogenize complex microstructures exhibiting non-linear and history dependent behaviors. The resulting homogenized model, termed smart constitutive law (SCL), enables the adoption of microstructurally informed constitutive laws into finite element solvers at a fraction of the computational cost required by traditional concurrent multiscale approaches. In this work, the capabilities of SCLs are expanded via the introduction of a novel methodology that enforces material symmetries at the neuron level, applicable across various neural network architectures. This approach utilizes tensor-based features in neural networks, facilitating the concise and accurate representation of symmetry-preserving operations, and is general enough to be extend to problems beyond constitutive modeling. Details on the construction of these tensor-based neural networks and their application in learning constitutive laws are presented for both elastic and inelastic materials. The superiority of this approach over traditional neural networks is demonstrated in scenarios with limited data and strong symmetries, through comprehensive testing on various materials, including isotropic neo-Hookean materials and tensegrity lattice metamaterials. This work is concluded by a discussion on the potential of this methodology to discover symmetry bases in materials and by an outline of future research directions.
翻訳日:2023-12-22 16:17:19 公開日:2023-12-21
# MR-STGN: Attention Fusion を用いたマルチ残留時空間グラフネットワークによる患者行動評価

MR-STGN: Multi-Residual Spatio Temporal Graph Network Using Attention Fusion for Patient Action Assessment ( http://arxiv.org/abs/2312.13509v1 )

ライセンス: Link先を確認
Youssef Mourchid, Rim Slama(参考訳) 患者行動の正確な評価は、疾患の進行監視や治療効果に大きく貢献するため、医療において重要な役割を担っている。 しかし、患者行動を評価する従来のアプローチは、しばしば手動による観察と採点に依存しており、それは主観的かつ時間を要する。 本稿では,角面と位置面の両方の時間的グラフネットワーク(mr-stgn)を用いた患者行動評価の自動化手法を提案する。 MR-STGNは、患者行動の時空間的ダイナミクスを捉えるように設計されている。 複数の残層から情報を統合し、各層が異なる抽象レベルで特徴を抽出することで、これを実現する。 さらに,注意融合機構をネットワークに統合し,様々な特徴の適応重み付けを容易にする。 これにより、モデルが患者の動きの最も適切な側面に集中し、注意を要する特定の身体部分や運動に関する正確な指示を提供する。 提案モデルにおける個々の成分の影響を分析するためのアブレーション研究を行った。 ui-prmdデータセットを用いて,リアルタイム患者行動スコアを正確に予測し,その性能を示すモデルを評価した。

Accurate assessment of patient actions plays a crucial role in healthcare as it contributes significantly to disease progression monitoring and treatment effectiveness. However, traditional approaches to assess patient actions often rely on manual observation and scoring, which are subjective and time-consuming. In this paper, we propose an automated approach for patient action assessment using a Multi-Residual Spatio Temporal Graph Network (MR-STGN) that incorporates both angular and positional 3D skeletons. The MR-STGN is specifically designed to capture the spatio-temporal dynamics of patient actions. It achieves this by integrating information from multiple residual layers, with each layer extracting features at distinct levels of abstraction. Furthermore, we integrate an attention fusion mechanism into the network, which facilitates the adaptive weighting of various features. This empowers the model to concentrate on the most pertinent aspects of the patient's movements, offering precise instructions regarding specific body parts or movements that require attention. Ablation studies are conducted to analyze the impact of individual components within the proposed model. We evaluate our model on the UI-PRMD dataset demonstrating its performance in accurately predicting real-time patient action scores, surpassing state-of-the-art methods.
翻訳日:2023-12-22 16:16:51 公開日:2023-12-21
# プロトタイプマスクとコントラストを用いたマルチモーダル・フェデレーション学習

Multimodal Federated Learning with Missing Modality via Prototype Mask and Contrast ( http://arxiv.org/abs/2312.13508v1 )

ライセンス: Link先を確認
Guangyin Bao, Qi Zhang, Duoqian Miao, Zixuan Gong, Liang Hu(参考訳) 現実のシナリオでは、マルチモーダルなフェデレート学習は複雑なモダリティの欠如という現実的な課題に直面し、フェデレートされたフレームワークの構築に制約を課し、モデル推論の精度を大幅に低下させる。 既存のモダリティに対処するソリューションでは、一般的にクライアント上でモダリティ固有のエンコーダを開発し、サーバ上でモダリティ融合モジュールを訓練する。 しかし、これらの手法は主に、単調なクライアントまたは完全なマルチモーダルなクライアントを持つ特定のシナリオに制約されており、複雑なモダリティの欠如シナリオを効果的に一般化するのに苦労している。 本稿では,fedavgベースのフェデレーション学習フレームワークにプロトタイプライブラリを導入することで,トレーニングとテストの両方においてモダリティの欠如に起因するグローバルモデルのパフォーマンス低下を緩和する能力をフレームワークに付与する。 提案手法はプロトタイプを欠落したモダリティを表すマスクとして利用し,タスク対応のトレーニング損失とモデル非依存なユニモダリティ推論戦略を定式化する。 また、現地での訓練を強化するために、プロトタイプに基づく近位項が構築されている。 実験結果は,本手法の最先端性能を示す。 ベースラインと比較すると,トレーニング中は3.7\%,トレーニング中は50\%,ユニモダリティ推論では23.8\%,推定精度は3.7\%向上した。 コードはhttps://github.com/BaoGuangYin/PmcmFLで入手できる。

In real-world scenarios, multimodal federated learning often faces the practical challenge of intricate modality missing, which poses constraints on building federated frameworks and significantly degrades model inference accuracy. Existing solutions for addressing missing modalities generally involve developing modality-specific encoders on clients and training modality fusion modules on servers. However, these methods are primarily constrained to specific scenarios with either unimodal clients or complete multimodal clients, struggling to generalize effectively in the intricate modality missing scenarios. In this paper, we introduce a prototype library into the FedAvg-based Federated Learning framework, thereby empowering the framework with the capability to alleviate the global model performance degradation resulting from modality missing during both training and testing. The proposed method utilizes prototypes as masks representing missing modalities to formulate a task-calibrated training loss and a model-agnostic uni-modality inference strategy. In addition, a proximal term based on prototypes is constructed to enhance local training. Experimental results demonstrate the state-of-the-art performance of our approach. Compared to the baselines, our method improved inference accuracy by 3.7\% with 50\% modality missing during training and by 23.8\% during uni-modality inference. Code is available at https://github.com/BaoGuangYin/PmcmFL.
翻訳日:2023-12-22 16:16:33 公開日:2023-12-21
# SPDGAN: 自動画像カラー化のためのSPDマニフォールド学習に基づく生成逆ネットワーク

SPDGAN: A Generative Adversarial Network based on SPD Manifold Learning for Automatic Image Colorization ( http://arxiv.org/abs/2312.13506v1 )

ライセンス: Link先を確認
Youssef Mourchid, Marc Donias, Yannick Berthoumieu and Mohamed Najim(参考訳) 本稿では,グレースケール画像をカラー化画像に変換する自動カラー化問題に対処する。 最近のディープラーニングアプローチは、自動的にグレースケールのイメージを着色することができる。 しかし、異なる色のスタイルを含む異なる場面については、正確に色の特徴を捉えることは困難である。 本研究では,spdgan(generative adversarial network)を用いた対称正定値(spd)多様体学習に基づく完全自動カラー化手法を提案する。 我々のSPDGANモデルは、2つの識別器とジェネレータの対角ゲームを確立する。 後者は、変更の少ないResNetアーキテクチャに基づいている。 その目標は、残差接続によって層間の色情報を失うことなく、偽のカラー画像を生成することである。 そして、異なるドメインから2つの識別器を採用。 第1の領域は画像ピクセル領域に、第2の領域はリーマン多様体領域に割り当てられ、色ずれを避けるのに役立つ。 SPDGANの各成分の効果を調べるため,Places365およびCOCO-stuffデータベース上で大規模な実験を行った。 さらに,PSNR,SSIM,FID値の良質な結果と,よりリアルな色付け画像を視覚的に少ない画像で実現することで,最先端の手法と定量的な比較を行った。

This paper addresses the automatic colorization problem, which converts a gray-scale image to a colorized one. Recent deep-learning approaches can colorize automatically grayscale images. However, when it comes to different scenes which contain distinct color styles, it is difficult to accurately capture the color characteristics. In this work, we propose a fully automatic colorization approach based on Symmetric Positive Definite (SPD) Manifold Learning with a generative adversarial network (SPDGAN) that improves the quality of the colorization results. Our SPDGAN model establishes an adversarial game between two discriminators and a generator. The latter is based on ResNet architecture with few alterations. Its goal is to generate fake colorized images without losing color information across layers through residual connections. Then, we employ two discriminators from different domains. The first one is devoted to the image pixel domain, while the second one is to the Riemann manifold domain which helps to avoid color misalignment. Extensive experiments are conducted on the Places365 and COCO-stuff databases to test the effect of each component of our SPDGAN. In addition, quantitative and qualitative comparisons with state-of-the-art methods demonstrate the effectiveness of our model by achieving more realistic colorized images with less artifacts visually, and good results of PSNR, SSIM, and FID values.
翻訳日:2023-12-22 16:16:06 公開日:2023-12-21
# 超伝導共振器におけるSi$_3$N$_4$マイクロ波誘電損失のアニール化

Annealing reduces Si$_3$N$_4$ microwave-frequency dielectric loss in superconducting resonators ( http://arxiv.org/abs/2312.13504v1 )

ライセンス: Link先を確認
Sarang Mittal, Kazemi Adachi, Nicholas E. Frattini, Maxwell D. Urmey, Sheng-Xiang Lin, Alec E. Emser, Cyril Metzger, Luca Talamo, Sarah Dickson, David Carlson, Scott B. Papp, Cindy A. Regal, Konrad W. Lehnert(参考訳) 窒化ケイ素の誘電損失(si$_3$n$_4$)は、この材料を感知、信号処理、量子通信に用いるマイクロ波周波数デバイスの性能を制限している。 超電導共振回路を用いて, 駆動強度と温度の関数として, 高温焼鈍または高温焼鈍したsi$_3$n$_4$の極低温損失を計測した。 電気共振器の内部損失挙動は、TLSとの共振エネルギー交換と非共振TLSの緩和による減衰を含む2レベル系(TLS)の標準トンネルモデルと大きく一致している。 我々はさらにTLSモデルを自己加熱効果で補足し、大駆動力で作製した薄膜で観察された損失の増加を説明する。 臨界的に、アニーリングはこの異常な電力損失を軽減し、緩和型減衰を2桁以上減少させ、共振型減衰を3倍減少させることを示した。 赤外線吸収分光法を用いて,si$_3$n$_4$の水素濃度をアニーリングにより減少させ,水素不純物が相当な散逸を引き起こすことを示唆する。

The dielectric loss of silicon nitride (Si$_3$N$_4$) limits the performance of microwave-frequency devices that rely on this material for sensing, signal processing, and quantum communication. Using superconducting resonant circuits, we measure the cryogenic loss tangent of either as-deposited or high-temperature annealed stoichiometric Si$_3$N$_4$ as a function of drive strength and temperature. The internal loss behavior of the electrical resonators is largely consistent with the standard tunneling model of two-level systems (TLS), including damping caused by resonant energy exchange with TLS and by the relaxation of non-resonant TLS. We further supplement the TLS model with a self-heating effect to explain an increase in the loss observed in as-deposited films at large drive powers. Critically, we demonstrate that annealing remedies this anomalous power-induced loss, reduces the relaxation-type damping by more than two orders of magnitude, and reduces the resonant-type damping by a factor of three. Employing infrared absorption spectroscopy, we find that annealing reduces the concentration of hydrogen in the Si$_3$N$_4$, suggesting that hydrogen impurities cause substantial dissipation.
翻訳日:2023-12-22 16:15:44 公開日:2023-12-21
# infovisdial: 大きなマルチモーダルと言語モデルのブリッジによる情報付きビジュアル対話データセット

InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large Multimodal and Language Models ( http://arxiv.org/abs/2312.13503v1 )

ライセンス: Link先を確認
Bingbing Wen, Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Bill Howe, Lijuan Wang(参考訳) 本稿では,インフォビジアルと呼ばれる視覚的対話データセットを構築し,視覚的コンテンツに関する外部知識を伴っても,各ラウンドに豊富な情報的回答を提供する。 応答がコンパクトで短い既存のデータセットとは異なり、InfoVisDialは対話の各ラウンドで豊富な情報を持つ長い自由形式の回答を含んでいる。 効果的なデータ収集のための鍵となるアイデアは、大規模マルチモーダルモデル(GITなど)と言語モデル(GPT-3など)をブリッジすることである。 GITはシーンテキストでも画像内容を記述することができ、GPT-3は画像記述と適切なプロンプト技術に基づいて情報対話を生成することができる。 このような自動パイプラインにより,視覚的対話データを大規模に生成することができる。 Human Analysisは、InfoVisDialが情報的かつ多様な対話トピックをカバーしていることを示している: 対話ラウンドの54.4.%は画像シーンテキストに関連するもので、36.7.%は外部知識を必要とする。 各ラウンドの解答は長くオープンエンドで、解答の8.7.3.%は平均8.9ドルであり、VisDialでは27.37.%と29.9ドルである。 最後に、視覚対話タスクにGITモデルを適用し、InfoVisDial上でモデルを微調整することで、強力なベースラインを提案する。 願わくば、我々の仕事は、この方向へのさらなる努力を動機付けることができる。

In this paper, we build a visual dialogue dataset, named InfoVisDial, which provides rich informative answers in each round even with external knowledge related to the visual content. Different from existing datasets where the answer is compact and short, InfoVisDial contains long free-form answers with rich information in each round of dialogue. For effective data collection, the key idea is to bridge the large-scale multimodal model (e.g., GIT) and the language models (e.g., GPT-3). GIT can describe the image content even with scene text, while GPT-3 can generate informative dialogue based on the image description and appropriate prompting techniques. With such automatic pipeline, we can readily generate informative visual dialogue data at scale. Then, we ask human annotators to rate the generated dialogues to filter the low-quality conversations.Human analyses show that InfoVisDial covers informative and diverse dialogue topics: $54.4\%$ of the dialogue rounds are related to image scene texts, and $36.7\%$ require external knowledge. Each round's answer is also long and open-ended: $87.3\%$ of answers are unique with an average length of $8.9$, compared with $27.37\%$ and $2.9$ in VisDial. Last, we propose a strong baseline by adapting the GIT model for the visual dialogue task and fine-tune the model on InfoVisDial. Hopefully, our work can motivate more effort on this direction.
翻訳日:2023-12-22 16:15:20 公開日:2023-12-21
# 連帯連続型新学級学習

Federated Continual Novel Class Learning ( http://arxiv.org/abs/2312.13500v1 )

ライセンス: Link先を確認
Lixu Wang, Chenxi Liu, Junfeng Guo, Jiahua Dong, Xiao Wang, Heng Huang, Qi Zhu(参考訳) プライバシー重視の時代において、フェデレーション・ラーニング(fl)は有望な機械学習技術として登場した。 しかし、既存のFL研究の多くは、データ分布は時間とともにほぼ固定されるが、現実のシナリオは動的かつ連続的な変化を伴うことが多いと仮定している。 flシステムを連続モデル進化能力に適合させるため、本研究において、フェデレーション連続新学級学習(federated continual novel class learning, fedcn)と呼ばれる重要な問題に焦点をあてる。 FedCNの最大の課題は、プライバシーを損なうことなく、異なるクライアントによって発見され、学習される新しいクラスをマージし、調整することだ。 そこで我々は,グローバル・アライメント・ラーニング(GAL)フレームワークを提案し,グローバル・ノベル・クラス・ナンバーを正確に推定し,グローバル・パースペクティブからローカル・トレーニングの効果的なガイダンスを提供する。 具体的には、GALはまず、2レベルクラスタリング機構を通じて表現空間内の高密度領域を特定し、新しいクラス番号を推定し、新しいクラスに対応するグローバルプロトタイプを構築できる。 そして、GALは、新しい意味重み付き損失を使用して、これらのプロトタイプと擬似ラベルノイズとデータ不均一性の影響を緩和するためのトレーニングデータとのすべての相関をキャプチャする。 様々なデータセットに対する大規模な実験により、GALは最先端の新しいクラス発見法よりも優れた性能を示している。 特にgalは、ノベルクラスのパフォーマンスが大幅に向上し、1つのノベルクラス学習段階において5.1%から10.6%、そして2つのノベルクラス学習段階において7.8%から17.9%に向上し、既知のクラスパフォーマンスを犠牲にすることなく精度が向上した。 さらに、GALはクラス発見と学習機能を備えた様々な主要なFLアルゴリズムの装備に有効であることが示されており、多くの実世界の応用の可能性を強調している。

In a privacy-focused era, Federated Learning (FL) has emerged as a promising machine learning technique. However, most existing FL studies assume that the data distribution remains nearly fixed over time, while real-world scenarios often involve dynamic and continual changes. To equip FL systems with continual model evolution capabilities, we focus on an important problem called Federated Continual Novel Class Learning (FedCN) in this work. The biggest challenge in FedCN is to merge and align novel classes that are discovered and learned by different clients without compromising privacy. To address this, we propose a Global Alignment Learning (GAL) framework that can accurately estimate the global novel class number and provide effective guidance for local training from a global perspective, all while maintaining privacy protection. Specifically, GAL first locates high-density regions in the representation space through a bi-level clustering mechanism to estimate the novel class number, with which the global prototypes corresponding to novel classes can be constructed. Then, GAL uses a novel semantic weighted loss to capture all possible correlations between these prototypes and the training data for mitigating the impact of pseudo-label noise and data heterogeneity. Extensive experiments on various datasets demonstrate GAL's superior performance over state-of-the-art novel class discovery methods. In particular, GAL achieves significant improvements in novel-class performance, increasing the accuracy by 5.1% to 10.6% in the case of one novel class learning stage and by 7.8% to 17.9% in the case of two novel class learning stages, without sacrificing known-class performance. Moreover, GAL is shown to be effective in equipping a variety of different mainstream FL algorithms with novel class discovery and learning capability, highlighting its potential for many real-world applications.
翻訳日:2023-12-22 16:14:53 公開日:2023-12-21
# 占有数量子部分空間展開法による単一粒子グリーン関数の計算

An occupation number quantum subspace expansion approach to compute the single-particle Green function ( http://arxiv.org/abs/2312.13497v1 )

ライセンス: Link先を確認
B. Gauthier, P. Rosenberg, A. Foley, M. Charlebois(参考訳) 雑音中規模量子(nisq)デバイス上で強相関電子のグリーン関数を計算するためのハイブリッド量子古典アルゴリズムを提案する。 この技術は、占有数演算子によって生成される一粒子励起の集合からなる非直交励起基底を構成する。 この基底におけるハミルトニアンの励起セクターは量子デバイス上で測定でき、古典的な後処理手順はリーマン表現のグリーン関数を生成する。 この技術は、NISQデバイスに有用なノイズフィルタリングを可能にする。 このアプローチを検証するために、我々はibm量子ハードウェア上のシングルバンドハバードモデル上で原理実証計算のセットを実行する。 2つのサイトシステムでは、量子シミュレーションの結果と局所スペクトル関数の正確な結果との間に良い一致が得られている。 古典的ハードウェア上で実行される4つのサイトシステムのシミュレーションは、このアプローチがより大きなシステムで同様の精度を達成することを示唆している。

We introduce a hybrid quantum-classical algorithm to compute the Green function for strongly correlated electrons on noisy intermediate-scale quantum (NISQ) devices. The technique consists in the construction of a non-orthogonal excitation basis composed of a set of single-particle excitations generated by occupation number operators. The excited sectors of the Hamiltonian in this basis can then be measured on the quantum device and a classical post-processing procedure yields the Green function in the Lehmann representation. The technique allow for noise filtering, a useful feature for NISQ devices. To validate the approach, we carry out a set of proof-of-principle calculations on the single-band Hubbard model on IBM quantum hardware. For a 2 site system we find good agreement between the results of quantum simulations and the exact result for the local spectral function. A simulation of a 4 site system carried out on classical hardware suggests that the approach can achieve similar accuracy for larger systems.
翻訳日:2023-12-22 16:14:11 公開日:2023-12-21
# ショットインテント分類とスロットフィリングのためのデカップリング表現と知識

Decoupling Representation and Knowledge for Few-Shot Intent Classification and Slot Filling ( http://arxiv.org/abs/2312.13495v1 )

ライセンス: Link先を確認
Jie Han, Yixiong Zou, Haozhao Wang, Jun Wang, Wei Liu, Yao Wu, Tao Zhang, Ruixuan Li(参考訳) インテント分類とスロットフィリングは重要だが、細かなラベル付きデータの不足のため難しい課題である。 したがって、現在の作業は、まず十分なラベル付きデータを持つソースドメイン上でモデルをトレーニングし、次に、稀にラベル付きデータしか利用できないターゲットドメインにモデルを転送する。 しかしながら、全体としての経験の伝達は通常、ソースドメインとターゲットドメインの間に存在するギャップに悩まされる。 例えば、ドメイン固有の知識関連エクスペリエンスの転送は困難です。 そこで本研究では, 一般表現関連体験とドメイン固有知識関連体験の伝達を明示的に分離する新しい手法を提案する。 具体的には、ドメイン固有の知識に関する経験として、インテント・スロット関係とスロット・スロット関係をそれぞれキャプチャする2つのモジュールを設計する。 snips と fewjoint データセットを広範囲に実験した結果,本手法は最先端の性能を達成できた。 この方法は、1ショット設定で27.72%から42.20%に、そして5ショット設定で46.54%から60.79%に改善する。

Few-shot intent classification and slot filling are important but challenging tasks due to the scarcity of finely labeled data. Therefore, current works first train a model on source domains with sufficiently labeled data, and then transfer the model to target domains where only rarely labeled data is available. However, experience transferring as a whole usually suffers from gaps that exist among source domains and target domains. For instance, transferring domain-specific-knowledge-related experience is difficult. To tackle this problem, we propose a new method that explicitly decouples the transferring of general-semantic-representation-related experience and the domain-specific-knowledge-related experience. Specifically, for domain-specific-knowledge-related experience, we design two modules to capture intent-slot relation and slot-slot relation respectively. Extensive experiments on Snips and FewJoint datasets show that our method achieves state-of-the-art performance. The method improves the joint accuracy metric from 27.72% to 42.20% in the 1-shot setting, and from 46.54% to 60.79% in the 5-shot setting.
翻訳日:2023-12-22 16:13:45 公開日:2023-12-21
# 視覚断層撮影:半透明物体の物理的忠実な容積モデル

Visual Tomography: Physically Faithful Volumetric Models of Partially Translucent Objects ( http://arxiv.org/abs/2312.13494v1 )

ライセンス: Link先を確認
David Nakath, Xiangyu Weng, Mengkun She, Kevin K\"oser(参考訳) 現実世界のデータから忠実に作られたオブジェクトのデジタル3D表現は、人間やコンピュータによる分析に有用である。 このようなモデルは、データ取得が難しい設定や、トレーニングデータが少ない場合、例えば、さまざまな条件で新しいビューやイメージを提供することで、機械学習アプローチのトレーニングデータを生成するのにも役立ちます。 本研究では, プラクトンや昆虫などの半透明な物体の内部を含む物理モデルを得るために, 大量の視覚3次元再構成アプローチが非物理的モデル, テクスチャ的物体表面, 形状に焦点をあてる一方で, ボリュームリコンストラクションアプローチを提案する。 我々の技術は、明るい白色光源の前で異なるポーズの下で物体を撮影し、ボクセル当たりの吸収と散乱を計算する。 逆光線トレーシングで解決した視覚トモグラフィーと解釈できる。 さらに,非物理的NeRF媒体を物理的に体積格子に変換して初期化し,実世界の2つのプランクトン検証セットを用いてアプローチの有用性を示す手法を提案する。 プロジェクトホームページ www.marine.informatik.uni-kiel.de/go/vito

When created faithfully from real-world data, Digital 3D representations of objects can be useful for human or computer-assisted analysis. Such models can also serve for generating training data for machine learning approaches in settings where data is difficult to obtain or where too few training data exists, e.g. by providing novel views or images in varying conditions. While the vast amount of visual 3D reconstruction approaches focus on non-physical models, textured object surfaces or shapes, in this contribution we propose a volumetric reconstruction approach that obtains a physical model including the interior of partially translucent objects such as plankton or insects. Our technique photographs the object under different poses in front of a bright white light source and computes absorption and scattering per voxel. It can be interpreted as visual tomography that we solve by inverse raytracing. We additionally suggest a method to convert non-physical NeRF media into a physically-based volumetric grid for initialization and illustrate the usefulness of the approach using two real-world plankton validation sets, the lab-scanned models being finally also relighted and virtually submerged in a scenario with augmented medium and illumination conditions. Please visit the project homepage at www.marine.informatik.uni-kiel.de/go/vito
翻訳日:2023-12-22 16:13:15 公開日:2023-12-21
# グラデーション報酬信号を用いた自動カリキュラム学習

Automatic Curriculum Learning with Gradient Reward Signals ( http://arxiv.org/abs/2312.13565v1 )

ライセンス: Link先を確認
Ryan Campbell and Junsang Yoon(参考訳) 本稿では,深層強化学習(DRL)におけるACL(Automatic Curriculum Learning)の文脈における勾配ノルム報酬信号の利用の影響について検討する。 本稿では,生徒モデルの勾配ノルム情報を活用した教師モデルが,学習カリキュラムを動的に適応する枠組みを提案する。 このアプローチは、勾配ノルムが学習の進捗のニュアンスと効果的な尺度を提供できるという仮説に基づいている。 提案手法の有効性を評価するために,いくつかの強化学習環境 (pointmaze, antmaze, adroithandrelocate) を用いて実験を行った。 グラデーション規範が教師の挑戦的かつ達成可能な学習順序を習得する能力にどのように影響するかを分析し,最終的に生徒のパフォーマンスを向上させる。 その結果,本手法は学習過程を加速するだけでなく,複雑なタスクの一般化や適応性の向上につながることがわかった。 この結果は、より効率的で堅牢なaclシステム構築における勾配ノルム信号の可能性を強調し、カリキュラム学習と強化学習の研究の新たな道を開いた。

This paper investigates the impact of using gradient norm reward signals in the context of Automatic Curriculum Learning (ACL) for deep reinforcement learning (DRL). We introduce a framework where the teacher model, utilizing the gradient norm information of a student model, dynamically adapts the learning curriculum. This approach is based on the hypothesis that gradient norms can provide a nuanced and effective measure of learning progress. Our experimental setup involves several reinforcement learning environments (PointMaze, AntMaze, and AdroitHandRelocate), to assess the efficacy of our method. We analyze how gradient norm rewards influence the teacher's ability to craft challenging yet achievable learning sequences, ultimately enhancing the student's performance. Our results show that this approach not only accelerates the learning process but also leads to improved generalization and adaptability in complex tasks. The findings underscore the potential of gradient norm signals in creating more efficient and robust ACL systems, opening new avenues for research in curriculum learning and reinforcement learning.
翻訳日:2023-12-22 16:06:28 公開日:2023-12-21
# 取り消し可能な量子デジタルシグナチャ

Revocable Quantum Digital Signatures ( http://arxiv.org/abs/2312.13561v1 )

ライセンス: Link先を確認
Tomoyuki Morimae and Alexander Poremba and Takashi Yamakawa(参考訳) ディジタルシグネチャを再現能力で検討し,2つの結果を示す。 まず、LWE仮定から取り消し可能な署名キーを用いたデジタル署名を定義し、構築する。 このプリミティブでは、署名キーは、ユーザーが多くのメッセージに署名できる量子状態であるが、量子キーも取り消し可能、すなわち、後に検証できる古典的な証明書に分解することができる。 一度キーが取り消されたら、キーの最初の受信者が署名する能力を失うことを要求します。 新たに導入されたプリミティブから取り消し可能な署名キーを備えたデジタルシグネチャを構築し、2階層のワンショットシグネチャと呼ぶ。 これはワンショットシグネチャの変種であり、メッセージ ``0'' のシグネチャの検証は公開され、メッセージ ``1'' の検証はプライベートで行われる。 LWE仮定から2階層のワンショットシグネチャを構築する。 相補的な結果として,量子署名キーが単に ``returned''' である群作用からの量子再帰を伴うディジタル署名を構築し,再帰の一部として検証する。 第二に、OWFから取り消し可能な署名でデジタル署名を定義し、構築する。 このプリミティブでは、シグナーは後に取り消すことができる量子シグネチャを生成することができる。 ここでは、セキュリティプロパティは、一度取り消しが成功したら、署名の最初の受信者が署名検証アルゴリズムの入力を受信する能力を失うことを要求する。 新たに導入されたトークン化シグネチャの2層版を用いて,このプリミティブを構築する。 提案手法では,OWFの適応型ハードコアビット特性(adaptive hardcore bit property)と呼ばれる新しい補題が示され,さらなる応用が期待できる。

We study digital signatures with revocation capabilities and show two results. First, we define and construct digital signatures with revocable signing keys from the LWE assumption. In this primitive, the signing key is a quantum state which enables a user to sign many messages and yet, the quantum key is also revocable, i.e., it can be collapsed into a classical certificate which can later be verified. Once the key is successfully revoked, we require that the initial recipient of the key loses the ability to sign. We construct digital signatures with revocable signing keys from a newly introduced primitive which we call two-tier one-shot signatures, which may be of independent interest. This is a variant of one-shot signatures, where the verification of a signature for the message ``0'' is done publicly, whereas the verification for the message ``1'' is done in private. We give a construction of two-tier one-shot signatures from the LWE assumption. As a complementary result, we also construct digital signatures with quantum revocation from group actions, where the quantum signing key is simply ``returned'' and then verified as part of revocation. Second, we define and construct digital signatures with revocable signatures from OWFs. In this primitive, the signer can produce quantum signatures which can later be revoked. Here, the security property requires that, once revocation is successful, the initial recipient of the signature loses the ability to find accepting inputs to the signature verification algorithm. We construct this primitive using a newly introduced two-tier variant of tokenized signatures. For the construction, we show a new lemma which we call the adaptive hardcore bit property for OWFs, which may enable further applications.
翻訳日:2023-12-22 16:06:10 公開日:2023-12-21
# 光とマイクロ波フォトニック量子ビットの量子絡み合い

Quantum entanglement between optical and microwave photonic qubits ( http://arxiv.org/abs/2312.13559v1 )

ライセンス: Link先を確認
Srujan Meesala, David Lake, Steven Wood, Piero Chiappina, Changchun Zhong, Andrew D. Beyer, Matthew D. Shaw, Liang Jiang, and Oskar Painter(参考訳) 絡み合いは量子力学の異常な特徴である。 絡み合った光子源はベルの不等式を破って量子物理学の基礎をテストするのに不可欠であった。 近年、マイクロ波回路と超伝導量子ビットの強い非線形相互作用により、絡み合った多体状態が実現されている。 ここでは、光およびマイクロ波フォトニック量子ビットを絡み合うチップスケールの源を示す。 我々のデバイスプラットフォームは、圧電オプトメカニカルトランスデューサと、光照射下で頑健な超伝導共振器を統合している。 我々は光子対生成過程を駆動し、マイクロ波および光子の絡み合った状態を作成するために、本システムに固有のデュアルレール符号化を用いる。 2つの直交基底におけるマイクロ波および光光子を測定することにより、絡み合う状態の忠実度を低くする。 この絡み合い源は、量子通信と計算のための確立された2つのプラットフォームである通信波長のタイムビン量子ビットとghz周波数超伝導量子ビットを直接接続することができる。

Entanglement is an extraordinary feature of quantum mechanics. Sources of entangled optical photons were essential to test the foundations of quantum physics through violations of Bell's inequalities. More recently, entangled many-body states have been realized via strong non-linear interactions in microwave circuits with superconducting qubits. Here we demonstrate a chip-scale source of entangled optical and microwave photonic qubits. Our device platform integrates a piezo-optomechanical transducer with a superconducting resonator which is robust under optical illumination. We drive a photon-pair generation process and employ a dual-rail encoding intrinsic to our system to prepare entangled states of microwave and optical photons. We place a lower bound on the fidelity of the entangled state by measuring microwave and optical photons in two orthogonal bases. This entanglement source can directly interface telecom wavelength time-bin qubits and GHz frequency superconducting qubits, two well-established platforms for quantum communication and computation, respectively.
翻訳日:2023-12-22 16:05:41 公開日:2023-12-21
# 真実はそこにある:層選択的ランク削減による言語モデルの推論の改善

The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction ( http://arxiv.org/abs/2312.13558v1 )

ライセンス: Link先を確認
Pratyusha Sharma, Jordan T. Ash and Dipendra Misra(参考訳) Transformer-based Large Language Models (LLMs) は、現代の機械学習におけるフィクスチャとなっている。 それに対応して、この技術のさらなる進歩を目的とした研究のために、重要なリソースが割り当てられる。 しかし, この研究は, 重量行列の高次成分を選択的に除去することにより, LLMの性能を著しく向上させることがしばしば可能であることを示す。 LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後にモデル上で行うことができ、追加のパラメータやデータを必要としない。 言語モデルとデータセットをまたいだこの発見の汎用性を実証する広範な実験を行い、LASERが有効である場合とそれが動作するメカニズムの両方について深い分析を行う。

Transformer-based Large Language Models (LLMs) have become a fixture in modern machine learning. Correspondingly, significant resources are allocated towards research that aims to further advance this technology, typically resulting in models of increasing size that are trained on increasing amounts of data. This work, however, demonstrates the surprising result that it is often possible to significantly improve the performance of LLMs by selectively removing higher-order components of their weight matrices. This simple intervention, which we call LAyer-SElective Rank reduction (LASER), can be done on a model after training has completed, and requires no additional parameters or data. We show extensive experiments demonstrating the generality of this finding across language models and datasets, and provide in-depth analyses offering insights into both when LASER is effective and the mechanism by which it operates.
翻訳日:2023-12-22 16:05:25 公開日:2023-12-21
# 大規模言語モデルを用いたマイナショットレコメンダシステムの実現 -エンハンスド表現

Empowering Few-Shot Recommender Systems with Large Language Models -- Enhanced Representations ( http://arxiv.org/abs/2312.13557v1 )

ライセンス: Link先を確認
Zhoumeng Wang(参考訳) 明示的なフィードバックを利用したレコメンダシステムは、過去数年間で大きな進歩と広範な応用を目撃してきた。 しかし、いくつかのシナリオでレコメンデーションを生成することは、依然として永続的な課題である。 近年,大規模言語モデル (LLM) が自然言語処理 (NLP) タスクに対処するための有望なソリューションとして登場し,明示的なフィードバックベースのレコメンデータシステムによって発生する少数のシナリオに対処するための新たな洞察を提供する。 推薦システムとLLMをブリッジするために,明示的なフィードバックに基づいてユーザとアイテムの表現を生成するプロンプトテンプレートを考案した。 その後、これらのLLM処理された表現を様々なレコメンデーションモデルに統合し、様々なレコメンデーションタスクにおけるそれらの意義を評価する。 本研究は,LLMの明示的なフィードバック処理における有効性を総合的に検証し,生成的および論理的推論能力を備えたLLMが,数ショットシナリオにおける性能向上のために,レコメンダシステムの構成要素として有効であることを示した。 さらに、LLMの広範な適応性は、特定の固有の制約にもかかわらず、レコメンダモデルの一般化可能性を高める。 本研究は,llmsのレコメンダシステムへの関与の多面的次元を深く掘り下げ,明示的なフィードバックベースのレコメンダシステム分野の進展に寄与することを期待した。

Recommender systems utilizing explicit feedback have witnessed significant advancements and widespread applications over the past years. However, generating recommendations in few-shot scenarios remains a persistent challenge. Recently, large language models (LLMs) have emerged as a promising solution for addressing natural language processing (NLP) tasks, thereby offering novel insights into tackling the few-shot scenarios encountered by explicit feedback-based recommender systems. To bridge recommender systems and LLMs, we devise a prompting template that generates user and item representations based on explicit feedback. Subsequently, we integrate these LLM-processed representations into various recommendation models to evaluate their significance across diverse recommendation tasks. Our ablation experiments and case study analysis collectively demonstrate the effectiveness of LLMs in processing explicit feedback, highlighting that LLMs equipped with generative and logical reasoning capabilities can effectively serve as a component of recommender systems to enhance their performance in few-shot scenarios. Furthermore, the broad adaptability of LLMs augments the generalization potential of recommender models, despite certain inherent constraints. We anticipate that our study can inspire researchers to delve deeper into the multifaceted dimensions of LLMs's involvement in recommender systems and contribute to the advancement of the explicit feedback-based recommender systems field.
翻訳日:2023-12-22 16:05:10 公開日:2023-12-21
# CR-SAM: 曲率正規化シャープネスの最小化

CR-SAM: Curvature Regularized Sharpness-Aware Minimization ( http://arxiv.org/abs/2312.13555v1 )

ライセンス: Link先を確認
Tao Wu, Tie Luo, and Donald C. Wunsch(参考訳) 将来の目に見えないデータに一般化する能力は、ディープニューラルネットワークの最も重要な特性の1つである。 Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。 しかし、トレーニングが進むにつれて、損失ランドスケープの非線形性は増大し、ワンステップ勾配の上昇は効果が低下する。 一方で、マルチステップ勾配上昇は、より高いトレーニングコストを発生させる。 本稿では,正規化ヘッセントレースを導入し,トレーニングおよびテストセット上での損失景観の曲率を正確に測定する。 特に、損失景観の過度な非線形性に対抗するために、正規化ヘッセントレースをSAM正則化器として統合した曲率正規化SAM(CR-SAM)を提案する。 さらに,並列性と有限差分によるトレース計算を効率的に行う方法を提案する。 pac-bayes境界に基づく理論解析は、一般化誤差を減らすための正規化器の有効性を確立する。 CIFARとImageNetデータセットの実証評価では、CR-SAMはさまざまなデータセットにわたるResNetおよびViTモデルの分類性能を一貫して向上している。 私たちのコードはhttps://github.com/TrustAIoT/CR-SAMで公開されています。

The capacity to generalize to future unseen data stands as one of the utmost crucial attributes of deep neural networks. Sharpness-Aware Minimization (SAM) aims to enhance the generalizability by minimizing worst-case loss using one-step gradient ascent as an approximation. However, as training progresses, the non-linearity of the loss landscape increases, rendering one-step gradient ascent less effective. On the other hand, multi-step gradient ascent will incur higher training cost. In this paper, we introduce a normalized Hessian trace to accurately measure the curvature of loss landscape on {\em both} training and test sets. In particular, to counter excessive non-linearity of loss landscape, we propose Curvature Regularized SAM (CR-SAM), integrating the normalized Hessian trace as a SAM regularizer. Additionally, we present an efficient way to compute the trace via finite differences with parallelism. Our theoretical analysis based on PAC-Bayes bounds establishes the regularizer's efficacy in reducing generalization error. Empirical evaluation on CIFAR and ImageNet datasets shows that CR-SAM consistently enhances classification performance for ResNet and Vision Transformer (ViT) models across various datasets. Our code is available at https://github.com/TrustAIoT/CR-SAM.
翻訳日:2023-12-22 16:04:41 公開日:2023-12-21
# 言語モデルをPruneする方法: "Sparsity May Cry''ベンチマークの正確さの回復

How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark ( http://arxiv.org/abs/2312.13547v1 )

ライセンス: Link先を確認
Eldar Kurtic, Torsten Hoefler, Dan Alistarh(参考訳) BERTファミリーから大規模言語モデル(LLM)を抽出する手法が標準圧縮ベンチマークとして登場し,この課題に対していくつかのプルーニング手法が提案されている。 最近の `sparsity may cry'' (smc) ベンチマークは、既存のすべてのメソッドの妥当性に疑問を呈し、多くの既知のpruningメソッドが失敗するより複雑な設定を示した。 下流のデータセットを微調整する際の正確なbert-pruningの問題を再検討し、挑戦的なsmcベンチマークでもpruning成功のための一般的なガイドラインを提案する。 第一に,埋め込みや分類ヘッドなどのモデルコンポーネントのコスト対効果分析を行い,第二に,目標のスパース性に対するトレーニング,スパース化,学習率スケジュールの簡易化方法を提案し,最後に,llmの文脈における知識蒸留における適切なパラメトリゼーションの重要性について検討した。 我々の単純な洞察は、古典的なBERTプルーニングベンチマークとSMCベンチマークの両方で最先端の結果をもたらし、古典的な段階的なプルーニング(GMP)でさえ、正しいアプローチで競争結果が得られることを示した。

Pruning large language models (LLMs) from the BERT family has emerged as a standard compression benchmark, and several pruning methods have been proposed for this task. The recent ``Sparsity May Cry'' (SMC) benchmark put into question the validity of all existing methods, exhibiting a more complex setup where many known pruning methods appear to fail. We revisit the question of accurate BERT-pruning during fine-tuning on downstream datasets, and propose a set of general guidelines for successful pruning, even on the challenging SMC benchmark. First, we perform a cost-vs-benefits analysis of pruning model components, such as the embeddings and the classification head; second, we provide a simple-yet-general way of scaling training, sparsification and learning rate schedules relative to the desired target sparsity; finally, we investigate the importance of proper parametrization for Knowledge Distillation in the context of LLMs. Our simple insights lead to state-of-the-art results, both on classic BERT-pruning benchmarks, as well as on the SMC benchmark, showing that even classic gradual magnitude pruning (GMP) can yield competitive results, with the right approach.
翻訳日:2023-12-22 16:04:20 公開日:2023-12-21
# 対話型観光計画システムの開発 : 大言語モードを利用した対話ロボットシステム

Developing Interactive Tourism Planning: A Dialogue Robot System Powered by a Large Language Mode ( http://arxiv.org/abs/2312.13545v1 )

ライセンス: Link先を確認
Katsumasa Yoshikawa and Takato Yamazaki and Masaya Ohagi and Tomoya Mizumoto and Keiya Sato(参考訳) 近年,大規模言語モデル (LLM) が急速に普及し,対話システムの研究など,様々なタスクに活用されている。 我々は, LLMの柔軟な会話能力を活用するだけでなく, 人間の会話負荷を低減し, 旅行を効率的に計画できるシステムを構築することを目指していた。 さらに,旅行代理店の複雑なタスクを複数のサブタスクに分割し,それぞれを個別のフェーズとして管理し,効果的にタスクを実現する手法を提案する。 提案システムは,対話ロボットコンペティション2023のプリリミナリーラウンドにおいて,第4位に到達し,一定の成功を収めた。 競技を通して特定した課題について報告する。

In recent years, large language models (LLMs) have rapidly proliferated and have been utilized in various tasks, including research in dialogue systems. We aimed to construct a system that not only leverages the flexible conversational abilities of LLMs but also their advanced planning capabilities to reduce the speaking load on human interlocutors and efficiently plan trips. Furthermore, we propose a method that divides the complex task of a travel agency into multiple subtasks, managing each as a separate phase to effectively accomplish the task. Our proposed system confirmed a certain level of success by achieving fourth place in the Dialogue Robot Competition 2023 preliminaries rounds. We report on the challenges identified through the competition.
翻訳日:2023-12-22 16:03:55 公開日:2023-12-21
# 古典的参照フレームの重ね合わせを考える

Considering a superposition of classical reference frames ( http://arxiv.org/abs/2312.13540v1 )

ライセンス: Link先を確認
Elliott Tammaro, Hunter Angle, Edmund Mbadu(参考訳) 量子力学理論の普遍的な特徴は重ね合わせ状態の存在である。 これは量子重力理論では変わらないと期待されている。 この考察と他の考察により、古典的な参照フレームが互いに相対的に重畳されるような枠組みを考える。 標準量子力学をミラーする 複素値の波動関数を導入し、座標間の変換を入力として$\psi[x(x')]$を取り、参照フレーム間の相互作用は、生来の規則で与えられる確率分布を持つ特定の変換を選択できるという解釈をする。 重ね合わせにおける2と3の参照フレームのケースは明示的に考慮される。 変換の集合は閉であることが示されている。 重ね合わせで波動関数をある系から別の系へ変換する規則を提案し、シュロディンガー方程式との整合性を示す。

A ubiquitous feature of quantum mechanical theories is the existence of states of superposition. This is expected to be no different for a quantum gravity theory. Guided by this consideration and others we consider a framework in which classical reference frames may be in superposition relative to one another. Mirroring standard quantum mechanics we introduce a complex-valued wavefunctional, which takes as input the transformations between the coordinates, $\Psi[x(x')]$, with the interpretation that an interaction between the reference frames may select a particular transformation with probability distribution given by the Born rule - $P[x(x')] = \text{probability distribution functional} \equiv \vert \Psi[x(x')] \vert^2$. The cases of two and three reference frames in superposition are considered explicitly. It is shown that the set of transformations is closed. A rule for transforming wavefunctions from one system to another system in superposition is proposed and consistency with the Schrodinger equation is demonstrated.
翻訳日:2023-12-22 16:03:42 公開日:2023-12-21
# HyperEditor: Hypernetworksによる画像編集における認証性とクロスドメイン機能の実現

HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in Image Editing via Hypernetworks ( http://arxiv.org/abs/2312.13537v1 )

ライセンス: Link先を確認
Hai Zhang, Chunwei Wu, Guitao Cao, Hailing Wang, Wenming Cao(参考訳) 実画像の編集とクロスドメイン編集は依然として課題である。 近年の研究では、実際の画像を潜在コードに変換し、これらのコードを操作することで画像編集を実現することに焦点を当てている。 しかし、潜在コードを操作するだけで、編集された画像はジェネレータのイメージドメインに制限され、多様な編集目標の達成が妨げられる。 そこで我々は,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。 CLIPのクロスモーダルな画像-テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、従来の手法では実現されていなかった、真の属性編集とドメイン間のスタイル転送を同時に実現できる。 さらに、ジェネレータ内の特定のレイヤの重みだけを変更するだけで、同等な編集結果が得られることを確認する。 そこで我々は,ハイパーネットワークが出力重み係数を必要とする層を自律的に識別できる適応層セレクタを導入することで,ハイパーネットワークの効率をさらに向上させることができる。 豊富に挑戦するデータセットに関する広範な実験により,本手法の有効性が示された。

Editing real images authentically while also achieving cross-domain editing remains a challenge. Recent studies have focused on converting real images into latent codes and accomplishing image editing by manipulating these codes. However, merely manipulating the latent codes would constrain the edited images to the generator's image domain, hindering the attainment of diverse editing goals. In response, we propose an innovative image editing method called HyperEditor, which utilizes weight factors generated by hypernetworks to reassign the weights of the pre-trained StyleGAN2's generator. Guided by CLIP's cross-modal image-text semantic alignment, this innovative approach enables us to simultaneously accomplish authentic attribute editing and cross-domain style transfer, a capability not realized in previous methods. Additionally, we ascertain that modifying only the weights of specific layers in the generator can yield an equivalent editing result. Therefore, we introduce an adaptive layer selector, enabling our hypernetworks to autonomously identify the layers requiring output weight factors, which can further improve our hypernetworks' efficiency. Extensive experiments on abundant challenging datasets demonstrate the effectiveness of our method.
翻訳日:2023-12-22 16:03:23 公開日:2023-12-21
# ドメイン適応グラフ分類

Domain Adaptive Graph Classification ( http://arxiv.org/abs/2312.13536v1 )

ライセンス: Link先を確認
Siyang Luo, Ziyi Jiang, Zhenghan Chen, Xiaoxuan Liang(参考訳) グラフニューラルネットワーク(GNN)の顕著な成果にもかかわらず、彼らは一般的にタスク固有のラベルに依存しており、買収に関して潜在的な課題を提起している。 対象データに対する学習プロセスを強化するためにラベル付きソースグラフを用いて、教師なしドメイン適応のレンズを用いて、この問題に対処するための既存の作業が行われている。 しかし、グラフトポロジーの同時探索とドメイン格差の削減は依然として大きなハードルとなっている。 本稿では,双対分岐からグラフトポロジーを探索し,双対逆学習によるドメイン間差異を緩和する双対逆グラフ表現学習(dagrl)を提案する。 提案手法は,グラフ畳み込みネットワークブランチとグラフカーネルブランチから構成され,暗黙的,明示的な両視点からグラフセマンティクスをキャプチャする。 さらに,本手法では,適応的な摂動を二分枝に組み込み,ソースとターゲット分布をドメインの整合性に対応する。 ワイルドレンジグラフ分類データセットの大規模な実験により,提案手法の有効性が示された。

Despite the remarkable accomplishments of graph neural networks (GNNs), they typically rely on task-specific labels, posing potential challenges in terms of their acquisition. Existing work have been made to address this issue through the lens of unsupervised domain adaptation, wherein labeled source graphs are utilized to enhance the learning process for target data. However, the simultaneous exploration of graph topology and reduction of domain disparities remains a substantial hurdle. In this paper, we introduce the Dual Adversarial Graph Representation Learning (DAGRL), which explore the graph topology from dual branches and mitigate domain discrepancies via dual adversarial learning. Our method encompasses a dual-pronged structure, consisting of a graph convolutional network branch and a graph kernel branch, which enables us to capture graph semantics from both implicit and explicit perspectives. Moreover, our approach incorporates adaptive perturbations into the dual branches, which align the source and target distribution to address domain discrepancies. Extensive experiments on a wild range graph classification datasets demonstrate the effectiveness of our proposed method.
翻訳日:2023-12-22 16:03:02 公開日:2023-12-21
# 医用画像におけるSE(3)-等変・雑音不変3次元運動追跡

SE(3)-Equivariant and Noise-Invariant 3D Motion Tracking in Medical Images ( http://arxiv.org/abs/2312.13534v1 )

ライセンス: Link先を確認
Benjamin Billot, Daniel Moyer, Neel Dey, Malte Hoffmann, Esra Abaci Turk, Borjan Gagoski, Ellen Grant, Polina Golland(参考訳) 剛体運動追跡は、運動を検出、修正、または説明する必要がある多くの医療画像アプリケーションにおいて最重要である。 現代の戦略は畳み込みニューラルネットワーク(cnn)に依存しており、この問題を厳格な登録として捉えている。 しかし、cnnはこのタスクで自然対称性を利用せず、変換(出力は入力で変化する)に同変であるが、回転には適用されない。 本稿では,動き追跡にSE(3)-equivariant CNN(E-CNN)を用いる最初の方法であるEquiTrackを提案する。 ステアブルなE-CNNは、さまざまなポーズで対応する特徴を抽出できるが、ノイズの多い医療画像でテストすると、ノイズ不変性を学ぶのに十分な学習能力がないことが分かる。 そこで,同変空間特徴の抽出から解剖学的に無関係な強度特徴の処理を分離するために,E-CNNとデノイザを組み合わせるハイブリッドアーキテクチャを提案する。 剛体変換は閉形式で推定される。 EquiTrackは、成人脳MRIおよび胎児MRI時系列における運動追跡の最先端の学習および最適化方法より優れている。 私たちのコードはgithub.com/BBillot/equitrackで利用可能です。

Rigid motion tracking is paramount in many medical imaging applications where movements need to be detected, corrected, or accounted for. Modern strategies rely on convolutional neural networks (CNN) and pose this problem as rigid registration. Yet, CNNs do not exploit natural symmetries in this task, as they are equivariant to translations (their outputs shift with their inputs) but not to rotations. Here we propose EquiTrack, the first method that uses recent steerable SE(3)-equivariant CNNs (E-CNN) for motion tracking. While steerable E-CNNs can extract corresponding features across different poses, testing them on noisy medical images reveals that they do not have enough learning capacity to learn noise invariance. Thus, we introduce a hybrid architecture that pairs a denoiser with an E-CNN to decouple the processing of anatomically irrelevant intensity features from the extraction of equivariant spatial features. Rigid transforms are then estimated in closed-form. EquiTrack outperforms state-of-the-art learning and optimisation methods for motion tracking in adult brain MRI and fetal MRI time series. Our code is available at github.com/BBillot/equitrack.
翻訳日:2023-12-22 16:02:45 公開日:2023-12-21
# 外来における臨床検査の自動化

Automated Clinical Coding for Outpatient Departments ( http://arxiv.org/abs/2312.13533v1 )

ライセンス: Link先を確認
Viktor Schlegel, Abhinav Ramesh Kashyap, Thanh-Tung Nguyen, Tsung-Han Yang, Vijay Prakash Dwivedi, Wei-Hsian Yin, Jeng Wei, Stefan Winkle(参考訳) computerized clinical coding approachは、一連のコードを医療記録に割り当てるプロセスを自動化することを目的としている。 入院患者のための臨床コーディングに関する技術の現状を推し進める研究が活発に行われているが、医師が非入院患者を診察する外来の状況は見過ごされている。 どちらの設定もマルチラベル分類タスクとして定式化できるが、それらは独特で明確な課題を示しており、外来臨床コーディングアプローチの成功が外来の状況に繋がるかどうかという問題を引き起こす。 本稿では,病院規模の外来で,最先端の深層学習に基づく臨床コーディング手法がいかにうまく機能するかを初めて検討する。 この目的のために、500万人以上の患者を記録した700万以上のノートからなる大規模な外来患者データセットを収集した。 我々は4つの最先端臨床コーディングアプローチをこの設定に適応させ,コーダ支援の可能性を評価する。 外来における臨床的コーディングは、一般的な入院型コーディングベンチマークにおいて、より多くのイノベーションの恩恵を受けることができることを示す。 データの量と形式、文書表現の選択など、成功に寄与する要因のより深い分析は、容易に解決できる例の存在を明らかにし、そのコーディングはエラー率を低くして完全に自動化できる。

Computerised clinical coding approaches aim to automate the process of assigning a set of codes to medical records. While there is active research pushing the state of the art on clinical coding for hospitalized patients, the outpatient setting -- where doctors tend to non-hospitalised patients -- is overlooked. Although both settings can be formalised as a multi-label classification task, they present unique and distinct challenges, which raises the question of whether the success of inpatient clinical coding approaches translates to the outpatient setting. This paper is the first to investigate how well state-of-the-art deep learning-based clinical coding approaches work in the outpatient setting at hospital scale. To this end, we collect a large outpatient dataset comprising over 7 million notes documenting over half a million patients. We adapt four state-of-the-art clinical coding approaches to this setting and evaluate their potential to assist coders. We find evidence that clinical coding in outpatient settings can benefit from more innovations in popular inpatient coding benchmarks. A deeper analysis of the factors contributing to the success -- amount and form of data and choice of document representation -- reveals the presence of easy-to-solve examples, the coding of which can be completely automated with a low error rate.
翻訳日:2023-12-22 16:02:26 公開日:2023-12-21
# クエンチ下の量子電磁力学

Quantum electrodynamics under a quench ( http://arxiv.org/abs/2312.13531v1 )

ライセンス: Link先を確認
Ming-Rui Li and Shao-Kai Jian(参考訳) 量子電磁力学(Quantum Electrodynamics, QED)は、粒子物理学の基礎であり、凝縮物質系の様々な応用も見出す。 その重要性にもかかわらず、量子クエンチの下での量子電磁力学のダイナミクスは、十分に研究されていない。 本稿では,大域量子クエンチによる量子電磁力学の非平衡状態について検討する。 具体的には、巨大なディラックフェルミオンはゲージボソンとの相互作用で隙間のない状態に焼成される。 空隙のないディラックフェルミオンを持つ平衡(3+1)次元QEDとは対照的に、カップリングは無関係であり、非フェルミ液体の挙動を特徴とする非平衡固定点を同定する。 特に、この固定点における異常次元は初期クエンチパラメータによって異なり、強い相互作用を持つ系における興味深い量子メモリ効果が示唆される。 さらに,非平衡量子電磁力学に特有の実験的シグネチャを提案する。

Quantum electrodynamics (QED) is a cornerstone of particle physics and also finds diverse applications in condensed matter systems. Despite its significance, the dynamics of quantum electrodynamics under a quantum quench remains inadequately explored. In this paper, we investigate the nonequilibrium regime of quantum electrodynamics following a global quantum quench. Specifically, a massive Dirac fermion is quenched to a gapless state with an interaction with gauge bosons. In stark contrast to equilibrium (3+1)-dimensional QED with gapless Dirac fermions, where the coupling is marginally irrelevant, we identify a nonequilibrium fixed point characterized by nonFermi liquid behavior. Notably, the anomalous dimension at this fixed point varies with the initial quench parameter, suggesting an interesting quantum memory effect in a strongly interacting system. Additionally, we propose distinctive experimental signatures for nonequilibrium quantum electrodynamics.
翻訳日:2023-12-22 16:02:04 公開日:2023-12-21
# HW-V2W-Map:GPT支援緩和提案によるルート原因解析のための弱みマッピングフレームワークのハードウェア脆弱性

HW-V2W-Map: Hardware Vulnerability to Weakness Mapping Framework for Root Cause Analysis with GPT-assisted Mitigation Suggestion ( http://arxiv.org/abs/2312.13530v1 )

ライセンス: Link先を確認
Yu-Zheng Lin, Muntasir Mamun, Muhtasim Alam Chowdhury, Shuyu Cai, Mingyu Zhu, Banafsheh Saber Latibari, Kevin Immanuel Gubbi, Najmeh Nazari Bavarsad, Arjun Caputo, Avesta Sasan, Houman Homayoun, Setareh Rafatirad, Pratik Satam, Soheil Salehi(参考訳) 現代のコンピューティングフレームワークのエスカレートする複雑さは、実践者によってNational Vulnerability Database (NVD)に報告されたサイバーセキュリティの脆弱性の急増につながった。 NVDの安定性が脆弱性に関する最新の知見の最も重要なデータベースであるにもかかわらず、そのような大量の非構造化データから有意義な傾向を抽出することは、適切な技術方法論を適用することなく依然として困難である。 これまでの取り組みは主にソフトウェア脆弱性に集中してきたが、全体的な戦略には脆弱性の緩和、スコア予測、CWE(Common Weakness Enumeration)とCVE(Common Vulnerability Exchange)データベースから関連する洞察を抽出する知識生成システムが含まれる。 モノのインターネット(IoT)デバイスに対するハードウェア攻撃の数が急速に増加する中、ハードウェア脆弱性とIoTセキュリティに焦点を当てた機械学習(ML)フレームワークであるHW-V2W-Map(Hardware Vulnerability to Weakness Mapping)フレームワークが紹介される。 このフレームワークは、オントロジーを更新するプロセスを自動化するもので、時間をかけて脆弱性のパターンと進化を認識し、脆弱性を緩和するためのアプローチを提供します。 この結果、脆弱性の再発を軽減でき、逆に将来の暴露を予測して防止することができる。 さらに,提案手法では,GPT (Generative Pre-trained Transformer) Large Language Models (LLMs) を用いて緩和提案を行った。

The escalating complexity of modern computing frameworks has resulted in a surge in the cybersecurity vulnerabilities reported to the National Vulnerability Database (NVD) by practitioners. Despite the fact that the stature of NVD is one of the most significant databases for the latest insights into vulnerabilities, extracting meaningful trends from such a large amount of unstructured data is still challenging without the application of suitable technological methodologies. Previous efforts have mostly concentrated on software vulnerabilities; however, a holistic strategy incorporates approaches for mitigating vulnerabilities, score prediction, and a knowledge-generating system that may extract relevant insights from the Common Weakness Enumeration (CWE) and Common Vulnerability Exchange (CVE) databases is notably absent. As the number of hardware attacks on Internet of Things (IoT) devices continues to rapidly increase, we present the Hardware Vulnerability to Weakness Mapping (HW-V2W-Map) Framework, which is a Machine Learning (ML) framework focusing on hardware vulnerabilities and IoT security. The architecture that we have proposed incorporates an Ontology-driven Storytelling framework, which automates the process of updating the ontology in order to recognize patterns and evolution of vulnerabilities over time and provides approaches for mitigating the vulnerabilities. The repercussions of vulnerabilities can be mitigated as a result of this, and conversely, future exposures can be predicted and prevented. Furthermore, our proposed framework utilized Generative Pre-trained Transformer (GPT) Large Language Models (LLMs) to provide mitigation suggestions.
翻訳日:2023-12-22 16:01:49 公開日:2023-12-21
# ニューラル有限状態変換器の構造認識経路推定

Structure-Aware Path Inference for Neural Finite State Transducers ( http://arxiv.org/abs/2312.13614v1 )

ライセンス: Link先を確認
Weiting Tan, Chu-cheng Lin, Jason Eisner(参考訳) 神経有限状態トランスデューサ(nfsts)は、神経シンボリックシーケンストランスデューサモデル(neuralsymbolic sequence transduction model)の表現的ファミリーを形成する。 NFSTは、各文字列対を有限状態トランスデューサの潜在パスによって生成されたものとしてモデル化する。 これらは深層生成モデルであるため、NFSTのトレーニングと推論の両方には、そのような潜伏変数上の後方分布を近似する推論ネットワークが必要である。 本稿では,与えられた入力文字列と出力文字列のペア(例えば,トレーニング中に)を記述した潜在アライメントパスの計算結果に焦点をあてる。 我々は,経路の償却推定のための3つの自己回帰近似モデルを訓練し,重要サンプリングのための提案分布として使用できる。 3つのモデルすべてがルックヘッドを実行します。 我々の最も洗練された(そして新しい)モデルは、将来のパスのグラフを考えるためにFST構造を利用します。

Neural finite-state transducers (NFSTs) form an expressive family of neurosymbolic sequence transduction models. An NFST models each string pair as having been generated by a latent path in a finite-state transducer. As they are deep generative models, both training and inference of NFSTs require inference networks that approximate posterior distributions over such latent variables. In this paper, we focus on the resulting challenge of imputing the latent alignment path that explains a given pair of input and output strings (e.g., during training). We train three autoregressive approximate models for amortized inference of the path, which can then be used as proposal distributions for importance sampling. All three models perform lookahead. Our most sophisticated (and novel) model leverages the FST structure to consider the graph of future paths; unfortunately, we find that it loses out to the simpler approaches -- except on an artificial task that we concocted to confuse the simpler approaches.
翻訳日:2023-12-22 15:54:36 公開日:2023-12-21
# 不信頼なd2dネットワーク上の不均質分散フェデレーション学習のためのトポロジー学習

Topology Learning for Heterogeneous Decentralized Federated Learning over Unreliable D2D Networks ( http://arxiv.org/abs/2312.13611v1 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Dun Zeng, Junfan Li, Jie Liu(参考訳) 無線デバイス対デバイス(d2d)ネットワークにおけるインテリジェントモバイルデバイスの普及に伴い、分散型連合学習(dfl)が注目されている。 集中型連合学習(CFL)と比較して、DFLは通信ボトルネックによる中央サーバ障害のリスクを軽減する。 しかし、DFLは様々な環境におけるデータ分散の不均一性や、D2Dネットワークにおけるユーザデータグラムプロトコル(UDP)の採用による送信停止やパッケージエラーなど、いくつかの課題に直面している。 これらの課題はしばしば訓練用DFLモデルの収束を低下させる。 これらの課題に対処するため、我々はDFLの完全な理論的収束解析を行い、収束境界を導出する。 本研究では,この収束境界における信頼できないリンク認識近傍の不一致という新しい量を定義することによって,トラクタブルな最適化目標を定式化し,DFLにおける表現不一致と信頼できないリンクを考慮した新しいトポロジー学習手法,ToLRDULを開発した。 特徴スキューとラベルスキュー設定の両方による集中的な実験により,提案手法の有効性が検証され,理論的な結果と一致した収束速度と試験精度が向上した。

With the proliferation of intelligent mobile devices in wireless device-to-device (D2D) networks, decentralized federated learning (DFL) has attracted significant interest. Compared to centralized federated learning (CFL), DFL mitigates the risk of central server failures due to communication bottlenecks. However, DFL faces several challenges, such as the severe heterogeneity of data distributions in diverse environments, and the transmission outages and package errors caused by the adoption of the User Datagram Protocol (UDP) in D2D networks. These challenges often degrade the convergence of training DFL models. To address these challenges, we conduct a thorough theoretical convergence analysis for DFL and derive a convergence bound. By defining a novel quantity named unreliable links-aware neighborhood discrepancy in this convergence bound, we formulate a tractable optimization objective, and develop a novel Topology Learning method considering the Representation Discrepancy and Unreliable Links in DFL, named ToLRDUL. Intensive experiments under both feature skew and label skew settings have validated the effectiveness of our proposed method, demonstrating improved convergence speed and test accuracy, consistent with our theoretical findings.
翻訳日:2023-12-22 15:54:20 公開日:2023-12-21
# 厳密に議論する: 文レベルの反論生成に向けて

Argue with Me Tersely: Towards Sentence-Level Counter-Argument Generation ( http://arxiv.org/abs/2312.13608v1 )

ライセンス: Link先を確認
Jiayu Lin, Rong Ye, Meng Han, Qi Zhang, Ruofei Lai, Xinyu Zhang, Zhao Cao, Xuanjing Huang, Zhongyu Wei(参考訳) 計算言語学の魅惑的な領域であるカウンター引数生成は、反対の見解を提供するステートメントを作成しようとしている。 多くの研究は段落レベルの世代へと進出してきたが、文レベルの対格生成は独特の制約と簡潔さに焦点を絞った挑戦を伴う。 さらに、カウンター引数の多様な性質は、n-gramベースのメトリクスのみに基づいてモデルパフォーマンスを評価する上での課題となる。 本稿では,changemyviewディベートフォーラムから手作業で注釈付きデータセットを抽出した,文レベルの対訳生成のためのargterselyベンチマークを提案する。 また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。 BERTベースの評価器Arg-Judgeを人選好データを用いて訓練した。 LlaMA, Alpaca, GPT-3など, 各種ベースラインを対象とした比較実験を行った。 その結果,提案するフレームワークと評価器の競合性を示す。 コードとデータはhttps://github.com/amazingljy1206/argterselyで入手できる。

Counter-argument generation -- a captivating area in computational linguistics -- seeks to craft statements that offer opposing views. While most research has ventured into paragraph-level generation, sentence-level counter-argument generation beckons with its unique constraints and brevity-focused challenges. Furthermore, the diverse nature of counter-arguments poses challenges for evaluating model performance solely based on n-gram-based metrics. In this paper, we present the ArgTersely benchmark for sentence-level counter-argument generation, drawing from a manually annotated dataset from the ChangeMyView debate forum. We also propose Arg-LlaMA for generating high-quality counter-argument. For better evaluation, we trained a BERT-based evaluator Arg-Judge with human preference data. We conducted comparative experiments involving various baselines such as LlaMA, Alpaca, GPT-3, and others. The results show the competitiveness of our proposed framework and evaluator in counter-argument generation tasks. Code and data are available at https://github.com/amazingljy1206/ArgTersely.
翻訳日:2023-12-22 15:53:57 公開日:2023-12-21
# オンラインビデオから3D動物の動きを学習するPonymation

Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos ( http://arxiv.org/abs/2312.13604v1 )

ライセンス: Link先を確認
Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu(参考訳) Ponymationは生の、ラベルなしのオンラインビデオから、音声による3D動物の動きの生成モデルを学ぶための新しい方法である。 既存のモーション合成手法とは異なり、我々のモデルはポーズアノテーションやパラメトリック形状モデルを必要としないため、インターネットから得られた生ビデオクリップのコレクションから純粋に学習される。 最近の研究であるMagicPonyは、1枚の画像から3D動物の形を純粋に学習し、それを2つの面に広げる。 まず、静的画像のトレーニングではなく、時間的正規化を組み込んだビデオトレーニングパイプラインで、より正確で時間的に一貫性のある再構築を実現します。 第2に,2次元再構成の損失を明示的なポーズアノテーションに頼ることなく,時空間変換器VAEを用いて,基礎となる3次元運動系列の生成モデルを学習する。 モデルでは,新しい動物インスタンスの1つの2次元像を推定すると,3次元メッシュを再構成し,学習された動き潜伏空間からサンプリングすることで,可塑性な3次元アニメーションを生成する。

We introduce Ponymation, a new method for learning a generative model of articulated 3D animal motions from raw, unlabeled online videos. Unlike existing approaches for motion synthesis, our model does not require any pose annotations or parametric shape models for training, and is learned purely from a collection of raw video clips obtained from the Internet. We build upon a recent work, MagicPony, which learns articulated 3D animal shapes purely from single image collections, and extend it on two fronts. First, instead of training on static images, we augment the framework with a video training pipeline that incorporates temporal regularizations, achieving more accurate and temporally consistent reconstructions. Second, we learn a generative model of the underlying articulated 3D motion sequences via a spatio-temporal transformer VAE, simply using 2D reconstruction losses without relying on any explicit pose annotations. At inference time, given a single 2D image of a new animal instance, our model reconstructs an articulated, textured 3D mesh, and generates plausible 3D animations by sampling from the learned motion latent space.
翻訳日:2023-12-22 15:53:42 公開日:2023-12-21
# 非IIDデータによるピアツーピア学習+合意

Peer-to-Peer Learning + Consensus with Non-IID Data ( http://arxiv.org/abs/2312.13602v1 )

ライセンス: Link先を確認
Srinivasa Pranav, Jos\'e M. F. Moura(参考訳) ピアツーピアのディープラーニングアルゴリズムにより、分散エッジデバイスは、生のトレーニングデータを交換したり、中央サーバーに依存することなく、ディープニューラルネットワークを協調的にトレーニングすることができる。 Peer-to-Peer Learning (P2PL)や他のアルゴリズムは、分散ローカル更新確率/ミニバッチのグラディエントDescent (ローカルDSGD)に基づく。 このプロセスは、IIDと非IID設定の両方で参加するデバイス間のモデルパラメータのドリフト/偏差につながる。 モデルドリフトが局所訓練およびコンセンサスフェーズ後の試験性能に有意な振動をもたらすことを観察した。 次に,性能の振動を増幅する要因を特定し,新たなアプローチであるp2plと親和性を持ち,追加の通信コストを伴わずに非iid環境におけるテスト性能の振動を弱めることを実証する。

Peer-to-peer deep learning algorithms are enabling distributed edge devices to collaboratively train deep neural networks without exchanging raw training data or relying on a central server. Peer-to-Peer Learning (P2PL) and other algorithms based on Distributed Local-Update Stochastic/mini-batch Gradient Descent (local DSGD) rely on interleaving epochs of training with distributed consensus steps. This process leads to model parameter drift/divergence amongst participating devices in both IID and non-IID settings. We observe that model drift results in significant oscillations in test performance evaluated after local training and consensus phases. We then identify factors that amplify performance oscillations and demonstrate that our novel approach, P2PL with Affinity, dampens test performance oscillations in non-IID settings without incurring any additional communication cost.
翻訳日:2023-12-22 15:53:22 公開日:2023-12-21
# 強相関型トポロジカル絶縁体におけるエッジモードの絡み合い

Entanglement of edge modes in (very) strongly correlated topological insulators ( http://arxiv.org/abs/2312.13598v1 )

ライセンス: Link先を確認
Nisa Ara, Emil Mathew, Rudranil Basu, and Indrakshi Raychowdhury(参考訳) 強相関理論に対する位相相の同定は、ベリー相のような順序パラメータを定義することは単純ではないため、非自明なタスクである。 量子情報理論は、システムの異なる絡み合い測度に関連する順序パラメータの適切な定義を持つ量子位相遷移を示す理論の位相位相位相を識別することができる。 本研究では,二層SSHモデルのエンタングルメントエントロピーについて,ハバード相互作用の有無と相互作用強度の差異について検討する。 自由理論では、エッジの絡み合いは順序パラメータとして機能し、解析計算と数値計算(DMRG)の研究によって支持される。 このモデルでは, エッジモードで計算された場合, 次数パラメータとして機能し, 対称性を計算し, エンタングルメントの等分性を示す。 DMRG計算は自由理論を超越することを許すので、同じモデルに対するオンサイトハバード相互作用の存在下でのエッジモードの絡み合い構造について検討する。 相互作用が切り替わるにつれて、エッジ絡みの突然の低減が得られる。 この説明は、相互作用の存在と不在における退化部分空間の大きさの変化に関係している。 また, 相互作用強度が極端に強いときの絡み合いのサインについて検討し, エッジ絡み合いが保護されていることを示す。 この極限において、エネルギー固有状態は本質的にテンソル積状態となり、ゼロエンタングルメントを意味する。 しかし、残差エントロピーはエッジモードの絡み合いによる非自明な位相相に残っている。

Identifying topological phases for a strongly correlated theory remains a non-trivial task, as defining order parameters, such as Berry phases, is not straightforward. Quantum information theory is capable of identifying topological phases for a theory that exhibits quantum phase transition with a suitable definition of order parameters that are related to different entanglement measures for the system. In this work, we study entanglement entropy for a bi-layer SSH model, both in the presence and absence of Hubbard interaction and at varying interaction strengths. For the free theory, edge entanglement acts as an order parameter, which is supported by analytic calculations and numerical (DMRG) studies. We calculate the symmetry-resolved entanglement and demonstrate the equipartition of entanglement for this model which itself acts as an order parameter when calculated for the edge modes. As the DMRG calculation allows one to go beyond the free theory, we study the entanglement structure of the edge modes in the presence of on-site Hubbard interaction for the same model. A sudden reduction of edge entanglement is obtained as interaction is switched on. The explanation for this lies in the change in the size of the degenerate subspaces in the presence and absence of interaction. We also study the signature of entanglement when the interaction strength becomes extremely strong and demonstrate that the edge entanglement remains protected. In this limit, the energy eigenstates essentially become a tensor product state, implying zero entanglement. However, a remnant entropy survives in the non-trivial topological phase which is exactly due to the entanglement of the edge modes.
翻訳日:2023-12-22 15:53:05 公開日:2023-12-21
# トロコイド探索最適化

Trochoid Search Optimization ( http://arxiv.org/abs/2312.13597v1 )

ライセンス: Link先を確認
Abdesslem Layeb(参考訳) 本稿では,トロコイド曲線の数学的特性を利用した新しいメタヒューリスティックであるトロコイド探索最適化アルゴリズム(TSO)を提案する。 TSOアルゴリズムは、トロコイド固有の同時翻訳運動と回転運動のユニークな組み合わせを採用し、爆発的な探索能力と搾取的な探索能力の間の洗練された平衡を育む。 特にtsoは、グローバル検索とローカル検索の2つの重要なフェーズで構成されており、その効率と有効性に寄与している。 実験的検証は、tsoアルゴリズムが様々なベンチマーク関数にまたがる顕著な性能を示し、検索空間における探索と搾取のバランスにおけるその競争力を示す。 TSOの際立った特徴は単純さにある。ユーザ定義パラメータの最小限の要件が特徴であり、アクセス可能で強力な最適化ツールである。

This paper introduces the Trochoid Search Optimization Algorithm (TSO), a novel metaheuristic leveraging the mathematical properties of trochoid curves. The TSO algorithm employs a unique combination of simultaneous translational and rotational motions inherent in trochoids, fostering a refined equilibrium between explorative and exploitative search capabilities. Notably, TSO consists of two pivotal phases global and local search that collectively contribute to its efficiency and efficacy. Experimental validation demonstrates the TSO algorithm's remarkable performance across various benchmark functions, showcasing its competitive edge in balancing exploration and exploitation within the search space. A distinguishing feature of TSO lies in its simplicity, marked by a minimal requirement for user-defined parameters, making it an accessible yet powerful optimization tool.
翻訳日:2023-12-22 15:52:39 公開日:2023-12-21
# 知識グラフにおける帰納的関係予測のためのアンカーパス

Anchoring Path for Inductive Relation Prediction in Knowledge Graphs ( http://arxiv.org/abs/2312.13596v1 )

ライセンス: Link先を確認
Zhixiang Su, Di Wang, Chunyan Miao and Lizhen Cui(参考訳) 現実世界の知識グラフ(KG)で広く普及しているエンティティ間の関係を表す欠落エッジを正確に予測することを目的として、関係予測はKGの包括性と有用性を高める上で重要な役割を果たす。 最近の研究は、誘導性と説明可能な性質による経路に基づく手法に焦点を当てている。 しかし、多くの推論パスがkg内で閉路(cps)を形成しない場合、これらの手法は大きな課題に直面している。 この課題に対処するために,CP の信頼性を緩和する Anchoring Paths (APs) を導入して Anchoring Path Sentence Transformer (APST) を提案する。 具体的には、エンティティ記述を充実させる検索ベース記述検索手法と、APの合理性を評価するための評価メカニズムを開発する。 APSTはAPとCPの両方を統一されたSentence Transformerアーキテクチャの入力とし、包括的な予測と高品質な説明を可能にする。 我々は3つの公開データセット上でAPSTを評価し、36のトランスダクティブ、インダクティブ、および数ショットの実験的設定のうち30の最先端(SOTA)性能を達成する。

Aiming to accurately predict missing edges representing relations between entities, which are pervasive in real-world Knowledge Graphs (KGs), relation prediction plays a critical role in enhancing the comprehensiveness and utility of KGs. Recent research focuses on path-based methods due to their inductive and explainable properties. However, these methods face a great challenge when lots of reasoning paths do not form Closed Paths (CPs) in the KG. To address this challenge, we propose Anchoring Path Sentence Transformer (APST) by introducing Anchoring Paths (APs) to alleviate the reliance of CPs. Specifically, we develop a search-based description retrieval method to enrich entity descriptions and an assessment mechanism to evaluate the rationality of APs. APST takes both APs and CPs as the inputs of a unified Sentence Transformer architecture, enabling comprehensive predictions and high-quality explanations. We evaluate APST on three public datasets and achieve state-of-the-art (SOTA) performance in 30 of 36 transductive, inductive, and few-shot experimental settings.
翻訳日:2023-12-22 15:52:25 公開日:2023-12-21
# VQAにおけるマルチレベルコントラスト学習を用いたより忠実な自然言語記述に向けて

Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA ( http://arxiv.org/abs/2312.13594v1 )

ライセンス: Link先を確認
Chengen Lai, Shengli Song, Shiqi Meng, Jingyang Li, Sitong Yan, Guangneng Hu(参考訳) 視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。 既存のポストホック法は、妥当な説明を得る上で大きな進歩を遂げた。 しかし、このようなポストホックな説明は、必ずしも人間の論理的推論と一致していない。 1) 誘惑的不満足性, 生成された説明は, 論理的に解答に導かない。 2 虚偽の矛盾は、画像の事実を考慮せずに、その反実的な回答の説明を偽造すること。 3) 意味摂動に敏感なモデルでは, 小さな摂動による意味的変化を認識できない。 これらの問題は、モデルによって生成される説明の忠実さを減少させる。 以上の課題に対処するために,VQA における意味レベル,画像レベル,事例レベルの実例および実例レベルの実例サンプルを用いた,自己教師付き \textbf{M}ulti-level \textbf{C}ontrastive \textbf{L}earning に基づく自然言語 \textbf{E}xplanation model (MCLE) を提案する。 MCLEは識別的特徴を抽出し、視覚的な質問や回答による説明から特徴空間を整列させ、より一貫した説明を生成する。 2つのVQA-NLEベンチマークにおいて,本手法の有効性を示すため,広範な実験,アブレーション解析,ケーススタディを行った。

Natural language explanation in visual question answer (VQA-NLE) aims to explain the decision-making process of models by generating natural language sentences to increase users' trust in the black-box systems. Existing post-hoc methods have achieved significant progress in obtaining a plausible explanation. However, such post-hoc explanations are not always aligned with human logical inference, suffering from the issues on: 1) Deductive unsatisfiability, the generated explanations do not logically lead to the answer; 2) Factual inconsistency, the model falsifies its counterfactual explanation for answers without considering the facts in images; and 3) Semantic perturbation insensitivity, the model can not recognize the semantic changes caused by small perturbations. These problems reduce the faithfulness of explanations generated by models. To address the above issues, we propose a novel self-supervised \textbf{M}ulti-level \textbf{C}ontrastive \textbf{L}earning based natural language \textbf{E}xplanation model (MCLE) for VQA with semantic-level, image-level, and instance-level factual and counterfactual samples. MCLE extracts discriminative features and aligns the feature spaces from explanations with visual question and answer to generate more consistent explanations. We conduct extensive experiments, ablation analysis, and case study to demonstrate the effectiveness of our method on two VQA-NLE benchmarks.
翻訳日:2023-12-22 15:52:04 公開日:2023-12-21
# 非ガウス的アドバンテージをもつ連続変数テレクロッシングのための非古典的資源

Nonclassical resource for continuous variable telecloning with non-Gaussian advantage ( http://arxiv.org/abs/2312.13586v1 )

ライセンス: Link先を確認
Sudipta Das, Rivu Gupta, Himadri Shekhar Dhar, Aditi Sen De(参考訳) テレポーテーションと近似クローニングの概念を利用して、単一の送信者から共有絡み合った状態を介して複数の受信者に量子状態を分散する。 ガウシアンと非ガウシアンの共有資源を用いたテレクローニングの最適特性について検討した。 共有非ガウシアン状態がガウシアン2モードの圧縮真空状態の両モードから光子を減算することによって生成される場合、そのガウシアン状態と比較して高いテレクローニング性が得られることを示す。 この利点を定量化するために,ガウス的および非ガウス的資源状態の両方においてクローンの忠実度を推定できる二次的非古典性測度を導入する。 さらに,多モード交絡状態を用いた連続変数の非対称テレクロニングのための線形光学的セットアップを提案する。

The telecloning protocol distributes quantum states from a single sender to multiple receivers via a shared entangled state by exploiting the notions of teleportation and approximate cloning. We investigate the optimal telecloning fidelities obtained using both Gaussian and non-Gaussian shared resources. When the shared non-Gaussian state is created by subtracting photons from both the modes of the Gaussian two-mode squeezed vacuum state, we demonstrate that higher telecloning fidelities can be achieved in comparison with its Gaussian counterpart. To quantify this advantage, we introduce a quadrature-based nonclassicality measure, which is capable of estimating the fidelity of the clones, both with Gaussian and non-Gaussian resource states. We further provide a linear optical setup for asymmetric telecloning of continuous variables using a multimode entangled state.
翻訳日:2023-12-22 15:51:34 公開日:2023-12-21
# 大規模言語モデルによる音声翻訳:産業的実践

Speech Translation with Large Language Models: An Industrial Practice ( http://arxiv.org/abs/2312.13585v1 )

ライセンス: Link先を確認
Zhichao Huang, Rong Ye, Tom Ko, Qianqian Dong, Shanbo Cheng, Mingxuan Wang, Hang Li(参考訳) 本稿では,様々なタスクにまたがる大規模言語モデル(llm)の成功を踏まえ,事前学習されたllmに基づいて構築された,新規かつ効果的な音声翻訳モデルであるllm-stを提案する。 大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは長い音声入力からでも正確なタイムスタンプと翻訳を生成できる。 さらに,本研究の結果から,LLM-STの文脈において,CoT(Chain-of-Thought)の促進効果が有効であることが示唆された。 英語と中国語のデータセットに対する厳密な実験を通じて、LLM-STの例外的な性能を示し、音声翻訳の分野における新しいベンチマークを確立する。 デモ: https://speechtranslation.github.io/llm-st/

Given the great success of large language models (LLMs) across various tasks, in this paper, we introduce LLM-ST, a novel and effective speech translation model constructed upon a pre-trained LLM. By integrating the large language model (LLM) with a speech encoder and employing multi-task instruction tuning, LLM-ST can produce accurate timestamped transcriptions and translations, even from long audio inputs. Furthermore, our findings indicate that the implementation of Chain-of-Thought (CoT) prompting can yield advantages in the context of LLM-ST. Through rigorous experimentation on English and Chinese datasets, we showcase the exceptional performance of LLM-ST, establishing a new benchmark in the field of speech translation. Demo: https://speechtranslation.github.io/llm-st/.
翻訳日:2023-12-22 15:51:20 公開日:2023-12-21
# 波物理インフォームドマトリックス分解

Wave Physics-informed Matrix Factorizations ( http://arxiv.org/abs/2312.13584v1 )

ライセンス: Link先を確認
Harsha Vardhan Tetali, Joel B. Harley, Benjamin D. Haeffele(参考訳) 深層学習を具体例として含む表現学習手法が最近成功を収めたことにより、既知の物理的制約を学習表現に組み込む手法の開発にかなりの関心が寄せられている。 一例として、物理メディアを伝搬する信号(光学、音響、流体力学など)を含む多くの応用において、信号のダイナミクスは波動方程式によって課される制約を満たす必要があることが知られている。 本稿では,これらの信号を成分の和に分解する行列分解法を提案し,各成分を規則化し,波動方程式の制約を満たすようにした。 提案する定式化は非凸であるが,大域的最適性に効率的に解けることを示す。 この一連の研究を通じて,信号処理におけるウェーブインフォームド学習とフィルタリング理論との理論的関係を確立する。 さらに,本研究は,構造診断や予後診断によく発生する形態解析問題に対する応用を実証する。

With the recent success of representation learning methods, which includes deep learning as a special case, there has been considerable interest in developing techniques that incorporate known physical constraints into the learned representation. As one example, in many applications that involve a signal propagating through physical media (e.g., optics, acoustics, fluid dynamics, etc), it is known that the dynamics of the signal must satisfy constraints imposed by the wave equation. Here we propose a matrix factorization technique that decomposes such signals into a sum of components, where each component is regularized to ensure that it {nearly} satisfies wave equation constraints. Although our proposed formulation is non-convex, we prove that our model can be efficiently solved to global optimality. Through this line of work we establish theoretical connections between wave-informed learning and filtering theory in signal processing. We further demonstrate the application of this work on modal analysis problems commonly arising in structural diagnostics and prognostics.
翻訳日:2023-12-22 15:51:05 公開日:2023-12-21
# グラフ生成パターン保存による微調整グラフニューラルネットワーク

Fine-tuning Graph Neural Networks by Preserving Graph Generative Patterns ( http://arxiv.org/abs/2312.13583v1 )

ライセンス: Link先を確認
Yifei Sun, Qi Zhu, Yang Yang, Chunping Wang, Tianyu Fan, Jiajun Zhu, Lei Chen(参考訳) 近年,事前学習および微調整型グラフニューラルネットワークのパラダイムが広く研究され,幅広いグラフマイニングタスクに応用されている。 その成功は一般的に、事前トレーニングとダウンストリームデータセットの構造的一貫性に起因するが、現実のシナリオではそうではない。 既存の研究では、事前学習グラフと下流グラフの間の構造的ばらつきが、バニラ微調整戦略を使用する際の転送可能性を大幅に制限していることが示されている。 この分散は、事前学習グラフにモデルオーバーフィッティングをもたらし、下流グラフの構造特性を捉えるのに困難を引き起こす。 本稿では,事前学習グラフと下流グラフ間の生成パターンの相違として構造分岐の根本的な原因を同定する。 さらに、下流グラフの生成パターンを保存するためにG-Tuningを提案する。 下流グラフ G が与えられたとき、中心となる考え方は、G の生成パターンを再構成できるように、事前訓練された GNN をチューニングすることである。 この課題を克服するために、任意のグラトンに対して、グラトン基底と呼ばれる別のグラトン集合の存在を立証する理論的解析を提供する。 この理論的な発見は,提案したモデルの基礎を形成し,グラフン基底とその関連係数を効果的に学習することを可能にする。 既存のアルゴリズムと比較して、G-Tuningはドメイン内およびドメイン外移行学習実験において平均0.5%と2.6%の改善を示している。

Recently, the paradigm of pre-training and fine-tuning graph neural networks has been intensively studied and applied in a wide range of graph mining tasks. Its success is generally attributed to the structural consistency between pre-training and downstream datasets, which, however, does not hold in many real-world scenarios. Existing works have shown that the structural divergence between pre-training and downstream graphs significantly limits the transferability when using the vanilla fine-tuning strategy. This divergence leads to model overfitting on pre-training graphs and causes difficulties in capturing the structural properties of the downstream graphs. In this paper, we identify the fundamental cause of structural divergence as the discrepancy of generative patterns between the pre-training and downstream graphs. Furthermore, we propose G-Tuning to preserve the generative patterns of downstream graphs. Given a downstream graph G, the core idea is to tune the pre-trained GNN so that it can reconstruct the generative patterns of G, the graphon W. However, the exact reconstruction of a graphon is known to be computationally expensive. To overcome this challenge, we provide a theoretical analysis that establishes the existence of a set of alternative graphons called graphon bases for any given graphon. By utilizing a linear combination of these graphon bases, we can efficiently approximate W. This theoretical finding forms the basis of our proposed model, as it enables effective learning of the graphon bases and their associated coefficients. Compared with existing algorithms, G-Tuning demonstrates an average improvement of 0.5% and 2.6% on in-domain and out-of-domain transfer learning experiments, respectively.
翻訳日:2023-12-22 15:50:50 公開日:2023-12-21
# DREAM-Talk: 拡散に基づく表情生成のためのリアル感情音声駆動方式

DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation ( http://arxiv.org/abs/2312.13578v1 )

ライセンス: Link先を確認
Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng(参考訳) 一つの肖像画画像から感情的な話し顔を生成することは依然として大きな課題である。 表情的感情的発話と正確なリップシンクの同時達成は特に困難であり、表現性はしばしばリップシンクの正確さのために妥協される。 多くの先行研究で広く採用されているように、LSTMネットワークは感情表現の微妙さやバリエーションを捉えないことが多い。 これらの課題に対処するために,多彩な表現と正確なリップシンクを同時に生成するための2段階拡散に基づく音声駆動フレームワークであるDREAM-Talkを紹介する。 最初の段階では,音声および参照感情スタイルに応じて,多様な動的感情表現と頭部ポーズを生成する新しい拡散モジュールであるEmoDiffを提案する。 唇の動きと音声の強い相関関係を考えると、音声の特徴と感情のスタイルを用いて、リップ同期精度を高めてダイナミクスを洗練する。 この目的のために,プロキシ3Dアバターから任意のポートレートに表現と唇の動きを転送するビデオ・ツー・ビデオレンダリングモジュールをデプロイした。 定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質において最先端の手法より優れている。

The generation of emotional talking faces from a single portrait image remains a significant challenge. The simultaneous achievement of expressive emotional talking and accurate lip-sync is particularly difficult, as expressiveness is often compromised for the accuracy of lip-sync. As widely adopted by many prior works, the LSTM network often fails to capture the subtleties and variations of emotional expressions. To address these challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven framework, tailored for generating diverse expressions and accurate lip-sync concurrently. In the first stage, we propose EmoDiff, a novel diffusion module that generates diverse highly dynamic emotional expressions and head poses in accordance with the audio and the referenced emotion style. Given the strong correlation between lip motion and audio, we then refine the dynamics with enhanced lip-sync accuracy using audio features and emotion style. To this end, we deploy a video-to-video rendering module to transfer the expressions and lip motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of expressiveness, lip-sync accuracy and perceptual quality.
翻訳日:2023-12-22 15:50:25 公開日:2023-12-21
# ARBiBench: バイナリニューラルネットワークの逆ロバスト性のベンチマーク

ARBiBench: Benchmarking Adversarial Robustness of Binarized Neural Networks ( http://arxiv.org/abs/2312.13575v1 )

ライセンス: Link先を確認
Peng Zhao and Jiehua Zhang and Bowen Peng and Longguang Wang and YingMei Wei and Yu Liu and Li Liu(参考訳) ネットワークビナライゼーションは、計算コストの低いリソース制約されたデバイスに展開する大きな可能性を示す。 重要にもかかわらず、バイナライズニューラルネットワーク(BNN)のセキュリティについてはほとんど調査されていない。 本稿では,CIFAR-10とImageNetの対向摂動に対するBNNの堅牢性を評価するための総合ベンチマークARBiBenchを提案する。 まず,白箱攻撃と黒箱攻撃に対する7つの影響力のあるBNNのロバスト性を評価する。 その結果は 1) BNNの敵対的堅牢性は, ホワイトボックス攻撃下での2つのデータセットに対して, 全く逆のパフォーマンスを示す。 2) BNN はブラックボックス攻撃において, より優れた敵の堅牢性を示す。 3) 異なるBNNは, 強靭性性能に一定の類似性を示す。 次に,これらの知見に基づいてbnnの対向的ロバスト性を分析する実験を行う。 本研究は,BNNの堅牢性を向上し,現実のシナリオにおけるその応用を推し進めるための今後の研究に寄与する。

Network binarization exhibits great potential for deployment on resource-constrained devices due to its low computational cost. Despite the critical importance, the security of binarized neural networks (BNNs) is rarely investigated. In this paper, we present ARBiBench, a comprehensive benchmark to evaluate the robustness of BNNs against adversarial perturbations on CIFAR-10 and ImageNet. We first evaluate the robustness of seven influential BNNs on various white-box and black-box attacks. The results reveal that 1) The adversarial robustness of BNNs exhibits a completely opposite performance on the two datasets under white-box attacks. 2) BNNs consistently exhibit better adversarial robustness under black-box attacks. 3) Different BNNs exhibit certain similarities in their robustness performance. Then, we conduct experiments to analyze the adversarial robustness of BNNs based on these insights. Our research contributes to inspiring future research on enhancing the robustness of BNNs and advancing their application in real-world scenarios.
翻訳日:2023-12-22 15:50:04 公開日:2023-12-21
# フリーエディター:ゼロショットテキスト駆動3dシーン編集

Free-Editor: Zero-shot Text-driven 3D Scene Editing ( http://arxiv.org/abs/2312.13663v1 )

ライセンス: Link先を確認
Nazmul Karim, Umar Khalid, Hasan Iqbal, Jing Hua, Chen Chen(参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは、画像やビデオ生成や編集など、多目的で使いやすい性質のために最近人気を集めている。 しかしながら、大規模なデータセットがないため、3dシーン編集に特化した拡散モデルのトレーニングは簡単ではない。 これまで、3dシーンの編集には、様々な3d編集シーンに対応するためにモデルを再訓練するか、特別な編集タイプごとに設計固有の方法が必要だった。 さらに、シーン編集を容易にするために、同じシーンから複数の同期された画像を必要とする。 T2Iモデルの現在の制限のため、複数の画像に一貫した編集効果、すなわち編集における複数ビューの不整合を適用することは非常に困難である。 これにより、これらの画像を使用する場合、所望の3Dシーン編集性能が損なわれる。 本研究では,新たな3Dシーン編集技術であるFree-Editorを提案する。 提案手法は,SOTA方式における複数ビュースタイルの不整合問題を,単一ビュー編集方式の助けを借りて回避する。 具体的には、特定の3Dシーンの編集は、単一のビューを変更するだけで行うことができることを示す。 そこで本稿では,自己意図と相互意図をそれぞれ利用して,ビュー内一貫性とビュー間転送を実現する編集変換器を提案する。 モデルを再トレーニングし、シーン内のすべてのビューを編集する必要がなくなったため、編集時間とメモリリソースは大幅に削減され、例えば、ランタイムが$\sim \textbf{20} \times$SOTAよりも高速になる。 我々は,幅広いベンチマークデータセットについて広範な実験を行い,提案手法を用いて多様な編集機能を実現する。

Text-to-Image (T2I) diffusion models have gained popularity recently due to their multipurpose and easy-to-use nature, e.g. image and video generation as well as editing. However, training a diffusion model specifically for 3D scene editing is not straightforward due to the lack of large-scale datasets. To date, editing 3D scenes requires either re-training the model to adapt to various 3D edited scenes or design-specific methods for each special editing type. Furthermore, state-of-the-art (SOTA) methods require multiple synchronized edited images from the same scene to facilitate the scene editing. Due to the current limitations of T2I models, it is very challenging to apply consistent editing effects to multiple images, i.e. multi-view inconsistency in editing. This in turn compromises the desired 3D scene editing performance if these images are used. In our work, we propose a novel training-free 3D scene editing technique, Free-Editor, which allows users to edit 3D scenes without further re-training the model during test time. Our proposed method successfully avoids the multi-view style inconsistency issue in SOTA methods with the help of a "single-view editing" scheme. Specifically, we show that editing a particular 3D scene can be performed by only modifying a single view. To this end, we introduce an Edit Transformer that enforces intra-view consistency and inter-view style transfer by utilizing self- and cross-attention, respectively. Since it is no longer required to re-train the model and edit every view in a scene, the editing time, as well as memory resources, are reduced significantly, e.g., the runtime being $\sim \textbf{20} \times$ faster than SOTA. We have conducted extensive experiments on a wide range of benchmark datasets and achieve diverse editing capabilities with our proposed technique.
翻訳日:2023-12-22 15:43:57 公開日:2023-12-21
# 人間-ロボットインタラクションにおける属性ベースオブジェクト参照のための合成ゼロショット学習

Compositional Zero-Shot Learning for Attribute-Based Object Reference in Human-Robot Interaction ( http://arxiv.org/abs/2312.13655v1 )

ライセンス: Link先を確認
Peng Gao (1), Ahmed Jaafar (1), Brian Reily (2), Christopher Reardon (3), Hao Zhang (1) ((1) University of Massachusetts Amherst, (2) DEVCOM Army Research Laboratory, (3) University of Denver)(参考訳) 言語対応ロボットは、人間とロボットの自然なインタラクションと、様々な現実世界のアプリケーションでのコラボレーションを可能にするために、ここ数年にわたって広く研究されてきた。 言語対応ロボットは、自然言語から抽出された一連の参照属性を使用して、視覚知覚から特定の物体を識別するために参照表現を理解できなければならない。 しかし、オブジェクトの視覚的な観察は、参照されたときに利用できなくなり、オブジェクトや属性の数は、オープンな世界でも非有界である可能性がある。 この課題に対処するために,属性のリストを用いてオープンワールドにおける参照表現理解を行う属性ベース合成ゼロショット学習手法を実装した。 MIT-States と Clothing 16K を含む2つのデータセットに対するアプローチを評価する。 予備実験の結果,ロボットは人間の指示によって参照される物体を正確に識別できることがわかった。

Language-enabled robots have been widely studied over the past years to enable natural human-robot interaction and teaming in various real-world applications. Language-enabled robots must be able to comprehend referring expressions to identify a particular object from visual perception using a set of referring attributes extracted from natural language. However, visual observations of an object may not be available when it is referred to, and the number of objects and attributes may also be unbounded in open worlds. To address the challenges, we implement an attribute-based compositional zero-shot learning method that uses a list of attributes to perform referring expression comprehension in open worlds. We evaluate the approach on two datasets including the MIT-States and the Clothing 16K. The preliminary experimental results show that our implemented approach allows a robot to correctly identify the objects referred to by human commands.
翻訳日:2023-12-22 15:43:02 公開日:2023-12-21
# 水素分子とリチウム原子の超低温衝突における超微粒子とゼーマン相互作用

Hyperfine and Zeeman interactions in ultracold collisions of molecular hydrogen with atomic lithium ( http://arxiv.org/abs/2312.13652v1 )

ライセンス: Link先を確認
Hubert J\'o\'zwiak, Timur V. Tscherbul, Piotr Wcis{\l}o(参考訳) 本稿では, 高温Li-H$_{2}$衝突に対する超微粒子相互作用とゼーマン相互作用の影響を, 直近のabイニシアチブポテンシャルエネルギー表面を用いて, 外部磁場の存在下での厳密な量子散乱法を提案する。 弾性-非弾性衝突の比は、衝突エネルギーが1.5 k未満の場合には100を超え、非弾性衝突のほとんどの非弾性衝突は核スピンの空間固定射影を維持できることを実証する。 h$_{2}$ の核スピンと li の電子スピンの間の異方的超微細構造相互作用は、リチウム中の電子スピン緩和と核スピン-電子スピン交換の2つの過程を媒介するので、超低温状態における非弾性散乱に大きな影響を与えることが示されている。 弾性衝突の優位性とH$_{2}$を維持する非弾性衝突の正当性を考えると,原子リチウムによる水素分子の交感冷却の可能性が開かれ,超低温衝突の今後の探索とH$_{2}$分子の高精度分光法が確立される。

We present a rigorous quantum scattering study of the effects of hyperfine and Zeeman interactions on cold Li - H$_{2}$ collisions in the presence of an external magnetic field using a recent ab initio potential energy surface. We find that the low-field-seeking states of H$_{2}$ predominantly undergo elastic collisions: the ratio of elastic-to-inelastic collisions exceeds 100 for collision energies below 1.5 K. Furthermore, we demonstrate that most inelastic collisions conserve the space-fixed projection of the nuclear spin. We show that the anisotropic hyperfine interaction between the nuclear spin of H$_{2}$ and the electron spin of Li can have a significant effect on inelastic scattering in the ultracold regime, as it mediates two processes: the electron spin relaxation in lithium, and the nuclear spin - electron spin exchange. Given the predominance of elastic collisions and the propensity of inelastic collisions to retain H$_{2}$ in its low-field-seeking states, our results open up the possibility of sympathetic cooling of molecular hydrogen by atomic lithium, paving the way for future exploration of ultracold collisions and high-precision spectroscopy of H$_{2}$ molecules.
翻訳日:2023-12-22 15:42:46 公開日:2023-12-21
# 分割特徴符号化による分散量子ニューラルネットワーク

Distributed Quantum Neural Networks via Partitioned Features Encoding ( http://arxiv.org/abs/2312.13650v1 )

ライセンス: Link先を確認
Yoshiaki Kawase(参考訳) 量子ニューラルネットワークは、短期量子計算における有望な応用として期待されているが、最適化中の勾配の消失や、限られた数の量子ビットと浅い回路による表現可能性の制限といった課題に直面している。 これらの課題を軽減するために、分散量子ニューラルネットワークは、複数の小さな回路で大きな回路を近似することで予測を行う。 しかし、大きな回路の近似には指数関数的な回路評価が必要となる。 ここでは、分割された特徴を複数の小さな量子ニューラルネットワークに分散し、予測値のアンサンブルを用いて予測を生成することを提案する。 分散手法を検証するために,手書き桁データセットのマルチクラス分類を示す。 特にMNISTデータセットでは,96%以上の精度で10種類の分類に成功した。 提案手法は,大規模データセットの高精度な予測だけでなく,単一量子ニューラルネットワークと比較して,各量子ニューラルネットワークのハードウェア要件も低減した。 本研究では,分散量子ニューラルネットワークを,近距離量子デバイスと互換性のある実用的な量子機械学習アルゴリズムの有望な方向性として強調する。 このアプローチが量子機械学習アプリケーション探索に有用であることを願っています。

Quantum neural networks are expected to be a promising application in near-term quantum computation, but face challenges such as vanishing gradients during optimization and limited expressibility by a limited number of qubits and shallow circuits. To mitigate these challenges, distributed quantum neural networks have been proposed to make a prediction by approximating a large circuit with multiple small circuits. However, the approximation of a large circuit requires an exponential number of small circuit evaluations. Here, we instead propose to distribute partitioned features over multiple small quantum neural networks and use the ensemble of their expectation values to generate predictions. To verify our distributed approach, we demonstrate multi-class classifications of handwritten digit datasets. Especially for the MNIST dataset, we succeeded in ten class classifications of the dataset with exceeding 96% accuracy. Our proposed method not only achieved highly accurate predictions for a large dataset but also reduced the hardware requirements for each quantum neural network compared to a single quantum neural network. Our results highlight distributed quantum neural networks as a promising direction for practical quantum machine learning algorithms compatible with near-term quantum devices. We hope that our approach is useful for exploring quantum machine learning applications.
翻訳日:2023-12-22 15:42:27 公開日:2023-12-21
# 運転シーンに対する弱監督型セマンティックセグメンテーション

Weakly Supervised Semantic Segmentation for Driving Scenes ( http://arxiv.org/abs/2312.13646v1 )

ライセンス: Link先を確認
Dongseob Kim, Seungho Lee, Junsuk Choe, Hyunjung Shim(参考訳) 画像レベルラベルを用いたweakly supervised semantic segmentation(wsss)における最先端技術は、都市景観などの運転シーンデータセットにおいて深刻な性能低下を示す。 この課題に対処するため、シーンデータセットの駆動に適した新しいWSSSフレームワークを開発しました。 データセットの特徴を広範囲に分析し,提案するベースラインとしてコントラスト言語画像事前学習(CLIP)を用いて擬似マスクを得る。 しかし、CLIPは、(1)CLIPの擬似マスクが小さなオブジェクトクラスを表現していないこと、(2)これらのマスクが顕著なノイズを含んでいること、の2つの主要な課題を紹介している。 それぞれの問題に対する解決策を次のように提案する。 1)モデルトレーニング中に小規模パッチをシームレスに組み込んだグローバルローカルビュートレーニングを考案し,モデルが運転シーン(例えば交通信号)において小型で重要なオブジェクトを扱う能力を高める。 2)CLIPマスクとセグメンテーション予測の整合性を評価することによって,信頼性と雑音の領域を識別する新しい手法であるCARBを導入する。 適応的な損失重み付けによってノイズの多いピクセルよりも信頼性の高いピクセルを優先する。 特に,提案手法はCityscapesテストデータセット上で51.8\% mIoUを達成し,シーンデータセットを駆動するWSSSベースラインとしての可能性を示した。 camvidとwilddash2の実験結果は、小規模のデータセットや視覚的に困難な状況でも、さまざまなデータセットにまたがる手法の有効性を示しています。 コードはhttps://github.com/k0u-id/CARBで公開されている。

State-of-the-art techniques in weakly-supervised semantic segmentation (WSSS) using image-level labels exhibit severe performance degradation on driving scene datasets such as Cityscapes. To address this challenge, we develop a new WSSS framework tailored to driving scene datasets. Based on extensive analysis of dataset characteristics, we employ Contrastive Language-Image Pre-training (CLIP) as our baseline to obtain pseudo-masks. However, CLIP introduces two key challenges: (1) pseudo-masks from CLIP lack in representing small object classes, and (2) these masks contain notable noise. We propose solutions for each issue as follows. (1) We devise Global-Local View Training that seamlessly incorporates small-scale patches during model training, thereby enhancing the model's capability to handle small-sized yet critical objects in driving scenes (e.g., traffic light). (2) We introduce Consistency-Aware Region Balancing (CARB), a novel technique that discerns reliable and noisy regions through evaluating the consistency between CLIP masks and segmentation predictions. It prioritizes reliable pixels over noisy pixels via adaptive loss weighting. Notably, the proposed method achieves 51.8\% mIoU on the Cityscapes test dataset, showcasing its potential as a strong WSSS baseline on driving scene datasets. Experimental results on CamVid and WildDash2 demonstrate the effectiveness of our method across diverse datasets, even with small-scale datasets or visually challenging conditions. The code is available at https://github.com/k0u-id/CARB.
翻訳日:2023-12-22 15:42:10 公開日:2023-12-21
# SPGroup3D:屋内3次元物体検出のためのスーパーポイントグループネットワーク

SPGroup3D: Superpoint Grouping Network for Indoor 3D Object Detection ( http://arxiv.org/abs/2312.13641v1 )

ライセンス: Link先を確認
Yun Zhu, Le Hui, Yaqi Shen, Jin Xie(参考訳) 屋内シーンにおける現在の3Dオブジェクト検出手法は,主に投票・グループ化戦略に従って提案を行う。 しかし、ほとんどのメソッドは、ボールクエリのようなインスタンスに依存しないグループ化を使い、一貫性のないセマンティック情報と、提案の不正確な回帰をもたらす。 そこで本稿では,屋内アンカーフリーな1段階3d物体検出のためのスーパーポイントグループネットワークを提案する。 具体的には、まず、生の点群をスーパーポイント、意味的一貫性と空間的類似性を持つ領域に分割する教師なしの方法を採用する。 次に,超点と物体中心間の空間的関係を制約することにより,アンカーフリー検出における中心性に適応する幾何認識型投票モジュールを設計する。 次に,提案中の一貫性のある表現を探索するために,スーパーポイントに基づくグループ化モジュールを提案する。 このモジュールは、隣接するスーパーポイント間の特徴相互作用を学習するスーパーポイントアテンション層と、スーパーポイントレベル情報をボクセルレベルに伝播するスーパーポイント-ボクセル融合層とを含む。 最後に,実効的な多重マッチングを用いて,学習中のスーパーポイントに基づく提案の動的受容領域を活用した。 実験により,ScanNet V2, SUN RGB-D, S3DISデータセットの室内1段3次元物体検出における最先端性能を実証した。 ソースコードはhttps://github.com/zyrant/spgroup3d。

Current 3D object detection methods for indoor scenes mainly follow the voting-and-grouping strategy to generate proposals. However, most methods utilize instance-agnostic groupings, such as ball query, leading to inconsistent semantic information and inaccurate regression of the proposals. To this end, we propose a novel superpoint grouping network for indoor anchor-free one-stage 3D object detection. Specifically, we first adopt an unsupervised manner to partition raw point clouds into superpoints, areas with semantic consistency and spatial similarity. Then, we design a geometry-aware voting module that adapts to the centerness in anchor-free detection by constraining the spatial relationship between superpoints and object centers. Next, we present a superpoint-based grouping module to explore the consistent representation within proposals. This module includes a superpoint attention layer to learn feature interaction between neighboring superpoints, and a superpoint-voxel fusion layer to propagate the superpoint-level information to the voxel level. Finally, we employ effective multiple matching to capitalize on the dynamic receptive fields of proposals based on superpoints during the training. Experimental results demonstrate our method achieves state-of-the-art performance on ScanNet V2, SUN RGB-D, and S3DIS datasets in the indoor one-stage 3D object detection. Source code is available at https://github.com/zyrant/SPGroup3D.
翻訳日:2023-12-22 15:41:41 公開日:2023-12-21
# オペレーション研究における量子最適化アルゴリズム:方法,応用,含意

Quantum Optimization Algorithms in Operations Research: Methods, Applications, and Implications ( http://arxiv.org/abs/2312.13636v1 )

ライセンス: Link先を確認
Florian Klug(参考訳) 量子最適化アルゴリズム(QOAs)は、意思決定における最適化手法の適用を根本的に変える可能性がある。 ある種の最適化問題に対して、QOAは現在の最先端のソリューションよりも実行時のパフォーマンス上の大きな利点をもたらすと広く信じられている。 工業化段階に入る量子コンピュータの最近の進歩により、量子ベースの最適化アルゴリズムはより重要になっている。 最近のQOA分野における出版物の増加は、学術と産業の両方においてトピックの重要性が増していることを示している。 本研究の目的は次のとおりである。(1) まず, 意思決定のための量子ベース最適化アルゴリズムの主な技術について考察する。 2) adiabatic と gate-based optimization の2つの基本クラスを記述・比較し,その可能性と限界について論じる。 (3) 今後、QOAによる意思決定に大きく影響することが期待される主要な業務研究応用分野についても検討する。 (4) 最後に, 運用研究の観点からのqoaの今後の利用から生じる現在の意味について考察する。

Quantum optimization algorithms (QOAs) have the potential to fundamentally transform the application of optimization methods in decision making. For certain classes of optimization problems, it is widely believed that QOA enables significant run-time performance benefits over current state-of-the art solutions. With the latest progress on building quantum computers entering the industrialization stage, quantum-based optimization algorithms have become more relevant. The recent extreme increase in the number of publications in the field of QOA demonstrates the growing importance of the topic in both the academia and the industry. The objectives of this paper are as follows: (1) First, we provide insight into the main techniques of quantum-based optimization algorithms for decision making. (2) We describe and compare the two basic classes of adiabatic and gate-based optimization algorithms and argue their potentials and limitations. (3) Herein, we also investigate the key operations research application areas that are expected to be considerably impacted by the use of QOA in decision making in the future. (4) Finally, current implications arising from the future use of QOA from an operations research perspective are discussed.
翻訳日:2023-12-22 15:41:17 公開日:2023-12-21
# 時間的ビデオグラウンドのためのビデオシーン間のマルチモーダルドメイン適応

Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video Grounding ( http://arxiv.org/abs/2312.13633v1 )

ライセンス: Link先を確認
Haifeng Huang, Yang Zhao, Zehan Wang, Yan Xia, Zhou Zhao(参考訳) 時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。 この領域のデータセットは制限されたビデオシーンから収集されることが多いため、モデルはシーン固有の要因に過度に適合する傾向があり、現実のアプリケーションで新しいシーンに遭遇する際の最適以下のパフォーマンスをもたらす。 新しい場面では、細粒度アノテーションはコストがかかるため不十分なことが多いが、粗粒度ビデオクエリペアの入手は容易である。 そこで,この課題に対処し,新たな場面におけるモデル性能を向上させるために,対象シーンの映像クエリペアを時間境界でラベル付けし,対象シーンの映像クエリがそうでない場合に初めて,非教師なし領域適応(UDA)設定でTVGタスクを探索する。 UDA設定下では,対象データからの洞察を取り入れて,モデルのシーン関連知識を適応的に調整する,新しい適応型マルチモーダルドメイン適応(AMDA)手法を導入する。 具体的には、ドメイン識別器を用いてドメインギャップに対処し、両方のドメインで有効なシーン関連機能を識別する。 同時に,ビデオクエリ対と関連する意味論を整合させることにより,異なるモダリティ間の意味的ギャップを緩和する。 さらに,シーン内の時間意味論の理解を深めるために,マスク再構成手法を採用する。 Charades-STA, ActivityNet Captions, YouCook2 の大規模な実験により,提案手法の有効性が示された。

Temporal Video Grounding (TVG) aims to localize the temporal boundary of a specific segment in an untrimmed video based on a given language query. Since datasets in this domain are often gathered from limited video scenes, models tend to overfit to scene-specific factors, which leads to suboptimal performance when encountering new scenes in real-world applications. In a new scene, the fine-grained annotations are often insufficient due to the expensive labor cost, while the coarse-grained video-query pairs are easier to obtain. Thus, to address this issue and enhance model performance on new scenes, we explore the TVG task in an unsupervised domain adaptation (UDA) setting across scenes for the first time, where the video-query pairs in the source scene (domain) are labeled with temporal boundaries, while those in the target scene are not. Under the UDA setting, we introduce a novel Adversarial Multi-modal Domain Adaptation (AMDA) method to adaptively adjust the model's scene-related knowledge by incorporating insights from the target data. Specifically, we tackle the domain gap by utilizing domain discriminators, which help identify valuable scene-related features effective across both domains. Concurrently, we mitigate the semantic gap between different modalities by aligning video-query pairs with related semantics. Furthermore, we employ a mask-reconstruction approach to enhance the understanding of temporal semantics within a scene. Extensive experiments on Charades-STA, ActivityNet Captions, and YouCook2 demonstrate the effectiveness of our proposed method.
翻訳日:2023-12-22 15:41:00 公開日:2023-12-21
# ProvFL:フェデレートラーニングにおけるグローバルモデル予測のクライアント駆動解釈可能性

ProvFL: Client-Driven Interpretability of Global Model Predictions in Federated Learning ( http://arxiv.org/abs/2312.13632v1 )

ライセンス: Link先を確認
Waris Gill (1), Ali Anwar (2), Muhammad Ali Gulzar (1) ((1) Virginia Tech, (2) University of Minnesota Twin Cities)(参考訳) Federated Learning (FL)は、複数のトレーニングラウンドで複数のプライベートトレーニングされたクライアントのモデルを集約することで、共同機械学習モデルをトレーニングする。 モデル集約のこのような長く連続的な作用は、そのような大域的なモデルの起源と構成について考える上で大きな課題となる。 グローバルモデルの品質や欠点があるかどうかに関わらず、モデルの起源を理解することは、フェデレーション学習におけるデバッグ、解釈可能性、説明可能性において等しく重要である。 flアプリケーション開発者はしばしば疑問を呈する: (1)グローバルモデルに寄与したクライアントと(2)グローバルモデルがラベルを予測した場合、どのクライアントに責任があるのか? FLにおける個々のクライアントと最終グローバルモデル間の情報の流れを追跡する,きめ細かな系統解析機構であるニューロン前駆体を導入する。 ProvFLでこの概念を運用し、2つの鍵となる原則で機能する。 第一に、各クライアントモデルの全ニューロンを静的に監視することは、個々のニューロンの解釈不能な性質のため、非効率でノイズであることを認め、ProvFLはグローバルモデルにおける影響力と感受性の強いニューロンを動的に分離し、サーチスペースを著しく減少させる。 第二に、複数のクライアントのモデルが各ラウンドに融合してグローバルモデルを形成すると、各クライアントの貢献を追跡することが困難になる。 ProvFLは融合アルゴリズムの可逆性を利用して、選択された神経細胞からそれぞれのクライアントの寄与を正確に分離する。 グローバルモデルの与えられた振る舞い(すなわち予測)に責任を持つクライアントのローカライズを依頼すると、provflはそれらを平均97%の精度でローカライズすることに成功した。 さらに、ProvFLは最先端のFLフォールトローカライゼーションアプローチを50%のマージンで上回っている。

Federated Learning (FL) trains a collaborative machine learning model by aggregating multiple privately trained clients' models over several training rounds. Such a long, continuous action of model aggregations poses significant challenges in reasoning about the origin and composition of such a global model. Regardless of the quality of the global model or if it has a fault, understanding the model's origin is equally important for debugging, interpretability, and explainability in federated learning. FL application developers often question: (1) what clients contributed towards a global model and (2) if a global model predicts a label, which clients are responsible for it? We introduce, neuron provenance, a fine-grained lineage capturing mechanism that tracks the flow of information between the individual participating clients in FL and the final global model. We operationalize this concept in ProvFL that functions on two key principles. First, recognizing that monitoring every neuron of every client's model statically is ineffective and noisy due to the uninterpretable nature of individual neurons, ProvFL dynamically isolates influential and sensitive neurons in the global model, significantly reducing the search space. Second, as multiple clients' models are fused in each round to form a global model, tracking each client's contribution becomes challenging. ProvFL leverages the invertible nature of fusion algorithms to precisely isolate each client's contribution derived from selected neurons. When asked to localize the clients responsible for the given behavior (i.e., prediction) of the global model, ProvFL successfully localizes them with an average provenance accuracy of 97%. Additionally, ProvFL outperforms the state-of-the-art FL fault localization approach by an average margin of 50%.
翻訳日:2023-12-22 15:40:31 公開日:2023-12-21
# Diff-Oracle: 制御可能なスタイルとコンテンツを備えたOracle文字生成のための拡散モデル

Diff-Oracle: Diffusion Model for Oracle Character Generation with Controllable Styles and Contents ( http://arxiv.org/abs/2312.13631v1 )

ライセンス: Link先を確認
Jing Li, Qiu-Feng Wang, Kaizhu Huang, Rui Zhang, Siyuan Wang(参考訳) 骨文書の解読は中国考古学や文献学において重要な役割を担っている。 しかし, オラクル文字画像が不足しているため, 極めて困難である。 この問題を解決するために,拡散モデル(DM)に基づくDiff-Oracleを提案し,十分な制御可能なオラクル文字を生成する。 テキストプロンプトに依存するほとんどのDMとは対照的に、生成プロセス中にスタイル情報を制御するためにスタイルエンコーダを組み込む。 このエンコーダは、既存のオラクル文字画像からスタイルプロンプトを抽出し、スタイルの詳細をCLIPモデルからテキスト埋め込みフォーマットに変換する。 ControlNetにインスパイアされたコンテンツエンコーダは、コンテンツ画像から所望のコンテンツ情報をキャプチャし、文字グリフの忠実さを保証する。 diff-oracleを効果的に訓練するために,事前学習した画像から画像への翻訳モデルを用いて,ピクセルレベル対oracle文字画像(すなわちスタイルとコンテンツ画像)を得ることを提案する。 2つのベンチマークデータセットである Oracle-241 と OBC306 で実施された大規模な定性的および定量的実験は、Diff-Oracle が画像生成において既存の生成方法より優れており、認識精度がさらに向上していることを示している。 ソースコードは利用可能だ。

Deciphering the oracle bone script plays a significant role in Chinese archaeology and philology. However, it is significantly challenging due to the scarcity of oracle character images. To overcome this issue, we propose Diff-Oracle, based on diffusion models (DMs), to generate sufficient controllable oracle characters. In contrast to most DMs that rely on text prompts, we incorporate a style encoder to control style information during the generation process. This encoder extracts style prompts from existing oracle character images, where style details are converted from a CLIP model into a text embedding format. Inspired by ControlNet, we introduce a content encoder to capture desired content information from content images, ensuring the fidelity of character glyphs. To train Diff-Oracle effectively, we propose to obtain pixel-level paired oracle character images (i.e., style and content images) by a pre-trained image-to-image translation model. Extensive qualitative and quantitative experiments conducted on two benchmark datasets, Oracle-241 and OBC306, demonstrate that our Diff-Oracle outperforms existing generative methods in terms of image generation, further enhancing recognition accuracy. Source codes will be available.
翻訳日:2023-12-22 15:39:59 公開日:2023-12-21
# MFABA:ディープニューラルネットワークのためのより忠実で加速された境界ベースの属性法

MFABA: A More Faithful and Accelerated Boundary-based Attribution Method for Deep Neural Networks ( http://arxiv.org/abs/2312.13630v1 )

ライセンス: Link先を確認
Zhiyu Zhu, Huaming Chen, Jiayu Zhang, Xinyi Wang, Zhibo Jin, Minhui Xue, Dongxiao Zhu, Kim-Kwang Raymond Choo(参考訳) ディープニューラルネットワーク(DNN)の出力をよりよく理解するために、帰属に基づく手法は、各入力次元にスコアを割り当て、モデル結果に対するその重要性を示すモデル解釈可能性の重要なアプローチである。 特に、属性法は感度および実装不変性の公理を用いて、属性結果の妥当性と信頼性を保証する。 しかし,既存の帰属法では,効率的な解釈と効率的な計算が困難である。 本研究では,DNNを解釈する新しい手法として,公理に固執する帰属アルゴリズムであるMFABAを紹介する。 さらに, MFABAアルゴリズムの理論的証明と詳細な解析を行い, 大規模実験を行う。 その結果、最先端のアトリビューションアルゴリズムよりも101.5142倍高速に達成できることが分かった。 MFABAの有効性は、他の手法と比較して統計的解析によって徹底的に評価され、完全な実装パッケージは、https://github.com/LMBTough/MFABAでオープンソース化される。

To better understand the output of deep neural networks (DNN), attribution based methods have been an important approach for model interpretability, which assign a score for each input dimension to indicate its importance towards the model outcome. Notably, the attribution methods use the axioms of sensitivity and implementation invariance to ensure the validity and reliability of attribution results. Yet, the existing attribution methods present challenges for effective interpretation and efficient computation. In this work, we introduce MFABA, an attribution algorithm that adheres to axioms, as a novel method for interpreting DNN. Additionally, we provide the theoretical proof and in-depth analysis for MFABA algorithm, and conduct a large scale experiment. The results demonstrate its superiority by achieving over 101.5142 times faster speed than the state-of-the-art attribution algorithms. The effectiveness of MFABA is thoroughly evaluated through the statistical analysis in comparison to other methods, and the full implementation package is open-source at: https://github.com/LMBTough/MFABA
翻訳日:2023-12-22 15:39:37 公開日:2023-12-21
# 攻撃の場所と方法は? 因果関係に着想を得た反現実的事例生成のためのレシピ

Where and How to Attack? A Causality-Inspired Recipe for Generating Counterfactual Adversarial Examples ( http://arxiv.org/abs/2312.13628v1 )

ライセンス: Link先を確認
Ruichu Cai, Yuxuan Zhu, Jie Qiao, Zefeng Liang, Furui Liu, Zhifeng Hao(参考訳) ディープニューラルネットワーク(DNN)は、よく考えられた$\mathcal{L}_p$-norm制限されたまたは制限されていない攻撃によって生成される、十分に構築された \emph{adversarial example} に対して脆弱であることが示されている。 それにもかかわらず、これらのアプローチの大多数は、敵が望む如何なる特徴も変更でき、データの因果生成プロセスを無視できると仮定している。 例えば、収入の変化は必然的に銀行システム内の負債対所得比率のような機能に影響を与える。 未承認因果生成過程を考慮し、まず、因果関係のレンズを通してDNNの脆弱性の源を特定し、理論的結果を与えて「攻撃する場所」に答える。 第二に、実例の現在の状況に対する攻撃介入の結果を考慮し、より現実的な敵の例を生成するために、我々はCADEを提案し、これは、攻撃に対する答えとして、 \textbf{C}ounterfactual \textbf{AD}versarial \textbf{E}xamplesを生成できるフレームワークである。 CADEの有効性は、ホワイトボックス、トランスファーベース、ランダムな介入攻撃など、さまざまな攻撃シナリオで競合するパフォーマンスによって証明されている。

Deep neural networks (DNNs) have been demonstrated to be vulnerable to well-crafted \emph{adversarial examples}, which are generated through either well-conceived $\mathcal{L}_p$-norm restricted or unrestricted attacks. Nevertheless, the majority of those approaches assume that adversaries can modify any features as they wish, and neglect the causal generating process of the data, which is unreasonable and unpractical. For instance, a modification in income would inevitably impact features like the debt-to-income ratio within a banking system. By considering the underappreciated causal generating process, first, we pinpoint the source of the vulnerability of DNNs via the lens of causality, then give theoretical results to answer \emph{where to attack}. Second, considering the consequences of the attack interventions on the current state of the examples to generate more realistic adversarial examples, we propose CADE, a framework that can generate \textbf{C}ounterfactual \textbf{AD}versarial \textbf{E}xamples to answer \emph{how to attack}. The empirical results demonstrate CADE's effectiveness, as evidenced by its competitive performance across diverse attack scenarios, including white-box, transfer-based, and random intervention attacks.
翻訳日:2023-12-22 15:39:19 公開日:2023-12-21
# 低品質工学図の復元と認識のための総合的エンド・ツー・エンドコンピュータビジョンフレームワーク

A Comprehensive End-to-End Computer Vision Framework for Restoration and Recognition of Low-Quality Engineering Drawings ( http://arxiv.org/abs/2312.13620v1 )

ライセンス: Link先を確認
Lvyang Yang, Jiankang Zhang, Huaiqiang Li, Longfei Ren, Chen Yang, Jingyu Wang, Dongyuan Shi(参考訳) エンジニアリング図面のデジタル化は、効率的な再利用、流通、アーカイブに不可欠である。 工学図面をデジタル化する既存のコンピュータビジョンアプローチは、通常、入力図面が高品質であると仮定する。 しかし、実際には、エンジニアリング図面は不適切なスキャン、ストレージ、送信のためにしばしばぼやけ、歪められ、既存のアプローチの有効性を損なう可能性がある。 本稿では,低品質な図面の復元と認識に焦点をあて,図面の品質向上と図形記号の識別を目的としたエンドツーエンドフレームワークを提案する。 このフレームワークはK平均クラスタリングを使用して、グレーレベルの共起行列統計に基づいて、異なるエンジニアリング描画パッチを単純で複雑なテクスチャパッチに分類する。 コンピュータビジョン操作と改良された超解像生成適応ネットワーク(ESRGAN)モデルは、それぞれ2種類のパッチの品質を改善するために使用される。 改良された高速領域ベース畳み込みニューラルネットワーク(Faster R-CNN)モデルは、品質向上したグラフィックシンボルを認識するために使用される。 さらに,多段階のタスク駆動型協調学習戦略を提案し,人間の視覚認識ではなく,図形認識を促進する方向のエンジニアリング図面の解像度を改善するために,修正ESRGANとFaster R-CNNモデルを訓練した。 フレームワークをトレーニングするための品質劣化サンプルを構築するための合成データ生成手法も提案されている。 実世界の電気ダイアグラムの実験では、提案されたフレームワークは98.98%の精度と99.33%のリコールを達成し、以前のアプローチよりも優れていることを示した。 さらに、このフレームワークは広く使われている電力システムソフトウェアアプリケーションに統合され、実用性を示す。

The digitization of engineering drawings is crucial for efficient reuse, distribution, and archiving. Existing computer vision approaches for digitizing engineering drawings typically assume the input drawings have high quality. However, in reality, engineering drawings are often blurred and distorted due to improper scanning, storage, and transmission, which may jeopardize the effectiveness of existing approaches. This paper focuses on restoring and recognizing low-quality engineering drawings, where an end-to-end framework is proposed to improve the quality of the drawings and identify the graphical symbols on them. The framework uses K-means clustering to classify different engineering drawing patches into simple and complex texture patches based on their gray level co-occurrence matrix statistics. Computer vision operations and a modified Enhanced Super-Resolution Generative Adversarial Network (ESRGAN) model are then used to improve the quality of the two types of patches, respectively. A modified Faster Region-based Convolutional Neural Network (Faster R-CNN) model is used to recognize the quality-enhanced graphical symbols. Additionally, a multi-stage task-driven collaborative learning strategy is proposed to train the modified ESRGAN and Faster R-CNN models to improve the resolution of engineering drawings in the direction that facilitates graphical symbol recognition, rather than human visual perception. A synthetic data generation method is also proposed to construct quality-degraded samples for training the framework. Experiments on real-world electrical diagrams show that the proposed framework achieves an accuracy of 98.98% and a recall of 99.33%, demonstrating its superiority over previous approaches. Moreover, the framework is integrated into a widely-used power system software application to showcase its practicality.
翻訳日:2023-12-22 15:38:54 公開日:2023-12-21
# ガウス環境に対する一般化されたシステムバス絡み合い定理

Generalized system-bath entanglement theorem for Gaussian environments ( http://arxiv.org/abs/2312.13618v1 )

ライセンス: Link先を確認
Yu Su, Yao Wang, Rui-Xue Xu, YiJing Yan(参考訳) ガウス環境を持つシステムバス絡み合い定理(SBET)は、以前はJ. Chem で確立されていた。 Phys 152, 034102 (2020) 線形応答関数を用いた。 この定理は、システムバスの絡み合う応答を局所系と素浴に結びつける。 本研究では,相関関数に一般化する。 導出の鍵となるステップは、前述したようにハイブリダイゼーション・バスモードの一般化されたランジュバンダイナミクスと、元の有限温度カノニカル・リザーバーを補助浴を通して有効な零温度真空にマッピングするボゴリューボフ変換である。 この定理により、ベアバスの統計特性が知られ、低減されたシステム相関が得られる限り、全複合空間におけるシステムバス絡み相関とバスモード相関を評価することができる。 分子内振動モードを有する電子伝達系の解解自由エネルギーの評価のために, 数値実験を行った。

A system-bath entanglement theorem (SBET) with Gaussian environments was established previously in J. Chem. Phys. 152, 034102 (2020) in terms of linear response functions. This theorem connects the system-bath entanglement responses to the local system and bare bath ones. In this work, we generalize it to correlation functions. Key steps in derivation are the generalized Langevin dynamics for the hybridizing bath modes as in the previous work, together with the Bogoliubov transformation mapping the original finite-temperature canonical reservoir to an effective zero-temperature vacuum via an auxiliary bath. With the theorem, the system-bath entangled correlations and the bath modes correlations in the full composite space can be evaluated as long as the bare-bath statistical properties are known and the reduced system correlations are obtained. Numerical demonstrations are carried out for the evaluation of the solvation free energy of an electron transfer system with a certain intramolecular vibrational modes.
翻訳日:2023-12-22 15:38:25 公開日:2023-12-21
# 構造空間をナビゲートする:構造拡散による対実生成

Navigating the Structured What-If Spaces: Counterfactual Generation via Structured Diffusion ( http://arxiv.org/abs/2312.13616v1 )

ライセンス: Link先を確認
Nishtha Madaan, Srikanta Bedathur(参考訳) 対物的説明の生成は、ブラックボックスニューラルネットワークモデルの内部動作を明らかにし、ユーザ信頼を構築するための最も効果的なアプローチの1つである。 視覚のような領域での拡散モデルを用いた生成モデルでは顕著な進歩が見られるが、構造的モダリティにおける反実的説明の生成におけるそれらの有用性は未解明のままである。 本稿では,構造データ中の反現実的説明を生成するために拡散を利用した最初のプラグアンドプレイフレームワークであるStructured Counterfactual Diffuser(SCD)を紹介する。 scdは拡散モデルを通じて基礎となるデータ分布を学習し、テスト時に任意のブラックボックスモデル、入力、所望の予測に対する反事実を生成する。 実験の結果, 既存の最先端技術と比較して高い妥当性を示すだけでなく, 近接性や多様性も著しく向上していることがわかった。

Generating counterfactual explanations is one of the most effective approaches for uncovering the inner workings of black-box neural network models and building user trust. While remarkable strides have been made in generative modeling using diffusion models in domains like vision, their utility in generating counterfactual explanations in structured modalities remains unexplored. In this paper, we introduce Structured Counterfactual Diffuser or SCD, the first plug-and-play framework leveraging diffusion for generating counterfactual explanations in structured data. SCD learns the underlying data distribution via a diffusion model which is then guided at test time to generate counterfactuals for any arbitrary black-box model, input, and desired prediction. Our experiments show that our counterfactuals not only exhibit high plausibility compared to the existing state-of-the-art but also show significantly better proximity and diversity.
翻訳日:2023-12-22 15:38:07 公開日:2023-12-21
# データセキュリティのための予測型DLPアプローチ

A Forecasting-Based DLP Approach for Data Security ( http://arxiv.org/abs/2312.13704v1 )

ライセンス: Link先を確認
Kishu Gupta, Ashwani Kush(参考訳) 敏感なデータ漏洩は、この技術的時代に企業が直面している大きな問題である。 データ漏洩はデータ安全性の組織に深刻な脅威をもたらし、組織の評判に悪影響を及ぼす。 データリーク(data leak)は、任意のデータホルダから不正な宛先への機密データ/情報の流れである。 データ漏洩防止(data leak prevention, dlp)は、データセキュリティを妨げる恐れのある脅威を緩和しようとする一連のテクニックである。 DLPは、データ漏洩の責任を負う有罪なユーザを明らかにし、適切な許可のないユーザが機密データにアクセスできないことを保証し、機密データが誤って共有された場合に機密データを保護する。 本稿では,データアクセスの予測に基づいて,ユーザへのデータアクセス許可を制限/付与するためにデータ漏洩防止(dlp)モデルを用いる。 本研究では、過去のデータアクセスに基づいて、データ統計分析を用いて、将来のユーザのデータアクセス可能性を予測するDLPソリューションを提供する。 提案手法は,モデルへの学習・学習に簡便な線形関数を用いた。 その結果,データアクセスが極端な場合であっても,高精度なDLP手法がユーザ間で正しく分類できることが示唆された。

Sensitive data leakage is the major growing problem being faced by enterprises in this technical era. Data leakage causes severe threats for organization of data safety which badly affects the reputation of organizations. Data leakage is the flow of sensitive data/information from any data holder to an unauthorized destination. Data leak prevention (DLP) is set of techniques that try to alleviate the threats which may hinder data security. DLP unveils guilty user responsible for data leakage and ensures that user without appropriate permission cannot access sensitive data and also provides protection to sensitive data if sensitive data is shared accidentally. In this paper, data leakage prevention (DLP) model is used to restrict/grant data access permission to user, based on the forecast of their access to data. This study provides a DLP solution using data statistical analysis to forecast the data access possibilities of any user in future based on the access to data in the past. The proposed approach makes use of renowned simple piecewise linear function for learning/training to model. The results show that the proposed DLP approach with high level of precision can correctly classify between users even in cases of extreme data access.
翻訳日:2023-12-22 15:30:54 公開日:2023-12-21
# 硬板加工法によるNbTiN平面共振器の磁場抵抗向上

Improving magnetic-field resilience of NbTiN planar resonators using a hard-mask fabrication technique ( http://arxiv.org/abs/2312.13703v1 )

ライセンス: Link先を確認
Arne Bahr and Matteo Boselli and Benjamin Huard and Audrey Bienfait(参考訳) 磁場中で動作する高品質マイクロ波共振器は、いくつかの量子センシング応用やハイブリッドプラットフォームにとって必須である。 マイクロ波超伝導共振器の損失は、顕微鏡的欠陥を含むいくつかの起源を持つことがある。 ここでは,サファイアにパターン化したNbTiN共振器の磁界応答を特徴付け,特定の磁場で発生するクリア吸収線を観察する。 NbTiN薄膜の欠陥に起因する、g=1.85$の未報告スピンを含む、これらの特徴に責任を負うスピン系を同定する。 アルミニウムのエッチングマスクを含む緩和策を開発し, 0$-0.3$Tの範囲において, Q>2 \times 10^5$以上の品質因子を維持する。

High-quality factor microwave resonators operating in a magnetic field are a necessity for some quantum sensing applications and hybrid platforms. Losses in microwave superconducting resonators can have several origins, including microscopic defects, usually known as two-level-systems (TLS). Here, we characterize the magnetic field response of NbTiN resonators patterned on sapphire and observe clear absorption lines occurring at specific magnetic fields. We identify the spin systems responsible for these features, including a yet unreported spin with $g=1.85$ that we attribute to defects in the NbTiN thin film. We develop mitigation strategies involving namely an aluminum etch mask, resulting in maintaining quality factors above $Q>2 \times 10^5$ in the range $0$-$0.3$ T.
翻訳日:2023-12-22 15:30:39 公開日:2023-12-21
# adapt & align: 生成モデルによる連続学習と潜在空間アライメント

Adapt & Align: Continual Learning with Generative Models Latent Space Alignment ( http://arxiv.org/abs/2312.13699v1 )

ライセンス: Link先を確認
Kamil Deja, Bartosz Cywi\'nski, Jan Rybarczyk, Tomasz Trzci\'nski(参考訳) 本稿では,生成モデルにおける潜在表現の整合によるニューラルネットワークの連続学習手法であるadapt & alignを提案する。 ニューラルネットワークは、異なるディストリビューションから追加のトレーニングデータで再トレーニングすると、パフォーマンスが突然失われる。 同時に、以前の例にアクセスせずに追加データを使ったトレーニングがモデルのパフォーマンスを改善することは滅多にない。 本研究では,生成モデルを用いてそれらの問題を緩和し,その更新プロセスを2つの部分に分割する手法を提案する。 まず、新しいタスクのデータのみを使用して、ローカル生成モデルをトレーニングします。 第2フェーズでは、ローカルモデルからの潜在表現を、過去のすべての経験の知識をエンコードするグローバル表現に統合します。 本稿では,変分オートコーダとジェネレーティブ・アドバイザリ・ネットワークを用いたアプローチを提案する。 さらに,これらの生成モデルを,分類などの下流タスクで使用可能な,連続的知識統合のための汎用的手法として利用できることを示す。

In this work, we introduce Adapt & Align, a method for continual learning of neural networks by aligning latent representations in generative models. Neural Networks suffer from abrupt loss in performance when retrained with additional training data from different distributions. At the same time, training with additional data without access to the previous examples rarely improves the model's performance. In this work, we propose a new method that mitigates those problems by employing generative models and splitting the process of their update into two parts. In the first one, we train a local generative model using only data from a new task. In the second phase, we consolidate latent representations from the local model with a global one that encodes knowledge of all past experiences. We introduce our approach with Variational Auteoncoders and Generative Adversarial Networks. Moreover, we show how we can use those generative models as a general method for continual knowledge consolidation that can be used in downstream tasks such as classification.
翻訳日:2023-12-22 15:30:24 公開日:2023-12-21
# 自然言語からエンティティ関係モデルを生成するデータセット構築のためのデータ変換

Data Transformation to Construct a Dataset for Generating Entity-Relationship Model from Natural Language ( http://arxiv.org/abs/2312.13694v1 )

ライセンス: Link先を確認
Zhenwen Li, Jian-Guang Lou, Tao Xie(参考訳) ERモデルを手作業で設計するコストを削減するため,NL2ERMのタスク,すなわちソフトウェア要件などの自然言語(NL)発話からエンティティ関係(ER)モデルを自動的に生成する手法が提案されている。 これらのアプローチは、通常、厳格なヒューリスティックなルールに依存するルールベースであり、同じ要件を記述する様々な言語的な方法にうまく一般化できない。 ルールベースのアプローチよりも一般化能力が優れているにもかかわらず、大規模なデータセットがないため、ディープラーニングベースのモデルはNL2ERMに欠けている。 そこで本研究では,NL2ERMのタスクとテキストからSQLへのタスクの間には高い類似性が存在するという知見を報告し,既存のテキストからSQLへのデータに変換するデータ変換アルゴリズムを提案する。 我々は、最も人気のあるテキストからSQLへのデータセットであるSpiderにデータ変換アルゴリズムを適用し、また、異なるNLタイプのデータエントリを収集し、大規模なNL2ERMデータセットを得る。 NL2ERMは特別な情報抽出(IE)タスクと見なせるので、我々のデータセット上で2つの最先端IEモデルを訓練する。 実験の結果,両モデルとも高い性能を達成し,既存のベースラインを上回った。

In order to reduce the manual cost of designing ER models, recent approaches have been proposed to address the task of NL2ERM, i.e., automatically generating entity-relationship (ER) models from natural language (NL) utterances such as software requirements. These approaches are typically rule-based ones, which rely on rigid heuristic rules; these approaches cannot generalize well to various linguistic ways of describing the same requirement. Despite having better generalization capability than rule-based approaches, deep-learning-based models are lacking for NL2ERM due to lacking a large-scale dataset. To address this issue, in this paper, we report our insight that there exists a high similarity between the task of NL2ERM and the increasingly popular task of text-to-SQL, and propose a data transformation algorithm that transforms the existing data of text-to-SQL into the data of NL2ERM. We apply our data transformation algorithm on Spider, one of the most popular text-to-SQL datasets, and we also collect some data entries with different NL types, to obtain a large-scale NL2ERM dataset. Because NL2ERM can be seen as a special information extraction (IE) task, we train two state-of-the-art IE models on our dataset. The experimental results show that both the two models achieve high performance and outperform existing baselines.
翻訳日:2023-12-22 15:30:12 公開日:2023-12-21
# 量子限界におけるファイバー通信のための光デコーダ学習

Optical decoder learning for fiber communication at the quantum limit ( http://arxiv.org/abs/2312.13693v1 )

ライセンス: Link先を確認
Matteo Rosati and Albert Solana(参考訳) 量子情報理論は、量子信号を用いて古典ビットを転送することで通信技術を強化することができると予測する。 この約束を果たすためには、メッセージ転送信号は、光技術による実現が未だに未解決の問題であるジョイント検出受信機(JDR)を介して、復号段階でコヒーレントに相互作用する必要がある。 パラメタライズドフォトニック集積回路に基づく新しいJDR設計の体系的発見のための教師あり学習フレームワークを提案する。 我々のフレームワークは量子コードワードと対応する古典的メッセージラベルからなるトレーニングセットの合成に依存しており、コードワードはJDR回路で処理され、写真検出後、ラベルの推測を生成する。 回路パラメータは、適切な損失関数を最小化し、その特定のアーキテクチャに対して最適なJDR設計に達することで更新される。 光ファイバーと空間通信をモデル化し, 線形光学系, スクイーズ, しきい値光検出器からなる回路アーキテクチャを用いて, 純損失ボソニックチャネルのコヒーレント状態符号で示す。 我々はJDR回路を数種類のコードファミリに対してトレーニングする。 我々は、最大サイズ符号と最小メッセージ長の光jdr回路の設定を発見し、最適なシングルシンボリック受信機に対するビット復号率を最大3ドル程度向上させ、理論的に最適なデコーダからは7ドル以下で、明示的な設計が欠落している。 さらに、検出された受信機は、ビット復号化とビット伝送率の両方において、以前のJDR設計を上回る。 最後に、最高性能の符号はJDRの光学的処理を通して、異なるシンボル上の異なるエネルギーレベルを持つ変調にマッピングできるものであり、メッセージシンボルは光検出によりより区別しやすくする。

Quantum information theory predicts that communication technology can be enhanced by using quantum signals to transfer classical bits. In order to fulfill this promise, the message-carrying signals must interact coherently at the decoding stage via a joint-detection receiver (JDR), whose realization with optical technologies remains an outstanding open problem to date. We introduce a supervised-learning framework for the systematic discovery of new JDR designs based on parametrized photonic integrated circuits. Our framework relies on the synthesis of a training set comprising quantum codewords and the corresponding classical message label; the codewords are processed by the JDR circuit and, after photo-detection, produce a guess for the label. The circuit parameters are then updated by minimizing a suitable loss function, reaching an optimal JDR design for that specific architecture. We showcase our method with coherent-state codes for the pure-loss bosonic channel, modelling optical-fiber and space communication, with a circuit architecture comprising linear optics, squeezing and threshold photo-detectors. We train JDR circuits for several code families, varying energy and code-size. We discover optical JDR circuit setups for maximum-size codes and small message-length that offer up to a $3$-fold enhancement in the bit decoding rate with respect to the optimal single-symbol receiver, and less than $7\%$-away from the theoretically optimal decoder, for which an explicit design is missing to date. Furthermore, the discovered receivers surpass previous JDR designs both in terms of bit decoding and bit transmission rate. Finally, we observe that the best-performing codes are those which can be mapped, via the JDR's optical processing, to modulations with different energy levels on different symbols, making the message symbols more distinguishabile via photo-detection.
翻訳日:2023-12-22 15:29:48 公開日:2023-12-21
# DreamTuner:シングルイメージは主観的な生成に十分

DreamTuner: Single Image is Enough for Subject-Driven Generation ( http://arxiv.org/abs/2312.13691v1 )

ライセンス: Link先を確認
Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu and Qian He(参考訳) 拡散ベースのモデルは、テキストから画像への生成に印象的な能力を示しており、1つか数つの参照画像でカスタマイズされた概念を生成する必要のある、主題駆動生成のパーソナライズアプリケーションとして期待されている。 しかし、微調整に基づく既存の手法は、対象学習と事前学習モデルの生成能力の維持のトレードオフをバランスづけることができない。 さらに、付加的な画像エンコーダを利用する他の方法は、圧縮の符号化によって主題の重要な詳細を失う傾向がある。 そこで本稿では,これらの課題に対処するために,より効果的に主題駆動画像生成を実現するために,粗面から細部への参照情報を注入する新しい手法dreamturnerを提案する。 DreamTurnerは、粗い被写体識別のための被写体エンコーダを導入し、圧縮された一般被写体特徴を、視覚テキストのクロスアテンションの前にアテンション層を介して導入する。 次に,事前学習したテキストから画像への自己接続層を自己挿入層に変更し,対象オブジェクトの詳細を洗練する。 生成された画像クエリーは、参照画像とそれ自身の両方の特徴を、自己オブジェクトアテンションで詳述する。 自己目的意識は、カスタマイズされた被験者の詳細な特徴を維持するための効果的でエレガントで訓練のない方法であり、推論中にプラグアンドプレイのソリューションとして機能することを強調する価値がある。 最後に、追加のサブジェクト駆動の微調整により、dreamturnerは、テキストまたはポーズのような他の条件で制御できる、サブジェクト駆動画像生成において顕著なパフォーマンスを達成する。 詳細については、https://dreamtuner-diffusion.github.io/のプロジェクトページを参照してください。

Diffusion-based models have demonstrated impressive capabilities for text-to-image generation and are expected for personalized applications of subject-driven generation, which require the generation of customized concepts with one or a few reference images. However, existing methods based on fine-tuning fail to balance the trade-off between subject learning and the maintenance of the generation capabilities of pretrained models. Moreover, other methods that utilize additional image encoders tend to lose important details of the subject due to encoding compression. To address these challenges, we propose DreamTurner, a novel method that injects reference information from coarse to fine to achieve subject-driven image generation more effectively. DreamTurner introduces a subject-encoder for coarse subject identity preservation, where the compressed general subject features are introduced through an attention layer before visual-text cross-attention. We then modify the self-attention layers within pretrained text-to-image models to self-subject-attention layers to refine the details of the target subject. The generated image queries detailed features from both the reference image and itself in self-subject-attention. It is worth emphasizing that self-subject-attention is an effective, elegant, and training-free method for maintaining the detailed features of customized subjects and can serve as a plug-and-play solution during inference. Finally, with additional subject-driven fine-tuning, DreamTurner achieves remarkable performance in subject-driven image generation, which can be controlled by a text or other conditions such as pose. For further details, please visit the project page at https://dreamtuner-diffusion.github.io/.
翻訳日:2023-12-22 15:29:14 公開日:2023-12-21
# 量子場理論における絡み合いスペクトルのパラメータ依存性

Parameter dependence of entanglement spectra in quantum field theories ( http://arxiv.org/abs/2312.13688v1 )

ライセンス: Link先を確認
Wu-zhong Guo and Jin Xu(参考訳) 本稿では,量子場理論における密度行列スペクトルの低減特性について考察する。 これまでの研究では、主に$\mathcal{p}(\lambda):=\sum_i \delta(\lambda-\lambda_i)$という関数に焦点を当てていた。 これらのスペクトルのパラメータ依存性を捉えるために設計された一連の関数を導入する。 これらの関数はパラメータに関する固有値の微分に関する情報を包含しており、特に$\mathcal{p}_{\alpha_j}(\lambda):=\sum_i \frac{\partial \lambda_i }{\partial \alpha_j}\delta(\lambda-\lambda_i)$ は特定のパラメータを表す。 これらの関数の計算は R'enyi エントロピーを利用して達成できる。 興味深いことに、これらの関数間の説得力のある関係を明らかにするとともに、選択されたケースに対する密度行列の固有値の構築におけるそれらの有用性を示す。 我々はこれらの関数をいくつかの例で計算する。 具体的には, 一般摂動下での $\mathcal{P}(\lambda)$ と $\mathcal{P}_{\alpha_J}(\lambda)$ の変動について詳細に検討し, それらの物理的影響を解明した。 ホログラフィック理論の文脈では、函数 $\mathcal{P}_{\alpha_J}(\lambda)$ の零点は普遍性を持ち、$\lambda_0=e^{-S}$ と決定される。 さらに, 絡み合いエントロピーの特性解析において, これらの関数の応用の可能性を示す。

In this paper, we explore the characteristics of reduced density matrix spectra in quantum field theories. Previous studies mainly focus on the function $\mathcal{P}(\lambda):=\sum_i \delta(\lambda-\lambda_i)$, where $\lambda_i$ denote the eigenvalues of the reduced density matirx. We introduce a series of functions designed to capture the parameter dependencies of these spectra. These functions encompass information regarding the derivatives of eigenvalues concerning the parameters, notably including the function $\mathcal{P}_{\alpha_J}(\lambda):=\sum_i \frac{\partial \lambda_i }{\partial \alpha_J}\delta(\lambda-\lambda_i)$, where $\alpha_J$ denotes the specific parameter. Computation of these functions is achievable through the utilization of R\'enyi entropy. Intriguingly, we uncover compelling relationships among these functions and demonstrate their utility in constructing the eigenvalues of reduced density matrices for select cases. We perform computations of these functions across several illustrative examples. Specially, we conducted a detailed study of the variations of $\mathcal{P}(\lambda)$ and $\mathcal{P}_{\alpha_J}(\lambda)$ under general perturbation, elucidating their physical implications. In the context of holographic theory, we ascertain that the zero point of the function $\mathcal{P}_{\alpha_J}(\lambda)$ possesses universality, determined as $\lambda_0=e^{-S}$, where $S$ denotes the entanglement entropy of the reduced density matrix. Furthermore, we exhibit potential applications of these functions in analyzing the properties of entanglement entropy.
翻訳日:2023-12-22 15:28:38 公開日:2023-12-21
# 港での列車の降ろしをスケジューリングするための制約プログラミングモデル:拡張

A Constraint Programming Model for Scheduling the Unloading of Trains in Ports: Extended ( http://arxiv.org/abs/2312.13682v1 )

ライセンス: Link先を確認
Guillaume Perez, Gael Glorian, Wijnand Suijlen, Arnaud Lallouet(参考訳) 本稿では,今後24時間の貨物輸送港での運行を予定し,貨物列車を貨物船に降ろすためのモデルを提案する。 長い列車を短い列車に分割したり、コンベヤのコンベヤネットワークをストックパイルに通したバルク材をルーティングしたりするなど、複数の部分を含む問題である。 このような列車(最大3km)の運行には専用の装備が必要となる。 問題仕様の現実世界の性質は、異種データを管理する必要性を暗示している。 実際、新しい機器(ダンパなど)や新しいタイプのワゴンが使用されると、古いものや異なるものも引き続き使用される。 これらの詳細はすべて説明する必要がある。 実際には、新しいが効果的でないスケジュールが作られた後、施設の完全なデッドロックを避ける。 本稿では,この実世界の問題とその関連データについて詳述する。 これにより、この問題を解決する効果的な制約プログラミングモデルを提案することができます。 また、モデル設計と、我々が実際に使用したプロパゲータの異なる実装についても論じる。 最後に,このモデルと大規模近傍探索が組み合わさって,24時間スケジュールの探索を効率的に行う方法を示した。

In this paper, we propose a model to schedule the next 24 hours of operations in a bulk cargo port to unload bulk cargo trains onto stockpiles. It is a problem that includes multiple parts such as splitting long trains into shorter ones and the routing of bulk material through a configurable network of conveyors to the stockpiles. Managing such trains (up to three kilometers long) also requires specialized equipment. The real world nature of the problem specification implies the necessity to manage heterogeneous data. Indeed, when new equipment is added (e.g. dumpers) or a new type of wagon comes in use, older or different equipment will still be in use as well. All these details need to be accounted for. In fact, avoiding a full deadlock of the facility after a new but ineffective schedule is produced. In this paper, we provide a detailed presentation of this real world problem and its associated data. This allows us to propose an effective constraint programming model to solve this problem. We also discuss the model design and the different implementations of the propagators that we used in practice. Finally, we show how this model, coupled with a large neighborhood search, was able to find 24 hour schedules efficiently.
翻訳日:2023-12-22 15:28:03 公開日:2023-12-21
# hge:不均質な幾何部分空間の積空間への時間的知識グラフの埋め込み

HGE: Embedding Temporal Knowledge Graphs in a Product Space of Heterogeneous Geometric Subspaces ( http://arxiv.org/abs/2312.13680v1 )

ライセンス: Link先を確認
Jiaxin Pan, Mojtaba Nayyeri, Yinan Li, Steffen Staab(参考訳) 時間的知識グラフは、時間的事実を表す: $(s,p,o,\tau)$ 主題 $s$ と対象 $o$ を関係ラベル $p$ at time $\tau$ で関連付ける。 時間的知識グラフは、異なる時点における静的な時間的パターンと異なるタイムスタンプ間の動的時間的パターンを示す。 静的および動的時間パターンの豊富な集合を学習し、推論に適用するために、いくつかの埋め込みアプローチが文献に提案されている。 しかし、それらの多くは単一の基礎となる埋め込み空間に頼っているため、すべての時間パターンをモデル化する能力は、その1つの埋め込み空間の幾何学的性質に固執することによって著しく制限された。 我々は、時間的事実を異なる幾何学的性質を持つ幾何部分空間、すなわち、複素空間、双対空間、分割複体空間の積空間に写す埋め込みアプローチによって、この制限を持ち上げる。 また,異なる幾何部分空間からの情報を,キャプチャした関係情報や時間情報に応じて簡便に統合するための時間的幾何的注意機構を提案する。 標準時相ベンチマークデータセットの実験結果は,最先端モデルに対するアプローチを好意的に評価した。

Temporal knowledge graphs represent temporal facts $(s,p,o,\tau)$ relating a subject $s$ and an object $o$ via a relation label $p$ at time $\tau$, where $\tau$ could be a time point or time interval. Temporal knowledge graphs may exhibit static temporal patterns at distinct points in time and dynamic temporal patterns between different timestamps. In order to learn a rich set of static and dynamic temporal patterns and apply them for inference, several embedding approaches have been suggested in the literature. However, as most of them resort to single underlying embedding spaces, their capability to model all kinds of temporal patterns was severely limited by having to adhere to the geometric property of their one embedding space. We lift this limitation by an embedding approach that maps temporal facts into a product space of several heterogeneous geometric subspaces with distinct geometric properties, i.e.\ Complex, Dual, and Split-complex spaces. In addition, we propose a temporal-geometric attention mechanism to integrate information from different geometric subspaces conveniently according to the captured relational and temporal information. Experimental results on standard temporal benchmark datasets favorably evaluate our approach against state-of-the-art models.
翻訳日:2023-12-22 15:27:47 公開日:2023-12-21
# ニューラルネットワークトレーニングにおける並列信頼領域アプローチ--従来の方法を超えて

Parallel Trust-Region Approaches in Neural Network Training: Beyond Traditional Methods ( http://arxiv.org/abs/2312.13677v1 )

ライセンス: Link先を確認
Ken Trotti, Samuel A. Cruz Alegr\'ia, Alena Kopani\v{c}\'akov\'a, Rolf Krause(参考訳) 本稿では,<APTS>(Additively Preconditioned Trust- Region Strategy')の新たな変種を用いてニューラルネットワーク(NN)を訓練することを提案する。 提案手法は,ニューラルネットワークのパラメータに適用した並列化可能な付加的ドメイン分解手法に基づく。 TRフレームワーク上に構築されたAPTS法は、最小化器へのグローバル収束を保証する。 さらに、TRアルゴリズムが各イテレーションのステップサイズを自動的に決定するので、計算コストのかかるハイパーパラメータチューニングは不要である。 本稿では,一連の数値実験を行うことにより,提案手法の能力,強度,限界を実証する。 本研究は,SGD,Adam,LBFGS,標準TR法など,広く使用されているトレーニング手法との比較を含む。

We propose to train neural networks (NNs) using a novel variant of the ``Additively Preconditioned Trust-region Strategy'' (APTS). The proposed method is based on a parallelizable additive domain decomposition approach applied to the neural network's parameters. Built upon the TR framework, the APTS method ensures global convergence towards a minimizer. Moreover, it eliminates the need for computationally expensive hyper-parameter tuning, as the TR algorithm automatically determines the step size in each iteration. We demonstrate the capabilities, strengths, and limitations of the proposed APTS training method by performing a series of numerical experiments. The presented numerical study includes a comparison with widely used training methods such as SGD, Adam, LBFGS, and the standard TR method.
翻訳日:2023-12-22 15:27:22 公開日:2023-12-21
# 開量子系に対する適応変分低ランクダイナミクス

Adaptive variational low-rank dynamics for open quantum systems ( http://arxiv.org/abs/2312.13676v1 )

ライセンス: Link先を確認
Luca Gravina, Vincenzo Savona(参考訳) 低エントロピー系の効率的なシミュレーションのための新しいモデル非依存手法を提案し、その力学を限られた数の状態で正確に記述することができる。 本手法は時間依存変動原理を利用してリンドブラッドマスター方程式を効率的に積分し,システムの進化を分解する低ランク基底を動的に同定・修正する。 この基底の次元を動的に適応させることにより、密度行列のランクはシステム状態の最適表現を維持し、計算時間とメモリ要求の両方の観点から既存の適応低ランクスキームよりもかなりの計算上の優位性を提供する。 種々のモデルシステム上での広範なベンチマークによる本手法の有効性を実証し,特にフォールトトレラント量子ハードウェアの候補となる多ビットボソニック符号に着目した。 提案手法の汎用性と効率性を強調し,任意のエンタングルメントの度合いとエントロピーの度合いを特徴とする幅広いシステムに適用できることを示した。 このメソッドはjuliaパッケージとして実装されており、簡単に利用することができる。

We introduce a novel, model-independent method for the efficient simulation of low-entropy systems, whose dynamics can be accurately described with a limited number of states. Our method leverages the time-dependent variational principle to efficiently integrate the Lindblad master equation, dynamically identifying and modifying the low-rank basis over which we decompose the system's evolution. By dynamically adapting the dimension of this basis, and thus the rank of the density matrix, our method maintains optimal representation of the system state, offering a substantial computational advantage over existing adaptive low-rank schemes in terms of both computational time and memory requirements. We demonstrate the efficacy of our method through extensive benchmarks on a variety of model systems, with a particular emphasis on multi-qubit bosonic codes, a promising candidate for fault-tolerant quantum hardware. Our results highlight the method's versatility and efficiency, making it applicable to a wide range of systems characterized by arbitrary degrees of entanglement and moderate entropy throughout their dynamics. We provide an implementation of the method as a Julia package, making it readily available to use.
翻訳日:2023-12-22 15:27:11 公開日:2023-12-21
# Text2Analysis: 高度なデータ分析とアンクラークエリによるテーブル質問回答のベンチマーク

Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries ( http://arxiv.org/abs/2312.13671v1 )

ライセンス: Link先を確認
Xinyi He, Mengyu Zhou, Xinrun Xu, Xiaojun Ma, Rui Ding, Lun Du, Yan Gao, Ran Jia, Xu Chen, Shi Han, Zejian Yuan, Dongmei Zhang(参考訳) タブラルデータ分析は様々な分野において重要であり、この領域では大きな言語モデルが有望である。 しかし、現在の研究は主にText2SQLやTableQAのような初歩的なタスクに焦点を当てており、予測やチャート生成のような高度な分析を無視している。 このギャップに対処するために、我々はtext2 analysis benchmarkを開発し、sql互換の操作を超えて、より詳細な分析を必要とする高度な分析タスクを組み込んだ。 また,データ品質と量を高めるために,大規模言語モデルの能力を活用した5つの革新的かつ効果的なアノテーション手法を開発した。 さらに、実際のユーザの質問に類似した不明瞭なクエリも含み、モデルがどのようにこのような課題を理解し、対処できるかをテストする。 最後に、347のテーブルで2249のクエリ結果ペアを収集します。 3つの異なるメトリクスを用いて5つの最先端モデルを評価し,その結果から,表データ解析の分野において,ベンチマークが相当な課題を呈することを示し,より高度な研究機会への道筋を拓いた。

Tabular data analysis is crucial in various fields, and large language models show promise in this area. However, current research mostly focuses on rudimentary tasks like Text2SQL and TableQA, neglecting advanced analysis like forecasting and chart generation. To address this gap, we developed the Text2Analysis benchmark, incorporating advanced analysis tasks that go beyond the SQL-compatible operations and require more in-depth analysis. We also develop five innovative and effective annotation methods, harnessing the capabilities of large language models to enhance data quality and quantity. Additionally, we include unclear queries that resemble real-world user questions to test how well models can understand and tackle such challenges. Finally, we collect 2249 query-result pairs with 347 tables. We evaluate five state-of-the-art models using three different metrics and the results show that our benchmark presents introduces considerable challenge in the field of tabular data analysis, paving the way for more advanced research opportunities.
翻訳日:2023-12-22 15:26:52 公開日:2023-12-21
# 3パス干渉計におけるコンテキスト粒子伝搬

Contextual particle propagation in a three-path interferometer ( http://arxiv.org/abs/2312.13670v1 )

ライセンス: Link先を確認
Holger F. Hofmann(参考訳) 量子情報は、古典論理と量子コヒーレンスの間の明らかな矛盾に基づく。 驚くべきことに、この矛盾は比較的単純な3経路干渉計で示され、干渉計の5つの連続的な段階を通して単一の光子の経路を辿ることは不可能である。 ここでは,3経路干渉計による単一光子干渉のパラドックス的側面について論じ,量子情報におけるダイナミクスの本質的役割を指摘する。

Quantum information is based on the apparent contradictions between classical logic and quantum coherence described by Kochen-Specker contextuality. Surprisingly, this contradiction can be demonstrated in a comparatively simple three-path interferometer, where it is impossible to trace the path of a single photon through five consecutive stages of the interferometer. Here, I discuss the paradoxical aspects of single photon interferences revealed by the three-path interferometer and point out the essential role of dynamics in quantum information.
翻訳日:2023-12-22 15:26:34 公開日:2023-12-21
# 転位対称性のないカロジェロ様モデル

Calogero-like model without rearrangement symmetry ( http://arxiv.org/abs/2312.13667v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) カロジェロの有理(a_n$)多体量子モデルの新たな一般化を提案し研究した。 鍵となる革新は、カロジェロの2体相互作用の漸近化にある。 一般化されたモデルでは、正確な可解性は保たれ、カロジェロの単一結合定数 $c$ は自由変数のパラメータのある種の多重数に置き換えられる。 結果として生じるカロジェロ様ハミルトニアンは再配置不変である。 その結果、境界状態スペクトルの縮退は部分的に展開される。

A new generalization of the Calogero's rational ($A_N$) many-body quantum model is proposed and studied. The key innovation lies in an asymmetrization of the Calogero's two-body interaction. In the generalized model the exact solvability is preserved while the Calogeero's single coupling constant $C$ is replaced by a certain multiplet of freely variable parameters. The resulting Calogero-like Hamiltonian ceases to be re-arrangement-invariant. As a consequence, the degeneracy of the bound-state spectrum gets partially unfolded.
翻訳日:2023-12-22 15:26:26 公開日:2023-12-21
# 高次元2成分状態の超量子ディスコルドについて

On super quantum discord for high-dimensional bipartite state ( http://arxiv.org/abs/2312.13664v1 )

ライセンス: Link先を確認
Jianming Zhou, Xiaoli Hu, Naihuan Jing(参考訳) サブシステム上での弱測定によって量子相互情報間の差を定量化することにより、超量子ディスコードの概念が導かれる。 スーパーバージョンは、射影(強い)測定によって捉えられた量子不協和として計算することが難しいことも知られている。 本稿では,高次元の2成分量子状態に対して位相減衰チャネルの有無にかかわらず,スーパー量子ディスコドの有効境界を与えるとともに,スーパーバージョンは常に2次元の場合のように通常の量子ディスコドよりも大きいことを見出した。

By quantifying the difference between quantum mutual information through weak measurement performed on a subsystem one is led to the notion of super quantum discord. The super version is also known to be difficult to compute as the quantum discord which was captured by the projective (strong) measurements. In this paper, we give effective bounds of the super quantum discord with or without phase damping channels for higher-dimensional bipartite quantum states, and found that the super version is always larger than the usual quantum discord as in the 2-dimensional case.
翻訳日:2023-12-22 15:26:18 公開日:2023-12-21
# セマンティック空間は256の言語記述に価値がある:記述特性を持つより強いセグメンテーションモデルを作る

A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties ( http://arxiv.org/abs/2312.13764v1 )

ライセンス: Link先を確認
Junfei Xiao, Ziqi Zhou, Wenxuan Li, Shiyi Lan, Jieru Mei, Zhiding Yu, Alan Yuille, Yuyin Zhou, Cihang Xie(参考訳) 本稿では,プロパティレベルラベル空間を用いた強力な解釈可能なセグメンテーションモデル作成手法であるProLabを紹介する。 ProLabは、カテゴリ固有のアノテーションのみに頼る代わりに、セグメンテーションモデルを監督するために、常識知識に基づく記述プロパティを使用する。 2つのコアデザインに基づいている。 まず、Large Language Models(LLM)を用いて、意味のある常識知識を持ち、構造化されたフォーマットに従うすべての関連カテゴリの記述を慎重に作成する。 第2に、記述間の意味的相関を保存する記述埋め込みモデルを導入し、K-Meansを用いて記述的特性(例えば256)にクラスタ化する。 これらの特性は、人間の認識理論と一致する解釈可能な常識知識に基づいている。 当社のアプローチは,従来の5つのベンチマーク(ADE20K,COCO-Stuff,Pascal Context,Cityscapes,BDDなど)において,セグメンテーションモデルをより強力なパフォーマンスにします。 また,本手法は,カテゴリレベルの監視よりも拡張トレーニングステップによるスケーラビリティも向上する。 我々の解釈可能なセグメンテーションフレームワークは、ドメイン内記述プロパティのみを使用して、ドメイン外または未知のカテゴリをセグメンテーションする一般化能力を持つ。 コードはhttps://github.com/lambert-x/ProLab.comで入手できる。

This paper introduces ProLab, a novel approach using property-level label space for creating strong interpretable segmentation models. Instead of relying solely on category-specific annotations, ProLab uses descriptive properties grounded in common sense knowledge for supervising segmentation models. It is based on two core designs. First, we employ Large Language Models (LLMs) and carefully crafted prompts to generate descriptions of all involved categories that carry meaningful common sense knowledge and follow a structured format. Second, we introduce a description embedding model preserving semantic correlation across descriptions and then cluster them into a set of descriptive properties (e.g., 256) using K-Means. These properties are based on interpretable common sense knowledge consistent with theories of human recognition. We empirically show that our approach makes segmentation models perform stronger on five classic benchmarks (e.g., ADE20K, COCO-Stuff, Pascal Context, Cityscapes, and BDD). Our method also shows better scalability with extended training steps than category-level supervision. Our interpretable segmentation framework also emerges with the generalization ability to segment out-of-domain or unknown categories using only in-domain descriptive properties. Code is available at https://github.com/lambert-x/ProLab.
翻訳日:2023-12-22 15:22:07 公開日:2023-12-21
# 動的3Dガウスと合成拡散モデルを用いたテキストから4D

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models ( http://arxiv.org/abs/2312.13763v1 )

ライセンス: Link先を確認
Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis(参考訳) テキスト誘導拡散モデルは画像および映像生成に革命をもたらし、最適化に基づく3dオブジェクト合成にも成功している。 そこで本研究では, 時間的次元を付加したスコア蒸留法を用いて, 未熟なtext-to-4d設定に焦点をあて, ダイナミックな3dオブジェクトを合成する。 従来の手法と比較して,テキスト・ツー・イメージ・テキスト・ビデオ・3d対応のマルチビュー拡散モデルを組み合わせて,4次元オブジェクト最適化時のフィードバックを提供し,時間的一貫性,高品質な視覚的外観,リアルな幾何学を実現する。 我々の手法はAlign Your Gaussian (AYG) と呼ばれ、変形場を4次元表現として動的3次元ガウス散乱を利用する。 AYGは移動する3次元ガウスの分布を規則化し、最適化を安定化し、運動を誘導する新しい方法である。 また,動作増幅機構と,複数の4Dシーケンスを生成し,組み合わせてより長い生成を行う新しい自己回帰合成手法を提案する。 これらの技術により、鮮明な動的シーンを合成し、前作を質的かつ定量的に上回り、最先端のテキストから4Dのパフォーマンスを実現することができる。 ガウスの4D表現のため、異なる4Dアニメーションをシームレスに組み合わせることができる。 AYGは、アニメーション、シミュレーション、デジタルコンテンツ作成、および合成データ生成のための有望な道を開く。

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.
翻訳日:2023-12-22 15:21:46 公開日:2023-12-21
# 微視的ルジャンドル変換、正準分布とjaynesの最大エントロピー原理

Microscopic Legendre Transform, Canonical Distribution and Jaynes' Maximum Entropy Principle ( http://arxiv.org/abs/2312.13762v1 )

ライセンス: Link先を確認
Ramandeep S. Johal(参考訳) 熱貯水池と接触する閉鎖系の平衡状態はヘルムホルツ自由エネルギー(英語版)(f$)を用いて記述することができる。 数学的には、$F$は、独立変数が系のエネルギー(U$)からその逆温度(1/T$)に変化するルジャンドル変換によるシステムのエントロピー(S$)に関係している。 この数学的構造は、系のエネルギーとエントロピーが正準確率分布上の期待値で定義される正準アンサンブルの統計的枠組みで保存される。 本稿では,レジェンダ変換の顕微鏡形態について述べる(『\mathscr{L}_{\! \mathscr{m}}^{}$) は、微小状態確率とエネルギー(逆温度によってスケールされる)を共役変数として扱うことによって得られる。 変換 $\mathscr{L}_{\! \mathscr{M}}^{}$ は、正準エントロピーは、確率の正規化制約を明示的に組み込むことで再定義し、正準エントロピーの正確な微分特性を強調する。 この変換の結果、正準分布が導出されることがある。 他のアプローチ、特にジェインズの最大エントロピー原理は、現在のアプローチと比較される。 $\mathscr{L}_{\! \mathscr{M}}^{}$は、熱貯水池と接触する系の熱力学に基づいて探索される。

The equilibrium state of a closed system in contact with a heat reservoir can be described in terms of the Helmholtz free energy ($F$). Mathematically, $F$ is related to the entropy ($S$) of the system by the Legendre transform where the independent variable is changed from the energy ($U$) of the system to its inverse temperature ($1/T$). This mathematical structure is preserved in the statistical framework of canonical ensemble where the system energy and entropy are defined in terms of expectation values over the canonical probability distribution. In this paper, we present the microscopic form of the Legendre transform ($\mathscr{L}_{\!\mathscr{M}}^{}$) by treating the microstate probabilities and the energies (scaled by the inverse temperature) as conjugate variables. The transform $\mathscr{L}_{\!\mathscr{M}}^{}$ requires that the canonical entropy be redefined by explicitly incorporating the normalization constraint on the probabilities and underscores the exact differential property of the canonical entropy. Canonical distribution may be derived as a consequence of this transform. Other approaches, in particular, Jaynes' maximum entropy principle is compared with the present approach. The relevance of $\mathscr{L}_{\!\mathscr{M}}^{}$ is explored based on the thermodynamics of a system in contact with a heat reservoir.
翻訳日:2023-12-22 15:21:20 公開日:2023-12-21
# フォールトトレラント深層学習のための層間最適化

Cross-Layer Optimization for Fault-Tolerant Deep Learning ( http://arxiv.org/abs/2312.13754v1 )

ライセンス: Link先を確認
Qing Zhang, Cheng Liu, Bo Liu, Haitong Huang, Ying Wang, Huawei Li, Xiaowei Li(参考訳) フォールトトレラントなディープラーニングアクセラレータは、高信頼性なディープラーニング処理の基礎であり、avionicsやroboticsといった安全クリティカルなアプリケーションでディープラーニングを展開する上で極めて重要である。 ディープラーニングはコンピューティングとメモリ集約であることが知られているため、冗長コンピューティングに基づく従来のフォールトトレラントアプローチは、消費電力やチップ領域を含むかなりのオーバーヘッドを引き起こす。 そこで本研究では,各ニューロンのニューロンとビット間での深層学習の脆弱性差を特徴付けるとともに,その脆弱性差を利用して,アーキテクチャ層と回路層の観点から,深部学習処理コンポーネントを選択的に保護することを提案する。 同時に、ディープラーニングアクセラレータの基盤となる処理要素のビット保護オーバーヘッドとモデル量子化の相関を観察し、モデルの精度を損なうことなく追加の量子化制約を加えることによりビット保護オーバーヘッドを低減することを提案する。 最後に,ベイジアン最適化手法を用いて,アルゴリズム層,アーキテクチャ層,回路層において相関する設計パラメータを協調的に最適化し,ハードウェア資源の消費を最小化し,信頼性,精度,深層学習処理の性能など複数の制約を満たす。

Fault-tolerant deep learning accelerator is the basis for highly reliable deep learning processing and critical to deploy deep learning in safety-critical applications such as avionics and robotics. Since deep learning is known to be computing- and memory-intensive, traditional fault-tolerant approaches based on redundant computing will incur substantial overhead including power consumption and chip area. To this end, we propose to characterize deep learning vulnerability difference across both neurons and bits of each neuron, and leverage the vulnerability difference to enable selective protection of the deep learning processing components from the perspective of architecture layer and circuit layer respectively. At the same time, we observe the correlation between model quantization and bit protection overhead of the underlying processing elements of deep learning accelerators, and propose to reduce the bit protection overhead by adding additional quantization constrain without compromising the model accuracy. Finally, we employ Bayesian optimization strategy to co-optimize the correlated cross-layer design parameters at algorithm layer, architecture layer, and circuit layer to minimize the hardware resource consumption while fulfilling multiple user constraints including reliability, accuracy, and performance of the deep learning processing at the same time.
翻訳日:2023-12-22 15:20:59 公開日:2023-12-21
# 肺線維症におけるイメージングバイオマーカーの探索 : AIIB23チャレンジのベンチマーク

Hunting imaging biomarkers in pulmonary fibrosis: Benchmarks of the AIIB23 challenge ( http://arxiv.org/abs/2312.13752v1 )

ライセンス: Link先を確認
Yang Nan, Xiaodan Xing, Shiyi Wang, Zeyu Tang, Federico N Felder, Sheng Zhang, Roberta Eufrasia Ledda, Xiaoliu Ding, Ruiqi Yu, Weiping Liu, Feng Shi, Tianyang Sun, Zehong Cao, Minghui Zhang, Yun Gu, Hanxiao Zhang, Jian Gao, Wen Tang, Pengxin Yu, Han Kang, Junqiang Chen, Xing Lu, Boyu Zhang, Michail Mamalakis, Francesco Prinzi, Gianluca Carlini, Lisa Cuneo, Abhirup Banerjee, Zhaohu Xing, Lei Zhu, Zacharia Mesbah, Dhruv Jain, Tsiry Mayet, Hongyu Yuan, Qing Lyu, Athol Wells, Simon LF Walsh, Guang Yang(参考訳) 気道関連定量的イメージングバイオマーカーは肺疾患の検査、診断、予後に重要である。 しかし、気道の木の手作業による記述は、いまだに時間を要する。 気道モデリングの強化に多大な努力が払われているが、現在利用可能なデータセットは、適度な形態変化を伴う肺疾患に焦点を当てている。 線維性肺疾患患者の肺組織に存在する複雑なミツバチのパターンは、しばしば様々な予測エラーを引き起こす。 この問題に対処するため、2023年国際医用画像コンピューティング・コンピュータ支援インターベンション会議(MICCAI)と共同で「肺線維性肺疾患2023(AIIB23)のための気道インフォームドCTイメージングバイオマーカー」のコンペティションが開催された。 気道構造は3人の経験豊富な放射線技師によって細心の注意を払拭された。 競争相手は、高い堅牢性と一般化能力を持つ自動気道セグメンテーションモデルの開発を奨励され、次いで最も相関した死亡予測QIBを探索した。 120個の高分解能コンピュータ断層撮影(HRCT)のトレーニングセットが公開され、専門家の注釈と死亡率が示された。 オンライン検証セットには、線維性肺疾患患者52例のHRCTスキャンが組み込まれ、オフラインテストセットには線維症や新型コロナウイルス患者140例が含まれていた。 その結果,voxel-wise-weighted general union lossとcontinuity lossを導入することで,線維性肺疾患患者から気道樹を抽出できる可能性が示唆された。 予後判定のための競合画像バイオマーカーに加えて,既存の臨床検査,臨床評価,AIベースのバイオマーカーと比較して,強い気道由来バイオマーカー (Hazard ratio>1.5, p<0.0001) が生存予後に有用であった。

Airway-related quantitative imaging biomarkers are crucial for examination, diagnosis, and prognosis in pulmonary diseases. However, the manual delineation of airway trees remains prohibitively time-consuming. While significant efforts have been made towards enhancing airway modelling, current public-available datasets concentrate on lung diseases with moderate morphological variations. The intricate honeycombing patterns present in the lung tissues of fibrotic lung disease patients exacerbate the challenges, often leading to various prediction errors. To address this issue, the 'Airway-Informed Quantitative CT Imaging Biomarker for Fibrotic Lung Disease 2023' (AIIB23) competition was organized in conjunction with the official 2023 International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI). The airway structures were meticulously annotated by three experienced radiologists. Competitors were encouraged to develop automatic airway segmentation models with high robustness and generalization abilities, followed by exploring the most correlated QIB of mortality prediction. A training set of 120 high-resolution computerised tomography (HRCT) scans were publicly released with expert annotations and mortality status. The online validation set incorporated 52 HRCT scans from patients with fibrotic lung disease and the offline test set included 140 cases from fibrosis and COVID-19 patients. The results have shown that the capacity of extracting airway trees from patients with fibrotic lung disease could be enhanced by introducing voxel-wise weighted general union loss and continuity loss. In addition to the competitive image biomarkers for prognosis, a strong airway-derived biomarker (Hazard ratio>1.5, p<0.0001) was revealed for survival prognostication compared with existing clinical measurements, clinician assessment and AI-based biomarkers.
翻訳日:2023-12-22 15:20:38 公開日:2023-12-21
# ポートレートモードにおける映像認識

Video Recognition in Portrait Mode ( http://arxiv.org/abs/2312.13746v1 )

ライセンス: Link先を確認
Mingfei Han, Linjie Yang, Xiaojie Jin, Jiashi Feng, Xiaojun Chang, Heng Wang(参考訳) 新しいデータセットの作成は、しばしばビデオ認識の新しい課題を示し、これらの課題に対処しながら、新しいアイデアを刺激することができる。 既存のデータセットは主にランドスケープモードのビデオで構成されているが、本稿は研究コミュニティにポートレートモードビデオを導入し、このビデオフォーマットに関連するユニークな課題を強調している。 スマートフォンやソーシャルメディアアプリケーションの人気が高まる中、ポートレートモード動画の認識がますます重要になっている。 そこで我々は,ポートレートモードビデオ認識のための最初のデータセット,portalmode-400を開発した。 PortraitMode-400の分類は、細粒度400のカテゴリからなるデータ駆動方式で構築され、人間のアノテーションの精度を確保するために厳密な品質保証が実施された。 新たなデータセットに加えて,異なるフォーマットによる認識精度と空間バイアスに対する映像フォーマット(画像モードと風景モード)の影響を包括的に分析した。 さらに,データ拡張の選択,評価手順,時間情報の重要性,音声モダリティの役割など,ポートレートモード映像認識の重要な側面を探索するために,広範な実験を行った。 実験結果から得られた知見とPortraitMode-400の導入を踏まえ,本研究分野におけるさらなる研究活動の促進を目的とする。

The creation of new datasets often presents new challenges for video recognition and can inspire novel ideas while addressing these challenges. While existing datasets mainly comprise landscape mode videos, our paper seeks to introduce portrait mode videos to the research community and highlight the unique challenges associated with this video format. With the growing popularity of smartphones and social media applications, recognizing portrait mode videos is becoming increasingly important. To this end, we have developed the first dataset dedicated to portrait mode video recognition, namely PortraitMode-400. The taxonomy of PortraitMode-400 was constructed in a data-driven manner, comprising 400 fine-grained categories, and rigorous quality assurance was implemented to ensure the accuracy of human annotations. In addition to the new dataset, we conducted a comprehensive analysis of the impact of video format (portrait mode versus landscape mode) on recognition accuracy and spatial bias due to the different formats. Furthermore, we designed extensive experiments to explore key aspects of portrait mode video recognition, including the choice of data augmentation, evaluation procedure, the importance of temporal information, and the role of audio modality. Building on the insights from our experimental results and the introduction of PortraitMode-400, our paper aims to inspire further research efforts in this emerging research area.
翻訳日:2023-12-22 15:20:05 公開日:2023-12-21
# 共鳴蛍光におけるコヒーレンス

Coherence in resonance fluorescence ( http://arxiv.org/abs/2312.13743v1 )

ライセンス: Link先を確認
Xu-Jie Wang, Guoqi Huang, Ming-Yang Li, Yuan-Zhuo Wang, Li Liu, Bang Wu, Hanqing Liu, Haiqiao Ni, Zhichuan Niu, Weijie Ji, Rongzhen Jiao, Hua-Lei Yin, and Zhiliang Yuan(参考訳) 共鳴蛍光(RF)は、物質が光とコヒーレントに相互作用する基本的な経路である。 このコヒーレント過程に伴って、最近の研究は、レーザーのようなスペクトルの合同観測と弱い駆動の2レベルエミッタのrfにおける反結合の長年のパラドックスを説明するために、非コヒーレント散乱チャネルが並列に存在することを示唆した。 もし本当に存在するなら、この不整合過程は、量子情報応用におけるRFの展望に疑問を投げかけることになる。 ここでは,単光子時間エネルギー絡み合いの概念を活用し,無干渉散乱過程に依存せずにパラドックスを回転させる。 rfの1次コヒーレンスを駆動強度に無次元に依存させた後,光結合がほぼ完全なキャビティエンハンス量子ドットデバイス上で実験的検証を行った。 さらに、第1相依存性二光子干渉実験を行い、一光子時間エネルギーの絡み合いによって説明される特異な偶然の束縛を観測する。 我々の研究は、フォトニック量子重ね合わせの理解における新しい次元を明らかにし、新しい応用を刺激する可能性がある。

Resonance fluorescence (RF) serves as a fundamental path for matter to coherently interact with light. Accompanying this coherent process, recent studies suggested parallel existence of an incoherent scattering channel in order to explain the long-standing paradox of joint observation of a laser-like spectrum and anti-bunching in the RF of a weakly driven two-level emitter. If truly present, this incoherent process would cast doubt over RF's prospects in quantum information applications. Here, we exploit the concept of single-photon time-energy entanglement and have thus revolved the paradox without reliance on any incoherent scattering process. We derive a dimensionless dependence of the first-order coherence of the RF on the driving strength, followed by experimental verification on a cavity-enhanced quantum dot device with near-perfect light coupling. Furthermore, we perform the first phase-dependent two-photon interference experiment and observe peculiar coincidence bunching that is explained by single-photon time-energy entanglement. Our work reveals a new dimension in the understanding of photonic quantum superposition and may stimulate new applications.
翻訳日:2023-12-22 15:19:44 公開日:2023-12-21
# DECO: ConvNetによるクエリベースのエンドツーエンドオブジェクト検出

DECO: Query-Based End-to-End Object Detection with ConvNets ( http://arxiv.org/abs/2312.13735v1 )

ライセンス: Link先を確認
Xinghao Chen, Siwei Li, Yijing Yang, Yunhe Wang(参考訳) 検出トランス (DETR) とその変種は, 近年, 精度の高い物体検出の可能性を示している。 オブジェクトクエリのメカニズムにより、detrファミリは固定数のオブジェクト予測を直接取得し、検出パイプラインを合理化する。 一方、最近の研究では、適切なアーキテクチャ設計により、convolution networks (convnets) もtransformers, \eg, convnextとの競合性能を達成している。 そこで本稿では,高度なトランスフォーマーアーキテクチャに代えて,convnetを用いたクエリベースのエンドツーエンドオブジェクト検出フレームワークを構築することができるか検討する。 提案するフレームワークである \ie, Detection ConvNet (DECO) は、バックボーンと畳み込みエンコーダ・デコーダアーキテクチャで構成されている。 我々は、decoエンコーダを慎重に設計し、畳み込み層を介してオブジェクトクエリと画像特徴間のインタラクションを行うための新しいメカニズムを提案する。 提案したDECを、挑戦的なCOCOベンチマークで先行検出器と比較する。 その単純さにもかかわらず、DECOは検出精度と実行速度の点で競合性能を達成する。 具体的には、ResNet-50 と ConvNeXt-Tiny のバックボーンで、DeCO は COCO \textit{val} の 358.6\%$ と 40.8\%$ AP を取得し、それぞれ 35$ と 288$ FPS が設定され、DETR モデルを上回っている。 先進的なマルチスケール機能モジュールを組み込んだdeco+は、34ドルのfpsで47.8\%$ apを達成します。 提案するdecoが、オブジェクト検出フレームワークの設計に別の視点をもたらすことを願っている。

Detection Transformer (DETR) and its variants have shown great potential for accurate object detection in recent years. The mechanism of object query enables DETR family to directly obtain a fixed number of object predictions and streamlines the detection pipeline. Meanwhile, recent studies also reveal that with proper architecture design, convolution networks (ConvNets) also achieve competitive performance with transformers, \eg, ConvNeXt. To this end, in this paper we explore whether we could build a query-based end-to-end object detection framework with ConvNets instead of sophisticated transformer architecture. The proposed framework, \ie, Detection ConvNet (DECO), is composed of a backbone and convolutional encoder-decoder architecture. We carefully design the DECO encoder and propose a novel mechanism for our DECO decoder to perform interaction between object queries and image features via convolutional layers. We compare the proposed DECO against prior detectors on the challenging COCO benchmark. Despite its simplicity, our DECO achieves competitive performance in terms of detection accuracy and running speed. Specifically, with the ResNet-50 and ConvNeXt-Tiny backbone, DECO obtains $38.6\%$ and $40.8\%$ AP on COCO \textit{val} set with $35$ and $28$ FPS respectively and outperforms the DETR model. Incorporated with advanced multi-scale feature module, our DECO+ achieves $47.8\%$ AP with $34$ FPS. We hope the proposed DECO brings another perspective for designing object detection framework.
翻訳日:2023-12-22 15:19:09 公開日:2023-12-21
# 局所状態と絡み合う測定値の忠実度推定

Fidelity Estimation of Entangled Measurements with Local States ( http://arxiv.org/abs/2312.13730v1 )

ライセンス: Link先を確認
Zanqiu Shen and Kun Wang(参考訳) 我々は,量子状態準備と古典データ後処理のみを必要とする,$n$-qubitの絡み合った測定装置の忠実度を推定する効率的なプロトコルを提案する。 パウリ作用素の固有状態は、その重要度に応じて戦略的に選択され、すべての測定作用素によってまとめられる。 我々は,プロトコルの性能を厳密に分析し,そのサンプルの複雑さが,対象測定値に対して非ゼロ期待値を持つパウリ演算子の数によって一意に決定されることを示す。 さらに、資源理論の観点から、量子測定の安定化器R'enyiエントロピーを精密な計量として導入し、測定忠実度を推定する固有の困難さを定量化する。

We propose an efficient protocol to estimate the fidelity of an $n$-qubit entangled measurement device, requiring only qubit state preparations and classical data post-processing. It works by measuring the eigenstates of Pauli operators, which are strategically selected according to their importance weights and collectively contributed by all measurement operators. We rigorously analyze the protocol's performance and demonstrate that its sample complexity is uniquely determined by the number of Pauli operators possessing non-zero expectation values with respect to the target measurement. Moreover, from a resource-theoretic perspective, we introduce the stabilizer R\'enyi entropy of quantum measurements as a precise metric to quantify the inherent difficulty of estimating measurement fidelity.
翻訳日:2023-12-22 15:18:22 公開日:2023-12-21
# 視線方向に依存する色とオパシティによるガウス分割アルゴリズム

Gaussian Splitting Algorithm with Color and Opacity Depended on Viewing Direction ( http://arxiv.org/abs/2312.13729v1 )

ライセンス: Link先を確認
Dawid Malarz, Weronika Smolak, Jacek Tabor, S{\l}awomir Tadeja, Przemys{\l}aw Spurek(参考訳) neural radiance fields (nerfs) は、3dオブジェクトの複雑さを捉えるためのニューラルネットワークの驚くべき可能性を実証している。 ニューラルネットワークの重みの中に形状と色情報をエンコードすることで、NeRFは3Dオブジェクトの驚くほどシャープな新しいビューを生み出すのに優れています。 近年, 生成モデルを用いたNeRFの一般化が数多く現れ, その汎用性が高まっている。 対照的に、gaussian splatting (gs) はニューラルネットワークを必要とせず、より高速なトレーニングと推論で同様のレンダリング品質を提供する。 ガウス分布の集合に3Dオブジェクトに関する情報をエンコードし、古典的メッシュと同様に3Dで描画できる。 残念ながら、GSは通常数十万のガウス成分を必要とするため、条件付けが難しい。 両モデルの欠点を軽減するために、3Dオブジェクトの形状のGS表現とNeRFによる色と不透明度の符号化を用いたハイブリッドモデルを提案する。 我々のモデルは、ガウス分布とトレーニング可能な位置(すなわちガウスの手段)、形状(ガウスの共分散)、色と不透明度、ニューラルネットワークを用いており、ガウス分布と視方向のパラメータを使って色と不透明度の変化を生成する。 その結果、3dオブジェクトのシャドウ、光反射、透明性をよりよく記述した。

Neural Radiance Fields (NeRFs) have demonstrated the remarkable potential of neural networks to capture the intricacies of 3D objects. By encoding the shape and color information within neural network weights, NeRFs excel at producing strikingly sharp novel views of 3D objects. Recently, numerous generalizations of NeRFs utilizing generative models have emerged, expanding its versatility. In contrast, Gaussian Splatting (GS) offers a similar renders quality with faster training and inference as it does not need neural networks to work. We encode information about the 3D objects in the set of Gaussian distributions that can be rendered in 3D similarly to classical meshes. Unfortunately, GS are difficult to condition since they usually require circa hundred thousand Gaussian components. To mitigate the caveats of both models, we propose a hybrid model that uses GS representation of the 3D object's shape and NeRF-based encoding of color and opacity. Our model uses Gaussian distributions with trainable positions (i.e. means of Gaussian), shape (i.e. covariance of Gaussian), color and opacity, and neural network, which takes parameters of Gaussian and viewing direction to produce changes in color and opacity. Consequently, our model better describes shadows, light reflections, and transparency of 3D objects.
翻訳日:2023-12-22 15:18:00 公開日:2023-12-21
# 量子クエンチ後の電荷密度波状態におけるパターン形成

Pattern formation in charge density wave states after a quantum quench ( http://arxiv.org/abs/2312.13727v1 )

ライセンス: Link先を確認
Lingyu Yang, Yang Yang, Gia-Wei Chern(参考訳) 正方格子$t$-$V$モデルにおける電荷密度波(CDW)の時間後ダイナミクスについて検討する。 このシステムの半充填時の基底状態は、粒子密度のチェッカーボード変調によって特徴づけられる。 時間依存変分原理に基づく一般化された自己整合平均場法は、cdw状態の動的進化を記述するために用いられる。 クエンチ過程を通して均一なCDW順序を仮定すると、時間依存平均場アプローチはアンダーソン擬スピン法に還元される。 擬似スピンに対するブロッホ方程式に基づくクエンチシミュレーションは、位相同期持続振動、ランダウ減衰振動、CDWオーダーの動的消滅の3つの正準挙動を生成する。 さらに,量子クエンチェのシミュレーションに動的不均一性を取り込む効率的な実空間フォン・ノイマン方程式法を考案する。 大規模シミュレーションにより,ポストクエンチCDW状態,特に強いクエンチ状態の複雑なパターンが明らかになった。 創発的な空間テクスチャは、短周期チェッカーボードCDWオーダー上の超密度変調によって特徴づけられる。 クエンチされたCDW状態におけるパターン形成の実証は、より複雑な順序を持つ多体系の量子クエンチにおける動的不均一性の重要性を浮き彫りにしている。

We study post-quench dynamics of charge-density-wave (CDW) order in the square-lattice $t$-$V$ model. The ground state of this system at half-filling is characterized by a checkerboard modulation of particle density. A generalized self-consistent mean-field method, based on the time-dependent variational principle, is employed to describe the dynamical evolution of the CDW states. Assuming a homogeneous CDW order throughout the quench process, the time-dependent mean-field approach is reduced to the Anderson pseudospin method. Quench simulations based on the Bloch equation for pseudospins produce three canonical behaviors of order-parameter dynamics: phase-locked persistent oscillation, Landau-damped oscillation, and dynamical vanishing of the CDW order. We further develop an efficient real-space von Neumann equation method to incorporate dynamical inhomogeneity into simulations of quantum quenches. Our large-scale simulations uncover complex pattern formations in the post-quench CDW states, especially in the strong quench regime. The emergent spatial textures are characterized by super density modulations on top of the short-period checkerboard CDW order. Our demonstration of pattern formation in quenched CDW states, described by a simple broken $Z_2$ symmetry, underscores the importance of dynamical inhomogeneity in quantum quenches of many-body systems with more complex orders.
翻訳日:2023-12-22 15:17:00 公開日:2023-12-21
# f\"orster共鳴における分子衝突の超低温コヒーレント制御

Ultracold coherent control of molecular collisions at a F\"orster resonance ( http://arxiv.org/abs/2312.13726v1 )

ライセンス: Link先を確認
Thibault Delarue, Goulven Qu\'em\'ener(参考訳) We show that the precise preparation of a quantum superposition between three rotational states of an ultracold dipolar molecule generates controllable interferences in their two-body scattering dynamics and collisional rate coefficients, at an electric field that produces a F\"orster resonance. This proposal represents a feasible protocol to achieve coherent control on ultracold molecular collisions in current experiments. It sets the basis for future studies in which one can think to control the amount of each produced pairs, including trapped entangled pairs of reactants, individual pairs of products in a chemical reaction, and measuring each of their scattering phase-shifts that could envision ``complete chemical experiments" at ultracold temperatures.

We show that the precise preparation of a quantum superposition between three rotational states of an ultracold dipolar molecule generates controllable interferences in their two-body scattering dynamics and collisional rate coefficients, at an electric field that produces a F\"orster resonance. This proposal represents a feasible protocol to achieve coherent control on ultracold molecular collisions in current experiments. It sets the basis for future studies in which one can think to control the amount of each produced pairs, including trapped entangled pairs of reactants, individual pairs of products in a chemical reaction, and measuring each of their scattering phase-shifts that could envision ``complete chemical experiments" at ultracold temperatures.
翻訳日:2023-12-22 15:16:05 公開日:2023-12-21
# オフライン強化学習のための批判誘導決定変換器

Critic-Guided Decision Transformer for Offline Reinforcement Learning ( http://arxiv.org/abs/2312.13716v1 )

ライセンス: Link先を確認
Yuanfu Wang, Chao Yang, Ying Wen, Yu Liu, Yu Qiao(参考訳) オフライン強化学習(RL)の最近の進歩は、各状態に対するターゲットリターンに基づく行動分布学習パラダイムであるReturn-Conditioned Supervised Learning(RCSL)の能力を、教師付き方式で強調している。 しかし、RCSL法は主に決定論的軌跡モデリング、確率的状態遷移の無視、将来の軌跡分布の多様性に重点を置いている。 基本的な課題は、個々の軌跡内のサンプルリターンと、複数の軌跡にわたる期待リターンの不整合から生じる。 幸運なことに、バリューベースのメソッドは期待されるリターンを近似するために値関数を活用することでソリューションを提供する。 そこで我々は,これらの知見に基づいて,バリューベース手法からの長期帰納の予測可能性と決定トランスの軌道モデリング能力を組み合わせた,評論家誘導決定トランスフォーマ(cgdt)と呼ばれる新しい手法を提案する。 批評家として知られる学習値関数を組み込むことで、CGDTは指定されたターゲットリターンと期待されるアクションのリターンとの直接的なアライメントを保証する。 この積分は、RCSLの決定論的性質と値に基づく手法の確率的特性のギャップを埋める。 確率環境とD4RLベンチマークデータセットの実証評価は、従来のRCSL法よりもCGDTの方が優れていることを示す。 これらの結果は、CGDTがオフラインRLにおけるアートの状態を前進させ、RCSLの適用性を広範囲なRLタスクにまで拡張する可能性を強調している。

Recent advancements in offline reinforcement learning (RL) have underscored the capabilities of Return-Conditioned Supervised Learning (RCSL), a paradigm that learns the action distribution based on target returns for each state in a supervised manner. However, prevailing RCSL methods largely focus on deterministic trajectory modeling, disregarding stochastic state transitions and the diversity of future trajectory distributions. A fundamental challenge arises from the inconsistency between the sampled returns within individual trajectories and the expected returns across multiple trajectories. Fortunately, value-based methods offer a solution by leveraging a value function to approximate the expected returns, thereby addressing the inconsistency effectively. Building upon these insights, we propose a novel approach, termed the Critic-Guided Decision Transformer (CGDT), which combines the predictability of long-term returns from value-based methods with the trajectory modeling capability of the Decision Transformer. By incorporating a learned value function, known as the critic, CGDT ensures a direct alignment between the specified target returns and the expected returns of actions. This integration bridges the gap between the deterministic nature of RCSL and the probabilistic characteristics of value-based methods. Empirical evaluations on stochastic environments and D4RL benchmark datasets demonstrate the superiority of CGDT over traditional RCSL methods. These results highlight the potential of CGDT to advance the state of the art in offline RL and extend the applicability of RCSL to a wide range of RL tasks.
翻訳日:2023-12-22 15:15:57 公開日:2023-12-21
# ハードパッチマイニングによるBootstrap Maskedビジュアルモデリング

Bootstrap Masked Visual Modeling via Hard Patches Mining ( http://arxiv.org/abs/2312.13714v1 )

ライセンス: Link先を確認
Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tiancai Wang, Xiangyu Zhang, Zhaoxiang Zhang(参考訳) マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性のために多くの注目を集めている。 典型的なアプローチでは、モデルにマスク付きトークンの特定の内容を予測するよう促すが、これは直感的に学生(モデル)に与えられた問題を解決すること(マスク付きコンテンツの予測)を教えることができる。 このような状況下では、パフォーマンスはマスク戦略(提供難易度)と高い相関関係にある。 モデルが教師の靴に身を包み、それ自体で挑戦的な問題を生み出すことが等しく重要であると論じている。 直感的には、再構成損失の高いパッチはハードサンプルと見なすことができ、これらのハードパッチをマスキングすることは自然に要求される再構築タスクとなる。 教師としてモデルに力を与えるため,我々はハードパッチマイニング(hpm)を提案し,パッチによる損失を予測し,次にマスクする場所を決定する。 技術的には、正確な損失値への過剰適合を防ぐために、相対的な目標で訓練される補助損失予測器を導入する。 また,トレーニング手順を徐々にガイドするために,簡単なマスク戦略を提案する。 実証的には、HPMはイメージベンチマークとビデオベンチマークの両方で大幅に改善されている。 興味深いことに、余分な損失予測目標のみを組み込むことで、より良い表現が得られ、再構築が難しい場所を決定する効果が検証される。 コードはhttps://github.com/Haochen-Wang409/HPMで公開されている。

Masked visual modeling has attracted much attention due to its promising potential in learning generalizable representations. Typical approaches urge models to predict specific contents of masked tokens, which can be intuitively considered as teaching a student (the model) to solve given problems (predicting masked contents). Under such settings, the performance is highly correlated with mask strategies (the difficulty of provided problems). We argue that it is equally important for the model to stand in the shoes of a teacher to produce challenging problems by itself. Intuitively, patches with high values of reconstruction loss can be regarded as hard samples, and masking those hard patches naturally becomes a demanding reconstruction task. To empower the model as a teacher, we propose Hard Patches Mining (HPM), predicting patch-wise losses and subsequently determining where to mask. Technically, we introduce an auxiliary loss predictor, which is trained with a relative objective to prevent overfitting to exact loss values. Also, to gradually guide the training procedure, we propose an easy-to-hard mask strategy. Empirically, HPM brings significant improvements under both image and video benchmarks. Interestingly, solely incorporating the extra loss prediction objective leads to better representations, verifying the efficacy of determining where is hard to reconstruct. The code is available at https://github.com/Haochen-Wang409/HPM.
翻訳日:2023-12-22 15:15:29 公開日:2023-12-21
# 分類モデルに基づく学習指向型DLPシステム

A Learning oriented DLP System based on Classification Model ( http://arxiv.org/abs/2312.13711v1 )

ライセンス: Link先を確認
Kishu Gupta, Ashwani Kush(参考訳) データは組織にとって重要な資産であり、データ共有は組織の成長のライフラインであり、データ損失につながる可能性がある。 データ漏洩は組織が直面している最も重大な問題です。 データ漏洩を緩和するために、データ漏洩防止システム(DLPS)は組織によって様々なレベルに配置されている。 DLPSは、DAR、DIM/DIT、DIUなど、あらゆる種類のデータを保護することができる。 統計解析、正規表現、データフィンガープリントはdlpシステムでよく行われている手法である。 これらの技術のうち、統計解析手法はデータセキュリティのDLPモデルに最も適している。 本稿では,文書分類のための統計的DLPモデルを定義する。 モデルでは、tf-idf(term frequency-inverse document frequency)、有名な項カウント/緩和関数、ベクトル化、勾配強調文書分類など、さまざまな統計的アプローチを使用して、ドキュメントへのアクセスを許可する前に分類する。 機械学習はモデルのテストとトレーニングに使用される。 提案モデルはまた、非常に効率的で正確なアプローチである IGBCA (Improvified Gradient Boosting Classification Algorithm) を導入し、文書分類において、データの漏洩を防止する。 結果から,提案モデルが文書を高精度に分類し,データ損失を防止できることを示す。

Data is the key asset for organizations and data sharing is lifeline for organization growth; which may lead to data loss. Data leakage is the most critical issue being faced by organizations. In order to mitigate the data leakage issues data leakage prevention systems (DLPSs) are deployed at various levels by the organizations. DLPSs are capable to protect all kind of data i.e. DAR, DIM/DIT, DIU. Statistical analysis, regular expression, data fingerprinting are common approaches exercised in DLP system. Out of these techniques; statistical analysis approach is most appropriate for proposed DLP model of data security. This paper defines a statistical DLP model for document classification. Model uses various statistical approaches like TF-IDF (Term Frequency- Inverse Document Frequency) a renowned term count/weighing function, Vectorization, Gradient boosting document classification etc. to classify the documents before allowing any access to it. Machine learning is used to test and train the model. Proposed model also introduces an extremely efficient and more accurate approach; IGBCA (Improvised Gradient Boosting Classification Algorithm); for document classification, to prevent them from possible data leakage. Results depicts that proposed model can classify documents with high accuracy and on basis of which data can be prevented from being loss.
翻訳日:2023-12-22 15:15:06 公開日:2023-12-21
# 分離性によるニューラルodeの最適分類

Optimized classification with neural ODEs via separability ( http://arxiv.org/abs/2312.13807v1 )

ライセンス: Link先を確認
Antonio \'Alvarez-L\'opez, Rafael Orive-Illera, Enrique Zuazua(参考訳) N$ポイントの分類は、残留ネットワークの時間連続的極限を表すニューラル常微分方程式(ニューラルODE)のレンズを通して見る場合、同時制御問題となる。 狭いモデルでは、隠れた層ごとに1つのニューロンを持つと、そのタスクは$O(N)$ニューロンで達成できることが示されている。 本研究では,クラスタ単位の効率的な分類に必要なニューロン数,特に点が[0,1]^d$で独立に分布する最悪の場合のニューロン数の推定に焦点をあてる。 我々の分析は、O(N)$ニューロンより少ない確率を定量化する新しい方法を提供し、漸近的な振る舞いを$d$と$N$の増加として強調する。 さらに、データが一般的な位置にあるという唯一の仮定の下で、任意の初期設定から$d$ポイントのクラスタを同時に分類し、最大複雑性を$O(N/d)$ニューロンに効果的に還元する新しい構成的アルゴリズムを提案する。

Classification of $N$ points becomes a simultaneous control problem when viewed through the lens of neural ordinary differential equations (neural ODEs), which represent the time-continuous limit of residual networks. For the narrow model, with one neuron per hidden layer, it has been shown that the task can be achieved using $O(N)$ neurons. In this study, we focus on estimating the number of neurons required for efficient cluster-based classification, particularly in the worst-case scenario where points are independently and uniformly distributed in $[0,1]^d$. Our analysis provides a novel method for quantifying the probability of requiring fewer than $O(N)$ neurons, emphasizing the asymptotic behavior as both $d$ and $N$ increase. Additionally, under the sole assumption that the data are in general position, we propose a new constructive algorithm that simultaneously classifies clusters of $d$ points from any initial configuration, effectively reducing the maximal complexity to $O(N/d)$ neurons.
翻訳日:2023-12-22 15:08:13 公開日:2023-12-21
# 連続環境における量子強化学習のための変分量子回路設計

Variational Quantum Circuit Design for Quantum Reinforcement Learning on Continuous Environments ( http://arxiv.org/abs/2312.13798v1 )

ライセンス: Link先を確認
Georg Kruse, Theodora-Augustina Dragan, Robert Wille and Jeanette Miriam Lorenz(参考訳) 量子強化学習(QRL)は、アルゴリズムのアーキテクチャにおいて量子サブモジュールを使用する強化学習(RL)の分野として登場した。 QRLの1つの分野は、関数近似器として、変分量子回路(VQC)によるニューラルネットワーク(NN)の置換に焦点を当てている。 最初の研究は、離散的なアクション空間を持つ古典的な環境において有望な結果を示しているが、提案されたVQCの設計上の選択の多くは詳細な調査を欠いている。 そこで本研究では,QRLエージェントのトレーニング能力に対する,角度埋め込み,符号化ブロックアーキテクチャ,後処理などのVQC設計選択の影響について検討する。 本稿では,vqc設計がトレーニング性能に大きく影響し,分析コンポーネントのヒューリスティックな拡張を導出することを示す。 さらに,連続的な行動空間を持つ古典環境を解くためにQRLエージェントを設計し,従来のフィードフォワードNNに対してエージェントをベンチマークする方法を示す。

Quantum Reinforcement Learning (QRL) emerged as a branch of reinforcement learning (RL) that uses quantum submodules in the architecture of the algorithm. One branch of QRL focuses on the replacement of neural networks (NN) by variational quantum circuits (VQC) as function approximators. Initial works have shown promising results on classical environments with discrete action spaces, but many of the proposed architectural design choices of the VQC lack a detailed investigation. Hence, in this work we investigate the impact of VQC design choices such as angle embedding, encoding block architecture and postprocessesing on the training capabilities of QRL agents. We show that VQC design greatly influences training performance and heuristically derive enhancements for the analyzed components. Additionally, we show how to design a QRL agent in order to solve classical environments with continuous action spaces and benchmark our agents against classical feed-forward NNs.
翻訳日:2023-12-22 15:07:54 公開日:2023-12-21
# 正規化誤り訂正によるフェデレーション学習のためのスパーストレーニング

Sparse Training for Federated Learning with Regularized Error Correction ( http://arxiv.org/abs/2312.13795v1 )

ライセンス: Link先を確認
Ran Greidi, Kobi Cohen(参考訳) Federated Learning(FL)は、ディープニューラルネットワーク(DNN)モデルをトレーニングする上で大きなメリットがあるため、大きな関心を集めている。 しかし、通信資源や計算資源は限られているため、FLシステムにおけるDNNモデルの訓練は、複雑なタスクにおける計算コストや通信コストの増大などの課題に直面している。 各クライアント(すなわちノード)送信の次元をスケールダウンするために、スパーストレーニングスキームが注目を集めている。 具体的には,重要な更新のみをパラメータサーバ(PS)に送信し,残りをローカルに蓄積するという,エラー訂正手法によるスペーシングが有望な手法である。 誤り訂正法は収束を損なうことなくクライアント対PSメッセージの大幅なスペーサー化レベルを達成することが示されているが、スペーサー化は安定化効果によりさらに未解決のままである。 本稿では,この課題を克服するために,蓄積正規化埋め込み(flare)を用いた連合学習(federated learning)と呼ばれる新しいアルゴリズムを提案する。 flare氏は、flプロセスへの埋め込みを規則化し、更新されたモデルのプルを累積化することで、新しいスパーストレーニングアプローチを提案する。 FLAREの性能は、多種多様な複雑なモデルに関する広範な実験を通じて検証され、顕著なスパーシリティレベル(現在の最先端の10倍以上の)を達成するとともに、精度が大幅に向上した。 さらに、研究者や関連分野の開発者の利益のために、オープンソースのソフトウェアパッケージが開発されている。

Federated Learning (FL) has attracted much interest due to the significant advantages it brings to training deep neural network (DNN) models. However, since communications and computation resources are limited, training DNN models in FL systems face challenges such as elevated computational and communication costs in complex tasks. Sparse training schemes gain increasing attention in order to scale down the dimensionality of each client (i.e., node) transmission. Specifically, sparsification with error correction methods is a promising technique, where only important updates are sent to the parameter server (PS) and the rest are accumulated locally. While error correction methods have shown to achieve a significant sparsification level of the client-to-PS message without harming convergence, pushing sparsity further remains unresolved due to the staleness effect. In this paper, we propose a novel algorithm, dubbed Federated Learning with Accumulated Regularized Embeddings (FLARE), to overcome this challenge. FLARE presents a novel sparse training approach via accumulated pulling of the updated models with regularization on the embeddings in the FL process, providing a powerful solution to the staleness effect, and pushing sparsity to an exceptional level. The performance of FLARE is validated through extensive experiments on diverse and complex models, achieving a remarkable sparsity level (10 times and more beyond the current state-of-the-art) along with significantly improved accuracy. Additionally, an open-source software package has been developed for the benefit of researchers and developers in related fields.
翻訳日:2023-12-22 15:07:39 公開日:2023-12-21
# LogSumExp近似を用いた色形態素形成へのアプローチ

An Approach to Colour Morphological Supremum Formation using the LogSumExp Approximation ( http://arxiv.org/abs/2312.13792v1 )

ライセンス: Link先を確認
Marvin Kahra, Michael Breu{\ss}, Andreas Kleefeld, Martin Welk(参考訳) 数学的形態学は画像処理の一部であり、多くの応用において実りあることが証明されている。 数学的形態学における2つの主な操作は拡張と侵食である。 これらは、画像の特定の部分における音域上の順序に関する上限または無限の構成に基づいている。 音節順序付けはグレースケールのモルフォロジーで容易に実現でき、色形態学にはいくつかの形態学的手法が提案されている。 しかし、これら全てには一定の制限がある。 本稿では,loewner 順序に基づくフィールドにおける先行研究に展開する色彩形態について,新しいアプローチを提案する。 本稿では,maslov が導入したlog-sum exponentiation を用いてsuppremum の近似を考える。 これを対称 2\times2$ 行列のフィールドにおける rgb イメージの埋め込みに適用する。 このようにして、色を表すほぼ等方行列と推移性の構造的利点を得る。 数値実験では,提案手法の顕著な特性を強調した。

Mathematical morphology is a part of image processing that has proven to be fruitful for numerous applications. Two main operations in mathematical morphology are dilation and erosion. These are based on the construction of a supremum or infimum with respect to an order over the tonal range in a certain section of the image. The tonal ordering can easily be realised in grey-scale morphology, and some morphological methods have been proposed for colour morphology. However, all of these have certain limitations. In this paper we present a novel approach to colour morphology extending upon previous work in the field based on the Loewner order. We propose to consider an approximation of the supremum by means of a log-sum exponentiation introduced by Maslov. We apply this to the embedding of an RGB image in a field of symmetric $2\times2$ matrices. In this way we obtain nearly isotropic matrices representing colours and the structural advantage of transitivity. In numerical experiments we highlight some remarkable properties of the proposed approach.
翻訳日:2023-12-22 15:07:13 公開日:2023-12-21
# TinySAM: 効率的なセグメンテーションモデルのためのエンベロープを押す

TinySAM: Pushing the Envelope for Efficient Segment Anything Model ( http://arxiv.org/abs/2312.13789v1 )

ライセンス: Link先を確認
Han Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen(参考訳) 近年,セグメンテーションモデル (SAM) は強力なセグメンテーション能力を示し,コンピュータビジョン分野で大きな注目を集めている。 大量の後続の作業は、事前訓練されたsamに基づいて様々なアプリケーションを開発し、下流ビジョンタスクで印象的なパフォーマンスを達成した。 しかし、SAMは重いアーキテクチャで構成され、大量の計算能力を必要とするため、計算制約エッジデバイスへのSAMのさらなる適用を妨げる。 そこで本稿では,強力なゼロショット性能を維持しつつ,小セグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。 まず, オンラインハードプロンプトサンプリングによる全段階的知識蒸留手法を提案し, 軽量な学生モデルを蒸留する。 また、学習後の量子化を高速セグメント化タスクに適応させ、計算コストをさらに削減する。 さらに、すべての戦略を階層的にセグメンテーションすることで、パフォーマンスの低下がほとんどなく、すべての推論を$2\times$で加速する。 これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。 様々なゼロショット転送タスクに関する広範囲な実験は、tinysamが対応するメソッドに対して著しく有利な性能を示している。 事前トレーニングされたモデルとコードは、https://github.com/xinghaochen/TinySAMとhttps://gitee.com/mindspore/models/tree/master/research/cv/TinySAMで利用できる。

Recently segment anything model (SAM) has shown powerful segmentation capability and has drawn great attention in computer vision fields. Massive following works have developed various applications based on the pretrained SAM and achieved impressive performance on downstream vision tasks. However, SAM consists of heavy architectures and requires massive computational capacity, which hinders the further application of SAM on computation constrained edge devices. To this end, in this paper we propose a framework to obtain a tiny segment anything model (TinySAM) while maintaining the strong zero-shot performance. We first propose a full-stage knowledge distillation method with online hard prompt sampling strategy to distill a lightweight student model. We also adapt the post-training quantization to the promptable segmentation task and further reduce the computational cost. Moreover, a hierarchical segmenting everything strategy is proposed to accelerate the everything inference by $2\times$ with almost no performance degradation. With all these proposed methods, our TinySAM leads to orders of magnitude computational reduction and pushes the envelope for efficient segment anything task. Extensive experiments on various zero-shot transfer tasks demonstrate the significantly advantageous performance of our TinySAM against counterpart methods. Pre-trained models and codes will be available at https://github.com/xinghaochen/TinySAM and https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
翻訳日:2023-12-22 15:07:02 公開日:2023-12-21
# 動的ネットワークにおける進化的コミュニティ検出アルゴリズムのベンチマーク

Benchmarking Evolutionary Community Detection Algorithms in Dynamic Networks ( http://arxiv.org/abs/2312.13784v1 )

ライセンス: Link先を確認
Giordano Paoletti, Luca Gioacchini, Marco Mellia, Luca Vassio, Jussara M. Almeida(参考訳) 動的複雑ネットワークでは、エンティティは時間とともに進化するネットワークコミュニティを相互作用させ形成する。 多くの静的コミュニティ検出(CD)ソリューションの中で、モジュラリティベースのLouvainやGreedy Modularity Algorithm(GMA)は、その直感性とスケーラビリティのために現実世界のアプリケーションに広く使われている。 それでも、ネットワーク接続の進化がコミュニティの識別を損なう可能性があるため、動的グラフにおけるCDの対応は未解決の問題のままである。 したがって、連続するネットワークスナップショットにGMAを鼻で適用することは、コミュニティの時間的矛盾につながる可能性がある。 GMA の2つの進化的適応 sGMA と $\alpha$GMA がこの問題に対処するために提案されている。 しかし、これらの手法のパフォーマンスを評価し、どのシナリオが適しているかを理解することは、包括的なメトリクスセットと一貫した基礎的真理が欠如しているため困難である。 これらの課題に対処するために (i)動的ネットワークにおける進化的CDアルゴリズムのベンチマークフレームワーク (ii) 一般化モジュラリティベースのアプローチ(NeGMA)。 私たちのフレームワークでは、合成されたコミュニティ構造グラフを生成し、異なるレートで9つの基本的なグラフ変換によって進化するシナリオを設計できます。 私たちは3つの指標、すなわち正確性、遅延、安定性を通してパフォーマンスを評価します。 以上の結果から, 間欠的変換の検出には$\alpha$GMAが適しているが, 急激な変化に苦慮し, sGMAは優れた安定性を達成できるが, 新興コミュニティの検出には失敗し, 応答性や瞬時変換の検出に優れたNeGMAはバランスの良い解であることがわかった。

In dynamic complex networks, entities interact and form network communities that evolve over time. Among the many static Community Detection (CD) solutions, the modularity-based Louvain, or Greedy Modularity Algorithm (GMA), is widely employed in real-world applications due to its intuitiveness and scalability. Nevertheless, addressing CD in dynamic graphs remains an open problem, since the evolution of the network connections may poison the identification of communities, which may be evolving at a slower pace. Hence, naively applying GMA to successive network snapshots may lead to temporal inconsistencies in the communities. Two evolutionary adaptations of GMA, sGMA and $\alpha$GMA, have been proposed to tackle this problem. Yet, evaluating the performance of these methods and understanding to which scenarios each one is better suited is challenging because of the lack of a comprehensive set of metrics and a consistent ground truth. To address these challenges, we propose (i) a benchmarking framework for evolutionary CD algorithms in dynamic networks and (ii) a generalised modularity-based approach (NeGMA). Our framework allows us to generate synthetic community-structured graphs and design evolving scenarios with nine basic graph transformations occurring at different rates. We evaluate performance through three metrics we define, i.e. Correctness, Delay, and Stability. Our findings reveal that $\alpha$GMA is well-suited for detecting intermittent transformations, but struggles with abrupt changes; sGMA achieves superior stability, but fails to detect emerging communities; and NeGMA appears a well-balanced solution, excelling in responsiveness and instantaneous transformations detection.
翻訳日:2023-12-22 15:06:39 公開日:2023-12-21
# 産業的異常検出のための合成論理を明かすショット部分分割

Few Shot Part Segmentation Reveals Compositional Logic for Industrial Anomaly Detection ( http://arxiv.org/abs/2312.13783v1 )

ライセンス: Link先を確認
Soopil Kim, Sion An, Philip Chikontwe, Myeongkyun Kang, Ehsan Adeli, Kilian M. Pohl, Sanghyun Park(参考訳) 論理異常(英: Logical Anomalies, LA)とは、画像内の成分の量、配置、構成など、基礎となる論理的制約に違反するデータを指す。 このような異常を正確に検出するには、セグメンテーションを通じて様々なコンポーネントタイプを推論する必要がある。 しかし、セマンティックセグメンテーションのためのピクセルレベルのアノテーションのキュレーションには時間と費用がかかる。 事前の少数または教師なしのコパートセグメンテーションアルゴリズムは存在するが、しばしば産業用オブジェクトのイメージで失敗する。 これらの画像には同様のテクスチャや形状の部品があり、正確な区別は難しい。 本研究では,いくつかのラベル付きサンプルと,論理的制約を共有する未ラベル画像を利用するLA検出のための新しい成分分割モデルを提案する。 非ラベル画像間の一貫したセグメンテーションを確保するために,エントロピー損失を伴うヒストグラムマッチング損失を用いる。 セグメンテーション予測が重要な役割を担いながら,3つのメモリバンク(クラスヒストグラム,コンポーネント構成埋め込み,パッチレベルの表現)を通して視覚的意味論から重要な側面を捉えることにより,局所的および大域的サンプルの妥当性を検出することを提案する。 LAを効果的に検出するために,異なるメモリバンクからの異常スコアを推論で標準化する適応スケーリング手法を提案する。 公開ベンチマークmvtec loco adを用いた広範な実験により,la検出時のaurocは98.1%,競合手法は89.6%であった。

Logical anomalies (LA) refer to data violating underlying logical constraints e.g., the quantity, arrangement, or composition of components within an image. Detecting accurately such anomalies requires models to reason about various component types through segmentation. However, curation of pixel-level annotations for semantic segmentation is both time-consuming and expensive. Although there are some prior few-shot or unsupervised co-part segmentation algorithms, they often fail on images with industrial object. These images have components with similar textures and shapes, and a precise differentiation proves challenging. In this study, we introduce a novel component segmentation model for LA detection that leverages a few labeled samples and unlabeled images sharing logical constraints. To ensure consistent segmentation across unlabeled images, we employ a histogram matching loss in conjunction with an entropy loss. As segmentation predictions play a crucial role, we propose to enhance both local and global sample validity detection by capturing key aspects from visual semantics via three memory banks: class histograms, component composition embeddings and patch-level representations. For effective LA detection, we propose an adaptive scaling strategy to standardize anomaly scores from different memory banks in inference. Extensive experiments on the public benchmark MVTec LOCO AD reveal our method achieves 98.1% AUROC in LA detection vs. 89.6% from competing methods.
翻訳日:2023-12-22 15:06:13 公開日:2023-12-21
# シーンテキストのための単一点からポリゴンへの進化的進化

Progressive Evolution from Single-Point to Polygon for Scene Text ( http://arxiv.org/abs/2312.13778v1 )

ライセンス: Link先を確認
Linger Deng, Mingxin Huang, Xudong Xie, Yuliang Liu, Lianwen Jin, Xiang Bai(参考訳) コンパクト化に向けたテキスト形状表現の進歩により、テキスト検出とスポッティング性能が向上したが、アノテーションコストが高い。 現在のモデルはコスト削減のために単一ポイントアノテーションを使用しているが、下流アプリケーションには十分なローカライズ情報がない。 この制限を克服するために、単一点をコンパクトなポリゴンに効率的に変換できるPoint2Polygonを導入する。 本手法では,認識信頼度に基づくアンカーポイントの作成と選択から,認識情報を用いて多角形を垂直および水平に精錬し,形状を最適化する。 我々は多角形生成の精度を広範囲な実験により実証する。 1) 地上の真理点からポリゴンを作成することにより, ICDAR 2015において精度82.0%を達成した。 2)本法により生成したポリゴンを用いたトレーニング検出器では,グラウンド真理(GT)によるトレーニングと比較して精度が86%に達した。 3)さらに,提案するpoint2多角形をシームレスに統合して,単一点スポッターに多角形を生成することができる。 この統合により、生成されたポリゴンの精度は82.5%向上した。 なお,本手法は合成認識情報にのみ依存しており,単一点以上の手動アノテーションは不要である。

The advancement of text shape representations towards compactness has enhanced text detection and spotting performance, but at a high annotation cost. Current models use single-point annotations to reduce costs, yet they lack sufficient localization information for downstream applications. To overcome this limitation, we introduce Point2Polygon, which can efficiently transform single-points into compact polygons. Our method uses a coarse-to-fine process, starting with creating and selecting anchor points based on recognition confidence, then vertically and horizontally refining the polygon using recognition information to optimize its shape. We demonstrate the accuracy of the generated polygons through extensive experiments: 1) By creating polygons from ground truth points, we achieved an accuracy of 82.0% on ICDAR 2015; 2) In training detectors with polygons generated by our method, we attained 86% of the accuracy relative to training with ground truth (GT); 3) Additionally, the proposed Point2Polygon can be seamlessly integrated to empower single-point spotters to generate polygons. This integration led to an impressive 82.5% accuracy for the generated polygons. It is worth mentioning that our method relies solely on synthetic recognition information, eliminating the need for any manual annotation beyond single points.
翻訳日:2023-12-22 15:05:44 公開日:2023-12-21
# ビデオによるパーキンソン病のポーズに基づく振戦タイプとレベル分析

Pose-based Tremor Type and Level Analysis for Parkinson's Disease from Video ( http://arxiv.org/abs/2312.13776v1 )

ライセンス: Link先を確認
Haozheng Zhang and Edmond S. L. Ho and Xiatian Zhang and Silvia Del Din and Hubert P. H. Shum(参考訳) 目的:現在PDの診断法は臨床検査に依存している。 診断精度は73%から84%の範囲であり,臨床評価者の経験に影響されている。 したがって、pd症状識別のための自動的かつ効果的かつ解釈可能な支援システムは、臨床医がより堅牢なpd診断決定を行うのに役立つ。 方法:本研究はパーキンソンの震動(PT)を解析してPD解析を支援することを提案する。 そこで本研究では,前面人物の消費者グレード映像を入力として,pt分類と重大度推定を行う深層学習システムであるspa-ptaを提案する。 このシステムの中核は、関連するpt情報とフィルタノイズを効果的に抽出する軽量なピラミッド型チャネル・スキーズ・フュージョンアーキテクチャを備えた、新しいアテンションモジュールである。 システム解釈性を改善しながら、モデリング性能を向上させる。 結果: PT分類タスクと震度評価タスクの2つのタスクに対して, 個別に1回限りのクロスバリデーションによるシステム検証を行った。 本システムでは,ptを非ptクラスに分類する場合,91.3%の精度と80.0%のf1-scoreと76.4%の精度と76.7%のf1-scoreを,より複雑なマルチクラスの振れ分類タスクで提供する。 結論: PT 症状の未診断症例に対する PD の警告サインとして, 費用対効果の高いPT 分類と震度推定結果を提供する。 さらに、限られた臨床資源を持つ地域でPD診断を支援する潜在的ソリューションを提供する。

Purpose:Current methods for diagnosis of PD rely on clinical examination. The accuracy of diagnosis ranges between 73% and 84%, and is influenced by the experience of the clinical assessor. Hence, an automatic, effective and interpretable supporting system for PD symptom identification would support clinicians in making more robust PD diagnostic decisions. Methods: We propose to analyze Parkinson's tremor (PT) to support the analysis of PD, since PT is one of the most typical symptoms of PD with broad generalizability. To realize the idea, we present SPA-PTA, a deep learning-based PT classification and severity estimation system that takes consumer-grade videos of front-facing humans as input. The core of the system is a novel attention module with a lightweight pyramidal channel-squeezing-fusion architecture that effectively extracts relevant PT information and filters noise. It enhances modeling performance while improving system interpretability. Results:We validate our system via individual-based leave-one-out cross-validation on two tasks: the PT classification task and the tremor severity rating estimation task. Our system presents a 91.3% accuracy and 80.0% F1-score in classifying PT with non-PT class, while providing a 76.4% accuracy and 76.7% F1-score in more complex multiclass tremor rating classification task. Conclusion: Our system offers a cost-effective PT classification and tremor severity estimation results as warning signs of PD for undiagnosed patients with PT symptoms. In addition, it provides a potential solution for supporting PD diagnosis in regions with limited clinical resources.
翻訳日:2023-12-22 15:05:24 公開日:2023-12-21
# 循環経済におけるブロックチェーン統合の前提と提案について調査する。 Delphiによる研究

Investigating Assumptions and Proposals for Blockchain Integration in the Circular Economy. A Delphi Study ( http://arxiv.org/abs/2312.13774v1 )

ライセンス: Link先を確認
Giulio Caldarelli(参考訳) 循環経済とブロックチェーンの誇大広告への関心が高まり、多くの統合が提案された。 しかし,実用性に関する研究は少なく,循環型経済におけるブロックチェーンポテンシャルの仮定が疑問視されることはほとんどなかった。 本研究は、最も著名なブロックチェーン専門家11人の助けを借りて、循環経済の多くの分野における技術統合を批判的に分析し、その結果を予測した。 delphiのテクニックは、専門家のビジョンと意見の間で合意に達するために活用されている。 結果は、循環経済の統合が成功する可能性は低いが、特定の条件が満たされた場合、長期的には成功するという見方を支持する。

Given the rising interest in the circular economy and blockchain hype, numerous integrations were proposed. However, studies on the practical feasibility were scarce, and the assumptions of blockchain potential in the circular economy were rarely questioned. With the help of eleven of the most prominent blockchain experts, the present study critically analyzed technology integration in many areas of the circular economy to forecast their possible outcomes. Delphi's technique is leveraged to reach a consensus among experts' visions and opinions. Results support the view that some circular economy integrations are unlikely to succeed, while others if specific conditions are met, may prove to be successful in the long run.
翻訳日:2023-12-22 15:04:57 公開日:2023-12-21
# 教師付き自己組み立て型インコンテキスト学習によるタスク性能とモデル校正について

On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning ( http://arxiv.org/abs/2312.13772v1 )

ライセンス: Link先を確認
Chengzu Li, Han Zhou, Goran Glava\v{s}, Anna Korhonen, Ivan Vuli\'c(参考訳) 標準教師付き微調整(SFT)パラダイムに従って、インコンテキスト学習(ICL)は、最近の大規模言語モデル(LLM)の進歩によって推進される効率的なアプローチとなり、数発のデータセットで様々なタスクにわたって有望なパフォーマンスが得られる。 しかし、両方のパラダイムは、特にそのような限られたデータ設定において、過信(すなわち誤校正)の致命的な問題に悩まされがちである。 本研究では,学習方法の異なる選択に対して,パフォーマンスとキャリブレーションと相互作用の両方の観点から,行動の詳細な分析を行う。 Through extensive controlled experiments, we find that simultaneous gains for both task performance and calibration are difficult to achieve, and the problem of miscalibration exists across all learning methods in low-resource scenarios.To address this challenging trade-off between performance and calibration, we then investigate the potential of self-ensembling techniques applied at different modeling stages (e.g., variations of in-context examples or variations in prompts or different ensembling strategies). ICLに加えて、SFT上での自己理解の可能性も正当化し、予測を校正し、比較や性能の向上を図る。 我々の研究は、選択する学習パラダイムと、タスクパフォーマンスとllmのキャリブレーションの両方を強化する方法に光を当てている。

Following the standard supervised fine-tuning (SFT) paradigm, in-context learning (ICL) has become an efficient approach propelled by the recent advancements in large language models (LLMs), yielding promising performance across various tasks in few-shot data setups. However, both paradigms are prone to suffer from the critical problem of overconfidence (i.e., miscalibration), especially in such limited data setups. In this work, we deliver an in-depth analysis of the behavior across different choices of learning methods from the perspective of both performance and calibration, as well as their interplay. Through extensive controlled experiments, we find that simultaneous gains for both task performance and calibration are difficult to achieve, and the problem of miscalibration exists across all learning methods in low-resource scenarios.To address this challenging trade-off between performance and calibration, we then investigate the potential of self-ensembling techniques applied at different modeling stages (e.g., variations of in-context examples or variations in prompts or different ensembling strategies). We justify the feasibility of self-ensembling on SFT in addition to ICL, to make the predictions more calibrated and have comparable or even better performance. Our work sheds light on which learning paradigm to choose and how to enhance both task performance and calibration of LLMs.
翻訳日:2023-12-22 15:04:46 公開日:2023-12-21
# AppAgent: スマートフォンユーザとしてのマルチモーダルエージェント

AppAgent: Multimodal Agents as Smartphone Users ( http://arxiv.org/abs/2312.13771v1 )

ライセンス: Link先を確認
Zhao Yang and Jiaxuan Liu and Yucheng Han and Xin Chen and Zebiao Huang and Bin Fu and Gang Yu(参考訳) 大規模言語モデル(LLM)の最近の進歩は、複雑なタスクを実行できるインテリジェントエージェントの開発につながっている。 本稿では,スマートフォンアプリケーションを操作するための新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。 本フレームワークは,タッピングやスワイプなどのヒューマンライクなインタラクションを模倣した,簡易なアクションスペースによるスマートフォンアプリケーションの操作を可能にする。 この新しいアプローチは、システムバックエンドアクセスの必要性を回避し、様々なアプリに適用性を広げる。 エージェントの機能の中心は、その革新的な学習方法です。 エージェントは、自律的な探索または人間のデモを観察することで、ナビゲートと新しいアプリの使用を学習する。 このプロセスは、エージェントが異なるアプリケーション間で複雑なタスクを実行するために参照する知識ベースを生成する。 エージェントの実用性を実証するため,ソーシャルメディア,メール,地図,ショッピング,高度な画像編集ツールなど10種類のアプリケーションで50以上のタスクを広範囲にテストした。 以上の結果から,エージェントの多種多様なハイレベルタスクの処理能力が確認できた。

Recent advancements in large language models (LLMs) have led to the creation of intelligent agents capable of performing complex tasks. This paper introduces a novel LLM-based multimodal agent framework designed to operate smartphone applications. Our framework enables the agent to operate smartphone applications through a simplified action space, mimicking human-like interactions such as tapping and swiping. This novel approach bypasses the need for system back-end access, thereby broadening its applicability across diverse apps. Central to our agent's functionality is its innovative learning method. The agent learns to navigate and use new apps either through autonomous exploration or by observing human demonstrations. This process generates a knowledge base that the agent refers to for executing complex tasks across different applications. To demonstrate the practicality of our agent, we conducted extensive testing over 50 tasks in 10 different applications, including social media, email, maps, shopping, and sophisticated image editing tools. The results affirm our agent's proficiency in handling a diverse array of high-level tasks.
翻訳日:2023-12-22 15:04:23 公開日:2023-12-21
# リアルタイム動的手指再建のための3次元スプレーティング

3D Points Splatting for Real-Time Dynamic Hand Reconstruction ( http://arxiv.org/abs/2312.13770v1 )

ライセンス: Link先を確認
Zheheng Jiang, Hossein Rahmani, Sue Black, Bryan M. Williams(参考訳) 3d-pshr, 実時間, フォトリアリスティックハンドリコンストラクションアプローチを用いて手指再建を行う。 本稿では,高分解能手形状表現を実現するための自己適応型標準点アップサンプリング戦略を提案する。 これは、MANOモデルを分割する一般的な慣行とは対照的に、標準点の動的変化に適応して、標準空間から対象のポーズに手を変形させる自己適応的変形により、柔軟性が向上し、幾何整合性が向上する。 テクスチャをモデル化するために,テクスチャを内在するアルベドやポーズ認識シェーディングに分解し,コンテキスト認識モジュールを通して学習する。 さらに,このアプローチにより,幾何学モデルと外観モデルを同時にエンドツーエンドで訓練することができる。 本手法は,ハンドヘルドスマートフォンで撮影された単眼映像や,多彩な手ポーズを特徴とする大規模マルチビュー映像を含む,複数のデータセットを用いて,アニメーション性,フォトリアリスティック,リフレッシュブルハンドリコンストラクションを生成できることを実証する。 また,本手法は,既存の最先端手法に比べて優れた性能を維持しつつ,リアルタイムレンダリング速度を実現することを実証する。

We present 3D Points Splatting Hand Reconstruction (3D-PSHR), a real-time and photo-realistic hand reconstruction approach. We propose a self-adaptive canonical points upsampling strategy to achieve high-resolution hand geometry representation. This is followed by a self-adaptive deformation that deforms the hand from the canonical space to the target pose, adapting to the dynamic changing of canonical points which, in contrast to the common practice of subdividing the MANO model, offers greater flexibility and results in improved geometry fitting. To model texture, we disentangle the appearance color into the intrinsic albedo and pose-aware shading, which are learned through a Context-Attention module. Moreover, our approach allows the geometric and the appearance models to be trained simultaneously in an end-to-end manner. We demonstrate that our method is capable of producing animatable, photorealistic and relightable hand reconstructions using multiple datasets, including monocular videos captured with handheld smartphones and large-scale multi-view videos featuring various hand poses. We also demonstrate that our approach achieves real-time rendering speeds while simultaneously maintaining superior performance compared to existing state-of-the-art methods.
翻訳日:2023-12-22 15:04:09 公開日:2023-12-21
# 目標知覚分類のための文脈目標属性の抽出

Exploiting Contextual Target Attributes for Target Sentiment Classification ( http://arxiv.org/abs/2312.13766v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) 既存のptlmベースのtscモデルは2つのグループに分類できる。 1) PTLMをコンテキストエンコーダとして採用する微調整モデル 2) 分類タスクをテキスト/単語生成タスクに転送するプロンプトベースのモデル。 本稿では,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。 具体的には、PTLMの強力な言語モデリング能力を利用して、レビューコンテキストに関連する対象の属性を生成するドメインおよびターゲット制約付きクローゼテストの設計を行う。 属性にはターゲットの背景情報とプロパティ情報が含まれており、レビューコンテキストとターゲットのセマンティクスを強化するのに役立ちます。 tscに取り組むための属性を利用するために、まず、属性をノードとして扱い、(1)オフ・ザ・セット・依存性・パーサによって自動生成される構文グラフと、(2)自己アテンション機構から派生したレビューコンテキストのセマンティクスグラフとを組み合わせることにより、異種情報グラフを構築する。 次に,属性情報,構文情報,文脈情報間の相互作用をモデル化する異種情報ゲートグラフ畳み込みネットワークを提案する。 3つのベンチマークデータセットの実験結果から,新たな最先端性能を実現するモデルの有効性が示された。

Existing PTLM-based models for TSC can be categorized into two groups: 1) fine-tuning-based models that adopt PTLM as the context encoder; 2) prompting-based models that transfer the classification task to the text/word generation task. In this paper, we present a new perspective of leveraging PTLM for TSC: simultaneously leveraging the merits of both language modeling and explicit target-context interactions via contextual target attributes. Specifically, we design the domain- and target-constrained cloze test, which can leverage the PTLMs' strong language modeling ability to generate the given target's attributes pertaining to the review context. The attributes contain the background and property information of the target, which can help to enrich the semantics of the review context and the target. To exploit the attributes for tackling TSC, we first construct a heterogeneous information graph by treating the attributes as nodes and combining them with (1) the syntax graph automatically produced by the off-the-shelf dependency parser and (2) the semantics graph of the review context, which is derived from the self-attention mechanism. Then we propose a heterogeneous information gated graph convolutional network to model the interactions among the attribute information, the syntactic information, and the contextual information. The experimental results on three benchmark datasets demonstrate the superiority of our model, which achieves new state-of-the-art performance.
翻訳日:2023-12-22 15:03:45 公開日:2023-12-21
# チーム Irisapu Project Description for DRC2023

Team Irisapu Project Description for DRC2023 ( http://arxiv.org/abs/2312.13765v1 )

ライセンス: Link先を確認
Reon Ohashi, Shinjitsu Agatsuma, Kazuya Tsubokura and Yurie Iribe(参考訳) 本稿では,ダイアログロボットコンペティション2023(DRC2023)の予備ラウンドのために,Team Irisapuが設計したダイアログロボットシステムについて述べる。 所定のシナリオに固執しながら柔軟に対話応答を生成するために,openaiのgpt-3を用いて対話応答文の生成を試みた。 対話シナリオを5つのサブscenariosに分割し,各サブscenarioに対してプロンプトを作成することにより,ユーザに対して適切な応答を行うシステムの構築を目指す。 また,対話のブレークダウンを柔軟に処理できるリカバリ戦略も取り入れた。 当研究グループは,対話的ブレークダウン検出に関する研究に取り組んでおり,このコンペティションにこれまでの知見を取り入れた。 予備ラウンドの結果,システム内のバグが結果に影響を与え,良好な結果が得られなかった。 しかし、"提供された情報の信頼性"の評価カテゴリでは、全チームの中で3位に位置づけました。

This paper describes the dialog robot system designed by Team Irisapu for the preliminary round of the Dialogue Robot Competition 2023 (DRC2023). In order to generate dialogue responses flexibly while adhering to predetermined scenarios, we attempted to generate dialogue response sentences using OpenAI's GPT-3. We aimed to create a system that can appropriately respond to users by dividing the dialogue scenario into five sub-scenarios, and creating prompts for each sub-scenario. Also, we incorporated a recovery strategy that can handle dialogue breakdowns flexibly. Our research group has been working on research related to dialogue breakdown detection, and we incorporated our findings to date in this competition. As a result of the preliminary round, a bug in our system affected the outcome and we were not able to achieve a satisfactory result. However, in the evaluation category of "reliability of provided information", we ranked third among all teams.
翻訳日:2023-12-22 15:03:22 公開日:2023-12-21
# Capture the Flag: 大きな言語モデルによるデータ洞察の発見

Capture the Flag: Uncovering Data Insights with Large Language Models ( http://arxiv.org/abs/2312.13876v1 )

ライセンス: Link先を確認
Issam Laradji, Perouz Taslakian, Sai Rajeswar, Valentina Zantedeschi, Alexandre Lacoste, Nicolas Chapados, David Vazquez, Christopher Pal, Alexandre Drouin(参考訳) 膨大なデータから少数の関連する洞察を抽出することは、データ駆動意思決定の重要な要素である。 しかし、このタスクを達成するには相当な技術スキル、ドメインの専門知識、人的労働が必要である。 本研究では、Large Language Models (LLM) を用いてデータの洞察の発見を自動化し、推論とコード生成技術の最近の進歩を活用する可能性を探る。 本研究では,「旗の獲得」原理に基づく新しい評価手法を提案する。データセットにおける意味的および関連する情報(flag)を認識できるモデルの能力を測定する。 さらに,概念実証エージェントを2つ提案し,実世界の販売データセットでこれらのフラグをキャプチャする能力を比較した。 ここで報告した研究は予備的なものであるが、今後の調査をコミュニティに委ねることは十分に興味深い。

The extraction of a small number of relevant insights from vast amounts of data is a crucial component of data-driven decision-making. However, accomplishing this task requires considerable technical skills, domain expertise, and human labor. This study explores the potential of using Large Language Models (LLMs) to automate the discovery of insights in data, leveraging recent advances in reasoning and code generation techniques. We propose a new evaluation methodology based on a "capture the flag" principle, measuring the ability of such models to recognize meaningful and pertinent information (flags) in a dataset. We further propose two proof-of-concept agents, with different inner workings, and compare their ability to capture such flags in a real-world sales dataset. While the work reported here is preliminary, our results are sufficiently interesting to mandate future exploration by the community.
翻訳日:2023-12-22 14:56:01 公開日:2023-12-21
# 制限ボルツマンマシンを用いた画像クラスタリング

Image Clustering using Restricted Boltzman Machine ( http://arxiv.org/abs/2312.13845v1 )

ライセンス: Link先を確認
Abraham Woubie, Enoch Solomon and Eyael Solomon Emiru(参考訳) 様々な検証システムにおいて、制限ボルツマンマシン(RBM)はフロントエンドとバックエンドの両方のプロセスで有効性を示す。 本稿では,画像クラスタリングタスクにおけるrbmsの利用を提案する。 RBMはイメージをイメージ埋め込みに変換するために訓練されている。 従来のボトムアップ型階層クラスタリング(AHC)技術を採用している。 限定的なテスト顔画像データの課題に対処するため,本研究では2つの主要なステップを用いて,制限ボルツマンマシン(ahc-rbm)を用いた画像クラスタリングのための凝集的階層クラスタリング手法を提案する。 当初、ユニバーサルrbmモデルは利用可能なすべてのトレーニングデータセットを使用してトレーニングされる。 その後、各テスト画像からのデータを用いて適応RBMモデルを訓練する。 最後に、埋め込みベクトルであるRBMベクトルは、これらの適応モデルの可視から隠れた重み行列とバイアスベクトルを連結することにより生成される。 これらのベクトルはクラス固有の情報を効果的に保存し、画像クラスタリングタスクで利用される。 2つのベンチマーク画像データセット(MS-Celeb-1MとDeepFashion)で行った実験結果から,提案手法はk平均,スペクトルクラスタリング,近似ランクオーダーといった,よく知られたクラスタリングアルゴリズムを超えていることが示された。

In various verification systems, Restricted Boltzmann Machines (RBMs) have demonstrated their efficacy in both front-end and back-end processes. In this work, we propose the use of RBMs to the image clustering tasks. RBMs are trained to convert images into image embeddings. We employ the conventional bottom-up Agglomerative Hierarchical Clustering (AHC) technique. To address the challenge of limited test face image data, we introduce Agglomerative Hierarchical Clustering based Method for Image Clustering using Restricted Boltzmann Machine (AHC-RBM) with two major steps. Initially, a universal RBM model is trained using all available training dataset. Subsequently, we train an adapted RBM model using the data from each test image. Finally, RBM vectors which is the embedding vector is generated by concatenating the visible-to-hidden weight matrices of these adapted models, and the bias vectors. These vectors effectively preserve class-specific information and are utilized in image clustering tasks. Our experimental results, conducted on two benchmark image datasets (MS-Celeb-1M and DeepFashion), demonstrate that our proposed approach surpasses well-known clustering algorithms such as k-means, spectral clustering, and approximate Rank-order.
翻訳日:2023-12-22 14:55:48 公開日:2023-12-21
# 統計的学習理論とoccamのカミソリ--経験的リスク最小化からの議論

Statistical learning theory and Occam's razor: The argument from empirical risk minimization ( http://arxiv.org/abs/2312.13842v1 )

ライセンス: Link先を確認
Tom F. Sterkenburg(参考訳) 本稿では,統計学習理論の機械学習の枠組みから得られる帰納的推論における単純性選好の認識論的正当性について考察する。 この論文は、そのような正当化を示唆し否定する以前の議論の要素をまとめ、統計的学習理論の実証的リスク最小化法に対する中央数学的学習保証に基づいて構築された、有資格な手段終末とモデル相対的正当化論を綴った。

This paper considers the epistemic justification for a simplicity preference in inductive inference that may be obtained from the machine learning framework of statistical learning theory. Uniting elements from both earlier arguments suggesting and rejecting such a justification, the paper spells out a qualified means-ends and model-relative justificatory argument, built on statistical learning theory's central mathematical learning guarantee for the method of empirical risk minimization.
翻訳日:2023-12-22 14:55:29 公開日:2023-12-21
# 数値形状対応のための効率的な時間ステッピングに向けて

Towards Efficient Time Stepping for Numerical Shape Correspondence ( http://arxiv.org/abs/2312.13841v1 )

ライセンス: Link先を確認
Alexander K\"ohler, Michael Breu{\ss}(参考訳) 形状間の対応の計算は形状解析の主要なタスクである。 この目的のために、古典的熱核シグネチャや幾何学的PDEの数値解法などを含む偏微分方程式(PDE)に基づく手法が確立されている。 この作業では、後者のアプローチに注目します。 ここでは、いくつかのタイムステッピングスキームを検討します。 本研究の目的は、形状解析の文脈における時間積分法の有用性を識別できるかどうかを評価することである。 したがって,この文脈で有用な候補である暗黙のスキームのクラスは,このパラメータに対する不変な振る舞いを理想的に得るべきである。 この目的のために、多様体上の熱と波動方程式の統合について研究する。 そこで本研究では,これらのモデルに対する効率的なモデルオーダー削減フレームワークを提案する。 具体的な$l_0$安定スキームは数値形状解析に好適であることを示す。 本研究では,従来のTOSCAデータセットの手法を実験的に評価する。

The computation of correspondences between shapes is a principal task in shape analysis. To this end, methods based on partial differential equations (PDEs) have been established, encompassing e.g. the classic heat kernel signature as well as numerical solution schemes for geometric PDEs. In this work we focus on the latter approach. We consider here several time stepping schemes. The goal of this investigation is to assess, if one may identify a useful property of methods for time integration for the shape analysis context. Thereby we investigate the dependence on time step size, since the class of implicit schemes that are useful candidates in this context should ideally yield an invariant behaviour with respect to this parameter. To this end we study integration of heat and wave equation on a manifold. In order to facilitate this study, we propose an efficient, unified model order reduction framework for these models. We show that specific $l_0$ stable schemes are favourable for numerical shape analysis. We give an experimental evaluation of the methods at hand of classical TOSCA data sets.
翻訳日:2023-12-22 14:55:19 公開日:2023-12-21
# Q-SENN: 量子化された自己説明型ニューラルネットワーク

Q-SENN: Quantized Self-Explaining Neural Networks ( http://arxiv.org/abs/2312.13839v1 )

ライセンス: Link先を確認
Thomas Norrenbrock, Marco Rudolph, Bodo Rosenhahn(参考訳) コンピュータビジョンにおける説明はしばしば望まれるが、ディープニューラルネットワークのほとんどは、疑わしい忠実さを持つサリエンシマップしか提供できない。 自己説明型ニューラルネットワーク(SENN)は、解釈可能な概念を忠実さ、多様性、基礎として抽出し、それらを線形に組み合わせて意思決定する。 認識されたことを説明できるが、初期実現には正確さと汎用性がない。 本稿では,量子自己説明型ニューラルネットワークQ-SENNを提案する。 Q-SENNはSENNのデシラタを満足または超過し、より複雑なデータセットに適用し、解釈不能なベースラインモデルのほとんどまたは全てを維持し、すべての考慮された指標において以前の作業より優れている。 Q-SENNは、全てのクラスと機能の間の関係を、任意の数の可能な関係ではなく、肯定的、否定的、中立的な関係として記述し、よりバイナリな人間フレンドリな特徴を強制する。 すべてのクラスが平均で5つの解釈可能な機能に割り当てられているため、Q-SENNは局所的およびグローバル的解釈可能性を示す。 また,学習した特徴を人間の言語に基づく概念と整合させる機能アライメント手法を提案する。 したがって、学習内容はより容易に言語化できる。 コードは https://github.com/ThomasNorr/Q-SENN

Explanations in Computer Vision are often desired, but most Deep Neural Networks can only provide saliency maps with questionable faithfulness. Self-Explaining Neural Networks (SENN) extract interpretable concepts with fidelity, diversity, and grounding to combine them linearly for decision-making. While they can explain what was recognized, initial realizations lack accuracy and general applicability. We propose the Quantized-Self-Explaining Neural Network Q-SENN. Q-SENN satisfies or exceeds the desiderata of SENN while being applicable to more complex datasets and maintaining most or all of the accuracy of an uninterpretable baseline model, out-performing previous work in all considered metrics. Q-SENN describes the relationship between every class and feature as either positive, negative or neutral instead of an arbitrary number of possible relations, enforcing more binary human-friendly features. Since every class is assigned just 5 interpretable features on average, Q-SENN shows convincing local and global interpretability. Additionally, we propose a feature alignment method, capable of aligning learned features with human language-based concepts without additional supervision. Thus, what is learned can be more easily verbalized. The code is published: https://github.com/ThomasNorr/Q-SENN
翻訳日:2023-12-22 14:55:05 公開日:2023-12-21
# 対称量子回路を用いたマトリックス生成物の相とフィードフォワードによる対称性測定

Phases of Matrix Product States with Symmetric Quantum Circuits and Symmetric Measurements with Feedforward ( http://arxiv.org/abs/2312.13838v1 )

ライセンス: Link先を確認
David Gunn, Georgios Styliaris, Tristan Kraft and Barbara Kraus(参考訳) 2つの行列積状態 (MPS) は対称的短深さ回路によって互いに変換できる場合、対称性の存在下で同じ位相にある。 フィードフォワードを用いた対称性保存測定は,大域的オンサイト対称性の存在下でMPSの位相分類をどう変えるかを検討する。 すべての有限アーベル対称性に対して、任意の2つの対称MPSが同じ位相に属することを示す。 任意の2つの位相間の変換を実現し、深さ2対称回路と2ラウンドの対称測定と、サイトごとの補助システムの定数数のみを使用する明示的なプロトコルを提供する。 非アーベル対称性の場合、対称性保護は対称性保護トポロジカル状態(SPT)を測定によって直接生成状態に変換することを決定論的に防ぎ、解析を複雑化する。 それでも、自明な位相と特定のSPT位相の間の漸近的決定論的変換を可能にするプロトコルを提供する。

Two matrix product states (MPS) are in the same phase in the presence of symmetries if they can be transformed into one another via symmetric short-depth circuits. We consider how symmetry-preserving measurements with feedforward alter the phase classification of MPS in the presence of global on-site symmetries. We demonstrate that, for all finite abelian symmetries, any two symmetric MPS belong to the same phase. We give an explicit protocol that achieves a transformation between any two phases and that uses only a depth-two symmetric circuit, two rounds of symmetric measurements, and a constant number of auxiliary systems per site. In the case of non-abelian symmetries, symmetry protection prevents one from deterministically transforming symmetry-protected topological (SPT) states to product states directly via measurements, thereby complicating the analysis. Nonetheless, we provide protocols that allow for asymptotically deterministic transformations between the trivial phase and certain SPT phases.
翻訳日:2023-12-22 14:54:44 公開日:2023-12-21
# 乱流自由空間光チャネル上の連続可変量子鍵分布の適応再構成

Adaptive Reconciliation for Experimental Continuous-Variable Quantum Key Distribution Over a Turbulent Free-Space Optical Channel ( http://arxiv.org/abs/2312.13835v1 )

ライセンス: Link先を確認
Kadir G\"um\"u\c{s}, Jo\~ao dos Reis Fraz\~ao, Vincent van Vliet, Sjoerd van der Heide, Menno van den Hout, Aaron Albores-Mejia, Thomas Bradley, and Chigo Okonkwo(参考訳) 乱流自由空間光チャネル上での連続可変量子鍵分布に対する適応的整合を実験的に実証した。 さらに,和解効率を最適化し,秘密鍵レートを最大8.1%向上させる手法を提案する。

We experimentally demonstrate adaptive reconciliation for continuous-variable quantum key distribution over a turbulent free-space optical channel. Additionally, we propose a method for optimising the reconciliation efficiency, increasing secret key rates by up to 8.1%.
翻訳日:2023-12-22 14:54:25 公開日:2023-12-21
# NeRFとNeSを用いた絶滅危惧種の3次元再構成のためのSyncDreamer

SyncDreamer for 3D Reconstruction of Endangered Animal Species with NeRF and NeuS ( http://arxiv.org/abs/2312.13832v1 )

ライセンス: Link先を確認
Ahmet Haydar Ornek, Deniz Sen, Esmanur Civil(参考訳) 本研究の目的は, モノクラーRGB画像を用いた絶滅危惧種のモデル作成において, 視覚合成と3次元再構成技術がいかに革新的かを実証することである。 そこで我々はSyncDreamerを用いてユニークな視点を創出し,NeuSとNeRFを用いて3次元表現を再構成した。 我々は,本研究の対象として,東洋のコウノトリ,カエル,トンボ,トラの4種を選択した。 その結果,syncdreamer,nerf,neusを組み合わせることで,絶滅危惧動物の3dモデルが作成できることがわかった。 しかし、NeuSはぼやけた画像を生成し、NeRFはよりシャープでノイズの多い画像を生成した。 本研究は,絶滅危惧種のモデリングの可能性を強調し,今後の研究の方向性を示すものである。 これらの技術の有効性を示すことによって、絶滅危惧種を保護・研究するための技術のさらなる探索と開発を奨励したい。

The main aim of this study is to demonstrate how innovative view synthesis and 3D reconstruction techniques can be used to create models of endangered species using monocular RGB images. To achieve this, we employed SyncDreamer to produce unique perspectives and NeuS and NeRF to reconstruct 3D representations. We chose four different animals, including the oriental stork, frog, dragonfly, and tiger, as our subjects for this study. Our results show that the combination of SyncDreamer, NeRF, and NeuS techniques can successfully create 3D models of endangered animals. However, we also observed that NeuS produced blurry images, while NeRF generated sharper but noisier images. This study highlights the potential of modeling endangered animals and offers a new direction for future research in this field. By showcasing the effectiveness of these advanced techniques, we hope to encourage further exploration and development of techniques for preserving and studying endangered species.
翻訳日:2023-12-22 14:54:01 公開日:2023-12-21
# 時間反転非不変頂点カップリングを持つカイロ格子

Cairo lattice with time-reversal non-invariant vertex couplings ( http://arxiv.org/abs/2312.13827v1 )

ライセンス: Link先を確認
Marzieh Baradaran and Pavel Exner(参考訳) 我々はカイロ格子形式の周期的量子グラフのスペクトルを分析する。 使用される頂点結合は時間反転不変性に反し、その高エネルギー挙動は頂点次数パリティに依存する。 前者の存在はスペクトルがギャップによって支配されていることを意味する。 さらに,2つのモデルの変更について検討し,結合における長さパラメータのゼロ極限,および3次頂点における結合行列の符号スイッチについて検討した。

We analyze the spectrum of a periodic quantum graph of the Cairo lattice form. The used vertex coupling violates the time reversal invariance and its high-energy behavior depends on the vertex degree parity; in the considered example both odd and even parities are involved. The presence of the former implies that the spectrum is dominated by gaps. In addition, we discuss two modifications of the model in which this is not the case, the zero limit of the length parameter in the coupling, and the sign switch of the coupling matrix at the vertices of degree three; while different they both yield the same probability that a randomly chosen positive energy lies in the spectrum.
翻訳日:2023-12-22 14:53:43 公開日:2023-12-21
# ユニバーサルノイズアノテーション:ノイズが物体検出に与える影響を明らかにする

Universal Noise Annotation: Unveiling the Impact of Noisy annotation on Object Detection ( http://arxiv.org/abs/2312.13822v1 )

ライセンス: Link先を確認
Kwangrok Ryoo, Yeonsik Jo, Seungjun Lee, Mira Kim, Ahra Jo, Seung Hwan Kim, Seungryong Kim, Soonyoung Lee(参考訳) ノイズラベルを持つオブジェクト検出タスクでは、画像分類のように分類ノイズだけでなく、局所化ノイズやアノテーションの欠如、ボグスバウンディングボックスなども考慮しておくことが重要である。 しかしながら、以前の研究では特定の種類のノイズ(例えば局在化や分類)のみに対応していた。 本稿では,オブジェクト検出時に発生するあらゆる種類のノイズを含むより実用的なUniversal-Noise Annotation(UNA)を提案し,UNAが検出器の性能に与える影響を分析する。 従来の検出アルゴリズムの開発方向を分析し,検出モデル学習手法の頑健性に影響を与える要因について検討した。 データセットにUNAを注入するためのコードをオープンソースで公開し、トレーニングログとウェイトもすべて共有しています。

For object detection task with noisy labels, it is important to consider not only categorization noise, as in image classification, but also localization noise, missing annotations, and bogus bounding boxes. However, previous studies have only addressed certain types of noise (e.g., localization or categorization). In this paper, we propose Universal-Noise Annotation (UNA), a more practical setting that encompasses all types of noise that can occur in object detection, and analyze how UNA affects the performance of the detector. We analyzed the development direction of previous works of detection algorithms and examined the factors that impact the robustness of detection model learning method. We open-source the code for injecting UNA into the dataset and all the training log and weight are also shared.
翻訳日:2023-12-22 14:53:33 公開日:2023-12-21
# 低ランク表現に基づくthz時間領域画像の超解像

Super-resolution of THz time-domain images based on low-rank representation ( http://arxiv.org/abs/2312.13820v1 )

ライセンス: Link先を確認
Marina Ljubenovic, Alessia Artesani, Stefano Bonetti, Arianna Traviglia(参考訳) テラヘルツ時間領域分光法(THz-TDS)は3次元超スペクトルデータ立方体を与える材料の誘電特性を調査するためにサブピコ秒パルスを用いる。 THz画像の空間分解能は、主に非ゼロのTHzビームウエストと取得ステップサイズという2つのソースによって制限される。 小さいステップサイズでの取得は、取得時間を犠牲にして画像の小さな詳細を可視化することを可能にするが、周波数依存のポイントスプレッド機能は、THzイメージングの最大のボトルネックのままである。 本研究は,中から大きなステップサイズで取得したthz時間領域画像を復元する超解像手法を提案する。 その結果,周波数帯域(0.5から3.5THz)の高分解能化と低周波数でのブラー効果,高周波数でのノイズ低減効果が得られた。

Terahertz time-domain spectroscopy (THz-TDS) employs sub-picosecond pulses to probe dielectric properties of materials giving as a result a 3-dimensional hyperspectral data cube. The spatial resolution of THz images is primarily limited by two sources: a non-zero THz beam waist and the acquisition step size. Acquisition with a small step size allows for the visualisation of smaller details in images at the expense of acquisition time, but the frequency-dependent point-spread function remains the biggest bottleneck for THz imaging. This work presents a super-resolution approach to restore THz time-domain images acquired with medium-to-big step sizes. The results show the optimized and robust performance for different frequency bands (from 0.5 to 3.5 THz) obtaining higher resolution and additionally removing effects of blur at lower frequencies and noise at higher frequencies.
翻訳日:2023-12-22 14:53:21 公開日:2023-12-21
# drc2023におけるチームフロー:旅行エージェント対話システムにおける共通グラウンドの構築とテキストによるターンテイク

Team Flow at DRC2023: Building Common Ground and Text-based Turn-taking in a Travel Agent Spoken Dialogue System ( http://arxiv.org/abs/2312.13816v1 )

ライセンス: Link先を確認
Ryu Hirai, Shinya Iizuka, Haruhisa Iseno, Ao Guo, Jingjing Jiang, Atsumoto Ohashi, Ryuichiro Higashinaka(参考訳) 対話ロボットの能力向上を目的とした対話ロボットコンペティション2023(DRC2023)で、我々のチームは、共通の地盤を構築し、ユーザの発話テキストに基づいてより自然な旋回を行うシステムを開発した。 本システムでは,利用者の理解を待つ間,共通点を用いた観光スポット検索のクエリを生成し,対話に係わる。

At the Dialogue Robot Competition 2023 (DRC2023), which was held to improve the capability of dialogue robots, our team developed a system that could build common ground and take more natural turns based on user utterance texts. Our system generated queries for sightseeing spot searches using the common ground and engaged in dialogue while waiting for user comprehension.
翻訳日:2023-12-22 14:53:04 公開日:2023-12-21
# 圧縮型連続可変量子計測

Compressing continuous variable quantum measurements ( http://arxiv.org/abs/2312.13814v1 )

ライセンス: Link先を確認
Pauli Jokinen, Sophie Egelhaaf, Juha-Pekka Pellonp\"a\"a, Roope Uola(参考訳) 我々は、最近導入された量子計測の圧縮アルゴリズムをこの領域に拡張することにより、連続変数系に対する関節測定可能性の概念を一般化する。 この拡張は、与えられた量子測定の集合を表現するのに必要な最小次元の量子システムを求める性質をもたらす。 この概念を説明するために、位置と運動量の正準対は完全に圧縮不可能であることを示す。 測定圧縮の概念を量子相関の領域に変換し、連続変数の量子ステアリングを一般化する。 エンタングルメントを検出するステアリングシナリオとは対照的に、一般化はエンタングルメントの次元を検出する。 概念間の橋渡しとして,原文のepr引数の類似性は,我々のメリットのフィギュアに関して真に無限次元であることを示すとともに,分離可能な状態を持つ不定値集合の予備可能性に基づく基本離散変数は,連続変数設定に直結しないことを示す。 さらに,独立した興味を持つ部分的絡み合い破断チャネルに対する表現結果の証明を行う。

We generalize the notion of joint measurability to continuous variable systems by extending a recently introduced compression algorithm of quantum measurements to this realm. The extension results in a property that asks for the minimal dimensional quantum system required for representing a given set of quantum measurements. To illustrate the concept, we show that the canonical pair of position and momentum is completely incompressible. We translate the concept of measurement compression to the realm of quantum correlations, where it results in a generalisation of continuous variable quantum steering. In contrast to the steering scenario, which detects entanglement, the generalisation detects the dimensionality of entanglement. We illustrate the bridge between the concepts by showing that an analogue of the original EPR argument is genuinely infinite-dimensional with respect to our figure of merit, and that a fundamental discrete variable result on preparability of unsteerable state assemblages with separable states does not directly carry over to the continuous variable setting. We further prove a representation result for partially entanglement breaking channels that can be of independent interest.
翻訳日:2023-12-22 14:52:54 公開日:2023-12-21
# オンライン活動と広告広告の結びつきは、どのようにプライバシー認知に影響を及ぼすか?

How Does Connecting Online Activities to Advertising Inferences Impact Privacy Perceptions? ( http://arxiv.org/abs/2312.13813v1 )

ライセンス: Link先を確認
Florian M. Farke, David G. Balash, Maximilian Golla, Adam J. Aviv(参考訳) データダッシュボードは、ユーザが収集したデータを管理するために設計されている。 しかしながら、以前の研究によると、いくつかのダッシュボード、特にGoogleのMy Activityダッシュボードへの露出は、期待に反して、認識される関心の大幅な減少とデータ収集によるメリットの増大をもたらす。 この結果は、データ収集とデータの使用を結びつけることで、データダッシュボードが現在のデータ食品チェーンの「ドットを接続する」ことが不十分であるという事実によるものだと私たちは考えています。 そこで,本研究では,実際の活動に広告ラベルを割り当て,行動的広告エンジンとして効果的に行動し,「ドットをつなげる」実験を行った。 これは、参加者の優先順位が(以前の作業と異なる)データ・フード・チェーンにさらされた後に維持されていることを示すものであり、データ・コレクションがどのように使われているかについてより深い視点を提供するデータ・ダッシュボードが潜在的に有益であることを示唆している。 しかし、これらの利益は、参加者がGoogleによって推測される真の関心ラベルに晒されると相殺される。 データ収集に関する懸念は、参加者がGoogleのラベリングを独自のラベリングと比較すると、大幅に低下した。 これは、データダッシュボードを設計する際に克服しなければならない新しいパラドックスを示している。これは、ユーザーが収集したデータから個々のジェネリック推論を、それらに関する多くのジェネリック推論の総数と特異性と比較して良性として誤認した場合に発生するジェネリックパラドックスである。

Data dashboards are designed to help users manage data collected about them. However, prior work showed that exposure to some dashboards, notably Google's My Activity dashboard, results in significant decreases in perceived concern and increases in perceived benefit from data collection, contrary to expectations. We theorize that this result is due to the fact that data dashboards currently do not sufficiently "connect the dots" of the data food chain, that is, by connecting data collection with the use of that data. To evaluate this, we designed a study where participants assigned advertising interest labels to their own real activities, effectively acting as a behavioral advertising engine to "connect the dots." When comparing pre- and post-labeling task responses, we find no significant difference in concern with Google's data collection practices, which indicates that participants' priors are maintained after more exposure to the data food chain (differing from prior work), suggesting that data dashboards that offer deeper perspectives of how data collection is used have potential. However, these gains are offset when participants are exposed to their true interest labels inferred by Google. Concern for data collection dropped significantly as participants viewed Google's labeling as generic compared to their own more specific labeling. This presents a possible new paradox that must be overcome when designing data dashboards, the generic paradox, which occurs when users misalign individual, generic inferences from collected data as benign compared to the totality and specificity of many generic inferences made about them.
翻訳日:2023-12-22 14:52:24 公開日:2023-12-21
# Docker Smellsのイメージサイズへの影響に関する実証的研究

Empirical Study of the Docker Smells Impact on the Image Size ( http://arxiv.org/abs/2312.13888v1 )

ライセンス: Link先を確認
Thomas Durieux(参考訳) Dockerは広く採用されているアプリケーションのパッケージングとデプロイのためのツールだ。 しかし、最適なDockerfileを作成することは難しく、しばしば"Dockerの臭い"やベストプラクティスからの逸脱につながる。 本稿では,Dockerイメージのサイズに対する14のDockerの匂いの影響について検討する。 Dockerの臭いの大きさを評価するために、11313のオープンソースDockerfileから16145のDockerの匂いを特定し、修復しました。 臭気は1画像あたり平均48.06mb (4.6%) 増加することが観察された。 匂いの種類によっては、サイズが最大で10%まで増加し、特定のケースでは、その匂いが画像サイズの89%を表現できる。 興味深いことに、最も影響のある臭いは、一般的に遭遇し、比較的簡単に修正できるパッケージマネージャに関連する。 Dockerの臭いの影響について開発者の視点を収集するため、臭いを修復する34のプルリクエストを提出し、Dockerイメージへの影響を開発者に報告しました。 26/34 (76.5%)のプルリクエストがマージされ、3.46GB (16.4%)の節約に貢献した。 開発者によるコメントは、プルリクエストが拒否された場合でも、Dockerの臭いに対処することに肯定的な関心を示している。

Docker, a widely adopted tool for packaging and deploying applications leverages Dockerfiles to build images. However, creating an optimal Dockerfile can be challenging, often leading to "Docker smells" or deviations from best practices. This paper presents a study of the impact of 14 Docker smells on the size of Docker images. To assess the size impact of Docker smells, we identified and repaired 16 145 Docker smells from 11 313 open-source Dockerfiles. We observe that the smells result in an average increase of 48.06 MB (4.6%) per smelly image. Depending on the smell type, the size increase can be up to 10 %, and for some specific cases, the smells can represent 89% of the image size. Interestingly, the most impactful smells are related to package managers which are commonly encountered and are relatively easy to fix. To collect the perspective of the developers regarding the size impact of the Docker smells, we submitted 34 pull requests that repair the smells and we reported their impact on the Docker image to the developers. 26/34 (76.5%) of the pull requests have been merged and they contribute to a saving of 3.46GB (16.4%). The developer's comments demonstrate a positive interest in addressing those Docker smells even when the pull requests have been rejected.
翻訳日:2023-12-22 14:44:12 公開日:2023-12-21
# アダプタモジュールとナレッジグラフを用いた生物医学的言語モデルの知識の多様化

Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs ( http://arxiv.org/abs/2312.13881v1 )

ライセンス: Link先を確認
Juraj Vladika, Alexander Fichtl, Florian Matthes(参考訳) 自然言語処理(NLP)の最近の進歩は、大量の非構造化データに基づく事前学習言語モデルの成功に起因している。 それでも、LMの非構造的な性質と構造化された知識と推論を組み合わせる努力が増えている。 特に、バイオメディカルNLPの急速な発展において、知識強化言語モデル(KELM)は、何十年にもわたって専門家がキュレートしたバイオメディカル知識グラフ(KG)を考えると、大きな言語モデルとドメイン固有の知識のギャップを埋めるための有望なツールとして現れてきた。 本稿では,軽量なアダプターモジュールを用いて,構造化バイオメディカル知識を事前学習言語モデル(PLM)に注入する手法を提案する。 バイオメディカル知識システムUMLSと新しい生化学オントロジーOntoChemの2つの大きなKGとPubMedBERTとBioLinkBERTを用いた。 このアプローチには、知識グラフを小さなサブグラフに分割すること、各サブグラフ用の微調整アダプタモジュール、融合層の知識を組み合わせることが含まれる。 文書分類,質問応答,自然言語推論の3つのダウンストリームタスクで性能を検証した。 我々は,計算能力の要件を低く保ちながら,いくつかの事例における性能改善につながることを示す。 最後に,結果の詳細な解釈を行い,今後の研究に有用な知見を報告する。

Recent advances in natural language processing (NLP) owe their success to pre-training language models on large amounts of unstructured data. Still, there is an increasing effort to combine the unstructured nature of LMs with structured knowledge and reasoning. Particularly in the rapidly evolving field of biomedical NLP, knowledge-enhanced language models (KELMs) have emerged as promising tools to bridge the gap between large language models and domain-specific knowledge, considering the available biomedical knowledge graphs (KGs) curated by experts over the decades. In this paper, we develop an approach that uses lightweight adapter modules to inject structured biomedical knowledge into pre-trained language models (PLMs). We use two large KGs, the biomedical knowledge system UMLS and the novel biochemical ontology OntoChem, with two prominent biomedical PLMs, PubMedBERT and BioLinkBERT. The approach includes partitioning knowledge graphs into smaller subgraphs, fine-tuning adapter modules for each subgraph, and combining the knowledge in a fusion layer. We test the performance on three downstream tasks: document classification,question answering, and natural language inference. We show that our methodology leads to performance improvements in several instances while keeping requirements in computing power low. Finally, we provide a detailed interpretation of the results and report valuable insights for future work.
翻訳日:2023-12-22 14:43:51 公開日:2023-12-21
# 多体動的局在の観察

Observation of many-body dynamical localization ( http://arxiv.org/abs/2312.13880v1 )

ライセンス: Link先を確認
Yanliang Guo, Sudipta Dhar, Ang Yang, Zekai Chen, Hepeng Yao, Milena Horvath, Lei Ying, Manuele Landini, Hanns-Christoph N\"agerl(参考訳) 量子キックローターは量子物理学におけるパラダイムモデルシステムである。 駆動量子系として、古典的な量子世界から量子世界への遷移を研究し、カオスと拡散の出現を解明するために用いられる。 古典的対向とは対照的に、運動量空間におけるアンダーソンの局所化を特徴とする。 相互作用する多体蹴りローターは、最近の実験が示唆しているように、局在を損なうと考えられている。 本稿では,多体量子蹴りロータのリーブ・リンガー版に対する多体動力学的局在の証拠を示す。 初期の進化の後、1次元幾何学における相互作用する量子退化ボゾン原子の運動量分布はパルス正弦波ポテンシャルによって数百回蹴り上げられ、拡散が止まる。 我々は,相互作用強度を調整したシステムのエネルギーと情報エントロピーを解析することにより,逮捕された進化を定量化する。 消滅と強い相互作用の極限の場合、一階相関関数は、非常に異なる減衰挙動を示す。 我々の結果は、古典的でカオス的な世界と量子物理学の領域の境界に光を当てた。

The quantum kicked rotor is a paradigmatic model system in quantum physics. As a driven quantum system, it is used to study the transition from the classical to the quantum world and to elucidate the emergence of chaos and diffusion. In contrast to its classical counterpart, it features dynamical localization, specifically Anderson localization in momentum space. The interacting many-body kicked rotor is believed to break localization, as recent experiments suggest. Here, we present evidence for many-body dynamical localization for the Lieb-Liniger version of the many-body quantum kicked rotor. After some initial evolution, the momentum distribution of interacting quantum-degenerate bosonic atoms in one-dimensional geometry, kicked hundreds of times by means of a pulsed sinusoidal potential, stops spreading. We quantify the arrested evolution by analysing the energy and the information entropy of the system as the interaction strength is tuned. In the limiting cases of vanishing and strong interactions, the first-order correlation function exhibits a very different decay behavior. Our results shed light on the boundary between the classical, chaotic world and the realm of quantum physics.
翻訳日:2023-12-22 14:43:21 公開日:2023-12-21
# nonadiabatic quantum-classical dynamicsにおけるkoopmon軌道

Koopmon trajectories in nonadiabatic quantum-classical dynamics ( http://arxiv.org/abs/2312.13878v1 )

ライセンス: Link先を確認
Werner Bauer, Paul Bergold, Fran\c{c}ois Gay-Balmaz, Cesare Tronci(参考訳) 完全量子非線形力学の計算コストを軽減するために、クープマン波動関数の理論に基づく混合量子古典(MQC)粒子法を提案する。 従来のmqcモデルはハイゼンベルクの原理に違反するような一貫性の問題に苦しむことが多いが、我々はヒルベルト空間上のクープマンの古典力学とシンプレクティック幾何学の手法を組み合わせることでこれらの困難を克服した。 結果の連続体モデルは変分構造とハミルトン構造の両方を楽しみ、非線形な性格は適切な閉包を求める。 基本となるアクション原則の恩恵を受け、以前チームで開発されたレギュライゼーション手法を適用します。 このステップは、計算粒子の軌跡(位相空間におけるラグランジュ古典経路のクープモンスサンプリング)を導入する特異解 ansatz を可能にする。 タリーの非線形問題の場合、標準的なMQCエレンフェストシミュレーションでは達成できない精度のレベルで完全に量子シミュレーションの結果を再現する。 さらに、koopmon法は、同様の完全量子アプローチよりも計算上有利であり、これも本研究で検討されている。 さらに, MQC 処理がほとんど適用できない超強結合系と深部強結合系の両方において, Rabi 問題を考慮した手法の限界を検証した。 この場合、この方法は完全な量子結果の一部を再現することに成功する。

In order to alleviate the computational costs of fully quantum nonadiabatic dynamics, we present a mixed quantum-classical (MQC) particle method based on the theory of Koopman wavefunctions. Although conventional MQC models often suffer from consistency issues such as the violation of Heisenberg's principle, we overcame these difficulties by blending Koopman's classical mechanics on Hilbert spaces with methods in symplectic geometry. The resulting continuum model enjoys both a variational and a Hamiltonian structure, while its nonlinear character calls for suitable closures. Benefiting from the underlying action principle, here we apply a regularization technique previously developed within our team. This step allows for a singular solution ansatz which introduces the trajectories of computational particles - the koopmons - sampling the Lagrangian classical paths in phase space. In the case of Tully's nonadiabatic problems, the method reproduces the results of fully quantum simulations with levels of accuracy that are not achieved by standard MQC Ehrenfest simulations. In addition, the koopmon method is computationally advantageous over similar fully quantum approaches, which are also considered in our study. As a further step, we probe the limits of the method by considering the Rabi problem in both the ultrastrong and the deep strong coupling regimes, where MQC treatments appear hardly applicable. In this case, the method succeeds in reproducing parts of the fully quantum results.
翻訳日:2023-12-22 14:43:05 公開日:2023-12-21
# 完全連続変数量子計算アーキテクチャ:クラスタ状態生成からフォールトトレラントな達成まで

A complete continuous-variable quantum computation architecture: from cluster state generation to fault-tolerant accomplishment ( http://arxiv.org/abs/2312.13877v1 )

ライセンス: Link先を確認
Peilin Du, Jing Zhang, Tiancai Zhang, Rongguo Yang, Jiangrui Gao(参考訳) 連続変数計測に基づく量子計算は、決定論的に生成された大規模クラスタ状態を必要とするが、実用的でスケーラブルで普遍的でフォールトトレラントな量子計算の候補として有望である。 本研究では,クラスタ状態の準備,ゲート実装,エラー訂正を含む完全なアーキテクチャを実証する。 まず,時間領域と空間領域の両方を多重化して2次元大規模連続変数クラスタ状態を生成する手法を提案する。 次に、ゲートテレポーテーションによる普遍量子計算のゲート実装について論じ、生成されたクラスタ状態からの実際のゲートノイズとGottesman-Kitaev-Preskill(GKP)状態について考察する。 その後、二乗格子GKP符号を利用して量子誤差補正を行うことができる。 最後に、フォールトトレラントな量子計算は、(位相フリップを防ぐために)正方格子GKP符号にバイアスを導入し、(残ビットフリップエラーを処理するために)古典的な繰り返し符号を12.3dBで結合することで実現できる。 我々の研究は、将来完全なフォールトトレラントな量子計算アーキテクチャに可能な選択肢を提供する。

Continuous-variable measurement-based quantum computation, which requires deterministically generated large-scale cluster state, is a promising candidate for practical, scalable, universal, and fault-tolerant quantum computation. In this work, a complete architecture including cluster state preparation, gate implementations, and error correction, is demonstrated. First, a scheme for generating two-dimensional large-scale continuous-variable cluster state by multiplexing both the temporal and spatial domains is proposed. Then, the corresponding gate implementations for universal quantum computation by gate teleportation are discussed and the actual gate noise from the generated cluster state and Gottesman-Kitaev-Preskill (GKP) state are considered. After that, the quantum error correction can be further achieved by utilizing the square-lattice GKP code. Finally, a fault-tolerent quantum computation can be realized by introducing bias into the square-lattice GKP code (to protect against phase-flips) and concatenating a classical repetition code (to handle the residual bit-flip errors), with a squeezing threshold of 12.3 dB. Our work provides a possible option for a complete fault-tolerent quantum computation architecture in the future.
翻訳日:2023-12-22 14:42:41 公開日:2023-12-21
# バッチ型マルチアームバンド問題におけるベストアーム識別

Best Arm Identification in Batched Multi-armed Bandit Problems ( http://arxiv.org/abs/2312.13875v1 )

ライセンス: Link先を確認
Shengyu Cao, Simai He, Ruoqing Jiang, Jin Xu, Hongsong Yuan(参考訳) 近年のマルチアームバンディット問題は、エージェントがフィードバックを待つ時間に制限があるため、多くの実生活シナリオで腕をバッチでサンプリングする必要がある。 このような応用には生物実験やオンラインマーケティングが含まれる。 この問題は、腕の数が多く、バッチ数が小さい場合にさらに複雑である。 我々は,複数腕のバンディット問題における純粋探索を考える。 本稿では,各理論設定の目的をベストアーム識別に組み込む,汎用線形プログラミングフレームワークを提案する。 線形プログラムは、2段階のアルゴリズムに導かれ、優れた理論的性質を達成できる。 数値実験により,UCB型サンプリング法やトンプソン型サンプリング法と比較して,アルゴリズムの性能がよいことを示した。

Recently multi-armed bandit problem arises in many real-life scenarios where arms must be sampled in batches, due to limited time the agent can wait for the feedback. Such applications include biological experimentation and online marketing. The problem is further complicated when the number of arms is large and the number of batches is small. We consider pure exploration in a batched multi-armed bandit problem. We introduce a general linear programming framework that can incorporate objectives of different theoretical settings in best arm identification. The linear program leads to a two-stage algorithm that can achieve good theoretical properties. We demonstrate by numerical studies that the algorithm also has good performance compared to certain UCB-type or Thompson sampling methods.
翻訳日:2023-12-22 14:42:21 公開日:2023-12-21
# 非平衡グリーン関数法によるディックモデルの時間分解光学応答

Time resolved optical response of the Dicke's model via the nonequilibrium Green's function approach ( http://arxiv.org/abs/2312.13874v1 )

ライセンス: Link先を確認
Megha Gopalakrishna, Yaroslav Pavlyukh and Claudio Verdozzi(参考訳) 概念的魅力と計算の利便性から、2段階システム(tls)とその一般化は量子光学における非線形挙動の調査や理論手法の適用性の評価にしばしば用いられる。 ここでは第2高調波発生(SHG)に焦点が当てられ、光学キャビティ内の複数のTLSからなるディックモデルに焦点が当てられている。 主な側面は、SHG信号に対する障害と電子-電子(e-e)相互作用の影響を記述するための非平衡グリーン関数(NEGF)の範囲である。 ベンチマークの目的では、正確な対角化(ED)結果も提示され、議論される。 NEGFおよびEDで得られたSHGスペクトルは、ほとんどの状況において非常に良好な相互一致を示す。 さらに、tlsおよびe-e相互作用の不均質性はshgの強度を減少させ、不均質性は相互作用よりも低下する。 この傾向は、異なる(小さいから大きい)システムサイズにわたって一貫して言及されている。 最後に、量子光子場を古典振動子の浴に結合するキャビティリークを考慮に入れた修正NEGF法を提案する。 予想されるように、この混合量子古典的スキームでは、キャビティリークの実体によって蛍光スペクトルの強度が低下する。

Due to their conceptual appeal and computational convenience, two-level systems (TLS) and their generalisations are often used to investigate nonlinear behavior in quantum optics, and to assess the applicability of theoretical methods. Here the focus is on second harmonic generation (SHG) and, as system of interest, on the Dicke model, which consists of several TLSs inside an optical cavity. The main aspect addressed is the scope of non-equilibrium Green's function (NEGF) to describe the effect of disorder and electron-electron (e-e) interactions on the SHG signal. For benchmarking purposes, exact diagonalization (ED) results are also presented and discussed. SHG spectra obtained with NEGF and ED are found to be in very good mutual agreement in most situations. Furthermore, inhomogeneity in the TLS and e-e interactions reduce the strength of SHG, and the reduction is stronger with inhomogeneity than with interactions. This trend is consistently noted across different (small to large) system sizes. Finally, a modified NEGF approach is proposed to account for cavity leakage, where the quantum photon fields are coupled to a bath of classical oscillators. As to be expected, within this mixed quantum-classical scheme a decrease in the intensity of the fluorescent spectra takes place depending on the entity of cavity leakage.
翻訳日:2023-12-22 14:42:09 公開日:2023-12-21
# タスク指向対話システムの評価 : 尺度・構成・運用の体系的考察

Evaluating Task-oriented Dialogue Systems: A Systematic Review of Measures, Constructs and their Operationalisations ( http://arxiv.org/abs/2312.13871v1 )

ライセンス: Link先を確認
Anouck Braggaar, Christine Liebrecht, Emiel van Miltenburg, Emiel Krahmer(参考訳) 本論では,タスク指向対話システムの評価手法を概観し,顧客サービスのような対話システムの実用的応用に特に注目する。 本報告では,(1)先行研究における使用済み構成とメトリクスの概要,(2)対話システム評価の文脈における課題,(3)対話システム評価の将来に向けた研究課題について概説する。 4つのデータベース(acl,acm,ieee,web of science)を体系的にレビューし,スクリーニングの結果122の研究結果を得た。 これらの研究は、彼らが評価のために提案した構造と方法について慎重に分析された。 コンストラクトとメソッドの両方で多種多様なものを見つけました。 特に運用は必ずしも明確に報告されていない。 使用済みのコンストラクタの運用と仕様に対して,今後の作業がより重要なアプローチになることを期待しています。 この目的に向けて取り組むため、このレビューは、優れた質問に対する評価と提案の推奨で終わる。

This review gives an extensive overview of evaluation methods for task-oriented dialogue systems, paying special attention to practical applications of dialogue systems, for example for customer service. The review (1) provides an overview of the used constructs and metrics in previous work, (2) discusses challenges in the context of dialogue system evaluation and (3) develops a research agenda for the future of dialogue system evaluation. We conducted a systematic review of four databases (ACL, ACM, IEEE and Web of Science), which after screening resulted in 122 studies. Those studies were carefully analysed for the constructs and methods they proposed for evaluation. We found a wide variety in both constructs and methods. Especially the operationalisation is not always clearly reported. We hope that future work will take a more critical approach to the operationalisation and specification of the used constructs. To work towards this aim, this review ends with recommendations for evaluation and suggestions for outstanding questions.
翻訳日:2023-12-22 14:41:48 公開日:2023-12-21
# 拡張連続可変光位相検出のための変分量子アルゴリズム

Variational quantum algorithm for enhanced continuous variable optical phase sensing ( http://arxiv.org/abs/2312.13870v1 )

ライセンス: Link先を確認
Jens A. H. Nielsen, Mateusz Kicinski, Tummas N. Arge, Kannan Vijayadharan, Jonathan Foldager, Johannes Borregaard, Johannes Jakob Meyer, Jonas S. Neergaard-Nielsen, Tobias Gehring and Ulrik L. Andersen(参考訳) 変分量子アルゴリズム(VQA)は、ノイズの多い中間スケール量子(NISQ)デバイスにおいて幅広い問題に取り組むために用いられるハイブリッド量子古典的アプローチである。 これらのアルゴリズムをハードウェア上でテストすることは、ノイズや不完全性の影響を調査し、その実用的価値を評価するために重要である。 そこで我々は, 高精度光位相推定の鍵となる, 圧縮光に基づく連続変数プラットフォーム上でのパラメータ推定を最適化するための変分アルゴリズムを実装した。 我々は,プローブ状態の最適化や小角光位相検出のための計測戦略を含む,最適気象過程の同定を行うアルゴリズムの能力について検討する。 2つの異なる最適化手法が採用され、第1に、ガウスパラメータシフトルールを用いた勾配降下最適化器を用いて、測定値から直接コスト関数の勾配を推定する。 第2の戦略は勾配のないベイズ最適化器で、同じコスト関数を使ってシステムを微調整し、勾配依存アルゴリズムで取得したデータに基づいて訓練する。 両アルゴリズムは最適な気象プロセスに向けて実験を操ることができる。 しかし、理論モデルでは最小化が予測できず、複雑な雑音環境のモデリングにおける変分アルゴリズムの強みを実証する。

Variational quantum algorithms (VQAs) are hybrid quantum-classical approaches used for tackling a wide range of problems on noisy intermediate-scale quantum (NISQ) devices. Testing these algorithms on relevant hardware is crucial to investigate the effect of noise and imperfections and to assess their practical value. Here, we implement a variational algorithm designed for optimized parameter estimation on a continuous variable platform based on squeezed light, a key component for high-precision optical phase estimation. We investigate the ability of the algorithm to identify the optimal metrology process, including the optimization of the probe state and measurement strategy for small-angle optical phase sensing. Two different optimization strategies are employed, the first being a gradient descent optimizer using Gaussian parameter shift rules to estimate the gradient of the cost function directly from the measurements. The second strategy involves a gradient-free Bayesian optimizer, fine-tuning the system using the same cost function and trained on the data acquired through the gradient-dependent algorithm. We find that both algorithms can steer the experiment towards the optimal metrology process. However, they find minima not predicted by our theoretical model, demonstrating the strength of variational algorithms in modelling complex noise environments, a non-trivial task.
翻訳日:2023-12-22 14:41:34 公開日:2023-12-21
# データ駆動パス集合変数

Data-driven path collective variables ( http://arxiv.org/abs/2312.13868v1 )

ライセンス: Link先を確認
Arthur France-Lanord, Hadrien Vroylandt, Mathieu Salanne, Benjamin Rotenberg, A. Marco Saitta, Fabio Pietrucci(参考訳) 原子スケールシミュレーションを用いて最適な集団変数をモデル変換に同定することは長年の課題である。 本稿では,経路集合変数の概念をデータ駆動で一般化したものと考えられる,集合変数の生成,最適化,比較のための新しい手法を提案する。 これは、変換の進捗を符号化するコミッタ確率のカーネルリッジ回帰で構成されている。 得られた集合変数は1次元、解釈可能、微分可能であり、バイアスを必要とするサンプリングシミュレーションの強化に適している。 本研究では, 降水モデルとLi$^+$, F$^-$の2つの異なる利用法の有効性を示す。 前者に対しては、置換不変ベクトルのような大域的ディスクリプタは、より単純で直感的な変数で達成された \textit{via} から遠く離れた精度に到達できることを示した。 後者では,変換機構に関連付けられた情報が第1の溶出殻にのみ含まれており,慣性効果が最適集団変数の原子位置からの導出を妨げていることを示す。

Identifying optimal collective variables to model transformations, using atomic-scale simulations, is a long-standing challenge. We propose a new method for the generation, optimization, and comparison of collective variables, which can be thought of as a data-driven generalization of the path collective variable concept. It consists in a kernel ridge regression of the committor probability, which encodes a transformation's progress. The resulting collective variable is one-dimensional, interpretable, and differentiable, making it appropriate for enhanced sampling simulations requiring biasing. We demonstrate the validity of the method on two different applications: a precipitation model, and the association of Li$^+$ and F$^-$ in water. For the former, we show that global descriptors such as the permutation invariant vector allow to reach an accuracy far from the one achieved \textit{via} simpler, more intuitive variables. For the latter, we show that information correlated with the transformation mechanism is contained in the first solvation shell only, and that inertial effects prevent the derivation of optimal collective variables from the atomic positions only.
翻訳日:2023-12-22 14:41:11 公開日:2023-12-21
# 複雑な論理推論によるセッション間意図の理解

Understanding Inter-Session Intentions via Complex Logical Reasoning ( http://arxiv.org/abs/2312.13866v1 )

ライセンス: Link先を確認
Jiaxin Bai, Chen Luo, Zheng Li, Qingyu Yin, Yangqiu Song(参考訳) ユーザの意図を理解することは、製品レコメンデーション、ナビゲーション提案、クエリ修正を強化するために重要です。 しかし、ユーザの意図は複雑になり、複数のセッションとAnd、Or、Notといった論理演算子によって接続される属性要求が伴う。 例えば、ユーザーは様々なセッションでナイキやアディダスのランニングシューズを検索できる。 別のケースでは、ユーザーは前回のセッションでマットレスを購入し、別のマットレスを購入するつもりもなく、対応するベッドフレームを求めている。 セッション理解に関する以前の研究では、このような複雑な意図に対する製品や属性の推奨方法が十分に解決されていない。 本稿では,セッションをアイテムのハイパーエッジとして扱う論理セッション複合クエリ応答のタスクを紹介し,セッション,項目,属性の集約ハイパーグラフ上での論理セッション複合クエリ応答(LS-CQA)のタスクとして,複雑な意図理解の問題を定式化する。 提案するタスクは,セッションを順序付きハイパーエッジとする,特別なタイプの複雑なクエリ応答タスクである。 また,新たなモデルであるLSGT(Logical Session Graph Transformer)を提案する。 LSGTの表現性を解析し、論理演算子に対する入力の置換不変性を証明する。 LSGTを3つのデータセットで評価し,その結果が得られたことを示す。

Understanding user intentions is crucial for enhancing product recommendations, navigation suggestions, and query reformulations. However, user intentions can be complex, involving multiple sessions and attribute requirements connected by logical operators such as And, Or, and Not. For example, a user may search for Nike or Adidas running shoes across various sessions, with a preference for the color purple. In another case, a user may have purchased a mattress in a previous session and is now seeking a corresponding bed frame without intending to buy another mattress. Prior research on session understanding has not sufficiently addressed how to make product or attribute recommendations for such complex intentions. In this paper, we introduce the task of logical session complex query answering, where sessions are treated as hyperedges of items, and we formulate the problem of complex intention understanding as a task of logical session complex queries answering (LS-CQA) on an aggregated hypergraph of sessions, items, and attributes. The proposed task is a special type of complex query answering task with sessions as ordered hyperedges. We also propose a new model, the Logical Session Graph Transformer (LSGT), which captures interactions among items across different sessions and their logical connections using a transformer structure. We analyze the expressiveness of LSGT and prove the permutation invariance of the inputs for the logical operators. We evaluate LSGT on three datasets and demonstrate that it achieves state-of-the-art results.
翻訳日:2023-12-22 14:40:51 公開日:2023-12-21
# バックドアによる軌道予測の操作

Manipulating Trajectory Prediction with Backdoors ( http://arxiv.org/abs/2312.13863v1 )

ライセンス: Link先を確認
Kaouther Massoud, Kathrin Grosse, Mickael Chen, Matthieu Cord, Patrick P\'erez, and Alexandre Alahi(参考訳) 自動運転車は、不確実で複雑な交通状況において安全な操作を可能にするため、周囲のエージェントの軌道を予測する必要がある。 企業が現実の世界で軌道予測を適用するようになるにつれ、セキュリティは関連する懸念となる。 本稿では,他の分野で認識されているセキュリティの脅威であるバックドアに着目した。 この目的のために,軌道予測に影響を与える4つのトリガーを記述し,検討する。 次に、これらのトリガ(例えばブレーキ車)がトレーニング中に所望の出力(例えば曲線)と相関すると、最先端の軌道予測モデルの所望の出力を引き起こすことを示す。 言い換えれば、モデルの性能は良好だが、バックドアには弱い。 これは、目標車両の後ろの非ケーシアルエージェントによってトリガー操作が実行された場合でもその場合である。 副作用として,軌道予測モデルにおける興味深い限界を明らかにする。 最後に,バックドアに対する防御範囲を評価する。 単純なオフロードチェックのように、すべてのトリガを検出できないものもあるが、クラスタリングはバックドアを見つけるための手動検査をサポートする有望な候補である。

Autonomous vehicles ought to predict the surrounding agents' trajectories to allow safe maneuvers in uncertain and complex traffic situations. As companies increasingly apply trajectory prediction in the real world, security becomes a relevant concern. In this paper, we focus on backdoors - a security threat acknowledged in other fields but so far overlooked for trajectory prediction. To this end, we describe and investigate four triggers that could affect trajectory prediction. We then show that these triggers (for example, a braking vehicle), when correlated with a desired output (for example, a curve) during training, cause the desired output of a state-of-the-art trajectory prediction model. In other words, the model has good benign performance but is vulnerable to backdoors. This is the case even if the trigger maneuver is performed by a non-casual agent behind the target vehicle. As a side-effect, our analysis reveals interesting limitations within trajectory prediction models. Finally, we evaluate a range of defenses against backdoors. While some, like simple offroad checks, do not enable detection for all triggers, clustering is a promising candidate to support manual inspection to find backdoors.
翻訳日:2023-12-22 14:40:28 公開日:2023-12-21
# 手続き的コンテンツ生成のための量子波動関数の崩壊

Quantum Wave Function Collapse for Procedural Content Generation ( http://arxiv.org/abs/2312.13853v1 )

ライセンス: Link先を確認
Raoul Heese(参考訳) 量子コンピュータは固有のランダム性を示すので、手続き的コンテンツ生成を考えるのは自然に思える。 本研究では、有名な(古典的な)波動関数崩壊アルゴリズムの量子バージョンを提案する。 この量子波関数崩壊アルゴリズムは、量子回路が所望の形式のコンテンツに対する特別な目的のランダム生成器として機能するように準備できるという考えに基づいている。 提案手法は,シミュレータおよび実際のIBM量子デバイス上で理論的,実験的に検討されている。

Quantum computers exhibit an inherent randomness, so it seems natural to consider them for procedural content generation. In this work, a quantum version of the famous (classical) wave function collapse algorithm is proposed. This quantum wave function collapse algorithm is based on the idea that a quantum circuit can be prepared in such a way that it acts as a special-purpose random generator for content of a desired form. The proposed method is presented theoretically and investigated experimentally on simulators and actual IBM Quantum devices.
翻訳日:2023-12-22 14:40:10 公開日:2023-12-21
# 幻覚の低減:視覚的文脈による洪水災害評価のためのVQAの強化

Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage Assessment with Visual Contexts ( http://arxiv.org/abs/2312.13848v1 )

ライセンス: Link先を確認
Yimin Sun, Chao Wang and Yan Peng(参考訳) 視覚的質問応答(VQA)モデルのゼロショット性能は、プロンプトに大きく依存する。 例えば、災害シナリオのためのゼロショットVQAは、よく設計されたChain of Thought(CoT)プロンプトを利用してモデルのポテンシャルを刺激することができる。 しかし、CoTプロンプトの使用には、思考過程の幻覚によって最後に誤った答えが生じるなど、いくつかの問題がある。 本稿では,2段階プロンプト(VQA-TSP)を用いたゼロショットVQAFlood Disaster VQAを提案する。 モデルは第1段階で思考プロセスを生成し、その後思考プロセスを使用して第2段階で最終回答を生成する。 特に、思考過程に存在する幻覚の問題を緩和するために、第2段階に視覚的コンテキストが追加される。 実験の結果,本手法は洪水災害シナリオにおいて最先端のゼロショットvqaモデルの性能を上回っていることがわかった。 本研究は,CoTを用いたゼロショットVQAの性能向上のための研究基盤を提供する。

The zero-shot performance of visual question answering (VQA) models relies heavily on prompts. For example, a zero-shot VQA for disaster scenarios could leverage well-designed Chain of Thought (CoT) prompts to stimulate the model's potential. However, using CoT prompts has some problems, such as causing an incorrect answer in the end due to the hallucination in the thought process. In this paper, we propose a zero-shot VQA named Flood Disaster VQA with Two-Stage Prompt (VQA-TSP). The model generates the thought process in the first stage and then uses the thought process to generate the final answer in the second stage. In particular, visual context is added in the second stage to relieve the hallucination problem that exists in the thought process. Experimental results show that our method exceeds the performance of state-of-the-art zero-shot VQA models for flood disaster scenarios in total. Our study provides a research basis for improving the performance of CoT-based zero-shot VQA.
翻訳日:2023-12-22 14:40:03 公開日:2023-12-21
# 吸気分布はコンセンサスにどのように影響するか? ブロックチェーンの分散分析

How Does Stake Distribution Influence Consensus? Analyzing Blockchain Decentralization ( http://arxiv.org/abs/2312.13938v1 )

ライセンス: Link先を確認
Shashank Motepalli, Hans-Arno Jacobsen(参考訳) PoSブロックチェーンの世界では、完全な分散化を実現する上での課題は、少数のバリデータ間でステンドトークンの不均等な集中によって妨げられることが多い。 本研究は,まず,重み付きコンセンサス機構のための分散メトリクスを定式化することで,この課題を分析する。 10の無許可ブロックチェーンに対する実証分析により、バリデータ間のかなりの重量集中が明らかになった。 これに対応するために,重み分布を効果的に再検討するSquare Root Stake Weight (SRSW) モデルを提案する。 ジニ指数は平均37.16%向上し、ナカモト係数は生存率と安全度がそれぞれ101.04%,80.09%向上した。 この研究は、ブロックチェーンのコンセンサスメカニズムにおける分散化を推進し、より公平で公平なステイクウェイト分布に向けた重要なステップである。

In the PoS blockchain landscape, the challenge of achieving full decentralization is often hindered by a disproportionate concentration of staked tokens among a few validators. This study analyses this challenge by first formalizing decentralization metrics for weighted consensus mechanisms. An empirical analysis across ten permissionless blockchains uncovers significant weight concentration among validators, underscoring the need for an equitable approach. To counter this, we introduce the Square Root Stake Weight (SRSW) model, which effectively recalibrates staking weight distribution. Our examination of the SRSW model demonstrates notable improvements in the decentralization metrics: the Gini index improves by 37.16% on average, while Nakamoto coefficients for liveness and safety see mean enhancements of 101.04% and 80.09%, respectively. This research is a pivotal step toward a more fair and equitable distribution of staking weight, advancing the decentralization in blockchain consensus mechanisms.
翻訳日:2023-12-22 14:33:02 公開日:2023-12-21
# NISQフレンドリな線形応答定式化にはどのような選択肢があるか?

Which options exist for NISQ-friendly linear response formulations? ( http://arxiv.org/abs/2312.13937v1 )

ライセンス: Link先を確認
Karl Michael Ziems, Erik Rosendahl Kjellgren, Peter Reinholdt, Phillip W. K. Jensen, Stephan P. A. Sauer, Jacob Kongsted, Sonia Coriani(参考訳) 線形応答 (lr) 理論は、化学や生物学における光誘起過程を理解する上で重要な古典量子化学の強力な道具である。 しかし、大規模システムや強い電子相関の場合のシミュレーションは依然として困難である。 量子コンピュータはそのようなシステムのシミュレーションを容易にするために開発され、最近では量子線形応答定式化(qlr)が導入された。 最小限の基底集合を超えて、近距離量子コンピュータにqLRを適用するために、多構成自己整合体LRアンサッツのトランケートされたアクティブスペースバージョンを用いた資源効率のよいqLR理論を導入する。 そこで本研究では,qLR方程式をハードウェア上で実行可能にする,新しい演算子変換を利用する8種類の短期qLR形式について検討する。 種々の試験ケースにおける励起状態ポテンシャルエネルギー曲線と吸収スペクトルをシミュレーションし,「proj LRSD」と「all-proj LRSD」という2つの候補を同定した。

Linear response (LR) theory is a powerful tool in classic quantum chemistry crucial to understanding photo-induced processes in chemistry and biology. However, performing simulations for large systems and in the case of strong electron correlation remains challenging. Quantum computers are poised to facilitate the simulation of such systems, and recently, a quantum linear response formulation (qLR) was introduced. To apply qLR to near-term quantum computers beyond a minimal basis set, we here introduce a resource-efficient qLR theory using a truncated active-space version of the multi-configurational self-consistent field LR ansatz. Therein, we investigate eight different near-term qLR formalisms that utilize novel operator transformations that allow the qLR equations to be performed on near-term hardware. Simulating excited state potential energy curves and absorption spectra for various test cases, we identify two promising candidates dubbed ``proj LRSD'' and ``all-proj LRSD''.
翻訳日:2023-12-22 14:32:47 公開日:2023-12-21
# 構造化確率符号化

Structured Probabilistic Coding ( http://arxiv.org/abs/2312.13933v1 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu(参考訳) 本稿では,対象タスクに関連する入力からコンパクトかつ情報的表現を学習するための,新しい教師付き表現学習フレームワークであるStructured Probabilistic Coding(SPC)を提案する。 SPCはエンコーダのみの確率的符号化技術であり、ターゲットラベル空間から構造化正規化される。 目標タスクに関連する入力からコンパクトかつ情報的表現を抽出することにより、SPCは事前学習された言語モデルの一般化能力を向上し、言語理解を向上することができる。 具体的には、隠れ表現をガウス分布空間に符号化し、ラベル空間に関する潜在表現の事前エントロピーを最大化する。 1つのモジュールで同時に情報符号化とタスク予測を行い、入力データからの効果的な情報をより活用し、出力空間における変動推論を用いてランダム性と不確実性を低減する。 潜在空間における確率分布をよりよく制御するために、潜在空間におけるクラスレベルの均一性を促進するために構造化正規化を提案する。 正規化項により、SPCは潜在コードのガウス分布構造を保ち、クラスで隠された空間を均一にカバーできる。 我々は12の自然言語理解タスクの評価を行う。 その結果,spcは様々な分類や回帰タスクにおいて,事前学習した言語モデルの性能を効果的に向上できることがわかった。 実験により、SPCは一般化能力、ラベルノイズに対する堅牢性、および出力表現のクラスタリング品質を向上させることができることが示された。

This paper presents a new supervised representation learning framework, namely Structured Probabilistic Coding (SPC), to learn compact and informative representations from input related to the target task. SPC is an encoder-only probabilistic coding technology with a structured regularization from the target label space. By extracting compact and informative representations from input related to the target task, SPC can enhance the generalization ability of pre-trained language models for better language understanding. Specifically, the hidden representation is encoded into a Gaussian distribution space, while maximizing the prior entropy of latent representations concerning label space. This technique can simultaneously perform information encoding and task prediction in one module to more fully utilize the effective information from input data, and use variational inference in the output space to reduce randomness and uncertainty. To better control the probability distribution in the latent space, a structured regularization is proposed to promote class-level uniformity in the latent space. With the regularization term, SPC can preserve the Gaussian distribution structure of latent code as well as better cover the hidden space with class uniformly. We conduct evaluations on 12 natural language understanding tasks. The results show that our SPC can effectively improve the performance of pre-trained language models for various classification and regression tasks. Experiments demonstrate that SPC can enhance the generalization capability, robustness to label noise, and clustering quality of output representations.
翻訳日:2023-12-22 14:32:29 公開日:2023-12-21
# ダイナミックスペクトラムアクセスのための画像・無線データモダリティを用いた共同センシングとタスク指向通信

Joint Sensing and Task-Oriented Communications with Image and Wireless Data Modalities for Dynamic Spectrum Access ( http://arxiv.org/abs/2312.13931v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Aylin Yener, Sennur Ulukus(参考訳) 本稿では,マルチモーダル画像とスペクトルデータの相乗効果を活用し,動的スペクトルアクセスへの深層学習手法を提案する。 本稿では,送信機を搭載可能な車両などの潜在的な物体を撮影するカメラを備えたエッジデバイスについて考察する。 デバイス上での計算にかかわる計算上の制約や信頼の問題を認識し,エッジデバイスが選択的に処理された情報を融合センタとして機能する信頼できる受信機に通信し,潜在的な送信機が存在するか否かを判断する協調システムを提案する。 これを実現するために,送信機のエンコーダを用いて,共同音源符号化,チャネル符号化,変調を行うタスク指向通信を用いる。 このアーキテクチャは、オブジェクト分類のための縮小次元の必須情報を効率的に伝達する。 同時に、送信された信号はオブジェクトを反射して送信機に戻り、ターゲットセンサーデータの収集を可能にする。 そして、収集したセンシングデータは、タスク指向通信を介して融合センタに伝達される縮小次元情報と共に、送信機で第2ラウンドのエンコーディングを行う。 受信側において、デコーダは、ジョイントセンシングおよびタスク指向通信によって受信されたデータを融合して送信機を識別するタスクを実行する。 送信機の2つのエンコーダと受信機のデコーダを共同で訓練し、画像分類と無線信号検出のシームレスな統合を可能にする。 awgnとrayleighチャネルモデルを用いて,提案手法の有効性を実証し,意思決定における低レイテンシを維持しつつ,多様なチャネル条件における送信者識別における高い精度を示す。

This paper introduces a deep learning approach to dynamic spectrum access, leveraging the synergy of multi-modal image and spectrum data for the identification of potential transmitters. We consider an edge device equipped with a camera that is taking images of potential objects such as vehicles that may harbor transmitters. Recognizing the computational constraints and trust issues associated with on-device computation, we propose a collaborative system wherein the edge device communicates selectively processed information to a trusted receiver acting as a fusion center, where a decision is made to identify whether a potential transmitter is present, or not. To achieve this, we employ task-oriented communications, utilizing an encoder at the transmitter for joint source coding, channel coding, and modulation. This architecture efficiently transmits essential information of reduced dimension for object classification. Simultaneously, the transmitted signals may reflect off objects and return to the transmitter, allowing for the collection of target sensing data. Then the collected sensing data undergoes a second round of encoding at the transmitter, with the reduced-dimensional information communicated back to the fusion center through task-oriented communications. On the receiver side, a decoder performs the task of identifying a transmitter by fusing data received through joint sensing and task-oriented communications. The two encoders at the transmitter and the decoder at the receiver are jointly trained, enabling a seamless integration of image classification and wireless signal detection. Using AWGN and Rayleigh channel models, we demonstrate the effectiveness of the proposed approach, showcasing high accuracy in transmitter identification across diverse channel conditions while sustaining low latency in decision making.
翻訳日:2023-12-22 14:32:07 公開日:2023-12-21
# 不確実性に基づく能動学習アルゴリズムと損失の収束について

On the convergence of loss and uncertainty-based active learning algorithms ( http://arxiv.org/abs/2312.13927v1 )

ライセンス: Link先を確認
Daniel Haimovich, Dima Karamshuk, Fridolin Linder, Niek Tax, Milan Vojnovic(参考訳) 種々の仮定の下で,損失の収束率と不確実性に基づく能動学習アルゴリズムについて検討した。 まず、収束率保証が成立する条件のセットを提供し、これを線形分類器と線形分離可能なデータセットで使用し、損失に基づくサンプリングと損失関数の異なる収束率保証を示す。 次に,確率的勾配降下アルゴリズムのための既知の収束率境界を配置することにより,損失ベースサンプリングの収束率境界を導出する枠組みを提案する。 3番目, 最後に, 点のサンプリングと確率的Polyakのステップサイズを組み合わせた能動的学習アルゴリズムを提案する。 本稿では,このアルゴリズムに対して,滑らかな凸損失関数に対する収束率を保証するサンプリング条件を示す。 本研究では,提案アルゴリズムの効率性を示す数値計算を行った。

We study convergence rates of loss and uncertainty-based active learning algorithms under various assumptions. First, we provide a set of conditions under which a convergence rate guarantee holds, and use this for linear classifiers and linearly separable datasets to show convergence rate guarantees for loss-based sampling and different loss functions. Second, we provide a framework that allows us to derive convergence rate bounds for loss-based sampling by deploying known convergence rate bounds for stochastic gradient descent algorithms. Third, and last, we propose an active learning algorithm that combines sampling of points and stochastic Polyak's step size. We show a condition on the sampling that ensures a convergence rate guarantee for this algorithm for smooth convex loss functions. Our numerical results demonstrate efficiency of our proposed algorithm.
翻訳日:2023-12-22 14:31:37 公開日:2023-12-21
# AsyncMLD:対話推薦システムのための非同期マルチLLMフレームワーク

AsyncMLD: Asynchronous Multi-LLM Framework for Dialogue Recommendation System ( http://arxiv.org/abs/2312.13925v1 )

ライセンス: Link先を確認
Naoki Yoshimaru, Motoharu Okuma, Takamasa Iio and Kenji Hatano(参考訳) 我々は,大規模言語モデル(LLM)を開発することで,人間支援対話エージェントの実践的で現実的な段階に達した。 しかし,対話データベースの大規模化による専門知識の要求や発話内容の予測には,LLMを用いた場合でも,発話内容の有効性と出力速度の効率化が依然として必要である。 そこで本研究では,システムの適切な応答を返す部分と,ユーザの意図を理解しデータベースを検索する部分において,非同期にllmを使用するフレームワークを提案する。 特に、ロボットが話すのに時間がかかることに注意して、ロボットが話している間、データベース検索に関連するスレッド処理を行う。

We have reached a practical and realistic phase in human-support dialogue agents by developing a large language model (LLM). However, when requiring expert knowledge or anticipating the utterance content using the massive size of the dialogue database, we still need help with the utterance content's effectiveness and the efficiency of its output speed, even if using LLM. Therefore, we propose a framework that uses LLM asynchronously in the part of the system that returns an appropriate response and in the part that understands the user's intention and searches the database. In particular, noting that it takes time for the robot to speak, threading related to database searches is performed while the robot is speaking.
翻訳日:2023-12-22 14:31:25 公開日:2023-12-21
# fed-co$_{2}$:フェデレーション学習における重度データ不均質性に対するオンラインおよびオフラインモデルの協調

Fed-CO$_{2}$: Cooperation of Online and Offline Models for Severe Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2312.13923v1 )

ライセンス: Link先を確認
Zhongyi Cai, Ye Shi, Wei Huang, Jingya Wang(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントがプライベートデータを共有することなく、グローバルなモデルを協調的に学習できる、有望な分散学習パラダイムとして登場した。 しかしながら、flの有効性はトレーニングに使用されるデータの品質に大きく依存している。 特に,ラベル分布スキューや特徴スキューなどのデータ不均一性問題はFLの性能に大きな影響を及ぼす可能性がある。 FLにおける従来の研究は主にラベル分布スキューデータの不均一性に対処することに焦点を当ててきたが、最近の研究は機能スキュー問題に対処する最初の進歩を成し遂げた。 特に、これらの2種類のデータ不均一性は別々に研究され、統一FLフレームワークでは十分に研究されていない。 このギャップに対処するため,我々は,\textbf{o}nline モデルと \textbf{o}ffline モデルの間の \textbf{c}o 操作機構内でラベル分布のスキューと特徴スキューの両方を処理するユニバーサルflフレームワーク fed-co$_{2}$ を提案する。 具体的には、オンラインモデルはすべてのクライアント間で共有される一般的な知識を学習し、オフラインモデルは各クライアントの専門知識を学ぶためにローカルでトレーニングされる。 機能シフトの存在下でのモデル協調をさらに強化するために,オンラインモデルとオフラインモデル間の相互学習を強化するクライアント内知識伝達機構と,モデルのドメイン一般化能力を高めるクライアント間知識伝達機構を設計する。 広範な実験によって、feed-co$_{2}$は、ラベル分布のスキューと特徴スキューの扱いという観点で、既存のパーソナライズされたフェデレーション学習アルゴリズムの幅広い範囲を上回っていることが示された。 実験結果は,収束解析により簡易な設定で支持される。

Federated Learning (FL) has emerged as a promising distributed learning paradigm that enables multiple clients to learn a global model collaboratively without sharing their private data. However, the effectiveness of FL is highly dependent on the quality of the data that is being used for training. In particular, data heterogeneity issues, such as label distribution skew and feature skew, can significantly impact the performance of FL. Previous studies in FL have primarily focused on addressing label distribution skew data heterogeneity, while only a few recent works have made initial progress in tackling feature skew issues. Notably, these two forms of data heterogeneity have been studied separately and have not been well explored within a unified FL framework. To address this gap, we propose Fed-CO$_{2}$, a universal FL framework that handles both label distribution skew and feature skew within a \textbf{C}ooperation mechanism between the \textbf{O}nline and \textbf{O}ffline models. Specifically, the online model learns general knowledge that is shared among all clients, while the offline model is trained locally to learn the specialized knowledge of each individual client. To further enhance model cooperation in the presence of feature shifts, we design an intra-client knowledge transfer mechanism that reinforces mutual learning between the online and offline models, and an inter-client knowledge transfer mechanism to increase the models' domain generalization ability. Extensive experiments show that our Fed-CO$_{2}$ outperforms a wide range of existing personalized federated learning algorithms in terms of handling label distribution skew and feature skew, both individually and collectively. The empirical results are supported by our convergence analyses in a simplified setting.
翻訳日:2023-12-22 14:31:13 公開日:2023-12-21
# paint3d: ライティングレステクスチャ拡散モデルによる3dペイント

Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models ( http://arxiv.org/abs/2312.13913v1 )

ライセンス: Link先を確認
Xianfang Zeng(参考訳) 本研究では,テキストや画像の入力に条件付された非テクスチャ3Dメッシュに対して,高分解能,光レス,多彩な2KUVテクスチャマップを作成可能な,粗大かつ微細な生成フレームワークであるPaint3Dを提案する。 対処すべき重要な課題は、組み込み照明情報なしで高品質なテクスチャを生成することだ。 そこで本手法では,まず,事前学習した深度認識2次元拡散モデルを用いて視条件画像を生成し,マルチビューテクスチャ融合を行い,初期粗いテクスチャマップを生成する。 しかし, 2次元モデルでは3次元形状を完全に表現できず, 照明効果が損なわれるため, 粗いテクスチャマップは不完全領域と照明アーチファクトを呈する。 これを解決するために,不完全領域の形状認識と照明器具の除去に特化したUV塗装とUVHD拡散モデルを個別に訓練する。 この粗いプロセスを通じて、Paint3Dは3Dオブジェクトのテクスチャ化において、セマンティック一貫性を維持しながらセマンティック一貫性を維持する高品質な2KUVテクスチャを生成することができる。

This paper presents Paint3D, a novel coarse-to-fine generative framework that is capable of producing high-resolution, lighting-less, and diverse 2K UV texture maps for untextured 3D meshes conditioned on text or image inputs. The key challenge addressed is generating high-quality textures without embedded illumination information, which allows the textures to be re-lighted or re-edited within modern graphics pipelines. To achieve this, our method first leverages a pre-trained depth-aware 2D diffusion model to generate view-conditional images and perform multi-view texture fusion, producing an initial coarse texture map. However, as 2D models cannot fully represent 3D shapes and disable lighting effects, the coarse texture map exhibits incomplete areas and illumination artifacts. To resolve this, we train separate UV Inpainting and UVHD diffusion models specialized for the shape-aware refinement of incomplete areas and the removal of illumination artifacts. Through this coarse-to-fine process, Paint3D can produce high-quality 2K UV textures that maintain semantic consistency while being lighting-less, significantly advancing the state-of-the-art in texturing 3D objects.
翻訳日:2023-12-22 14:30:38 公開日:2023-12-21
# 確率ゲームによるLong-run Average Reward Robust MDPの解法

Solving Long-run Average Reward Robust MDPs via Stochastic Games ( http://arxiv.org/abs/2312.13912v1 )

ライセンス: Link先を確認
Krishnendu Chatterjee, Ehsan Kafshdar Goharshady, Mehrdad Karrabi, Petr Novotn\'y, {\DJ}or{\dj}e \v{Z}ikeli\'c(参考訳) markov decision process (mdps) は不確実性下での逐次意思決定のための標準フレームワークを提供する。 しかし、MDPの遷移確率はしばしばデータから推定され、MDPはデータの不確実性を考慮していない。 ロバスト・マルコフ決定プロセス(RMDP)は、各遷移に単一の確率値ではなく不確実性セットを割り当てることで、MDPのこの欠点に対処する。 RMDPの解決の目標は、不確実性セットに対する最悪のパフォーマンスを最大化するポリシーを見つけることである。 本研究では,全ての不確実性集合がポリトープであるポリトープRMDPについて考察し,長期平均ポリトープRMDPの解法について考察する。 我々の焦点は計算複雑性の側面と効率的なアルゴリズムです。 本稿では,この問題に対する新しい視点を示し,有限状態と作用空間を持つ長ラン平均報酬ターンベースの確率ゲームに還元できることを示す。 この減少により,ポリトピックRMDPを保有することが分かっていなかったいくつかの重要な結果が導出される。 まず,長期平均報酬 RMDP を解くための計算複雑性境界を導出し,そのしきい値決定問題が NP coNP に含まれることを初めて示し,非指数的予測実行時を含むランダム化アルゴリズムを認めた。 第2に, 長期平均報奨ポリトピーrmdpsの解法として, ロバスト・ポリトピー・ポリシー・イテレーション (rppi) を提案する。 実験により、RPPIは、値反復に基づく最先端手法と比較して、長期平均ポリトピー的RMDPの解法においてはるかに効率的であることが示された。

Markov decision processes (MDPs) provide a standard framework for sequential decision making under uncertainty. However, transition probabilities in MDPs are often estimated from data and MDPs do not take data uncertainty into account. Robust Markov decision processes (RMDPs) address this shortcoming of MDPs by assigning to each transition an uncertainty set rather than a single probability value. The goal of solving RMDPs is then to find a policy which maximizes the worst-case performance over the uncertainty sets. In this work, we consider polytopic RMDPs in which all uncertainty sets are polytopes and study the problem of solving long-run average reward polytopic RMDPs. Our focus is on computational complexity aspects and efficient algorithms. We present a novel perspective on this problem and show that it can be reduced to solving long-run average reward turn-based stochastic games with finite state and action spaces. This reduction allows us to derive several important consequences that were hitherto not known to hold for polytopic RMDPs. First, we derive new computational complexity bounds for solving long-run average reward polytopic RMDPs, showing for the first time that the threshold decision problem for them is in NP coNP and that they admit a randomized algorithm with sub-exponential expected runtime. Second, we present Robust Polytopic Policy Iteration (RPPI), a novel policy iteration algorithm for solving long-run average reward polytopic RMDPs. Our experimental evaluation shows that RPPI is much more efficient in solving long-run average reward polytopic RMDPs compared to state-of-the-art methods based on value iteration.
翻訳日:2023-12-22 14:30:12 公開日:2023-12-21
# 軌道サンプリングによる連系自動車のマルチエージェント確率アンサンブル

Multi-Agent Probabilistic Ensembles with Trajectory Sampling for Connected Autonomous Vehicles ( http://arxiv.org/abs/2312.13910v1 )

ライセンス: Link先を確認
Ruoqi Wen, Jiahao Huang, Rongpeng Li, Guoru Ding, and Zhifeng Zhao(参考訳) 近年、自律走行車(avs)が注目され、強化学習(rl)は車両の自律性向上において顕著な性能を示している。 その点において、広く採用されているMFRL(Model-Free RL)は、コネクテッドAV(CAV)における意思決定タスクの解決を約束している。 それでも実際には実現不可能であり、不安定な学習につながる可能性がある。 対照的に、モデルベースRL(MBRL)は、サンプル効率のよい学習で現れているが、MBRLの漸近性能は最先端のMFRLアルゴリズムより遅れる可能性がある。 さらに、CAVのほとんどの研究は単一のAVのみの意思決定に限られており、通信の欠如により性能が低下している。 本研究では,複数のCAVを限られた通信で決定する問題に対処し,トラジェクティブサンプリングアルゴリズムMA-PETSを用いた分散マルチエージェント確率アンサンブルを提案する。 特に、未知環境の不確実性をよりよく把握するために、MA-PETSは確率的アンサンブル(PE)ニューラルネットワークを活用して、近隣のCAV間の通信サンプルから学習する。 その後、MA-PETSは、意思決定のためのトラジェクトリサンプリング(TS)ベースのモデル予測制御を開発する。 本研究では,コミュニケーション範囲内のエージェント数に影響されたマルチエージェント群の後悔を導出し,エージェント間の効果的な情報交換を多エージェント学習方式に組み込むことが,最悪の場合におけるグループ後悔の軽減に寄与することを数学的に検証する。 最後に,MFBLに匹敵する試料効率でMA-PETSの優位性を実証的に示す。

Autonomous Vehicles (AVs) have attracted significant attention in recent years and Reinforcement Learning (RL) has shown remarkable performance in improving the autonomy of vehicles. In that regard, the widely adopted Model-Free RL (MFRL) promises to solve decision-making tasks in connected AVs (CAVs), contingent on the readiness of a significant amount of data samples for training. Nevertheless, it might be infeasible in practice and possibly lead to learning instability. In contrast, Model-Based RL (MBRL) manifests itself in sample-efficient learning, but the asymptotic performance of MBRL might lag behind the state-of-the-art MFRL algorithms. Furthermore, most studies for CAVs are limited to the decision-making of a single AV only, thus underscoring the performance due to the absence of communications. In this study, we try to address the decision-making problem of multiple CAVs with limited communications and propose a decentralized Multi-Agent Probabilistic Ensembles with Trajectory Sampling algorithm MA-PETS. In particular, in order to better capture the uncertainty of the unknown environment, MA-PETS leverages Probabilistic Ensemble (PE) neural networks to learn from communicated samples among neighboring CAVs. Afterwards, MA-PETS capably develops Trajectory Sampling (TS)-based model-predictive control for decision-making. On this basis, we derive the multi-agent group regret bound affected by the number of agents within the communication range and mathematically validate that incorporating effective information exchange among agents into the multi-agent learning scheme contributes to reducing the group regret bound in the worst case. Finally, we empirically demonstrate the superiority of MA-PETS in terms of the sample efficiency comparable to MFBL.
翻訳日:2023-12-22 14:29:44 公開日:2023-12-21
# efficientpps: ロボット操作のための透明物体の部分認識パンオプティカルセグメンテーション

EfficientPPS: Part-aware Panoptic Segmentation of Transparent Objects for Robotic Manipulation ( http://arxiv.org/abs/2312.13906v1 )

ライセンス: Link先を確認
Benjamin Alt, Minh Dang Nguyen, Andreas Hermann, Darko Katic, Rainer J\"akel, R\"udiger Dillmann, Eric Sax(参考訳) 病院での補助作業に自律ロボットを使うことは、資格のあるスタッフを解放し、患者のケアを中断する可能性がある。 しかし、病院環境における変形可能な透明な物体の多様さは、視覚に基づく知覚システムに顕著な課題をもたらす。 Efficient PPSは、ロボットに意味的にリッチな視覚情報を提供し、把握とマ・ニピュレーションのタスクを提供する部分認識型パノプティクスセグメンテーションのためのニューラルネットワークである。 また,教師なしのデータ収集とラベル付けによる学習プロセスへの人間的関与を減らす手法を提案する。 実世界の病院オブジェクトを含むデータセット上で効率的なPPSを評価し, ロボットアームによる透明輸血袋の把握において, 堅牢かつ効率的であることが実証された。

The use of autonomous robots for assistance tasks in hospitals has the potential to free up qualified staff and im-prove patient care. However, the ubiquity of deformable and transparent objects in hospital settings poses signif-icant challenges to vision-based perception systems. We present EfficientPPS, a neural architecture for part-aware panoptic segmentation that provides robots with semantically rich visual information for grasping and ma-nipulation tasks. We also present an unsupervised data collection and labelling method to reduce the need for human involvement in the training process. EfficientPPS is evaluated on a dataset containing real-world hospital objects and demonstrated to be robust and efficient in grasping transparent transfusion bags with a collaborative robot arm.
翻訳日:2023-12-22 14:29:14 公開日:2023-12-21
# 対話型ロボットプログラミングのための大規模言語モデルのドメイン固有微調整

Domain-Specific Fine-Tuning of Large Language Models for Interactive Robot Programming ( http://arxiv.org/abs/2312.13905v1 )

ライセンス: Link先を確認
Benjamin Alt, Urs Ke{\ss}ner, Aleksandar Taranovic, Darko Katic, Andreas Hermann, Rainer J\"akel and Gerhard Neumann(参考訳) 産業用ロボットは幅広い産業に適用されているが、ロボットプログラミングはプログラミングの専門家に限られている。 先進的な産業用ロボットアプリケーションのプログラミングのための自然言語ベースアシスタントを提案し,データと計算量に制限のある基礎モデルのドメイン固有の微調整戦略について検討する。

Industrial robots are applied in a widening range of industries, but robot programming mostly remains a task limited to programming experts. We propose a natural language-based assistant for programming of advanced, industrial robotic applications and investigate strategies for domain-specific fine-tuning of foundation models with limited data and compute.
翻訳日:2023-12-22 14:28:58 公開日:2023-12-21
# EnergiBridge: クロスプラットフォームエネルギー測定によるソフトウェアサステナビリティ向上

EnergiBridge: Empowering Software Sustainability through Cross-Platform Energy Measurement ( http://arxiv.org/abs/2312.13897v1 )

ライセンス: Link先を確認
June Sallou, Lu\'is Cruz, Thomas Durieux(参考訳) 継続的に進化するソフトウェア工学の領域では、ソフトウェアエネルギー消費に対処する必要性が高まっている。 しかし、簡単なエネルギー測定を容易にするプラットフォームに依存しないツールが存在しないことは、依然として顕著なギャップである。 本稿では,Linux,Windows,MacOS,Intel,AMD,Apple ARM CPUアーキテクチャをサポートするクロスプラットフォーム計測ユーティリティであるEnergiBridgeについて述べる。 本質的に、EnergiBridgeはエネルギーを意識するソフトウェア工学と、それが運用する多様なソフトウェア環境との橋渡しとして機能する。 より広範なコミュニティが情報的決定を行い、エネルギー消費を最小化し、ソフトウェアシステムの環境への影響を減らすことを奨励している。 ソフトウェアエネルギーの測定を簡単にすることで、エネルギブリッジはグリーンソフトウェア開発をより軽量にし、教育をより包括的にし、研究をより再現できる貴重なリソースを提供する。 評価を通じて、さまざまなプラットフォームやハードウェア構成にまたがるエネルギーデータを収集するEnergiBridgeの機能を強調した。 EnergiBridgeはGitHubで公開されている。 https://github.com/tdurieux/EnergiBridge。

In the continually evolving realm of software engineering, the need to address software energy consumption has gained increasing prominence. However, the absence of a platform-independent tool that facilitates straightforward energy measurements remains a notable gap. This paper presents EnergiBridge, a cross-platform measurement utility that provides support for Linux, Windows, and MacOS, as well as Intel, AMD, and Apple ARM CPU architectures. In essence, EnergiBridge serves as a bridge between energy-conscious software engineering and the diverse software environments in which it operates. It encourages a broader community to make informed decisions, minimize energy consumption, and reduce the environmental impact of software systems. By simplifying software energy measurements, EnergiBridge offers a valuable resource to make green software development more lightweight, education more inclusive, and research more reproducible. Through the evaluation, we highlight EnergiBridge's ability to gather energy data across diverse platforms and hardware configurations. EnergiBridge is publicly available on GitHub: https://github.com/tdurieux/EnergiBridge, and a demonstration video can be viewed at: https://youtu.be/-gPJurKFraE.
翻訳日:2023-12-22 14:28:52 公開日:2023-12-21
# オンラインクレジットカード支払いにおける不正検出のための異常検出手法の比較評価

Comparative Evaluation of Anomaly Detection Methods for Fraud Detection in Online Credit Card Payments ( http://arxiv.org/abs/2312.13896v1 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Li\^en Doan and Fabrice Daniel(参考訳) 本研究は,実オンラインクレジットカード決済データを用いた不正検出に着目し,不均衡学習タスクにおける異常検出(ad)手法の適用を検討する。 本研究では,最近のad手法の性能を評価し,その効果を標準教師あり学習法と比較する。 データセット内の分散シフトの証拠を提供し、そのテストモデルのパフォーマンスへの影響を分析します。 以上の結果から,LightGBMはすべての評価指標に対して有意に優れた性能を示すが,AD法よりも分布シフトに悩まされていることがわかった。 さらに,本研究では,AD法で検出された不正行為の大部分をLightGBMが捉えていることも明らかにした。 この観察は、教師付き手法とパフォーマンス向上のためのADアプローチを組み合わせたアンサンブル手法の潜在的な利点に挑戦する。 要約して,本研究は実世界のシナリオにおけるこれらの手法の実用性に関する実践的な洞察を提供し,LightGBMの不正検出における優位性を示すとともに,流通シフトに関わる課題を強調する。

This study explores the application of anomaly detection (AD) methods in imbalanced learning tasks, focusing on fraud detection using real online credit card payment data. We assess the performance of several recent AD methods and compare their effectiveness against standard supervised learning methods. Offering evidence of distribution shift within our dataset, we analyze its impact on the tested models' performances. Our findings reveal that LightGBM exhibits significantly superior performance across all evaluated metrics but suffers more from distribution shifts than AD methods. Furthermore, our investigation reveals that LightGBM also captures the majority of frauds detected by AD methods. This observation challenges the potential benefits of ensemble methods to combine supervised, and AD approaches to enhance performance. In summary, this research provides practical insights into the utility of these techniques in real-world scenarios, showing LightGBM's superiority in fraud detection while highlighting challenges related to distribution shifts.
翻訳日:2023-12-22 14:28:31 公開日:2023-12-21
# 積状態をフィルタリングする効率的な量子アルゴリズム

Efficient Quantum Algorithm for Filtering Product States ( http://arxiv.org/abs/2312.13892v1 )

ライセンス: Link先を確認
Reinis Irmejs, Mari Carmen Ba\~nuls, J. Ignacio Cirac(参考訳) ターゲットエネルギーで任意に小さいエネルギー分散を持つ状態を効率的に生成する量子アルゴリズムを提案する。 我々は、与えられたエネルギーの積状態を幅$\delta$のローレンツフィルタでフィルタリングすることでそれを達成する。 n$ qubits 上の局所ハミルトニアンが与えられると、基底状態が変数エネルギー分散が $\delta\sqrt{n}$ に比例するフィルター付き積状態に対応する親ハミルトニアンを構成する。 親ハミルトニアンがガッピングされ、その基底状態が断熱的進化を通じて$\mathrm{poly}(n,1/\delta)$ で効率的に実装できることを証明する。 我々は, 特定の非可積分モデルのアルゴリズムを数値的にベンチマークし, システムサイズ$N$に依存しない幅$\delta$でフィルタ状態を作成するための断熱的進化時間を求める。 さらに、断熱進化は回路深さ$\mathcal{O}(N^2\delta^{-4})$で実現できる。 我々のアルゴリズムは、量子シミュレーターにおいて、有限エネルギー状態を直接準備し、任意のエネルギーでマイクロカノニカル特性の近似にアクセスすることによって、多くの身体系の有限エネルギー状態を研究する方法を提供する。

We introduce a quantum algorithm to efficiently prepare states with an arbitrarily small energy variance at the target energy. We achieve it by filtering a product state at the given energy with a Lorentzian filter of width $\delta$. Given a local Hamiltonian on $N$ qubits, we construct a parent Hamiltonian whose ground state corresponds to the filtered product state with variable energy variance proportional to $\delta\sqrt{N}$. We prove that the parent Hamiltonian is gapped and its ground state can be efficiently implemented in $\mathrm{poly}(N,1/\delta)$ time via adiabatic evolution. We numerically benchmark the algorithm for a particular non-integrable model and find that the adiabatic evolution time to prepare the filtered state with a width $\delta$ is independent of the system size $N$. Furthermore, the adiabatic evolution can be implemented with circuit depth $\mathcal{O}(N^2\delta^{-4})$. Our algorithm provides a way to study the finite energy regime of many body systems in quantum simulators by directly preparing a finite energy state, providing access to an approximation of the microcanonical properties at an arbitrary energy.
翻訳日:2023-12-22 14:28:14 公開日:2023-12-21
# 高質量比混合イオン鎖の低励起輸送と分離

Low-excitation transport and separation of high-mass-ratio mixed-species ion chains ( http://arxiv.org/abs/2312.14006v1 )

ライセンス: Link先を確認
Francesco Lancellotti, Stephan Welte, Matteo Simoni, Carmelo Mordini, Tanja Behrle, Brennan de Neeve, Matteo Marinelli, Vlad Negnevitsky, Jonathan Home(参考訳) 1つのベリリウムと1つのカルシウムイオンからなる2イオン結晶の低励起輸送と分離を示し、質量比は4.4ドルである。 完全な分離は、混合種連鎖を輸送し、それぞれのイオンを別々のポテンシャル井戸に分割し、検出する前に各イオンを輸送する。 高質量比は、このプロトコルを軸モードと放射モードの間のモード交差に敏感にし、イオン鎖の質量依存的なねじれを誘発する非制御ラジアル電場に敏感にする。 これらの段階を制御することで、カルシウムイオンに対する$\bar{n}=1.40 \pm 0.08$ フォノンとベリリウムイオンに対する$\bar{n}=1.44 \pm 0.09$ フォノンの励起が得られる。 混合種連鎖の分離と輸送はQCCDアーキテクチャの重要な要素であり、外来種の量子論理に基づく分光にも適用できる。

We demonstrate low-excitation transport and separation of two-ion crystals consisting of one beryllium and one calcium ion, with a high mass ratio of $4.4$. The full separation involves transport of the mixed-species chain, splitting each ion into separate potential wells, and then transport of each ion prior to detection. We find the high mass ratio makes the protocol sensitive to mode crossings between axial and radial modes, as well as to uncontrolled radial electric fields that induce mass-dependent twists of the ion chain. By controlling these stages, we achieve excitation as low as $\bar{n}=1.40 \pm 0.08$ phonons for the calcium ion and $\bar{n}=1.44 \pm 0.09$ phonons for the beryllium ion. Separation and transport of mixed-species chains are key elements of the QCCD architecture, and may also be applicable to quantum-logic-based spectroscopy of exotic species.
翻訳日:2023-12-22 14:22:03 公開日:2023-12-21
# オペレータシステムを超えて

Beyond Operator Systems ( http://arxiv.org/abs/2312.13983v1 )

ライセンス: Link先を確認
Gemma De les Coves, Mirte van der Eyden, Tim Netzer(参考訳) 作用素系は作用素代数、自由半代数幾何学、量子情報理論を繋ぐ。 本研究では作用素系とその定理の多くを一般化する。 正の半定義行列は作用素系の基底構造を形成するが、本研究はより一般的な構造に昇格できることを示した。 例えば、よく知られた準同型定理、リースの拡張定理、ファルカスの補題、アーヴェソンの拡張定理を統一する一般的な拡張定理を証明する。 一方、同じ定理は、他の基底構造に適用されるとき、不変写像に対しても、新しいベクトル値拡張定理をもたらす。 また、Choi-Kraus表現の一般化版、Choi-Effros定理、作用素系の双対性、完全正の写像の分解等を証明し、作用素系自体に対しても新たな結果をもたらす。 さらに、我々の証明はより短く、よりシンプルで、星の自律カテゴリーで優雅に捉えられた円錐とテンソル積の相互作用を明らかにする。 この視点は、我々の枠組みの異なる例に対応し、従って作用素系の兄弟であるので、群表現、写像錐、位相量子場理論の間の新たな接続をもたらす。

Operator systems connect operator algebra, free semialgebraic geometry and quantum information theory. In this work we generalize operator systems and many of their theorems. While positive semidefinite matrices form the underlying structure of operator systems, our work shows that these can be promoted to far more general structures. For instance, we prove a general extension theorem which unifies the well-known homomorphism theorem, Riesz' extension theorem, Farkas' lemma and Arveson's extension theorem. On the other hand, the same theorem gives rise to new vector-valued extension theorems, even for invariant maps, when applied to other underlying structures. We also prove generalized versions of the Choi-Kraus representation, Choi-Effros theorem, duality of operator systems, factorizations of completely positive maps, and more, leading to new results even for operator systems themselves. In addition, our proofs are shorter and simpler, revealing the interplay between cones and tensor products, captured elegantly in terms of star autonomous categories. This perspective gives rise to new connections between group representations, mapping cones and topological quantum field theory, as they correspond to different instances of our framework and are thus siblings of operator systems.
翻訳日:2023-12-22 14:21:44 公開日:2023-12-21
# Carve3D:RLファインタニングによる拡散モデルの多視点再構成整合性の改善

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning ( http://arxiv.org/abs/2312.13980v1 )

ライセンス: Link先を確認
Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, S\"oren Pirk, Arie E. Kaufman(参考訳) text-to-3dタスクの最近の進歩は、ファインチューニングされたtext-to-image拡散モデルを利用してマルチビュー画像を生成する。 しかし、既存の教師付き微調整拡散モデル(SFT)は、マルチビューの不整合と結果のNeRFアーティファクトに悩まされている。 SFTによるより長いトレーニングは一貫性を向上させるが、分散シフトを引き起こし、多様性と現実的な詳細を減らす。 マルチビュー拡散モデルのSFTは、LLMアライメントパイプラインの命令微調整段階に似ており、RL微調整(RLFT)手法の恩恵を受けることができる。 基本的に、RLFT法は、SFTデータ分布を超えてモデルを最適化し、分散シフトを効果的に軽減する。 そこで我々は,多視点拡散モデルの整合性を改善するために,MRC(Multi-view Reconstruction Consistency)メトリックと組み合わせたRLFT手法であるCarve3Dを紹介する。 マルチビュー画像の集合上でMRCを計算するために、再構成したNeRFのレンダリングを同じ視点で比較する。 制御された不整合レベル下での広範囲な実験により, MRCの堅牢性を検証する。 本稿では,ベースrlftアルゴリズムを拡張し,トレーニングプロセスの安定化,分散シフトの低減,スケーリング則の特定を行う。 定性的かつ定量的な実験を通じて、Carve3Dのマルチビュー整合性の改善、NeRF再構成品質の向上、より長いSFTと比較しての分布シフトの最小化を実証した。 プロジェクトWebページ: https://desaixie.github.io/carve-3d.com

Recent advancements in the text-to-3D task leverage finetuned text-to-image diffusion models to generate multi-view images, followed by NeRF reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still suffer from multi-view inconsistency and the resulting NeRF artifacts. Although training longer with SFT improves consistency, it also causes distribution shift, which reduces diversity and realistic details. We argue that the SFT of multi-view diffusion models resembles the instruction finetuning stage of the LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods. Essentially, RLFT methods optimize models beyond their SFT data distribution by using their own outputs, effectively mitigating distribution shift. To this end, we introduce Carve3D, a RLFT method coupled with the Multi-view Reconstruction Consistency (MRC) metric, to improve the consistency of multi-view diffusion models. To compute MRC on a set of multi-view images, we compare them with their corresponding renderings of the reconstructed NeRF at the same viewpoints. We validate the robustness of MRC with extensive experiments conducted under controlled inconsistency levels. We enhance the base RLFT algorithm to stabilize the training process, reduce distribution shift, and identify scaling laws. Through qualitative and quantitative experiments, along with a user study, we demonstrate Carve3D's improved multi-view consistency, the resulting superior NeRF reconstruction quality, and minimal distribution shift compared to longer SFT. Project webpage: https://desaixie.github.io/carve-3d.
翻訳日:2023-12-22 14:21:24 公開日:2023-12-21
# タスクあたりのサンプル数が極めて少ないメタラーニング

Metalearning with Very Few Samples Per Task ( http://arxiv.org/abs/2312.13978v1 )

ライセンス: Link先を確認
Maryam Aliakbarpour and Konstantina Bairaktari and Gavin Brown and Adam Smith and Jonathan Ullman(参考訳) メタラーニングとマルチタスク学習は、個々のタスクをそれぞれ自分で解決したいと願うよりも、関連する学習タスクのグループを効率的に解決するための2つのフレームワークです。 マルチタスク学習では、関連する学習タスクの固定セットが与えられ、タスク毎の正確なモデル1つを出力する必要があるが、メタ学習ではメタディストリビューションから引き出されたタスクが与えられ、メタディストリビューションから未確認のタスクに容易に専門化できる共通情報を出力する必要がある。 本研究では、タスクが共有表現によって関連付けられるバイナリ分類設定、すなわち、すべてのタスク $p$ は、機能からタスク間で共有されるある表現空間へのマップで、$h \in h$ は、表現空間からラベルへのタスク固有の分類器である。 この作業で私たちが質問する主な質問は、よい表現を作るのにどのくらいのデータが必要かということです。 ここでは、データ量は、見なければならないタスク数$t$とタスク毎のサンプル数$n$の両方で測定されます。 私たちは、1つのタスクあたりのサンプル数が極めて少ないシステムに注目します。 我々の主な結果は、特徴ベクトルが$\mathbb{R}^d$ の分布自由な環境では、表現は $\mathbb{R}^d \to \mathbb{R}^k$ の線型写像であり、タスク固有の分類器は $\mathbb{R}^k$ のハーフスペースであり、単に $n = k+2$ のタスク毎のサンプルを使い、$d \cdot (1/\varepsilon)^{O(k)} のタスクで表現をメタアリングできることを示している。 なぜなら、1タスクにつき$k+1$のサンプルでメタラーニングは不可能であり、そして、1タスクにつき$k+2$のサンプルで正確なタスク固有の分類器を学習することさえ望めないからです。

Metalearning and multitask learning are two frameworks for solving a group of related learning tasks more efficiently than we could hope to solve each of the individual tasks on their own. In multitask learning, we are given a fixed set of related learning tasks and need to output one accurate model per task, whereas in metalearning we are given tasks that are drawn i.i.d. from a metadistribution and need to output some common information that can be easily specialized to new, previously unseen tasks from the metadistribution. In this work, we consider a binary classification setting where tasks are related by a shared representation, that is, every task $P$ of interest can be solved by a classifier of the form $f_{P} \circ h$ where $h \in H$ is a map from features to some representation space that is shared across tasks, and $f_{P} \in F$ is a task-specific classifier from the representation space to labels. The main question we ask in this work is how much data do we need to metalearn a good representation? Here, the amount of data is measured in terms of both the number of tasks $t$ that we need to see and the number of samples $n$ per task. We focus on the regime where the number of samples per task is extremely small. Our main result shows that, in a distribution-free setting where the feature vectors are in $\mathbb{R}^d$, the representation is a linear map from $\mathbb{R}^d \to \mathbb{R}^k$, and the task-specific classifiers are halfspaces in $\mathbb{R}^k$, we can metalearn a representation with error $\varepsilon$ using just $n = k+2$ samples per task, and $d \cdot (1/\varepsilon)^{O(k)}$ tasks. Learning with so few samples per task is remarkable because metalearning would be impossible with $k+1$ samples per task, and because we cannot even hope to learn an accurate task-specific classifier with just $k+2$ samples per task.
翻訳日:2023-12-22 14:20:54 公開日:2023-12-21
# NeuSurf: スパースインプットビューからのニューラルサーフェスリコンストラクションのためのオンサーフェス

NeuSurf: On-Surface Priors for Neural Surface Reconstruction from Sparse Input Views ( http://arxiv.org/abs/2312.13977v1 )

ライセンス: Link先を確認
Han Huang, Yulun Wu, Junsheng Zhou, Ge Gao, Ming Gu, Yushen Liu(参考訳) 近年,多視点再構成の分野では,神経暗黙関数が顕著な成果を上げている。 しかし、既存のほとんどの手法は密集したビュー用に調整されており、スパースビューを扱う際に不満足なパフォーマンスを示す。 スパースビュー再構築タスクに対処するために暗黙的再構成を一般化するために、いくつかの最新の方法が提案されているが、それらは依然として高いトレーニングコストを被り、慎重に選択された観点でのみ有効である。 本稿では,表面上の事前情報を利用して高度に忠実な表面再構成を実現する新しいスパースビュー再構築フレームワークを提案する。 具体的には,大域的幾何アライメントと局所幾何洗練に関する制約を設計し,粗い形状と細部を協調的に最適化する。 これを実現するために、ニューラルネットワークをトレーニングし、SfMから得られる地上点からグローバルな暗黙の場を学習し、粗い幾何学的制約として活用する。 局所的な幾何的整合性を利用するために、我々は地上の点を見かけや見えない視点に投影し、投影された特徴の一貫した損失を微細な幾何学的制約として扱う。 dtu と blendedmvs データセットによる2つの分散設定の実験結果は、最先端の方法よりも大幅に改善されていることを示している。

Recently, neural implicit functions have demonstrated remarkable results in the field of multi-view reconstruction. However, most existing methods are tailored for dense views and exhibit unsatisfactory performance when dealing with sparse views. Several latest methods have been proposed for generalizing implicit reconstruction to address the sparse view reconstruction task, but they still suffer from high training costs and are merely valid under carefully selected perspectives. In this paper, we propose a novel sparse view reconstruction framework that leverages on-surface priors to achieve highly faithful surface reconstruction. Specifically, we design several constraints on global geometry alignment and local geometry refinement for jointly optimizing coarse shapes and fine details. To achieve this, we train a neural network to learn a global implicit field from the on-surface points obtained from SfM and then leverage it as a coarse geometric constraint. To exploit local geometric consistency, we project on-surface points onto seen and unseen views, treating the consistent loss of projected features as a fine geometric constraint. The experimental results with DTU and BlendedMVS datasets in two prevalent sparse settings demonstrate significant improvements over the state-of-the-art methods.
翻訳日:2023-12-22 14:20:11 公開日:2023-12-21
# ヒト筋膜後梗塞心電図表現型における性差の解剖学的基礎 : 新規なトルソ・心臓3次元再構成法を用いて

Anatomical basis of sex differences in human post-myocardial infarction ECG phenotypes identified by novel automated torso-cardiac 3D reconstruction ( http://arxiv.org/abs/2312.13976v1 )

ライセンス: Link先を確認
Hannah J. Smith, Blanca Rodriguez, Yuling Sang, Marcel Beetz, Robin Choudhury, Vicente Grau, Abhirup Banerjee(参考訳) 心電図(ECG)は、解剖学的変動により解釈されるが、心臓学において日常的に用いられる。 新しい自動計算パイプラインは、磁気共鳴イメージングによる胸室解剖測定値の定量化を可能にし、心電図特性との比較を行う。 性差と心筋梗塞の差は,英国バイオバンクの健常者1051名と後遺症者425名から検討した。 女性のより小さな心室は、男性よりも短いqrs持続時間の約50%を説明でき、女性(より上位と後位による)のstm振幅を低下させる。 女性では、特に大きなBMIの胴体-心室解剖学は、男性よりもT波振幅の減少と左下方R軸角度の強い調節因子である。 したがって、女性のmi表現型は病理の反映が少なく、臨床的しきい値からstm振幅とqrs持続時間がさらに高い。 したがって、健康と疾患における解剖学的性差の定量化と心電図への影響は、臨床性バイアスを避けるために重要である。

The electrocardiogram (ECG) is routinely used in cardiology, though its interpretation is confounded by anatomical variability. A novel, automated computational pipeline enables quantification of torso-ventricular anatomy metrics from magnetic resonance imaging, and comparison to ECG characteristics. Sex and myocardial infarction differences are investigated based on 1051 healthy and 425 post-MI subjects from UK Biobank. Smaller ventricles in females explain ~50% of shorter QRS durations than in males, and contribute to lower STJ amplitudes in females (also due to more superior and posterior position). In females, torso-ventricular anatomy, particularly from larger BMI, is a stronger modulator of T wave amplitude reductions and left-deviated R axis angles in post-MI than in males. Thus, female MI phenotype is less reflective of pathology, and baseline STJ amplitudes and QRS durations are further from clinical thresholds. Therefore, quantification of anatomical sex-differences and impact on ECG in health and disease is critical to avoid clinical sex-bias.
翻訳日:2023-12-22 14:19:49 公開日:2023-12-21
# 部分最適輸送について:シンクホーンの実用性の改善と効率的な勾配法

On Partial Optimal Transport: Revising the Infeasibility of Sinkhorn and Efficient Gradient Methods ( http://arxiv.org/abs/2312.13970v1 )

ライセンス: Link先を確認
Anh Duc Nguyen, Tuan Dung Nguyen, Quang Minh Nguyen, Hoang H. Nguyen, Kim-Chuan Toh(参考訳) 本稿では、最大$n$の非バランスな2つの測度間の部分最適輸送(POT)問題と、色移動やドメイン適応といった様々なAIタスクへの応用について検討する。 したがって、アプリケーションの原因となる問題のサイズがますます大きくなるPOTの高速な近似が必要である。 我々はまず,ポットに対する最先端のシンクホーンアルゴリズムの非互換な丸め手順による実現不可能性を理論的に実験的に検討し,ポイントクラウド登録のような実世界のアプリケーションにおける質的性能を低下させる。 そこで本研究では,POT の新たなラウンドリングアルゴリズムを提案し,計算複雑性を$\mathcal{\widetilde O}(n^2/\varepsilon^4)$に修正した,実行可能な Sinkhorn プロシージャを提案する。 丸めアルゴリズムはポット問題を近似する2つの一階法の開発も可能にしている。 最初のアルゴリズムであるadaptive primal-dual accelerated gradient descent (apdagd) は、修正されたシンクホーンよりも$\varepsilon$の方が良い$\mathcal{\widetilde o}(n^{2.5}/\varepsilon)$のポット問題に対する$\varepsilon$-approximate solutionを見つける。 2つ目の方法であるDual Extrapolationは、$\mathcal{\widetilde O}(n^2/\varepsilon)$の計算複雑性を実現する。 さらに,ポットの柔軟性を標準otと比較し,二つの限界分布が不均衡な実アプリケーションにおけるアルゴリズムの実用性を示す。

This paper studies the Partial Optimal Transport (POT) problem between two unbalanced measures with at most $n$ supports and its applications in various AI tasks such as color transfer or domain adaptation. There is hence the need for fast approximations of POT with increasingly large problem sizes in arising applications. We first theoretically and experimentally investigate the infeasibility of the state-of-the-art Sinkhorn algorithm for POT due to its incompatible rounding procedure, which consequently degrades its qualitative performance in real world applications like point-cloud registration. To this end, we propose a novel rounding algorithm for POT, and then provide a feasible Sinkhorn procedure with a revised computation complexity of $\mathcal{\widetilde O}(n^2/\varepsilon^4)$. Our rounding algorithm also permits the development of two first-order methods to approximate the POT problem. The first algorithm, Adaptive Primal-Dual Accelerated Gradient Descent (APDAGD), finds an $\varepsilon$-approximate solution to the POT problem in $\mathcal{\widetilde O}(n^{2.5}/\varepsilon)$, which is better in $\varepsilon$ than revised Sinkhorn. The second method, Dual Extrapolation, achieves the computation complexity of $\mathcal{\widetilde O}(n^2/\varepsilon)$, thereby being the best in the literature. We further demonstrate the flexibility of POT compared to standard OT as well as the practicality of our algorithms on real applications where two marginal distributions are unbalanced.
翻訳日:2023-12-22 14:19:30 公開日:2023-12-21
# PIA: テキスト・ツー・イメージモデルにおけるプラグイン・アンド・プレイモジュールによるパーソナライズされた画像アニメーション

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models ( http://arxiv.org/abs/2312.13964v1 )

ライセンス: Link先を確認
Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen(参考訳) パーソナライズされたテキスト・ツー・イメージ(T2I)モデルの最近の進歩は、コンテンツ作成に革命をもたらした。 有望だが、これらのパーソナライズされた画像にテキストでリアルな動きを加えることは、異なるスタイル、忠実度の詳細を保持し、テキストによる動き制御性を達成する上で大きな課題となる。 本稿では,条件画像との整合性,テキストによる動作制御性,特定のチューニングを伴わずにパーソナライズされたt2iモデルとの互換性を実現する,パーソナライズされた画像アニメーターであるpiaを提案する。 これらの目標を達成するため、PIAは、よく訓練された時間的アライメント層を持つベースT2Iモデルを構築し、パーソナライズされたT2Iモデルをイメージアニメーションモデルにシームレスに変換することができる。 PIAのキーコンポーネントは、条件フレームとフレーム間の親和性を入力として利用する条件モジュールの導入であり、潜時空間における個々のフレーム合成のための親和性ヒントによって案内される外見情報を転送する。 このデザインは、外観関連画像アライメントの課題を軽減し、モーション関連ガイダンスとのアライメントに焦点を絞ることができる。

Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
翻訳日:2023-12-22 14:18:57 公開日:2023-12-21
# ニュースのコメンテーターとしてのChatGPT: LLMは人間的な意見を生み出すことができるか?

ChatGPT as a commenter to the news: can LLMs generate human-like opinions? ( http://arxiv.org/abs/2312.13961v1 )

ライセンス: Link先を確認
Rayden Tseng, Suzan Verberne and Peter van der Putten(参考訳) ChatGPT、GPT-3.5、その他の大規模言語モデル(LLM)はリリース以来大きな注目を集めており、これらのモデルの能力は様々なタスクで研究されている。 本研究では,GPT-3.5がオランダのニュース記事に対する人間的なコメントをどの程度生成できるかを検討する。 我々は、人間とgptのコメントの自動分類の難しさに近似して、人間の類似性を「人間のコメントと区別できない」と定義する。 複数のプロンプト技術で人間の類似性を解析する。 特に、2つの生成したペルソナに対してゼロショット、少数ショット、コンテキストプロンプトを利用する。 細調整されたBERTモデルでは,GPT-3.5生成したコメントから人手によるコメントを容易に識別できることがわかった。 さらに,ヒトのコメントはGPT生成コメントよりも高い語彙多様性を示した。 これは、生成的llmは流麗なテキストを生成することができるが、人間のような意見のコメントを作成する能力はまだ限られていることを示している。

ChatGPT, GPT-3.5, and other large language models (LLMs) have drawn significant attention since their release, and the abilities of these models have been investigated for a wide variety of tasks. In this research we investigate to what extent GPT-3.5 can generate human-like comments on Dutch news articles. We define human likeness as `not distinguishable from human comments', approximated by the difficulty of automatic classification between human and GPT comments. We analyze human likeness across multiple prompting techniques. In particular, we utilize zero-shot, few-shot and context prompts, for two generated personas. We found that our fine-tuned BERT models can easily distinguish human-written comments from GPT-3.5 generated comments, with none of the used prompting methods performing noticeably better. We further analyzed that human comments consistently showed higher lexical diversity than GPT-generated comments. This indicates that although generative LLMs can generate fluent text, their capability to create human-like opinionated comments is still limited.
翻訳日:2023-12-22 14:18:31 公開日:2023-12-21
# ramsey-bragg interferometryによるフェルミガス中の対相関の検出

Probing pair correlations in Fermi gases with Ramsey-Bragg interferometry ( http://arxiv.org/abs/2312.13960v1 )

ライセンス: Link先を確認
Th\'eo Malas-Danz\'e, Alexandre Dugelay, Nir Navon, and Hadrien Kurkjian(参考訳) スピン1/2フェルミオンガス中の対相関を探索する干渉計法を提案する。 この方法は、フェルミガスのスピン状態が静止状態と大きな反動速度の状態の重ね合わせで設定されるラムゼー系列からなる。 この2体密度行列は、転送された分率の反動状態へのゆらぎを介して抽出される。 対凝縮相では、対角外長距離秩序は、長い尋問時間における干渉信号の漸近挙動に直接反映される。 干渉信号は、bardeen-cooper-schrieffer系における尋問時間の振動関数であり、分子ボース=アインシュタイン凝縮系では過減衰関数となる。

We propose an interferometric method to probe pair correlations in a gas of spin-1/2 fermions. The method consists of a Ramsey sequence where both spin states of the Fermi gas are set in a superposition of a state at rest and a state with a large recoil velocity. The two-body density matrix is extracted via the fluctuations of the transferred fraction to the recoiled state. In the pair-condensed phase, the off-diagonal long-range order is directly reflected in the asymptotic behavior of the interferometric signal for long interrogation times. The method also allows to probe the spatial structure of the condensed pairs: the interferometric signal is an oscillating function of the interrogation time in the Bardeen-Cooper-Schrieffer regime; it becomes an overdamped function in the molecular Bose-Einstein condensate regime.
翻訳日:2023-12-22 14:18:14 公開日:2023-12-21
# 台風:タイの大型言語モデル

Typhoon: Thai Large Language Models ( http://arxiv.org/abs/2312.13951v1 )

ライセンス: Link先を確認
Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul, Sittipong Sripaisarnmongkol, Ruangsak Patomwong, Pathomporn Chokchainant, Kasima Tharnpipitchai(参考訳) typhoonはタイ語用に開発されたタイの大型言語モデル(llm)のシリーズである。 本技術報告では,タイのLLM開発における課題と知見について述べる。 低リソース言語の課題の1つは、事前学習データの量であるので、我々は、既存の世界知識を強力なLLMから移行するために継続トレーニングを適用します。 事前学習段階から各モデルにカプセル化されたタイの知識を評価するために,タイの高校生と投資専門職の試験に基づくベンチマークであるタイ語examを開発した。 さらに,タイの指示に従う台風を微調整し,タイの指示データセット上での指示調整モデルと翻訳,要約,質問応答タスクを評価する。 タイのベンチマークの一連の実験結果は、タイの台風がすべてのオープンソースのタイ語モデルよりも優れており、その性能はタイのgpt-3.5と同等であり、わずか70億のパラメータを持ち、タイ語のテキストのトークン化の効率は262倍であることを示している。

Typhoon is a series of Thai large language models (LLMs) developed specifically for the Thai language. This technical report presents challenges and insights in developing Thai LLMs, including data preparation, pretraining, instruction-tuning, and evaluation. As one of the challenges of low-resource languages is the amount of pretraining data, we apply continual training to transfer existing world knowledge from a strong LLM. To evaluate the Thai knowledge encapsulated in each model from the pretraining stage, we develop ThaiExam, a benchmark based on examinations for high-school students and investment professionals in Thailand. In addition, we fine-tune Typhoon to follow Thai instructions, and we evaluate instruction-tuned models on Thai instruction datasets as well as translation, summarization, and question-answering tasks. Experimental results on a suite of Thai benchmarks show that Typhoon outperforms all open-source Thai language models, and its performance is on par with GPT-3.5 in Thai while having only 7 billion parameters and being 2.62 times more efficient in tokenizing Thai text.
翻訳日:2023-12-22 14:18:01 公開日:2023-12-21
# 超伝導単原子フォノンレーザー

A Superconducting Single-Atom Phonon Laser ( http://arxiv.org/abs/2312.13948v1 )

ライセンス: Link先を確認
C.A. Potts, W.J.M. Franse, V.A.S.V. Bittencourt, A. Metelmann, G.A. Steele(参考訳) 量子音響学の発展により、その量子基底状態への機械的物体の冷却、メカニカルフォック状態の生成、そしてシュロディンガー・キャット状態が実現された。 このようなデモンストレーションにより、量子情報処理、気象学、量子重力理論のテストのための機械共振器が魅力的な候補となった。 本稿では,単一原子レーザーの直接量子音響等価性を示す。 高オーバートンバルク音響共振器に結合した単一超伝導量子ビットを用いてフォノン発振の開始を駆動する。 鋭い下降閾値と特徴的な上降しきい値が存在しないこと,単原子発振の特異な予測がないことを観察した。 前例のない25ugの質量を持つ物体のレーザー物理の新たな状態を表し、フォノンレーザーとオンチップデバイスを統合する基盤を提供する。

The development of quantum acoustics has enabled the cooling of mechanical objects to their quantum ground state, generation of mechanical Fock-states, and Schrodinger cat states. Such demonstrations have made mechanical resonators attractive candidates for quantum information processing, metrology, and tests of quantum gravity theories. Here, we experimentally demonstrate a direct quantum-acoustic equivalent of a single-atom laser. A single superconducting qubit coupled to a high-overtone bulk acoustic resonator is used to drive the onset of phonon lasing. We observe the absence of a sharp lower lasing threshold and characteristic upper lasing threshold, unique predictions of single-atom lasing. Lasing of an object with an unprecedented 25 ug mass represents a new regime of laser physics and provides a foundation for integrating phonon lasers with on-chip devices.
翻訳日:2023-12-22 14:17:42 公開日:2023-12-21
# physrfanet:物理誘導ニューラルネットワークによる高周波アブレーション処理時の熱効果のリアルタイム予測

PhysRFANet: Physics-Guided Neural Network for Real-Time Prediction of Thermal Effect During Radiofrequency Ablation Treatment ( http://arxiv.org/abs/2312.13947v1 )

ライセンス: Link先を確認
Minwoo Shin, Minjee Seo, Seonaeng Cho, Juil Park, Joon Ho Kwon, Deukhee Lee, Kyungho Yoon(参考訳) 高周波アブレーション(RFA, Radio frequency ablation)は, 固形腫瘍の診断法として広く用いられている。 精密なパーソナライズされた治療を実現するには、RFA法により誘導されるその場熱効果に関するフィードバック情報が必要である。 コンピュータシミュレーションは、RFAに関連する電気的および熱的現象の予測を促進するが、臨床環境における実践的な実装は、高い計算要求によって妨げられる。 本稿では,rfa処理時の熱効果のリアルタイム予測を可能にする物理誘導ニューラルネットワークモデルphysrfanetを提案する。 温度分布とそれに対応するアブレーション病変を予測するために設計されたネットワークは、乳がん患者の磁気共鳴(MR)画像とともに静電気、生体熱伝達、細胞壊死を統合する生体物理計算モデルを用いて訓練された。 計算モデルの検証は, 体外性ウシ肝組織を用いた実験により行った。 腫瘍画像検査では, 病変容積予測に96%diceスコア, 温度分布に0.4854のrmseが得られた。 特に予期せぬ画像であっても,アブレーション病変の93%diceスコア,温度分布のrmse 0.6783であった。 対象領域の電極配置を最適化するために応用された提案手法は, RFA治療の安全性と有効性を高める上で有意義な可能性を秘めている。

Radiofrequency ablation (RFA) is a widely used minimally invasive technique for ablating solid tumors. Achieving precise personalized treatment necessitates feedback information on in situ thermal effects induced by the RFA procedure. While computer simulation facilitates the prediction of electrical and thermal phenomena associated with RFA, its practical implementation in clinical settings is hindered by high computational demands. In this paper, we propose a physics-guided neural network model, named PhysRFANet, to enable real-time prediction of thermal effect during RFA treatment. The networks, designed for predicting temperature distribution and the corresponding ablation lesion, were trained using biophysical computational models that integrated electrostatics, bio-heat transfer, and cell necrosis, alongside magnetic resonance (MR) images of breast cancer patients. Validation of the computational model was performed through experiments on ex vivo bovine liver tissue. Our model demonstrated a 96% Dice score in predicting the lesion volume and an RMSE of 0.4854 for temperature distribution when tested with foreseen tumor images. Notably, even with unforeseen images, it achieved a 93% Dice score for the ablation lesion and an RMSE of 0.6783 for temperature distribution. All networks were capable of inferring results within 10 ms. The presented technique, applied to optimize the placement of the electrode for a specific target region, holds significant promise in enhancing the safety and efficacy of RFA treatments.
翻訳日:2023-12-22 14:17:28 公開日:2023-12-21
# モーメントの観点からのハイブリッド古典量子系

Hybrid classical-quantum systems in terms of moments ( http://arxiv.org/abs/2312.13946v1 )

ライセンス: Link先を確認
David Brizuela and Sara F. Uria(参考訳) 古典的および量子的自由度を混合したハイブリッドシステムの力学を記述するための一貫した形式主義を示す。 システムの確率関数は、一般的には、古典分布関数と量子密度行列の組み合わせであり、対応するモーメントとして記述される。 次に、モーメントのダイナミクスが効果的なハミルトニアンによって支配されるようなハイブリッドポアソン括弧を定義する。 特に、任意の自由度数に対する任意の2つのモーメントの間のポアソン括弧の閉公式が提示され、純粋な量子の場合の文献から導かれた以前の式を補正する。 この公式は形式主義の実用的応用に特別な意味を持つ。 最後に、2つの結合振動子によって与えられる特定のハイブリッド系のダイナミクスについて検討する。 結合のため、特定の量子特性と古典的性質は異なるセクター間で伝達される。 特に、量子セクターは不確実性関係に違反することが許されているが、ハイブリッド系の全不確実性に対する最小の正の境界が存在することが明確に示される。

We present a consistent formalism to describe the dynamics of hybrid systems with mixed classical and quantum degrees of freedom. The probability function of the system, which, in general, will be a combination of the classical distribution function and the quantum density matrix, is described in terms of its corresponding moments. We then define a hybrid Poisson bracket, such that the dynamics of the moments is ruled by an effective Hamiltonian. In particular, a closed formula for the Poisson brackets between any two moments for an arbitrary number of degrees of freedom is presented, which corrects previous expressions derived in the literature for the purely quantum case. This formula is of special relevance for practical applications of the formalism. Finally, we study the dynamics of a particular hybrid system given by two coupled oscillators, one being quantum and the other classical. Due to the coupling, specific quantum and classical properties are transferred between different sectors. In particular, the quantum sector is allowed to violate the uncertainty relation, though we explicitly show that there exists a minimum positive bound of the total uncertainty of the hybrid system.
翻訳日:2023-12-22 14:17:04 公開日:2023-12-21
# 条件付きコード拡散による3次元顔生成

Controllable 3D Face Generation with Conditional Style Code Diffusion ( http://arxiv.org/abs/2312.13941v1 )

ライセンス: Link先を確認
Xiaolong Shen, Jianxin Ma, Chang Zhou, Zongxin Yang(参考訳) 与えられた条件からフォトリアリスティックな3d顔を生成するのは難しい作業です。 既存の手法では、1対1の最適化に時間を要することが多く、同じ分散コンテンツ、例えば顔のモデリングには効率的ではない。 さらに、理想的な3次元顔生成モデルは、顔の属性と表情の両方を考慮すべきである。 そこで本研究では,Tex-Face(TExt & Expression-to-Face)と呼ばれる新しいアプローチを提案し,タスクを3次元GAN変換,条件付きスタイルコード拡散,3次元顔デコーディングという3つのコンポーネントに分割する。 3D GANインバージョンでは,スタイルコード表現の強化と3Dの不整合の緩和を目的とした2つの手法を導入する。 さらに,スタイルコードに複数の条件を組み込むスタイルコードデノイザを設計し,組合わせの不十分なビジュアル言語データの問題に対処するためのデータ拡張戦略を提案する。 ffhq、celeba-hq、celeba-dialogで行った広範囲の実験は、フォトリアリスティックな3d顔の効率的かつ制御可能な生成を達成するためのtex-faceの有望な性能を示している。 コードはhttps://github.com/sxl142/TEx-Faceで入手できる。

Generating photorealistic 3D faces from given conditions is a challenging task. Existing methods often rely on time-consuming one-by-one optimization approaches, which are not efficient for modeling the same distribution content, e.g., faces. Additionally, an ideal controllable 3D face generation model should consider both facial attributes and expressions. Thus we propose a novel approach called TEx-Face(TExt & Expression-to-Face) that addresses these challenges by dividing the task into three components, i.e., 3D GAN Inversion, Conditional Style Code Diffusion, and 3D Face Decoding. For 3D GAN inversion, we introduce two methods which aim to enhance the representation of style codes and alleviate 3D inconsistencies. Furthermore, we design a style code denoiser to incorporate multiple conditions into the style code and propose a data augmentation strategy to address the issue of insufficient paired visual-language data. Extensive experiments conducted on FFHQ, CelebA-HQ, and CelebA-Dialog demonstrate the promising performance of our TEx-Face in achieving the efficient and controllable generation of photorealistic 3D faces. The code will be available at https://github.com/sxl142/TEx-Face.
翻訳日:2023-12-22 14:16:46 公開日:2023-12-21
# AdamMCMC:Metropolis Adjusted LangevinとMomentumベースの最適化を組み合わせる

AdamMCMC: Combining Metropolis Adjusted Langevin with Momentum-based Optimization ( http://arxiv.org/abs/2312.14027v1 )

ライセンス: Link先を確認
Sebastian Bieringer, Gregor Kasieczka, Maximilian F. Steffen, Mathias Trabs(参考訳) 科学と工学におけるディープニューラルネットワーク手法の適用を考える場合、不確実性推定は重要な問題である。 そこで本研究では,温和な後方分布からモンテカルロサンプリングを行い,認識の不確かさを定量化する新しいアルゴリズムを提案する。 確立されたメトロポリス調整ランゲヴィンアルゴリズム(MALA)とアダムを用いたモーメントに基づく最適化を組み合わせることで、後部から効率的に引き出すことができる。 構築された鎖がgibbs後縁を不変分布として認め、このgibbs後縁に総変動距離で収束することを示す。 数値評価は最初の改訂まで延期される。

Uncertainty estimation is a key issue when considering the application of deep neural network methods in science and engineering. In this work, we introduce a novel algorithm that quantifies epistemic uncertainty via Monte Carlo sampling from a tempered posterior distribution. It combines the well established Metropolis Adjusted Langevin Algorithm (MALA) with momentum-based optimization using Adam and leverages a prolate proposal distribution, to efficiently draw from the posterior. We prove that the constructed chain admits the Gibbs posterior as an invariant distribution and converges to this Gibbs posterior in total variation distance. Numerical evaluations are postponed to a first revision.
翻訳日:2023-12-22 14:09:02 公開日:2023-12-21
# 3次元人間登録のための神経野の幾何学的認識

Geometric Awareness in Neural Fields for 3D Human Registration ( http://arxiv.org/abs/2312.14024v1 )

ライセンス: Link先を確認
Riccardo Marin, Enric Corona, Gerard Pons-Moll(参考訳) 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。 近年のデータ駆動方式は予測された表面対応を利用するが、様々なポーズや分布に対して堅牢ではない。 対照的に、工業ソリューションは高価な手動アノテーションやマルチビューキャプチャシステムに依存することが多い。 近年、ニューラルフィールドは有望な結果を示しているが、純粋にデータ駆動の性質は幾何学的認識を欠いているため、テンプレート登録を軽視することが多い。 本研究では, 対象表面上の局所的なSMPL頂点への方向を予測する新しいニューラルネットワークモデルであるLoVDと, テスト時に, バックボーンを洗練し, ターゲット形状を利用する最初の自己教師型タスクであるINTの2つの解を提案する。 InLoVDは、大規模なMoCapデータセットに基づいてトレーニングされた、堅牢な3D人体登録パイプラインです。 INLoVDは効率的(1分以内)で、公開ベンチマークよりも技術の現状をしっかりと達成し、配布外データに対する前例のない一般化を提供する。 コードとチェックポイントを \url{url} でリリースします。

Aligning a template to 3D human point clouds is a long-standing problem crucial for tasks like animation, reconstruction, and enabling supervised learning pipelines. Recent data-driven methods leverage predicted surface correspondences; however, they are not robust to varied poses or distributions. In contrast, industrial solutions often rely on expensive manual annotations or multi-view capturing systems. Recently, neural fields have shown promising results, but their purely data-driven nature lacks geometric awareness, often resulting in a trivial misalignment of the template registration. In this work, we propose two solutions: LoVD, a novel neural field model that predicts the direction towards the localized SMPL vertices on the target surface; and INT, the first self-supervised task dedicated to neural fields that, at test time, refines the backbone, exploiting the target geometry. We combine them into INLoVD, a robust 3D Human body registration pipeline trained on a large MoCap dataset. INLoVD is efficient (takes less than a minute), solidly achieves the state of the art over public benchmarks, and provides unprecedented generalization on out-of-distribution data. We will release code and checkpoints in \url{url}.
翻訳日:2023-12-22 14:08:48 公開日:2023-12-21
# 部分選択後モニタリングにおける自由フェルミオンダイナミクスの理論

Theory of free fermions dynamics under partial post-selected monitoring ( http://arxiv.org/abs/2312.14022v1 )

ライセンス: Link先を確認
Chun Y. Leung, Dganit Meidan and Alessandro Romito(参考訳) 測定誘起相転移(MiPT)の観測量子系は、測定とユニタリダイナミクスの相互作用から生じる。 検出器の読み出しが与えられた値に一致するように後から選択されると、力学は異なる普遍的な特徴によって特徴付けられるMIPTを持つ非エルミートハミルトニアンによって生成される。 ここでは,連続的弱測定の微視的記述に基づいて,部分的な後選択確率schr\"odinger方程式を導出する。 この形式主義は、モニターとポストセレクトされた力学をより広範な確率的進化の族に結びつける。 局所フェルミオンパリティを部分的に選択した後に監視する自由フェルミオンの連鎖に形式化を適用する。 2-replicaアプローチで、強いポストセレクト限界における効果的なボゾン化ハミルトニアンを得た。 正規化群解析を用いて、非エルミート MiPT の普遍性は有限(弱)確率性に対して安定である。 さらに,miptの数値的有限サイズスケーリングから確認した,監視された普遍性への通過は有限部分選択後に突然発生することを示した。 このアプローチは、量子軌道の任意の部分集合に対するmiptの研究方法を確立し、実験後選択問題に取り組む潜在的経路を提供する。

Monitored quantum systems undergo Measurement-induced Phase Transitions (MiPTs) stemming from the interplay between measurements and unitary dynamics. When the detector readout is post-selected to match a given value, the dynamics is generated by a Non-Hermitian Hamiltonian with MiPTs characterized by different universal features. Here, we derive a partial post-selected stochastic Schr\"odinger equation based on a microscopic description of continuous weak measurement. This formalism connects the monitored and post-selected dynamics to a broader family of stochastic evolution. We apply the formalism to a chain of free fermions subject to partial post-selected monitoring of local fermion parities. Within a 2-replica approach, we obtained an effective bosonized Hamiltonian in the strong post-selected limit. Using a renormalization group analysis, we find that the universality of the non-Hermitian MiPT is stable against a finite (weak) amount of stochasticity. We further show that the passage to the monitored universality occurs abruptly at finite partial post-selection, which we confirm from the numerical finite size scaling of the MiPT. Our approach establishes a way to study MiPTs for arbitrary subsets of quantum trajectories and provides a potential route to tackle the experimental post-selected problem.
翻訳日:2023-12-22 14:08:27 公開日:2023-12-21
# アレイ型能動話者検出と局所化のための視覚指導の活用

Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization ( http://arxiv.org/abs/2312.14021v1 )

ライセンス: Link先を確認
Davide Berghi and Philip J. B. Jackson(参考訳) アクティブスピーカー検出(ASD)に対する従来の音声-視覚的アプローチは、通常、ビデオ中の話者を見つけるために、視覚的に事前に抽出された顔トラックとそれに対応するシングルチャンネルオーディオに依存している。 したがって、話者の顔が見えなくなるたびに失敗する傾向がある。 マルチチャンネルオーディオから抽出した空間入力特徴を学習した単純な音声畳み込み型ニューラルネットワーク(CRNN)が,視覚的モダリティとは無関係に,同時水平能動話者検出と位置決めを実現できることを示す。 そこで,このようなシステムを学習するための基礎的真理ラベルの作成に要する時間とコストに対処するために,「学生教師」の学習アプローチを取り入れた新しい自己教師訓練パイプラインを提案する。 従来の訓練済みアクティブスピーカ検出器を「教師」ネットワークとして採用し、擬似ラベルとして話者の位置を提供する。 マルチチャネルオーディオ ``student'' ネットワークは、同じ結果を生成するように訓練される。 推論において、生徒ネットワークは教師ネットワークが視覚的に検出できない耳障りな話者を一般化し、見つけ出すことができ、リコール率は大幅に向上する。 TragicTalkersデータセットの実験では、提案した自己教師付き学習アプローチでトレーニングされたオーディオネットワークが、典型的な音声視覚的手法の性能を超え、コストのかかる従来の教師付き訓練と競合する結果が得られることが示された。 学習パイプラインに手動による最小限の監督を導入することで、改善が達成できることを示す。 より大きなトレーニングセットと多チャンネルオーディオシステムとのビジョンの統合により、さらなるゲインを求めることができる。

Conventional audio-visual approaches for active speaker detection (ASD) typically rely on visually pre-extracted face tracks and the corresponding single-channel audio to find the speaker in a video. Therefore, they tend to fail every time the face of the speaker is not visible. We demonstrate that a simple audio convolutional recurrent neural network (CRNN) trained with spatial input features extracted from multichannel audio can perform simultaneous horizontal active speaker detection and localization (ASDL), independently of the visual modality. To address the time and cost of generating ground truth labels to train such a system, we propose a new self-supervised training pipeline that embraces a ``student-teacher'' learning approach. A conventional pre-trained active speaker detector is adopted as a ``teacher'' network to provide the position of the speakers as pseudo-labels. The multichannel audio ``student'' network is trained to generate the same results. At inference, the student network can generalize and locate also the occluded speakers that the teacher network is not able to detect visually, yielding considerable improvements in recall rate. Experiments on the TragicTalkers dataset show that an audio network trained with the proposed self-supervised learning approach can exceed the performance of the typical audio-visual methods and produce results competitive with the costly conventional supervised training. We demonstrate that improvements can be achieved when minimal manual supervision is introduced in the learning pipeline. Further gains may be sought with larger training sets and integrating vision with the multichannel audio system.
翻訳日:2023-12-22 14:08:09 公開日:2023-12-21
# banspemo:バングラの感情音声認識データセット

BANSpEmo: A Bangla Emotional Speech Recognition Dataset ( http://arxiv.org/abs/2312.14020v1 )

ライセンス: Link先を確認
Md Gulzar Hussain, Mahmuda Rahman, Babe Sultana, Ye Shiren(参考訳) 音声と音声分析の分野では、音響信号から感情を識別する能力が不可欠である。 ヒューマン・コンピュータ・インタラクション(HCI)と行動分析は、感情を音声信号と区別する能力が幅広い応用範囲を持つ多くの分野のごく一部にすぎない。 ここではBanSpEmoを紹介します。Bangla言語専用の音声録音のみで構成された感情音声コーパスです。 このコーパスには1時間23分以上にわたって792の音声録音が含まれている。 22人の母語話者が6つの感情を表す2つの文の録音に参加した。 データセットは12のBangla文からなり、Disgust、Happy、Sad、Suprised、Anger、Fearの6つの感情で発声される。 このコーパスは男女のバランスが取れていない。 このコーパスの評価には、関連分野の経験を持つか、行動経験を持つ10人の個人が参加した。 各感情クラスにバランスの取れた音声記録がある。 BanSpEmoは、Bangla言語における感情と音声認識研究および関連する応用を促進するのに有用なリソースであると考えられる。 データセットは以下の通りである。 https://data.mendeley.com/datasets/rdwn4bs5ky。

In the field of audio and speech analysis, the ability to identify emotions from acoustic signals is essential. Human-computer interaction (HCI) and behavioural analysis are only a few of the many areas where the capacity to distinguish emotions from speech signals has an extensive range of applications. Here, we are introducing BanSpEmo, a corpus of emotional speech that only consists of audio recordings and has been created specifically for the Bangla language. This corpus contains 792 audio recordings over a duration of more than 1 hour and 23 minutes. 22 native speakers took part in the recording of two sets of sentences that represent the six desired emotions. The data set consists of 12 Bangla sentences which are uttered in 6 emotions as Disgust, Happy, Sad, Surprised, Anger, and Fear. This corpus is not also gender balanced. Ten individuals who either have experience in related field or have acting experience took part in the assessment of this corpus. It has a balanced number of audio recordings in each emotion class. BanSpEmo can be considered as a useful resource to promote emotion and speech recognition research and related applications in the Bangla language. The dataset can be found here: https://data.mendeley.com/datasets/rdwn4bs5ky and might be employed for academic research.
翻訳日:2023-12-22 14:07:40 公開日:2023-12-21
# 量子作用素代数の相互平均非可換性

Mutual averaged non-commutativity of quantum operator algebras ( http://arxiv.org/abs/2312.14019v1 )

ライセンス: Link先を確認
Paolo Zanardi(参考訳) 同じヒルベルト空間上で作用する量子作用素の2つの代数の間の非可換性の基本的な測度を導入する。 この量は、Mutual Averaged Non-commutativity (MAN) と呼ばれ、量子スクランブルとカオスの研究に使用される平均値のアウト・オブ・タイム・オーダー・コレレータの単純な一般化である。 MAN は可換作用素のハール平均二乗ノルムで定義され、ある種の代数はエントロピック性を示す。 特に、2つの代数が一致するとき、対応するセルフマンをヒルベルト空間分解の構造データを用いて完全に計算することができる。 MANの特性と境界は一般に確立されており、いくつかの具体例が議論されている。 注目すべきは、因子と最大アーベル要素を含む重要な代数のクラスに対して、MAN は代数射影 CP-写像の項で表せることである。 後者が物理過程として実行可能であると仮定すると、一対の代数のMANを直接推定する操作プロトコルを考案することができる。

We introduce an elementary measure of non-commutativity between two algebras of quantum operators acting on the same Hilbert space. This quantity, which we call Mutual Averaged Non-commutativity (MAN), is a simple generalization of a type of averaged Out-of-Time-Order-Correlators used in the study of quantum scrambling and chaos. MAN is defined by a Haar averaged squared norm of a commutator and for some types of algebras is manifestly of entropic nature. In particular, when the two algebras coincide the corresponding self-MAN can be fully computed in terms of the structural data of the associated Hilbert space decomposition. Properties and bounds of MAN are established in general and several concrete examples are discussed. Remarkably, for an important class of algebras, -- which includes factors and maximal abelian ones -- MAN can be expressed in the terms of the algebras projections CP-maps. Assuming that the latter can be enacted as physical processes, one can devise operational protocols to directly estimate the MAN of a pair of algebras.
翻訳日:2023-12-22 14:07:20 公開日:2023-12-21
# 光照明によるSi/SiGe量子デバイスのしきい値電圧制御

Control of threshold voltages in Si/SiGe quantum devices via optical illumination ( http://arxiv.org/abs/2312.14011v1 )

ライセンス: Link先を確認
M. A. Wolfe, Brighton X. Coe, Justin S. Edwards, Tyler J. Kovach, Thomas McJunkin, Benjamin Harpt, D. E. Savage, M. G. Lagally, R. McDermott, Mark Friesen, Shimon Kolkowitz, and M. A. Eriksson(参考訳) 低温における量子ドット量子ビットデバイスの光照明は、あまり研究されていないが、望ましくない衝撃や電荷注入後の動作状態の回復にしばしば用いられる。 近赤外 (780 nm) レーザーダイオードを用いたドーパントフリーsi/sige電界効果トランジスタにおける系統的しきい値電圧シフトを示す。 印加ゲート電圧下での照明は、ゲートバイアスの広い範囲において、そのゲートバイアスに等しい特定の、安定かつ再現可能なしきい値電圧を設定するのに利用できる。 この範囲以外でも閾値電圧は調整できるが、その結果の閾値電圧は照明中に印加されたゲートバイアスに等しくない。 ゲートバイアスのチューナビリティのメカニズムを提供する,シンプルで直感的なモデルを提案する。 提示されたモデルは、不要な充電イベントの後、量子ドット量子ビットデバイスをリセットするのに低温照明が成功した理由についても説明している。

Optical illumination of quantum-dot qubit devices at cryogenic temperatures, while not well studied, is often used to recover operating conditions after undesired shocking events or charge injection. Here, we demonstrate systematic threshold voltage shifts in a dopant-free, Si/SiGe field effect transistor using a near infrared (780 nm) laser diode. We find that illumination under an applied gate voltage can be used to set a specific, stable, and reproducible threshold voltage that, over a wide range in gate bias, is equal to that gate bias. Outside this range, the threshold voltage can still be tuned, although the resulting threshold voltage is no longer equal to the applied gate bias during illumination. We present a simple and intuitive model that provides a mechanism for the tunability in gate bias. The model presented also explains why cryogenic illumination is successful at resetting quantum dot qubit devices after undesired charging events.
翻訳日:2023-12-22 14:07:02 公開日:2023-12-21
# 事前学習型埋め込みによる音声分類のための最適時間サポートの選択について

On the choice of the optimal temporal support for audio classification with Pre-trained embeddings ( http://arxiv.org/abs/2312.14005v1 )

ライセンス: Link先を確認
Aurian Quelennec, Michel Olvera, Geoffroy Peeters, Slim Essid(参考訳) 現在の最先端オーディオ分析システムは事前訓練された埋め込みモデルに依存しており、しばしば(凍結した)特徴抽出器として市販されている。 一連のタスクに最適なものを選ぶことは、最近の多くの出版物の主題である。 しかし、これらの作品でしばしば見過ごされる側面は、埋め込みを抽出すると考えられる音声入力の持続時間の影響であり、これは時間的サポート(ts)と呼ばれる。 本研究は,tsが確立された,あるいは新たな事前学習された組込みに与えた影響を,異なる種類のアーキテクチャや学習パラダイムを表現するために選択した。 この評価は,openmic,tau urban acoustic scenes 2020 mobile,esc-50といった楽器と環境音のデータセットを用いて行う。 特に,音声スペクトログラムトランスフォーマシステム(passtとbeats)はtsが小さくなるほど有効であり,メモリや計算コストが大幅に削減される点が注目される。 さらに、最適TSを選択することで、全てのタスクで競合する結果が得られることを示す。 特に、BEATとPaSSTを微調整なしで使用することにより、OpenMICの最先端結果を改善する。

Current state-of-the-art audio analysis systems rely on pre-trained embedding models, often used off-the-shelf as (frozen) feature extractors. Choosing the best one for a set of tasks is the subject of many recent publications. However, one aspect often overlooked in these works is the influence of the duration of audio input considered to extract an embedding, which we refer to as Temporal Support (TS). In this work, we study the influence of the TS for well-established or emerging pre-trained embeddings, chosen to represent different types of architectures and learning paradigms. We conduct this evaluation using both musical instrument and environmental sound datasets, namely OpenMIC, TAU Urban Acoustic Scenes 2020 Mobile, and ESC-50. We especially highlight that Audio Spectrogram Transformer-based systems (PaSST and BEATs) remain effective with smaller TS, which therefore allows for a drastic reduction in memory and computational cost. Moreover, we show that by choosing the optimal TS we reach competitive results across all tasks. In particular, we improve the state-of-the-art results on OpenMIC, using BEATs and PaSST without any fine-tuning.
翻訳日:2023-12-22 14:06:46 公開日:2023-12-21
# シームズネットワークを用いたディープラーニングによる顔認識手法

Deep Learning Based Face Recognition Method using Siamese Network ( http://arxiv.org/abs/2312.14001v1 )

ライセンス: Link先を確認
Enoch Solomon, Abraham Woubie and Eyael Solomon Emiru(参考訳) 顔認証システムにおける最先端の成果を達成することは、しばしばかなりの量の取得が困難であることを示すリソースであるラベル付き顔訓練データの可用性に影響を及ぼすのが一般的である。 本研究では,顔画像のラベル付けの必要性をなくし,顔認識にシームズネットワークを利用することを提案する。 我々は,近傍のサンプルと近接するサンプルを戦略的に活用し,教師なしの手法で正のペアと負のペアを確立することで,これを実現する。 アーキテクチャフレームワークはVGGエンコーダを採用し、二重分岐シアムネットワークとして訓練されている。 我々の主な目的は、ラベル付き顔画像データの必要性を回避し、教師なしの方法でトレーニングペアの生成を提案することである。 所定のアンカーと最も高いコサイン類似度スコアに基づいてデータセット内で正のトレーニングデータを選択し、代替データセットから引かれたにもかかわらず、負のトレーニングデータを並列に作成する。 トレーニング中、提案したシアムネットワークは、クロスエントロピー損失によるバイナリ分類を行う。 その後、テストフェーズにおいて、ネットワークの出力層から直接顔認証スコアを抽出する。 実験の結果,提案する非教師なしシステムは,類似するが完全に教師なしのベースラインと同等の性能を提供することがわかった。

Achieving state-of-the-art results in face verification systems typically hinges on the availability of labeled face training data, a resource that often proves challenging to acquire in substantial quantities. In this research endeavor, we proposed employing Siamese networks for face recognition, eliminating the need for labeled face images. We achieve this by strategically leveraging negative samples alongside nearest neighbor counterparts, thereby establishing positive and negative pairs through an unsupervised methodology. The architectural framework adopts a VGG encoder, trained as a double branch siamese network. Our primary aim is to circumvent the necessity for labeled face image data, thus proposing the generation of training pairs in an entirely unsupervised manner. Positive training data are selected within a dataset based on their highest cosine similarity scores with a designated anchor, while negative training data are culled in a parallel fashion, though drawn from an alternate dataset. During training, the proposed siamese network conducts binary classification via cross-entropy loss. Subsequently, during the testing phase, we directly extract face verification scores from the network's output layer. Experimental results reveal that the proposed unsupervised system delivers a performance on par with a similar but fully supervised baseline.
翻訳日:2023-12-22 14:06:24 公開日:2023-12-21
# Rao-Blackwellized Markovian Score Climbingによるリスク感性確率的最適制御

Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian Score Climbing ( http://arxiv.org/abs/2312.14000v1 )

ライセンス: Link先を確認
Hany Abdulsamad, Sahel Iqbal, Adrien Corenflos, Simo S\"arkk\"a(参考訳) 動的システムの確率的最適制御は、シーケンシャルな意思決定において重要な課題である。 近年、制御・アズ・推論のアプローチは大きな成功を収めており、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供している。 それでも、これらの技術の大部分は、推論制御の双対性を呼び出すだけで、修正されたリスク目標を導き出し、強化学習フレームワーク内で対処する。 本稿では, 条件付き粒子フィルタから抽出した試料によるマルコフスコアクライミングとして, リスク感性確率制御のフレーミングによる新しい視点を提案する。 我々のアプローチは、純粋に推論中心であるが、最適な重み付けと明示的な値関数学習のない勾配ベースのポリシー最適化に対して漸近的に偏りのない見積もりを提供する。 本手法の有効性を検証するため,確率力学系の数値ベンチマークにおいて,ニューラル非ガウスフィードバックポリシーを学習するタスクに適用した。

Stochastic optimal control of dynamical systems is a crucial challenge in sequential decision-making. Recently, control-as-inference approaches have had considerable success, providing a viable risk-sensitive framework to address the exploration-exploitation dilemma. Nonetheless, a majority of these techniques only invoke the inference-control duality to derive a modified risk objective that is then addressed within a reinforcement learning framework. This paper introduces a novel perspective by framing risk-sensitive stochastic control as Markovian score climbing under samples drawn from a conditional particle filter. Our approach, while purely inference-centric, provides asymptotically unbiased estimates for gradient-based policy optimization with optimal importance weighting and no explicit value function learning. To validate our methodology, we apply it to the task of learning neural non-Gaussian feedback policies, showcasing its efficacy on numerical benchmarks of stochastic dynamical systems.
翻訳日:2023-12-22 14:06:04 公開日:2023-12-21
# 2部状態の量子零定理次元の証人

Quantum null-hypothesis dimension witness for a bipartite state ( http://arxiv.org/abs/2312.13996v1 )

ライセンス: Link先を確認
Tomasz Bia{\l}ecki, Tomasz Rybotycki, Josep Batle, Jakub Tworzyd{\l}o, Adam Bednorz(参考訳) 本稿では,各パーティの局所的な測定値を用いて,二部量子系の次元の零検定を行う。 次元は古典的および量子的極限と有限統計誤差に依存する。 テストはibm量子コンピュータ上で行われ、2段階のヒルベルト空間と完全に一致する。 しかし、テストの1つでは、無署名の適度な違反を観察し、さらなるテストが必要です。

We present the null test of the dimension of bipartite quantum systems using local measurements on each party, assuming no-signaling. We find the dimension being dependent on classical and quantum limits and finite statistics error. The test is performed on IBM quantum computers, in perfect agreement with two-level Hilbert spaces. However, in one of test we observe a moderate violation of no-signaling, requiring further tests.
翻訳日:2023-12-22 14:05:47 公開日:2023-12-21
# open-set: ニューラルトランスファー方式によるidカード提示攻撃検出

Open-Set: ID Card Presentation Attack Detection using Neural Transfer Style ( http://arxiv.org/abs/2312.13993v1 )

ライセンス: Link先を確認
Reuben Markham, Juan M. Espin, Mario Nieto-Hidalgo, Juan E. Tapia(参考訳) デジタルオンボーディングや認証のためにidカードのデジタル写真の提示を必要とするオンライン/リモートサービスの増加に伴い、idカードプレゼンテーションアタック(pa)の正確な検出がますます重要になっている。 さらにサイバー犯罪者は、認証システムを騙してこれらのサービスに不正アクセスする革新的な方法を模索している。 ニューラルネットワークの設計とトレーニングの進歩は、画像分類を最先端に進めてきたが、不正検出システムの開発で直面する主な課題の1つは、トレーニングと評価のための代表的なデータセットのキュレーションである。 手作りのプレゼンテーション攻撃サンプルの作成は、しばしば専門知識を必要とし、非常に時間を要するため、高品質なデータを取得する自動処理が極めて望ましい。 本研究では,4つの生成型adversarial network (gans) ベースの画像翻訳モデルを用いたサンプル生成を改善するために,idカード提示攻撃器 (pai) を探索し,生成したデータの有効性を分析した。 オープンソースデータを用いて,合成アタックのプレゼンテーションは,実際のアタックのプレゼンテーションを適切に補完するものであり,印刷アタックでは0.63%,スクリーンキャプチャアタックでは0.29%のeer性能向上が得られることを示した。

The accurate detection of ID card Presentation Attacks (PA) is becoming increasingly important due to the rising number of online/remote services that require the presentation of digital photographs of ID cards for digital onboarding or authentication. Furthermore, cybercriminals are continuously searching for innovative ways to fool authentication systems to gain unauthorized access to these services. Although advances in neural network design and training have pushed image classification to the state of the art, one of the main challenges faced by the development of fraud detection systems is the curation of representative datasets for training and evaluation. The handcrafted creation of representative presentation attack samples often requires expertise and is very time-consuming, thus an automatic process of obtaining high-quality data is highly desirable. This work explores ID card Presentation Attack Instruments (PAI) in order to improve the generation of samples with four Generative Adversarial Networks (GANs) based image translation models and analyses the effectiveness of the generated data for training fraud detection systems. Using open-source data, we show that synthetic attack presentations are an adequate complement for additional real attack presentations, where we obtain an EER performance increase of 0.63% points for print attacks and a loss of 0.29% for screen capture attacks.
翻訳日:2023-12-22 14:05:40 公開日:2023-12-21
# ロボットハンドアームシステムを用いた飛行物体のキャッチング学習のためのモジュール型ニューラルネットワーク

Modular Neural Network Policies for Learning In-Flight Object Catching with a Robot Hand-Arm System ( http://arxiv.org/abs/2312.13987v1 )

ライセンス: Link先を確認
Wenbin Hu, Fernando Acero, Eleftherios Triantafyllidis, Zhaocheng Liu, Zhibin Li(参考訳) 本稿では,ロボットハンドアームシステムが飛行物体の捕捉方法を学習できるように設計されたモジュラーフレームワークを提案する。 私たちのフレームワークは5つのコアモジュールで構成されています。 i)オブジェクトの軌跡予測を学習するオブジェクト状態推定器 (ii)キャッチ対象のスコア付けとランク付けを学ぶキャッチ対象品質ネットワーク (iii)ロボットハンドをプリキャッチポーズに移動させるように訓練された到達制御方針 四 安全で堅固な把握のために柔らかい捕獲動作を行うように訓練された把握制御方針及び (v)到達・把握政策によって与えられる行動を合成するように訓練されたゲーティングネットワーク 前者の2つのモジュールは教師付き学習によって訓練され、後者の3つはシミュレーション環境で深層強化学習を使用する。 我々は,各モジュールと統合システムのシミュレーションにおいて,我々のフレームワークを広範囲に評価し,飛行中の捕捉率と摂動や知覚ノイズに対する頑健性を示す。 単純な円筒形と球形の物体のみが訓練に使用されるが、この統合システムは訓練に使用されない様々な家庭の物体への一般化に成功している。

We present a modular framework designed to enable a robot hand-arm system to learn how to catch flying objects, a task that requires fast, reactive, and accurately-timed robot motions. Our framework consists of five core modules: (i) an object state estimator that learns object trajectory prediction, (ii) a catching pose quality network that learns to score and rank object poses for catching, (iii) a reaching control policy trained to move the robot hand to pre-catch poses, (iv) a grasping control policy trained to perform soft catching motions for safe and robust grasping, and (v) a gating network trained to synthesize the actions given by the reaching and grasping policy. The former two modules are trained via supervised learning and the latter three use deep reinforcement learning in a simulated environment. We conduct extensive evaluations of our framework in simulation for each module and the integrated system, to demonstrate high success rates of in-flight catching and robustness to perturbations and sensory noise. Whilst only simple cylindrical and spherical objects are used for training, the integrated system shows successful generalization to a variety of household objects that are not used in training.
翻訳日:2023-12-22 14:05:16 公開日:2023-12-21
# R'enyi Pufferfishのプライバシー: 一般的な付加的なノイズメカニズムと反復によるプライバシー増幅

R\'enyi Pufferfish Privacy: General Additive Noise Mechanisms and Privacy Amplification by Iteration ( http://arxiv.org/abs/2312.13985v1 )

ライセンス: Link先を確認
Cl\'ement Pierquin and Aur\'elien Bellet and Marc Tommasi and Matthieu Boussard(参考訳) pufferfish privacyは、データに関する任意の秘密や敵の事前知識をモデル化できる差分プライバシの柔軟な一般化である。 残念なことに、実用性を損なわない汎用かつトラクタブルなPufferfishメカニズムの設計は難しい。 さらに、このフレームワークは反復機械学習アルゴリズムの直接使用に必要な構成保証を提供していない。 これらの問題を緩和するために、R\'enyi 発散に基づく Pufferfish の変種を導入し、それが Pufferfish フレームワークの適用性の拡張を可能にすることを示す。 まず,wasserstein 機構を一般化し,幅広い雑音分布をカバーするとともに,その実用性を改善する方法をいくつか紹介する。 我々はまた、分配外敵に対してより強い保証を得る。 そして最後に,コンポジションの代替として,プライバシの増幅効果を検証し,プライベート凸最適化におけるpufferfishの初使用例を示す。 我々の結果の基盤となる共通の要素はシフト削減補題の使用と拡張です。

Pufferfish privacy is a flexible generalization of differential privacy that allows to model arbitrary secrets and adversary's prior knowledge about the data. Unfortunately, designing general and tractable Pufferfish mechanisms that do not compromise utility is challenging. Furthermore, this framework does not provide the composition guarantees needed for a direct use in iterative machine learning algorithms. To mitigate these issues, we introduce a R\'enyi divergence-based variant of Pufferfish and show that it allows us to extend the applicability of the Pufferfish framework. We first generalize the Wasserstein mechanism to cover a wide range of noise distributions and introduce several ways to improve its utility. We also derive stronger guarantees against out-of-distribution adversaries. Finally, as an alternative to composition, we prove privacy amplification results for contractive noisy iterations and showcase the first use of Pufferfish in private convex optimization. A common ingredient underlying our results is the use and extension of shift reduction lemmas.
翻訳日:2023-12-22 14:04:56 公開日:2023-12-21
# 逆問題に対する学習的再構成法:サンプル誤差推定

Learned reconstruction methods for inverse problems: sample error estimates ( http://arxiv.org/abs/2312.14078v1 )

ライセンス: Link先を確認
Luca Ratti(参考訳) 学習ベースおよびデータ駆動技術は近年,逆問題の再構築と正則化の分野における主要な関心の対象となっている。 様々な応用に優れた結果をもたらす新しい手法の開発に加えて、その理論的研究は、信頼性、安定性、解釈可能性といった話題への関心が高まっている。 本研究では,統計的学習の文脈において,これらの技術の多くを解釈できる汎用フレームワークについて述べる。 これは、既存の方法の完全な調査を提供するのではなく、その理論的な処理を自然に許容する作業的な視点に置くことを目的としている。 この論文の主な目的は、学習した再構成法の一般化特性に対処し、特にサンプルエラー解析を行うことである。 このタスクは統計的学習においてよく発達しており、訓練に使用されるデータに対する学習者の依存度を推定する。 むしろ一般的な戦略が提案され、その仮定は、例の選択によって表されるような、大きな逆問題と学習方法のクラスに当てはまる。

Learning-based and data-driven techniques have recently become a subject of primary interest in the field of reconstruction and regularization of inverse problems. Besides the development of novel methods, yielding excellent results in several applications, their theoretical investigation has attracted growing interest, e.g., on the topics of reliability, stability, and interpretability. In this work, a general framework is described, allowing us to interpret many of these techniques in the context of statistical learning. This is not intended to provide a complete survey of existing methods, but rather to put them in a working perspective, which naturally allows their theoretical treatment. The main goal of this dissertation is thereby to address the generalization properties of learned reconstruction methods, and specifically to perform their sample error analysis. This task, well-developed in statistical learning, consists in estimating the dependence of the learned operators with respect to the data employed for their training. A rather general strategy is proposed, whose assumptions are met for a large class of inverse problems and learned methods, as depicted via a selection of examples.
翻訳日:2023-12-22 13:58:09 公開日:2023-12-21
# LiDAR-LLM:3次元LiDAR理解のための大規模言語モデルの可能性を探る

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding ( http://arxiv.org/abs/2312.14074v1 )

ライセンス: Link先を確認
Senqiao Yang, Jiaming Liu, Ray Zhang, Mingjie Pan, Zoey Guo, Xiaoqi Li, Zehui Chen, Peng Gao, Yandong Guo and Shanghang Zhang(参考訳) 近年,Large Language Models (LLMs) とMultimodal Large Language Models (MLLMs) は,命令追従と2次元画像理解において有望であることを示す。 これらのモデルは強力だが、特に狭い屋外のLiDARデータに関して、より困難な3D物理シーンを理解するためにはまだ開発されていない。 本稿では、LiDARデータを入力として取り出し、LLMの顕著な推論能力を利用して屋外3Dシーンの総合的な理解を得るLiDAR-LLMを提案する。 LiDAR-LLMは,3次元キャプション,3次元グラウンド,3次元質問応答などのタスクを包含する言語モデリング問題として,3次元屋外シーン認識の再構築を主眼としている。 具体的には、3次元LiDARテキストペアリングデータの不足により、3段階のトレーニング戦略を導入し、関連するデータセットを生成し、3次元モダリティをLLMの言語埋め込み空間と漸進的に整合させる。 さらに、3DエンコーダとLLMを接続するビュー・アウェア・トランスフォーマー(VAT)を設計し、モダリティギャップを効果的にブリッジし、LLMの視覚的特徴の空間的方向理解を強化する。 実験の結果,LiDAR-LLMは3次元シーンに関する様々な指示を理解でき,複雑な空間的推論を行うことができることがわかった。 LiDAR-LLMは3Dキャプションタスクで40.9 BLEU-1を獲得し、63.1\%の分類精度と3Dグラウンドタスクで14.3\%のBEV mIoUを達成する。 Webページ: https://sites.google.com/view/lidar-llm

Recently, Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have shown promise in instruction following and 2D image understanding. While these models are powerful, they have not yet been developed to comprehend the more challenging 3D physical scenes, especially when it comes to the sparse outdoor LiDAR data. In this paper, we introduce LiDAR-LLM, which takes raw LiDAR data as input and harnesses the remarkable reasoning capabilities of LLMs to gain a comprehensive understanding of outdoor 3D scenes. The central insight of our LiDAR-LLM is the reformulation of 3D outdoor scene cognition as a language modeling problem, encompassing tasks such as 3D captioning, 3D grounding, 3D question answering, etc. Specifically, due to the scarcity of 3D LiDAR-text pairing data, we introduce a three-stage training strategy and generate relevant datasets, progressively aligning the 3D modality with the language embedding space of LLM. Furthermore, we design a View-Aware Transformer (VAT) to connect the 3D encoder with the LLM, which effectively bridges the modality gap and enhances the LLM's spatial orientation comprehension of visual features. Our experiments show that LiDAR-LLM possesses favorable capabilities to comprehend various instructions regarding 3D scenes and engage in complex spatial reasoning. LiDAR-LLM attains a 40.9 BLEU-1 on the 3D captioning task and achieves a 63.1\% classification accuracy and a 14.3\% BEV mIoU on the 3D grounding task. Web page: https://sites.google.com/view/lidar-llm
翻訳日:2023-12-22 13:57:41 公開日:2023-12-21
# emphassess : 音声から音声への強調伝達評価のための韻律的ベンチマーク

EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models ( http://arxiv.org/abs/2312.14069v1 )

ライセンス: Link先を確認
Maureen de Seyssel, Antony D'Avirro, Adina Williams, Emmanuel Dupoux(参考訳) EmphAssessは,韻律強調を符号化し再現する音声合成モデルの能力を評価するために設計された韻律ベンチマークである。 これを音声合成と音声から音声への翻訳という2つのタスクに適用する。 どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。 評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるemphaclassを紹介します。

We introduce EmphAssess, a prosodic benchmark designed to evaluate the capability of speech-to-speech models to encode and reproduce prosodic emphasis. We apply this to two tasks: speech resynthesis and speech-to-speech translation. In both cases, the benchmark evaluates the ability of the model to encode emphasis in the speech input and accurately reproduce it in the output, potentially across a change of speaker and language. As part of the evaluation pipeline, we introduce EmphaClass, a new model that classifies emphasis at the frame or word level.
翻訳日:2023-12-22 13:56:51 公開日:2023-12-21
# 極大カオス量子マップにおけるスペクトル異常と破壊対称性

Spectral anomalies and broken symmetries in maximally chaotic quantum maps ( http://arxiv.org/abs/2312.14067v1 )

ライセンス: Link先を確認
Laura Shou, Amit Vikram, Victor Galitski(参考訳) レベル間隔統計やスペクトル形成因子 (SFF) のようなスペクトル統計学は、量子化されたカオス写像から相互作用する多体系に至るまでの一般的な量子系において、基礎となるマクロ対称性を含む 'ergodicity'' を正確に識別することが広く期待されている。 量子化時に離散古典対称性を破る最大カオス写像の様々な量子化を研究することにより、このアプローチが誤解を招く可能性があり、マクロ対称性を検出できないことを示す。 特に、同じ古典写像は、量子化に依存する短距離スペクトル統計学において異なるランダム行列対称性クラスのシグネチャを示すことができる。 SFFの初期のランプで符号化された長距離スペクトル統計はより堅牢であり、いくつかの共通量子化におけるマクロ対称性を正しく同定する一方で、量子化におけるベリー様相の存在がスペクトル異常を引き起こすことを解析的および数値的に示す。 最後に、完全正則基底を訪れる量子力学感覚において、長距離スペクトル剛性はエルゴード性と直接的に相関することを示す数値的な証拠を提供する。

Spectral statistics such as the level spacing statistics and spectral form factor (SFF) are widely expected to accurately identify ``ergodicity'', including the presence of underlying macroscopic symmetries, in generic quantum systems ranging from quantized chaotic maps to interacting many-body systems. By studying various quantizations of maximally chaotic maps that break a discrete classical symmetry upon quantization, we demonstrate that this approach can be misleading and fail to detect macroscopic symmetries. Notably, the same classical map can exhibit signatures of different random matrix symmetry classes in short-range spectral statistics depending on the quantization. While the long-range spectral statistics encoded in the early time ramp of the SFF are more robust and correctly identify macroscopic symmetries in several common quantizations, we also demonstrate analytically and numerically that the presence of Berry-like phases in the quantization leads to spectral anomalies, which break this correspondence. Finally, we provide numerical evidence that long-range spectral rigidity remains directly correlated with ergodicity in the quantum dynamical sense of visiting a complete orthonormal basis.
翻訳日:2023-12-22 13:56:05 公開日:2023-12-21
# 上界バーロウ双生児 : マルチリレーショナルクラスタリングのための新しいフィルタ

Upper Bounding Barlow Twins: A Novel Filter for Multi-Relational Clustering ( http://arxiv.org/abs/2312.14066v1 )

ライセンス: Link先を確認
Xiaowei Qian, Bingheng Li, Zhao Kang(参考訳) マルチリレーショナルクラスタリングは,多層グラフで伝達される多様な意味情報を抽出・融合することが困難であるため,課題である。 近年の手法はグラフフィルタリングによるトポロジー構造とノード属性情報を統合する。 しかし、複数のグラフ間の相関を完全に考慮せずに、ローパスフィルタを使用することが多い。 この欠点を克服するために,バーロウ・ツインズの理論的解析によるグラフフィルタの学習を提案する。 負の半定義内積を持つ入力は、バーロウ双生児の損失に対する下界を与えるため、より良い解に到達することができない。 これにより、バーロウ・ツインズの上限となるフィルターを学習する。 その後、簡単なクラスタリングアーキテクチャを設計し、4つのベンチマークデータセット上で最先端のパフォーマンスを示す。

Multi-relational clustering is a challenging task due to the fact that diverse semantic information conveyed in multi-layer graphs is difficult to extract and fuse. Recent methods integrate topology structure and node attribute information through graph filtering. However, they often use a low-pass filter without fully considering the correlation among multiple graphs. To overcome this drawback, we propose to learn a graph filter motivated by the theoretical analysis of Barlow Twins. We find that input with a negative semi-definite inner product provides a lower bound for Barlow Twins loss, which prevents it from reaching a better solution. We thus learn a filter that yields an upper bound for Barlow Twins. Afterward, we design a simple clustering architecture and demonstrate its state-of-the-art performance on four benchmark datasets.
翻訳日:2023-12-22 13:55:17 公開日:2023-12-21
# 高インピーダンス量子回路におけるマイクロ波光子と電子変換

Near-ideal Microwave Photon to Electron Conversion in a High Impedance Quantum Circuit ( http://arxiv.org/abs/2312.14065v1 )

ライセンス: Link先を確認
Ognjen Stanisavljevi\'c, Jean-C\^ome Philippe, Julien Gabelli, Marco Aprili, J\'er\^ome Est\`eve and Julien Basset(参考訳) 光電検出器は、遠紫外線から赤外線まで、感度が高く、量子効率が高く、暗電流が低い広い周波数スペクトルをカバーする。 マイクロ波周波数光子の等価光電検出は、標準光電検出器で利用されるマイクロ波光子エネルギーとバンド間遷移エネルギーの相違により、未解明のままである。 ここでは、回路量子力学の典型周波数における電子コンバータへの準理想マイクロ波光子の実現について述べる。 これらのユニークな性質は、高速度インダクタンス不規則超伝導体、グラニュラーアルミニウムを用いて光間相互作用を増強することによって実現される。 この実験は、電荷検出を用いた単一マイクロ波光子の検出などの新しい可能性を明らかにする電子変換に対する低エネルギーマイクロ波光子に関する重要な概念実証である。 これは、量子エンハンスセンシングから量子状態の基本的な性質の探求まで、幅広い応用への扉を開く量子研究において重要である。

Photoelectric detectors cover a wide frequency spectrum spanning from the far ultraviolet to the infrared light with high sensitivity, large quantum efficiency and low dark current. The equivalent photoelectric detection of microwave frequency photons has remained elusive due to inherent differences between microwave photon energy and the interband transition energies exploited in standard photoelectric detectors. Here we present the realization of a near-ideal microwave photon to electron converter at a frequency typical of circuit quantum electrodynamics. These unique properties are enabled by the use of a high kinetic inductance disordered superconductor, granular aluminium, to enhance the light-matter interaction. This experiment constitutes an important proof of concept regarding low energy microwave photon to electron conversion unveiling new possibilities such as the detection of single microwave photons using charge detection. It finds significance in quantum research openning doors to a wide array of applications, from quantum-enhanced sensing to exploring the fundamental properties of quantum states.
翻訳日:2023-12-22 13:55:04 公開日:2023-12-21
# 消去量子ビットに基づくフォールトトレラント量子アーキテクチャ

Fault-tolerant quantum architectures based on erasure qubits ( http://arxiv.org/abs/2312.14060v1 )

ライセンス: Link先を確認
Shouzhen Gu, Alex Retzker, Aleksander Kubica(参考訳) 量子エラー補正(QEC)のオーバーヘッドは、フォールトトレラント計算を実現する上で大きなボトルネックとなる。 このオーバヘッドを低減するために、支配的なノイズを既知の場所での消去に効率よく変換することで、消去量子ビットの考え方を利用する。 まず、消去量子ビットを持つQECスキームの形式化を導入し、対応する復号問題をマッチング問題として表現する。 次に、消去キュービットと最近導入されたFloquet符号に基づくQECスキームを提案し、最適化する。 提案方式は超伝導回路に適しており,平面配置と互換性がある。 我々は,回路ノイズモデルのメモリ閾値を数値的に推定し,(絡み込み操作による)拡散と消去の不完全な検出を含む。 以上の結果から, 消去量子ビットに基づくQECスキームは, より複雑であるにもかかわらず, 標準手法よりも著しく優れていることが示された。

The overhead of quantum error correction (QEC) poses a major bottleneck for realizing fault-tolerant computation. To reduce this overhead, we exploit the idea of erasure qubits, relying on an efficient conversion of the dominant noise into erasures at known locations. We start by introducing a formalism for QEC schemes with erasure qubits and express the corresponding decoding problem as a matching problem. Then, we propose and optimize QEC schemes based on erasure qubits and the recently-introduced Floquet codes. Our schemes are well-suited for superconducting circuits, being compatible with planar layouts. We numerically estimate the memory thresholds for the circuit noise model that includes spreading (via entangling operations) and imperfect detection of erasures. Our results demonstrate that, despite being slightly more complex, QEC schemes based on erasure qubits can significantly outperform standard approaches.
翻訳日:2023-12-22 13:54:49 公開日:2023-12-21
# Floquet駆動光格子シミュレータによるブラックホールの量子特性の探索

Probing quantum properties of black holes with a Floquet-driven optical lattice simulator ( http://arxiv.org/abs/2312.14058v1 )

ライセンス: Link先を確認
Asmae Benhemou, Georgia Nixon, Aydin Deger, Ulrich Schneider, Jiannis K. Pachos(参考訳) ブラックホールの曲がった時空では、量子物理学はホーキング放射のような特徴的な効果をもたらす。 本稿では,(1 + 1)次元ブラックホールの局所フロケット駆動1次元光学格子における超低温原子を用いたアナログ量子シミュレーション手法を提案する。 実効的な力学系がブラックホールの湾曲した形状をエンコードする位置依存トンネル形状をどのように生成できるかを示す。 さらに,オンサイト原子数測定のみに基づいてシミュレーションしたブラックホールのホーキング温度を簡易かつロバストに決定する手法を提案する。 最後に, 2次元光学格子を用いて (2 + 1) 次元ブラックホールをシミュレートするために, このスキームをいかに直接適用できるかを示す。 原子-原子相互作用の効果を取り入れることで、シミュレーションはブラックホールの基本的な性質である量子情報の揺らぎを探索することができる。

In the curved spacetime of a black hole, quantum physics gives rise to distinctive effects such as Hawking radiation. Here, we present a scheme for an analogue quantum simulation of (1 + 1)- dimensional black holes using ultracold atoms in a locally Floquet-driven 1D optical lattice. We show how the effective dynamics of the driven system can generate a position-dependent tunnelling profile that encodes the curved geometry of the black hole. Moreover, we provide a simple and robust scheme to determine the Hawking temperature of the simulated black hole based solely on on-site atom population measurements. Finally, we show how this scheme can be directly applied to simulate (2 + 1)D black holes by utilising 2D optical lattices. By incorporating the effect of atom-atom interactions, our simulator can probe the scrambling of quantum information which is a fundamental property of black holes.
翻訳日:2023-12-22 13:54:35 公開日:2023-12-21
# 行列点過程と一般化体積サンプリングによる重み付き最小二乗近似

Weighted least-squares approximation with determinantal point processes and generalized volume sampling ( http://arxiv.org/abs/2312.14057v1 )

ライセンス: Link先を確認
Anthony Nouy and Bertrand Michel(参考訳) 我々は、与えられた$m$-次元空間の要素による$l^2$ から関数を近似する問題を、ランダム点 $x_1,\dots,x_n$ における関数の評価を用いて、いくつかの特徴写像 $\varphi$ に関連付ける問題を考える。 独立かつ同分布の点を用いた最適重み付き最小二乗法の結果を想起した後,射影行列点過程(dpp)や体積サンプリングを用いた重み付き最小二乗法を考える。 これらの分布は、選択された特徴の多様性を促進する点間の依存を導入する。 まず, サンプル数$n = O(m\log(m))$, つまり, 期待値$L^2$の誤差は, $L^2$の最良の近似誤差の一定倍に制限される。 また、関数がノルム付きベクトル空間 $h$ で連続的に $l^2$ に埋め込まれていると仮定すると、近似が $h$-norm で測定された最良近似誤差によってほぼ確実に有界であることをさらに証明する。 これは、$L^\infty$ あるいは再生カーネルヒルベルト空間からの函数のケースを含む。 最後に、プロジェクションDPP(またはボリュームサンプリング)の独立した繰り返しを用いて、すなわちボリュームサンプリングと同様の誤差境界を出力する代替戦略を提案するが、実際にはサンプル数ははるかに少ない。 数値実験は、異なる戦略のパフォーマンスを例証する。

We consider the problem of approximating a function from $L^2$ by an element of a given $m$-dimensional space $V_m$, associated with some feature map $\varphi$, using evaluations of the function at random points $x_1,\dots,x_n$. After recalling some results on optimal weighted least-squares using independent and identically distributed points, we consider weighted least-squares using projection determinantal point processes (DPP) or volume sampling. These distributions introduce dependence between the points that promotes diversity in the selected features $\varphi(x_i)$. We first provide a generalized version of volume-rescaled sampling yielding quasi-optimality results in expectation with a number of samples $n = O(m\log(m))$, that means that the expected $L^2$ error is bounded by a constant times the best approximation error in $L^2$. Also, further assuming that the function is in some normed vector space $H$ continuously embedded in $L^2$, we further prove that the approximation is almost surely bounded by the best approximation error measured in the $H$-norm. This includes the cases of functions from $L^\infty$ or reproducing kernel Hilbert spaces. Finally, we present an alternative strategy consisting in using independent repetitions of projection DPP (or volume sampling), yielding similar error bounds as with i.i.d. or volume sampling, but in practice with a much lower number of samples. Numerical experiments illustrate the performance of the different strategies.
翻訳日:2023-12-22 13:54:23 公開日:2023-12-21
# 時間的ビデオテキストアライメントのための強力なベースライン

A Strong Baseline for Temporal Video-Text Alignment ( http://arxiv.org/abs/2312.14055v1 )

ライセンス: Link先を確認
Zeqian Li, Qirui Chen, Tengda Han, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では, 授業映像から映像とテキストを時間的に調整すること, 特に, 長期映像と関連するテキスト文を与えられた場合, 映像中の対応するタイムスタンプを決定することを目的としている。 この目的のために、最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。 徹底した実験を行います (i)音声認識による誤り低減のためのASRシステムのアップグレード効果 (II)CLIPからS3D、より最近のInternVideoまで様々な視覚的テクスチュアルなバックボーンの効果 3)大言語モデル(LLM)を誘導することにより,雑音の多いASR転写を記述段階に変換することにより,ASR転写のコアアクティビティを新たなトレーニングデータセットとして要約する。 その結果,提案手法はナレーションアライメントと手続きステップグラウンド処理の両方において優れた性能を示し,3つのベンチマーク,すなわち,ht-stepでは9.3%,htm-alignでは3.4%,crosstaskでは4.7%を上回った。 我々は,提案モデルと記述段階のデータセットを,時間的ビデオテキストアライメントにおける将来の研究の強力なベースラインとして扱うことができると考えている。 すべてのコード、モデル、結果のデータセットは、研究コミュニティに公開される。

In this paper, we consider the problem of temporally aligning the video and texts from instructional videos, specifically, given a long-term video, and associated text sentences, our goal is to determine their corresponding timestamps in the video. To this end, we establish a simple, yet strong model that adopts a Transformer-based architecture with all texts as queries, iteratively attending to the visual features, to infer the optimal timestamp. We conduct thorough experiments to investigate: (i) the effect of upgrading ASR systems to reduce errors from speech recognition, (ii) the effect of various visual-textual backbones, ranging from CLIP to S3D, to the more recent InternVideo, (iii) the effect of transforming noisy ASR transcripts into descriptive steps by prompting a large language model (LLM), to summarize the core activities within the ASR transcript as a new training dataset. As a result, our proposed simple model demonstrates superior performance on both narration alignment and procedural step grounding tasks, surpassing existing state-of-the-art methods by a significant margin on three public benchmarks, namely, 9.3% on HT-Step, 3.4% on HTM-Align and 4.7% on CrossTask. We believe the proposed model and dataset with descriptive steps can be treated as a strong baseline for future research in temporal video-text alignment. All codes, models, and the resulting dataset will be publicly released to the research community.
翻訳日:2023-12-22 13:53:54 公開日:2023-12-21
# 特徴注入を伴うデュアルアテンションU-Net:マルチクラス欠陥セグメンテーションの境界を押し上げる

Dual Attention U-Net with Feature Infusion: Pushing the Boundaries of Multiclass Defect Segmentation ( http://arxiv.org/abs/2312.14053v1 )

ライセンス: Link先を確認
Rasha Alshawi, Md Tamjidul Hoque, Md Meftahul Ferdaus, Mahdi Abdelguerfi, Kendall Niles, Ken Prathak, Joe Tom, Jordan Klein, Murtada Mousa, and Johny Javier Lopez(参考訳) 提案されたアーキテクチャであるdau-fi net(dau-fi net)は、セマンティクスセグメンテーションにおける課題、特に限られたサンプルを持つマルチクラス不均衡データセットに対処する。 DAU-FI Netは、複数スケールの空間チャネルアテンション機構と特徴注入を統合し、オブジェクトのローカライゼーションの精度を高める。 コアはマルチスケールの深さ分離可能な畳み込みブロックを採用し、スケールにまたがる局所的なパターンをキャプチャする。 このブロックはspatial-channel squeeze and excitation (scse) attention unitによって補完され、特徴写像におけるチャネルと空間領域の間の相互依存性をモデル化する。 さらに、追加注意ゲートはエンコーダ-デコーダ経路を接続することでセグメンテーションを洗練する。 モデルを強化するために,ガボルフィルタを用いたテクスチャ解析,エッジ検出のためのソベルフィルタとカニーフィルタをセマンティックマスクで誘導し,特徴空間を戦略的に拡張する。 挑戦的な下水道管と、欠陥データセットと、DAU-FI Netの能力を検証したベンチマークデータセットに関する総合的な実験。 アブレーション研究は、注意ブロックと特徴注入による漸進的なメリットを強調している。 dau-fi netは、欠陥テストセットとベンチマークでそれぞれ95.6%と98.8%の最先端平均交点を達成し、それぞれ8.9%と12.6%を上回った。 アブレーション研究は、注意ブロックと特徴注入による漸進的なメリットを強調している。 提案されたアーキテクチャは、トレーニングデータに制限のあるマルチクラス問題のセマンティクスセグメンテーションを進める、堅牢なソリューションを提供する。 ピクセルレベルのアノテーションを特徴とする下水道の欠陥データセットは、この重要な領域におけるさらなる研究の道を開く。 全体として、この作業はセマンティックセグメンテーションの有効性を高めるために、アーキテクチャ、注意、機能エンジニアリングにおいて重要な革新をもたらす。

The proposed architecture, Dual Attentive U-Net with Feature Infusion (DAU-FI Net), addresses challenges in semantic segmentation, particularly on multiclass imbalanced datasets with limited samples. DAU-FI Net integrates multiscale spatial-channel attention mechanisms and feature injection to enhance precision in object localization. The core employs a multiscale depth-separable convolution block, capturing localized patterns across scales. This block is complemented by a spatial-channel squeeze and excitation (scSE) attention unit, modeling inter-dependencies between channels and spatial regions in feature maps. Additionally, additive attention gates refine segmentation by connecting encoder-decoder pathways. To augment the model, engineered features using Gabor filters for textural analysis, Sobel and Canny filters for edge detection are injected guided by semantic masks to expand the feature space strategically. Comprehensive experiments on a challenging sewer pipe and culvert defect dataset and a benchmark dataset validate DAU-FI Net's capabilities. Ablation studies highlight incremental benefits from attention blocks and feature injection. DAU-FI Net achieves state-of-the-art mean Intersection over Union (IoU) of 95.6% and 98.8% on the defect test set and benchmark respectively, surpassing prior methods by 8.9% and 12.6%, respectively. Ablation studies highlight incremental benefits from attention blocks and feature injection. The proposed architecture provides a robust solution, advancing semantic segmentation for multiclass problems with limited training data. Our sewer-culvert defects dataset, featuring pixel-level annotations, opens avenues for further research in this crucial domain. Overall, this work delivers key innovations in architecture, attention, and feature engineering to elevate semantic segmentation efficacy.
翻訳日:2023-12-22 13:53:27 公開日:2023-12-21
# 機械学習とドメイン分割法 -- 調査

Machine learning and domain decomposition methods -- a survey ( http://arxiv.org/abs/2312.14050v1 )

ライセンス: Link先を確認
Axel Klawonn, Martin Lanser, and Janine Weber(参考訳) ブラックボックス機械学習法と従来の数値手法の経験と様々な応用分野の専門知識を組み合わせたハイブリッドアルゴリズムは、科学的な機械学習と、特に計算科学や工学において、様々な産業分野において徐々に重要性を増している。 本調査では,機械学習(ML)とドメイン分解法(DDM)の組み合わせに着目した,有望な研究手法について検討する。 The aim of this survey is to provide an overview of existing work within this field and to structure it into domain decomposition for machine learning and machine learning-enhanced domain decomposition, including: domain decomposition for classical machine learning, domain decomposition to accelerate the training of physics-aware neural networks, machine learning to enhance the convergence properties or computational efficiency of DDMs, and machine learning as a discretization method in a DDM for the solution of PDEs. それぞれの分野において、共通フレームワークにおける既存の作業と重要な進歩を要約し、最後に、今後の研究の課題と機会を廃止する。

Hybrid algorithms, which combine black-box machine learning methods with experience from traditional numerical methods and domain expertise from diverse application areas, are progressively gaining importance in scientific machine learning and various industrial domains, especially in computational science and engineering. In the present survey, several promising avenues of research will be examined which focus on the combination of machine learning (ML) and domain decomposition methods (DDMs). The aim of this survey is to provide an overview of existing work within this field and to structure it into domain decomposition for machine learning and machine learning-enhanced domain decomposition, including: domain decomposition for classical machine learning, domain decomposition to accelerate the training of physics-aware neural networks, machine learning to enhance the convergence properties or computational efficiency of DDMs, and machine learning as a discretization method in a DDM for the solution of PDEs. In each of these fields, we summarize existing work and key advances within a common framework and, finally, disuss ongoing challenges and opportunities for future research.
翻訳日:2023-12-22 13:52:53 公開日:2023-12-21
# パーソナライズド・レコメンデーションのためのニューラル・コンテクスト・バンディット

Neural Contextual Bandits for Personalized Recommendation ( http://arxiv.org/abs/2312.14037v1 )

ライセンス: Link先を確認
Yikun Ban, Yunzhe Qi, Jingrui He(参考訳) オンラインビジネスのダイナミックなランドスケープにおいて、レコメンダシステムはユーザエクスペリエンスの強化に重要な役割を果たしている。 従来のアプローチは静的教師あり学習に依存してきたが、適応的でユーザ中心のレコメンデーションの探求は、文脈的包帯の定式化に繋がった。 このチュートリアルでは、パーソナライズドレコメンデーションのための強力なフレームワークとしてコンテキストバンディットを調査します。 我々は,この分野における課題,高度なアルゴリズムと理論,協調戦略,オープンチャレンジと今後の展望について考察する。 Different from existing related tutorials, (1) we focus on the exploration perspective of contextual bandits to alleviate the ``Matthew Effect'' in the recommender systems, i.e., the rich get richer and the poor get poorer, concerning the popularity of items; (2) in addition to the conventional linear contextual bandits, we will also dedicated to neural contextual bandits which have emerged as an important branch in recent years, to investigate how neural networks benefit contextual bandits for personalized recommendation both empirically and theoretically; (3) we will cover the latest topic, collaborative neural contextual bandits, to incorporate both user heterogeneity and user correlations customized for recommender system; (4) we will provide and discuss the new emerging challenges and open questions for neural contextual bandits with applications in the personalized recommendation, especially for large neural models.

In the dynamic landscape of online businesses, recommender systems are pivotal in enhancing user experiences. While traditional approaches have relied on static supervised learning, the quest for adaptive, user-centric recommendations has led to the emergence of the formulation of contextual bandits. This tutorial investigates the contextual bandits as a powerful framework for personalized recommendations. We delve into the challenges, advanced algorithms and theories, collaborative strategies, and open challenges and future prospects within this field. Different from existing related tutorials, (1) we focus on the exploration perspective of contextual bandits to alleviate the ``Matthew Effect'' in the recommender systems, i.e., the rich get richer and the poor get poorer, concerning the popularity of items; (2) in addition to the conventional linear contextual bandits, we will also dedicated to neural contextual bandits which have emerged as an important branch in recent years, to investigate how neural networks benefit contextual bandits for personalized recommendation both empirically and theoretically; (3) we will cover the latest topic, collaborative neural contextual bandits, to incorporate both user heterogeneity and user correlations customized for recommender system; (4) we will provide and discuss the new emerging challenges and open questions for neural contextual bandits with applications in the personalized recommendation, especially for large neural models.
翻訳日:2023-12-22 13:52:37 公開日:2023-12-21
# t-eval: ツールの利用能力の段階別評価

T-Eval: Evaluating the Tool Utilization Capability Step by Step ( http://arxiv.org/abs/2312.14033v1 )

ライセンス: Link先を確認
Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao(参考訳) 大規模言語モデル(llm)は様々なnlpタスクで顕著なパフォーマンスを達成し、幅広いアプリケーションのためのツールによって拡張されている。 しかし、LLMのツール活用能力の評価と分析はまだ未検討である。 モデルを全体的評価する従来の作業とは対照的に,ツール利用を命令追従,計画,推論,検索,理解,レビューなど,複数のサブプロセスに包括的に分解する。 それに基づいて、ツールの利用能力の段階を段階的に評価するために、さらに \shortname~を導入します。 ツール利用評価をモデル機能に沿っていくつかのサブドメインに分割し、LLMの全体性と分離された能力の両方を内部的に理解できるようにする。 各種LLMのショートネームと深部解析について広範な実験を行った。 結果指向評価と整合性を示すだけでなく、LLMの能力のよりきめ細かな分析も提供し、ツール活用能力の新たな視点を提供する。 ベンチマークは \href{https://github.com/open-compass/T-Eval}{https://github.com/open-compass/T-Eval} で公開される。

Large language models (LLM) have achieved remarkable performance on various NLP tasks and are augmented by tools for broader applications. Yet, how to evaluate and analyze the tool-utilization capability of LLMs is still under-explored. In contrast to previous works that evaluate models holistically, we comprehensively decompose the tool utilization into multiple sub-processes, including instruction following, planning, reasoning, retrieval, understanding, and review. Based on that, we further introduce \shortname~to evaluate the tool utilization capability step by step. \shortname~disentangles the tool utilization evaluation into several sub-domains along model capabilities, facilitating the inner understanding of both holistic and isolated competency of LLMs. We conduct extensive experiments on \shortname~and in-depth analysis of various LLMs. \shortname~ not only exhibits consistency with the outcome-oriented evaluation but also provides a more fine-grained analysis of the capabilities of LLMs, providing a new perspective in LLM evaluation on tool-utilization ability. The benchmark will be available at \href{https://github.com/open-compass/T-Eval}{https://github.com/open-compass/T-Eval}.
翻訳日:2023-12-22 13:52:19 公開日:2023-12-21
# 半間接離散対数問題に対する効率的な量子アルゴリズム

Efficient quantum algorithms for some instances of the semidirect discrete logarithm problem ( http://arxiv.org/abs/2312.14028v1 )

ライセンス: Link先を確認
Muhammad Imran and G\'abor Ivanyos(参考訳) 半直離散対数問題(semidirect discrete logarithm problem、sdlp)は、有限半群 $g$ に対する半直積半群 $g\rtimes \mathrm{end}(g)$ における標準離散対数問題の例である。 g\in g, \sigma\in \mathrm{end}(g)$, and $h=\prod_{i=0}^{t-1}\sigma^i(g)$ が与えられたとき、sdlp$(g,\sigma)$ は$g$ と $h$ に対して、$t$ を決定する。 Shorのアルゴリズムは可換性に依存するため、SDLPには適用できないと考えられている。 以前は、SDLPの最もよく知られたアルゴリズムは、クパーバーグの指数時間量子アルゴリズムに基づいていた。 しかし、この問題は \textit{semidirect product key exchange} の族において、提案された暗号システムのセキュリティにおいて中心的な役割を果たす。 これにはSPDH-Signと呼ばれる最近提案された署名プロトコルが含まれている。 本稿では,SDLPが重要な特殊ケースにおいてさらに容易であることを示す。 具体的には、有限群$G$に対して、次の2つのインスタンスのクラスに対して$G\rtimes \mathrm{Aut}(G)$でSDLPの量子アルゴリズムを記述する: 1つは、$G$が可解であるとき、2つ目は、$G$が行列群であり、多項式的に小さい指数を持つ$\sigma$が$G$の内部自己同型であるときである。 これらのクラスから得られた因子からなる群にさらに結果を拡張する。 その結果、上述のケースにおけるsdlpのハードネス推定に基づくセキュリティ仮定が量子攻撃に対して安全でないspdh符号および類似暗号システムが存在する。 私たちが依存する量子成分は新しいものではなく、shorのファクタリングと離散対数アルゴリズムとよく知られた一般化である。

The semidirect discrete logarithm problem (SDLP) is the following analogue of the standard discrete logarithm problem in the semidirect product semigroup $G\rtimes \mathrm{End}(G)$ for a finite semigroup $G$. Given $g\in G, \sigma\in \mathrm{End}(G)$, and $h=\prod_{i=0}^{t-1}\sigma^i(g)$ for some integer $t$, the SDLP$(G,\sigma)$, for $g$ and $h$, asks to determine $t$. As Shor's algorithm crucially depends on commutativity, it is believed not to be applicable to the SDLP. Previously, the best known algorithm for the SDLP was based on Kuperberg's subexponential time quantum algorithm. Still, the problem plays a central role in the security of certain proposed cryptosystems in the family of \textit{semidirect product key exchange}. This includes a recently proposed signature protocol called SPDH-Sign. In this paper, we show that the SDLP is even easier in some important special cases. Specifically, for a finite group $G$, we describe quantum algorithms for the SDLP in $G\rtimes \mathrm{Aut}(G)$ for the following two classes of instances: the first one is when $G$ is solvable and the second is when $G$ is a matrix group and a power of $\sigma$ with a polynomially small exponent is an inner automorphism of $G$. We further extend the results to groups composed of factors from these classes. A consequence is that SPDH-Sign and similar cryptosystems whose security assumption is based on the presumed hardness of the SDLP in the cases described above are insecure against quantum attacks. The quantum ingredients we rely on are not new: these are Shor's factoring and discrete logarithm algorithms and well-known generalizations.
翻訳日:2023-12-22 13:51:59 公開日:2023-12-21
# $\textit{V}^*$:マルチモーダルLLMにおけるコアメカニズムとしてのガイドビジュアル検索

$\textit{V}^*$: Guided Visual Search as a Core Mechanism in Multimodal LLMs ( http://arxiv.org/abs/2312.14135v1 )

ライセンス: Link先を確認
Penghao Wu, Saining Xie(参考訳) 複雑なタスクを振り返って実行するとき、見るものをどのように見て、選択的に処理するかが重要です。 しかし、現在のMLLM(Multimodal LLM)におけるこの視覚探索機構の欠如は、特に高解像度で視覚的に混み合った画像を扱う際に、重要な視覚的詳細に集中する能力を妨げている。 これに対処するために,llm における世界知識を効率的なビジュアルクエリに利用する llm 誘導ビジュアル検索機構 $\textit{v}^*$ を導入する。 MLLMと組み合わせると、このメカニズムは協調的推論、文脈理解、特定の視覚要素の正確なターゲティングを促進する。 この統合により、新しいMLLMメタアーキテクチャ、$\textbf{S}$how, s$\textbf{EA}$rch, Tel$\textbf{L}$ (SEAL)が生成される。 これは、mllmsが高解像度画像を処理し、視覚的な詳細に焦点を当てる能力を評価するために特別に設計されたベンチマークです。 本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。 コードはhttps://github.com/penghao-wu/vstar.comで入手できる。

When we look around and perform complex tasks, how we see and selectively process what we see is crucial. However, the lack of this visual search mechanism in current multimodal LLMs (MLLMs) hinders their ability to focus on important visual details, especially when handling high-resolution and visually crowded images. To address this, we introduce $\textit{V}^*$, an LLM-guided visual search mechanism that employs the world knowledge in LLMs for efficient visual querying. When combined with an MLLM, this mechanism enhances collaborative reasoning, contextual understanding, and precise targeting of specific visual elements. This integration results in a new MLLM meta-architecture, named $\textbf{S}$how, s$\textbf{EA}$rch, and Tel$\textbf{L}$ (SEAL). We further create $\textit{V}^*$Bench, a benchmark specifically designed to evaluate MLLMs in their ability to process high-resolution images and focus on visual details. Our study highlights the necessity of incorporating visual search capabilities into multimodal systems. The code is available https://github.com/penghao-wu/vstar.
翻訳日:2023-12-22 13:44:37 公開日:2023-12-21
# 拡散報酬:条件付きビデオ拡散による学習報酬

Diffusion Reward: Learning Rewards via Conditional Video Diffusion ( http://arxiv.org/abs/2312.14134v1 )

ライセンス: Link先を確認
Tao Huang and Guangqi Jiang and Yanjie Ze and Huazhe Xu(参考訳) エキスパートビデオからの学習報酬は、強化学習タスクの意図した動作を特定するための、安価で効果的なソリューションを提供する。 本研究では,複雑な視覚的RL問題を解くための条件付きビデオ拡散モデルを用いて,エキスパートビデオから報酬を学習する新しいフレームワークであるDiffusion Rewardを提案する。 我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。 拡散逆転は、専門家のような行動の生産的探索を促進する条件エントロピーの負によって形式化される。 本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。 さらに、拡散報酬は未知のタスクを成功かつ効果的に解決することさえ可能であり、ほとんどベースラインメソッドを超えている。 プロジェクトページとコード: https://diffusion-reward.github.io/

Learning rewards from expert videos offers an affordable and effective solution to specify the intended behaviors for reinforcement learning tasks. In this work, we propose Diffusion Reward, a novel framework that learns rewards from expert videos via conditional video diffusion models for solving complex visual RL problems. Our key insight is that lower generative diversity is observed when conditioned on expert trajectories. Diffusion Reward is accordingly formalized by the negative of conditional entropy that encourages productive exploration of expert-like behaviors. We show the efficacy of our method over 10 robotic manipulation tasks from MetaWorld and Adroit with visual input and sparse reward. Moreover, Diffusion Reward could even solve unseen tasks successfully and effectively, largely surpassing baseline methods. Project page and code: https://diffusion-reward.github.io/.
翻訳日:2023-12-22 13:44:17 公開日:2023-12-21
# DUSt3R:幾何学的な3Dビジョン

DUSt3R: Geometric 3D Vision Made Easy ( http://arxiv.org/abs/2312.14132v1 )

ライセンス: Link先を確認
Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, Jerome Revaud(参考訳) 野におけるマルチビューステレオ再構成(MVS)は、まずカメラパラメータ、例えば本質的パラメータと外生的パラメータを推定する必要がある。 これらは通常、面倒で扱いにくいが、3d空間で対応するピクセルを三角測量することが必須であり、mvsアルゴリズムのコアとなる。 本研究では,カメラのキャリブレーションや視点のポーズに関する事前情報無しで操作する,任意の画像コレクションの高密度かつ無拘束なステレオ3次元再構成のための画期的なパラダイムであるdust3rを紹介する。 我々は,通常の投影型カメラモデルのハード制約を緩和し,ペアワイズリコンストラクション問題をポイントマップの回帰として配置した。 本定式化は単眼および両眼の再建症例を円滑に統一することを示す。 さらに,2つ以上の画像が提供される場合,共通参照フレーム内のすべての対のポイントマップを表現する,シンプルで効果的なグローバルアライメント戦略を提案する。 ネットワークアーキテクチャは標準のトランスフォーマエンコーダとデコーダに基づいており、強力な事前学習モデルを活用することができます。 私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。 これらの課題に対する実験により、提案されたDUSt3Rは様々な3次元視覚タスクを統一し、モノクロ/マルチビュー深度推定と相対ポーズ推定に新たなSoTAを設定できることが示されている。 要約すると、DUSt3Rは多くの幾何学的3D視覚タスクを容易にする。

Multi-view stereo reconstruction (MVS) in the wild requires to first estimate the camera parameters e.g. intrinsic and extrinsic parameters. These are usually tedious and cumbersome to obtain, yet they are mandatory to triangulate corresponding pixels in 3D space, which is the core of all best performing MVS algorithms. In this work, we take an opposite stance and introduce DUSt3R, a radically novel paradigm for Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections, i.e. operating without prior information about camera calibration nor viewpoint poses. We cast the pairwise reconstruction problem as a regression of pointmaps, relaxing the hard constraints of usual projective camera models. We show that this formulation smoothly unifies the monocular and binocular reconstruction cases. In the case where more than two images are provided, we further propose a simple yet effective global alignment strategy that expresses all pairwise pointmaps in a common reference frame. We base our network architecture on standard Transformer encoders and decoders, allowing us to leverage powerful pretrained models. Our formulation directly provides a 3D model of the scene as well as depth information, but interestingly, we can seamlessly recover from it, pixel matches, relative and absolute camera. Exhaustive experiments on all these tasks showcase that the proposed DUSt3R can unify various 3D vision tasks and set new SoTAs on monocular/multi-view depth estimation as well as relative pose estimation. In summary, DUSt3R makes many geometric 3D vision tasks easy.
翻訳日:2023-12-22 13:44:02 公開日:2023-12-21
# WellFactor:Integrated Embedding of Healthcare Dataを用いた患者のプロファイリング

WellFactor: Patient Profiling using Integrative Embedding of Healthcare Data ( http://arxiv.org/abs/2312.14129v1 )

ライセンス: Link先を確認
Dongjin Choi, Andy Xiang, Ozgur Ozturk, Deep Shrestha, Barry Drake, Hamid Haidarian, Faizan Javed, Haesun Park(参考訳) 急速に発展する医療業界では、プラットフォームが従来の医療記録だけでなく、医療ウェブポータルなど、さまざまな患者の相互作用を含む多様なデータセットにアクセスできるようになった。 このような多様なデータに対処するために,これらの情報源から情報を統合して患者プロファイルを導出するWellFactorを導入する。 我々のアプローチの中心は制約付き低ランク近似の利用である。 WellFactorは、しばしば医療データに固有の空間を扱うように最適化されている。 さらに,タスク固有のラベル情報を取り入れることで,組込み結果を洗練し,患者に対するより深い視点を提供する。 WellFactorの重要な特徴の1つは、新しい、未観測の患者データに対する埋め込みを瞬時に計算でき、データセット全体を再検討したり、埋め込みを再計算する必要がなくなることである。 実世界の医療データに関する総合的な評価は、WellFactorの有効性を示している。 分類性能の他の方法よりも優れた結果をもたらし、患者の意味のあるクラスタリングをもたらし、患者の類似性検索と予測に一貫した結果をもたらす。

In the rapidly evolving healthcare industry, platforms now have access to not only traditional medical records, but also diverse data sets encompassing various patient interactions, such as those from healthcare web portals. To address this rich diversity of data, we introduce WellFactor: a method that derives patient profiles by integrating information from these sources. Central to our approach is the utilization of constrained low-rank approximation. WellFactor is optimized to handle the sparsity that is often inherent in healthcare data. Moreover, by incorporating task-specific label information, our method refines the embedding results, offering a more informed perspective on patients. One important feature of WellFactor is its ability to compute embeddings for new, previously unobserved patient data instantaneously, eliminating the need to revisit the entire data set or recomputing the embedding. Comprehensive evaluations on real-world healthcare data demonstrate WellFactor's effectiveness. It produces better results compared to other existing methods in classification performance, yields meaningful clustering of patients, and delivers consistent results in patient similarity searches and predictions.
翻訳日:2023-12-22 13:43:34 公開日:2023-12-21
# エントロピー的オープンセットアクティブラーニング

Entropic Open-set Active Learning ( http://arxiv.org/abs/2312.14126v1 )

ライセンス: Link先を確認
Bardia Safaei, Vibashan VS, Celso M. de Melo, Vishal M. Patel(参考訳) アクティブラーニング(AL)は、ラベルなしデータのプールから最も有用なアノテーションサンプルを選択することで、ディープモデルの性能を向上させることを目的としている。 クローズドセット設定での優れたパフォーマンスにもかかわらず、ほとんどのALメソッドは、ラベルなしデータが未知のカテゴリを含む実世界のシナリオで失敗する。 近年、いくつかの研究がオープンセット設定のal問題に取り組み始めている。 しかし、これらの手法は既知のサンプルの選択に重点を置いており、alラウンド中に得られた未知のサンプルを効率的に利用しない。 本研究では,未知の分布と未知の分布を効果的に活用し,ALラウンド中の情報的サンプルを選択するEntropic Open-set AL (EOAL) フレームワークを提案する。 具体的には、2つの異なるエントロピースコアを用いる。 既知のクラス分布に対するサンプルの不確実性を測定する。 他方は、未知のクラス分布に対するサンプルの不確かさを測定する。 これら2つのエントロピースコアを利用することで、既知のサンプルと未知のサンプルをラベルのないデータから効果的に分離し、より良いサンプリングを行う。 CIFAR-10, CIFAR-100, TinyImageNetデータセットにおいて, 提案手法が既存の最先端手法よりも優れていることを示す。 コードは \url{https://github.com/bardisafa/EOAL} で入手できる。

Active Learning (AL) aims to enhance the performance of deep models by selecting the most informative samples for annotation from a pool of unlabeled data. Despite impressive performance in closed-set settings, most AL methods fail in real-world scenarios where the unlabeled data contains unknown categories. Recently, a few studies have attempted to tackle the AL problem for the open-set setting. However, these methods focus more on selecting known samples and do not efficiently utilize unknown samples obtained during AL rounds. In this work, we propose an Entropic Open-set AL (EOAL) framework which leverages both known and unknown distributions effectively to select informative samples during AL rounds. Specifically, our approach employs two different entropy scores. One measures the uncertainty of a sample with respect to the known-class distributions. The other measures the uncertainty of the sample with respect to the unknown-class distributions. By utilizing these two entropy scores we effectively separate the known and unknown samples from the unlabeled data resulting in better sampling. Through extensive experiments, we show that the proposed method outperforms existing state-of-the-art methods on CIFAR-10, CIFAR-100, and TinyImageNet datasets. Code is available at \url{https://github.com/bardisafa/EOAL}.
翻訳日:2023-12-22 13:43:17 公開日:2023-12-21
# VideoPoet: ゼロショットビデオ生成のための大規模言語モデル

VideoPoet: A Large Language Model for Zero-Shot Video Generation ( http://arxiv.org/abs/2312.14125v1 )

ライセンス: Link先を確認
Dan Kondratyuk and Lijun Yu and Xiuye Gu and Jos\'e Lezama and Jonathan Huang and Rachel Hornung and Hartwig Adam and Hassan Akbari and Yair Alon and Vighnesh Birodkar and Yong Cheng and Ming-Chang Chiu and Josh Dillon and Irfan Essa and Agrim Gupta and Meera Hahn and Anja Hauth and David Hendon and Alonso Martinez and David Minnen and David Ross and Grant Schindler and Mikhail Sirotenko and Kihyuk Sohn and Krishna Somandepalli and Huisheng Wang and Jimmy Yan and Ming-Hsuan Yang and Xuan Yang and Bryan Seybold and Lu Jiang(参考訳) 本稿では,多種多様な条件信号から高品質な映像と音声を合成可能な言語モデルであるVideoPoetを提案する。 VideoPoetは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。 トレーニングプロトコルはLarge Language Models (LLM)の後継で、事前訓練とタスク固有の適応という2つの段階で構成される。 事前トレーニング中、VideoPoetは自動回帰トランスフォーマーフレームワークにマルチモーダル生成目的の混合を組み込んでいる。 事前訓練されたLLMは、様々なビデオ生成タスクに適応できる基盤として機能する。 ゼロショットビデオ生成におけるモデルの現状を示す実証実験の結果,特に高忠実度モーションを生成する VideoPoet の能力を強調した。 プロジェクトページ: http://sites.research.google/videopoet/

We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
翻訳日:2023-12-22 13:43:00 公開日:2023-12-21
# 絡み合った3次元形状と外観生成のためのニューラルポイントクラウド拡散

Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance Generation ( http://arxiv.org/abs/2312.14124v1 )

ライセンス: Link先を確認
Philipp Schr\"oppel, Christopher Wewer, Jan Eric Lenssen, Eddy Ilg, Thomas Brox(参考訳) 3dアセットの制御可能な生成は、映画、ゲーム、エンジニアリングのコンテンツ作成やar/vrなど、多くの実用的なアプリケーションにとって重要である。 近年,拡散モデルにより3次元オブジェクトの生成品質が著しく向上した。 しかし、既存のモデルでは形状と外観を別々に制御できない。 そこで,我々は3次元拡散モデルに対して,ハイブリッド・ポイント・クラウドとニューラル・ラジアンス・フィールド・アプローチを導入することで,そのような絡み合いを可能にする適切な表現を提案する。 局所密度と放射デコーダのための高次元特徴空間と合わせて点位置上の拡散過程をモデル化する。 点位置は物体の粗い形状を表すが、点特徴は幾何学や外観の詳細をモデル化することができる。 この絡み合いは、両方を独立にサンプリングできるため、両方を別々に制御できる。 提案手法は,fidスコアを30~90%削減し,他の非異方化可能状態と同等にすることで,従来の異方化可能手法と比較して,新たな芸術状態を世代的に設定する。

Controllable generation of 3D assets is important for many practical applications like content creation in movies, games and engineering, as well as in AR/VR. Recently, diffusion models have shown remarkable results in generation quality of 3D objects. However, none of the existing models enable disentangled generation to control the shape and appearance separately. For the first time, we present a suitable representation for 3D diffusion models to enable such disentanglement by introducing a hybrid point cloud and neural radiance field approach. We model a diffusion process over point positions jointly with a high-dimensional feature space for a local density and radiance decoder. While the point positions represent the coarse shape of the object, the point features allow modeling the geometry and appearance details. This disentanglement enables us to sample both independently and therefore to control both separately. Our approach sets a new state of the art in generation compared to previous disentanglement-capable methods by reduced FID scores of 30-90% and is on-par with other non disentanglement-capable state-of-the art methods.
翻訳日:2023-12-22 13:42:47 公開日:2023-12-21
# 汎用ゲームのための高速かつ知識のない深層学習(学生要約)

Fast and Knowledge-Free Deep Learning for General Game Playing (Student Abstract) ( http://arxiv.org/abs/2312.14121v1 )

ライセンス: Link先を確認
Micha{\l} Maras, Micha{\l} K\k{e}pa, Jakub Kowalski, Marek Szyku{\l}a(参考訳) 我々は,AlphaZeroモデルをより高速なモデル生成に重点を置く汎用ゲームプレイング(GGP)に適応させる手法を開発し,ゲームルールから抽出される知識を少なくする。 データセット生成は、自己再生の代わりにmcts再生を使用する; 値ネットワークのみを使用し、注意層は畳み込み層を置き換える。 これにより、アクション空間とボードトポロジに関する仮定を放棄することができます。 本手法を正規ボードゲームGGPシステム内に実装し,ほとんどのゲームにおいてUTTベースラインを効率よく上回るモデルを構築することができることを示す。

We develop a method of adapting the AlphaZero model to General Game Playing (GGP) that focuses on faster model generation and requires less knowledge to be extracted from the game rules. The dataset generation uses MCTS playing instead of self-play; only the value network is used, and attention layers replace the convolutional ones. This allows us to abandon any assumptions about the action space and board topology. We implement the method within the Regular Boardgames GGP system and show that we can build models outperforming the UCT baseline for most games efficiently.
翻訳日:2023-12-22 13:42:25 公開日:2023-12-21
# LingoQA: 自動運転のためのビデオ質問回答

LingoQA: Video Question Answering for Autonomous Driving ( http://arxiv.org/abs/2312.14115v1 )

ライセンス: Link先を確認
Ana-Maria Marcu, Long Chen, Jan H\"unermann, Alice Karnsund, Benoit Hanotte, Prajwal Chidananda, Saurabh Nair, Vijay Badrinarayanan, Alex Kendall, Jamie Shotton, Oleg Sinavski(参考訳) 自律運転は意思決定プロセスにおける説明責任の欠如により、長い間、公衆の受け入れで課題に直面してきた。 自然言語によるビデオ質問回答(QA)はこのギャップを埋める機会を提供する。 それでも、包括的なベンチマークがないため、ビデオQAモデルの性能評価は特に難しいことが判明した。 このギャップを埋めるために、自律走行ビデオQAに特化したベンチマークであるLingoQAを紹介する。 LingoQAのトレーニング可能な計量は、人間の評価と0.95のスピアマン相関係数を示す。 本稿では,ロンドン中心部の419kサンプルからなるビデオQAデータセットについて紹介する。 ベースライン視覚言語モデルを構築し、その性能を理解するために広範囲にわたるアブレーション研究を行う。

Autonomous driving has long faced a challenge with public acceptance due to the lack of explainability in the decision-making process. Video question-answering (QA) in natural language provides the opportunity for bridging this gap. Nonetheless, evaluating the performance of Video QA models has proved particularly tough due to the absence of comprehensive benchmarks. To fill this gap, we introduce LingoQA, a benchmark specifically for autonomous driving Video QA. The LingoQA trainable metric demonstrates a 0.95 Spearman correlation coefficient with human evaluations. We introduce a Video QA dataset of central London consisting of 419k samples that we release with the paper. We establish a baseline vision-language model and run extensive ablation studies to understand its performance.
翻訳日:2023-12-22 13:42:14 公開日:2023-12-21
# 量子力学は紙上でのみ起こる:qbismによるデコヒーレンスの説明

Quantum Dynamics Happens Only on Paper: QBism's Account of Decoherence ( http://arxiv.org/abs/2312.14112v1 )

ライセンス: Link先を確認
John B. DeBrota, Christopher A. Fuchs, Ruediger Schack(参考訳) QBismは長い間、量子状態、POVM要素、クラウス演算子、さらには同じ布から切り離されるユニタリ演算さえも認識してきた。 このような作用列対は、伝統的に「量子測定」と呼ばれる。 量子論の計算は、この測定の概念をもたらすときにベイズ決定理論に経験的に動機づけられた付加と見なされる。 この急進的なアプローチにより、QBismは量子力学の他の解釈を悩ませる概念的な問題を排除した。 QBistエージェントが、時間とともに進化するオンティック(エージェントに依存しない)動的変数の存在を信じていない場合、なぜ測定を行わない状態で量子状態の割り当てに制約があるのか? なぜ彼女はユニタリやオープンシステムの量子力学を全く導入するのか? ここでは、ファン・フラッセンの反射原理に基づく表現定理を示し、これらの疑問に答える。 簡単に言えば、エージェントの量子力学の割り当ては、彼女が考えている測定アクションが将来のギャンブルのために現在の確率を変えない、という信念を表している。 このアプローチの序文は、量子測定のデコヒーレンス勘定でよく見られる「測定記録のある環境」を導入することなく、「オープンシステムダイナミクス」を理解できるということである。 代わりに、デコヒーレンスに対するqbistの理解は、エージェントが関心のシステム(システムプラス環境ではなく)と、そのシステムで実行するかもしれない測定に関する判断についての信念に完全に依存している。

QBism has long recognized quantum states, POVM elements, Kraus operators, and even unitary operations to be cut from the same cloth: They all express aspects of an agent's personal belief system concerning the consequences (for her) of actions she might take on her external world. Such action-consequence pairs have conventionally been called "quantum measurements." The calculus of quantum theory is then viewed as an empirically motivated addition to Bayesian decision theory when brought to this notion of measurement. This radical approach has allowed QBism to eliminate the conceptual problems that plague other interpretations of quantum mechanics. However, one issue has remained elusive: If a QBist agent does not believe in the existence of an ontic (agent-independent) dynamical variable evolving over time, why would there be any constraints on her quantum state assignment in the absence of performing a measurement? Why would she introduce unitary or open-system quantum dynamics at all? Here, we present a representation theorem based on van Fraassen's reflection principle to answer these questions. Simply put, an agent's assignment of quantum dynamics represents her belief that a measurement action she is contemplating would not change her current odds for future gambles. A corollary to this approach is that one can make sense of "open-system dynamics" without ever introducing an "environment with a measurement record" as is common in decoherence accounts of quantum measurement. Instead, the QBist understanding of decoherence rests entirely on an agent's beliefs about the system of interest (not system plus environment) and her judgments about measurements she might perform on that system.
翻訳日:2023-12-22 13:42:03 公開日:2023-12-21
# 量子コンピュータのためのスケーラブルフルスタックベンチマーク

Scalable Full-Stack Benchmarks for Quantum Computers ( http://arxiv.org/abs/2312.14107v1 )

ライセンス: Link先を確認
Jordan Hines, Timothy Proctor(参考訳) 量子プロセッサは古典的にシミュレートできない量子回路を実行することができ、これらの回路を実行する際に量子プロセッサのエラー率を評価するベンチマークの必要性が生じる。 本稿では、ユニタリ回路によって特定される任意の量子計算集合から効率的なベンチマークを作成するための一般的な手法を提案する。 ベンチマークでは、量子プロセッサの古典的コンパイルアルゴリズムと低レベルの量子演算の統合性能を評価する。 既存の「フルスタックベンチマーク」とは異なり、我々のベンチマークは量子回路の古典的なシミュレーションを必要としない。 我々は,量子ボリュームベンチマークの計算効率向上版や,ハミルトンシミュレーション回路を用いたアルゴリズムベースのベンチマークを含むランダム化回路ベンチマークを作成する。 我々は、これらのベンチマークをIBM Qデバイスやシミュレーションで実行し、その結果を既存のベンチマーク手法と比較する。

Quantum processors are now able to run quantum circuits that are infeasible to simulate classically, creating a need for benchmarks that assess a quantum processor's rate of errors when running these circuits. Here, we introduce a general technique for creating efficient benchmarks from any set of quantum computations, specified by unitary circuits. Our benchmarks assess the integrated performance of a quantum processor's classical compilation algorithms and its low-level quantum operations. Unlike existing "full-stack benchmarks", our benchmarks do not require classical simulations of quantum circuits, and they use only efficient classical computations. We use our method to create randomized circuit benchmarks, including a computationally efficient version of the quantum volume benchmark, and an algorithm-based benchmark that uses Hamiltonian simulation circuits. We perform these benchmarks on IBM Q devices and in simulations, and we compare their results to the results of existing benchmarking methods.
翻訳日:2023-12-22 13:41:36 公開日:2023-12-21
# 人的価値の学習を可能にする人的表現の学習

Learning Human-like Representations to Enable Learning Human Values ( http://arxiv.org/abs/2312.14106v1 )

ライセンス: Link先を確認
Andrea Wynn, Ilia Sucholutsky, Thomas L. Griffiths(参考訳) 許容可能な行動のための社会標準を害したり違反したりするのを避けるために、人間の価値観や目的に合わせたAIシステムをどのように構築すればよいのか? AIシステムに世界の人間的な表現を学習させるには、一般化の改善、ドメインシフトに対する堅牢性、数ショットの学習パフォーマンスなど、多くの既知のメリットがある。 機械学習モデル(ML)と人間とのこのような表現的アライメントは、人間の価値観や社会的規範に適合するMLシステムにおいて、価値アライメントの必要条件でもある。 我々は、価値アライメントの一側面として倫理に注目し、選択された行動のモラルを反映した分布から報酬をサンプリングする多武装バンディット環境で複数のMLエージェント(支持ベクトル回帰とカーネル回帰)を訓練する。 次に,人間に対する各エージェントの表象的アライメントの程度と,最も倫理的な行動をとるための学習時のパフォーマンスとの関係について検討した。

How can we build AI systems that are aligned with human values and objectives in order to avoid causing harm or violating societal standards for acceptable behavior? Making AI systems learn human-like representations of the world has many known benefits, including improving generalization, robustness to domain shifts, and few-shot learning performance, among others. We propose that this kind of representational alignment between machine learning (ML) models and humans is also a necessary condition for value alignment, where ML systems conform to human values and societal norms. We focus on ethics as one aspect of value alignment and train multiple ML agents (support vector regression and kernel regression) in a multi-armed bandit setting, where rewards are sampled from a distribution that reflects the morality of the chosen action. We then study the relationship between each agent's degree of representational alignment with humans and their performance when learning to take the most ethical actions.
翻訳日:2023-12-22 13:41:22 公開日:2023-12-21
# RetailSynth:リテールAIシステム評価のための合成データ生成

RetailSynth: Synthetic Data Generation for Retail AI Systems Evaluation ( http://arxiv.org/abs/2312.14095v1 )

ライセンス: Link先を確認
Yu Xia, Ali Arian, Sriram Narayanamoorthy, and Joshua Mabry(参考訳) 近年、豊富な顧客データを活用して学び、得ることができるパーソナライズされた価格設定、プロモーション、および製品推奨アルゴリズムの開発に多大な研究が費やされている。 これらの因果学習システムの体系的なベンチマークと評価は、適切なデータセットとシミュレーション環境が欠如しているため、依然として重要な課題である。 本研究では、価格感や過去の体験を含む不均一性の重要源を捉える顧客ショッピング行動のシミュレーションを行う多段階モデルを提案する。 このモデルを実働シミュレーション環境に組み込んだ -- retailsynth.com です。 RetailSynthは、リアルな合成ショッピングトランザクションを作成するために、一般公開されている食料品データを慎重に調整した。 複数の価格ポリシーがシミュレータ内で実装され、収益、カテゴリの浸透、顧客保持への影響について分析された。 応用研究者はRetailSynthを使用して、マルチカテゴリ小売の因果需要モデルを検証すると同時に、パーソナライズされた価格設定、プロモーション、製品レコメンデーションのための新興ベンチマークスイートに現実的な価格感度を組み込むことができる。

Significant research effort has been devoted in recent years to developing personalized pricing, promotions, and product recommendation algorithms that can leverage rich customer data to learn and earn. Systematic benchmarking and evaluation of these causal learning systems remains a critical challenge, due to the lack of suitable datasets and simulation environments. In this work, we propose a multi-stage model for simulating customer shopping behavior that captures important sources of heterogeneity, including price sensitivity and past experiences. We embedded this model into a working simulation environment -- RetailSynth. RetailSynth was carefully calibrated on publicly available grocery data to create realistic synthetic shopping transactions. Multiple pricing policies were implemented within the simulator and analyzed for impact on revenue, category penetration, and customer retention. Applied researchers can use RetailSynth to validate causal demand models for multi-category retail and to incorporate realistic price sensitivity into emerging benchmarking suites for personalized pricing, promotions, and product recommendations.
翻訳日:2023-12-22 13:41:03 公開日:2023-12-21
# HD-Painter:拡散モデルによる高分解能・高速テキストガイド画像

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models ( http://arxiv.org/abs/2312.14091v1 )

ライセンス: Link先を確認
Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi(参考訳) テキスト・ツー・イメージの拡散モデルが前例のない成功を収めたことから, テキスト誘導画像のインペイント化の進展は, 極めて現実的で視覚的にも妥当な結果をもたらしている。 しかし、現在のテキストから画像へのインペインティングモデルでは、特に、インペイント領域とユーザのプロンプトの整合性が向上し、高解像度インペインティングの実行が改善される可能性がある。 そこで本稿では,hd-painterについて紹介する。hd-painterは,高分解能画像インパインティングに対して,プロンプトとコヒーレントなスケールで正確に追従する,完全にトレーニング不要なアプローチである。 この目的のために,情報提供により自己注意スコアを向上し,テキストアライメントを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計する。 さらに迅速なコヒーレンスを改善するために,ポストホックサンプリング戦略をDDIMの汎用形式にシームレスに統合し,分散遅延シフトを防止するためのRASG(Reweighting Attention Score Guidance)機構を導入する。 さらに、HD-Painterは、インペイント用にカスタマイズされた特殊な超解像技術を導入し、最大2K解像度の画像の欠落した領域の完成を可能にする。 実験の結果,HD-Painterは既存の最先端アプローチを質的かつ定量的に上回り,61.4%と51.9%の精度向上を実現していることがわかった。 コードについては、https://github.com/Picsart-AI-Research/HD-Painterで公開します。

Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
翻訳日:2023-12-22 13:40:43 公開日:2023-12-21
# ダイナミック回路を用いた高忠実多ビット一般化計測

High-fidelity, multi-qubit generalized measurements with dynamic circuits ( http://arxiv.org/abs/2312.14087v1 )

ライセンス: Link先を確認
Petr Ivashkov, Gideon Uchehara, Liang Jiang, Derek S. Wang, Alireza Seif(参考訳) 一般測度(英: Generalized Measurement)または正作用素値測度(英: positive operator-valued measures、POVM)は、様々な量子情報タスクにおける射影測度よりも有利である。 ここでは,1と2の超伝導量子ビットの高忠実度および単一実験環境での一般測定を実現する。 そこで本研究では,中間回路計測とフィードフォワード制御のためのハードウェア機能を活用した,Naimarkのダイレーションとバイナリツリーのハイブリッド化に基づくハイブリッド手法"Naimark-terminated binary tree"を提案する。 さらに,雑音条件下でのPOVMの忠実度を高めるために,近似コンパイルの有効利用を示す。 我々は,このハイブリッド手法は構成法よりも大きなシステムサイズにスケールし,sic-povm (sic-povm) の検出器トモグラフィーを行うことで,その利点を実証する。 twirlingと新しく考案された条件付き読み出しエラー緩和を組み合わせた複合エラー緩和戦略により、検出器の忠実度はさらに向上する。 今後,超伝導量子ビット上の大規模マルチキュービットPOVMの一般化計測を可能にするため,近似コンパイルとハードウェアノイズの改善が期待できる。

Generalized measurements, also called positive operator-valued measures (POVMs), can offer advantages over projective measurements in various quantum information tasks. Here, we realize a generalized measurement of one and two superconducting qubits with high fidelity and in a single experimental setting. To do so, we propose a hybrid method, the "Naimark-terminated binary tree," based on a hybridization of Naimark's dilation and binary tree techniques that leverages emerging hardware capabilities for mid-circuit measurements and feed-forward control. Furthermore, we showcase a highly effective use of approximate compiling to enhance POVM fidelity in noisy conditions. We argue that our hybrid method scales better toward larger system sizes than its constituent methods and demonstrate its advantage by performing detector tomography of symmetric, informationally complete POVM (SIC-POVM). Detector fidelity is further improved through a composite error mitigation strategy that incorporates twirling and a newly devised conditional readout error mitigation. Looking forward, we expect improvements in approximate compilation and hardware noise for dynamic circuits to enable generalized measurements of larger multi-qubit POVMs on superconducting qubits.
翻訳日:2023-12-22 13:40:11 公開日:2023-12-21
# 単眼イベントカメラによる2つのハンドの3次元位置推定

3D Pose Estimation of Two Interacting Hands from a Monocular Event Camera ( http://arxiv.org/abs/2312.14157v1 )

ライセンス: Link先を確認
Christen Millerdurai and Diogo Luvizon and Viktor Rudnev and Andr\'e Jonas and Jiayi Wang and Christian Theobalt and Vladislav Golyanik(参考訳) モノクロビデオからの3dハンドトラッキングは、手の動き、オクルージョン、左右のあいまいさ、速い動きなど、非常に難しい問題である。 既存のほとんどの方法はRGB入力に依存しており、低照度条件下では厳しい制限があり、動きがぼやけている。 対照的にイベントカメラは、フルフレームではなくローカルな明るさ変化をキャプチャし、前述の効果に苦しむことはない。 残念なことに、既存のイメージベースのテクニックは、データモダリティが著しく異なるため、イベントに直接適用できない。 これらの課題に応えて,単眼のイベントカメラから手の動きの速い2つの手の動きを3次元追跡するための最初のフレームワークを提案する。 本手法は, 半教師付き機能的注意機構により, 左手のあいまいさに対処し, 交差点損失を統合し, 衝突を解消する。 本研究領域の進歩を促進するため,2つの相互作用する手からなる新しい大規模データセットであるEv2Hands-Sと,実イベントストリームと地上3Dアノテーションを備えた実時間ベンチマークであるEv2Hands-Rをリリースする。 提案手法は3次元再構成精度で既存手法より優れ, 重度光条件下での実データに一般化する。

3D hand tracking from a monocular video is a very challenging problem due to hand interactions, occlusions, left-right hand ambiguity, and fast motion. Most existing methods rely on RGB inputs, which have severe limitations under low-light conditions and suffer from motion blur. In contrast, event cameras capture local brightness changes instead of full image frames and do not suffer from the described effects. Unfortunately, existing image-based techniques cannot be directly applied to events due to significant differences in the data modalities. In response to these challenges, this paper introduces the first framework for 3D tracking of two fast-moving and interacting hands from a single monocular event camera. Our approach tackles the left-right hand ambiguity with a novel semi-supervised feature-wise attention mechanism and integrates an intersection loss to fix hand collisions. To facilitate advances in this research domain, we release a new synthetic large-scale dataset of two interacting hands, Ev2Hands-S, and a new real benchmark with real event streams and ground-truth 3D annotations, Ev2Hands-R. Our approach outperforms existing methods in terms of the 3D reconstruction accuracy and generalises to real data under severe light conditions.
翻訳日:2023-12-22 13:34:16 公開日:2023-12-21
# 混合次元冷媒Fermi-Hubbard系におけるストライプの形成

Formation of stripes in a mixed-dimensional cold-atom Fermi-Hubbard system ( http://arxiv.org/abs/2312.14156v1 )

ライセンス: Link先を確認
Dominik Bourgund, Thomas Chalopin, Petar Bojovi\'c, Henning Schl\"omer, Si Wang, Titus Franz, Sarah Hirthe, Annabelle Bohrdt, Fabian Grusdt, Immanuel Bloch, Timon A. Hilker(参考訳) d波超伝導とストライプの関係は、カップレートの秩序相の理解の基礎となる。 実験上、両方の相は近くで発見されているが、関連するフェルミ・ハバード模型の数値的研究は、ストライプが超伝導に先行する、競合する、または共存するかどうかを長い間研究してきた。 このようなストライプは、反強磁性秩序のドメインを分離するドーパントの変動する線によって特徴づけられる。 ここでは、冷原子フェルミ・ハバード量子シミュレータにおけるストライプの最初のシグネチャを示す。 混合次元系を工学することにより、典型的なエネルギースケールをスピン交換エネルギーに拡大し、ストリップが形成される興味深いクロスオーバー温度状態にアクセスできる。 ホールドープタント間の拡張された魅力的な相関を観察し,ストライプに類似した大きな構造を形成する確率の増大を見出した。 スピンセクターでは、相関関数を最大3次まで調べ、ストライプ形成と整合した結果を求める。 これらの高次相関測定は、ストライプの創発特性と他の競合する相との関係の顕微鏡的理解の改善への道を開く。 より一般的には, 混合次元が重要な役割を担う新発見高温超伝導材料について, 直接的関連性を有する。

The relation between d-wave superconductivity and stripes is fundamental to the understanding of ordered phases in cuprates. While experimentally both phases are found in close proximity, numerical studies on the related Fermi-Hubbard model have long been investigating whether stripes precede, compete or coexist with superconductivity. Such stripes are characterised by interleaved charge and spin density wave ordering where fluctuating lines of dopants separate domains of opposite antiferromagnetic order. Here we show first signatures of stripes in a cold-atom Fermi-Hubbard quantum simulator. By engineering a mixed-dimensional system, we increase their typical energy scales to the spin exchange energy, enabling us to access the interesting crossover temperature regime where stripes begin to form. We observe extended, attractive correlations between hole dopants and find an increased probability to form larger structures akin to stripes. In the spin sector, we study correlation functions up to third order and find results consistent with stripe formation. These higher-order correlation measurements pave the way towards an improved microscopic understanding of the emergent properties of stripes and their relation to other competing phases. More generally, our approach has direct relevance for newly discovered high-temperature superconducting materials in which mixed dimensions play an essential role.
翻訳日:2023-12-22 13:33:52 公開日:2023-12-21
# 量子モンテカルロシミュレーションによる相互作用するフェルミオンの絡み合いR\'{e}nyi負性

Entanglement R\'{e}nyi Negativity of Interacting Fermions from Quantum Monte Carlo Simulations ( http://arxiv.org/abs/2312.14155v1 )

ライセンス: Link先を確認
Fo-Hong Wang and Xiao Yan Xu(参考訳) 多体の絡み合いは量子物質のさらなる側面を明らかにし、強い相関物理学に関する洞察を与える。 過去10年間、基底状態の絡み合いは大きな注目を集めてきたが、相互作用するフェルミオン系におけるネガティビティを用いた混合状態量子絡み合いの研究は未調査のままである。 緩和された密度行列と同様に、相互作用するフェルミオンの部分的に置換された密度行列は、自由フェルミオンを記述するガウス状態の重み付け和として表現でき、行列式量子モンテカルロフレームワークにおけるランク-$n$ r\'{e}nyi のネガティビティを計算することができる。 半充填ハバードモデルとスピンレス$t$-$V$モデルに対するランク2のR\'{e}nyi負性率の最初の計算を行い、R\'{e}nyi負性率の面積法則係数が有限温度遷移点において特異性を持つことを見出した。 我々の研究は絡み合いの計算に寄与し、様々なフェルミオン多体混合状態における量子絡み合いの将来の研究の舞台となる。

Many-body entanglement unveils additional aspects of quantum matter and offers insights into strongly correlated physics. While ground-state entanglement has received much attention in the past decade, the study of mixed-state quantum entanglement using negativity in interacting fermionic systems remains unexplored. We demonstrate that the partially transposed density matrix of interacting fermions, similar to the reduced density matrix, can be expressed as a weighted sum of Gaussian states describing free fermions, enabling the calculation of rank-$n$ R\'{e}nyi negativity within the determinantal quantum Monte Carlo framework. We conduct the first calculation of rank-two R\'{e}nyi negativity for the half-filled Hubbard model and the spinless $t$-$V$ model and find that the area law coefficient of the R\'{e}nyi negativity has a singularity at the finite-temperature transition point. Our work contributes to the calculation of entanglement and sets the stage for future studies on quantum entanglement in various fermionic many-body mixed states.
翻訳日:2023-12-22 13:33:32 公開日:2023-12-21
# 仮想ペット:3Dシーンでアニマタブルな動物生成

Virtual Pets: Animatable Animal Generation in 3D Scenes ( http://arxiv.org/abs/2312.14154v1 )

ライセンス: Link先を確認
Yen-Chi Cheng, Chieh Hubert Lin, Chaoyang Wang, Yash Kant, Sergey Tulyakov, Alexander Schwing, Liangyan Gui, Hsin-Ying Lee(参考訳) 没入型4d体験における生成モデルの可能性を解き放つために,3d環境での動物種に対する現実的な多様な動きをモデル化する新しいパイプラインであるvirtual petを導入する。 環境形状に整合した3次元モーションデータの限られた利用を回避するために,モノクラーインターネットビデオを活用し,背景の変形可能なNeRF表現と静的NeRF表現を抽出する。 そこで我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発した。 再構成データを用いて条件付き3次元運動モデルを訓練し,3次元背景における前景動物の軌跡と調音を学習する。 猫のビデオを用いた総合的質的,定量的評価によるパイプラインの有効性を示す。 また,猫や室内環境にまたがる汎用性を実証し,時間的にコヒーレントな4次元アウトプットを生成し,仮想体験を豊かにする。

Toward unlocking the potential of generative models in immersive 4D experiences, we introduce Virtual Pet, a novel pipeline to model realistic and diverse motions for target animal species within a 3D environment. To circumvent the limited availability of 3D motion data aligned with environmental geometry, we leverage monocular internet videos and extract deformable NeRF representations for the foreground and static NeRF representations for the background. For this, we develop a reconstruction strategy, encompassing species-level shared template learning and per-video fine-tuning. Utilizing the reconstructed data, we then train a conditional 3D motion model to learn the trajectory and articulation of foreground animals in the context of 3D backgrounds. We showcase the efficacy of our pipeline with comprehensive qualitative and quantitative evaluations using cat videos. We also demonstrate versatility across unseen cats and indoor environments, producing temporally coherent 4D outputs for enriched virtual experiences.
翻訳日:2023-12-22 13:33:08 公開日:2023-12-21
# 変分量子多目的最適化

Variational Quantum Multi-Objective Optimization ( http://arxiv.org/abs/2312.14151v1 )

ライセンス: Link先を確認
Linus Ekstrom and Hao Wang and Sebastian Schmitt(参考訳) 近年,短期量子デバイス上で実行される変動量子アルゴリズムを用いた組合せ最適化問題の解決が注目されている。 現在、ほとんどの作品は単一目的の問題に焦点を当てている。 対照的に、多くの現実世界の問題は複数の矛盾する目的を同時に考慮する必要があるが、変分量子アルゴリズムでは十分に研究されていない。 多目的最適化では、矛盾する目標(よく知られたPareto set/front)間の最適なトレードオフを求める。 NISQコンピュータを用いて多目的最適化問題を解くことができる変分量子多目的最適化(QMOO)アルゴリズムを提案する。 アルゴリズムの中核は、パレート最適解の重ね合わせである量子状態を生成するために調整された変分量子回路(VQC)であり、元の多目的最適化問題を解く。 VQCは古典的目的関数を表すすべてのコストハミルトニアンを組み込むことでこれを達成している。 我々は、VQCによって準備された量子状態から解の集合を回収し、広く応用されたハイパーボリュームインジケータを用いて、その性質をパレートフロントの近似として決定する。 vqcの変動パラメータは、ハイパーボリュームインジケータを最大化することでチューニングされる。 多くの現実的な問題は整数最適化問題であるので、qudit量子系全体のスキームを定式化する。 最大5つの目的を持つベンチマーク問題に対して提案アルゴリズムの有効性を示す。

Solving combinatorial optimization problems using variational quantum algorithms to be executed on near-term quantum devices has gained a lot of attraction in recent years. Currently, most works have focused on single-objective problems. In contrast, many real-world problems need to consider multiple conflicting objectives simultaneously, which is not well studied using variation quantum algorithms. In multi-objective optimization, one seeks the optimal trade-offs among conflicting objectives - the well-known Pareto set/front. We present a variational quantum multiple-objective optimization (QMOO) algorithm, which allows us to solve multi-objective optimization problems using NISQ computers. At the core of the algorithm is a variational quantum circuit (VQC) tuned to produce a quantum state which is a superposition of Pareto-optimal solutions, solving the original multi-objective optimization problem. The VQC achieves this by incorporating all cost Hamiltonians representing the classical objective functions. We retrieve a set of solutions from the quantum state prepared by the VQC, and utilize the widely-applied hypervolume indicator to determine the quality of it as approximation to the Pareto-front. The variational parameters of the VQC are tuning by maximizing the hypervolume indicator. As many realistic problems are integer optimization problems we formulate the whole scheme for qudit quantum systems. We show the effectiveness of the proposed algorithm on several benchmark problems with up to five objectives.
翻訳日:2023-12-22 13:32:51 公開日:2023-12-21
# DriveLM: グラフビジュアル質問回答による運転

DriveLM: Driving with Graph Visual Question Answering ( http://arxiv.org/abs/2312.14150v1 )

ライセンス: Link先を確認
Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang, Chengen Xie, Ping Luo, Andreas Geiger, Hongyang Li(参考訳) 本研究では,Webスケールデータを用いた視覚言語モデル(VLM)をエンド・ツー・エンドの運転システムに統合し,一般化を促進し,ユーザとの対話を可能にする方法について検討する。 最近のアプローチでは、VLMを1ラウンドの視覚的質問応答(VQA)による運転に適応しているが、人間のドライバーは複数のステップで意思決定を判断する。 主要なオブジェクトのローカライズから始まり、アクションを取る前にオブジェクトのインタラクションを見積もる。 提案課題であるグラフVQAでは,認識,予測,質問応答ペアの計画を通じてグラフ構造化推論をモデル化し,人間の推論過程を模倣する適切なプロキシタスクを得る。 nuScenesとCARLA上に構築されたデータセット(DriveLM-Data)をインスタンス化し、グラフVQAとエンドツーエンド駆動を併用するVLMベースのベースラインアプローチ(DriveLM-Agent)を提案する。 実験によると、graph vqaは運転シーンを推論するためのシンプルな原則付きフレームワークであり、drivelm-dataはこのタスクに対する挑戦的なベンチマークを提供する。 DriveLM-Agentベースラインは、最先端の駆動特化アーキテクチャと比較して、エンドツーエンドの自動運転を競合的に実行します。 特に、その利点は、目に見えないオブジェクトやセンサーの設定でゼロショットの評価を受けると発音される。 この取り組みが、自動運転にvlmを応用する方法に関する新たな光を当てる出発点になることを願っている。 将来の研究を促進するため、すべてのコード、データ、モデルが一般に公開されている。

We study how vision-language models (VLMs) trained on web-scale data can be integrated into end-to-end driving systems to boost generalization and enable interactivity with human users. While recent approaches adapt VLMs to driving via single-round visual question answering (VQA), human drivers reason about decisions in multiple steps. Starting from the localization of key objects, humans estimate object interactions before taking actions. The key insight is that with our proposed task, Graph VQA, where we model graph-structured reasoning through perception, prediction and planning question-answer pairs, we obtain a suitable proxy task to mimic the human reasoning process. We instantiate datasets (DriveLM-Data) built upon nuScenes and CARLA, and propose a VLM-based baseline approach (DriveLM-Agent) for jointly performing Graph VQA and end-to-end driving. The experiments demonstrate that Graph VQA provides a simple, principled framework for reasoning about a driving scene, and DriveLM-Data provides a challenging benchmark for this task. Our DriveLM-Agent baseline performs end-to-end autonomous driving competitively in comparison to state-of-the-art driving-specific architectures. Notably, its benefits are pronounced when it is evaluated zero-shot on unseen objects or sensor configurations. We hope this work can be the starting point to shed new light on how to apply VLMs for autonomous driving. To facilitate future research, all code, data, and models are available to the public.
翻訳日:2023-12-22 13:32:30 公開日:2023-12-21
# TagAlign: マルチタグ分類による視覚言語アライメントの改善

TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification ( http://arxiv.org/abs/2312.14149v1 )

ライセンス: Link先を確認
Qinying Liu, Kecheng Zheng, Wu Wei, Zhan Tong, Yu Liu, Wei Chen, Zilei Wang, Yujun Shen(参考訳) 視覚言語モデルの欠如は、視覚的および言語学的データから意味的に整合した情報を抽出することである。 既存の試みでは、通常は粗いアライメントの問題に直面する。例えば、vision encoderは属性指定オブジェクトのローカライズに苦労している。 本研究では,画像とテキストの対以外のデータ形式を必要とせずに,画像とテキストの機能を調整するための,恥ずかしいほどシンプルなアプローチを提案する。 具体的には、画像とそのペアテキストが与えられた場合、その画像に存在する可能性が高い記述からオブジェクト (\textit{e.g.}, cat) と属性 (\textit{e.g.}, black) を解析します。 パースパイプラインは完全に自動化されており、優れたスケーラビリティを享受しています。 これらの解析的セマンティクスを監視信号として使用することにより、画像テキストのコントラスト損失とマルチタグ分類損失を補完することができる。 セマンティクスセグメンテーションデータセットの幅広いスイートに関する広範な実験の結果は、既存の代替案よりも平均 3.65 %向上しています。 さらに,属性管理により,属性指定対象を視覚言語モデルで正確にローカライズすることを示す。 プロジェクトページはhttps://qinying-liu.github.io/Tag-Align/にある。

The crux of learning vision-language models is to extract semantically aligned information from visual and linguistic data. Existing attempts usually face the problem of coarse alignment, \textit{e.g.}, the vision encoder struggles in localizing an attribute-specified object. In this work, we propose an embarrassingly simple approach to better align image and text features with no need of additional data formats other than image-text pairs. Concretely, given an image and its paired text, we manage to parse objects (\textit{e.g.}, cat) and attributes (\textit{e.g.}, black) from the description, which are highly likely to exist in the image. It is noteworthy that the parsing pipeline is fully automatic and thus enjoys good scalability. With these parsed semantics as supervision signals, we can complement the commonly used image-text contrastive loss with the multi-tag classification loss. Extensive experimental results on a broad suite of semantic segmentation datasets substantiate the average 3.65\% improvement of our framework over existing alternatives. Furthermore, the visualization results indicate that attribute supervision makes vision-language models accurately localize attribute-specified objects. Project page can be found at https://qinying-liu.github.io/Tag-Align/
翻訳日:2023-12-22 13:32:06 公開日:2023-12-21
# 二重単位回路の基本電荷

Fundamental charges for dual-unitary circuits ( http://arxiv.org/abs/2312.14148v1 )

ライセンス: Link先を確認
Tom Holden-Dye, Lluis Masanes, Arijeet Pal(参考訳) デュアルユニタリ量子回路は、近年、多体量子力学の解析的扱いやすいモデルとして注目を集めている。 ブリックワーク」パターンで配置された2量子ゲートの1+1D格子を構成するこれらのモデルは、空間と時間の役割を交換して各ゲートがユニタリでなければならないという制約によって定義される。 この二重ユニタリ性は、これらの回路における局所作用素のダイナミクスを制限する:そのような作用素の支持は、回路の幾何学によって設定された因果光円錐の端の1つまたは両方に沿って、システムの有効光速で成長しなければならない。 この特性を用いて、1+1D双対ユニタリ回路の場合、幅-$w$保存密度の集合($w$連続部位で支えられた演算子から構成される)は幅-$w$ソリトン演算子の集合と一対一の対応であり、乗算位相までは、双対ユニタリ力学により光の有効速度で空間的に変換される。 これらの多体ソリトンを構成するいくつかの方法(具体的には局所ヒルベルト空間次元$d=2$)が証明される: 第一に、より小さく構成的なソリトン積を含む単純な構成、第二に、より小さなソリトン積として単に理解できない構成によって、ヨルダン・ウィグナー変換の下でのフェルミオンの積の正確な解釈を持つ。 これにより、複雑な多体ソリトン(量子ビット上の双対ユニタリ回路)の微視的構造を特徴づける部分的な進歩がもたらされる一方で、フェルミオンモデルと双対ユニタリ回路の間のリンクが確立され、この枠組みで探究できる物理学の理解が促進される。

Dual-unitary quantum circuits have recently attracted attention as an analytically tractable model of many-body quantum dynamics. Consisting of a 1+1D lattice of 2-qudit gates arranged in a 'brickwork' pattern, these models are defined by the constraint that each gate must remain unitary under swapping the roles of space and time. This dual-unitarity restricts the dynamics of local operators in these circuits: the support of any such operator must grow at the effective speed of light of the system, along one or both of the edges of a causal light cone set by the geometry of the circuit. Using this property, it is shown here that for 1+1D dual-unitary circuits the set of width-$w$ conserved densities (constructed from operators supported over $w$ consecutive sites) is in one-to-one correspondence with the set of width-$w$ solitons - operators which, up to a multiplicative phase, are simply spatially translated at the effective speed of light by the dual-unitary dynamics. A number of ways to construct these many-body solitons (explicitly in the case where the local Hilbert space dimension $d=2$) are then demonstrated: firstly, via a simple construction involving products of smaller, constituent solitons; and secondly, via a construction which cannot be understood as simply in terms of products of smaller solitons, but which does have a neat interpretation in terms of products of fermions under a Jordan-Wigner transformation. This provides partial progress towards a characterisation of the microscopic structure of complex many-body solitons (in dual-unitary circuits on qubits), whilst also establishing a link between fermionic models and dual-unitary circuits, advancing our understanding of what kinds of physics can be explored in this framework.
翻訳日:2023-12-22 13:31:29 公開日:2023-12-21
# 量子ランダムアクセス符号の単純および一般境界

Simple and general bounds on quantum random access codes ( http://arxiv.org/abs/2312.14142v1 )

ライセンス: Link先を確認
M\'at\'e Farkas, Nikolai Miklin, Armin Tavakoli(参考訳) ランダムアクセス符号は、量子情報科学で広く使われている通信タスクの一種である。 古典的な戦略によって達成できる最適な平均成功確率は、任意のランダムアクセスコードで知られている。 しかし、量子ランダムアクセス符号に対して正確に解かれるケースはごくわずかであり、一般に適用できる解析的境界は知られていない。 本稿では、d-次元古典アルファベットから選択され、任意の量子測定対象のd-次元量子系にエンコードされる、n-独立変数の完全一般設定に対するそのようなバウンドを提供する。 境界は既知の特殊ケースを回復し、その境界が全体的に厳密でないにもかかわらず、良い近似が得られることを数値的に示す。

Random access codes are a type of communication task that is widely used in quantum information science. The optimal average success probability that can be achieved through classical strategies is known for any random access code. However, only a few cases are solved exactly for quantum random access codes, and there are no known analytical bounds that can be applied in general. In this paper, we provide such a bound for the fully general setting of n independent variables, each selected from a d-dimensional classical alphabet and encoded in a D-dimensional quantum system subject to an arbitrary quantum measurement. The bound recovers the known special cases, and we demonstrate numerically that even though the bound is not tight overall, it can still yield a good approximation.
翻訳日:2023-12-22 13:30:51 公開日:2023-12-21
# パスワイズラッソのための量子アルゴリズム

Quantum Algorithms for the Pathwise Lasso ( http://arxiv.org/abs/2312.14141v1 )

ライセンス: Link先を確認
Jo\~ao F. Doriguello, Debbie Lim, Chi Seng Pun, Patrick Rebentrost, Tushar Vaidya(参考訳) 古典的LARS(Least Angle Regression)パスワイズアルゴリズムに基づいて,$\ell_1$-penaltyの量子高次元線形回帰アルゴリズムを提案する。 ラッソの古典的数値アルゴリズムと同様に、我々の量子アルゴリズムは、ペナルティ項が変化するにつれて完全な正規化パスを提供するが、特定の条件下では反復ごとに2次的に高速である。 D\"urr と Hoyer (arXiv'96) の単純な量子最小フィン化サブルーチンを用いて、各イテレーションにおける結合時間を取得することで、特徴/予測子数$d$の2次高速化が可能となる。 次に、この単純な量子アルゴリズムを改善し、Chen と de Wolf (ICALP'23) の近似量子最小有限サブルーチンを用いて、特徴数 $d$ と観測数 $n$ の両方で二次的なスピードアップを得る。 我々の主な貢献の1つとして、量子振幅推定に基づく量子ユニタリを構築し、近似量子最小探索によって探索される結合時間を近似的に計算する。 結合時間はもはや正確に計算されないため、得られた近似量子アルゴリズムが良い解を得るかどうかはもはや明らかではない。 2つ目の主な貢献として、KKT条件の近似バージョンと双対性ギャップを通じて、LARSアルゴリズム(したがって我々の量子アルゴリズム)がエラーに対して堅牢であることを示す。 これは、結合時間がほぼ計算されている場合に、ラッソのコスト関数を小さな誤差まで最小化する経路を出力することを意味する。 最後に、未知の係数ベクトルを持つ基底線形モデルにより観測結果が生成されるモデルにおいて、未知の係数ベクトルと近似ラッソ解との差を証明し、古典的統計学習理論解析における収束率に関する既知の結果を一般化する。

We present a novel quantum high-dimensional linear regression algorithm with an $\ell_1$-penalty based on the classical LARS (Least Angle Regression) pathwise algorithm. Similarly to available classical numerical algorithms for Lasso, our quantum algorithm provides the full regularisation path as the penalty term varies, but quadratically faster per iteration under specific conditions. A quadratic speedup on the number of features/predictors $d$ is possible by using the simple quantum minimum-finding subroutine from D\"urr and Hoyer (arXiv'96) in order to obtain the joining time at each iteration. We then improve upon this simple quantum algorithm and obtain a quadratic speedup both in the number of features $d$ and the number of observations $n$ by using the recent approximate quantum minimum-finding subroutine from Chen and de Wolf (ICALP'23). As one of our main contributions, we construct a quantum unitary based on quantum amplitude estimation to approximately compute the joining times to be searched over by the approximate quantum minimum finding. Since the joining times are no longer exactly computed, it is no longer clear that the resulting approximate quantum algorithm obtains a good solution. As our second main contribution, we prove, via an approximate version of the KKT conditions and a duality gap, that the LARS algorithm (and therefore our quantum algorithm) is robust to errors. This means that it still outputs a path that minimises the Lasso cost function up to a small error if the joining times are only approximately computed. Finally, in the model where the observations are generated by an underlying linear model with an unknown coefficient vector, we prove bounds on the difference between the unknown coefficient vector and the approximate Lasso solution, which generalises known results about convergence rates in classical statistical learning theory analysis.
翻訳日:2023-12-22 13:30:14 公開日:2023-12-21
# HeadCraft: アニメーション3DMMのための高精度な形状変化のモデリング

HeadCraft: Modeling High-Detail Shape Variations for Animated 3DMMs ( http://arxiv.org/abs/2312.14140v1 )

ライセンス: Link先を確認
Artem Sevastopolsky, Philip-William Grassal, Simon Giebenhain, ShahRukh Athar, Luisa Verdoliva, Matthias Niessner(参考訳) 人間の頭部モデリングの最近の進歩は、神経表現を通して可塑性3次元頭部モデルを生成することができる。 それでも、明確に制御されたアニメーションで完全な高忠実なヘッドモデルを構築することは問題である。 さらに、例えば深度センサーから来るような部分的な観測に基づいて頭部の幾何学を完成させる一方で、詳細を保存することは、既存の手法ではしばしば問題となる。 本稿では,3dmmによる明示的なアニメーションと高精細な保存を同時に行うための,詳細な3dヘッドメッシュ生成モデルを提案する。 我々の方法は2つの段階に訓練されている。 まず,最近導入された3次元頭部スキャンのNPHMデータセットの各メッシュに頂点変位を有するパラメトリックヘッドモデルを登録する。 推定変位は手作りのUVレイアウトに焼き込まれる。 第二に、変位のUVマップを一般化するためにStyleGANモデルを訓練する。 パラメトリックモデルと高品質な頂点変位の分解により、モデルをアニメーション化し、セマンティックに修正することができる。 非条件生成の結果と全または部分的観測結果との適合性を示す。 プロジェクトページはhttps://seva100.github.io/headcraftで閲覧できます。

Current advances in human head modeling allow to generate plausible-looking 3D head models via neural representations. Nevertheless, constructing complete high-fidelity head models with explicitly controlled animation remains an issue. Furthermore, completing the head geometry based on a partial observation, e.g. coming from a depth sensor, while preserving details is often problematic for the existing methods. We introduce a generative model for detailed 3D head meshes on top of an articulated 3DMM which allows explicit animation and high-detail preservation at the same time. Our method is trained in two stages. First, we register a parametric head model with vertex displacements to each mesh of the recently introduced NPHM dataset of accurate 3D head scans. The estimated displacements are baked into a hand-crafted UV layout. Second, we train a StyleGAN model in order to generalize over the UV maps of displacements. The decomposition of the parametric model and high-quality vertex displacements allows us to animate the model and modify it semantically. We demonstrate the results of unconditional generation and fitting to the full or partial observation. The project page is available at https://seva100.github.io/headcraft.
翻訳日:2023-12-22 13:29:41 公開日:2023-12-21
# ランダム化コンパイルによる適応フィードバックに対する中間回路測定の準確率的読み出し補正

Quasi-Probabilistic Readout Correction of Mid-Circuit Measurements for Adaptive Feedback via Measurement Randomized Compiling ( http://arxiv.org/abs/2312.14139v1 )

ライセンス: Link先を確認
Akel Hashim, Arnaud Carignan-Dugas, Larry Chen, Christian Juenger, Neelay Fruitwala, Yilun Xu, Gang Huang, Joel Wallman, Irfan Siddiqi(参考訳) 量子計測は量子コンピューティングの基本的な構成要素である。 しかし、現代の量子コンピュータでは、測定は量子ゲートよりもエラーになりやすく、非単位誤差や測定クロストークによる非局所相関に影響を受けやすい。 読み出しエラーは後処理で軽減できるが、組合せ的に大きな可能な状態の数を特徴付ける必要があるため、キュービット数では非効率である。 本研究では, ランダム化コンパイルを用いた単純な確率的誤差モデルに補正し, 指数的に大きな混乱行列における単一準備状態の測定から再構成した準確率分布による読み出し誤差の効率的な緩和を可能にすることを示す。 8個の超伝導トランスモン量子ビットのレジスタに適用される多数の異なる準備状態の行列反転を必要とせず、読み出し誤差を補正することで、このアプローチのスケーラビリティとパワーを実証する。 さらに,この手法を準確率的誤りキャンセリングを用いて単発限界の測定に拡張できることを示すとともに,絡み合ったメモリキュービット上でビットフリップエラーを検出・修正するために使用されるアンシラキュービットの回路中測定誤差の補正を実証する。 提案手法は,多数の量子ビットで読み出し誤りを仮定不要に補正する方法を定め,非局所量子ビットで条件付き操作を行うために中回路計測結果を用いた適応回路における読み出しエラーをリアルタイムで補正する手法を提供する。

Quantum measurements are a fundamental component of quantum computing. However, on modern-day quantum computers, measurements can be more error prone than quantum gates, and are susceptible to non-unital errors as well as non-local correlations due to measurement crosstalk. While readout errors can be mitigated in post-processing, it is inefficient in the number of qubits due to a combinatorially-large number of possible states that need to be characterized. In this work, we show that measurement errors can be tailored into a simple stochastic error model using randomized compiling, enabling the efficient mitigation of readout errors via quasi-probability distributions reconstructed from the measurement of a single preparation state in an exponentially large confusion matrix. We demonstrate the scalability and power of this approach by correcting readout errors without the need for any matrix inversion on a large number of different preparation states applied to a register of a eight superconducting transmon qubits. Moreover, we show that this method can be extended to measurement in the single-shot limit using quasi-probabilistic error cancellation, and demonstrate the correction of mid-circuit measurement errors on an ancilla qubit used to detect and actively correct bit-flip errors on an entangled memory qubit. Our approach paves the way for performing an assumption-free correction of readout errors on large numbers of qubits, and offers a strategy for correcting readout errors in adaptive circuits in which the results of mid-circuit measurements are used to perform conditional operations on non-local qubits in real time.
翻訳日:2023-12-22 13:29:24 公開日:2023-12-21
# 弱教師付き時間行動定位における前景と背景分離の再検討-クラスタリングに基づくアプローチ

Revisiting Foreground and Background Separation in Weakly-supervised Temporal Action Localization: A Clustering-based Approach ( http://arxiv.org/abs/2312.14138v1 )

ライセンス: Link先を確認
Qinying Liu, Zilei Wang, Shenghai Rong, Junjie Li, Yixin Zhang(参考訳) 弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。 既存の手法は主に、ビデオ分類損失を伴うスニペットレベルの予測を最適化するローカライズ・バイ・クラス化パイプラインを採用している。 しかし、この定式化は分類と検出の相違に悩まされ、前景と背景(F\&B)スニペットの不正確な分離をもたらす。 この問題を軽減するために,ビデオ分類の損失に大きく依存するのではなく,教師なしスニペットクラスタリングを用いて,スニペットの基盤構造を検討することを提案する。 具体的には,クラスタリングに基づくF\&B分離アルゴリズムを提案する。 このコンポーネントは、スニペットを複数の潜在クラスタにグループ化するスニペットクラスタリングコンポーネントと、クラスタをフォアグラウンドまたはバックグラウンドとしてさらに分類するクラスタ分類コンポーネントの2つのコアコンポーネントで構成されている。 これら2つのコンポーネントを訓練するための基礎的なラベルが存在しないため、最適輸送に基づく統一的な自己ラベル機構を導入し、複数の既成分布に適合する高品質な擬似ラベルを生成する。 これにより、スニペットのクラスタ割り当てがF\&Bラベルと正確に関連付けられ、F\&B分離が促進される。 我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。 本手法は,従来の手法よりもはるかに軽量でありながら,3つのベンチマークで有望な性能を実現する。 コードはhttps://github.com/Qinying-Liu/CASEで入手できる。

Weakly-supervised temporal action localization aims to localize action instances in videos with only video-level action labels. Existing methods mainly embrace a localization-by-classification pipeline that optimizes the snippet-level prediction with a video classification loss. However, this formulation suffers from the discrepancy between classification and detection, resulting in inaccurate separation of foreground and background (F\&B) snippets. To alleviate this problem, we propose to explore the underlying structure among the snippets by resorting to unsupervised snippet clustering, rather than heavily relying on the video classification loss. Specifically, we propose a novel clustering-based F\&B separation algorithm. It comprises two core components: a snippet clustering component that groups the snippets into multiple latent clusters and a cluster classification component that further classifies the cluster as foreground or background. As there are no ground-truth labels to train these two components, we introduce a unified self-labeling mechanism based on optimal transport to produce high-quality pseudo-labels that match several plausible prior distributions. This ensures that the cluster assignments of the snippets can be accurately associated with their F\&B labels, thereby boosting the F\&B separation. We evaluate our method on three benchmarks: THUMOS14, ActivityNet v1.2 and v1.3. Our method achieves promising performance on all three benchmarks while being significantly more lightweight than previous methods. Code is available at https://github.com/Qinying-Liu/CASE
翻訳日:2023-12-22 13:28:58 公開日:2023-12-21
# 1ホールドープSU(3)$t$-$J$モデルにおけるサブ次元磁気ポーラロン

Sub-dimensional magnetic polarons in the one-hole doped SU(3) $t$-$J$ model ( http://arxiv.org/abs/2312.14137v1 )

ライセンス: Link先を確認
Henning Schl\"omer, Fabian Grusdt, Ulrich Schollw\"ock, Kaden R. A. Hazzard, Annabelle Bohrdt(参考訳) ドープモット絶縁体の物理は強相関材料の中心にあり、高温超伝導の必須成分であると考えられている。 高いsu(n)スピン対称性を持つ系では、よりリッチな磁気基底状態でさえ、su(2)スピンの場合に比べて1つの粒子の充填で現れるが、ドーピングにおけるそれらの運命はほとんど未解明である。 ここでは、su(3) $t$-$j$ モデルの1つの穴を調べることで、この問題に対処する。 密度行列再正規化群を用いて基底状態と力学特性の両方を解析することにより、配位された対角線に沿った1つの有効次元に動的に拘束されるチャーゴンとフレーバー欠陥からなる磁極の出現を確立する。 孔運動の経路を基本自由度とする幾何学的弦理論を用いて半解析的にシステムを記述する。 光学格子中の超低温原子を持つSU(N) Fermi-Hubbardモデルの実現と制御の最近の進歩により、我々は単一分解能の量子ガス顕微鏡で直接観察することができる。 本研究は, 対角線に沿って結合したルッティンガー液体からなる有限ドーピングにおける複雑な基底状態の出現を示唆し, 種々の測地上でのSU(N) フェルミ・ハバードモデルにおける物理の富を探索するための第一歩である。

The physics of doped Mott insulators is at the heart of strongly correlated materials and is believed to constitute an essential ingredient for high-temperature superconductivity. In systems with higher SU(N) spin symmetries, even richer magnetic ground states appear at a filling of one particle per site compared to the case of SU(2) spins, but their fate upon doping remains largely unexplored. Here we address this question by studying a single hole in the SU(3) $t$-$J$ model, whose undoped ground state features long-range, diagonal spin stripes. By analyzing both ground state and dynamical properties utilizing the density matrix renormalization group, we establish the appearence of magnetic polarons consisting of chargons and flavor defects, whose dynamics is constrained to a single effective dimension along the ordered diagonal. We semi-analytically describe the system using geometric string theory, where paths of hole motion are the fundamental degrees of freedom. With recent advances in the realization and control of SU(N) Fermi-Hubbard models with ultracold atoms in optical lattices, our results can directly be observed in quantum gas microscopes with single-site resolution. Our work suggests the appearance of intricate ground states at finite doping constituted by emergent, coupled Luttinger liquids along diagonals, and is a first step towards exploring a wealth of physics in doped SU(N) Fermi-Hubbard models on various geometries.
翻訳日:2023-12-22 13:28:32 公開日:2023-12-21
# 非凸型データのための高速カーネルハーフスペース深さ

Fast kernel half-space depth for data with non-convex supports ( http://arxiv.org/abs/2312.14136v1 )

ライセンス: Link先を確認
Arturo Castellanos, Pavlo Mozharovskyi, Florence d'Alch\'e-Buc, Hicham Janati(参考訳) データ深度(Data depth)は、順序と量子を多変量設定等に一般化する統計関数で、記述的および視覚的統計、異常検出、テストなどのアプリケーションにまたがる。 有名なハーフスペース深度は、不変性、ロバスト性、非パラメトリック性の特性を提供する最適化プログラムを介してデータ幾何を利用する。 それでも暗黙的に凸データのサポートを仮定し、指数計算コストを必要とする。 分布の多モード性に取り組むために、再生ケルネルヒルベルト空間(RKHS)におけるハーフスペース深さを拡張する。 得られた深度は直感的であり、均質性試験を可能にする証明可能な濃度境界との整合性を確立する。 提案する深さは, 半空間深度よりも数桁早く, 多様体勾配を用いて計算できる。 数値シミュレーションや, 実データにおける異常検出, 均一性試験などの応用により, 深度特性を実証した。

Data depth is a statistical function that generalizes order and quantiles to the multivariate setting and beyond, with applications spanning over descriptive and visual statistics, anomaly detection, testing, etc. The celebrated halfspace depth exploits data geometry via an optimization program to deliver properties of invariances, robustness, and non-parametricity. Nevertheless, it implicitly assumes convex data supports and requires exponential computational cost. To tackle distribution's multimodality, we extend the halfspace depth in a Reproducing Kernel Hilbert Space (RKHS). We show that the obtained depth is intuitive and establish its consistency with provable concentration bounds that allow for homogeneity testing. The proposed depth can be computed using manifold gradient making faster than halfspace depth by several orders of magnitude. The performance of our depth is demonstrated through numerical simulations as well as applications such as anomaly detection on real data and homogeneity testing.
翻訳日:2023-12-22 13:28:01 公開日:2023-12-21