このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231201となっている論文です。

PDF登録状況(公開日: 20231201)

TitleAuthorsAbstract論文公表日・翻訳日
# 2つのブロックチェーンによるリーンで機能的なデリバリ対支払いの提案

A Proposal for a Lean and Functional Delivery versus Payment across two Blockchains ( http://arxiv.org/abs/2311.05966v2 )

ライセンス: Link先を確認
Christian P. Fries, Peter Kohl-Landgraf, (参考訳) 2つのブロックチェーンにまたがるセキュアなデリバリ対コスト支払いを確立するための、リーンで機能的なトランザクションスキームを提案する。 a) 仲介が不要で、 b) 支払チェーン・支払システムの運用者は,オーバーヘッドが小さく,かつ,状態を保持する必要もない。 まず、決済チェーンオペレータは、秘密鍵でメッセージの復号を可能にするステートレス復号サービスをホストする。 次に、"Payment Contract"は、(トリガーベースの)支払いを処理する関数 transferAndDecrypt(uint id, address from, address to, string keyEncryptedSuccess, string keyEncryptedFail)を実装し、トランザクションの成功や失敗に応じて復号鍵を発行する支払いチェーンにデプロイされる。 それぞれのキーは、例えば買い手による配送を主張したり、売り手によるロックされた資産の回収など、関連するトランザクションをトリガーすることができる。

We propose a lean and functional transaction scheme to establish a secure delivery-versus-payment across two blockchains, where a) no intermediary is required and b) the operator of the payment chain/payment system has a small overhead and does not need to store state. The main idea comes with two requirements: First, the payment chain operator hosts a stateless decryption service that allows decrypting messages with his secret key. Second, a "Payment Contract" is deployed on the payment chain that implements a function transferAndDecrypt(uint id, address from, address to, string keyEncryptedSuccess, string keyEncryptedFail) that processes the (trigger-based) payment and emits the decrypted key depending on the success or failure of the transaction. The respective key can then trigger an associated transaction, e.g. claiming delivery by the buyer or re-claiming the locked asset by the seller.
翻訳日:2024-03-18 23:32:04 公開日:2023-12-01
# セミダイレクト製品によるグループリング上の誤り学習

Learning with Errors over Group Rings Constructed by Semi-direct Product ( http://arxiv.org/abs/2311.15868v2 )

ライセンス: Link先を確認
Jiaqi Liu, Fang-Wei Fu, (参考訳) LWE問題(Learning with Errors)は、長年にわたり多くの暗号ツールの基礎として広く利用されてきた。 本研究では,群環 LWE (GR-LWE) と呼ばれるLWE問題の代数的変種に着目した。 2つの巡回群の半直積を取ることによって構成される有限群の特定の族を下敷きにする群環(あるいはそれらの直和環)を選択する。 \cite{lyubashevsky2010ideal} で述べられている Ring-LWE 問題とは異なり、ここで考慮される群環の乗法演算は非可換である。 Ring-LWEの拡張として、計算硬度を維持し、多くの暗号シナリオに適用できる可能性がある。 本稿では,2つの多項式時間量子還元法を提案する。 まず,最短の独立ベクトル問題 (SIVP) から GR-LWE の探索版への多項式近似係数を持つ理想格子への量子化を提案する。 第二に、最悪のSIVP問題は(平均ケース)決定GR-LWE問題に直接還元される。 この削減によって保証されるGR-LWEサンプルの擬似ランダム性は、セマンティックにセキュアな公開鍵暗号システムを構築するために利用することができる。

The Learning with Errors (LWE) problem has been widely utilized as a foundation for numerous cryptographic tools over the years. In this study, we focus on an algebraic variant of the LWE problem called Group ring LWE (GR-LWE). We select group rings (or their direct summands) that underlie specific families of finite groups constructed by taking the semi-direct product of two cyclic groups. Unlike the Ring-LWE problem described in \cite{lyubashevsky2010ideal}, the multiplication operation in the group rings considered here is non-commutative. As an extension of Ring-LWE, it maintains computational hardness and can be potentially applied in many cryptographic scenarios. In this paper, we present two polynomial-time quantum reductions. Firstly, we provide a quantum reduction from the worst-case shortest independent vectors problem (SIVP) in ideal lattices with polynomial approximate factor to the search version of GR-LWE. This reduction requires that the underlying group ring possesses certain mild properties; Secondly, we present another quantum reduction for two types of group rings, where the worst-case SIVP problem is directly reduced to the (average-case) decision GR-LWE problem. The pseudorandomness of GR-LWE samples guaranteed by this reduction can be consequently leveraged to construct semantically secure public-key cryptosystems.
翻訳日:2024-03-18 15:42:08 公開日:2023-12-01
# 動的アルゴリズムによる分散型ディープフェイク検出ブロックチェーンネットワーク

Decentralized Deepfake Detection Blockchain Network using Dynamic Algorithm management ( http://arxiv.org/abs/2311.18545v2 )

ライセンス: Link先を確認
Dipankar Sarkar, (参考訳) ディープフェイク技術はデジタルメディアの完全性にとって大きな脅威である。 本稿では,デジタルコンテンツの完全性というエスカレートする課題に対処するために,ブロックチェーンベースの分散システムのための包括的フレームワークを提案する。 提案システムは、高度なディープラーニングアルゴリズムと、ブロックチェーン技術の不変かつ透明な性質を統合して、単一の集中的な権威に頼ることなく、信頼性を検証可能な信頼性のない環境を構築する。 さらに、動的アルゴリズム管理のためのスマートコントラクトとトークンベースのインセンティブを利用して、システムの有効性と適応性をさらに向上する。 システムの分散アーキテクチャは、デジタルコンテンツの検証プロセスを民主化し、ディープフェイクと戦う新しいアプローチを導入する。 このシステムのコラボレーティブで調整可能な性質は、デジタルメディアの完全性のための新しいベンチマークを設定し、より堅牢なデジタルメディア環境を提供する。

Deepfake technology is a major threat to the integrity of digital media. This paper presents a comprehensive framework for a blockchain-based decentralized system designed to tackle the escalating challenge of digital content integrity. The proposed system integrates advanced deep learning algorithms with the immutable and transparent nature of blockchain technology to create a trustless environment where authenticity can be verified without relying on a single centralized authority. Furthermore, the system utilizes smart contracts for dynamic algorithm management and token-based incentives further enhances the system's effectiveness and adaptability. The decentralized architecture of the system democratizes the process of verifying digital content and introduces a novel approach to combat deepfakes. The collaborative and adjustable nature of this system sets a new benchmark for digital media integrity, offering a more robust digital media environment.
翻訳日:2024-03-18 13:35:06 公開日:2023-12-01
# モノのインターネットのためのスケーラブルで軽量なポスト量子認証

Scalable and Lightweight Post-Quantum Authentication for Internet of Things ( http://arxiv.org/abs/2311.18674v2 )

ライセンス: Link先を確認
Attila A. Yavuz, Saleh Darzi, Saif E. Nouma, (参考訳) Internet of Things(IoT)アプリケーションは、長期の運用とセキュリティ要件を備えた機密データを収集する大量のリソース制限されたデバイスで構成されている。 新興量子コンピュータの脅威により、ポスト量子暗号(PQC)はIoTにとって重要な要件である。 特に、デジタルシグネチャは、非監査によるスケーラブルな認証を提供し、IoTにとって不可欠なツールである。 しかし、NIST PQCの標準化に見られるように、クォータ後のシグネチャはリソース制限のIoTにとって非常にコストがかかる。 したがって、IoTの処理、メモリ、帯域幅の制限を尊重する量子セーフシグネチャは、非常に必要である。 本稿では,インフィニティHORS(INF-HORS)と呼ばれる新しい軽量量子セーフデジタルシグネチャを作成した。 INF-HORSは、暗号化された関数評価を通じて、マスタ公開鍵からワンタイム公開鍵を非対話的に構築することを可能にする。 この戦略は、ハイパーツリー構造を排除し、ハッシュベースの標準(例えば、SPHINCS+)のパフォーマンスボトルネックを回避する。 また、公開鍵を配布するために、信頼できるパーティや非コラボレートサーバも必要としない。 性能解析の結果,INF-HORS は選択した NIST PQC スキーム (SPHINCS+, Dilithium, Falcon など) よりもメモリフットプリントの少ないシグナー計算の桁違いであることがわかった。

Internet of Things (IoT) applications are composed of massive quantities of resource-limited devices that collect sensitive data with long-term operational and security requirements. With the threat of emerging quantum computers, Post-Quantum Cryptography (PQC) is a critical requirement for IoTs. In particular, digital signatures offer scalable authentication with non-repudiation and are an essential tool for IoTs. However, as seen in NIST PQC standardization, post-quantum signatures are extremely costly for resource-limited IoTs. Hence, there is a significant need for quantum-safe signatures that respect the processing, memory, and bandwidth limitations of IoTs. In this paper, we created a new lightweight quantum-safe digital signature referred to as INFinity-HORS (INF-HORS), which is (to the best of our knowledge) the first signer-optimal hash-based signature with (polynomially) unbounded signing capability. INF-HORS enables a verifier to non-interactively construct one-time public keys from a master public key via encrypted function evaluations. This strategy avoids the performance bottleneck of hash-based standards (e.g., SPHINCS+) by eliminating hyper-tree structures. It also does not require a trusted party or non-colliding servers to distribute public keys. Our performance analysis confirms that INF-HORS is magnitudes of times more signer computation efficient than selected NIST PQC schemes (e.g., SPHINCS+, Dilithium, Falcon) with a small memory footprint.
翻訳日:2024-03-18 13:35:06 公開日:2023-12-01
# Web3.0のためのスケールアウト分散型ブロックチェーンレジャーシステム

A Scale-out Decentralized Blockchain Ledger System for Web3.0 ( http://arxiv.org/abs/2312.00281v1 )

ライセンス: Link先を確認
Lide Xue, Wei Yang, Wei Li, (参考訳) システムのセキュリティと分散化を損なうことなく、システムのパフォーマンスを向上し、ノードのさまざまなコスト(通信、ストレージ、検証など)を削減する方法。 様々なレイヤ-1とレイヤ-2プロトコルがこの課題に対して優れた解決策を提供してきた。 しかしながら、これらはまだ '`silver bullet' とは考えられていない。この記事では、EZchain -- web3.0用に設計された、新しい分散化された ‘ ‘ ‘scale-out' 台帳システムを提案する。ブロックチェーン技術が、大規模な完全に分散化されたネットワークで台帳アプリケーションを真にサポートできるようにすることを目的としている。 セキュリティと分散化を妥協することなく、EZchainは以下のマイルストーンを達成しました。 1)拡張性: EZchainの理論的スループットは無限に拡張でき、帯域幅や他のリソース制約の影響を受けない。 2) コンシューマグレードハードウェア互換性: EZchainは、コンシューマグレードハードウェアと互換性があり、ストレージ、計算、検証要件をサポートするように設計されている。 3) 効率的なトランザクション確認: EZchainはトランザクション確認の遅れを1分以内に維持しようと努力しています。 筆者らの試行実験では,日常的な帯域幅ネットワーク条件下では,集中型決済システムにおいて,すべての面におけるEZchainの性能が口座に接近していることが実証された。 これにより、Web3.0でモバイル支払いを実現するためのしっかりとしたインフラが提供される。

The development of underlying technologies in blockchain mostly revolves around a difficult problem: how to enhance the performance of the system and reduce various costs of nodes (such as communication, storage and verification) without compromising the system's security and decentralization. Various layer-1 and layer-2 protocols have provided excellent solutions for this challenge. However, they cannot yet be considered as a ``silver bullet". This paper proposes EZchain -- a novel decentralized ``scale-out" ledger system designed for web3.0, aiming to enable blockchain technology to truly support ledger applications in large-scale fully decentralized networks. Without compromising security and decentralization, EZchain successfully accomplishes the following milestones: 1) Scalability: The theoretical throughput of EZchain can be infinitely expanded, nearly unaffected by bandwidth and other resource constraints. 2) Consumer-Grade Hardware Compatibility: EZchain is designed to be compatible with consumer-grade hardware, supporting storage, computation, and verification requirements. 3) Efficient Transaction Confirmation: EZchain strives to maintain transaction confirmation delays within one minute. Our prototype experiment demonstrates that under typical daily bandwidth network conditions, EZchain's performance in all aspects approaches that of the accounts in centralized payment systems. This provides a solid infrastructure for realizing mobile payments in web3.0.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# スマートコントラクト脆弱性のランドスケープを解明する:著名なブロックチェーンにおける脆弱性の詳細な検証とコード化

Unveiling the Landscape of Smart Contract Vulnerabilities: A Detailed Examination and Codification of Vulnerabilities in Prominent Blockchains ( http://arxiv.org/abs/2312.00499v1 )

ライセンス: Link先を確認
Oualid Zaazaa, Hanan El Bakkali, (参考訳) 分散化されたアプリケーションを構築するために、未成熟のスマートコントラクトプログラミング言語の使用が増加し、ブロックチェーンにより多くの脆弱性が導入された。 さらに、ブロックチェーン技術の不変性により、デプロイされたスマートコントラクトは、ブロックチェーン自体の生涯にわたって修正不能になる。 これらの脆弱性を詳細に説明した、完全かつ最新のリソースの欠如は、ブロックチェーンの脆弱性の数の増加にも寄与している。 さらに、既存の脆弱性の標準化された指名の欠如により、冗長な調査が行われ、開発者は混乱を深めた。 そこで本稿では,最も一般的なブロックチェーンに存在するスマートコントラクトの脆弱性の完全なリストを,それぞれについて詳細な説明とともに提案する。 さらに,開発者と研究者間の脆弱性のコミュニケーションを容易にする新しい体系化システムを提案する。 この体系化は、将来の研究に注目する最も未発見の脆弱性を特定するのに役立つ。 さらに、議論された脆弱性のリストは複数のBlockchainをカバーしており、将来的に構築されるBlockchainにも使用することができる。

With the rise in using immature smart contract programming languages to build a decentralized application, more vulnerabilities have been introduced to the Blockchain and were the main reasons behind critical financial losses. Moreover, the immutability of Blockchain technology makes deployed smart contracts unfixable for the whole life of the Blockchain itself. The lack of complete and up-to-date resources that explain those vulnerabilities in detail has also contributed to increasing the number of vulnerabilities in Blockchain. In addition, the lack of a standardized nomination of the existing vulnerabilities has made redundant research and made developers more confused. Therefore, in this paper, we propose the most complete list of smart contract vulnerabilities that exist in the most popular Blockchains with a detailed explanation of each one of them. In addition, we propose a new codification system that facilitates the communication of those vulnerabilities between developers and researchers. This codification, help identify the most uncovered vulnerabilities to focus on in future research. Moreover, the discussed list of vulnerabilities covers multiple Blockchain and could be used for even future built Blockchains.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# テキスト/プレーンの視界に隠れる:Tor Onion Servicesのセキュリティ防衛

Hiding in text/plain sight: Security defences of Tor Onion Services ( http://arxiv.org/abs/2312.00545v1 )

ライセンス: Link先を確認
Q Misell, (参考訳) Tor Onion Servicesは、ウェブサイトやその他のインターネットサービスを匿名でホストする方法である。 オニオンサービスは、インターネット検閲を回避し、抑圧的な体制のユーザーに情報サービスを提供するためにしばしば使用される。 本稿では,これらのオニオンサービスに配備されたセキュリティ防衛について分析する。 Onion Servicesは、クリアなWebサイトよりもセキュリティポリシーが優れている。 しかし、HTTPSの展開は遅れており、これらのサービスのユーザのセキュリティを確保するための鍵となる防御だ。

Tor Onion Services are a way to host websites and other internet services anonymously. Onion Services are often used to bypass internet censorship and provide information services to users in oppressive regimes. This paper presents an analysis of the security defences deployed on these Onion Services. Onion Services tend to have better security policy than sites on the clear web. However they lag behind in the deployment of HTTPS, a key defence to ensuring the security of users of such services.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# Honeybucketsを使って野生のクラウドストレージスキャンを特徴付ける

Using Honeybuckets to Characterize Cloud Storage Scanning in the Wild ( http://arxiv.org/abs/2312.00580v1 )

ライセンス: Link先を確認
Katherine Izhikevich, Geoff Voelker, Stefan Savage, Liz Izhikevich, (参考訳) 本研究では,アクターが攻撃対象とするクラウドストレージバケットの安全性の低さを解析する。 私たちは、異なる名前とコンテンツを持つ何百ものAWS S3ハニーバケットをデプロイして、異なるスキャン戦略を誘惑し、測定しました。 アクターは、組織、特に脆弱性開示プログラムを持つ技術セクターの商業組織に属するように見えるバケツをスキャンすることを明らかに好んだ。 アクターはファイルをダウンロード、アップロード、削除することでバケットの内容に継続的に関与する。 最も心配なのは、悪意のあるアクターが私たちのハニーバケットからドキュメントをダウンロードし、読み、理解した複数の事例を記録し、彼らは無許可のサーバーアクセスを得ようとしました。

In this work, we analyze to what extent actors target poorly-secured cloud storage buckets for attack. We deployed hundreds of AWS S3 honeybuckets with different names and content to lure and measure different scanning strategies. Actors exhibited clear preferences for scanning buckets that appeared to belong to organizations, especially commercial entities in the technology sector with a vulnerability disclosure program. Actors continuously engaged with the content of buckets by downloading, uploading, and deleting files. Most alarmingly, we recorded multiple instances in which malicious actors downloaded, read, and understood a document from our honeybucket, leading them to attempt to gain unauthorized server access.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# アビオニクスシステムにおけるブロックチェーン技術の適用性

Applicability of Blockchain Technology in Avionics Systems ( http://arxiv.org/abs/2312.00681v1 )

ライセンス: Link先を確認
Harun Celik, Aysenur Sayil, (参考訳) ブロックチェーン技術は、最近の研究によって証明された、急速に広まり、優位性の中で、様々な航空問題を解くための情報ツールとしても利用することができる。 航空エレクトロニクス(ビオニクス)システムは、航空問題の解決や航空機に異なる能力を提供するための情報工学手法の適用分野として際立っている。 アビオニクスシステム(Avionics system)は、航空機や宇宙車両において、監視、航法、通信など多くの目的で使用される電子システムである。 本研究では,アビオニクスシステム開発における新たなアプローチとしてのブロックチェーン技術の適用性について論じ,電子飛行システムにおける従来実装されていた応用に触発されて,新しいアビオニクスシステム設計におけるブロックチェーン技術の適用性を評価する手法を提案する。 特に基本的なサービス、通信、ナビゲーション、飛行管理システムにおける問題を解決するブロックチェーンの可能性、この技術のどの応用が信頼できるソリューションになるかという問題構造、そしてアビオニクスシステムにおけるその利用の優位性と劣性について説明する。 航空技術者や専門家がアビオニクスシステムにブロックチェーンを適用する決定を下すためのガイドペーパーが提案されている。

Blockchain technology, within its fast widespread and superiority demonstrated by recent studies, can be also used as an informatic tool for solving various aviation problems. Aviation electronics (avionics) systems stand out as the application area of informatics methods in solving aviation problems or providing different capabilities to aircrafts. Avionics systems are electronic systems used in air and space vehicles for many purposes such as surveillance, navigation and communication. In this study, the applicability of blockchain technology as a new approach in the development of avionics systems is discussed, and in this regard, a method inspired by the previously implemented applications in electronic flight systems is proposed to help evaluate the applicability of this technology in new avionics system designs. The potential of blockchain for solving the problems especially in basic services, communication, navigation and flight management systems; the problem structures for which application of this technology would be a reliable solution; and the superiority and inferiority of its use in avionic systems are explained. A guiding paper is proposed for aviation engineers/experts to make a decision on applying blockchain into avionics systems.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# IoTおよびユビキタスコンピューティングデバイスにおけるサイバー攻撃の分類

Classification of cyber attacks on IoT and ubiquitous computing devices ( http://arxiv.org/abs/2312.00686v1 )

ライセンス: Link先を確認
Monika Freunek, Alexandra Rombos, (参考訳) IoT(Internet of Things)が真にユビキタスになったことで、周囲の脅威の風景も生まれました。 しかし、古典的なコンピューティングシステムのセキュリティはここ数十年で著しく成熟しているが、IoTサイバーセキュリティは一般的に依然として低いか完全に無視されている。 本稿ではIoTマルウェアの分類について述べる。 攻撃の主要なターゲットと使用済みのエクスプロイトが特定され、特定のマルウェアを参照される。 IoTデバイスの標準的な定義が欠如しているため、この調査ではセキュリティ目標がIoTサイバーセキュリティを前進させる大きな障壁として認識されている。 さらに、現場では信頼できるソースによるIoTマルウェアの報告の標準化が求められている。 現在のIoT攻撃の大部分は、相容れない低い労力と高度なレベルであり、既存の技術的措置によって緩和される可能性がある。

As the Internet of Things (IoT) has become truly ubiquitous, so has the surrounding threat landscape. However, while the security of classical computing systems has significantly matured in the last decades, IoT cybersecurity is still typically low or fully neglected. This paper provides a classification of IoT malware. Major targets and used exploits for attacks are identified and referred to the specific malware. The lack of standard definitions of IoT devices and, therefore, security goals has been identified during this research as a profound barrier in advancing IoT cybersecurity. Furthermore, standardized reporting of IoT malware by trustworthy sources is required in the field. The majority of current IoT attacks continue to be of comparably low effort and level of sophistication and could be mitigated by existing technical measures.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# WebAssemblyとTEEを使った信頼できる分散システムのための全体論的アプローチ

A Holistic Approach for Trustworthy Distributed Systems with WebAssembly and TEEs ( http://arxiv.org/abs/2312.00702v1 )

ライセンス: Link先を確認
Jämes Ménétrey, Aeneas Grüter, Peterson Yuhala, Julius Oeftiger, Pascal Felber, Marcelo Pasin, Valerio Schiavoni, (参考訳) パブリッシュ/サブスクライブシステムは、分散アーキテクチャと大規模アーキテクチャにおける多数のデバイス間の通信を可能にする上で重要な役割を果たしている。 広く採用されているが、そのようなシステムを確保することは、しばしばポータビリティと追加の完全性と証明の保証とを交換する。 Trusted Execution Environments (TEEs) は、セキュリティと信頼を高めるためのエンクレーブによる潜在的なソリューションを提供する。 しかし、TEEのアプリケーション開発は複雑で、多くの既存のソリューションは特定のTEEアーキテクチャに結びついており、適応性を制限する。 現在の通信プロトコルは、認証証明を不十分に管理したり、必須の認証情報を公開したりする。 本稿では,これらの問題にWebAssemblyを使って対処する,新たなアプローチを提案する。 本稿では,様々なシステム間での信頼性と分散通信のための総合的アプローチとして,ポータブルで十分に検証されたパブリッシュ/サブスクライブミドルウェアシステムの設計を提案する。 この提案に基づいて、私たちは、Intel SGX内で実行され、WebAssemblyでコンパイルされ、業界で運用されるフレームワークと標準、すなわちMQTTとTLSプロトコルの上に構築された、本格的なパブリッシュ/サブスクライブブローカを、詳細に実装し、評価しました。 我々の拡張TLSプロトコルは、証明情報のプライバシーを保護している。 実験の結果,信頼性の高いブローカを使用すると,メッセージスループットが1.55倍に低下することが明らかとなった。 我々は,実験再現性を促進するために,この研究の貢献を研究コミュニティにオープンソース化する。

Publish/subscribe systems play a key role in enabling communication between numerous devices in distributed and large-scale architectures. While widely adopted, securing such systems often trades portability for additional integrity and attestation guarantees. Trusted Execution Environments (TEEs) offer a potential solution with enclaves to enhance security and trust. However, application development for TEEs is complex, and many existing solutions are tied to specific TEE architectures, limiting adaptability. Current communication protocols also inadequately manage attestation proofs or expose essential attestation information. This paper introduces a novel approach using WebAssembly to address these issues, a key enabling technology nowadays capturing academia and industry attention. We present the design of a portable and fully attested publish/subscribe middleware system as a holistic approach for trustworthy and distributed communication between various systems. Based on this proposal, we have implemented and evaluated in-depth a fully-fledged publish/subscribe broker running within Intel SGX, compiled in WebAssembly, and built on top of industry-battled frameworks and standards, i.e., MQTT and TLS protocols. Our extended TLS protocol preserves the privacy of attestation information, among other benefits. Our experimental results showcase most overheads, revealing a 1.55x decrease in message throughput when using a trusted broker. We open-source the contributions of this work to the research community to facilitate experimental reproducibility.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# Zipr: 高速でロバスト、オープンソース、マルチプラットフォーム、静的バイナリリライタ

Zipr: A High-Impact, Robust, Open-source, Multi-platform, Static Binary Rewriter ( http://arxiv.org/abs/2312.00714v1 )

ライセンス: Link先を確認
Jason D. Hiser, Anh Nguyen-Tuong, Jack W. Davidson, (参考訳) Ziprは静的バイナリ書き換えツールで、2016年に初めて公開された。 Ziprは、セキュリティ強化とインスツルメンテーションを実行するためのオーバーヘッド、堅牢性、柔軟性に重点を置いて、任意のプログラム修正をサポートするために設計された。 当初、Linux x86-32バイナリをターゲットにしていたが、ZiprはX86、ARM、MIPSアーキテクチャ用の32ビットと64ビットのバイナリをサポートし、Windowsプログラムの予備サポートもサポートした。 これらの機能はZiprの研究に劇的な影響を与えた。 DARPA Cyber Grand Challenge(DARPAサイバーグランドチャレンジ)で最初に使用されたのは、参加者のセキュリティスコアで2位だった。 Ziprはまた、人工知能の多様性、プログラムのインスツルメンテーション、プログラムの修復、ファジング、自動運転車のセキュリティ、研究コンピューティングのセキュリティ、そして2人の学生の論文に直接貢献している。 オープンソースのリポジトリは、いくつかの外部の著者から受け入れられたパッチを受け入れ、Ziprがオリジナルの著者よりも影響を実証している。

Zipr is a tool for static binary rewriting, first published in 2016. Zipr was engineered to support arbitrary program modification with an emphasis on low overhead, robustness, and flexibility to perform security enhancements and instrumentation. Originally targeted to Linux x86-32 binaries, Zipr now supports 32- and 64-bit binaries for X86, ARM, and MIPS architectures, as well as preliminary support for Windows programs. These features have helped Zipr make a dramatic impact on research. It was first used in the DARPA Cyber Grand Challenge to take second place overall, with the best security score of any participant, Zipr has now been used in a variety of research areas by both the original authors as well as third parties. Zipr has also led to publications in artificial diversity, program instrumentation, program repair, fuzzing, autonomous vehicle security, research computing security, as well as directly contributing to two student dissertations. The open-source repository has accepted accepted patches from several external authors, demonstrating the impact of Zipr beyond the original authors.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# Crystal:Quorum Certificateによるブロックチェーンマイニングの透明性向上

Crystal: Enhancing Blockchain Mining Transparency with Quorum Certificate ( http://arxiv.org/abs/2312.00741v1 )

ライセンス: Link先を確認
Jianyu Niu, Fangyu Gai, Runchao Han, Ren Zhang, Yinqian Zhang, Chen Feng, (参考訳) 研究者たちはビットコインのナカモト・コンセンサスに対する一連の理論的攻撃を発見しました。 これらの攻撃には1つの共通の原因がある。 本稿では,クォーラム証明書を利用してブロックの動作に抵抗するCrystalを提案する。 クリスタルは鉱山労働者から委員会を連続的に選出し、各ブロックにクォーラム証明書、すなわち委員会のメンバーが発行する署名のセットを持つことを要求する。 その結果、攻撃者はクォーラム証明書を取得するためにブロックをパブリッシュしなければなりません。 Crystalを構築するために、Sybil-resistant, unpredictable and non-interactive wayで新しい2ラウンドの委員会選挙を設計し、マイナーにプロトコルに従うインセンティブを与える報奨機構を設計する。 分析と評価の結果,Crystalは自家用地雷や二重投射攻撃を著しく軽減できることがわかった。 例えば、Bitcoinでは、総計算能力の30%の攻撃者が6確認ルールを破る確率が15.6%の二重攻撃に成功するが、Crystalでは、同じ攻撃が成功する確率は0.62%に低下する。 我々は、Crystalのエンド・ツー・エンドの安全証明を正式に提供し、未知の攻撃が導入されないことを保証します。 私たちの知る限りでは、Crystalは、安全証明を提供しながら、利己的なマイニングと二重攻撃を防ぐ最初のプロトコルです。

Researchers have discovered a series of theoretical attacks against Bitcoin's Nakamoto consensus; the most damaging ones are selfish mining, double-spending, and consistency delay attacks. These attacks have one common cause: block withholding. This paper proposes Crystal, which leverages quorum certificates to resist block withholding misbehavior. Crystal continuously elects committees from miners and requires each block to have a quorum certificate, i.e., a set of signatures issued by members of its committee. Consequently, an attacker has to publish its blocks to obtain quorum certificates, rendering block withholding impossible. To build Crystal, we design a novel two-round committee election in a Sybil-resistant, unpredictable and non-interactive way, and a reward mechanism to incentivize miners to follow the protocol. Our analysis and evaluations show that Crystal can significantly mitigate selfish mining and double-spending attacks. For example, in Bitcoin, an attacker with 30% of the total computation power will succeed in double-spending attacks with a probability of 15.6% to break the 6-confirmation rule; however, in Crystal, the success probability for the same attacker falls to 0.62%. We provide formal end-to-end safety proofs for Crystal, ensuring no unknown attacks will be introduced. To the best of our knowledge, Crystal is the first protocol that prevents selfish mining and double-spending attacks while providing safety proof.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# Sparse LPN から LPN, Dual Attack 3.0 への移行

Reduction from sparse LPN to LPN, Dual Attack 3.0 ( http://arxiv.org/abs/2312.00747v1 )

ライセンス: Link先を確認
Kévin Carrier, Thomas Debris-Alazard, Charles Meyer-Hilfiger, Jean-Pierre Tillich, (参考訳) コードベースの暗号のセキュリティは、主にジェネリックリニアコードの復号化の難しさに依存している。 ごく最近まで、デコード問題を解決する最良のアルゴリズムは情報セットデコーダ(ISD)であった。 しかし、最近、全く異なるアプローチに依存したRLPN復号法と呼ばれる新しいアルゴリズムを導入し、かなり広い範囲のICD復号器よりも高い性能を示した。 このLPNデコーダは2つの要素に依存しており、最初は根底にあるLPN問題にデコーディングを還元し、次にいくつかの位置に制限された場合、多くのパリティチェックを効率的に計算する。 我々は、このアルゴリズムでは、復号化がスパースLPN問題(すなわちハミング重みが小さい秘密)に還元されることに気づき、LPN復号化を再考する。 我々の新しいアプローチは、coded-BKWにインスパイアされたコーディングアプローチにより、スパースLPNからプレーンLPNへのさらなる削減を図っている。 コードレートが 0.42 より小さい場合、ISD と RLPN を著しく上回っている。 このアルゴリズムは、格子ベースの暗号における最近の二重攻撃の従兄弟であるコードベース暗号と見なすことができる。 我々は、最近後者の領域で強く疑問視されている、ある種の独立性の仮定を使用する、この種のアルゴリズムの伝統的な分析から完全に離れている。 代わりに、ある重み分布の分析にのみ依存してアルゴリズムの挙動を分析することができる双対性に依存するLPNの雑音に対する公式を与える。 妥当性を実験的に検証した最小限の仮定のみを使用することで、アルゴリズムの正しさを正当化することができる。 この鍵となるツール、すなわち双対式は格子設定に容易に適用でき、[DP23]における格子の二重攻撃で観測されたいくつかの現象の簡単な説明を与える。

The security of code-based cryptography relies primarily on the hardness of decoding generic linear codes. Until very recently, all the best algorithms for solving the decoding problem were information set decoders (ISD). However, recently a new algorithm called RLPN-decoding which relies on a completely different approach was introduced and it has been shown that RLPN outperforms significantly ISD decoders for a rather large range of rates. This RLPN decoder relies on two ingredients, first reducing decoding to some underlying LPN problem, and then computing efficiently many parity-checks of small weight when restricted to some positions. We revisit RLPN-decoding by noticing that, in this algorithm, decoding is in fact reduced to a sparse-LPN problem, namely with a secret whose Hamming weight is small. Our new approach consists this time in making an additional reduction from sparse-LPN to plain-LPN with a coding approach inspired by coded-BKW. It outperforms significantly the ISD's and RLPN for code rates smaller than 0.42. This algorithm can be viewed as the code-based cryptography cousin of recent dual attacks in lattice-based cryptography. We depart completely from the traditional analysis of this kind of algorithm which uses a certain number of independence assumptions that have been strongly questioned recently in the latter domain. We give instead a formula for the LPNs noise relying on duality which allows to analyze the behavior of the algorithm by relying only on the analysis of a certain weight distribution. By using only a minimal assumption whose validity has been verified experimentally we are able to justify the correctness of our algorithm. This key tool, namely the duality formula, can be readily adapted to the lattice setting and is shown to give a simple explanation for some phenomena observed on dual attacks in lattices in [DP23].
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# RF解析のためのメムリスタ型機械学習加速器のセキュリティ問題調査

Survey of Security Issues in Memristor-based Machine Learning Accelerators for RF Analysis ( http://arxiv.org/abs/2312.00942v1 )

ライセンス: Link先を確認
William Lillis, Max Cohen Hoffing, Wayne Burleson, (参考訳) 本稿では,新しいメムリスタと従来の複合金属酸化物半導体(CMOS)を組み合わせて,特に無線周波数(RF)信号の機械学習(ML)推論プロセッサに適した,高効率なアナログおよび/またはデジタルファブリックを構築する,新たなコンピューティングパラダイムのセキュリティ面について検討する。 Memristorは従来のCMOSとは異なる特性を持ち、攻撃者によって悪用される可能性がある。 さらに、混合信号近似計算モデルには、従来のデジタル実装とは異なる脆弱性がある。 しかし、memristorとML計算の両方を利用して、軽量暗号、識別子(PUF(Physically Unclonable Function)、指紋、透かしなど)、エントロピーソース、ハードウェア難読化、リーク/アタック検出方法など、セキュリティメカニズムと対策を作成することができる。 3つの異なる脅威モデルが提案されている。 1)サプライチェーン 2)身体的攻撃、及び 3)遠隔攻撃。 各脅威モデルについて、潜在的な脆弱性と防御が特定される。 この調査は、ハードウェアとMLのセキュリティ文献からのさまざまな研究をレビューし、攻撃と防御の両方にオープンな問題を提案する。 この調査は、軍事的応用や脅威モデルと同様に、商業空間におけるRF信号の分析と識別の領域の増大を強調している。 我々は、一般の機械学習をターゲットにした他の調査と異なり、RFアプリケーションを無視している。

We explore security aspects of a new computing paradigm that combines novel memristors and traditional Complimentary Metal Oxide Semiconductor (CMOS) to construct a highly efficient analog and/or digital fabric that is especially well-suited to Machine Learning (ML) inference processors for Radio Frequency (RF) signals. Memristors have different properties than traditional CMOS which can potentially be exploited by attackers. In addition, the mixed signal approximate computing model has different vulnerabilities than traditional digital implementations. However both the memristor and the ML computation can be leveraged to create security mechanisms and countermeasures ranging from lightweight cryptography, identifiers (e.g. Physically Unclonable Functions (PUFs), fingerprints, and watermarks), entropy sources, hardware obfuscation and leakage/attack detection methods. Three different threat models are proposed: 1) Supply Chain, 2) Physical Attacks, and 3) Remote Attacks. For each threat model, potential vulnerabilities and defenses are identified. This survey reviews a variety of recent work from the hardware and ML security literature and proposes open problems for both attack and defense. The survey emphasizes the growing area of RF signal analysis and identification in terms of the commercial space, as well as military applications and threat models. We differ from other other recent surveys that target ML in general, neglecting RF applications.
翻訳日:2024-03-18 13:25:19 公開日:2023-12-01
# DNSセキュリティとプライバシの進化

The Evolution of DNS Security and Privacy ( http://arxiv.org/abs/2312.04577v1 )

ライセンス: Link先を確認
Levente Csikor, Dinil Mon Divakaran, (参考訳) TCP/IPスタックの基本的なプロトコルの1つであるDNSは、脅威や攻撃から保護するために、長年にわたって進化してきた。 本研究は,DNSに関連するリスクを調査し,ユーザプライバシ保護を図りながら,DNSエコシステムを様々な攻撃に対して耐性のあるものにするための最近の進歩について検討する。

DNS, one of the fundamental protocols of the TCP/IP stack, has evolved over the years to protect against threats and attacks. This study examines the risks associated with DNS and explores recent advancements that contribute towards making the DNS ecosystem resilient against various attacks while safeguarding user privacy.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-01
# 有限鍵解析による1002kmツインフィールド量子鍵分布

1002 km Twin-Field Quantum Key Distribution with Finite-Key Analysis ( http://arxiv.org/abs/2402.00005v1 )

ライセンス: Link先を確認
Yang Liu, Wei-Jun Zhang, Cong Jiang, Jiu-Peng Chen, Di Ma, Chi Zhang, Wen-Xin Pan, Hao Dong, Jia-Min Xiong, Cheng-Jun Zhang, Hao Li, Rui-Chun Wang, Chao-Yang Lu, Jun Wu, Teng-Yun Chen, Lixing You, Xiang-Bin Wang, Qiang Zhang, and Jian-Wei Pan(参考訳) 量子鍵分布(qkd)は、長距離に安全な鍵を確立する可能性を秘めている。 ポイントツーポイントQKDセキュア鍵分布の距離は、チャネル固有の伝送損失によって主に阻害される。 大規模量子ネットワークの実現を目指して、現在の技術の下でのQKD距離の増大は大きな研究課題である。 ここでは,3-intensity send-or-not-sending twin-field QKD (TF-QKD) プロトコルを,アクティブオードパリティペアリング方式で採用する。 この実験は、有限サイズ効果を考慮した1002kmのファイバーチャネル上でのセキュアQKDの実現可能性を示す。 安全な鍵レートは、この距離でパルスあたり3.11\times10^{-12}$である。 さらに,短繊維距離のパラメータを最適化することにより,202kmから505kmまでの繊維長の鍵分布に関する性能試験を行った。 特に、主要都市間の通常の距離である202kmの安全なキーレートは111.74 kbpsに達した。

Quantum key distribution (QKD) holds the potential to establish secure keys over long distances. The distance of point-to-point QKD secure key distribution is primarily impeded by the transmission loss inherent to the channel. In the quest to realize a large-scale quantum network, increasing the QKD distance under current technology is of great research interest. Here we adopt the 3-intensity sending-or-not-sending twin-field QKD (TF-QKD) protocol with the actively-odd-parity-pairing method. The experiment demonstrates the feasibility of secure QKD over a 1002 km fibre channel considering the finite size effect. The secure key rate is $3.11\times10^{-12}$ per pulse at this distance. Furthermore, by optimizing parameters for shorter fiber distances, we conducted performance tests on key distribution for fiber lengths ranging from 202 km to 505 km. Notably, the secure key rate for the 202 km, the normal distance between major cities, reached 111.74 kbps.
翻訳日:2024-02-11 17:26:38 公開日:2023-12-01
# Minuet: GPU上での3Dスパース変換の高速化

Minuet: Accelerating 3D Sparse Convolutions on GPUs ( http://arxiv.org/abs/2401.06145v1 )

ライセンス: Link先を確認
Jiacheng Yang, Christina Giannoula, Jun Wu, Mostafa Elhoushi, James Gleeson, Gennady Pekhimenko(参考訳) スパース畳み込み(sc)は、本質的にスパースである3dポイントクラウドを処理するために広く使われている。 密度の強い畳み込みとは異なり、SCは特定の場所への出力のみを許すことで入力点雲の間隔を保存する。 SCを効率的に計算するために、以前のSCエンジンはまずハッシュテーブルを使用して、実行すべきGEMM(General Matrix Multiplication)操作を格納するカーネルマップを構築し、その後、Gether-GEMM-Scatterプロセスを使用してこれらのGEMM操作を実行する(GMaSステップ)。 本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。 Minuetが提案する i) Map ステップで使用されるハッシュテーブルを,GPU のオンチップメモリ階層を高い精度で活用する,新しいセグメント化ソート二重トラバース探索アルゴリズムに置き換える。 2) GMaS ステップの Gather および Scatter 操作において,各 SC 層,データセット,GPU アーキテクチャの特定の特性に実行を適応するように,タイルサイズを自動的に調整する軽量なスキームを使用すること。 (iii) メモリパディングとカーネル起動オーバーヘッドを削減できるパディング効率のよいGEMMグループ化方式を採用する。 当社の評価によると、minuetは、エンドツーエンドのクラウドネットワークの実行に対して平均1.74\times$(最大2.22\times$)で、以前のscエンジンを大きく上回っている。 本アルゴリズムでは,マップステップの以前のSCエンジンよりも平均15.8\times$(最大26.8\times$)の高速化を実現している。 minuetのソースコードはhttps://github.com/uoft-ecosystem/minuetで公開されている。

Sparse Convolution (SC) is widely used for processing 3D point clouds that are inherently sparse. Different from dense convolution, SC preserves the sparsity of the input point cloud by only allowing outputs to specific locations. To efficiently compute SC, prior SC engines first use hash tables to build a kernel map that stores the necessary General Matrix Multiplication (GEMM) operations to be executed (Map step), and then use a Gather-GEMM-Scatter process to execute these GEMM operations (GMaS step). In this work, we analyze the shortcomings of prior state-of-the-art SC engines, and propose Minuet, a novel memory-efficient SC engine tailored for modern GPUs. Minuet proposes to (i) replace the hash tables used in the Map step with a novel segmented sorting double-traversed binary search algorithm that highly utilizes the on-chip memory hierarchy of GPUs, (ii) use a lightweight scheme to autotune the tile size in the Gather and Scatter operations of the GMaS step, such that to adapt the execution to the particular characteristics of each SC layer, dataset, and GPU architecture, and (iii) employ a padding-efficient GEMM grouping approach that reduces both memory padding and kernel launching overheads. Our evaluations show that Minuet significantly outperforms prior SC engines by on average $1.74\times$ (up to $2.22\times$) for end-to-end point cloud network executions. Our novel segmented sorting double-traversed binary search algorithm achieves superior speedups by $15.8\times$ on average (up to $26.8\times$) over prior SC engines in the Map step. The source code of Minuet is publicly available at https://github.com/UofT-EcoSystem/Minuet.
翻訳日:2024-01-22 13:05:20 公開日:2023-12-01
# ナレッジグラフを用いた質問応答のための意味セグメンテーションに基づく意味解析

Semantic Segment Based Semantic Parsing for Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2401.06772v1 )

ライセンス: Link先を確認
Sijia Wei, Wenwen Zhang, Qisong Li, Jiang Zhao(参考訳) 本稿では,知識グラフに対する質問応答のための「グラフ・ツー・セグメント(graph-to-segment)」という新しい手法を提案する。 この手法は、これらの発話を解釈するための重要なアプローチである意味解析に焦点を当てている。 私たちの主な課題は、暗黙の実体、関係、時間、順序性、質問内の集約といった複雑な制約を理解することです。 本フレームワークはルールベースとニューラルベースを組み合わせて,高精度で包括的なセマンティックセグメント配列を解析・構築する。 これらのシーケンスはセマンティッククエリグラフを形成し、質問発話を効果的に表現する。 我々は,エンコーダ・デコーダニューラルネットワークを用いて,シーケンス生成タスクとして質問意味解析にアプローチし,自然言語質問を意味セグメントに変換する。 さらに,暗黙の実体と関係のパースを強化するために,ナレッジグラフの文脈を活用したグラフニューラルネットワークを取り入れ,質問表現の理解を深めた。 2つのデータセットに対する実験的な評価は,質問応答のセマンティック解析におけるモデルの有効性と優れた性能を示す。

In this paper, we introduce a novel method named "graph-to-segment" for question answering over knowledge graphs, focusing on understanding question utterances. This method centers on semantic parsing, a key approach for interpreting these utterances. Our primary challenge lies in comprehending implicit entities, relationships, and complex constraints like time, ordinality, and aggregation within questions, contextualized by the knowledge graph. Our framework employs a combination of rule-based and neural-based techniques to parse and construct highly accurate and comprehensive semantic segment sequences. These sequences form semantic query graphs, effectively representing question utterances. We approach question semantic parsing as a sequence generation task, utilizing an encoder-decoder neural network to transform natural language questions into semantic segments. Moreover, to enhance the parsing of implicit entities and relations, we incorporate a graph neural network that leverages the context of the knowledge graph to better understand question representations. Our experimental evaluations on two datasets demonstrate the effectiveness and superior performance of our model in semantic parsing for question answering.
翻訳日:2024-01-22 12:39:38 公開日:2023-12-01
# ライブソーシャルビデオストリーミングによるオンライン異常検出

Online Anomaly Detection over Live Social Video Streaming ( http://arxiv.org/abs/2401.08615v1 )

ライセンス: Link先を確認
Chengkun He, Xiangmin Zhou, Chen Wang, Iqbal Gondal, Jie Shao, Xun Yi(参考訳) ソーシャルビデオ異常(Social Video anomaly)は、データセットの振る舞いの共通パターンに従わないビデオストリームの観察である。 ソーシャルビデオ異常検出は、eコマースからeラーニングへの応用において重要な役割を果たす。 従来,ビデオ放送における異常発見には異常検出技術が用いられてきた。 しかし、対話的な会話やスピーチ、聴衆との講義を含むライブのソーシャルビデオストリームは無視している。 本稿では,ソーシャルビデオライブストリーミング(AOVLIS)上での異常を効果的に検出するための汎用フレームワークを提案する。 具体的には,プレゼンターとオーディエンスの履歴を適応的に捉え,それらの相互インタラクションによってストリーム上の次の時点における行動を予測する,結合型長期短期記憶(clstm)と呼ばれる新しい深層ニューラルネットワークモデルを提案する。 次に,CLSTMをデコーダ層とうまく統合し,新しい再構成誤差に基づくスコアリング関数であるRE_{IA}$を提案し,各ビデオセグメントの異常スコアを算出して異常検出を行う。 その後、CLSTMとデコーダを漸進的に維持する新しいモデル更新方式を提案する。 さらに、ソリューションの効率を向上させるために、新しいアダプティブ・アダプティブ・最適化戦略(ADOS)を設計する。 AOVLISの優位性を証明するために大規模な実験が行われた。

Social video anomaly is an observation in video streams that does not conform to a common pattern of dataset's behaviour. Social video anomaly detection plays a critical role in applications from e-commerce to e-learning. Traditionally, anomaly detection techniques are applied to find anomalies in video broadcasting. However, they neglect the live social video streams which contain interactive talk, speech, or lecture with audience. In this paper, we propose a generic framework for effectively online detecting Anomalies Over social Video LIve Streaming (AOVLIS). Specifically, we propose a novel deep neural network model called Coupling Long Short-Term Memory (CLSTM) that adaptively captures the history behaviours of the presenters and audience, and their mutual interactions to predict their behaviour at next time point over streams. Then we well integrate the CLSTM with a decoder layer, and propose a new reconstruction error-based scoring function $RE_{IA}$ to calculate the anomaly score of each video segment for anomaly detection. After that, we propose a novel model update scheme that incrementally maintains CLSTM and decoder. Moreover, we design a novel upper bound and ADaptive Optimisation Strategy (ADOS) for improving the efficiency of our solution. Extensive experiments are conducted to prove the superiority of AOVLIS.
翻訳日:2024-01-22 09:48:44 公開日:2023-12-01
# 量子重力におけるads/cft対応と時空の性質についての一考察

A note on the AdS/CFT correspondence and the nature of spacetime in quantum gravity ( http://arxiv.org/abs/2312.05260v1 )

ライセンス: Link先を確認
Carlos Silva(参考訳) 本稿では, 量子重力における時空の性質を, 弦理論とループ量子宇宙論のスピンネットワークに似た高分子ホロノミー構造との関係を確立したホログラフィー原理の新たなバージョンに照らして論じる。 結果の前には、そのような仕事の関係のために、自由度が量子相関のみに対応する基本構造から時空が創発的であるとみなさなければならない、という主張がある。

In this paper, we address the nature of spacetime in quantum gravity in light of a new version of the holographic principle that has established a relationship between string theory and polymer holonomy structures similar to Loop Quantum Cosmology spin networks. In front of the results found out, it is possible to argue that, for such a relationship to work, spacetime must be seen as emergent from a fundamental structure whose degrees of freedom correspond to quantum correlations only.
翻訳日:2024-01-15 15:00:56 公開日:2023-12-01
# zkFDL: 知識証明をゼロとした効率的かつプライバシ保護型分散学習

zkFDL: An efficient and privacy-preserving decentralized federated learning with zero knowledge proof ( http://arxiv.org/abs/2312.04579v1 )

ライセンス: Link先を確認
Mojtaba Ahmadi, Reza Nourmohammadi(参考訳) フェデレート・リーン(FL)は、様々な分野の研究やビジネスで頻繁に用いられている。 従来の集中型flシステムは深刻な問題を抱えている。 これらの懸念に対処するため、分散統合学習(DFL)システムが近年導入され、ブロックチェーンの助けを借りて、より完全性と効率性の向上を目指している。 一方、プライバシ保護はこれらのシステムの未発見部分である。 これを解決するために、ブロックチェーンベースの計算をスケールするために、クライアントが個々のデータを他のクライアントに公開することなく、信頼された集中型サーバと大規模モデルパラメータを共有できるゼロナレッジ証明(ZKP)ベースのアグリゲータ(zkDFL)を提案する。 ブロックチェーン技術を用いて,スマートコントラクトによる集約アルゴリズムを管理する。 サーバはZKPアルゴリズムを実行し、受信したアルゴリズムに従って集約が行われたことをクライアントに証明する。 サーバはまた、クライアントのすべての入力が使われたことを証明できる。 ウェアラブルインターネットに関する公開データセットを通じて,我々の測定値を評価する。 数値評価によって示されるように、zkdflは集約プロセスの正確性の検証可能性を導入し、dflシステムのプライバシー保護と拡張性を高め、ガスコストは大幅に減少している。

Federated leaning (FL) has been frequently used in various field of studies and businesses. Traditional centralized FL systems suffer from serious issues. To address these concerns, decentralized federated learning (DFL) systems have been introduced in recent years in which with the help of blockchains, try to achieve more integrity and efficiency. On the other hand, privacy-preserving is an uncovered part of these systems. To address this, and also scaling the blockchain-based computations, we propose a zero knowledge proof (ZKP) based aggregator (zkDFL) that allows clients to share their large-scale model parameters with a trusted centralized server without revealing their individual data to other clients. We utilize blockchain technology to manage the aggregation algorithm via smart contracts. The server performs a ZKP algorithm to prove to the clients that the aggregation is done according to the accepted algorithm. The server can also prove that all inputs of clients have been used. We evaluate our measure through a public dataset about wearable internet of things. As demonstrated by numerical evaluations, zkDFL introduces verifiability of correctness of aggregation process and enhances the privacy protection and scalability of DFL systems, while the gas cost has declined significantly.
翻訳日:2024-01-15 14:58:08 公開日:2023-12-01
# 心理学的ジェネリストAIに向けて:大規模言語モデルの現状と今後の展望

Towards a Psychological Generalist AI: A Survey of Current Applications of Large Language Models and Future Prospects ( http://arxiv.org/abs/2312.04578v1 )

ライセンス: Link先を確認
Tianyu He, Guanghui Fu, Yijing Yu, Fan Wang, Jianqiang Li, Qing Zhao, Changwei Song, Hongzhi Qi, Dan Luo, Huijing Zou, Bing Xiang Yang(参考訳) 心理学的原理の複雑さは、心理学的問題の大きな社会的意味合いを考えると、社会的な課題の核心となる。 これらの原則と実際の臨床および実世界の応用とのギャップを埋めるには、厳密な調査と適切な実装が必要である。 近年、高度に適応的で再利用可能な人工知能(AI)モデルの急速な進歩は、心理学の領域における前例のない能力を解き放つための有望な方法として現れている。 本稿では,これらの大規模AIモデルの性能検証の重要性を強調し,多様な視点から検証を包括的に評価する必要性を強調した。 さらに, ソーシャルメディア分析, 臨床看護の洞察, 警戒的コミュニティモニタリング, 心理学理論の曖昧な探索など, 幅広い領域にまたがる重要な作業に注目し, 心理学におけるこれらの拡張モデルの最先端の進歩と実践的実装を概観する。 本稿では,これらの大規模aiモデルを用いて,心理学的分野の進歩の加速を予測する。 これらの未来の汎用AIモデルは、労働コストを大幅に削減し、社会的ストレスを軽減する可能性を秘めている。 しかし、この前進の勢いは、特に医療機器や関連アプリケーションに必要なパラダイムの変更やアップグレードを考える場合に、いくつかの課題を伴わない。

The complexity of psychological principles underscore a significant societal challenge, given the vast social implications of psychological problems. Bridging the gap between understanding these principles and their actual clinical and real-world applications demands rigorous exploration and adept implementation. In recent times, the swift advancement of highly adaptive and reusable artificial intelligence (AI) models has emerged as a promising way to unlock unprecedented capabilities in the realm of psychology. This paper emphasizes the importance of performance validation for these large-scale AI models, emphasizing the need to offer a comprehensive assessment of their verification from diverse perspectives. Moreover, we review the cutting-edge advancements and practical implementations of these expansive models in psychology, highlighting pivotal work spanning areas such as social media analytics, clinical nursing insights, vigilant community monitoring, and the nuanced exploration of psychological theories. Based on our review, we project an acceleration in the progress of psychological fields, driven by these large-scale AI models. These future generalist AI models harbor the potential to substantially curtail labor costs and alleviate social stress. However, this forward momentum will not be without its set of challenges, especially when considering the paradigm changes and upgrades required for medical instrumentation and related applications.
翻訳日:2024-01-15 14:57:45 公開日:2023-12-01
# 自分の量子コンピュータやqubeをプログラミングする方法: 初心者のための量子コンピューティング

How To Program Your Own Quantum Computer or QUBE: QUantum computing for BEginners ( http://arxiv.org/abs/2312.06624v1 )

ライセンス: Link先を確認
Martin N. P. Nilsson(参考訳) 量子コンピュータの仕組みを理解するためには、量子物理学を知っておく必要があると思いますか? いいえ、心配ありません。 物理や数学を深く掘り下げる必要はなく、ベクトルや行列の乗法に少しだけ慣れているだけです。 それは本当です。 Pythonプログラミングといくつかのnumpy関数は、特にreshape()、kron()、 matmul()、 swapaxes()、linalg.norm()、 random.choice()である。 実際、付録は、完全なシミュレータを定義するのに12行のpythonコードが十分であることを示している。 この記事のポイントは、自分自身の量子コンピュータシミュレータを簡単に実装できる方法について、非公式で簡潔、願わくば消化可能で教育的な説明を提供することです。 これは'yet another quantum computer simulator'(yaqcs?)ではなくて、自分で作る方法です。 そして正直なところ、量子コンピュータの仕組みを学ぶには、もっと良い方法はないでしょう。

Do you think you need to know quantum physics to understand how a quantum computer works? Nope, no worries there. You don't need a deep dive into physics or mathematics, just a bit of familiarity with vectors and matrix multiplication. That's really it. A good handle on Python programming and a few numpy functions will do the trick, specifically reshape(), kron(), matmul(), swapaxes(), linalg.norm(), and random.choice(). In fact, an appendix shows that twelve lines of Python code suffice to define a complete simulator. The whole point of this article is to give you an informal, brief, hopefully digestible and educational description of how you can easily implement your own quantum computer simulator. It's not about `Yet Another Quantum Computer Simulator' (YAQCS?), which are a dime a dozen, but about how to build your own. And, honestly, there's probably no better way to learn how a quantum computer works!
翻訳日:2024-01-15 14:48:24 公開日:2023-12-01
# ECG信号からの重畳時間周波数Scalogram画像を用いた不整脈分類のための深層学習モデル

Deep Learning Models for Arrhythmia Classification Using Stacked Time-frequency Scalogram Images from ECG Signals ( http://arxiv.org/abs/2312.09426v1 )

ライセンス: Link先を確認
Parshuram N. Aarotale, Ajita Rattani(参考訳) 心活動を記録する医療モニタリング技術である心電図(ecgs)は、心不整脈の診断に広く用いられている。 この診断は、心臓疾患に関連する不規則な心拍数による信号形状の変形の分析に基づいている。 本稿では,大量の心電図データを手動で調べることができないため,心電図に基づく不整脈分類のための自動AIベースシステムを提案する。 この目的のために、心電図に基づく不整脈分類のための深層学習に基づくソリューションが提案されている。 4種類の不整脈を有するPhyloNetのShaoxing People's Hospital(SPH)データセットから,長さ10秒の心電図(ECG)を45,152人用いた。 サンプリング周波数は500hzであった。 メディアフィルタリングはECG信号の事前処理に使われた。 ecg信号の1秒毎に、時間周波数(tf)スカグラムを推定し、12チャンネルから1つの画像を得るのに賢明な列を積み重ね、各ecg信号に対して10個のtfスカグラムを積み重ねる。 これらの重ねられたTF頭蓋骨は、不整脈分類のために、事前訓練された畳み込みニューラルネットワーク(CNN)、1D CNN、および1D CNN-LSTMモデルに供給される。 微調整されたcnnモデルは,不整脈分類において,約98%のベストテスト精度,95%のcnn-lstmテスト精度を得た。

Electrocardiograms (ECGs), a medical monitoring technology recording cardiac activity, are widely used for diagnosing cardiac arrhythmia. The diagnosis is based on the analysis of the deformation of the signal shapes due to irregular heart rates associated with heart diseases. Due to the infeasibility of manual examination of large volumes of ECG data, this paper aims to propose an automated AI based system for ECG-based arrhythmia classification. To this front, a deep learning based solution has been proposed for ECG-based arrhythmia classification. Twelve lead electrocardiograms (ECG) of length 10 sec from 45, 152 individuals from Shaoxing People's Hospital (SPH) dataset from PhysioNet with four different types of arrhythmias were used. The sampling frequency utilized was 500 Hz. Median filtering was used to preprocess the ECG signals. For every 1 sec of ECG signal, the time-frequency (TF) scalogram was estimated and stacked row wise to obtain a single image from 12 channels, resulting in 10 stacked TF scalograms for each ECG signal. These stacked TF scalograms are fed to the pretrained convolutional neural network (CNN), 1D CNN, and 1D CNN-LSTM (Long short-term memory) models, for arrhythmia classification. The fine-tuned CNN models obtained the best test accuracy of about 98% followed by 95% test accuracy by basic CNN-LSTM in arrhythmia classification.
翻訳日:2024-01-15 14:24:42 公開日:2023-12-01
# ファジィ論理を用いた学生の学業成績のクラスタリング

Clustering Students According to their Academic Achievement Using Fuzzy Logic ( http://arxiv.org/abs/2312.10047v1 )

ライセンス: Link先を確認
Serhiy Balovsyak, Oleksandr Derevyanchuk, Hanna Kravchenko, Yuriy Ushenko, Zhengbing Hu(参考訳) ファジィ論理を用いた学習成果に応じて生徒をクラスタリングするソフトウェアは,Google Colabクラウドサービスを用いてPythonで開発された。 教育データ解析の過程では、大量のデータから教育過程のいくつかの特徴のみが得られるため、データマイニングの問題が解決される。 データクラスタリングは古典的なK-Means法を用いて行われ、単純さと高速さを特徴とする。 クラスタ分析は、機械学習ライブラリScikit-learn(Python)を使用して、2つの機能の空間で実施された。 得られたクラスタはファジィ三角形のメンバシップ関数によって記述され、各学生の特定のクラスタへのメンバシップを正しく決定することができる。 scikit-fuzzyライブラリを使用してファジィメンバーシップ関数の作成を行う。 クラスタに属するオブジェクトのファジィ関数の開発は、ファジィ論理を使用する原理をよりよく理解することができるため、教育目的にも有用である。 開発したソフトウェアを用いたテスト教育データを処理した結果,正しい結果を得た。 ファジィメンバシップ関数を使用することで,クラスタが明確に分離されていない場合でも,学生の特定のクラスタへの帰属を正しく決定できることが示された。 このため,従来の評価によらず,各学生に推奨される課題の難易度をより正確に決定することが可能である。

The software for clustering students according to their educational achievements using fuzzy logic was developed in Python using the Google Colab cloud service. In the process of analyzing educational data, the problems of Data Mining are solved, since only some characteristics of the educational process are obtained from a large sample of data. Data clustering was performed using the classic K-Means method, which is characterized by simplicity and high speed. Cluster analysis was performed in the space of two features using the machine learning library scikit-learn (Python). The obtained clusters are described by fuzzy triangular membership functions, which allowed to correctly determine the membership of each student to a certain cluster. Creation of fuzzy membership functions is done using the scikit-fuzzy library. The development of fuzzy functions of objects belonging to clusters is also useful for educational purposes, as it allows a better understanding of the principles of using fuzzy logic. As a result of processing test educational data using the developed software, correct results were obtained. It is shown that the use of fuzzy membership functions makes it possible to correctly determine the belonging of students to certain clusters, even if such clusters are not clearly separated. Due to this, it is possible to more accurately determine the recommended level of difficulty of tasks for each student, depending on his previous evaluations.
翻訳日:2024-01-15 14:00:10 公開日:2023-12-01
# コンピュータビジョンのためのDeep Metric Learning: 簡単な概要

Deep Metric Learning for Computer Vision: A Brief Overview ( http://arxiv.org/abs/2312.10046v1 )

ライセンス: Link先を確認
Deen Dayal Mohan, Bhavin Jawade, Srirangaraj Setlur, Venu Govindaraj(参考訳) 深層ニューラルネットワークを最適化する目的関数は、入力データの強化された特徴表現を作成する上で重要な役割を果たす。 クロスエントロピーに基づく損失定式化は、様々な教師付きディープラーニングアプリケーションで広く用いられているが、これらの手法は、入力データ分布に大きなクラス内分散と低いクラス間分散が存在する場合、適切でない傾向にある。 deep metric learningは、データサンプルを代表的埋め込み空間にマッピングする表現関数を学習することで、データサンプル間の類似度を測定する方法の開発を目指している。 クラス間分散が低くクラス内分散が高い分布であっても、分類的埋め込み空間の生成を最適化するための注意深く設計されたサンプリング戦略と損失関数を活用する。 本章では、この領域における最近の進歩の概要と最先端のDeep Metric Learningアプローチについて論じる。

Objective functions that optimize deep neural networks play a vital role in creating an enhanced feature representation of the input data. Although cross-entropy-based loss formulations have been extensively used in a variety of supervised deep-learning applications, these methods tend to be less adequate when there is large intra-class variance and low inter-class variance in input data distribution. Deep Metric Learning seeks to develop methods that aim to measure the similarity between data samples by learning a representation function that maps these data samples into a representative embedding space. It leverages carefully designed sampling strategies and loss functions that aid in optimizing the generation of a discriminative embedding space even for distributions having low inter-class and high intra-class variances. In this chapter, we will provide an overview of recent progress in this area and discuss state-of-the-art Deep Metric Learning approaches.
翻訳日:2024-01-15 13:59:48 公開日:2023-12-01
# 応答影響に基づく反実的推論による解釈可能な知識追跡

Interpretable Knowledge Tracing via Response Influence-based Counterfactual Reasoning ( http://arxiv.org/abs/2312.10045v1 )

ライセンス: Link先を確認
Jiajun Cui and Minghe Yu and Bo Jiang and Aimin Zhou and Jianyong Wang and Wei Zhang(参考訳) 知識追跡(KT)は,コンピュータ支援教育と知的教習システムにおいて重要な役割を担い,過去の回答記録に基づいて,新たな質問に対する将来の成果を予測することによって,学生の知識能力を評価することを目的とする。 既存の深層学習知識追跡法(DLKT)は予測精度を大幅に向上し、最先端の結果を得たが、しばしば解釈可能性の欠如に悩まされる。 この制限に対処するために、現在のアプローチでは、より説明可能な予測を達成するために心理的な影響を取り入れている。 実際、モデルがどのように反応の影響に基づいて予測を行うかを理解することは、知識追跡プロセスの透明性と信頼性を高め、解釈可能なKTの新しいパラダイムの機会を提供する。 しかし、観測不能な反応の影響を測定することは困難である。 本稿では,各応答に介入する反事実推論を用いて,質問に対して学生が正解を誤答した場合,その逆を判断する。 そこで我々は,新しい応答影響に基づく対実的知識追跡フレームワークRCKTを提案する。 RCKTは、実数列からの予測結果と介入後の反実数列とを比較して応答効果を生成する。 さらに,過去の異なる応答から蓄積された影響を活用し,モデルの性能と信頼性をさらに向上させるために,最大化と推論手法を導入する。 実験の結果,RCKT法は4つのデータセット上で6つのベースラインに対して最先端の知識追跡法より優れており,応答影響の信頼性の高い解釈が得られた。

Knowledge tracing (KT) plays a crucial role in computer-aided education and intelligent tutoring systems, aiming to assess students' knowledge proficiency by predicting their future performance on new questions based on their past response records. While existing deep learning knowledge tracing (DLKT) methods have significantly improved prediction accuracy and achieved state-of-the-art results, they often suffer from a lack of interpretability. To address this limitation, current approaches have explored incorporating psychological influences to achieve more explainable predictions, but they tend to overlook the potential influences of historical responses. In fact, understanding how models make predictions based on response influences can enhance the transparency and trustworthiness of the knowledge tracing process, presenting an opportunity for a new paradigm of interpretable KT. However, measuring unobservable response influences is challenging. In this paper, we resort to counterfactual reasoning that intervenes in each response to answer \textit{what if a student had answered a question incorrectly that he/she actually answered correctly, and vice versa}. Based on this, we propose RCKT, a novel response influence-based counterfactual knowledge tracing framework. RCKT generates response influences by comparing prediction outcomes from factual sequences and constructed counterfactual sequences after interventions. Additionally, we introduce maximization and inference techniques to leverage accumulated influences from different past responses, further improving the model's performance and credibility. Extensive experimental results demonstrate that our RCKT method outperforms state-of-the-art knowledge tracing methods on four datasets against six baselines, and provides credible interpretations of response influences.
翻訳日:2024-01-15 13:59:33 公開日:2023-12-01
# aoip.ai: オープンソースのP2P SDK

aoip.ai: An Open-Source P2P SDK ( http://arxiv.org/abs/2312.14934v1 )

ライセンス: Link先を確認
Joseph Konan, Shikhar Agnihotri, and Chia-Chun Hsieh(参考訳) このホワイトペーパーでは、ピアツーピア技術と高度なAI統合を統合してVoIPとIoTアプリケーションを変換する、画期的なオープンソースSDKであるaoip.aiを紹介する。 データセキュリティを強化し、通信品質を向上し、開発者とユーザに対してさらなる柔軟性を提供する。 カーネギーメロン大学と共同で開発されたaoip.aiは、分散化と民主化のコミュニケーションソリューションのための新しい標準を定めている。

This white paper introduces aoip.ai, a groundbreaking open-source SDK incorporating peer-to-peer technology and advanced AI integration to transform VoIP and IoT applications. It addresses key market challenges by enhancing data security, elevating communication quality, and providing greater flexibility for developers and users. Developed in collaboration with Carnegie Mellon University, aoip.ai sets a new standard for decentralized and democratized communication solutions.
翻訳日:2024-01-15 13:16:07 公開日:2023-12-01
# 知識グラフの規則に基づくジョイント埋め込み学習

Rule-Guided Joint Embedding Learning of Knowledge Graphs ( http://arxiv.org/abs/2401.02968v1 )

ライセンス: Link先を確認
Qisong Li, Ji Lin, Sijia Wei, Neng Liu(参考訳) 近年の研究では、知識グラフの実体と関係を低次元ベクトル空間にエンコードする知識グラフ埋め込み学習の強化に焦点が当てられている。 現在のモデルは、これらのグラフの構造的側面を主に考慮しているが、より効果的な埋め込みに利用できる知識グラフには、文脈的およびリテラル的な情報が多く含まれている。 本稿では,グラフ畳み込みネットワークを用いて,文脈情報とリテラル情報の両方をエンティティと関係埋め込みに組み込む新しいモデルを提案する。 具体的には,文脈情報について,信頼度と関連度指標を用いてその意義を評価する。 信頼度メトリクスを計算するために一意なルールベース手法を開発し,リテラル情報の表現から関連度メトリクスを導出する。 2つの確立したベンチマークデータセットで徹底的な実験を行い、モデルの性能を検証した。

In recent studies, the focus has been on enhancing knowledge graph embedding learning, which encodes entities and relations in knowledge graphs into low-dimensional vector spaces. While current models mainly consider the structural aspects of these graphs, there's a wealth of contextual and literal information in knowledge graphs that can be utilized for more effective embeddings. This paper introduces a novel model that incorporates both contextual and literal information into entity and relation embeddings, utilizing graph convolutional networks. Specifically, for contextual information, we assess its significance through confidence and relatedness metrics. A unique rule-based method is developed to calculate the confidence metric, and the relatedness metric is derived from the literal information's representations. We validated our model's performance with thorough experiments on two established benchmark datasets.
翻訳日:2024-01-15 09:46:13 公開日:2023-12-01
# DISTWAR: Rasterベースのレンダリングパイプライン上での高速な微分可能なレンダリング

DISTWAR: Fast Differentiable Rendering on Raster-based Rendering Pipelines ( http://arxiv.org/abs/2401.05345v1 )

ライセンス: Link先を確認
Sankeerth Durvasula, Adrian Zhao, Fan Chen, Ruofan Liang, Pawan Kumar Sanjaya, Nandita Vijaykumar(参考訳) 微分レンダリングは、3Dシーンを勾配勾配を用いた2D画像からトレーニングしたモデルとして表現する、重要な視覚コンピューティングアプリケーションで使用されるテクニックである。 最近の研究(例えば3dガウスのスプラッティング)では、ラスタライズパイプラインを使用して、これらの学習した3dモデルから高速で高品質なフォトリアリスティックな画像をレンダリングする。 これらの手法は非常に有望であることが証明され、多くの重要なタスクに最先端の品質を提供する。 しかし、強力なgpuを使用しても、シーンを表現するためにモデルをトレーニングすることは依然として時間がかかります。 そこで本研究では,処理が必要な大量のアトミック操作のために,トレーニング中の勾配計算フェーズがGPUの重大なボトルネックとなることを観察する。 これらの原子操作はl2パーティションの原子ユニットを圧倒し、ストールを引き起こす。 この課題に対処するために、勾配計算の間、(1)すべてのスレッドが同じメモリ位置をアトミックに更新する、(2)ワープは様々な量の原子トラフィックを生成する(一部のスレッドは不活性である可能性がある)、という観測結果を活用する。 まず、レジスタを用いてsmサブコアにおけるワープレベルのスレッドの削減を可能にし、ワープ内アトミック更新の局所性を活用する。 第2に、SMにおけるワープレベル低減とL2原子単位間の原子計算を分散し、原子計算のスループットを向上する。 多くのスレッドが同じメモリ位置へのアトミックな更新を行うワープはSMでスケジュールされ、残りはL2原子単位を使用する。 我々は既存のワープレベルのプリミティブを使ってDISTWARを実装している。 我々は、広く使われているラスタベースの差別化可能なレンダリングワークロード上でDISTWARを評価する。 平均速度は2.44倍(最大5.7倍)である。

Differentiable rendering is a technique used in an important emerging class of visual computing applications that involves representing a 3D scene as a model that is trained from 2D images using gradient descent. Recent works (e.g. 3D Gaussian Splatting) use a rasterization pipeline to enable rendering high quality photo-realistic imagery at high speeds from these learned 3D models. These methods have been demonstrated to be very promising, providing state-of-art quality for many important tasks. However, training a model to represent a scene is still a time-consuming task even when using powerful GPUs. In this work, we observe that the gradient computation phase during training is a significant bottleneck on GPUs due to the large number of atomic operations that need to be processed. These atomic operations overwhelm atomic units in the L2 partitions causing stalls. To address this challenge, we leverage the observations that during the gradient computation: (1) for most warps, all threads atomically update the same memory locations; and (2) warps generate varying amounts of atomic traffic (since some threads may be inactive). We propose DISTWAR, a software-approach to accelerate atomic operations based on two key ideas: First, we enable warp-level reduction of threads at the SM sub-cores using registers to leverage the locality in intra-warp atomic updates. Second, we distribute the atomic computation between the warp-level reduction at the SM and the L2 atomic units to increase the throughput of atomic computation. Warps with many threads performing atomic updates to the same memory locations are scheduled at the SM, and the rest using L2 atomic units. We implement DISTWAR using existing warp-level primitives. We evaluate DISTWAR on widely used raster-based differentiable rendering workloads. We demonstrate significant speedups of 2.44x on average (up to 5.7x).
翻訳日:2024-01-15 09:10:17 公開日:2023-12-01
# 2024年の選挙における偽ニュースの影響分析:包括的データセット

Analyzing the Influence of Fake News in the 2024 Elections: A Comprehensive Dataset ( http://arxiv.org/abs/2312.03750v1 )

ライセンス: Link先を確認
Mizanur Rahman and Shaina Raza(参考訳) この研究は、米国の政治演説におけるフェイクニュースに焦点を当てたデータセットを紹介します。 4万件のニュース記事のスクレイピングと注釈付け,高度なNLPツールと人間による検証により,政治談話における誤情報に関する微妙な理解を提供する。 機械学習とバイアス分析のために設計されたデータセットは、研究者、政策立案者、教育者にとって重要なリソースである。 偽情報に対する戦略の発展を促進し、メディアのリテラシーを高め、偽ニュースや政治コミュニケーションの研究に重要な貢献をした。 2024年の選挙の文脈におけるフェイクニュースの分析に焦点をあてたデータセットは、コミュニティがフェイクニュースの識別に取り組まなければならない。 2024年の選挙の文脈におけるフェイクニュースの分析に焦点を当てたデータセットが公開されている。

This work introduces a dataset focused on fake news in US political speeches, specifically examining racial slurs and biases. By scraping and annotating 40,000 news articles, using advanced NLP tools and human verification, we provide a nuanced understanding of misinformation in political discourse. The dataset, designed for machine learning and bias analysis, is a critical resource for researchers, policymakers, and educators. It facilitates the development of strategies against misinformation and enhances media literacy, marking a significant contribution to the study of fake news and political communication. Our dataset, focusing on the analysis of fake news in the context of the 2024 elections, is publicly accessible for community to work on fake news identification. Our dataset, focusing on the analysis of fake news in the context of the 2024 elections, is publicly accessible.
翻訳日:2023-12-11 02:57:34 公開日:2023-12-01
# 大規模言語モデルを用いた概念工学

Conceptual Engineering Using Large Language Models ( http://arxiv.org/abs/2312.03749v1 )

ライセンス: Link先を確認
Bradley P. Allen(参考訳) 本稿では,ジェニファー・ナド(Jennifer Nado)の分類手順を概念工学のターゲットとして定義した手法について述べる。 次に,ウィキデータナレッジグラフのデータを用いて,国際天文学連合の惑星再定義とhaslangerの女性の説明的分析という2つのパラダイム的概念工学プロジェクトからの概念定義を評価する。 本稿では,この研究が概念工学の理論と実践にもたらす意味について論じる。 コードとデータはGitHubにある。

We describe a method, based on Jennifer Nado's definition of classification procedures as targets of conceptual engineering, that implements such procedures using a large language model. We then apply this method using data from the Wikidata knowledge graph to evaluate concept definitions from two paradigmatic conceptual engineering projects: the International Astronomical Union's redefinition of PLANET and Haslanger's ameliorative analysis of WOMAN. We discuss implications of this work for the theory and practice of conceptual engineering. The code and data can be found on GitHub.
翻訳日:2023-12-11 02:57:19 公開日:2023-12-01
# ニューラルネットワークを用いたsingle view refractive index tomography

Single View Refractive Index Tomography with Neural Fields ( http://arxiv.org/abs/2309.04437v2 )

ライセンス: Link先を確認
Brandon Zhao, Aviad Levis, Liam Connor, Pratul P. Srinivasan, Katherine L. Bouman(参考訳) 屈折率トモグラフィー(refractive index tomography)は、2次元投影画像計測を用いて連続的に変化する3次元屈折率を再現する逆問題である。 純粋な屈折場は直接は見えないが、空間を移動すると光線が曲がり、再構成のための信号となる。 このようなフィールドの効果は、顕微鏡の透明な細胞による屈折から、天体物理学における暗黒物質による遠方の銀河のレンズ化まで、多くの科学的コンピュータビジョン設定に現れる。 これらのフィールドの再構成は、観測画像に対する屈折場による複雑な非線形効果のため、特に困難である。 さらに、標準的な3D再構成とトモグラフィーの設定は、通常、多くの視点からシーンの観察にアクセスできるが、多くの屈折率トモグラフィー問題設定は、単一の視点からしか観察できない。 本稿では, 屈折体全体に散在する光源の事前知識を活用し, 単視点屈折率トモグラフィー問題の曖昧化を支援する手法を提案する。 我々は、屈折率場の神経場表現を通して曲線線を微分可能追跡し、そのパラメータを最適化し、観測した画像を最適に再現する。 本手法は, 再現された屈折率場を再構成し, 光源分布が回収されたフィールドに与える影響を解析し, リアルな暗黒物質分布に起因する3次元屈折率を回復するシミュレーションダークマターマッピング問題に対して, 提案手法の有効性を実証する。

Refractive Index Tomography is the inverse problem of reconstructing the continuously-varying 3D refractive index in a scene using 2D projected image measurements. Although a purely refractive field is not directly visible, it bends light rays as they travel through space, thus providing a signal for reconstruction. The effects of such fields appear in many scientific computer vision settings, ranging from refraction due to transparent cells in microscopy to the lensing of distant galaxies caused by dark matter in astrophysics. Reconstructing these fields is particularly difficult due to the complex nonlinear effects of the refractive field on observed images. Furthermore, while standard 3D reconstruction and tomography settings typically have access to observations of the scene from many viewpoints, many refractive index tomography problem settings only have access to images observed from a single viewpoint. We introduce a method that leverages prior knowledge of light sources scattered throughout the refractive medium to help disambiguate the single-view refractive index tomography problem. We differentiably trace curved rays through a neural field representation of the refractive field, and optimize its parameters to best reproduce the observed image. We demonstrate the efficacy of our approach by reconstructing simulated refractive fields, analyze the effects of light source distribution on the recovered field, and test our method on a simulated dark matter mapping problem where we successfully recover the 3D refractive field caused by a realistic dark matter distribution.
翻訳日:2023-12-06 19:31:33 公開日:2023-12-01
# 人物再同定のための全体と構成要素に基づく意味表現の自己教師付き学習

Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification ( http://arxiv.org/abs/2311.17074v2 )

ライセンス: Link先を確認
Siyuan Huang, Yifan Zhou, Ram Prabhakar Kathirvel, Rama Chellappa, Chun Pong Lau(参考訳) Segment Anything Modelのような対話型セグメンテーションモデル(ISM)は、様々なコンピュータビジョンタスクを大幅に改善してきたが、Person Re-identification(ReID)への応用は限定的である。 一方、ReIDの既存のセマンティック事前トレーニングモデルには、事前に定義された解析範囲や粗いセマンティクスのような制限があることが多い。 また、ReID と Clothes-Changing ReID (CC-ReID) はドメインによって別々に扱われることが多い。 本稿では,人間中心意味表現の高精度化がreid性能の向上と各種reidタスクの一般化に寄与するかどうかについて検討する。 本稿では,適応部分ベースセマンティック抽出にISMを利用する自己教師型ReIDモデルSemReIDを提案する。 SemReIDはさらに、イメージマスキングやKoLeo正規化といったテクニックを通じて、セマンティック表現を洗練している。 標準ReID、CC-ReID、制約なしReIDの3種類のReIDデータセットに対する評価は、最先端の手法と比較して優れたパフォーマンスを示している。 また,細粒度なセマンティクスを持つ大人数データセットの不足を認識し,ロバストな性能を実現するために,reid法を支援する新しいluperson-partデータセットを提案する。

Interactive Segmentation Models (ISMs) like the Segment Anything Model have significantly improved various computer vision tasks, yet their application to Person Re-identification (ReID) remains limited. On the other hand, existing semantic pre-training models for ReID often have limitations like predefined parsing ranges or coarse semantics. Additionally, ReID and Clothes-Changing ReID (CC-ReID) are usually treated separately due to their different domains. This paper investigates whether utilizing precise human-centric semantic representation can boost the ReID performance and improve the generalization among various ReID tasks. We propose SemReID, a self-supervised ReID model that leverages ISMs for adaptive part-based semantic extraction, contributing to the improvement of ReID performance. SemReID additionally refines its semantic representation through techniques such as image masking and KoLeo regularization. Evaluation across three types of ReID datasets -- standard ReID, CC-ReID, and unconstrained ReID -- demonstrates superior performance compared to state-of-the-art methods. In addition, recognizing the scarcity of large person datasets with fine-grained semantics, we introduce the novel LUPerson-Part dataset to assist ReID methods in acquiring the fine-grained part semantics for robust performance.
翻訳日:2023-12-06 18:48:51 公開日:2023-12-01
# ビデオ要約:エンティティ対応キャプションに向けて

Video Summarization: Towards Entity-Aware Captions ( http://arxiv.org/abs/2312.02188v1 )

ライセンス: Link先を確認
Hammad A. Ayyubi, Tianqi Liu, Arsha Nagrani, Xudong Lin, Mingda Zhang, Anurag Arnab, Feng Han, Yukun Zhu, Jialu Liu, Shih-Fu Chang(参考訳) 既存の人気ビデオキャプションベンチマークやモデルでは、特定の人物、場所、組織名なしの一般的なキャプションを扱う。 対照的に、ニュースビデオは、キャプションが意味のある要約のためにそのような名前のエンティティを必要とする困難な設定を示す。 そこで本稿では,ニュースビデオを直接エンティティ対応キャプションに要約するタスクを提案する。 また、このタスクの研究を支援するために、大規模なデータセットVIEWS(VIdeo NEWS)をリリースしています。 さらに,外部の知識から抽出した文脈で映像からの視覚情報を増強し,エンティティ対応キャプションを生成する手法を提案する。 提案手法の有効性を3つのビデオキャプションモデルに示す。 また,本手法が既存のニュース画像キャプションデータセットに一般化することを示す。 広範な実験と洞察によって、我々はこの挑戦的な課題に関する将来の研究の確固たる基盤を確立すると信じている。

Existing popular video captioning benchmarks and models deal with generic captions devoid of specific person, place or organization named entities. In contrast, news videos present a challenging setting where the caption requires such named entities for meaningful summarization. As such, we propose the task of summarizing news video directly to entity-aware captions. We also release a large-scale dataset, VIEWS (VIdeo NEWS), to support research on this task. Further, we propose a method that augments visual information from videos with context retrieved from external world knowledge to generate entity-aware captions. We demonstrate the effectiveness of our approach on three video captioning models. We also show that our approach generalizes to existing news image captions dataset. With all the extensive experiments and insights, we believe we establish a solid basis for future research on this challenging task.
翻訳日:2023-12-06 18:33:04 公開日:2023-12-01
# ファクトアライメントを用いたスパーラス相関の同定

Identifying Spurious Correlations using Counterfactual Alignment ( http://arxiv.org/abs/2312.02186v1 )

ライセンス: Link先を確認
Joseph Paul Cohen and Louis Blankemeier and Akshay Chaudhari(参考訳) 素早い相関によって駆動されるモデルは、しばしば一般化性能が劣る。 ブラックボックス分類器の急激な相関を検知し,探索するための非現実的アライメント手法を提案する。 ある分類器に対して生成された偽画像は、他の分類器に入力して、それらの分類器の出力の変化を誘発するかどうかを確認することができる。 これらの応答間の関係を定量化し、スプリアス相関が存在する特定のインスタンスを特定し、データセット上の集計統計を計算するために使用することができる。 本研究は,顔属性分類器におけるスプリアス相関を検出する能力を示す。 これは、顔属性分類器の直感的な傾向を観察し、スプリアス相関を作成し、視覚的にも定量的にもその存在を検知することで検証される。 さらに,CFアライメント法を用いて,分類器で同定されたスプリアス相関を補正できることを実証した。

Models driven by spurious correlations often yield poor generalization performance. We propose the counterfactual alignment method to detect and explore spurious correlations of black box classifiers. Counterfactual images generated with respect to one classifier can be input into other classifiers to see if they also induce changes in the outputs of these classifiers. The relationship between these responses can be quantified and used to identify specific instances where a spurious correlation exists as well as compute aggregate statistics over a dataset. Our work demonstrates the ability to detect spurious correlations in face attribute classifiers. This is validated by observing intuitive trends in a face attribute classifier as well as fabricating spurious correlations and detecting their presence, both visually and quantitatively. Further, utilizing the CF alignment method, we demonstrate that we can rectify spurious correlations identified in classifiers.
翻訳日:2023-12-06 18:32:51 公開日:2023-12-01
# 単一センサを用いた行動認識のためのコントラスト学習による仮想融合

Virtual Fusion with Contrastive Learning for Single Sensor-based Activity Recognition ( http://arxiv.org/abs/2312.02185v1 )

ライセンス: Link先を確認
Duc-Anh Nguyen, Cuong Pham, Nhien-An Le-Khac(参考訳) 様々なタイプのセンサーは、人間の活動認識(har)に利用することができ、それぞれ異なる強度と弱みを持っている。 一つのセンサーがユーザーの動きを完全に観察できない場合があり、誤った予測を引き起こす。 センサー融合はHARにより多くの情報を提供するが、ユーザプライバシや受け入れ、コストのかかるセットアップ、運用、メンテナンスなど、多くの固有の欠点がある。 この問題に対処するために、トレーニング中に複数の時間同期センサーからラベル付けされていないデータを活用できる新しい方法であるVirtual Fusionを提案する。 センサ間の相関を利用してコントラスト学習を行う。 仮想フュージョンは、同一のセンサーでトレーニングするよりもはるかに精度が良く、場合によっては、テスト時に複数のセンサーを使って実際のフュージョンを上回ります。 また、この手法をより一般的なバージョンであるreal fusion in virtual fusion(afvf)にも拡張し、推論中にトレーニングセンサのサブセットを使用する。 提案手法は,UCI-HARおよびPAMAP2ベンチマークデータセット上で,最先端の精度とF1スコアを実現する。 実装は要求に応じて行われる。

Various types of sensors can be used for Human Activity Recognition (HAR), and each of them has different strengths and weaknesses. Sometimes a single sensor cannot fully observe the user's motions from its perspective, which causes wrong predictions. While sensor fusion provides more information for HAR, it comes with many inherent drawbacks like user privacy and acceptance, costly set-up, operation, and maintenance. To deal with this problem, we propose Virtual Fusion - a new method that takes advantage of unlabeled data from multiple time-synchronized sensors during training, but only needs one sensor for inference. Contrastive learning is adopted to exploit the correlation among sensors. Virtual Fusion gives significantly better accuracy than training with the same single sensor, and in some cases, it even surpasses actual fusion using multiple sensors at test time. We also extend this method to a more general version called Actual Fusion within Virtual Fusion (AFVF), which uses a subset of training sensors during inference. Our method achieves state-of-the-art accuracy and F1-score on UCI-HAR and PAMAP2 benchmark datasets. Implementation is available upon request.
翻訳日:2023-12-06 18:32:36 公開日:2023-12-01
# 画像キャプションの廃止:因果的考察

Deconfounded Image Captioning: A Causal Retrospect ( http://arxiv.org/abs/2003.03923v2 )

ライセンス: Link先を確認
Xu Yang, Hanwang Zhang, Jianfei Cai(参考訳) 視覚言語タスクにおけるデータセットバイアスは、コミュニティの進歩を妨げる主要な問題の1つになっています。 既存のソリューションには、現代の画像キャプションがデータセットのバイアスに簡単に崩壊する理由に関する原則的な分析が欠けている。 本稿では,新たな視点として,DIC(Decon founded Image Captioning)を提示する。 この疑問の解答を見つけ,その後,現代のニューラルイメージキャプタを振り返り,最終的にデータセットバイアスによる負の影響を軽減するためのDICフレームワークDICv1.0を提案する。 DICは因果推論に基づいており、バックドアとフロントドアの調整という2つの原則は、過去の研究をレビューし、新しい効果的なモデルの設計に役立つ。 特に、DICv1.0は2つの一般的なキャプションモデルを強化し、1つのモデル131.1 CIDEr-Dと128.4 C40 CIDEr-Dをカーパシーの分割と、挑戦的なMS COCOデータセットのオンライン分割で実現可能であることを示す。 興味深いことに、DICv1.0は私たちの因果関係から自然な派生であり、画像キャプションのための有望な方向を開く。

Dataset bias in vision-language tasks is becoming one of the main problems which hinders the progress of our community. Existing solutions lack a principled analysis about why modern image captioners easily collapse into dataset bias. In this paper, we present a novel perspective: Deconfounded Image Captioning (DIC), to find out the answer of this question, then retrospect modern neural image captioners, and finally propose a DIC framework: DICv1.0 to alleviate the negative effects brought by dataset bias. DIC is based on causal inference, whose two principles: the backdoor and front-door adjustments, help us review previous studies and design new effective models. In particular, we showcase that DICv1.0 can strengthen two prevailing captioning models and can achieve a single-model 131.1 CIDEr-D and 128.4 c40 CIDEr-D on Karpathy split and online split of the challenging MS COCO dataset, respectively. Interestingly, DICv1.0 is a natural derivation from our causal retrospect, which opens promising directions for image captioning.
翻訳日:2023-12-06 02:20:57 公開日:2023-12-01
# 耐故障性しきい値に対する量子論理演算のベンチマーク

Benchmarking quantum logic operations relative to thresholds for fault tolerance ( http://arxiv.org/abs/2207.08786v4 )

ライセンス: Link先を確認
Akel Hashim, Stefan Seritan, Timothy Proctor, Kenneth Rudinger, Noah Goss, Ravi K. Naik, John Mark Kreikebaum, David I. Santiago, Irfan Siddiqi(参考訳) ノイズ量子プロセッサをベンチマークする現代の方法は、平均誤差率やプロセス不適合度を測定するのが一般的である。 しかし、フォールトトレラントな量子エラー補正のしきい値は、ダイヤモンド標準によって定義された最悪のケースエラー率という観点で与えられる。 この矛盾を解決する一つの方法は、ランダム化コンパイル(RC)のような手法を用いて量子ゲートの物理実装をランダム化することである。 本研究では、ゲートセットトモグラフィーを用いて、2ビット論理ゲートのセットの精度評価を行い、超伝導量子プロセッサ上でRCを研究する。 RC下では、ゲート誤差はコヒーレント誤差のない確率的パウリ雑音モデルによって正確に記述され、空間的に相関するコヒーレント誤差と非マルコフ誤差は強く抑制される。 さらに, ランダムにコンパイルされたゲートに対して, 平均および最悪のエラーレートが等しく, 最大最悪ケース誤差が0.0197(3)であることを示す。 その結果、ランダム化ベンチマークは、量子プロセッサのエラーレートがフォールトトレランス閾値以下であることを検証し、ノイズを調整できるランダム化手法によってゲートが実装されている場合に限り、短期的アルゴリズムの故障率を制限するための有効な方法であることが示されている。

Contemporary methods for benchmarking noisy quantum processors typically measure average error rates or process infidelities. However, thresholds for fault-tolerant quantum error correction are given in terms of worst-case error rates -- defined via the diamond norm -- which can differ from average error rates by orders of magnitude. One method for resolving this discrepancy is to randomize the physical implementation of quantum gates, using techniques like randomized compiling (RC). In this work, we use gate set tomography to perform precision characterization of a set of two-qubit logic gates to study RC on a superconducting quantum processor. We find that, under RC, gate errors are accurately described by a stochastic Pauli noise model without coherent errors, and that spatially-correlated coherent errors and non-Markovian errors are strongly suppressed. We further show that the average and worst-case error rates are equal for randomly compiled gates, and measure a maximum worst-case error of 0.0197(3) for our gate set. Our results show that randomized benchmarks are a viable route to both verifying that a quantum processor's error rates are below a fault-tolerance threshold, and to bounding the failure rates of near-term algorithms, if -- and only if -- gates are implemented via randomization methods which tailor noise.
翻訳日:2023-12-06 02:13:30 公開日:2023-12-01
# ヘシアン方向による高次元損失景観の可視化

Visualizing high-dimensional loss landscapes with Hessian directions ( http://arxiv.org/abs/2208.13219v2 )

ライセンス: Link先を確認
Lucas B\"ottcher and Gregory Wheeler(参考訳) 局所曲率などの高次元損失関数の幾何学的性質の解析と、損失空間のある点における他の最適点の存在は、ニューラルネットワーク構造、実装特性、学習性能との相互作用をよりよく理解するのに役立ちます。 本研究では,高次元確率と微分幾何学の概念を組み合わせて,低次元損失表現の曲率特性が元の損失空間のそれに依存するかを研究する。 ランダムな射影を用いた場合、元の空間の鞍点が期待される低次元表現のように正しく識別されることはほとんどない。 期待される低次元表現における主曲率は、元の損失空間の平均曲率に比例する。 したがって、元の損失空間の平均曲率は、サドル点が平均してミニマ、最大、またはほぼ平坦な領域として現れるかどうかを決定する。 ランダム射影における期待曲率と原空間の平均曲率(つまり正規化ヘッキンソントレース)との接続を用いて、元のハッチンソン法のようにヘッキンソン-ベクトル積を計算せずにハッチンソン型トレース推定を計算する。 ランダム射影はサドル情報を正しく識別するには適さないので,最大かつ最小の主曲率に関連付けられた支配的なヘッセン方向に沿った射影を研究することを提案する。 本研究は,損失景観の平坦性と一般化可能性に関する議論とを結びつける。 最後に、異なる共通画像分類器と関数近似器について、損失景観のランダム射影とヘッシアン射影を最大$7\times 10^6$パラメータで比較する。

Analyzing geometric properties of high-dimensional loss functions, such as local curvature and the existence of other optima around a certain point in loss space, can help provide a better understanding of the interplay between neural network structure, implementation attributes, and learning performance. In this work, we combine concepts from high-dimensional probability and differential geometry to study how curvature properties in lower-dimensional loss representations depend on those in the original loss space. We show that saddle points in the original space are rarely correctly identified as such in expected lower-dimensional representations if random projections are used. The principal curvature in the expected lower-dimensional representation is proportional to the mean curvature in the original loss space. Hence, the mean curvature in the original loss space determines if saddle points appear, on average, as either minima, maxima, or almost flat regions. We use the connection between expected curvature in random projections and mean curvature in the original space (i.e., the normalized Hessian trace) to compute Hutchinson-type trace estimates without calculating Hessian-vector products as in the original Hutchinson method. Because random projections are not suitable to correctly identify saddle information, we propose to study projections along dominant Hessian directions that are associated with the largest and smallest principal curvatures. We connect our findings to the ongoing debate on loss landscape flatness and generalizability. Finally, for different common image classifiers and a function approximator, we show and compare random and Hessian projections of loss landscapes with up to about $7\times 10^6$ parameters.
翻訳日:2023-12-06 01:59:52 公開日:2023-12-01
# 放射状ランダムユニタリ回路におけるスクランブル遷移

Scrambling Transition in a Radiative Random Unitary Circuit ( http://arxiv.org/abs/2210.14242v2 )

ライセンス: Link先を確認
Zack Weinstein, Shane P. Kelly, Jamir Marino, Ehud Altman(参考訳) 量子ビットを環境と交換するランダムなユニタリ回路において、量子情報のスクランブルを$p$で検討する。 その結果、初期局在化された量子情報はシステム内に広がるだけでなく、環境に流出する。 オフ・オブ・タイム・オーダー・コレレータ(OTOC)を用いてスクランブルを特徴付けることで、有向パーコレーション普遍性クラスにおける非平衡相転移を臨界スワップレート$p_c$: for $p < p_c$ the ensemble-averaged OTOC exhibits ballistic growth with a tunable light cone velocity, for $p > p_c$ the OTOC fails percolate to percolate in the system and disappears in a finite timescale。 情報理論の結果を解明するために、演算子の拡散の遷移は、スワップアウトまたは「放射」量子ビットからシステムの初期量子情報をデコードする観測者の能力の遷移と一致することを示した。 本稿では,非パーコレーションフェーズにおいて,システムの初期情報を完全忠実度で復元し,非パーコレーションフェーズにおいてスワップレートの低減とともに連続的に忠実度を低下させる簡単な復号方式を提案する。 スワップインキュービットの初期状態に応じて、システムから放射されたキュービットへのコヒーレント情報のエンタングルメント遷移をさらに観察する。

We study quantum information scrambling in a random unitary circuit that exchanges qubits with an environment at a rate $p$. As a result, initially localized quantum information not only spreads within the system, but also spills into the environment. Using the out-of-time-order correlator (OTOC) to characterize scrambling, we find a nonequilibrium phase transition in the directed percolation universality class at a critical swap rate $p_c$: for $p < p_c$ the ensemble-averaged OTOC exhibits ballistic growth with a tunable light cone velocity, while for $p > p_c$ the OTOC fails to percolate within the system and vanishes uniformly within a finite timescale, indicating that all local operators are rapidly swapped into the environment. To elucidate its information-theoretic consequences, we demonstrate that the transition in operator spreading coincides with a transition in an observer's ability to decode the system's initial quantum information from the swapped-out, or "radiated," qubits. We present a simple decoding scheme which recovers the system's initial information with perfect fidelity in the nonpercolating phase, and with continuously decreasing fidelity with decreasing swap rate in the percolating phase. Depending on the initial state of the swapped-in qubits, we further observe a corresponding entanglement transition in the coherent information from the system into the radiated qubits.
翻訳日:2023-12-06 01:50:19 公開日:2023-12-01
# PDEの堅牢かつ正確な学習のための畳み込みニューラル演算子

Convolutional Neural Operators for robust and accurate learning of PDEs ( http://arxiv.org/abs/2302.01178v3 )

ライセンス: Link先を確認
Bogdan Raoni\'c, Roberto Molinaro, Tim De Ryck, Tobias Rohner, Francesca Bartolucci, Rima Alaifari, Siddhartha Mishra, Emmanuel de B\'ezenac(参考訳) 従来の機械学習では非常にうまく使われているが、畳み込みベースのニューラルネットワークアーキテクチャ(関数空間に一貫性がないと思われる)は、PDEの学習ソリューションオペレーターの文脈では無視されている。 本稿では,畳み込みニューラルネットワークに対して,関数を入力や出力として処理できることを実証するために,新しい適応法を提案する。 結果として得られるアーキテクチャは畳み込みニューラル演算子(CNO)と呼ばれ、コンピュータ上で離散化された形式で実装されたとしても、その基盤となる連続性を維持するように設計されている。 普遍性定理を証明し、CNOが PDE で生じる作用素を所望の精度で近似できることを示す。 CNOは、多スケールなソリューションを備えた多種多様なPDEを含む、新しいベンチマークスイートでテストされ、ベースラインを大幅に上回り、堅牢で正確な演算子学習のための代替フレームワークの道を開く。 私たちのコードはhttps://github.com/bogdanraonic3/ConvolutionalNeuralOperatorで公開されています。

Although very successfully used in conventional machine learning, convolution based neural network architectures -- believed to be inconsistent in function space -- have been largely ignored in the context of learning solution operators of PDEs. Here, we present novel adaptations for convolutional neural networks to demonstrate that they are indeed able to process functions as inputs and outputs. The resulting architecture, termed as convolutional neural operators (CNOs), is designed specifically to preserve its underlying continuous nature, even when implemented in a discretized form on a computer. We prove a universality theorem to show that CNOs can approximate operators arising in PDEs to desired accuracy. CNOs are tested on a novel suite of benchmarks, encompassing a diverse set of PDEs with possibly multi-scale solutions and are observed to significantly outperform baselines, paving the way for an alternative framework for robust and accurate operator learning. Our code is publicly available at https://github.com/bogdanraonic3/ConvolutionalNeuralOperator
翻訳日:2023-12-06 01:39:47 公開日:2023-12-01
# SAOR:シングルビューArticulated Object Restruction

SAOR: Single-View Articulated Object Reconstruction ( http://arxiv.org/abs/2303.13514v2 )

ライセンス: Link先を確認
Mehmet Ayg\"un and Oisin Mac Aodha(参考訳) 本稿では,野生で撮影された1枚の画像から,明瞭な物体の3次元形状,テクスチャ,視点を推定する新しい手法であるsaorを紹介する。 事前に定義されたカテゴリ固有の3Dテンプレートや調整された3Dスケルトンに依存する従来のアプローチとは異なり、SAORは3Dオブジェクトの形状を事前に必要とせずに、スケルトンフリーのパーツベースモデルで単一ビューイメージコレクションから形状を明瞭化することを学ぶ。 そこで本研究では,不規則な物体形状の変形と調音を利用するクロスインスタンス整合損失を提案する。 これは、トレーニング中の視点の多様性を高めるために、新しいシルエットベースのサンプリングメカニズムによって助けられる。 本手法では,トレーニング中に既成のネットワークから推定対象シルエットと相対深度マップのみが必要となる。 単一のビュー画像が与えられた推論時に、明示的なメッシュ表現を効率よく出力する。 既存の課題と比較して,四足動物の質的・定量的評価が向上した。

We introduce SAOR, a novel approach for estimating the 3D shape, texture, and viewpoint of an articulated object from a single image captured in the wild. Unlike prior approaches that rely on pre-defined category-specific 3D templates or tailored 3D skeletons, SAOR learns to articulate shapes from single-view image collections with a skeleton-free part-based model without requiring any 3D object shape priors. To prevent ill-posed solutions, we propose a cross-instance consistency loss that exploits disentangled object shape deformation and articulation. This is helped by a new silhouette-based sampling mechanism to enhance viewpoint diversity during training. Our method only requires estimated object silhouettes and relative depth maps from off-the-shelf pre-trained networks during training. At inference time, given a single-view image, it efficiently outputs an explicit mesh representation. We obtain improved qualitative and quantitative results on challenging quadruped animals compared to relevant existing work.
翻訳日:2023-12-06 01:29:12 公開日:2023-12-01
# crossformer++: クロススケールに注目する多用途視覚トランスフォーマー

CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention ( http://arxiv.org/abs/2303.06908v2 )

ライセンス: Link先を確認
Wenxiao Wang, Wei Chen, Qibo Qiu, Long Chen, Boxi Wu, Binbin Lin, Xiaofei He and Wei Liu(参考訳) 異なるスケールの特徴は視覚入力にとって知覚的に重要であるが、既存の視覚トランスフォーマーはまだそれらを明示的に活用していない。 そこで我々はまず,クロススケールな視覚変換器であるCrossFormerを提案する。 クロススケール埋め込み層(CEL)と長距離注意層(LSDA)を導入している。 一方、CELは各トークンを異なるスケールの複数のパッチでブレンドし、セルフアテンションモジュール自体にクロススケールの機能を提供します。 一方lsdaは、セルフアテンションモジュールを近距離モジュールと遠距離モジュールに分割し、計算負荷を低減させるだけでなく、小規模と大規模両方の特徴をトークンに保持する。 さらに,クロスフォーマの実験を通じて,視覚トランスフォーマーの性能に影響を及ぼす2つの問題,すなわち拡大自着写像と振幅爆発を観察した。 そこで我々は,2つの問題を緩和するために,プログレッシブグループサイズ(PGS)パラダイムと振幅冷却層(ACL)パラダイムを提案する。 PGSとACLを統合したCrossFormerはCrossFormer++と呼ばれる。 大規模な実験では、CrossFormer++はイメージ分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションタスクにおいて、他のビジョントランスフォーマーよりも優れていた。 コードは、https://github.com/cheerss/CrossFormer.comで入手できる。

While features of different scales are perceptually important to visual inputs, existing vision transformers do not yet take advantage of them explicitly. To this end, we first propose a cross-scale vision transformer, CrossFormer. It introduces a cross-scale embedding layer (CEL) and a long-short distance attention (LSDA). On the one hand, CEL blends each token with multiple patches of different scales, providing the self-attention module itself with cross-scale features. On the other hand, LSDA splits the self-attention module into a short-distance one and a long-distance counterpart, which not only reduces the computational burden but also keeps both small-scale and large-scale features in the tokens. Moreover, through experiments on CrossFormer, we observe another two issues that affect vision transformers' performance, i.e., the enlarging self-attention maps and amplitude explosion. Thus, we further propose a progressive group size (PGS) paradigm and an amplitude cooling layer (ACL) to alleviate the two issues, respectively. The CrossFormer incorporating with PGS and ACL is called CrossFormer++. Extensive experiments show that CrossFormer++ outperforms the other vision transformers on image classification, object detection, instance segmentation, and semantic segmentation tasks. The code will be available at: https://github.com/cheerss/CrossFormer.
翻訳日:2023-12-06 01:27:27 公開日:2023-12-01
# 言語モデルの復号アルゴリズムを盗む

Stealing the Decoding Algorithms of Language Models ( http://arxiv.org/abs/2303.04729v4 )

ライセンス: Link先を確認
Ali Naseh, Kalpesh Krishna, Mohit Iyyer, Amir Houmansadr(参考訳) 現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。 これらのアルゴリズムは、LMによって生成される内部確率分布からテキストを生成する方法を決定する。 復号アルゴリズムを選択してハイパーパラメータをチューニングするプロセスには、かなりの時間、手作業、計算が必要であり、人的評価も必要である。 したがって、そのような復号アルゴリズムのアイデンティティとハイパーパラメータは、所有者にとって極めて貴重であると考えられる。 この研究で、我々は、lmに典型的なapiアクセスを持つ敵が、非常に低い金銭的コストでデコードアルゴリズムのタイプとハイパーパラメータを盗むことができることを初めて示す。 我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。 GPT-3の4つのバージョンでは、$$$0.8$、$$$1$、$$$4$、$$$40$などである。

A key component of generating text from modern language models (LM) is the selection and tuning of decoding algorithms. These algorithms determine how to generate text from the internal probability distribution generated by the LM. The process of choosing a decoding algorithm and tuning its hyperparameters takes significant time, manual effort, and computation, and it also requires extensive human evaluation. Therefore, the identity and hyperparameters of such decoding algorithms are considered to be extremely valuable to their owners. In this work, we show, for the first time, that an adversary with typical API access to an LM can steal the type and hyperparameters of its decoding algorithms at very low monetary costs. Our attack is effective against popular LMs used in text generation APIs, including GPT-2, GPT-3 and GPT-Neo. We demonstrate the feasibility of stealing such information with only a few dollars, e.g., $\$0.8$, $\$1$, $\$4$, and $\$40$ for the four versions of GPT-3.
翻訳日:2023-12-06 01:26:13 公開日:2023-12-01
# U(1)対称ハイブリッド量子オートマトン回路における絡み合いダイナミクス

Entanglement dynamics in U(1) symmetric hybrid quantum automaton circuits ( http://arxiv.org/abs/2305.18141v2 )

ライセンス: Link先を確認
Yiqiu Han, Xiao Chen(参考訳) 量子オートマトン(QA)回路のU(1)対称性の存在下での絡み合いのダイナミクスについて検討する。 2つ目の R'enyi エントロピーは対数補正で微分的に成長し、Huang [IOP SciNotes 1, 035205 (2020)] によって確立された境界を飽和する。 qa回路の特長のおかげで、古典的ビット文字列モデルの観点から、絡み合いのダイナミクスを理解している。 具体的には、拡散ダイナミクスはスピン0または1の幅広い長い領域を含む希少なスローモードに由来すると論じる。 さらに,QA回路のU(1)対称性と特性を両立させる複合計測を導入することで,監視されたQA回路の絡み合いのダイナミクスを解明する。 測定速度が増加するにつれて、第2のR'enyiエントロピーが拡散成長(対数補正まで)を持続する体積法相から、時間的に対数的に成長する臨界相への遷移が存在することがわかった。 この興味深い現象は、u(1)対称ハール乱数回路のような非オートマトン回路とqa回路を区別し、体積則相転移の体積則が存在し、体積則相における射影的測定の非零度がr\'enyiエントロピーの弾道的成長をもたらす。

We study the entanglement dynamics of quantum automaton (QA) circuits in the presence of U(1) symmetry. We find that the second R\'enyi entropy grows diffusively with a logarithmic correction as $\sqrt{t\ln{t}}$, saturating the bound established by Huang [IOP SciNotes 1, 035205 (2020)]. Thanks to the special feature of QA circuits, we understand the entanglement dynamics in terms of a classical bit string model. Specifically, we argue that the diffusive dynamics stems from the rare slow modes containing extensively long domains of spin 0s or 1s. Additionally, we investigate the entanglement dynamics of monitored QA circuits by introducing a composite measurement that preserves both the U(1) symmetry and properties of QA circuits. We find that as the measurement rate increases, there is a transition from a volume-law phase where the second R\'enyi entropy persists the diffusive growth (up to a logarithmic correction) to a critical phase where it grows logarithmically in time. This interesting phenomenon distinguishes QA circuits from non-automaton circuits such as U(1)-symmetric Haar random circuits, where a volume-law to an area-law phase transition exists, and any non-zero rate of projective measurements in the volume-law phase leads to a ballistic growth of the R\'enyi entropy.
翻訳日:2023-12-05 23:18:39 公開日:2023-12-01
# マージン中心:毒性検出における有害集団のアウトリアーに基づく同定

Centering the Margins: Outlier-Based Identification of Harmed Populations in Toxicity Detection ( http://arxiv.org/abs/2305.14735v3 )

ライセンス: Link先を確認
Vyoma Raman, Eve Fleisig, Dan Klein(参考訳) マージン化されたコミュニティに対するaiモデルの影響は、伝統的に、特定の人口集団間のパフォーマンスの差を特定することによって測定されてきた。 このアプローチは脆弱なグループを集中することを目的としているが、交差するサブグループや複数のグループ間で共有される害のパターンを隠蔽するリスクがある。 そこで本研究では,障害研究と関連する分野の限界化の理論を考察し,一般から遠く離れた人々がより逆境に直面していることを述べ,毒性検出領域における「マージン」を考える。 我々は,「ノーム」から離れた人口特性を持つ人々に関するテキストを特定するために,外れ値検出を用いてデータセットの「マージン」を運用する。 モデルパフォーマンスは、人口減少率に対して一貫して悪化しており、平均2乗誤差(MSE)は、毒性タイプに対して最大70.4%悪くなる。 また、テキストの外れ値が68.4%まで上昇するほど、テキストの外れ値も悪化する。 また,重篤な毒性とアイデンティティ攻撃の分類において,テキストや人口統計学的異常が特に誤りの影響を受けやすいことも見いだした。 従来の人口統計による差異の分析と比較すると、我々の外乱分析は、より大きな交叉群が直面するより大きな害をしばしば表面化しており、これらのグループに対する害を特定するのに特に有益であることが示唆される。

The impact of AI models on marginalized communities has traditionally been measured by identifying performance differences between specified demographic subgroups. Though this approach aims to center vulnerable groups, it risks obscuring patterns of harm faced by intersectional subgroups or shared across multiple groups. To address this, we draw on theories of marginalization from disability studies and related disciplines, which state that people farther from the norm face greater adversity, to consider the "margins" in the domain of toxicity detection. We operationalize the "margins" of a dataset by employing outlier detection to identify text about people with demographic attributes distant from the "norm". We find that model performance is consistently worse for demographic outliers, with mean squared error (MSE) between outliers and non-outliers up to 70.4% worse across toxicity types. It is also worse for text outliers, with a MSE up to 68.4% higher for outliers than non-outliers. We also find text and demographic outliers to be particularly susceptible to errors in the classification of severe toxicity and identity attacks. Compared to analysis of disparities using traditional demographic breakdowns, we find that our outlier analysis frequently surfaces greater harms faced by a larger, more intersectional group, which suggests that outlier analysis is particularly beneficial for identifying harms against those groups.
翻訳日:2023-12-05 23:16:14 公開日:2023-12-01
# ChatGPTとその他の類似システムはAIの現代ルネサンスハイドラか?

Are ChatGPT and Other Similar Systems the Modern Lernaean Hydras of AI? ( http://arxiv.org/abs/2306.09267v2 )

ライセンス: Link先を確認
Dimitrios Ioannidis, Jeremy Kepner, Andrew Bowne, Harriet S. Bryant(参考訳) 生成的人工知能システム('AIシステム')の台頭は、前例のない社会的関与を生み出した。 AIコード生成システムは、過去数十年にわたって開発者が作成した膨大なオープンソースコードライブラリにアクセスすることで、質問や要求に対する応答(出力)を提供する。 しかし、リポジトリとして知られる仮想ライブラリに格納されているオープンソースコードを盗むことで、そうする。 本条では, イノベーションを保護し, 長年の訴訟を回避できる解決策が存在するかどうかを論じる。 AIと著作権の関係によって引き起こされたさまざまな問題にも触れる。 先を見据えて次のように提案する。 (a) 開発者が作成するオープンソースコードのライセンスを直ちに変更し、人間にのみオープンソースコードへのアクセス及び/又は使用を制限すること。 b) マサチューセッツ工科大学('mit')ライセンスを改訂して、aiシステムがオープンソースコード開発者から適切なライセンスを取得する必要があることを提案します。私たちは、利益主導のイノベーションのセンターを促進するのではなく、標準を調和させ、すべての人類の利益のために社会的コンセンサスを構築すると信じています。 (c)我々は、AIシステムの将来を守りつつ、イノベーションを推進するための緊急の立法措置を求める。 (d)難読ケースにおけるAIシステムへの証明の負担のシフトを提案する。

The rise of Generative Artificial Intelligence systems (''AI systems'') has created unprecedented social engagement. AI code generation systems provide responses (output) to questions or requests by accessing the vast library of open-source code created by developers over the past few decades. However, they do so by allegedly stealing the open-source code stored in virtual libraries, known as repositories. This Article focuses on how this happens and whether there is a solution that protects innovation and avoids years of litigation. We also touch upon the array of issues raised by the relationship between AI and copyright. Looking ahead, we propose the following: (a) immediate changes to the licenses for open-source code created by developers that will limit access and/or use of any open-source code to humans only; (b) we suggest revisions to the Massachusetts Institute of Technology (''MIT'') license so that AI systems are required to procure appropriate licenses from open-source code developers, which we believe will harmonize standards and build social consensus for the benefit of all of humanity, rather than promote profit-driven centers of innovation; (c) we call for urgent legislative action to protect the future of AI systems while also promoting innovation; and (d) we propose a shift in the burden of proof to AI systems in obfuscation cases.
翻訳日:2023-12-05 23:08:21 公開日:2023-12-01
# LoSh:ビデオオブジェクトセグメント参照のための長短テキスト共同予測ネットワーク

LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation ( http://arxiv.org/abs/2306.08736v2 )

ライセンス: Link先を確認
Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen(参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。 テキスト表現は通常、インスタンスの外観、動作、他者との関係に関する洗練された記述を含む。 したがって、RVOSモデルでは、ビデオ内のすべての属性をキャプチャすることはかなり困難である。 これは、ターゲットインスタンスの部分的あるいは不正確なマスク予測に終わる可能性がある。 本稿では,従来の長文表現から主語中心の短文表現を抽出することで,この問題に対処する。 ショートは、ターゲットインスタンスの外観関連情報のみを保持するので、モデルがインスタンスの外観に注意を集中するために使用できます。 提案手法では, 長文と短文の両方を用いた共同予測を行い, 長文のクロスアテンションモジュールを挿入し, 複合特徴と長文の交叉損失とを相互作用させ, 合同予測を制御する。 また,前向きの視覚的整合性損失も導入し,アノテートフレームと時間的隣接部との間の視覚的特徴の整合性に光学的流れを利用する。 アートパイプラインの2つの状態の上にメソッドを構築します。 A2D-Sentences,Refer-YouTube-VOS,JHMDB-Sentences,Refer-DAVIS17の大規模な実験により,本手法の大幅な改善が示された。

Referring video object segmentation (RVOS) aims to segment the target instance referred by a given text expression in a video clip. The text expression normally contains sophisticated description of the instance's appearance, action, and relation with others. It is therefore rather difficult for a RVOS model to capture all these attributes correspondingly in the video; in fact, the model often favours more on the action- and relation-related visual attributes of the instance. This can end up with partial or even incorrect mask prediction of the target instance. We tackle this problem by taking a subject-centric short text expression from the original long text expression. The short one retains only the appearance-related information of the target instance so that we can use it to focus the model's attention on the instance's appearance. We let the model make joint predictions using both long and short text expressions; and insert a long-short cross-attention module to interact the joint features and a long-short predictions intersection loss to regulate the joint predictions. Besides the improvement on the linguistic part, we also introduce a forward-backward visual consistency loss, which utilizes optical flows to warp visual features between the annotated frames and their temporal neighbors for consistency. We build our method on top of two state of the art pipelines. Extensive experiments on A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences and Refer-DAVIS17 show impressive improvements of our method.
翻訳日:2023-12-05 23:07:41 公開日:2023-12-01
# コントラストリフト:低速コントラスト融合による3次元オブジェクトインスタンスのセグメンテーション

Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion ( http://arxiv.org/abs/2306.04633v2 )

ライセンス: Link先を確認
Yash Bhalgat, Iro Laina, Jo\~ao F. Henriques, Andrew Zisserman, Andrea Vedaldi(参考訳) 3Dのインスタンスセグメンテーションは、大規模なアノテートデータセットが欠如しているため、難しいタスクである。 本稿では, 実例分割のための2次元事前学習モデルを活用することで, この課題を効果的に解決できることを示す。 本稿では,2次元セグメントを3次元に昇降させ,フレーム間の多視点整合性を促進するニューラルフィールド表現を用いて融合させる新しい手法を提案する。 このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。 従来の手法とは違って,本手法では,オブジェクト数やフレーム間のオブジェクト追跡の上限は不要である。 スローファストクラスタリングのスケーラビリティを示すために、メッシールームデータセットと呼ばれる、シーン毎に最大500オブジェクトのシーンを特徴とする、新しい半現実的なデータセットを作成しました。 当社のアプローチは、scannetやhypersim、レプリカデータセットといった困難な場面や、新たに作成された乱雑な部屋データセットの最先端を上回っており、低速クラスタリング手法の有効性とスケーラビリティを実証しています。

Instance segmentation in 3D is a challenging task due to the lack of large-scale annotated datasets. In this paper, we show that this task can be addressed effectively by leveraging instead 2D pre-trained models for instance segmentation. We propose a novel approach to lift 2D segments to 3D and fuse them by means of a neural field representation, which encourages multi-view consistency across frames. The core of our approach is a slow-fast clustering objective function, which is scalable and well-suited for scenes with a large number of objects. Unlike previous approaches, our method does not require an upper bound on the number of objects or object tracking across frames. To demonstrate the scalability of the slow-fast clustering, we create a new semi-realistic dataset called the Messy Rooms dataset, which features scenes with up to 500 objects per scene. Our approach outperforms the state-of-the-art on challenging scenes from the ScanNet, Hypersim, and Replica datasets, as well as on our newly created Messy Rooms dataset, demonstrating the effectiveness and scalability of our slow-fast clustering method.
翻訳日:2023-12-05 23:06:06 公開日:2023-12-01
# VideoGLUE: 基礎モデルの総合的評価

VideoGLUE: Video General Understanding Evaluation of Foundation Models ( http://arxiv.org/abs/2307.03166v2 )

ライセンス: Link先を確認
Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin Cui, Lu Jiang, Xuan Yang, Menglin Jia, Tobias Weyand, Luke Friedman, Mikhail Sirotenko, Huisheng Wang, Florian Schroff, Hartwig Adam, Ming-Hsuan Yang, Ting Liu, Boqing Gong(参考訳) 本研究では,3つのホールマークタスク(動作認識,時間的局所化,時空間的局所化),コミュニティが受け取りやすい8つのデータセット,下流タスクのための基盤モデル(fm)を調整した4つの適応手法を用いて,既存の基礎モデルビデオ理解能力を評価した。 さらに,一般的な映像理解タスクに適応する際のfmsの有効性と効率を測定するためのスカラービデオグルスコア(vgs)を提案する。 主な発見は以下の通りである。 第一に、タスク特化モデルは、自然言語や画像理解においてFMが達成したものとは対照的に、本研究で研究した6つのFMよりも著しく優れている。 第2に、動画モダリティを含む事前トレーニングデータを持つビデオネイティブfmsは、モーションリッチビデオの分類、時間内のアクションのローカライズ、複数のアクションのビデオの理解において、画像ネイティブfmsよりも一般的に優れている。 第3に、ビデオネイティブFMは、ダウンストリームタスク(例えば、FMバックボーンの凍結)に光順応したビデオタスクでうまく機能し、画像ネイティブFMは、完全なエンドツーエンドの微調整で勝利する。 最初の2つの観察により、ビデオ中心のfmsの研究を行う必要性と膨大な機会が明らかとなり、最後に、fmsの評価に関してタスクと適応方法の両方が重要であることが確認された。 私たちのコードは、https://github.com/tensorflow/models/tree/master/official/projects/videoglueでリリースされています。

We evaluate existing foundation models video understanding capabilities using a carefully designed experiment protocol consisting of three hallmark tasks (action recognition, temporal localization, and spatiotemporal localization), eight datasets well received by the community, and four adaptation methods tailoring a foundation model (FM) for a downstream task. Moreover, we propose a scalar VideoGLUE score (VGS) to measure an FMs efficacy and efficiency when adapting to general video understanding tasks. Our main findings are as follows. First, task-specialized models significantly outperform the six FMs studied in this work, in sharp contrast to what FMs have achieved in natural language and image understanding. Second,video-native FMs, whose pretraining data contains the video modality, are generally better than image-native FMs in classifying motion-rich videos, localizing actions in time, and understanding a video of more than one action. Third, the video-native FMs can perform well on video tasks under light adaptations to downstream tasks(e.g., freezing the FM backbones), while image-native FMs win in full end-to-end finetuning. The first two observations reveal the need and tremendous opportunities to conduct research on video-focused FMs, and the last confirms that both tasks and adaptation methods matter when it comes to the evaluation of FMs. Our code is released under: https://github.com/tensorflow/models/tree/master/official/projects/videoglue.
翻訳日:2023-12-05 22:56:07 公開日:2023-12-01
# 神経材料のための階層構造

A Hierarchical Architecture for Neural Materials ( http://arxiv.org/abs/2307.10135v2 )

ライセンス: Link先を確認
Bowen Xue, Shuang Zhao, Henrik Wann Jensen, Zahra Montazeri(参考訳) ニューラルリフレクタンスモデルは、多くの現実世界の物質を異なるスケールで空間的に変化する外観を再現することができる。 残念ながら、NeuMIPのような既存の技術は、強いシャドーイング効果や詳細なスペックハイライトを持つ材料を扱うのに苦労している。 本稿では,新しいレベルの精度を提供するニューラルな外観モデルを提案する。 私たちのモデルの中心はインセプションベースのコアネットワーク構造で、並列動作するカーネルを使って複数のスケールで素材の外観をキャプチャし、特殊な畳み込み層を通じてマルチステージの機能を保証する。 さらに、入力を周波数空間に符号化し、勾配に基づく損失を導入し、学習相の進行に適応させる。 本手法の有効性を, 様々な合成例と実例を用いて示す。

Neural reflectance models are capable of reproducing the spatially-varying appearance of many real-world materials at different scales. Unfortunately, existing techniques such as NeuMIP have difficulties handling materials with strong shadowing effects or detailed specular highlights. In this paper, we introduce a neural appearance model that offers a new level of accuracy. Central to our model is an inception-based core network structure that captures material appearances at multiple scales using parallel-operating kernels and ensures multi-stage features through specialized convolution layers. Furthermore, we encode the inputs into frequency space, introduce a gradient-based loss, and employ it adaptive to the progress of the learning phase. We demonstrate the effectiveness of our method using a variety of synthetic and real examples.
翻訳日:2023-12-05 22:41:56 公開日:2023-12-01
# 映像音源分離のための一般化帯域分割ニューラルネットワーク

A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation ( http://arxiv.org/abs/2309.02539v3 )

ライセンス: Link先を確認
Karn N. Watcharasupat, Chih-Wei Wu, Yiwei Ding, Iroro Orife, Aaron J. Hipple, Phillip A. Williams, Scott Kramer, Alexander Lerch, and William Wolcott(参考訳) 映像音源分離は、音声音源分離の比較的新しいサブタスクであり、その混合物から対話、音楽、効果を抽出することを目的としている。 本研究では,周波数軸の完全あるいは過剰な分割に対してバンドスプリットRNNを一般化するモデルを開発した。 心理的に動機づけられた周波数尺度は、より信頼性の高い特徴抽出のために冗長性で定義されているバンド定義を知らせるために用いられた。 1-ノルムの信号対雑音比とスパーシティ・プロモーティング特性に動機づけられた損失関数を提案した。 さらに、共通エンコーダ構成の情報共有性を利用して、トレーニングと推論の両方における計算複雑性を低減し、音のクラスを一般化する際の分離性能を改善し、デタッチ可能なデコーダによる推論時間における柔軟性を実現する。 我々の最良のモデルは、対話stemの理想的な比マスクよりも高いパフォーマンスで分割とリマスターのデータセットに芸術の状態を設定します。

Cinematic audio source separation is a relatively new subtask of audio source separation, with the aim of extracting the dialogue, music, and effects stems from their mixture. In this work, we developed a model generalizing the Bandsplit RNN for any complete or overcomplete partitions of the frequency axis. Psychoacoustically motivated frequency scales were used to inform the band definitions which are now defined with redundancy for more reliable feature extraction. A loss function motivated by the signal-to-noise ratio and the sparsity-promoting property of the 1-norm was proposed. We additionally exploit the information-sharing property of a common-encoder setup to reduce computational complexity during both training and inference, improve separation performance for hard-to-generalize classes of sounds, and allow flexibility during inference time with detachable decoders. Our best model sets the state of the art on the Divide and Remaster dataset with performance above the ideal ratio mask for the dialogue stem.
翻訳日:2023-12-05 22:35:45 公開日:2023-12-01
# アルミニウム合金の添加摩擦スター堆積におけるピーク温度分布予測のための機械学習と物理に基づく機械学習手法

Supervised Machine Learning and Physics based Machine Learning approach for prediction of peak temperature distribution in Additive Friction Stir Deposition of Aluminium Alloy ( http://arxiv.org/abs/2309.06838v2 )

ライセンス: Link先を確認
Akshansh Mishra(参考訳) AFSD (Additive friction stir deposition) は、従来の粉体層融合と誘導エネルギーデポジションアプローチを悩ませるポーシティ、ひび割れ、特性異方性の問題を回避する新しい固体添加物製造技術である。 しかし, プロセスパラメータ, 温度分布, その結果のAFSDの微細構造との相関はよく分かっていない。 これはプロパティのプロセス最適化を妨げる。 本研究は,プロセスパラメータからafsdのピーク温度分布を予測するために,教師付き機械学習 (sml) と物理形ニューラルネットワーク (pinns) を組み合わせた枠組みを用いる。 SMLモデリングのために8つの回帰アルゴリズムが実装され、4つのPINNは輸送、波動伝播、熱伝達、量子力学の制御方程式を利用した。 複数の統計指標において、勾配の上昇のようなアンサンブル技術はSMLより優れており、MSEは165.78である。 また,ロジスティック回帰がロバストな精度をもたらすプロセス因子から沈着品質を分類するために,統合ml法を適用した。 データ駆動学習と基礎物理学を融合することにより、この2つの方法論はafsdの熱管理による微細構造の調整に関する包括的な洞察を提供する。 この研究は、AMプロセス-プロパティ関係を解明するための統計および物理に基づくモデリングをブリッジする力を示す。

Additive friction stir deposition (AFSD) is a novel solid-state additive manufacturing technique that circumvents issues of porosity, cracking, and properties anisotropy that plague traditional powder bed fusion and directed energy deposition approaches. However, correlations between process parameters, thermal profiles, and resulting microstructure in AFSD remain poorly understood. This hinders process optimization for properties. This work employs a framework combining supervised machine learning (SML) and physics-informed neural networks (PINNs) to predict peak temperature distribution in AFSD from process parameters. Eight regression algorithms were implemented for SML modeling, while four PINNs leveraged governing equations for transport, wave propagation, heat transfer, and quantum mechanics. Across multiple statistical measures, ensemble techniques like gradient boosting proved superior for SML, with lowest MSE of 165.78. The integrated ML approach was also applied to classify deposition quality from process factors, with logistic regression delivering robust accuracy. By fusing data-driven learning and fundamental physics, this dual methodology provides comprehensive insights into tailoring microstructure through thermal management in AFSD. The work demonstrates the power of bridging statistical and physics-based modeling for elucidating AM process-property relationships.
翻訳日:2023-12-05 22:21:01 公開日:2023-12-01
# FIND:解釈可能性評価のための関数記述ベンチマーク

FIND: A Function Description Benchmark for Evaluating Interpretability Methods ( http://arxiv.org/abs/2309.03886v2 )

ライセンス: Link先を確認
Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil Chowdhury, Shuang Li, Jacob Andreas, David Bau, Antonio Torralba(参考訳) このような記述は、失敗を表面化したり、介入をガイドしたり、重要なモデルの振る舞いを説明したりする。 これまで、訓練されたネットワークの機械的な記述の多くは、小さなモデル、狭義に区切られた現象、そして大量の人的労働を伴う。 サイズと複雑さの増大したモデルに、人間解釈可能なサブ計算をラベル付けするには、ほぼ確実に、記述を自動生成し検証するツールが必要である。 近年,ループ内学習モデルを用いたラベリング手法が注目され始めているが,有効性を評価する手法は限られている。 オープンなラベル付けツールの検証と比較には,どうすればよいのか? 本稿では,自動解釈手法の構成ブロックを評価するためのベンチマークスイートであるfind(function interpretation and description)を提案する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。 関数はテキストドメインと数値ドメインにまたがり、様々な現実世界の複雑さを含む。 本研究では,事前学習された言語モデル(LM)を用いて,自然言語やコードにおける関数の振る舞いを記述する手法を評価する。 さらに,AIA(Automated Interpretability Agent)が関数記述を生成するインタラクティブな手法を提案する。 関数へのブラックボックスアクセスを持つLMから構築されたAIAは、機能構造を推論し、仮説を定式化し、実験を提案し、新しいデータに照らして記述を更新することで科学者として振る舞うことができる。 しかし、AIAの記述はグローバル関数の振る舞いを捉え、局所的な詳細を見逃す傾向がある。 これらの結果から,FINDは実世界のモデルに適用する前に,より洗練された解釈可能性の評価に有用であることが示唆された。

Labeling neural network submodules with human-legible descriptions is useful for many downstream tasks: such descriptions can surface failures, guide interventions, and perhaps even explain important model behaviors. To date, most mechanistic descriptions of trained networks have involved small models, narrowly delimited phenomena, and large amounts of human labor. Labeling all human-interpretable sub-computations in models of increasing size and complexity will almost certainly require tools that can generate and validate descriptions automatically. Recently, techniques that use learned models in-the-loop for labeling have begun to gain traction, but methods for evaluating their efficacy are limited and ad-hoc. How should we validate and compare open-ended labeling tools? This paper introduces FIND (Function INterpretation and Description), a benchmark suite for evaluating the building blocks of automated interpretability methods. FIND contains functions that resemble components of trained neural networks, and accompanying descriptions of the kind we seek to generate. The functions span textual and numeric domains, and involve a range of real-world complexities. We evaluate methods that use pretrained language models (LMs) to produce descriptions of function behavior in natural language and code. Additionally, we introduce a new interactive method in which an Automated Interpretability Agent (AIA) generates function descriptions. We find that an AIA, built from an LM with black-box access to functions, can infer function structure, acting as a scientist by forming hypotheses, proposing experiments, and updating descriptions in light of new data. However, AIA descriptions tend to capture global function behavior and miss local details. These results suggest that FIND will be useful for evaluating more sophisticated interpretability methods before they are applied to real-world models.
翻訳日:2023-12-05 22:18:38 公開日:2023-12-01
# 時間エネルギー相関によるX線パラメトリックダウン変換の確認

Confirming X-ray Parametric Down Conversion by Time-Energy Correlation ( http://arxiv.org/abs/2309.13197v2 )

ライセンス: Link先を確認
N. J. Hartley, D. Hodge, T. Buckway, R. Camacho, P. Chow, E. Christie, A. Gleason, S. Glenzer, A. Halavanau, A. M. Hardy, C. Recker, S. Sheehan, S. Shwartz, H. Tarvin, M. Ware, J. Wunschel, Y. Xiao, R.L. Sandberg, G. Walker(参考訳) 我々は、アドバンスト光子源シンクロトロン施設におけるX線パラメトリックダウン変換の測定を行った。 22 kevの入射ポンプビームを用いて,ダイヤモンド結晶中に発生する下向光子対の同時弾性放射を観測した。 このペアは低ノイズのシリコンドリフト検出器を用いて検出される。 10~12keVのエネルギー窓内の光子対を短時間でしか観測できない検出器信号の時間-エネルギー相関を測定することにより、ダウンコンバージョンによる生成を確認した。 結晶不一致と検出器位置を系統的に変化させることにより,ダウン変換信号の総和値と一致した結果を得る。 観測されたペアの最大速度は130/時間であり、変換効率は5.3 \pm 0.5 \times 10^{-13}$である。

We present measurements of X-ray Parametric Down Conversion at the Advanced Photon Source synchrotron facility. Using an incoming pump beam at 22 keV, we observe the simultaneous, elastic emission of down-converted photon pairs generated in a diamond crystal. The pairs are detected using high count rate silicon drift detectors with low noise. Production by down-conversion is confirmed by measuring time-energy correlations in the detector signal, where photon pairs within an energy window ranging from 10 to 12 keV are only observed at short time differences. By systematically varying the crystal misalignment and detector positions, we obtain results that are consistent with the constant total of the down-converted signal. Our maximum rate of observed pairs was 130 /hour, corresponding to a conversion efficiency for the down-conversion process of $5.3 \pm 0.5 \times 10^{-13}$.
翻訳日:2023-12-05 22:07:37 公開日:2023-12-01
# 『Kelly is a Warm Person, Joseph is a Role Model』 LLM-Generated Reference Letters におけるジェンダーバイアス

"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters ( http://arxiv.org/abs/2310.09219v5 )

ライセンス: Link先を確認
Yixin Wan, George Pu, Jiao Sun, Aparna Garimella, Kai-Wei Chang, Nanyun Peng(参考訳) 大規模言語モデル(LLM)は、リコメンデーションレターなどの専門文書など、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。 利便性をもたらすが、このアプリケーションには前例のない公平性の懸念もある。 モデル生成参照文字は、プロのシナリオでユーザーが直接使用することもある。 これらのモデル構築された文字に根底にあるバイアスが存在する場合、精査なしで使用すると、女性の応募者にとってのアプリケーション成功率を妨害するなど、直接的な社会的害につながる可能性がある。 この差し迫った問題を踏まえると、この実世界のユースケースにおいて公平性の問題と関連する損害を包括的に研究する必要がある。 本稿では,llm生成基準文字における性別バイアスを批判的に検討する。 社会科学の知見からインスピレーションを得て,(1)言語スタイルバイアス,(2)語彙コンテンツバイアスという2次元のバイアスを顕示する評価手法を設計した。 さらに,モデルの幻覚バイアスを解析することにより,バイアス伝播の程度について検討する。 2つのLLMsChatGPTとAlpacaのベンチマーク評価により,LLM生成レコメンデーションレコメンデーションレターに有意な性別バイアスが認められた。 本研究は, LLM の使用を精査せずに警告するだけでなく, LLM 生成専門文書における隠れバイアスや害を徹底的に研究することの重要性も明らかにした。

Large Language Models (LLMs) have recently emerged as an effective tool to assist individuals in writing various types of content, including professional documents such as recommendation letters. Though bringing convenience, this application also introduces unprecedented fairness concerns. Model-generated reference letters might be directly used by users in professional scenarios. If underlying biases exist in these model-constructed letters, using them without scrutinization could lead to direct societal harms, such as sabotaging application success rates for female applicants. In light of this pressing issue, it is imminent and necessary to comprehensively study fairness issues and associated harms in this real-world use case. In this paper, we critically examine gender biases in LLM-generated reference letters. Drawing inspiration from social science findings, we design evaluation methods to manifest biases through 2 dimensions: (1) biases in language style and (2) biases in lexical content. We further investigate the extent of bias propagation by analyzing the hallucination bias of models, a term that we define to be bias exacerbation in model-hallucinated contents. Through benchmarking evaluation on 2 popular LLMs- ChatGPT and Alpaca, we reveal significant gender biases in LLM-generated recommendation letters. Our findings not only warn against using LLMs for this application without scrutinization, but also illuminate the importance of thoroughly studying hidden biases and harms in LLM-generated professional documents.
翻訳日:2023-12-05 22:00:16 公開日:2023-12-01
# 非スムース弱凸有限サム結合合成最適化

Non-Smooth Weakly-Convex Finite-sum Coupled Compositional Optimization ( http://arxiv.org/abs/2310.03234v2 )

ライセンス: Link先を確認
Quanqi Hu, Dixian Zhu, Tianbao Yang(参考訳) 本稿では,新しい合成最適化問題である$\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO)について検討する。 機械学習とAIの幅広い応用と、経験的リスク最小化に基づく確率的アルゴリズムの欠点に対処する能力により、FCCOへの関心が高まっている。 しかし、FCCOの最近の研究は、内部関数と外部関数の両方が滑らかであり、より多様な問題に取り組む可能性を制限すると仮定している。 本研究は,外関数が弱凸で非減少し,内関数が弱凸である非滑らかなFCCOを調べることにより,この領域を拡大する。 単一ループアルゴリズムを解析し、目的関数のモロー包絡の $\epsilon$-stationary point を見つけるための複雑さを確立する。 さらに,3つの関数の入れ子配置を特徴とする,新しい非スムース弱凸三レベル有限サム結合合成最適化問題にもアルゴリズムを拡張した。 最後に,2方向部分AUC最大化と多方向部分AUC最大化のためのディープラーニングにおけるアルゴリズムの適用について検討し,提案アルゴリズムの有効性を示す実験的検討を行った。

This paper investigates new families of compositional optimization problems, called $\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO). There has been a growing interest in FCCO due to its wide-ranging applications in machine learning and AI, as well as its ability to address the shortcomings of stochastic algorithms based on empirical risk minimization. However, current research on FCCO presumes that both the inner and outer functions are smooth, limiting their potential to tackle a more diverse set of problems. Our research expands on this area by examining non-smooth weakly-convex FCCO, where the outer function is weakly convex and non-decreasing, and the inner function is weakly-convex. We analyze a single-loop algorithm and establish its complexity for finding an $\epsilon$-stationary point of the Moreau envelop of the objective function. Additionally, we also extend the algorithm to solving novel non-smooth weakly-convex tri-level finite-sum coupled compositional optimization problems, which feature a nested arrangement of three functions. Lastly, we explore the applications of our algorithms in deep learning for two-way partial AUC maximization and multi-instance two-way partial AUC maximization, using empirical studies to showcase the effectiveness of the proposed algorithms.
翻訳日:2023-12-05 21:58:21 公開日:2023-12-01
# LeTFuser:マルチタスク学習による自律運転のための軽量エンドツーエンドトランスフォーマーベースセンサフュージョン

LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning ( http://arxiv.org/abs/2310.13135v3 )

ライセンス: Link先を確認
Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen(参考訳) エンド・ツー・エンドの自律運転において、既存のセンサフュージョン技術とナビゲーション制御手法を利用した模倣学習は、多数の動的エージェントを含む困難な状況において不十分であることを示す。 この問題に対処するために、複数のRGB-Dカメラ表現を融合する軽量トランスフォーマーベースのアルゴリズムLeTFuserを紹介する。 認識と制御を同時に行うためには,マルチタスク学習を利用する。 本モデルは,RGB-Dカメラから得られた観測データを符号化する知覚モジュールである2つのモジュールから構成される。 コンボリューションビジョントランスフォーマー (cvt) \cite{wu2021cvt} を用いて, コンボリューションとトランスフォーマーモジュールの局所的およびグローバル的特徴抽出能力により, 複数のrgbカメラから特徴を抽出・融合する手法を提案する。 コード化された機能と静的環境と動的環境は、後に私たちの制御モジュールがウェイポイントと車体制御(ステアリング、スロットル、ブレーキなど)を予測するために使用します。 車両制御レベルの生成には2つの方法を用いる。 第1の方法は、PIDアルゴリズムを用いてハエの進路を追従する一方、第2の方法は、計測特性と環境状態を用いて制御ポリシーを直接予測する。 実世界のシナリオをシミュレーションするために,本モデルを評価し,CARLAシミュレータを用いた最近のモデルとの比較分析を行った。 本手法は運転能力の基準値に対して, より良い, 比較可能な結果を示した。 将来の研究を容易にするために、コードは \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} で入手できる。

In end-to-end autonomous driving, the utilization of existing sensor fusion techniques and navigational control methods for imitation learning proves inadequate in challenging situations that involve numerous dynamic agents. To address this issue, we introduce LeTFuser, a lightweight transformer-based algorithm for fusing multiple RGB-D camera representations. To perform perception and control tasks simultaneously, we utilize multi-task learning. Our model comprises of two modules, the first being the perception module that is responsible for encoding the observation data obtained from the RGB-D cameras. Our approach employs the Convolutional vision Transformer (CvT) \cite{wu2021cvt} to better extract and fuse features from multiple RGB cameras due to local and global feature extraction capability of convolution and transformer modules, respectively. Encoded features combined with static and dynamic environments are later employed by our control module to predict waypoints and vehicular controls (e.g. steering, throttle, and brake). We use two methods to generate the vehicular controls levels. The first method uses a PID algorithm to follow the waypoints on the fly, whereas the second one directly predicts the control policy using the measurement features and environmental state. We evaluate the model and conduct a comparative analysis with recent models on the CARLA simulator using various scenarios, ranging from normal to adversarial conditions, to simulate real-world scenarios. Our method demonstrated better or comparable results with respect to our baselines in term of driving abilities. The code is available at \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} to facilitate future studies.
翻訳日:2023-12-05 21:47:24 公開日:2023-12-01
# 複数の観測者がKSコンテキスト性を検出することができるか?

Can multiple observers detect KS-contextuality? ( http://arxiv.org/abs/2310.19564v2 )

ライセンス: Link先を確認
Arthur C. R. Dutra, Roberto D. Baldij\~ao, Marcelo Terra Cunha(参考訳) KS-コンテキスト性は量子論の重要な特徴である。 以前の研究では、複数の独立したオブザーバが同じシステム上で連続的に測定するセットアップにおいて、$N$-cycle KS-contextualityがなくなりました。 この現象は、状態が劣化し、量子資源が枯渇する追加観測者の測定として説明できる。 この説明は、状態に依存しない文脈性はそのようなシステムで生き残るべきであることを意味する。 本稿では,この現象はそうではないことを示す。 この結果は,公共システムにおけるペレスメルミン非文脈性不等式を破ろうとするオブザーバーをシミュレートすることで達成した。 さらに, 状況に依存しない場合においても文脈性が失われることを説明するため, 設定の分析的記述を提供する。 最終的に、これらの結果は、状態に依存しない文脈性は、ある文脈の測定の間にあるシステムに何が起こるかとは独立ではないことを示している。

KS-contextuality is a crucial feature of quantum theory. Previous research demonstrated the vanishing of $N$-cycle KS-contextuality in setups where multiple independent observers measure sequentially on the same system, which we call Public Systems. This phenomenon can be explained as the additional observers' measurements degrading the state and depleting the quantum resource. This explanation would imply that state-independent contextuality should survive in such a system. In this paper, we show that this is not the case. We achieved this result by simulating an observer trying to violate the Peres-Mermin noncontextuality inequality in a Public System. Additionally, we provide an analytical description of our setup, explaining the loss of contextuality even in the state-independent case. Ultimately, these results show that state-independent contextuality is not independent of what happens to the system in-between the measurements of a context.
翻訳日:2023-12-05 21:35:38 公開日:2023-12-01
# 位相温度測定における臨界強調精度

Criticality-Enhanced Precision in Phase Thermometry ( http://arxiv.org/abs/2311.14578v2 )

ライセンス: Link先を確認
Mei Yu, H. Chau Nguyen, Stefan Nimmrichter(参考訳) 相互作用する量子多体系の温度推定は、相転移における臨界挙動がメトロロジーの感度を高めることができるため、量子メトロロジーにおける課題と話題の両方である。 本研究では,有限な2次元イジングスピン格子の非侵襲的量子温度測定を,格子に結合したスピンプローブの非マルコフデファスダイナミクスの測定に基づいて検討する。 我々は,結合範囲と問合せ時間に依存する量子フィッシャー情報の観点から,達成可能な精度の強い臨界的向上を示す。 数値シミュレーションは,完全連結格子のキュリーワイスモデルにおける感度の臨界スケーリングに関する指導的解析結果と,スピンプローブが敏感な格子上の臨界スピン揺らぎを記述できない熱力学的極限における平均場記述と比較した。 したがって位相計測は、平均場モデルの妥当性を超えて有限多体系の臨界挙動を調べるのに役立つ。

Temperature estimation of interacting quantum many-body systems is both a challenging task and topic of interest in quantum metrology, given that critical behavior at phase transitions can boost the metrological sensitivity. Here we study non-invasive quantum thermometry of a finite, two-dimensional Ising spin lattice based on measuring the non-Markovian dephasing dynamics of a spin probe coupled to the lattice. We demonstrate a strong critical enhancement of the achievable precision in terms of the quantum Fisher information, which depends on the coupling range and the interrogation time. Our numerical simulations are compared to instructive analytic results for the critical scaling of the sensitivity in the Curie-Weiss model of a fully connected lattice and to the mean-field description in the thermodynamic limit, both of which fail to describe the critical spin fluctuations on the lattice the spin probe is sensitive to. Phase metrology could thus help to investigate the critical behaviour of finite many-body systems beyond the validity of mean-field models.
翻訳日:2023-12-05 21:14:31 公開日:2023-12-01
# SPOT! イベント理解のためのビデオ言語モデルの再検討

SPOT! Revisiting Video-Language Models for Event Understanding ( http://arxiv.org/abs/2311.12919v2 )

ライセンス: Link先を確認
Gengyuan Zhang, Jinhe Bi, Jindong Gu, Yanyu Chen, Volker Tresp(参考訳) ビデオを理解することはマルチモーダル学習の重要な研究テーマである。 ウェブクローリングされたビデオテキストペアの大規模データセットを弱い監視として活用することは、共同表現を学習するための事前学習パラダイムとなり、ビデオ理解タスクにおいて顕著なポテンシャルを示した。 しかし、ビデオは多段階的かつ多段階的であり、ビデオテキストペアは通常、広レベルなビデオキャプションのみを含む。 ビデオ言語モデルにおけるビデオ表現は、テキスト記述における実際の不一致を識別し、きめ細かい出来事を理解する能力を得ることができるだろうか? そこで本研究では,既存の映像言語モデルのイベント理解能力の指標として,イベントレベルの差異を識別する能力のベンチマークを行うspot proberを提案する。 提案手法では,ビデオからイベントをタプル(<subject, predicate, object, attribute, timestamps>)として抽出し,タプルコンポーネントを体系的に操作して偽のイベントタプルを生成する。 これらの肯定的・否定的なキャプションで既存のビデオ言語モデルを再評価し、操作されたイベントのほとんどを区別できないことを示した。 そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。

Understanding videos is an important research topic for multimodal learning. Leveraging large-scale datasets of web-crawled video-text pairs as weak supervision has become a pre-training paradigm for learning joint representations and showcased remarkable potential in video understanding tasks. However, videos can be multi-event and multi-grained, while these video-text pairs usually contain only broad-level video captions. This raises a question: with such weak supervision, can video representation in video-language models gain the ability to distinguish even factual discrepancies in textual description and understand fine-grained events? To address this, we introduce SPOT Prober, to benchmark existing video-language models's capacities of distinguishing event-level discrepancies as an indicator of models' event understanding ability. Our approach involves extracting events as tuples (<Subject, Predicate, Object, Attribute, Timestamps>) from videos and generating false event tuples by manipulating tuple components systematically. We reevaluate the existing video-language models with these positive and negative captions and find they fail to distinguish most of the manipulated events. Based on our findings, we propose to plug in these manipulated event captions as hard negative samples and find them effective in enhancing models for event understanding.
翻訳日:2023-12-05 21:12:41 公開日:2023-12-01
# 一般ゼロショット学習のための属性認識型表現法

Attribute-Aware Representation Rectification for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2311.14750v2 )

ライセンス: Link先を確認
Zhijie Rao, Jingcai Guo, Xiaocheng Lu, Qihua Zhou, Jie Zhang, Kang Wei, Chenxin Li, Song Guo(参考訳) 一般化されたゼロショット学習(gzsl)は、一連の偏りのないビジュアル・セマンティクスマッピングを設計し、その精度は目に見えるクラスと見えないクラスの両方から抽出された視覚特徴の完全性に大きく依存している。 しかしながら、gzslにおける一般的な慣例として、事前訓練された特徴抽出器は、下流のタスク/データセットのドメイン固有の特性を捉えるのが容易であり、特に見当たらないクラスにおいて、全体的な認識性能を妨げる、きめ細かい識別機能、すなわちドメインバイアスを提供する。 最近の研究では、微調整された特徴抽出器によって部分的にこの問題に対処しているが、必然的に破滅的な放棄と過剰フィッティングの問題を引き起こす可能性がある。 本稿では,GZSL の簡易かつ効果的な属性認識表現フレームワークである $\mathbf{(AR)^{2}}$ を提案する。 具体的には,UAD (Unseen-Aware Distillation) とAGL (Attribute-Guided Learning) の2つの要素から構成される。 トレーニング中、UDAは、未確認のクラスと未確認のクラスの両方で共有される属性テキストの事前知識を利用して、未確認のクラス感受性の視覚的特徴をターゲットとして検出・維持すると同時に、AGLは、価値ある特徴に焦点を合わせ、属性誘導表現学習により、そのクラスにノイズのある要素を適合させることを抑えることを目的としている。 各種ベンチマークデータセットの大規模な実験により,本手法の有効性が示された。

Generalized Zero-shot Learning (GZSL) has yielded remarkable performance by designing a series of unbiased visual-semantics mappings, wherein, the precision relies heavily on the completeness of extracted visual features from both seen and unseen classes. However, as a common practice in GZSL, the pre-trained feature extractor may easily exhibit difficulty in capturing domain-specific traits of the downstream tasks/datasets to provide fine-grained discriminative features, i.e., domain bias, which hinders the overall recognition performance, especially for unseen classes. Recent studies partially address this issue by fine-tuning feature extractors, while may inevitably incur catastrophic forgetting and overfitting issues. In this paper, we propose a simple yet effective Attribute-Aware Representation Rectification framework for GZSL, dubbed $\mathbf{(AR)^{2}}$, to adaptively rectify the feature extractor to learn novel features while keeping original valuable features. Specifically, our method consists of two key components, i.e., Unseen-Aware Distillation (UAD) and Attribute-Guided Learning (AGL). During training, UAD exploits the prior knowledge of attribute texts that are shared by both seen/unseen classes with attention mechanisms to detect and maintain unseen class-sensitive visual features in a targeted manner, and meanwhile, AGL aims to steer the model to focus on valuable features and suppress them to fit noisy elements in the seen classes by attribute-guided representation learning. Extensive experiments on various benchmark datasets demonstrate the effectiveness of our method.
翻訳日:2023-12-05 20:58:55 公開日:2023-12-01
# GeoDream:高忠実で一貫した3D生成のための2次元および幾何学的優先事項の分離

GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and Consistent 3D Generation ( http://arxiv.org/abs/2311.17971v2 )

ライセンス: Link先を確認
Baorui Ma, Haoge Deng, Junsheng Zhou, Yu-Shen Liu, Tiejun Huang, Xinlong Wang(参考訳) 事前訓練された大規模テキストから画像への拡散モデルの蒸留によるテキストから3d生成は大きな期待が持たれているが、3次元幾何学的構造(ヤヌス問題)と重篤なアーティファクトに苦しめられている。 上記の問題は、リフト中の3次元認識を欠いた2次元拡散モデルに起因する。 本研究では,2次元拡散優先を伴う明示的な一般化3次元事前化を取り入れ,多様性や忠実性を犠牲にすることなく不明瞭な3次元整合幾何構造を得る能力を高める新しい手法であるgeodreamを提案する。 具体的には、まず、多視点拡散モデルを用いてポーズ画像を生成し、予測画像からコストボリュームを構築し、3次元空間における空間的一貫性を確保する。 さらに, 3次元幾何学的前駆体を用いて, 2次元拡散前駆体における3次元認識の大きな可能性を不連続設計により解き放つことを提案する。 特に、2Dと3Dの先行を遠ざけることで、さらに3Dの幾何学的先行を洗練できます。 改良された3次元幾何前駆体は2次元拡散前駆体の3次元認識能力を助長し、3次元幾何前駆体の改良のための優れたガイダンスを提供する。 我々の数値的および視覚的比較は、GeoDreamが高解像度のリアルレンダリング(1024$\times$1024)でより3D一貫性のあるテクスチャメッシュを生成し、セマンティックコヒーレンスにより密着していることを示している。

Text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models has shown great promise but still suffers from inconsistent 3D geometric structures (Janus problems) and severe artifacts. The aforementioned problems mainly stem from 2D diffusion models lacking 3D awareness during the lifting. In this work, we present GeoDream, a novel method that incorporates explicit generalized 3D priors with 2D diffusion priors to enhance the capability of obtaining unambiguous 3D consistent geometric structures without sacrificing diversity or fidelity. Specifically, we first utilize a multi-view diffusion model to generate posed images and then construct cost volume from the predicted image, which serves as native 3D geometric priors, ensuring spatial consistency in 3D space. Subsequently, we further propose to harness 3D geometric priors to unlock the great potential of 3D awareness in 2D diffusion priors via a disentangled design. Notably, disentangling 2D and 3D priors allows us to refine 3D geometric priors further. We justify that the refined 3D geometric priors aid in the 3D-aware capability of 2D diffusion priors, which in turn provides superior guidance for the refinement of 3D geometric priors. Our numerical and visual comparisons demonstrate that GeoDream generates more 3D consistent textured meshes with high-resolution realistic renderings (i.e., 1024 $\times$ 1024) and adheres more closely to semantic coherence.
翻訳日:2023-12-05 20:51:19 公開日:2023-12-01
# SoUnDフレームワーク: (Un)structured (D)ataにおける (So)cial Representationの解析

SoUnD Framework: Analyzing (So)cial Representation in (Un)structured (D)ata ( http://arxiv.org/abs/2311.17259v2 )

ライセンス: Link先を確認
Mark D\'iaz, Sunipa Dev, Emily Reif, Emily Denton, Vinodkumar Prabhakaran(参考訳) 基礎モデル開発で使用されるデータの非構造化の性質は、データの使用やドキュメントの決定を行うための体系的な分析の課題である。 責任あるaiの観点からすると、これらの決定は、データにおける人々の表現方法を理解することに依存することが多い。 本稿では,非構造化データにおける人間表現の分析を指導し,下流リスクを識別するための枠組みを提案する。 このフレームワークをCommon Crawl Web text corpus (C4) と LAION-400M の2つの例に適用する。 また、データセットの使用、開発、およびドキュメントのサービスにおける一連の仮定的なアクションステップも提案する。

The unstructured nature of data used in foundation model development is a challenge to systematic analyses for making data use and documentation decisions. From a Responsible AI perspective, these decisions often rely upon understanding how people are represented in data. We propose a framework designed to guide analysis of human representation in unstructured data and identify downstream risks. We apply the framework in two toy examples using the Common Crawl web text corpus (C4) and LAION-400M. We also propose a set of hypothetical action steps in service of dataset use, development, and documentation.
翻訳日:2023-12-05 20:49:38 公開日:2023-12-01
# 胸部X線写真からのデータの抽出のための一般目的対ドメイン適応大言語モデル

General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Data from Thoracic Radiology Reports ( http://arxiv.org/abs/2311.17213v2 )

ライセンス: Link先を確認
Ali H. Dhanaliwala, Rikhiya Ghosh, Sanjeev Kumar Karn, Poikavila Ullaskrishnan, Oladimeji Farri, Dorin Comaniciu and Charles E. Kahn(参考訳) 放射線科医は、情報システムによって消費される臨床治療に有用な非構造化データを生成する。 しかし、スタイルのバリエーションは使用を制限する。 胸部X線写真から共通データ要素(CDE)を抽出する際,ドメイン適応言語モデル(RadLing)と汎用大言語モデル(GPT-4)を用いたシステムの性能の比較を行った。 3人の放射線学者が1300の胸部リポート(900のトレーニング、400の試験)の振り返りデータセットに注釈を付け、21の関連するCDEにマッピングした。 radlingは文の埋め込みを生成し、cosine- similarityを使ってcdを識別するために使われ、軽量マッパーを使って値にマッピングされた。 GPT-4システムはOpenAIの汎用埋め込みを使用して関連するCDEを識別し、GPT-4を使って値にマッピングした。 出力のcde:valueペアは参照標準と比較され、正の一致は正であると考えられた。 精度(正の予測値)はRadLingが96%(2700/2824)、GPT-4が99%(2034/2047)であった。 リコール(感度)はRadLingが94%(2700/2876)、GPT-4が70%(2034/2887)、統計学的に有意差(P<.001。 RadLingのドメイン適応型埋め込みはCDE識別(95%対71%)に敏感であり、軽量マッパーは95.4%対95.0%)と同等の精度であった。 RadLing system は GPT-4 system よりも高い性能を示した。 RadLingシステムのドメイン適応埋め込みは、CDE識別におけるOpenAIの汎用埋め込みよりも優れており、その軽量値マッパーは大きなGPT-4に匹敵する精度を達成する。 RadLingシステムは、ローカルデプロイメントやランタイムコストの削減など、運用上のメリットを提供する。 ドメイン適応型RadLingシステムは、ローカルデプロイメントと低コストのメリットを提供しながら、放射線学レポートから共通データ要素を抽出するGPT-4システムを上回る。

Radiologists produce unstructured data that could be valuable for clinical care when consumed by information systems. However, variability in style limits usage. Study compares performance of system using domain-adapted language model (RadLing) and general-purpose large language model (GPT-4) in extracting common data elements (CDE) from thoracic radiology reports. Three radiologists annotated a retrospective dataset of 1300 thoracic reports (900 training, 400 test) and mapped to 21 pre-selected relevant CDEs. RadLing was used to generate embeddings for sentences and identify CDEs using cosine-similarity, which were mapped to values using light-weight mapper. GPT-4 system used OpenAI's general-purpose embeddings to identify relevant CDEs and used GPT-4 to map to values. The output CDE:value pairs were compared to the reference standard; an identical match was considered true positive. Precision (positive predictive value) was 96% (2700/2824) for RadLing and 99% (2034/2047) for GPT-4. Recall (sensitivity) was 94% (2700/2876) for RadLing and 70% (2034/2887) for GPT-4; the difference was statistically significant (P<.001). RadLing's domain-adapted embeddings were more sensitive in CDE identification (95% vs 71%) and its light-weight mapper had comparable precision in value assignment (95.4% vs 95.0%). RadLing system exhibited higher performance than GPT-4 system in extracting CDEs from radiology reports. RadLing system's domain-adapted embeddings outperform general-purpose embeddings from OpenAI in CDE identification and its light-weight value mapper achieves comparable precision to large GPT-4. RadLing system offers operational advantages including local deployment and reduced runtime costs. Domain-adapted RadLing system surpasses GPT-4 system in extracting common data elements from radiology reports, while providing benefits of local deployment and lower costs.
翻訳日:2023-12-05 20:48:57 公開日:2023-12-01
# VMC:テキスト・ビデオ拡散モデルにおける時間的注意適応を用いた動画モーションのカスタマイズ

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models ( http://arxiv.org/abs/2312.00845v1 )

ライセンス: Link先を確認
Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye(参考訳) テキスト・ビデオ拡散モデルでは、ビデオ生成が大幅に進歩している。 しかし、これらのモデルをカスタマイズして動きを調整したビデオを生成することは、大きな課題となる。 特にハードルに遭遇します (a)ターゲット映像からの動きを正確に再現し、 (b)多様な視覚変化を生み出すこと。 例えば、ビデオに対する静的な画像のカスタマイズ方法の素直な拡張は、しばしば外観とモーションデータの複雑な絡み合いにつながる。 これを解決するために,ビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法であるビデオモーションカスタマイズ(VMC)フレームワークを提案する。 提案手法では,連続フレーム間の残留ベクトルを運動基準として,新しい運動蒸留目的を導入する。 拡散過程は、画像空間における高周波運動非関連ノイズを緩和しながら、低周波運動軌跡を保存する。 本手法は,実世界の様々な動きや文脈にまたがって,最先端のビデオ生成モデルに対して検証を行う。 私たちのコード、データ、プロジェクトのデモはhttps://video-motion-customization.github.ioで確認できます。

Text-to-video diffusion models have advanced video generation significantly. However, customizing these models to generate videos with tailored motions presents a substantial challenge. In specific, they encounter hurdles in (a) accurately reproducing motion from a target video, and (b) creating diverse visual variations. For example, straightforward extensions of static image customization methods to video often lead to intricate entanglements of appearance and motion data. To tackle this, here we present the Video Motion Customization (VMC) framework, a novel one-shot tuning approach crafted to adapt temporal attention layers within video diffusion models. Our approach introduces a novel motion distillation objective using residual vectors between consecutive frames as a motion reference. The diffusion process then preserves low-frequency motion trajectories while mitigating high-frequency motion-unrelated noise in image space. We validate our method against state-of-the-art video generative models across diverse real-world motions and contexts. Our codes, data and the project demo can be found at https://video-motion-customization.github.io
翻訳日:2023-12-05 20:41:44 公開日:2023-12-01
# Sparse Beats Dense:Radar-Cameraディープス完了のスーパービジョンを再考

Sparse Beats Dense: Rethinking Supervision in Radar-Camera Depth Completion ( http://arxiv.org/abs/2312.00844v1 )

ライセンス: Link先を確認
Huadong Li, Minhao Jing, Jiajun Liang, Haoqiang Fan, Renhe Ji(参考訳) 深度調整の分野における疎度管理よりも密集監督の方が優れていると広く信じられているが、その根底にある理由についてはほとんど議論されていない。 本稿では,レーダー・カメラ深度予測モデルの訓練にスパース監督を用いるという課題が,投影変換崩壊(ptc)であることを示す。 PTCは、スパース監視が、画像/レーダー/LiDAR空間間の予期せぬ崩壊したプロジェクション変換を学習するモデルにつながることを示唆している。 そこで本研究では,PSCを扱うための新しい「破壊補償」フレームワークを提案し,深度補修作業におけるスパース・インスペクションの活用を啓蒙する。 ディスラプション部は、画像/レーダー/LiDAR間の位置対応を意図的に破棄し、補償部は、3次元空間及び2次元意味情報を利用して、破棄された有益位置対応を補償する。 大規模な実験結果から,我々のフレームワークは,平均絶対誤差が11.6$\%,スピードアップが1.6 \times$で,最先端(高密度監視)よりも優れていた。 コードは...で入手できる。

It is widely believed that the dense supervision is better than the sparse supervision in the field of depth completion, but the underlying reasons for this are rarely discussed. In this paper, we find that the challenge of using sparse supervision for training Radar-Camera depth prediction models is the Projection Transformation Collapse (PTC). The PTC implies that sparse supervision leads the model to learn unexpected collapsed projection transformations between Image/Radar/LiDAR spaces. Building on this insight, we propose a novel ``Disruption-Compensation" framework to handle the PTC, thereby relighting the use of sparse supervision in depth completion tasks. The disruption part deliberately discards position correspondences among Image/Radar/LiDAR, while the compensation part leverages 3D spatial and 2D semantic information to compensate for the discarded beneficial position correspondence. Extensive experimental results demonstrate that our framework (sparse supervision) outperforms the state-of-the-art (dense supervision) with 11.6$\%$ improvement in mean absolute error and $1.6 \times$ speedup. The code is available at ...
翻訳日:2023-12-05 20:41:29 公開日:2023-12-01
# 大規模言語モデルのための分散学習のロバスト性を探る

Exploring the Robustness of Decentralized Training for Large Language Models ( http://arxiv.org/abs/2312.00843v1 )

ライセンス: Link先を確認
Lin Lu, Chenxi Dai, Wangcheng Tao, Binhang Yuan, Yanan Sun, Pan Zhou(参考訳) 大規模言語モデルの分散トレーニングは、この技術を民主化する効果的な方法として登場した。 しかしながら、このアプローチに関連する潜在的な脅威は慎重に議論されておらず、分散トレーニングインフラストラクチャの開発を妨げている。 本稿では,3つの視点から分散トレーニングのロバスト性を検討することにより,この目的に向けて議論を始めることを目的とする。 まず、ハードウェア、データ、モデルの観点から、分散化されたトレーニングフレームワークに固有の脆弱性を実証する。 第2に,分散基盤モデルトレーニングとバニラフェデレーション学習の基本的な違いに注目し,フェデレーション学習で採用されるセキュリティ技術を直接適用できない点について述べる。 第3に,堅牢で効率的な分散トレーニングフレームワークに必要な必須コンポーネントについて検討し,具体的な脅威モデルをモデル化したケーススタディを提案する。 本研究の目的は,大規模言語モデルの分散学習におけるセキュリティ問題に対処することの重要性を強調することである。

Decentralized training of large language models has emerged as an effective way to democratize this technology. However, the potential threats associated with this approach have not been carefully discussed, which would hinder the development of decentralized training infrastructures. This paper aims to initiate discussion towards this end by exploring the robustness of decentralized training from three main perspectives. First, we demonstrate the vulnerabilities inherent in decentralized training frameworks in terms of hardware, data, and models. Second, we highlight the fundamental difference between decentralized foundation model training and vanilla federated learning, where the security techniques employed in federated learning cannot be applied directly. Third, we discuss the essential components required for a robust and efficient decentralized training framework and present a case study by modeling a concrete threat model. Our objective in this vision paper is to emphasize the importance of addressing security concerns in the context of decentralized training for large language models.
翻訳日:2023-12-05 20:41:06 公開日:2023-12-01
# ESM-NBR:タンパク質言語モデルの特徴表現とマルチタスク学習による高速かつ正確な核酸結合残基予測

ESM-NBR: fast and accurate nucleic acid-binding residue prediction via protein language model feature representation and multi-task learning ( http://arxiv.org/abs/2312.00842v1 )

ライセンス: Link先を確認
Wenwu Zeng, Dafeng Lv, Wenjuan Liu, Shaoliang Peng(参考訳) タンパク質-核酸相互作用は様々な生物活性において非常に重要な役割を果たす。 核酸結合残基の正確な同定は相互作用機構を理解するための重要なステップである。 多くの計算的手法が核酸結合残基を予測するために開発されたが、課題は残る。 本研究ではESM-NBRと呼ばれる高速かつ高精度なシーケンスベース手法を提案する。 ESM-NBRでは、まず大きなタンパク質言語モデルESM2を用いて、タンパク質一次配列から識別生物学的特徴の表現を抽出し、次に、積み重ねた双方向長短期メモリ(BiLSTM)と多層パーセプトロン(MLP)ネットワークからなるマルチタスク深層学習モデルを用いて、ESM2の機能を持つDNAおよびRNA結合残基の共通およびプライベート情報を入力として探索する。 ESM2特徴表現の予測性能は,進化的情報に基づく隠れマルコフモデル(HMM)の特徴を包括的に上回ることを示した。 一方、ESM-NBRは、2つの独立したテストセットにおいて0.427と0.391のDNA結合残基のMCC値をそれぞれ18.61と10.45%高くなる。 さらに、時間コスト多重配列アライメントプロセスを完全に破棄することにより、esm-nbrの予測速度は既存の方法よりはるかに速い(第2の高速法より約16倍速い長さ500のタンパク質配列の5.52s)。 ユーザフレンドリーなスタンドアロンパッケージとESM-NBRのデータは、 https://github.com/wwzll123/ESM-NBRで無料で利用できる。

Protein-nucleic acid interactions play a very important role in a variety of biological activities. Accurate identification of nucleic acid-binding residues is a critical step in understanding the interaction mechanisms. Although many computationally based methods have been developed to predict nucleic acid-binding residues, challenges remain. In this study, a fast and accurate sequence-based method, called ESM-NBR, is proposed. In ESM-NBR, we first use the large protein language model ESM2 to extract discriminative biological properties feature representation from protein primary sequences; then, a multi-task deep learning model composed of stacked bidirectional long short-term memory (BiLSTM) and multi-layer perceptron (MLP) networks is employed to explore common and private information of DNA- and RNA-binding residues with ESM2 feature as input. Experimental results on benchmark data sets demonstrate that the prediction performance of ESM2 feature representation comprehensively outperforms evolutionary information-based hidden Markov model (HMM) features. Meanwhile, the ESM-NBR obtains the MCC values for DNA-binding residues prediction of 0.427 and 0.391 on two independent test sets, which are 18.61 and 10.45% higher than those of the second-best methods, respectively. Moreover, by completely discarding the time-cost multiple sequence alignment process, the prediction speed of ESM-NBR far exceeds that of existing methods (5.52s for a protein sequence of length 500, which is about 16 times faster than the second-fastest method). A user-friendly standalone package and the data of ESM-NBR are freely available for academic use at: https://github.com/wwzll123/ESM-NBR.
翻訳日:2023-12-05 20:40:53 公開日:2023-12-01
# 連続学習における冗長性フリーサブネットワークに向けて

Towards Redundancy-Free Sub-networks in Continual Learning ( http://arxiv.org/abs/2312.00840v1 )

ライセンス: Link先を確認
Cheng Chen, Jingkuan Song, LianLi Gao, Heng Tao Shen(参考訳) カタストロフィック・フォージッティング(CF)は、継続的な学習において顕著な問題である。 パラメータ分離は、各タスクのサブネットワークをマスクして、古いタスクに対する干渉を軽減することで、この課題に対処する。 しかし、これらのサブネットワークは重量の大きさに依存しており、必ずしも重量の重要性に一致しないため、重要でない重量を維持し、冗長なサブネットワークを構築することになる。 この制約を克服するために,隣接ネットワーク層間の冗長性を解消する情報ボトルネックに触発され,サブネットワーク間の冗長性を排除するために,サブネットワーク間の冗長性を排除するために,\textbf{\underline{i}nformation \underline{b}ottleneck \underline{m}asked sub-network (ibm)}を提案する。 具体的には、IBMは、冗長性のないサブネットワークを構築するために重要な重みに貴重な情報を蓄積し、サブネットワークを凍結することでCFを効果的に緩和するだけでなく、貴重な知識の伝達を通じて新しいタスクのトレーニングを促進する。 さらに、IBMは構築プロセスを自動化するために隠された表現を分解し、柔軟にする。 大規模な実験によると、IBMは最先端の手法を一貫して上回っている。 特に、IBMは最先端パラメータ分離法を超越し、サブネットワーク内のパラメータ数の70%削減とトレーニング時間の80%削減を実現している。

Catastrophic Forgetting (CF) is a prominent issue in continual learning. Parameter isolation addresses this challenge by masking a sub-network for each task to mitigate interference with old tasks. However, these sub-networks are constructed relying on weight magnitude, which does not necessarily correspond to the importance of weights, resulting in maintaining unimportant weights and constructing redundant sub-networks. To overcome this limitation, inspired by information bottleneck, which removes redundancy between adjacent network layers, we propose \textbf{\underline{I}nformation \underline{B}ottleneck \underline{M}asked sub-network (IBM)} to eliminate redundancy within sub-networks. Specifically, IBM accumulates valuable information into essential weights to construct redundancy-free sub-networks, not only effectively mitigating CF by freezing the sub-networks but also facilitating new tasks training through the transfer of valuable knowledge. Additionally, IBM decomposes hidden representations to automate the construction process and make it flexible. Extensive experiments demonstrate that IBM consistently outperforms state-of-the-art methods. Notably, IBM surpasses the state-of-the-art parameter isolation method with a 70\% reduction in the number of parameters within sub-networks and an 80\% decrease in training time.
翻訳日:2023-12-05 20:40:02 公開日:2023-12-01
# PipeOptim: 最適化器依存重量予測による有効1F1Bスケジュールの保証

PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent Weight Prediction ( http://arxiv.org/abs/2312.00839v1 )

ライセンス: Link先を確認
Lei Guan, Dongsheng Li, Jiye Liang, Wenjian Wang, Xicheng Lu(参考訳) 1F1B"(1つの前方、1つの後方)スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドが少なく、常に高いスループットを提供する。 しかし、"1f1b"スケジュールは、gpu間で異なるミニバッチをクロストレーニングするため、必然的に重みの矛盾と重りの停滞に繋がる。 本稿では,これら2つの問題に同時に対処するため,非同期パイプライン学習のための最適化器依存の重み予測戦略(PipeOptim)を提案する。 我々の提案の重要な洞察は、各ミニバッチが前方通過を計算するために一貫性と安定度のない重みを使用するように、前方通過に重み予測戦略を採用することである。 具体的には,ニューラルネットワークモデルのトレーニング時に使用するオプティマイザの更新ルールに基づいて,まず重み予測スキームを構築した。 その後、「1F1B」パイプライン訓練を通して、各ミニバッチは前方通過よりも先に重量予測を行い、その後予測重量を用いて前方通過を行うように強制される。 その結果 パイプオプティマイムは 1)"1F1B"スケジュールの利点を継承し、非常に高いスループットを生成します。 2) 使用するオプティマイザの種類に関わらず,効果的なパラメータ学習を実現する。 提案手法の有効性を検証するため,画像分類,感情分析,機械翻訳を含む3つの機械学習タスクにまたがる8種類のディープラーニングモデルを用いて実験を行った。 実験の結果,パイプオプティマイムはgpipe,pipedream,pipedream-2bw,spectruminなどの一般的なパイプラインアプローチよりも優れていた。 PipeOptimのコードはhttps://github.com/guanleics/PipeOptimでアクセスできる。

Asynchronous pipeline model parallelism with a "1F1B" (one forward, one backward) schedule generates little bubble overhead and always provides quite a high throughput. However, the "1F1B" schedule inevitably leads to weight inconsistency and weight staleness issues due to the cross-training of different mini-batches across GPUs. To simultaneously address these two problems, in this paper, we propose an optimizer-dependent weight prediction strategy (a.k.a PipeOptim) for asynchronous pipeline training. The key insight of our proposal is that we employ a weight prediction strategy in the forward pass to ensure that each mini-batch uses consistent and staleness-free weights to compute the forward pass. To be concrete, we first construct the weight prediction scheme based on the update rule of the used optimizer when training the deep neural network models. Then throughout the "1F1B" pipelined training, each mini-batch is mandated to execute weight prediction ahead of the forward pass, subsequently employing the predicted weights to perform the forward pass. As a result, PipeOptim 1) inherits the advantage of the "1F1B" schedule and generates pretty high throughput, and 2) can ensure effective parameter learning regardless of the type of the used optimizer. To verify the effectiveness of our proposal, we conducted extensive experimental evaluations using eight different deep-learning models spanning three machine-learning tasks including image classification, sentiment analysis, and machine translation. The experiment results demonstrate that PipeOptim outperforms the popular pipelined approaches including GPipe, PipeDream, PipeDream-2BW, and SpecTrain. The code of PipeOptim will be accessible at https://github.com/guanleics/PipeOptim.
翻訳日:2023-12-05 20:39:36 公開日:2023-12-01
# 医用画像の教師なし画像登録のための適応対応スコアリングフレームワーク

An Adaptive Correspondence Scoring Framework for Unsupervised Image Registration of Medical Images ( http://arxiv.org/abs/2312.00837v1 )

ライセンス: Link先を確認
Xiaoran Zhang, John C. Stendahl, Lawrence Staib, Albert J. Sinusas, Alex Wong, James S. Duncan(参考訳) 医用画像の教師なし登録のための適応的トレーニング手法を提案する。 既存の手法では、画像再構成を主要な監視信号として用いている。 しかし、ニュアサンス変数(例えばノイズや可視性)はしばしば医療画像間の対応の喪失を引き起こし、物理波(例えば超音波)におけるランベルシャンの仮定に違反し、一貫した画像取得を引き起こす。 教師なし学習は、画像間の対応を確立するために強度定数に依存するため、典型的な訓練目的からモデル化されていない散発的なエラー残差が生じる。 これを軽減するために,学習中の対応スコアマップで誤差残差を再重み付けする適応フレームワークを提案し,ノイズ勾配によるパラメトリック変位推定器の脱落を防止し,性能劣化を引き起こす。 提案手法の汎用性と有効性を説明するため,我々は3つの医用画像データセットにまたがる3つの代表的な登録アーキテクチャのフレームワークを他のベースラインとともに検証した。 提案する適応フレームワークは,定量的および定性的に,他の手法よりも一貫して優れている。 Paired t-testは、我々の改善が統計的に重要であることを示している。 コードは \url{https://voldemort108x.github.io/AdaCS/} で公開されている。

We propose an adaptive training scheme for unsupervised medical image registration. Existing methods rely on image reconstruction as the primary supervision signal. However, nuisance variables (e.g. noise and covisibility) often cause the loss of correspondence between medical images, violating the Lambertian assumption in physical waves (e.g. ultrasound) and consistent imaging acquisition. As the unsupervised learning scheme relies on intensity constancy to establish correspondence between images for reconstruction, this introduces spurious error residuals that are not modeled by the typical training objective. To mitigate this, we propose an adaptive framework that re-weights the error residuals with a correspondence scoring map during training, preventing the parametric displacement estimator from drifting away due to noisy gradients, which leads to performance degradations. To illustrate the versatility and effectiveness of our method, we tested our framework on three representative registration architectures across three medical image datasets along with other baselines. Our proposed adaptive framework consistently outperforms other methods both quantitatively and qualitatively. Paired t-tests show that our improvements are statistically significant. The code will be publicly available at \url{https://voldemort108x.github.io/AdaCS/}.
翻訳日:2023-12-05 20:39:09 公開日:2023-12-01
# 雑音画像の確率的教師なし登録のためのヘテロシデスティック不確かさ推定

Heteroscedastic Uncertainty Estimation for Probabilistic Unsupervised Registration of Noisy Medical Images ( http://arxiv.org/abs/2312.00836v1 )

ライセンス: Link先を確認
Xiaoran Zhang, Daniel H. Pak, Shawn S. Ahn, Xiaoxiao Li, Chenyu You, Lawrence Staib, Albert J. Sinusas, Alex Wong, James S. Duncan(参考訳) 本稿では, 医用医用画像登録のための不確実性評価フレームワークを提案する。 既存の手法は、現実の医療画像におけるノイズ分布の不連続性や入力依存性の特性を無視して、画像全体にわたって均一なノイズレベルを仮定する目的(例えば平均二乗誤差)に依存している。 これにより、不自然な変形と性能劣化を引き起こす不必要な外乱のペナル化によるノイズ勾配がもたらされる。 そこで本研究では, 偏差推定器を用いて異方性雑音をモデル化した後の変位推定器に対する相対的な$\gamma$-exponentiated signal-to-noise ratio (SNR) を用いた適応重み付け手法を提案する。 提案手法の汎用性と有効性を説明するため,医療用画像データセットにまたがる2つの代表的な登録アーキテクチャについて実験を行った。 提案手法は, 定量的, 定性的に, 正確かつ合理的な不確実性対策を提供しながら, 他のベースラインを一貫して上回っている。 Paired t-testsは,登録精度の向上が統計的に有意であることを示す。 コードは \url{https://voldemort108x.github.io/hetero_uncertainty/} で公開される。

This paper proposes a heteroscedastic uncertainty estimation framework for unsupervised medical image registration. Existing methods rely on objectives (e.g. mean-squared error) that assume a uniform noise level across the image, disregarding the heteroscedastic and input-dependent characteristics of noise distribution in real-world medical images. This further introduces noisy gradients due to undesired penalization on outliers, causing unnatural deformation and performance degradation. To mitigate this, we propose an adaptive weighting scheme with a relative $\gamma$-exponentiated signal-to-noise ratio (SNR) for the displacement estimator after modeling the heteroscedastic noise using a separate variance estimator to prevent the model from being driven away by spurious gradients from error residuals, leading to more accurate displacement estimation. To illustrate the versatility and effectiveness of the proposed method, we tested our framework on two representative registration architectures across three medical image datasets. Our proposed framework consistently outperforms other baselines both quantitatively and qualitatively while also providing accurate and sensible uncertainty measures. Paired t-tests show that our improvements in registration accuracy are statistically significant. The code will be publicly available at \url{https://voldemort108x.github.io/hetero_uncertainty/}.
翻訳日:2023-12-05 20:38:49 公開日:2023-12-01
# セグメントとキャプション

Segment and Caption Anything ( http://arxiv.org/abs/2312.00869v1 )

ライセンス: Link先を確認
Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu(参考訳) 本稿では,Segment Anything Model (SAM) を地域キャプションを生成する能力に効率よく装備する手法を提案する。 SAMは、セマンティック理解に短い間は、何でもセグメンテーションできる強力な一般化性を示す。 軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。 トレーニング可能なパラメータの数は少なく(通常は数千万という順序で)、計算量が少なく、メモリ使用量も少なく、通信帯域も少なく、高速かつスケーラブルなトレーニングを実現している。 地域キャプションデータの不足問題に対処するため,まず,対象検出とセグメンテーションタスクに関するモデルを事前学習することを提案する。 事前学習データは全文記述ではなくカテゴリ名のみを含むので,このステップを弱い指導プリトレーニングと呼ぶ。 弱い監視事前トレーニングにより、多くの公開オブジェクト検出とセグメンテーションデータセットを活用することができます。 提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。 この研究は、地域キャプションデータのスケールアップに向けた一歩として役立ち、SAMを地域意味論で強化する方法の探索に光を当てている。 プロジェクトページと関連するコードは、以下のhttps://xk-huang.github.io/segment-caption-anything/からアクセスできる。

We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via the following https://xk-huang.github.io/segment-caption-anything/.
翻訳日:2023-12-05 20:31:33 公開日:2023-12-01
# 量子加速限界

Quantum Acceleration Limit ( http://arxiv.org/abs/2312.00864v1 )

ライセンス: Link先を確認
Arun Kumar Pati(参考訳) 速度限界は量子系の力学進化時間の上限を与える。 ここでは、時間依存ハミルトニアンの下での量子系の単位時間発展に対する量子加速限界の概念を紹介する。 量子加速度はハミルトニアンの微分のゆらぎによって上界であることが証明される。 2レベル量子系の量子加速限界について説明する。 この概念は量子コンピューティング、量子制御、量子熱力学において重要な応用を持つことができる。

The speed limit provides an upper bound of the dynamical evolution time of a quantum system. Here, we introduce the notion of quantum acceleration limit for unitary time evolution of quantum systems under time-dependent Hamiltonian. We prove that the quantum acceleration is upper bounded by the fluctuation in the derivative of the Hamiltonian. We illustrate the quantum acceleration limit for a two-level quantum system. This notion can have important applications in quantum computing, quantum control and quantum thermodynamics.
翻訳日:2023-12-05 20:31:08 公開日:2023-12-01
# EfficientSAM: 効率的なセグメンテーションのためのマスク付きイメージ事前トレーニング

EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything ( http://arxiv.org/abs/2312.00863v1 )

ライセンス: Link先を確認
Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra(参考訳) Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。 ゼロショット転送と高汎用性のための印象的なパフォーマンスを駆動する重要なコンポーネントは、広範な高品質のSA-1Bデータセットに基づいてトレーニングされた超大規模トランスフォーマーモデルである。 しかし、SAMモデルの膨大な計算コストは、より広い現実世界のアプリケーションに限られている。 この制限に対処するため,我々は効率のよいsamモデルである軽量samモデルを提案する。 我々のアイデアは、SAM画像エンコーダから特徴を再構築して効果的な視覚表現学習を行うマスク付き画像事前学習(SAMI)を活用することに基づいている。 さらに,SAMI-pretrained light-weight image encoderとマスクデコーダを用いて効率的なSAMを構築し,任意のタスクをセグメント化するためにSA-1B上でモデルを微調整する。 画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックオブジェクト検出など複数の視覚タスクにおける評価を行い,提案手法であるsamiが,他のマスク画像プリトレーニング手法を一貫して上回っていることを見出した。 ゼロショットのインスタンスセグメンテーションのようなタスクでは、SAMIで事前訓練された軽量画像エンコーダによる効率の良いSAMは、他の高速SAMモデルよりも大きな利得(COCO/LVISの4APなど)で良好に機能する。

Segment Anything Model (SAM) has emerged as a powerful tool for numerous vision applications. A key component that drives the impressive performance for zero-shot transfer and high versatility is a super large Transformer model trained on the extensive high-quality SA-1B dataset. While beneficial, the huge computation cost of SAM model has limited its applications to wider real-world applications. To address this limitation, we propose EfficientSAMs, light-weight SAM models that exhibits decent performance with largely reduced complexity. Our idea is based on leveraging masked image pretraining, SAMI, which learns to reconstruct features from SAM image encoder for effective visual representation learning. Further, we take SAMI-pretrained light-weight image encoders and mask decoder to build EfficientSAMs, and finetune the models on SA-1B for segment anything task. We perform evaluations on multiple vision tasks including image classification, object detection, instance segmentation, and semantic object detection, and find that our proposed pretraining method, SAMI, consistently outperforms other masked image pretraining methods. On segment anything task such as zero-shot instance segmentation, our EfficientSAMs with SAMI-pretrained lightweight image encoders perform favorably with a significant gain (e.g., ~4 AP on COCO/LVIS) over other fast SAM models.
翻訳日:2023-12-05 20:31:03 公開日:2023-12-01
# スピン状態から社会統合イジングモデルへ--グラフ状態、安定状態、トーリック状態からオピニオンダイナミクスへの応用

From Spin States to Socially Integrated Ising Models: Proposed Applications of Graph States, Stabilizer States, Toric States to Opinion Dynamics ( http://arxiv.org/abs/2312.00862v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 近年の研究は物理学、特に統計力学からIsingモデルを開発し、量子コンピューティング、特に量子アニール法や量子モンテカルロ法において重要な役割を果たしている。 このモデルは、社会的相互作用や世論形成過程をシミュレートする強力なツールとして、意見力学でも使用されている。 個人の意見と好みはスピン状態に対応し、社会的圧力とコミュニケーションのダイナミクスはスピン間の相互作用によってモデル化される。 量子コンピューティングは、これらの相互作用を効率的にシミュレートし、より複雑なソーシャルネットワークを分析することができる。最近の研究は、グラフ状態、安定状態、表面コード(あるいはトーリック符号)といった量子情報理論の概念を、世論力学のモデルに取り入れている。 これらの概念を取り入れることで、意見形成の過程やソーシャルネットワークのダイナミクスをより詳細に分析することができる。 この概念はグラフ理論と量子論の交わりにあり、意見力学におけるグラフ状態の使用は個人の意見と影響力のネットワークの相互依存性を表すことができる。 これは、意見の局所的な安定性と、ソーシャルネットワーク内で誤解を修正するメカニズムを表現するのに役立つ。 個々人の意見が社会的プレッシャーや文化的影響にどのように影響するか、どのように変化するかを理解することができ、これらの量子論の概念を意見力学に組み込むことで、社会的相互作用や意見形成プロセスのより深い理解が可能になる。 さらに、これらの概念は社会科学だけでなく、政治科学、経済学、マーケティング、都市計画といった分野においても新たな洞察を与えることができる。

Recent research has developed the Ising model from physics, especially statistical mechanics, and it plays an important role in quantum computing, especially quantum annealing and quantum Monte Carlo methods. The model has also been used in opinion dynamics as a powerful tool for simulating social interactions and opinion formation processes. Individual opinions and preferences correspond to spin states, and social pressure and communication dynamics are modeled through interactions between spins. Quantum computing makes it possible to efficiently simulate these interactions and analyze more complex social networks.Recent research has incorporated concepts from quantum information theory such as Graph State, Stabilizer State, and Surface Code (or Toric Code) into models of opinion dynamics. The incorporation of these concepts allows for a more detailed analysis of the process of opinion formation and the dynamics of social networks. The concepts lie at the intersection of graph theory and quantum theory, and the use of Graph State in opinion dynamics can represent the interdependence of opinions and networks of influence among individuals. It helps to represent the local stability of opinions and the mechanisms for correcting misunderstandings within a social network. It allows us to understand how individual opinions are subject to social pressures and cultural influences and how they change over time.Incorporating these quantum theory concepts into opinion dynamics allows for a deeper understanding of social interactions and opinion formation processes. Moreover, these concepts can provide new insights not only in the social sciences, but also in fields as diverse as political science, economics, marketing, and urban planning.
翻訳日:2023-12-05 20:30:37 公開日:2023-12-01
# Segment Any 3D Gaussians

Segment Any 3D Gaussians ( http://arxiv.org/abs/2312.00860v1 )

ライセンス: Link先を確認
Jiazhong Cen, Jiemin Fang, Chen Yang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian(参考訳) 放射場におけるインタラクティブな3Dセグメンテーションは、3Dシーンの理解と操作において重要であるため、魅力的な課題である。 しかし、既存の手法は、細粒度で多粒度なセグメンテーションを達成するか、あるいはかなりの計算オーバーヘッドで競合し、リアルタイムの相互作用を阻害する。 本稿では,新しい3次元対話型セグメンテーション手法であるSegment Any 3D GAussians(SAGA)について紹介する。 sagaは、高度に設計されたコントラストトレーニングを通じて、セグメンテーション基盤モデルによって生成された複数粒度2次元セグメンテーション結果を3次元ガウス点特徴に効率的に組み込む。 既存のベンチマークによる評価は、SAGAが最先端の手法と競合する性能を達成できることを示している。 さらに、複数の粒度セグメンテーションを実現し、ポイント、スクリブル、および2dマスクを含む様々なプロンプトに対応している。 特に、SAGAはミリ秒で3Dセグメンテーションを完了でき、以前のSOTAと比べて1000倍近い加速を実現している。 プロジェクトページはhttps://jumpat.github.io/saga。

Interactive 3D segmentation in radiance fields is an appealing task since its importance in 3D scene understanding and manipulation. However, existing methods face challenges in either achieving fine-grained, multi-granularity segmentation or contending with substantial computational overhead, inhibiting real-time interaction. In this paper, we introduce Segment Any 3D GAussians (SAGA), a novel 3D interactive segmentation approach that seamlessly blends a 2D segmentation foundation model with 3D Gaussian Splatting (3DGS), a recent breakthrough of radiance fields. SAGA efficiently embeds multi-granularity 2D segmentation results generated by the segmentation foundation model into 3D Gaussian point features through well-designed contrastive training. Evaluation on existing benchmarks demonstrates that SAGA can achieve competitive performance with state-of-the-art methods. Moreover, SAGA achieves multi-granularity segmentation and accommodates various prompts, including points, scribbles, and 2D masks. Notably, SAGA can finish the 3D segmentation within milliseconds, achieving nearly 1000x acceleration compared to previous SOTA. The project page is at https://jumpat.github.io/SAGA.
翻訳日:2023-12-05 20:29:50 公開日:2023-12-01
# DeepCache: 無償で拡散モデルを高速化

DeepCache: Accelerating Diffusion Models for Free ( http://arxiv.org/abs/2312.00858v1 )

ライセンス: Link先を確認
Xinyin Ma, Gongfan Fang, Xinchao Wang(参考訳) 拡散モデルは最近、その顕著な生成能力のために画像合成の分野で前例のない注目を集めている。 それらの長所にもかかわらず、これらのモデルはしばしばかなりの計算コストを発生させ、主にシーケンシャルなデノナイジングプロセスと面倒なモデルサイズに起因する。 拡散モデルを圧縮する伝統的な方法は、通常、コストと実現可能性の課題を提示する広範囲な再訓練を含む。 本稿では,モデルアーキテクチャの観点から拡散モデルを高速化する新しいトレーニングフリーパラダイムであるDeepCacheを紹介する。 DeepCacheは、拡散モデルの逐次denoisingステップで観測される固有の時間的冗長性を利用して、隣のdenoisingステージにまたがって機能をキャッシュし、検索することで、冗長な計算を削減します。 u-netの特性を利用して,低レベルの機能を極めて安価に更新しながら,高レベルの機能を再利用する。 この革新的な戦略により、安定拡散 v1.5 のスピードアップ係数 2.3$\times$ が CLIP Score で 0.05 しか減少せず、4.1$\times$ が LDM-4-G で、ImageNet では 0.22 の FID がわずかに減少している。 また,本実験では,再学習を必要とする既存のプルーニング法や蒸留法よりもDeepCacheの方が優れていることを示す。 さらに、同じスループットで、DeepCacheはDDIMやPLMSと同等あるいは極端に改善された結果が得られることが分かりました。 コードはhttps://github.com/horseee/DeepCacheで入手できる。

Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often incur substantial computational costs, primarily attributed to the sequential denoising process and cumbersome model size. Traditional methods for compressing diffusion models typically involve extensive retraining, presenting cost and feasibility challenges. In this paper, we introduce DeepCache, a novel training-free paradigm that accelerates diffusion models from the perspective of model architecture. DeepCache capitalizes on the inherent temporal redundancy observed in the sequential denoising steps of diffusion models, which caches and retrieves features across adjacent denoising stages, thereby curtailing redundant computations. Utilizing the property of the U-Net, we reuse the high-level features while updating the low-level features in a very cheap way. This innovative strategy, in turn, enables a speedup factor of 2.3$\times$ for Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1$\times$ for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments also demonstrate DeepCache's superiority over existing pruning and distillation methods that necessitate retraining and its compatibility with current sampling techniques. Furthermore, we find that under the same throughput, DeepCache effectively achieves comparable or even marginally improved results with DDIM or PLMS. The code is available at https://github.com/horseee/DeepCache
翻訳日:2023-12-05 20:29:19 公開日:2023-12-01
# Latent Space Explorer: マルチモーダルなLatent Space Explorationのためのビジュアルアナリティクス

Latent Space Explorer: Visual Analytics for Multimodal Latent Space Exploration ( http://arxiv.org/abs/2312.00857v1 )

ライセンス: Link先を確認
Bum Chul Kwon and Samuel Friedman and Kai Xu and Steven A Lubitz and Anthony Philippakis and Puneet Batra and Patrick T Ellinor and Kenney Ng(参考訳) 複数のモダリティを持つトレーニングデータ上に構築された機械学習モデルは、ユニモーダルデータセットでアクセスできない新しい洞察を明らかにすることができる。 例えば、心臓磁気共鳴画像(MRI)と心電図(ECG)は共に、患者の心臓血管の健康状態に関する有用な情報を取得することで知られている。 大規模データセットからトレーニングされたマルチモーダル機械学習モデルは、心疾患の発生を予測する可能性があり、心血管系に関する新しい医学的洞察を提供する。 潜在的な利点にもかかわらず、医療専門家は視覚補助なしでマルチモーダル表現モデルを探索し、様々なサブポピュレーションにおけるモデルの予測性能をテストすることは困難である。 課題に対処するため、我々はlatent space explorerと呼ばれるビジュアル分析システムを開発した。 latent space explorerはインタラクティブなビジュアライゼーションを提供し、ユーザが対象のマルチモーダル表現を探索し、関心のあるサブグループを定義し、選択した対象と異なるモダリティを持つデータをインタラクティブにデコードし、下流予測タスクへの埋め込みの精度を検査できるようにする。 医療専門家によるユーザー調査が行われ、彼らのフィードバックは、潜在スペースエクスプローラがどのように分析に役立ち、医療領域のさらなる発展に新しい方向性をもたらすのかについての有益な洞察を提供した。

Machine learning models built on training data with multiple modalities can reveal new insights that are not accessible through unimodal datasets. For example, cardiac magnetic resonance images (MRIs) and electrocardiograms (ECGs) are both known to capture useful information about subjects' cardiovascular health status. A multimodal machine learning model trained from large datasets can potentially predict the onset of heart-related diseases and provide novel medical insights about the cardiovascular system. Despite the potential benefits, it is difficult for medical experts to explore multimodal representation models without visual aids and to test the predictive performance of the models on various subpopulations. To address the challenges, we developed a visual analytics system called Latent Space Explorer. Latent Space Explorer provides interactive visualizations that enable users to explore the multimodal representation of subjects, define subgroups of interest, interactively decode data with different modalities with the selected subjects, and inspect the accuracy of the embedding in downstream prediction tasks. A user study was conducted with medical experts and their feedback provided useful insights into how Latent Space Explorer can help their analysis and possible new direction for further development in the medical domain.
翻訳日:2023-12-05 20:28:33 公開日:2023-12-01
# QAFE-Net:ランドマークヒートマップを用いた表情の品質評価

QAFE-Net: Quality Assessment of Facial Expressions with Landmark Heatmaps ( http://arxiv.org/abs/2312.00856v1 )

ライセンス: Link先を確認
Shuchao Duan, Amirhossein Dadashzadeh, Alan Whone, Majid Mirmehdi(参考訳) 表情認識(FER)法は人間の気分や感情の分類において大きな進歩を遂げている。 FER以外にも、痛み評価手法は痛み表情の強度のレベルを評価するが、すべての表情の質を評価することは健康関連アプリケーションにおいて重要な価値である。 本研究では,パーキンソン病患者の5種類の表情の質について検討した。 本稿では,時間的ランドマークのヒートマップとRGBデータを組み合わせた新たなランドマーク誘導型アプローチQAFE-Netを提案する。 提案手法は,新しいパーキンソン病表情データセット(pfed5)と,痛み推定ベンチマーク(unbc-mcmaster shoulder pain expression archive database)を用いて評価した。 比較実験により,提案手法はPFED5上でのSOTA行動品質評価よりも優れており,UNBC-McMaster上でのSOTA痛み推定法よりも平均絶対誤差が低いことが示された。 私たちのコードと新しいPFED5データセットはhttps://github.com/shuchaoduan/QAFE-Net.orgで公開されている。

Facial expression recognition (FER) methods have made great inroads in categorising moods and feelings in humans. Beyond FER, pain estimation methods assess levels of intensity in pain expressions, however assessing the quality of all facial expressions is of critical value in health-related applications. In this work, we address the quality of five different facial expressions in patients affected by Parkinson's disease. We propose a novel landmark-guided approach, QAFE-Net, that combines temporal landmark heatmaps with RGB data to capture small facial muscle movements that are encoded and mapped to severity scores. The proposed approach is evaluated on a new Parkinson's Disease Facial Expression dataset (PFED5), as well as on the pain estimation benchmark, the UNBC-McMaster Shoulder Pain Expression Archive Database. Our comparative experiments demonstrate that the proposed method outperforms SOTA action quality assessment works on PFED5 and achieves lower mean absolute error than the SOTA pain estimation methods on UNBC-McMaster. Our code and the new PFED5 dataset are available at https://github.com/shuchaoduan/QAFE-Net.
翻訳日:2023-12-05 20:27:29 公開日:2023-12-01
# サンプルワイズプロトタイプとマルチリレーショナル抽出によるエンコーダの精製,判別,調整

Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction ( http://arxiv.org/abs/2312.00855v1 )

ライセンス: Link先を確認
Shuchi Wu, Chuan Ma, Kang Wei, Xiaogang Xu, Ming Ding, Yuwen Qian, Tao Xiang(参考訳) 本稿では,事前学習したエンコーダを盗むための先駆的手法であるRDAを紹介する。(1)バイアス最適化の目的に起因した準最適性能,(2)目標エンコーダの問合せを毎回必要とするエンド・ツー・エンドのパラダイムに起因したクエリコストの増大。 具体的には、まず、各トレーニングサンプルに対する対象エンコーダの表現を洗練し、スレーブトレーニングフェーズ前にバイアスの少ない最適化目標を確立する。 これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。 エンドツーエンドのアプローチに比べて指数関数的に少ないクエリを要求することで、プロトタイプをインスタンス化して、クエリフリーなトレーニングをガイドすることができる。 より強力な有効性を得るために,サロゲートエンコーダを訓練し,一致した埋め込み-プロトタイプペアを振幅と角度の両方でアライメントしながら識別するマルチリレーショナル抽出損失を開発する。 このようにして、トレーニングされたsurrogateエンコーダは、限られたクエリでさまざまなダウンストリームデータセットで、ボード全体の最先端結果を達成する。 さらに、RDAは複数の広く使用されている防御に対して堅牢であることが示されている。

This paper introduces RDA, a pioneering approach designed to address two primary deficiencies prevalent in previous endeavors aiming at stealing pre-trained encoders: (1) suboptimal performances attributed to biased optimization objectives, and (2) elevated query costs stemming from the end-to-end paradigm that necessitates querying the target encoder every epoch. Specifically, we initially Refine the representations of the target encoder for each training sample, thereby establishing a less biased optimization objective before the steal-training phase. This is accomplished via a sample-wise prototype, which consolidates the target encoder's representations for a given sample's various perspectives. Demanding exponentially fewer queries compared to the end-to-end approach, prototypes can be instantiated to guide subsequent query-free training. For more potent efficacy, we develop a multi-relational extraction loss that trains the surrogate encoder to Discriminate mismatched embedding-prototype pairs while Aligning those matched ones in terms of both amplitude and angle. In this way, the trained surrogate encoder achieves state-of-the-art results across the board in various downstream datasets with limited queries. Moreover, RDA is shown to be robust to multiple widely-used defenses.
翻訳日:2023-12-05 20:26:49 公開日:2023-12-01
# 末梢肺動脈狭窄症に対する治療計画のための確率論的ニューラルツイン

A Probabilistic Neural Twin for Treatment Planning in Peripheral Pulmonary Artery Stenosis ( http://arxiv.org/abs/2312.00854v1 )

ライセンス: Link先を確認
John D. Lee, Jakob Richter, Martin R. Pfaller, Jason M. Szafron, Karthik Menon, Andrea Zanoni, Michael R. Ma, Jeffrey A. Feinstein, Jacqueline Kreutzer, Alison L. Marsden and Daniele E. Schiavazzi(参考訳) 数値血行動態学における高忠実度モデルの計算コストは, 主にオフライン処理計画に比例して低下している。 データ駆動アーキテクチャの新しいブレークスルーと高速なサロゲートモデリングのための最適化技術は、これらの制限を克服するエキサイティングな機会を提供し、このような技術を時間クリティカルな決定に使用できる。 肺動脈リハビリテーションや手術による末梢動脈疾患における多発性狭窄の修復について検討し, 患者へのリスクを最小化しつつ, 所望の圧力と肺動脈樹の特定の部位での血流の確保が目的である。 治療中に様々な成功度を達成できるため、確率的に問題を定式化し、サンプルベースのアプローチで解決する。 我々は,境界条件のオフライン同化,モデル縮小,トレーニングデータセット生成と限界確率のオンライン推定を組み合わせ,すでに修復済みの病変で観察された拡張度を条件とした,確率的リアルタイム処理計画のための新しいオフラインオフラインパイプラインを提案する。 さらに,ゼロ次元近似体の反復補正により任意形状の血管修復をパラメトリゼーションするための新しいアプローチを提案する。 血管モデルリポジトリを介して肺動脈ツリーの病型モデルにこのパイプラインを適用できることを実証する。

The substantial computational cost of high-fidelity models in numerical hemodynamics has, so far, relegated their use mainly to offline treatment planning. New breakthroughs in data-driven architectures and optimization techniques for fast surrogate modeling provide an exciting opportunity to overcome these limitations, enabling the use of such technology for time-critical decisions. We discuss an application to the repair of multiple stenosis in peripheral pulmonary artery disease through either transcatheter pulmonary artery rehabilitation or surgery, where it is of interest to achieve desired pressures and flows at specific locations in the pulmonary artery tree, while minimizing the risk for the patient. Since different degrees of success can be achieved in practice during treatment, we formulate the problem in probability, and solve it through a sample-based approach. We propose a new offline-online pipeline for probabilsitic real-time treatment planning which combines offline assimilation of boundary conditions, model reduction, and training dataset generation with online estimation of marginal probabilities, possibly conditioned on the degree of augmentation observed in already repaired lesions. Moreover, we propose a new approach for the parametrization of arbitrarily shaped vascular repairs through iterative corrections of a zero-dimensional approximant. We demonstrate this pipeline for a diseased model of the pulmonary artery tree available through the Vascular Model Repository.
翻訳日:2023-12-05 20:26:24 公開日:2023-12-01
# 時間整合実世界ビデオ超解像のための運動誘導潜時拡散

Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution ( http://arxiv.org/abs/2312.00853v1 )

ライセンス: Link先を確認
Xi Yang, Chenhang He, Jianqi Ma, Lei Zhang(参考訳) 現実世界の低解像度(LR)ビデオは多種多様で複雑な劣化があり、高解像度(HR)を高品質に再現するビデオ超解像度(VSR)アルゴリズムに大きな課題を生んでいる。 近年,拡散モデルが画像復元タスクの現実的な詳細を生成する上で有意義な性能を示している。 しかし,拡散過程はランダムであり,復元画像の内容の制御が困難である。 この問題は、ビデオの知覚品質に時間的一貫性が不可欠であるため、VSRタスクに拡散モデルを適用する際にさらに深刻になる。 本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。 隣接フレーム間のコンテンツ整合性を確保するため、LRビデオの時間的ダイナミクスを利用して、遅延サンプリングパスを動作誘導損失で最適化し、生成したHRビデオがコヒーレントかつ連続的な視覚的流れを維持することを保証する。 生成した細部の不連続性をさらに軽減するため、デコーダに時間モジュールを挿入し、革新的なシーケンス指向の損失で微調整する。 動き誘導型潜在拡散(MGLD)に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりもはるかに優れた知覚品質を実現し、提案したモデル設計およびトレーニング戦略の有効性を検証する。

Real-world low-resolution (LR) videos have diverse and complex degradations, imposing great challenges on video super-resolution (VSR) algorithms to reproduce their high-resolution (HR) counterparts with high quality. Recently, the diffusion models have shown compelling performance in generating realistic details for image restoration tasks. However, the diffusion process has randomness, making it hard to control the contents of restored images. This issue becomes more serious when applying diffusion models to VSR tasks because temporal consistency is crucial to the perceptual quality of videos. In this paper, we propose an effective real-world VSR algorithm by leveraging the strength of pre-trained latent diffusion models. To ensure the content consistency among adjacent frames, we exploit the temporal dynamics in LR videos to guide the diffusion process by optimizing the latent sampling path with a motion-guided loss, ensuring that the generated HR video maintains a coherent and continuous visual flow. To further mitigate the discontinuity of generated details, we insert temporal module to the decoder and fine-tune it with an innovative sequence-oriented loss. The proposed motion-guided latent diffusion (MGLD) based VSR algorithm achieves significantly better perceptual quality than state-of-the-arts on real-world VSR benchmark datasets, validating the effectiveness of the proposed model design and training strategies.
翻訳日:2023-12-05 20:26:01 公開日:2023-12-01
# 一階 tweedie を超えて:潜在拡散を用いた逆問題を解く

Beyond First-Order Tweedie: Solving Inverse Problems using Latent Diffusion ( http://arxiv.org/abs/2312.00852v1 )

ライセンス: Link先を確認
Litu Rout and Yujia Chen and Abhishek Kumar and Constantine Caramanis and Sanjay Shakkottai and Wen-Sheng Chu(参考訳) 後方分布からのサンプリングは潜在拡散モデルを用いた逆問題を解く上で大きな課題となる。 一般的な方法はツイーディの1次モーメントに依存しており、品質制限バイアスを引き起こすことが知られている。 既存の2階近似は、計算コストの禁止による非現実的であり、標準逆拡散過程を後方サンプリングのために引き出すことができる。 本稿では,第2次近似を用いた移動可能な逆過程を持つ第1次トウィーに匹敵する効率を提供する新しいサンプリング器であるsurrogate loss (stsl) による第2次トウィー・サンプラーを提案する。 理論的には、二階近似は、ヘッシアンのトレースを使って計算するのに$o(1)$を必要とするサーロゲート損失によってより低く、下限では逆過程を扱いやすくするための新しいドリフト項を導出する。 提案手法は, FFHQ, ImageNet, COCOベンチマークのサンプリング品質を向上しつつ, 神経機能評価の4倍, 8倍の精度でSOTAソルバPSLD, P2Lを上回った。 また,stslはテキストガイド画像編集に拡張され,上位のテキストガイド画像編集手法において破損画像から生じる残差歪みに対処する。 我々の知る限り、これは潜伏拡散を用いた逆問題の解法を効率よく二階近似し、実際の画像を汚損で編集する最初の試みである。

Sampling from the posterior distribution poses a major computational challenge in solving inverse problems using latent diffusion models. Common methods rely on Tweedie's first-order moments, which are known to induce a quality-limiting bias. Existing second-order approximations are impractical due to prohibitive computational costs, making standard reverse diffusion processes intractable for posterior sampling. This paper introduces Second-order Tweedie sampler from Surrogate Loss (STSL), a novel sampler that offers efficiency comparable to first-order Tweedie with a tractable reverse process using second-order approximation. Our theoretical results reveal that the second-order approximation is lower bounded by our surrogate loss that only requires $O(1)$ compute using the trace of the Hessian, and by the lower bound we derive a new drift term to make the reverse process tractable. Our method surpasses SoTA solvers PSLD and P2L, achieving 4X and 8X reduction in neural function evaluations, respectively, while notably enhancing sampling quality on FFHQ, ImageNet, and COCO benchmarks. In addition, we show STSL extends to text-guided image editing and addresses residual distortions present from corrupted images in leading text-guided image editing methods. To our best knowledge, this is the first work to offer an efficient second-order approximation in solving inverse problems using latent diffusion and editing real-world images with corruptions.
翻訳日:2023-12-05 20:25:35 公開日:2023-12-01
# Pruning-Quantizationジョイントラーニングのための物理インスピレーションによる基準

Physics Inspired Criterion for Pruning-Quantization Joint Learning ( http://arxiv.org/abs/2312.00851v1 )

ライセンス: Link先を確認
Weiying Xie, Xiaoyi Fan, Xin Zhang, Yunsong Li, Jie Lei, Leyuan Fang(参考訳) Pruning-quantization joint learningは、リソース制約されたエッジデバイスへのディープニューラルネットワーク(DNN)のデプロイを容易にする。 しかし、既存のほとんどの手法は、解釈可能な方法でプルーニングと量子化のグローバルな基準を共同で学ばない。 本稿では, 弾性力学 (ED) とモデル圧縮 (MC) の類似性から探索した, プルーニング量子化連成学習(PIC-PQ)の物理に着想を得た新しい基準を提案する。 具体的には、EDにおけるフックの法則に基づいて、物理インスピレーション基準(PIC)における学習可能な変形スケールによるフィルタの重要度分布とフィルタ特性(FP)の線形関係を確立する。 さらに,PICをグローバルビューに対して相対シフト変数で拡張する。 実現性と柔軟性を確保するため、量子化ビット幅割り当てにおいて利用可能な最大ビット幅とペナルティ係数を導入する。 画像分類のベンチマーク実験では、PIC-PQは精度とビット演算(BOP)圧縮比(例えば、CIFAR10上のResNet56の54.96X BOPs圧縮比が0.10%の精度低下、ImageNet18上のResNet18の53.24Xが0.61%の精度低下を示す。 コードはhttps://github.com/fanxxxxyi/pic-pqで入手できる。

Pruning-quantization joint learning always facilitates the deployment of deep neural networks (DNNs) on resource-constrained edge devices. However, most existing methods do not jointly learn a global criterion for pruning and quantization in an interpretable way. In this paper, we propose a novel physics inspired criterion for pruning-quantization joint learning (PIC-PQ), which is explored from an analogy we first draw between elasticity dynamics (ED) and model compression (MC). Specifically, derived from Hooke's law in ED, we establish a linear relationship between the filters' importance distribution and the filter property (FP) by a learnable deformation scale in the physics inspired criterion (PIC). Furthermore, we extend PIC with a relative shift variable for a global view. To ensure feasibility and flexibility, available maximum bitwidth and penalty factor are introduced in quantization bitwidth assignment. Experiments on benchmarks of image classification demonstrate that PIC-PQ yields a good trade-off between accuracy and bit-operations (BOPs) compression ratio e.g., 54.96X BOPs compression ratio in ResNet56 on CIFAR10 with 0.10% accuracy drop and 53.24X in ResNet18 on ImageNet with 0.61% accuracy drop). The code will be available at https://github.com/fanxxxxyi/PIC-PQ.
翻訳日:2023-12-05 20:25:08 公開日:2023-12-01
# RLHF-V:きめ細かい修正ヒトフィードバックからの行動アライメントによる信頼できるMLLMを目指して

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback ( http://arxiv.org/abs/2312.00849v1 )

ライセンス: Link先を確認
Tianyu Yu and Yuan Yao and Haoye Zhang and Taiwen He and Yifeng Han and Ganqu Cui and Jinyi Hu and Zhiyuan Liu and Hai-Tao Zheng and Maosong Sun and Tat-Seng Chua(参考訳) MLLM(Multimodal Large Language Models)は、最近、マルチモーダル理解、推論、相互作用において印象的な能力を示した。 しかし、既存のMLLMは深刻な幻覚に悩まされ、関連する画像に実際に根拠のないテキストを生成する。 この問題は既存のMLLMを信頼できないものにし、現実の(特に高い)アプリケーションでは実用的ではない。 この課題に対処するため,人間の微粒なフィードバックからの行動アライメントを通じてMLLMの信頼性を高めるRLHF-Vを提案する。 具体的には、RLHF-Vは幻覚のセグメントレベルの補正という形で人間の嗜好を収集し、人間のフィードバックに対して高い直接選好最適化を行う。 自動評価と人間評価の両方における5つのベンチマークに関する包括的実験により、rlhf-vは有望なデータと計算効率で、より信頼性の高いmllm動作を可能にすることが示された。 注目すべきは、1.4kのアノテートデータサンプルを使用することで、RLHF-VはベースMLLMの幻覚率を34.8%削減し、10kのアノテートデータでトレーニングされた同時LLaVA-RLHFを上回る。 最終モデルは、オープンソースのMLLM間の信頼性の最先端性能を達成し、過剰な一般化による幻覚の予防において、GPT-4Vよりも優れた堅牢性を示す。 我々は、コード、モデル、データをhttps://github.com/RLHF-V/RLHF-Vでオープンソース化します。

Multimodal Large Language Models (MLLMs) have recently demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. However, existing MLLMs prevalently suffer from serious hallucination problems, generating text that is not factually grounded in associated images. The problem makes existing MLLMs untrustworthy and thus impractical in real-world (especially high-stakes) applications. To address the challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior alignment from fine-grained correctional human feedback. Specifically, RLHF-V collects human preference in the form of segment-level corrections on hallucinations, and performs dense direct preference optimization over the human feedback. Comprehensive experiments on five benchmarks in both automatic and human evaluation show that, RLHF-V can enable substantially more trustworthy MLLM behaviors with promising data and computation efficiency. Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the hallucination rate of the base MLLM by 34.8%, outperforming the concurrent LLaVA-RLHF trained on 10k annotated data. The final model achieves state-of-the-art performance in trustworthiness among open-source MLLMs, and shows better robustness than GPT-4V in preventing hallucinations aroused from over-generalization. We open-source our code, model, and data at https://github.com/RLHF-V/RLHF-V.
翻訳日:2023-12-05 20:24:40 公開日:2023-12-01
# NeuSG : 3次元ガウス投射誘導による神経インシシデント表面再構成

NeuSG: Neural Implicit Surface Reconstruction with 3D Gaussian Splatting Guidance ( http://arxiv.org/abs/2312.00846v1 )

ライセンス: Link先を確認
Hanlin Chen, Chen Li, Gim Hee Lee(参考訳) 既存のニューラル暗黙表面再構成法は、奥行きマップや点雲などの明示的な幾何学的先行を正規化として活用することにより、多視点3次元再構成において顕著な性能を達成した。 しかし, 過度に滑らかな深度マップや粗い点雲のため, 復元結果は細部を欠いている。 本研究では,高精細な表面を復元するための3次元ガウススプラッティングによるニューラルネットワークによる暗黙的表面再構成パイプラインを提案する。 3次元ガウス型スプラッティングの利点は、詳細な構造を持つ濃密な点雲を生成できることである。 それでも、生成した点が必ずしも表面上にあるとは限らない3Dガウス中心であることから、3Dガウススプレイティングの素直な採用は失敗する。 そこで我々は, 3次元ガウス系を極薄にすることで, 表面近傍に中心を引くスケール調整器を導入する。 さらに,固定された点集合を指導として使うのではなく,神経暗黙モデルによって予測される表面からの正規前駆体を用いて,3次元ガウス型スプレーティングから点雲を洗練することを提案する。 これにより、より正確な3次元ガウススプラッティングの誘導により、表面再構成の品質が向上する。 3次元ガウススプラッティングとニューラル暗黙モデルとを共同で最適化することにより、我々のアプローチは両表現の恩恵を受け、複雑な詳細を持つ完全な表面を生成する。 戦車・寺院実験により提案手法の有効性が検証された。

Existing neural implicit surface reconstruction methods have achieved impressive performance in multi-view 3D reconstruction by leveraging explicit geometry priors such as depth maps or point clouds as regularization. However, the reconstruction results still lack fine details because of the over-smoothed depth map or sparse point cloud. In this work, we propose a neural implicit surface reconstruction pipeline with guidance from 3D Gaussian Splatting to recover highly detailed surfaces. The advantage of 3D Gaussian Splatting is that it can generate dense point clouds with detailed structure. Nonetheless, a naive adoption of 3D Gaussian Splatting can fail since the generated points are the centers of 3D Gaussians that do not necessarily lie on the surface. We thus introduce a scale regularizer to pull the centers close to the surface by enforcing the 3D Gaussians to be extremely thin. Moreover, we propose to refine the point cloud from 3D Gaussians Splatting with the normal priors from the surface predicted by neural implicit models instead of using a fixed set of points as guidance. Consequently, the quality of surface reconstruction improves from the guidance of the more accurate 3D Gaussian splatting. By jointly optimizing the 3D Gaussian Splatting and the neural implicit model, our approach benefits from both representations and generates complete surfaces with intricate details. Experiments on Tanks and Temples verify the effectiveness of our proposed method.
翻訳日:2023-12-05 20:24:15 公開日:2023-12-01
# PACE: 継続的パフォーマンス予測のためのプログラム分析フレームワーク

PACE: A Program Analysis Framework for Continuous Performance Prediction ( http://arxiv.org/abs/2312.00918v1 )

ライセンス: Link先を確認
Chidera Biringa and Gokhan Kul(参考訳) ソフトウェア開発チームは、ソフトウェアの開発プロセスを加速するために、自動テストケースを含む精巧な継続的インテグレーションパイプラインを確立する。 自動テストは、要求の変更に対する応答時間を短縮するコード修正の正しさを検証するのに役立つ。 しかし、ソフトウェアチームが保留中の修正によるパフォーマンスへの影響を追跡していない場合、既存のコードのリファクタリングにかなりの時間を費やす必要がある。 本稿では、保留中のコード更新のパフォーマンスへの影響を継続的にフィードバックするプログラム分析フレームワークであるPACEについて述べる。 コード更新によって機能テストケースの実行時間をマッピングすることで,パフォーマンスのマイクロベンチマークを設計する。 マイクロベンチマークをコードスタイロメトリ機能にマッピングし、パフォーマンス予測のための予測器に与えます。 我々の実験は、コード性能の予測において、ニューラル表現されたコードスタイメトリーの特徴において、現在の最先端を75%上回る性能を達成した。

Software development teams establish elaborate continuous integration pipelines containing automated test cases to accelerate the development process of software. Automated tests help to verify the correctness of code modifications decreasing the response time to changing requirements. However, when the software teams do not track the performance impact of pending modifications, they may need to spend considerable time refactoring existing code. This paper presents PACE, a program analysis framework that provides continuous feedback on the performance impact of pending code updates. We design performance microbenchmarks by mapping the execution time of functional test cases given a code update. We map microbenchmarks to code stylometry features and feed them to predictors for performance predictions. Our experiments achieved significant performance in predicting code performance, outperforming current state-of-the-art by 75% on neural-represented code stylometry features.
翻訳日:2023-12-05 20:17:20 公開日:2023-12-01
# 教師なし機械翻訳のためのクイックバックトランスレーション

Quick Back-Translation for Unsupervised Machine Translation ( http://arxiv.org/abs/2312.00912v1 )

ライセンス: Link先を確認
Benjamin Brimacombe, Jiawei Zhou(参考訳) 教師なし機械翻訳の分野は、トランスフォーマーとバックトランスレーションアルゴリズムの結合から大きく進歩した。 Transformerは強力な生成モデルであり、バックトランスレーションはTransformerの高品質な翻訳を活用して反復的な自己改善を行う。 しかし、トランスフォーマーは、バックトランスレーション中の自己回帰推論の実行時間に悩まされ、バックトランスレーションは合成データ効率の欠如によって制限される。 本稿では,Transformer Back-Translation: Quick Back-Translation (QBT) の改良を提案する。 qbtはエンコーダを生成モデルとして再活用し、エンコーダ生成シーケンスを使用して、元の自己回帰バックトランスレーションステップと組み合わせてデコーダをトレーニングし、データのスループットと利用性を改善する。 様々なWMTベンチマークの実験では、QBTの比較的少数の精細化ステップが現在の教師なし機械翻訳モデルを改善し、QBTは同等の翻訳品質のトレーニング効率で標準的なバック翻訳のみの手法を劇的に上回っている。

The field of unsupervised machine translation has seen significant advancement from the marriage of the Transformer and the back-translation algorithm. The Transformer is a powerful generative model, and back-translation leverages Transformer's high-quality translations for iterative self-improvement. However, the Transformer is encumbered by the run-time of autoregressive inference during back-translation, and back-translation is limited by a lack of synthetic data efficiency. We propose a two-for-one improvement to Transformer back-translation: Quick Back-Translation (QBT). QBT re-purposes the encoder as a generative model, and uses encoder-generated sequences to train the decoder in conjunction with the original autoregressive back-translation step, improving data throughput and utilization. Experiments on various WMT benchmarks demonstrate that a relatively small number of refining steps of QBT improve current unsupervised machine translation models, and that QBT dramatically outperforms standard back-translation only method in terms of training efficiency for comparable translation qualities.
翻訳日:2023-12-05 20:17:07 公開日:2023-12-01
# 流行封じ込めにおける確率的接触追跡の有効性:スーパースプリーダーの役割と伝達経路の再構築

Effectiveness of probabilistic contact tracing in epidemic containment: the role of super-spreaders and transmission paths reconstruction ( http://arxiv.org/abs/2312.00910v1 )

ライセンス: Link先を確認
A.P. Muntoni, F. Mazza, A. Braunstein, G. Catania, and L. Dall'Asta(参考訳) 新型コロナウイルスのパンデミックは、初期段階の非薬学介入戦略の重要性を強調している。 マスクの普及と接触追跡戦略の体系的実装は、大規模な移動制限など、より伝統的なアプローチに対する潜在的に効果的で社会的に影響の少ない代替手段を提供する。 しかし,手動接触追跡は接触ネットワークへのアクセスにおいて強い制限に直面しており,露出通知や関連するテストの急激な増加により,スマートフォンベースのデジタル接触追跡プロトコルのスケーラビリティは急激な拡大期には実現不可能となる。 デジタルコンタクトトレーシングの大幅な改善は、新しい診断テストの割り当てをより効果的に導くリスクアセスメントのための確率的手法の統合によって得られる。 本研究では,SARS-CoV-2拡散の3つの最先端モデルを用いて,接触追跡に基づく封じ込め対策に関連する診断・社会的コストを定量的に分析した。 その結果、確率的手法は低コストでより効果的に緩和できることが示唆された。 第2に,SARS-CoV-2を含む多くの病原体の拡散にともなう,後方伝播と超拡散現象を捕捉する確率的接触追跡法の有効性が明らかとなった。

The recent COVID-19 pandemic underscores the significance of early-stage non-pharmacological intervention strategies. The widespread use of masks and the systematic implementation of contact tracing strategies provide a potentially equally effective and socially less impactful alternative to more conventional approaches, such as large-scale mobility restrictions. However, manual contact tracing faces strong limitations in accessing the network of contacts, and the scalability of currently implemented protocols for smartphone-based digital contact tracing becomes impractical during the rapid expansion phases of the outbreaks, due to the surge in exposure notifications and associated tests. A substantial improvement in digital contact tracing can be obtained through the integration of probabilistic techniques for risk assessment that can more effectively guide the allocation of new diagnostic tests. In this study, we first quantitatively analyze the diagnostic and social costs associated with these containment measures based on contact tracing, employing three state-of-the-art models of SARS-CoV-2 spreading. Our results suggest that probabilistic techniques allow for more effective mitigation at a lower cost. Secondly, our findings reveal a remarkable efficacy of probabilistic contact-tracing techniques in capturing backward propagations and super-spreading events, relevant features of the diffusion of many pathogens, including SARS-CoV-2.
翻訳日:2023-12-05 20:16:48 公開日:2023-12-01
# LLM-TAKE:大規模言語モデルを用いたキーワード抽出

LLM-TAKE: Theme Aware Keyword Extraction Using Large Language Models ( http://arxiv.org/abs/2312.00909v1 )

ライセンス: Link先を確認
Reza Yousefi Maragheh, Chenhao Fang, Charan Chand Irugu, Parth Parikh, Jason Cho, Jianpeng Xu, Saranyan Sukumar, Malay Patel, Evren Korpeoglu, Sushant Kumar and Kannan Achan(参考訳) キーワード抽出は自然言語処理の主要なタスクの一つである。 古典的抽出モデルは、相互に遠く離れている単語と文の間の関係関係を結論付けるのが困難である短い注意スパンを持つことで有名である。 これにより、テキスト全体の文脈から推測されるキーワードの生成に使用することが禁止される。 本稿では,文章メタデータから推測される項目のキーワードを生成するために,LLM(Large Language Models)を用いて検討する。 我々のモデリングフレームワークは、LLMに共通する幻覚を減らし、非情報的または敏感なキーワードを出力することを回避し、結果を微粒化するいくつかの段階を含む。 LLMベースのフレームワークであるTheme-Aware Keyword extract (LLM TAKE) と呼ぶ。 本稿では,Eコマース環境における商品の抽出的および抽象的テーマを生成するための2つのフレームワークを提案する。 3つの実際のデータセットについて広範な実験を行い、ベンチマークモデルと比較した場合、モデリングフレームワークが精度ベースと多様性ベースのメトリクスを強化できることを示します。

Keyword extraction is one of the core tasks in natural language processing. Classic extraction models are notorious for having a short attention span which make it hard for them to conclude relational connections among the words and sentences that are far from each other. This, in turn, makes their usage prohibitive for generating keywords that are inferred from the context of the whole text. In this paper, we explore using Large Language Models (LLMs) in generating keywords for items that are inferred from the items textual metadata. Our modeling framework includes several stages to fine grain the results by avoiding outputting keywords that are non informative or sensitive and reduce hallucinations common in LLM. We call our LLM-based framework Theme-Aware Keyword Extraction (LLM TAKE). We propose two variations of framework for generating extractive and abstractive themes for products in an E commerce setting. We perform an extensive set of experiments on three real data sets and show that our modeling framework can enhance accuracy based and diversity based metrics when compared with benchmark models.
翻訳日:2023-12-05 20:16:25 公開日:2023-12-01
# マルチエージェント強化学習に基づく大気・海洋乱流のパラメトリゼーションによる極端事象予測

Extreme Event Prediction with Multi-agent Reinforcement Learning-based Parametrization of Atmospheric and Oceanic Turbulence ( http://arxiv.org/abs/2312.00907v1 )

ライセンス: Link先を確認
Rambod Mojgani and Daniel Waelchli and Yifei Guan and Petros Koumoutsakos and Pedram Hassanzadeh(参考訳) 地球温暖化モデル(GCM)は、気候変動を理解し予測するための主要なツールである。 しかし、数値分解能が限られているため、これらのモデルは大きな構造的不確実性に苦しめられ、例えば、大気や海洋の乱流の小さな渦のような臨界過程を解決できない。 したがって、そのような小さなプロセスは閉包(パラメトリゼーション)を介して解決されたスケールの関数として表さなければならない。 これらの閉鎖の正確さは、特に気候の極端を捉えるために重要である。 伝統的に、そのような閉包はヒューリスティックスに基づいており、未解決の物理学に関する仮定を単純化している。 近年,高忠実度データに基づいてオフラインでトレーニングされた教師付き閉包が,古典物理学に基づく閉包よりも優れていることが示されている。 しかし、このアプローチにはかなりの量の高忠実度トレーニングデータが必要であり、不安定にもつながりうる。 強化学習は、低次統計のみを必要とし、安定したクロージャにつながるため、そのようなクロージャを開発するための強力な代替手段として浮上している。 SMARL(Scientific Multi-Agent Reinforcement Learning)の計算要素は、離散化ポイントと学習エージェントの二重の役割を担う。 SMARLと乱流物理の基礎を利用して大気および海洋乱流のプロトタイプの閉ざしを学習する。 この方針は、ほとんど不変であり、少数の高忠実度サンプルから推定できるエントロフィスペクトルのみを用いて訓練される(これらの数少ないサンプルは教師付き/オフライン学習には程遠い)。 これらの閉包は, 確率密度関数のテールを含む高忠実度シミュレーションの統計を, ほんの少しのコストで再現できるような, 安定な低分解能シミュレーションをもたらすことを示す。 これらの結果から, GCMの閉鎖モデルにおけるSMARLの可能性が示唆された。

Global climate models (GCMs) are the main tools for understanding and predicting climate change. However, due to limited numerical resolutions, these models suffer from major structural uncertainties; e.g., they cannot resolve critical processes such as small-scale eddies in atmospheric and oceanic turbulence. Thus, such small-scale processes have to be represented as a function of the resolved scales via closures (parametrization). The accuracy of these closures is particularly important for capturing climate extremes. Traditionally, such closures are based on heuristics and simplifying assumptions about the unresolved physics. Recently, supervised-learned closures, trained offline on high-fidelity data, have been shown to outperform the classical physics-based closures. However, this approach requires a significant amount of high-fidelity training data and can also lead to instabilities. Reinforcement learning is emerging as a potent alternative for developing such closures as it requires only low-order statistics and leads to stable closures. In Scientific Multi-Agent Reinforcement Learning (SMARL) computational elements serve a dual role of discretization points and learning agents. We leverage SMARL and fundamentals of turbulence physics to learn closures for prototypes of atmospheric and oceanic turbulence. The policy is trained using only the enstrophy spectrum, which is nearly invariant and can be estimated from a few high-fidelity samples (these few samples are far from enough for supervised/offline learning). We show that these closures lead to stable low-resolution simulations that, at a fraction of the cost, can reproduce the high-fidelity simulations' statistics, including the tails of the probability density functions. The results demonstrate the high potential of SMARL for closure modeling for GCMs, especially in the regime of scarce data and indirect observations.
翻訳日:2023-12-05 20:16:07 公開日:2023-12-01
# 極低温におけるゲート全周シリコンナノワイヤのデュアル動作:FETと量子ドット

Dual Operation of Gate-All-Around Silicon Nanowires at Cryogenic Temperatures: FET and Quantum Dot ( http://arxiv.org/abs/2312.00903v1 )

ライセンス: Link先を確認
C. Rohrbacher, J. Rivard, R. Ritzenthaler, B. Bureau, C. Lupien, H. Mertens, N. Horiguchi and E. Dupont-Ferrier(参考訳) CMOS構造はシリコンスピン量子ビットをホストし、量子システムを古典的な制御ブロックと組み合わせるためには、そのような構造の低温挙動を調べる必要がある。 本稿では,ゲートオールアラウンド(GAA)n-MOSFETs Siナノワイヤ(NW)の室温から1.7Kまでの電気的特性を特徴付ける。 トランジスタの古典的な状態においては、デバイスの性能が向上し、量子状態では、GAAデバイスにおける体系的な量子ドットの形成を示す。

As CMOS structures are envisioned to host silicon spin qubits, and for co-integrating quantum systems with their classical control blocks, the cryogenic behaviour of such structures need to be investigated. In this paper we characterize the electrical properties of Gate-All-Around (GAA) n-MOSFETs Si nanowires (NWs) from room temperature down to 1.7 K. We demonstrate that those devices can operate both as transistor and host quantum dots at cryogenic temperature. In the classical regime of the transistor we show improved performances of the devices and in the quantum regime we show systematic quantum dots formation in GAA devices.
翻訳日:2023-12-05 20:15:38 公開日:2023-12-01
# Lorentz Boosted Parallel Plate Casimir Cavityについて

On the Lorentz Boosted Parallel Plate Casimir Cavity ( http://arxiv.org/abs/2312.00898v1 )

ライセンス: Link先を確認
Matthew J. Gorban, William D. Julius, and Gerald B. Cleaver(参考訳) 2つの完全な導電性で無限平行なプレートが電磁真空を制限し、魅力的な力を生み出す。 この現象はカシミール効果として知られている。 ここでは電磁場相関器を用いて、プレートと真空の間の局所的な相互作用を定義し、これが再正規化された応力-エネルギーテンソルを生み出す。 次に、コレレータを構成する基礎となる電場と磁場のローレンツ加速が、ブーストされたフレーム内の正しい応力エネルギーテンソルを生成することを示す。 場相関器の無限表面の発散は、押し上げられたフレームでキャンセルされるように適切に変換され、所望の有限結果が生成される。

Two perfectly conducting, infinite parallel plates will restrict the electromagnetic vacuum, producing an attractive force. This phenomenon is known as the Casimir effect. Here we use electromagnetic field correlators to define the local interaction between the plates and the vacuum, which gives rise to a renormalized stress-energy tensor. We then show that a Lorentz boost of the underlying electric and magnetic fields that comprise the correlators will produce the correct stress-energy tensor in the boosted frame. The infinite surface divergences of the field correlators will transform appropriately, such that they cancel out in the boosted frame and produce the desired finite result.
翻訳日:2023-12-05 20:15:24 公開日:2023-12-01
# REST APIテストを改善するために大規模言語モデルを活用する

Leveraging Large Language Models to Improve REST API Testing ( http://arxiv.org/abs/2312.00894v1 )

ライセンス: Link先を確認
Myeongsoo Kim, Tyler Stennett, Dhruv Shah, Saurabh Sinha, Alessandro Orso(参考訳) REST APIが広く採用され、複雑さとサイズが増大し、自動化されたREST APIテストツールが必要になった。 現在のテストツールは、REST API仕様の構造化データに重点を置いているが、仕様の非構造化自然言語記述で利用可能な貴重な洞察を無視することが多い。 近年、このギャップに対処するため、研究者はこれらの人間の読みやすい記述とクエリ知識ベースからルールを抽出し、意味のある入力値を導出する手法を開発した。 しかし、これらの手法は抽出できるルールの種類に制限されており、不正確な結果が得られる。 本稿では、大規模言語モデル(LLM)のパワーと本質的なコンテキスト認識を利用して、REST APIテストを改善する革新的なアプローチであるRESTGPTを提案する。 RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。 そして、これらのルールと値で元の仕様を強化します。 予備評価では、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。 これらの奨励的な結果を踏まえ、REST APIテストを改善するためにLLMをより広く活用するための今後の研究の方向性を概説する。

The widespread adoption of REST APIs, coupled with their growing complexity and size, has led to the need for automated REST API testing tools. Current testing tools focus on the structured data in REST API specifications but often neglect valuable insights available in unstructured natural-language descriptions in the specifications, which leads to suboptimal test coverage. Recently, to address this gap, researchers have developed techniques that extract rules from these human-readable descriptions and query knowledge bases to derive meaningful input values. However, these techniques are limited in the types of rules they can extract and can produce inaccurate results. This paper presents RESTGPT, an innovative approach that leverages the power and intrinsic context-awareness of Large Language Models (LLMs) to improve REST API testing. RESTGPT takes as input an API specification, extracts machine-interpretable rules, and generates example parameter values from natural-language descriptions in the specification. It then augments the original specification with these rules and values. Our preliminary evaluation suggests that RESTGPT outperforms existing techniques in both rule extraction and value generation. Given these encouraging results, we outline future research directions for leveraging LLMs more broadly for improving REST API testing.
翻訳日:2023-12-05 20:15:14 公開日:2023-12-01
# 雑音中規模量子コンピュータを用いたブラックリッターマンポートフォリオ最適化

Black-Litterman Portfolio Optimization with Noisy Intermediate-Scale Quantum Computers ( http://arxiv.org/abs/2312.00892v1 )

ライセンス: Link先を確認
Chi-Chun Chen, San-Lin Chung and Hsi-Sheng Goan(参考訳) 本稿では,ブラックリッターマン(bl)ポートフォリオ最適化モデルにおけるサブルーチン強化のための雑音中規模量子(nisq)アルゴリズムの実用化例を示す。 概念実証として、12のアセットプールから6つのアセットを選択する12キュービットの例を実装した。 我々のアプローチは、量子機械学習(QML)を用いて投資家の視点を予測し、変動量子固有解法(VQE)を用いてその後の最適化問題に対処することである。 VQEから得られる解は高い近似比の挙動を示し、長期にわたってバックテストにおいていくつかの共通のポートフォリオモデルより一貫して優れている。 我々のvqeスキームのユニークな側面は、量子回路を最適化した後、確率分布を高品質な解に集中させるため、高い近似比を与えるために最小のサンプリングしか必要とされないことである。 さらに,本手法では,探索とランダムサンプリングのコストを比較することで,少数の最終サンプリングのみを採用することの重要性を強調した。 量子コンピューティングのパワーは、必要量子ビット資源の線形的な成長と問題の大きさに起因して、より大きな問題に対処するときに期待できる。 これは、探索空間が問題の大きさで指数関数的に成長し、すぐに古典的コンピュータの限界に達する古典的計算とは対照的である。

In this work, we demonstrate a practical application of noisy intermediate-scale quantum (NISQ) algorithms to enhance subroutines in the Black-Litterman (BL) portfolio optimization model. As a proof of concept, we implement a 12-qubit example for selecting 6 assets out of a 12-asset pool. Our approach involves predicting investor views with quantum machine learning (QML) and addressing the subsequent optimization problem using the variational quantum eigensolver (VQE). The solutions obtained from VQE exhibit a high approximation ratio behavior, and consistently outperform several common portfolio models in backtesting over a long period of time. A unique aspect of our VQE scheme is that after the quantum circuit is optimized, only a minimal number of samplings is required to give a high approximation ratio result since the probability distribution should be concentrated on high-quality solutions. We further emphasize the importance of employing only a small number of final samplings in our scheme by comparing the cost with those obtained from an exhaustive search and random sampling. The power of quantum computing can be anticipated when dealing with a larger-size problem due to the linear growth of the required qubit resources with the problem size. This is in contrast to classical computing where the search space grows exponentially with the problem size and would quickly reach the limit of classical computers.
翻訳日:2023-12-05 20:14:53 公開日:2023-12-01
# 人間のフィードバックから学ぶnash

Nash Learning from Human Feedback ( http://arxiv.org/abs/2312.00886v1 )

ライセンス: Link先を確認
R\'emi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas M\'esnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot(参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる主要なパラダイムとして現れている。 典型的には、RLHFは人間のフィードバックから報酬モデルを学ぶ最初のステップであり、しばしば事前訓練されたLLMによって生成されるテキスト世代間の好みとして表現される。 その後、LLMのポリシーは強化学習アルゴリズムにより報酬モデルを最大限に最適化することで微調整される。 しかし、現在の報酬モデルの本質的な制限は、人間の嗜好の豊かさとサンプリング分布への依存を完全に表現できないことである。 本研究では,対人フィードバックを用いたllmの微調整のための代替パイプラインを提案する。 提案手法は,提案する2つの入力に条件付けされた嗜好モデルの初期学習を伴い,その後に,競合する政策よりも好まれる応答を一貫して生成するポリシーを追求し,この選好モデルのナッシュ均衡を定義する。 このアプローチをnash learning from human feedback(nlhf)と呼んでいる。 表形式のポリシー表現の文脈において,ミラー降下の原理に基づく新しいアルゴリズム解nash-mdを提案する。 このアルゴリズムは一連のポリシーを生成し、最後の繰り返しは正規化されたナッシュ平衡に収束する。 さらに,ポリシーのパラメトリック表現を探索し,ディープラーニングアーキテクチャに勾配降下アルゴリズムを導入する。 提案手法の有効性を示すために,テキスト要約タスクにおけるLLMの微調整を含む実験結果を提案する。 我々はNLHFが、LLMと人間の嗜好を整合させる分野を前進させる可能性を秘め、嗜好学習と政策最適化のための魅力的な道を提供すると考えている。

Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
翻訳日:2023-12-05 20:14:31 公開日:2023-12-01
# 全てを接地する:視覚言語トランスフォーマーにおける新しい局所化特性

Grounding Everything: Emerging Localization Properties in Vision-Language Transformers ( http://arxiv.org/abs/2312.00878v1 )

ライセンス: Link先を確認
Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne(参考訳) 視覚言語基礎モデルは、画像検索、分類、キャプションなど、様々なゼロショット設定で顕著な性能を示している。 しかし今のところ、これらのモデルは、画像中の参照表現とオブジェクトのゼロショットのローカライズに関しては遅れているようだ。 結果として、それらはこのタスクのために微調整される必要があります。 本稿では、事前学習された視覚言語(VL)モデルが、微調整なしでゼロショットオープン語彙オブジェクトの局所化を可能にすることを示す。 これらの機能を活用するために,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エミッション・モジュール(GEM)を提案する。 自己注意の概念はクラスタリングに対応し,同一対象から発生するトークン群が言語空間との整合を維持しながら類似することを示す。 グループ形成をさらにガイドするために、データセットとバックボーンをまたいでモデルを最終的に一般化する一連の正規化を提案する。 セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。 GEMは、他のトレーニング不要なオープン語彙ローカライズ手法よりも優れているだけでなく、最近提案されたOpenImagesV7大規模セグメンテーションベンチマークの最先端結果も達成している。

Vision-language foundation models have shown remarkable performance in various zero-shot settings such as image retrieval, classification, or captioning. But so far, those models seem to fall behind when it comes to zero-shot localization of referential expressions and objects in images. As a result, they need to be fine-tuned for this task. In this paper, we show that pretrained vision-language (VL) models allow for zero-shot open-vocabulary object localization without any fine-tuning. To leverage those capabilities, we propose a Grounding Everything Module (GEM) that generalizes the idea of value-value attention introduced by CLIPSurgery to a self-self attention path. We show that the concept of self-self attention corresponds to clustering, thus enforcing groups of tokens arising from the same object to be similar while preserving the alignment with the language space. To further guide the group formation, we propose a set of regularizations that allows the model to finally generalize across datasets and backbones. We evaluate the proposed GEM framework on various benchmark tasks and datasets for semantic segmentation. It shows that GEM not only outperforms other training-free open-vocabulary localization methods, but also achieves state-of-the-art results on the recently proposed OpenImagesV7 large-scale segmentation benchmark.
翻訳日:2023-12-05 20:14:02 公開日:2023-12-01
# 量子コンピュータを用いたタンパク質構造予測の展望

A perspective on protein structure prediction using quantum computers ( http://arxiv.org/abs/2312.00875v1 )

ライセンス: Link先を確認
Hakan Doga, Bryan Raubenolt, Fabio Cumbo, Jayadev Joshi, Frank P. DiFilippo, Jun Qin, Daniel Blankenberg, Omar Shehab(参考訳) AlphaFold2のような深層学習手法による最近の進歩にもかかわらず、バイオメディカル研究において、タンパク質の構造予測は難しい問題である。 量子コンピューティングの急速な進化により、量子コンピュータがこの問題に取り組む上で有意義な利点をもたらすかどうかを問うことは自然である。 しかし、量子的に有利な特定の問題インスタンスを特定し、必要な量子リソースを推定することは同様に困難である。 本稿では,量子の利点を享受できるタンパク質構造予測問題を体系的に選択する枠組みを構築し,そのような問題に対する量子資源を実用規模の量子コンピュータ上で推定する方法について考察する。 概念実証として,量子ハードウェア上でのジカウイルスNS3ヘリカーゼの触媒ループの構造を正確に予測し,問題選択の枠組みを検証する。

Despite the recent advancements by deep learning methods such as AlphaFold2, \textit{in silico} protein structure prediction remains a challenging problem in biomedical research. With the rapid evolution of quantum computing, it is natural to ask whether quantum computers can offer some meaningful benefits for approaching this problem. Yet, identifying specific problem instances amenable to quantum advantage, and estimating quantum resources required are equally challenging tasks. Here, we share our perspective on how to create a framework for systematically selecting protein structure prediction problems that are amenable for quantum advantage, and estimate quantum resources for such problems on a utility-scale quantum computer. As a proof-of-concept, we validate our problem selection framework by accurately predicting the structure of a catalytic loop of the Zika Virus NS3 Helicase, on quantum hardware.
翻訳日:2023-12-05 20:13:39 公開日:2023-12-01
# Hi-ArG: 言語の事前学習における階層的Argumentation Graphの統合を探る

Hi-ArG: Exploring the Integration of Hierarchical Argumentation Graphs in Language Pretraining ( http://arxiv.org/abs/2312.00874v1 )

ライセンス: Link先を確認
Jingcong Liang, Rong Ye, Meng Han, Qi Zhang, Ruofei Lai, Xinyu Zhang, Zhao Cao, Xuanjing Huang, Zhongyu Wei(参考訳) 知識グラフは知識を保存し表現するための構造であり、近年では様々なアプリケーションのための言語モデルを支援する能力について論じられている。 知識グラフのいくつかのバリエーションは、議論とその計算的議論タスクの関係を記録することを目的としている。 しかし、多くの人は特定のスキーマに適合するようにセマンティックタイプを単純化し、柔軟性と表現能力を失う必要がある。 本稿では,引数を整理する新しい構造である階層的引数グラフ(hi-arg)を提案する。 また,テキストグラフマルチモーダルモデルであるGreaseArGや,グラフ情報を付加した新たな事前学習フレームワークなど,Hi-ArGを活用するための2つのアプローチを導入する。 2つの議論タスクの実験により、さらなる事前学習と微調整の後、greaseargはこれらのタスクで同規模の言語モデルに取って代わると同時に、さらなる事前学習中にグラフ情報を取り入れることで、バニラ言語モデルのパフォーマンスも向上することが示された。 この論文のコードはhttps://github.com/ljcleo/Hi-ArG で公開されている。

The knowledge graph is a structure to store and represent knowledge, and recent studies have discussed its capability to assist language models for various applications. Some variations of knowledge graphs aim to record arguments and their relations for computational argumentation tasks. However, many must simplify semantic types to fit specific schemas, thus losing flexibility and expression ability. In this paper, we propose the Hierarchical Argumentation Graph (Hi-ArG), a new structure to organize arguments. We also introduce two approaches to exploit Hi-ArG, including a text-graph multi-modal model GreaseArG and a new pre-training framework augmented with graph information. Experiments on two argumentation tasks have shown that after further pre-training and fine-tuning, GreaseArG supersedes same-scale language models on these tasks, while incorporating graph information during further pre-training can also improve the performance of vanilla language models. Code for this paper is available at https://github.com/ljcleo/Hi-ArG .
翻訳日:2023-12-05 20:13:25 公開日:2023-12-01
# 固有状態遷移におけるオブザーバブルの臨界量子力学

Critical quantum dynamics of observables at eigenstate transitions ( http://arxiv.org/abs/2312.00873v1 )

ライセンス: Link先を確認
Simon Jiricek, Miroslav Hopjan, Patrycja {\L}yd\.zba, Fabian Heidrich-Meisner, Lev Vidmar(参考訳) 固有状態遷移における量子力学の重要な特徴を明らかにすることは際立った目標である。 局所化遷移を示す二次フェルミオンハミルトニアンに焦点をあて、初期局在状態からクエンチした時に転移においてスケール不変臨界ダイナミクスを示す物理観測値を特定する。 識別は2つの要素に基づいている。 (a)多体状態における可観測物の時間的進化と単一粒子状態の遷移確率との関係 (b)遷移確率のスケール不変性は、生存確率の最近の結果(第131報、第060404号(2023年)及びarxiv:2309.16005年)を一般化したものである。 これらの性質は、観測可能な量子クエンチ力学において、クエンチの前にハミルトニアンと共通の固有ベイシスを共有する臨界挙動が存在することを示唆する。 3次元アンダーソンモデルと1次元オーブリー・アンドルーモデルにおける固有状態遷移におけるそれらの臨界挙動を数値的に示す。

It is an outstanding goal to unveil the key features of quantum dynamics at eigenstate transitions. Focusing on quadratic fermionic Hamiltonians that exhibit localization transitions, we identify physical observables that exhibit scale-invariant critical dynamics at the transition when quenched from the initially localized states. The identification is based on two ingredients: (a) A relationship between the time evolution of observables in a many-body state and the transition probabilities of single-particle states, and (b) scale invariance of transition probabilities, which generalizes a corresponding recent result for survival probabilities [Phys. Rev. Lett. 131, 060404 (2023) and arXiv:2309.16005]. These properties suggest that there is also critical behavior in the quantum-quench dynamics of observables, which share the common eigenbasis with the Hamiltonian before the quench. Focusing on experimentally relevant observables such as site occupations and the particle imbalance we numerically demonstrate their critical behavior at the eigenstate transitions in the three-dimensional Anderson model and the one-dimensional Aubry-Andr\'e model.
翻訳日:2023-12-05 20:13:04 公開日:2023-12-01
# 3diface:拡散に基づく音声駆動3d顔アニメーションと編集

3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing ( http://arxiv.org/abs/2312.00870v1 )

ライセンス: Link先を確認
Balamurugan Thambiraja, Sadegh Aliakbarian, Darren Cosker, Justus Thies(参考訳) 3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。 既存の手法では、音声から顔のアニメーションを決定論的に予測するが、音声と表情の間に固有の一対一の関係を見落としている。 コンテンツ作成において、生成した動きを修正したり、キーフレームを指定することが特に重要である。 確率性とモーション編集を可能にするため,3次元顔動作のための軽量な音響条件拡散モデルを提案する。 この拡散モデルは、表現力のある唇運動出力を維持しながら、小さな3次元運動データセットで訓練することができる。 さらに、特定の被写体に対して微調整が可能で、人物の短いビデオだけを必要とする。 定量的および質的評価により,本手法は既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションが得られることを示す。

We present 3DiFACE, a novel method for personalized speech-driven 3D facial animation and editing. While existing methods deterministically predict facial animations from speech, they overlook the inherent one-to-many relationship between speech and facial expressions, i.e., there are multiple reasonable facial expression animations matching an audio input. It is especially important in content creation to be able to modify generated motion or to specify keyframes. To enable stochasticity as well as motion editing, we propose a lightweight audio-conditioned diffusion model for 3D facial motion. This diffusion model can be trained on a small 3D motion dataset, maintaining expressive lip motion output. In addition, it can be finetuned for specific subjects, requiring only a short video of the person. Through quantitative and qualitative evaluations, we show that our method outperforms existing state-of-the-art techniques and yields speech-driven animations with greater fidelity and diversity.
翻訳日:2023-12-05 20:12:42 公開日:2023-12-01
# Omni-SMoLA:低ランクエキスパートのソフトミックスによる汎用マルチモーダルモデルの構築

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts ( http://arxiv.org/abs/2312.00968v1 )

ライセンス: Link先を確認
Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut(参考訳) 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。 しかし、一般のLMMは、大量のタスクをチューニングする際に、しばしば性能劣化に悩まされる。 近年の研究では、Mixture of Experts (MoE) アーキテクチャは命令チューニングに有用であることが示唆されているが、O(50-100B) 周辺のパラメータサイズの LMM では、専門家モデルの複製と保存の禁止コストが、使用可能な専門家の数を著しく制限している。 Omni-SMoLAは、ソフトなMoEアプローチを用いて、多くのマルチモーダルな低ランクの専門家を(ソフトに)混合し、従来のMoEモデルと比較してかなりの数の新しいパラメータを導入することを避けるアーキテクチャである。 ここでの核となる直感は、大きなモデルは基本的なバックボーンを提供するが、異なる軽量の専門家は、モダリティ単位またはマルチモーダル単位の専門知識を残留的に学習する。 大規模な実験により、SMoLAアプローチは、広範囲な生成的視覚・言語タスクにおけるジェネラリストのパフォーマンス向上に役立つことが示され、新しいSoTAジェネラリストパフォーマンスは、単一の特殊なLMMベースラインにマッチしたり、性能を上回り、新しいSoTAスペシャリストパフォーマンスを達成する。

Large multi-modal models (LMMs) exhibit remarkable performance across numerous tasks. However, generalist LMMs often suffer from performance degradation when tuned over a large collection of tasks. Recent research suggests that Mixture of Experts (MoE) architectures are useful for instruction tuning, but for LMMs of parameter size around O(50-100B), the prohibitive cost of replicating and storing the expert models severely limits the number of experts we can use. We propose Omni-SMoLA, an architecture that uses the Soft MoE approach to (softly) mix many multimodal low rank experts, and avoids introducing a significant number of new parameters compared to conventional MoE models. The core intuition here is that the large model provides a foundational backbone, while different lightweight experts residually learn specialized knowledge, either per-modality or multimodally. Extensive experiments demonstrate that the SMoLA approach helps improve the generalist performance across a broad range of generative vision-and-language tasks, achieving new SoTA generalist performance that often matches or outperforms single specialized LMM baselines, as well as new SoTA specialist performance.
翻訳日:2023-12-05 20:06:42 公開日:2023-12-01
# スペクトル時間的コントラスト学習

Spectral Temporal Contrastive Learning ( http://arxiv.org/abs/2312.00966v1 )

ライセンス: Link先を確認
Sacha Morin, Somjit Nath, Samira Ebrahimi Kahou and Guy Wolf(参考訳) ラベルなしで有用なデータ表現を学ぶことは、現代のディープラーニングの基盤である。 自己教師付き学習手法、特にコントラスト学習(CL)は、データ拡張を利用して正のペアを定義することで成功している。 この成功は、clをよりよく理解し、下流線形プローブタスクの理論的境界を調べるための多くの理論的研究を促した。 この研究は、データのシーケンシャルな構造を用いて、より一般的にRLやロボティクスの文脈で使用される正のペアを定義する、時間的コントラスト学習(TCL)の設定に関係している。 本稿では,スペクトルclに関する最近の研究を,スペクトル時間コントラスト学習(stcl)に応用する。 我々は,一様定常分布を持つ時間均一可逆マルコフ連鎖から得られる状態グラフに基づく人口減少について論じる。 STCLの損失により、線形探索性能をグラフのスペクトル特性に結びつけることができ、事前に観測されたデータ列をMCMC連鎖のアンサンブルとして考慮して推定することができる。

Learning useful data representations without requiring labels is a cornerstone of modern deep learning. Self-supervised learning methods, particularly contrastive learning (CL), have proven successful by leveraging data augmentations to define positive pairs. This success has prompted a number of theoretical studies to better understand CL and investigate theoretical bounds for downstream linear probing tasks. This work is concerned with the temporal contrastive learning (TCL) setting where the sequential structure of the data is used instead to define positive pairs, which is more commonly used in RL and robotics contexts. In this paper, we adapt recent work on Spectral CL to formulate Spectral Temporal Contrastive Learning (STCL). We discuss a population loss based on a state graph derived from a time-homogeneous reversible Markov chain with uniform stationary distribution. The STCL loss enables to connect the linear probing performance to the spectral properties of the graph, and can be estimated by considering previously observed data sequences as an ensemble of MCMC chains.
翻訳日:2023-12-05 20:06:16 公開日:2023-12-01
# スパースデータに対する時空間変換器の深層学習手法

Spatiotemporal Transformer for Imputing Sparse Data: A Deep Learning Approach ( http://arxiv.org/abs/2312.00963v1 )

ライセンス: Link先を確認
Kehui Yao, Jingyi Huang, Jun Zhu(参考訳) 環境資源と農業の持続可能性の効果的な管理は、正確な土壌水分データに依存する。 しかし、SMAP/Sentinel-1土壌水分生成物のようなデータセットは時空間格子に欠落した値を含むことが多く、これは大きな課題となる。 本稿では, 疎時空間データセットにおける欠落値問題, 特に土壌水分データに着目した新しい時空間変圧器モデル(st-transformer)を提案する。 ST変換器は、複数の時空間的注意層を用いて、データの複雑な時空間相関を捕捉し、計算過程中に追加時空間共変を積分し、その精度を高める。 このモデルは、自己教師付きアプローチでトレーニングされ、観測されたデータポイントから欠落した値を自律的に予測することができる。 本モデルの有効性は,テキサス州の36×36kmの格子上のsmap 1kmの土壌水分データに適用して実証した。 有名な計算法に比べて精度が優れている。 さらに, シミュレーションにより, 様々な時空間的インプテーションタスクにおけるモデルの幅広い適用性が浮き彫りになった。

Effective management of environmental resources and agricultural sustainability heavily depends on accurate soil moisture data. However, datasets like the SMAP/Sentinel-1 soil moisture product often contain missing values across their spatiotemporal grid, which poses a significant challenge. This paper introduces a novel Spatiotemporal Transformer model (ST-Transformer) specifically designed to address the issue of missing values in sparse spatiotemporal datasets, particularly focusing on soil moisture data. The ST-Transformer employs multiple spatiotemporal attention layers to capture the complex spatiotemporal correlations in the data and can integrate additional spatiotemporal covariates during the imputation process, thereby enhancing its accuracy. The model is trained using a self-supervised approach, enabling it to autonomously predict missing values from observed data points. Our model's efficacy is demonstrated through its application to the SMAP 1km soil moisture data over a 36 x 36 km grid in Texas. It showcases superior accuracy compared to well-known imputation methods. Additionally, our simulation studies on other datasets highlight the model's broader applicability in various spatiotemporal imputation tasks.
翻訳日:2023-12-05 20:05:58 公開日:2023-12-01
# Biased Random-Key Genetic Algorithms: A review

Biased Random-Key Genetic Algorithms: A Review ( http://arxiv.org/abs/2312.00961v1 )

ライセンス: Link先を確認
Mariana A. Londe, Luciana S. Pessoa, Carlos E. Andrade, Mauricio G. C. Resende(参考訳) 本稿では,Biased Random-Key Genetic Algorithms (BRKGA)について概説する。 BRKGAは、遺伝的アルゴリズムの枠組みにおいて、偏り、均一、エリート主義的な交配戦略を持つランダムキーベースの染色体を用いるメタヒューリスティックである。 このレビューは、古典的組合せ最適化問題、実世界の産業的ユースケース、および機械学習におけるニューラルネットワークハイパーパラメータチューニングのような非orthodoxアプリケーションを含む、幅広い応用を含む150以上の論文を含んでいる。 スケジューリングは、このレビューで最も広く使われているアプリケーション領域であり、ネットワーク設計とロケーションの問題が続く。 最も頻繁なハイブリダイゼーション手法はローカル検索であり、新機能は人口の多様性を高めることを目的としている。 本調査は、BRKGAメタヒューリスティックとその応用の概要を概観し、今後の研究の重要領域を明らかにする。

This paper is a comprehensive literature review of Biased Random-Key Genetic Algorithms (BRKGA). BRKGA is a metaheuristic that employs random-key-based chromosomes with biased, uniform, and elitist mating strategies in a genetic algorithm framework. The review encompasses over 150 papers with a wide range of applications, including classical combinatorial optimization problems, real-world industrial use cases, and non-orthodox applications such as neural network hyperparameter tuning in machine learning. Scheduling is by far the most prevalent application area in this review, followed by network design and location problems. The most frequent hybridization method employed is local search, and new features aim to increase population diversity. Overall, this survey provides a comprehensive overview of the BRKGA metaheuristic and its applications and highlights important areas for future research.
翻訳日:2023-12-05 20:05:40 公開日:2023-12-01
# 圧縮のコスト--言語モデルにおけるパラメトリック知識に対する圧縮の影響を探る

The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models ( http://arxiv.org/abs/2312.00960v1 )

ライセンス: Link先を確認
Satya Sai Srinath Namburi, Makesh Sreedhar, Srinath Srinivasan, Frederic Sala(参考訳) 数十億のパラメータからなる大規模な言語モデル(LLM)圧縮は、高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。 2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。 重要なトレードオフは、圧縮の程度と圧縮されたモデルの品質への影響の間にある。 LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。 パラメトリックな知識を計測するなど、よりきめ細かいメトリクスは、未熟なままである。 このギャップを埋めるために、LAMAおよびLM-HARNESSベンチマークを用いて複数のモデルファミリ(ENCODER, ENCODER-DECODER, DECODER)を包括的に解析し、一般的な圧縮技術がモデル性能に与える影響を体系的に定量化する。 特に焦点はパラメトリックな知識を伴うトレードオフであり、圧縮に関するインフォームドな意思決定を支援する実用的な洞察を実践者に提供することを目的としている。 さらなる研究を可能にするために、コードベース1をリリースします。

Compressing large language models (LLMs), often consisting of billions of parameters, provides faster inference, smaller memory footprints, and enables local deployment. Two standard compression techniques are pruning and quantization, with the former eliminating redundant connections in model layers and the latter representing model parameters with fewer bits. The key tradeoff is between the degree of compression and the impact on the quality of the compressed model. Existing research on LLM compression primarily focuses on performance in terms of general metrics like perplexity or downstream task accuracy. More fine-grained metrics, such as those measuring parametric knowledge, remain significantly underexplored. To help bridge this gap, we present a comprehensive analysis across multiple model families (ENCODER, ENCODER-DECODER, and DECODER) using the LAMA and LM-HARNESS benchmarks in order to systematically quantify the effect of commonly employed compression techniques on model performance. A particular focus is on tradeoffs involving parametric knowledge, with the goal of providing practitioners with practical insights to help make informed decisions on compression. We release our codebase1 to enable further research.
翻訳日:2023-12-05 20:05:27 公開日:2023-12-01
# メソスコピック量子楕円ビリヤードのコヒーレント状態からの古典的周期軌道

Classical periodic orbits from coherent states in mesoscopic quantum elliptic billiards ( http://arxiv.org/abs/2312.00954v1 )

ライセンス: Link先を確認
Jesus G. Riestra and Julio C. Gutierrez-Vega(参考訳) 楕円ビリヤードの古典周期軌道における局所化を伴う波動関数の解析的構成は、マチュー函数の積として表されるほぼ整合状態を適切に重ね合わせることで達成されている。 楕円形ビリヤードにおける回転運動と振動運動のレジームの解析と考察を行った。 古典的軌跡に対応する単純な直線方程式は、角マチュー関数を含む積分方程式として量子コヒーレント状態から抽出することができる。 積分に現れる位相因子は、古典的初期位置および速度成分と接続される。 我々は、回転運動とリボリショナル運動の両方に対して、確率電流密度、位相マップ、コヒーレント状態の渦分布を解析する。 コヒーレント状態は、楕円ビリヤード内を走行および立位する軌跡を表すことができる。

An analytical construction of a wave function with localization in classical periodic orbits in an elliptic billiard has been achieved by appropriately superposing nearly coherent states expressed as products of Mathieu functions. We analyze and discuss the rotational and librational regimes of motion in the elliptic billiard. Simplified line equations corresponding to the classical trajectories can be extracted from the quantum coherent state as an integral equation involving angular Mathieu functions. The phase factors appearing in the integrals are connected to classical initial positions and velocity components. We analyze the probability current density, the phase maps, and the vortex distributions of the coherent states for both rotational and librational motions. The coherent state may represent traveling and standing trajectories inside the elliptic billiard.
翻訳日:2023-12-05 20:05:06 公開日:2023-12-01
# マスク画像モデリングによる教師あり表現学習の改善

Improve Supervised Representation Learning with Masked Image Modeling ( http://arxiv.org/abs/2312.00950v1 )

ライセンス: Link先を確認
Kaifeng Chen, Daniel Salz, Huiwen Chang, Kihyuk Sohn, Dilip Krishnan, Mojtaba Seyedhosseini(参考訳) ラベル付きデータ監視による視覚埋め込みのトレーニングは、コンピュータビジョンにおける表現学習の事実上のセットアップである。 自己教師付き表現学習におけるマスク付き画像モデリング(MIM)の最近の成功に触発されて,MIMを既存の教師付き訓練パラダイムに容易に統合可能な,シンプルかつ効果的な設定を提案する。 本設計では、視覚変換器の画像エンコーダに適用される元の分類タスクに加えて、エンコーダの上に浅いトランスフォーマーベースのデコーダを追加し、マスク画像入力に基づいて画像トークンを再構成しようとするMIMタスクを導入する。 アーキテクチャの変更を最小限に抑え、この設定が分類、画像検索、セマンティックセグメンテーションといった下流タスクの学習表現の品質を向上させることができるという推論のオーバーヘッドを伴わないことを示す。 我々は、公開ベンチマークで設定の総合的な研究と評価を行う。 ImageNet-1kでは、VT-B/14モデルが81.72%の検証精度を実現し、ベースラインモデルよりも2.01%高い。 ImageNet-1kによるK-Nearest-Neighbor画像検索評価では、同じモデルがベースラインを1.32%上回る。 また、このセットアップをより大きなモデルやデータセットに簡単に拡張できることも示しています。 コードとチェックポイントがリリースされます。

Training visual embeddings with labeled data supervision has been the de facto setup for representation learning in computer vision. Inspired by recent success of adopting masked image modeling (MIM) in self-supervised representation learning, we propose a simple yet effective setup that can easily integrate MIM into existing supervised training paradigms. In our design, in addition to the original classification task applied to a vision transformer image encoder, we add a shallow transformer-based decoder on top of the encoder and introduce an MIM task which tries to reconstruct image tokens based on masked image inputs. We show with minimal change in architecture and no overhead in inference that this setup is able to improve the quality of the learned representations for downstream tasks such as classification, image retrieval, and semantic segmentation. We conduct a comprehensive study and evaluation of our setup on public benchmarks. On ImageNet-1k, our ViT-B/14 model achieves 81.72% validation accuracy, 2.01% higher than the baseline model. On K-Nearest-Neighbor image retrieval evaluation with ImageNet-1k, the same model outperforms the baseline by 1.32%. We also show that this setup can be easily scaled to larger models and datasets. Code and checkpoints will be released.
翻訳日:2023-12-05 20:04:53 公開日:2023-12-01
# 大言語モデル命令チューニングのためのハイパーパラメータ最適化

Hyperparameter Optimization for Large Language Model Instruction-Tuning ( http://arxiv.org/abs/2312.00949v1 )

ライセンス: Link先を確認
Christophe Tribes, Sacha Benarroch-Lelong, Peng Lu, Ivan Kobyzev(参考訳) 大規模言語モデル(llms)の微調整により、最近、自然言語処理アプリケーションのマイルストーンを達成した。 より大きなLSMの出現は、より効率的な微調整方法の道を開いた。 これらのうち、ローランド適応法(LoRA)は、重量行列の低ランク分解を導入しながら、事前訓練されたLLMの重量のほとんどを凍結させ、ネットワークのごく一部しかチューニングできないようにする。 LoRAで微調整されたモデルの下流タスクのパフォーマンスは、分解のランクを含む一連のハイパーパラメータに大きく依存している。 本研究では,2つの主ブラックボックス最適化(BBO)手法を用いて,これらのハイパーパラメータの選択について検討する。 事前学習されたllmをブラックボックスとして微調整と検証を行うパイプライン全体を調べ、ハイパーパラメータの空間を \nomadアルゴリズムで効率的に探索し、チューニングモデルの性能と人間のアライメントを向上させる。

The fine-tuning of Large Language Models (LLMs) has enabled them to recently achieve milestones in natural language processing applications. The emergence of ever larger LLMs has paved the way for more efficient fine-tuning methods. Among these, the Low-Rank Adaptation (LoRA) method keeps most of the weights of the pre-trained LLM frozen while introducing a low-rank decomposition of the weight matrix, enabling the tuning of only a very small proportion of the network. The performance on downstream tasks of models fine-tuned with LoRA heavily relies on a set of hyperparameters including the rank of the decomposition. In this work, we investigate the choice of these hyperparameters through two main blackbox optimization (BBO) techniques. We examine the whole pipeline of performing fine-tuning and validation on a pre-trained LLM as a blackbox and efficiently explore the space of hyperparameters with the \nomad algorithm, achieving a boost in performance and human alignment of the tuned model.
翻訳日:2023-12-05 20:04:31 公開日:2023-12-01
# ゼロショット学習を満たしたオブジェクト6dポーズ推定

Object 6D pose estimation meets zero-shot learning ( http://arxiv.org/abs/2312.00947v1 )

ライセンス: Link先を確認
Andrea Caraffa, Davide Boscaini, Amir Hamza, Fabio Poiesi(参考訳) オブジェクト6dポーズ推定手法は、同じオブジェクト上でトレーニングとテストを行う場合に高い精度を達成することができる。 しかし,訓練時間に不足している物体の姿勢推定は依然として課題である。 本研究では,事前学習された幾何学モデルと視覚基礎モデルの寄与を融合した最初の手法を提案することにより,ゼロショット物体6dポーズ推定の最先端を前進させる。 6次元ポーズ推定タスク用に特別に作られたデータに基づいてパイプラインをトレーニングする最先端のアプローチとは異なり、この方法はタスク固有の微調整を必要としない。 代わりに、我々がPoMZと呼ぶ手法は、ポイントクラウドデータから学習した幾何学的記述子と大規模ウェブ画像から学習した視覚的特徴を組み合わせることで、特異な3Dポイントレベルの記述子を生成する。 RANSACのような既製の登録アルゴリズムを適用することで、PoMZは最先端のゼロショットオブジェクト6Dのポーズ推定アプローチよりも優れている。 我々は、BOPベンチマークの7つのコアデータセットにまたがるPoMZを広範囲に評価し、100以上のオブジェクトと2000万のイメージを多様なシナリオでキャプチャした。 PoMZ は BOP ベンチマークでタスク 4: 見えないオブジェクトの6D ローカライゼーションのカテゴリで第1位である。 ソースコードを公開します。

Object 6D pose estimation methods can achieve high accuracy when trained and tested on the same objects. However, estimating the pose of objects that are absent at training time is still a challenge. In this work, we advance the state-of-the-art in zero-shot object 6D pose estimation by proposing the first method that fuses the contribution of pre-trained geometric and vision foundation models. Unlike state-of-the-art approaches that train their pipeline on data specifically crafted for the 6D pose estimation task, our method does not require task-specific finetuning. Instead, our method, which we name PoMZ, combines geometric descriptors learned from point cloud data with visual features learned from large-scale web images to produce distinctive 3D point-level descriptors. By applying an off-the-shelf registration algorithm, like RANSAC, PoMZ outperforms all state-of-the-art zero-shot object 6D pose estimation approaches. We extensively evaluate PoMZ across the seven core datasets of the BOP Benchmark, encompassing over a hundred objects and 20 thousand images captured in diverse scenarios. PoMZ ranks first in the BOP Benchmark under the category Task 4: 6D localization of unseen objects. We will release the source code publicly.
翻訳日:2023-12-05 20:04:15 公開日:2023-12-01
# 3次元幾何学制約付き拡散モデルの構築

Enhancing Diffusion Models with 3D Perspective Geometry Constraints ( http://arxiv.org/abs/2312.00944v1 )

ライセンス: Link先を確認
Rishi Upadhyay, Howard Zhang, Yunhao Ba, Ethan Yang, Blake Gella, Sicheng Jiang, Alex Wong, Achuta Kadambi(参考訳) パースペクティブは芸術においてよく研究されているトピックであるが、一般的には画像で認められている。 しかし、潜時拡散モデルのような最近の高品質な画像合成法では、視線精度は明示的な要件ではない。 これらの手法は広い範囲の可能な画像を出力することができるため、これらの合成画像が線形視点の原理に従うことは困難である。 本稿では,生成モデルの学習過程において新たな幾何学的制約を導入し,視点の精度を強制する。 この制約でトレーニングされたモデルの出力は、どちらもよりリアルに見え、生成した画像に基づいてトレーニングされた下流モデルの性能が向上することを示す。 主観的人間実験では, 遅延拡散モデルを用いて生成した画像が, 安定拡散v2モデルから得られた画像よりも70%好まれることが示された。 DPTやPixelFormerのようなSOTA単眼深度推定モデルでは、実際の画像で訓練されたオリジナルのモデルをRMSEで7.03%、ゼロショット転送のためにKITTIでSqRelで19.3%上回っている。

While perspective is a well-studied topic in art, it is generally taken for granted in images. However, for the recent wave of high-quality image synthesis methods such as latent diffusion models, perspective accuracy is not an explicit requirement. Since these methods are capable of outputting a wide gamut of possible images, it is difficult for these synthesized images to adhere to the principles of linear perspective. We introduce a novel geometric constraint in the training process of generative models to enforce perspective accuracy. We show that outputs of models trained with this constraint both appear more realistic and improve performance of downstream models trained on generated images. Subjective human trials show that images generated with latent diffusion models trained with our constraint are preferred over images from the Stable Diffusion V2 model 70% of the time. SOTA monocular depth estimation models such as DPT and PixelFormer, fine-tuned on our images, outperform the original models trained on real images by up to 7.03% in RMSE and 19.3% in SqRel on the KITTI test set for zero-shot transfer.
翻訳日:2023-12-05 20:03:53 公開日:2023-12-01
# 手続き型プログラムによるゼロショットビデオ質問応答

Zero-Shot Video Question Answering with Procedural Programs ( http://arxiv.org/abs/2312.00937v1 )

ライセンス: Link先を確認
Rohan Choudhury, Koichiro Niinuma, Kris M. Kitani, L\'aszl\'o A. Jeni(参考訳) 視覚的なサブタスクの列から最終回答を得る短い手続きプログラムを生成することにより、ビデオに関するゼロショット問題に答えることを提案する。 本稿では ProViQ (Procedural Video Querying) を提案する。プロンプト内の入力問題と視覚モジュールのAPIからそのようなプログラムを生成するために,大規模な言語モデルを用いて,それらを実行して出力を得る。 ビデオ理解のためのモジュールをProViQに提供し、さまざまなビデオに一般化できるようにしています。 このコード生成フレームワークは、マルチオブジェクト追跡や基本的なビデオ編集などの質問応答に加えて、ProViQが他のビデオタスクを実行できる。 ProViQはさまざまなベンチマークで最先端の結果を達成し、ショート、ロング、オープン、マルチモーダルのビデオ質問応答データセットで最大25%改善されている。 プロジェクトページはhttps://rccchoudhury.github.io/proviq2023。

We propose to answer zero-shot questions about videos by generating short procedural programs that derive a final answer from solving a sequence of visual subtasks. We present Procedural Video Querying (ProViQ), which uses a large language model to generate such programs from an input question and an API of visual modules in the prompt, then executes them to obtain the output. Recent similar procedural approaches have proven successful for image question answering, but videos remain challenging: we provide ProViQ with modules intended for video understanding, allowing it to generalize to a wide variety of videos. This code generation framework additionally enables ProViQ to perform other video tasks in addition to question answering, such as multi-object tracking or basic video editing. ProViQ achieves state-of-the-art results on a diverse range of benchmarks, with improvements of up to 25% on short, long, open-ended, and multimodal video question-answering datasets. Our project page is at https://rccchoudhury.github.io/proviq2023.
翻訳日:2023-12-05 20:03:34 公開日:2023-12-01
# マルチモーダル学習におけるユニモーダルバイアスの理論

A Theory of Unimodal Bias in Multimodal Learning ( http://arxiv.org/abs/2312.00935v1 )

ライセンス: Link先を確認
Yedi Zhang, Peter E. Latham, Andrew Saxe(参考訳) マルチモーダルニューラルネットワークのトレーニングで同時に複数の入力ストリームを使用することは直感的に有利だが、実際は困難である。 鍵となる課題はユニモーダルバイアスであり、ネットワークは一方のモダリティを過度に頼り、共同トレーニング中に他者を無視している。 ユニモーダルバイアスは実証的によく文書化されているが、アーキテクチャとデータ統計がこのバイアスにどのように影響するかに関する理論的理解はいまだ不完全である。 本稿では,マルチモーダル線形ネットワークを用いた一様バイアスの理論を展開する。 学習における一様相の持続時間を、ネットワーク内でモーダルが融合される深さ、データセット統計、初期化の関数として計算する。 核融合が起こる層が深ければ深いほど、ユニモーダル相は長くなる。 長いユニモーダル位相は、過剰パラメータ化状態における一般化欠陥と恒久的なユニモーダルバイアスをもたらす可能性がある。 さらに,本理論は,まず学習したモダリティが出力に寄与するモダリティであるとは限らないことを明らかにする。 この結果はマルチモーダル線形ネットワークに導出され,特定の設定でreluネットワークに拡張される。 この研究は共同学習におけるマルチモーダル学習の病理学を照らし、後期と中期の融合アーキテクチャが長い単潮相と永続的な単潮偏差をもたらすことを示した。

Using multiple input streams simultaneously in training multimodal neural networks is intuitively advantageous, but practically challenging. A key challenge is unimodal bias, where a network overly relies on one modality and ignores others during joint training. While unimodal bias is well-documented empirically, our theoretical understanding of how architecture and data statistics influence this bias remains incomplete. Here we develop a theory of unimodal bias with deep multimodal linear networks. We calculate the duration of the unimodal phase in learning as a function of the depth at which modalities are fused within the network, dataset statistics, and initialization. We find that the deeper the layer at which fusion occurs, the longer the unimodal phase. A long unimodal phase can lead to a generalization deficit and permanent unimodal bias in the overparametrized regime. In addition, our theory reveals the modality learned first is not necessarily the modality that contributes more to the output. Our results, derived for multimodal linear networks, extend to ReLU networks in certain settings. Taken together, this work illuminates pathologies of multimodal learning under joint training, showing that late and intermediate fusion architectures can give rise to long unimodal phases and permanent unimodal bias.
翻訳日:2023-12-05 20:03:04 公開日:2023-12-01
# 税金コンプライアンスのためにグローバルに分散したソフトウェアアーキテクチャを記述する

Describing Globally Distributed Software Architectures for Tax Compliance ( http://arxiv.org/abs/2312.00925v1 )

ライセンス: Link先を確認
Michael Dorner and Oliver Treidler and Tom-Eric Kunz and Ehsan Zabardast and Daniel Mendez and Darja \v{S}mite and Maximilian Capraro and Krzysztof Wnuk(参考訳) 背景: 異なる国の組織単位が所有するソフトウェアコンポーネントの企業内再利用は課税可能である。 国際課税基準に準拠するため、多国籍企業はソフトウェアアーキテクチャに関する地理的視点を考慮する必要がある。 しかし、グローバルに分散したソフトウェアアーキテクチャに対する利害関係者としての税務当局の懸念を背景とする見解はない。 目的:本記事では,税務当局の利害関係者としての関心を読者に紹介し,ソフトウェア企業がグローバルに分散したソフトウェアアーキテクチャを税務当局に説明できる方法について検討する。 方法: 環境内実験において,(1)税務当局の懸念を背景とする視点,(2)多国籍企業による大規模でグローバルに分散したマイクロサービスアーキテクチャの視点,(3)4名の税務専門家によるソフトウェアアーキテクチャ記述の評価を行う。 結果: 税務専門家会は, 提案する建築的視点が, 課税利害関係者の懸念を十分に反映していることを見出した。 私たちの場合、2560のマイクロサービス間の再利用関係の約70%は国境を越えたものであり、従って、課税可能で不明確な所有者の管轄権と所有権の潜在的に不十分な定義は、ソフトウェアアーキテクチャ記述の有用性と説明力を制限するという見解に重大なノイズをもたらします。 結論: ソフトウェアアーキテクチャの説明は、次のステップ、すなわちソフトウェアコンポーネントの評価のための確固たる基盤を提供しますが、分散チームにおけるオーナシップを特定し定義する場合、理論上、実用的な問題をいくつか解決しました。

Background: The company-internal reuse of software components owned by organizational units in different countries is taxable. To comply with international taxation standards, multinational enterprises need to consider a geographical perspective on their software architecture. However, there is no viewpoint that frames the concerns of tax authorities as stakeholders towards a globally distributed software architecture. Objective: In this article, we introduce the reader to the concerns of tax authorities as stakeholders and we investigate how software companies can describe their globally distributed software architectures to tax authorities. Method: In an in-virtuo experiment, we (1) develop a viewpoint that frames the concerns of tax authorities, (2) create a view of a large-scale, globally distributed microservice architecture from a multinational enterprise, and (3) evaluate the resulting software architecture description with a panel of four tax experts. Results: The panel of tax experts found that our proposed architectural viewpoint properly and sufficiently frames the concerns of taxation stakeholders. However, the resulting view falls short: Although the architecture description reveals that almost 70% of all reuse relationships between the 2560 microservices in our case are cross-border and, therefore, taxable, unclear jurisdictions of owners and a potentially insufficient definition of ownership introduce significant noise to the view that limits its usefulness and explanatory power of our software architecture description. Conclusion: Although our software architecture description provides a solid foundation for the subsequent step, namely valuing software components, we stumbled over several theoretical and practical problems when identifying and defining ownership in distributed teams, which requires further interdisciplinary research.
翻訳日:2023-12-05 20:02:29 公開日:2023-12-01
# 連続学習におけるラベル遅延

Label Delay in Continual Learning ( http://arxiv.org/abs/2312.00923v1 )

ライセンス: Link先を確認
Botos Csaba, Wenxuan Zhang, Matthias M\"uller, Ser-Nam Lim, Mohamed Elhoseiny, Philip Torr, Adel Bibi(参考訳) 近年,ストリーミングデータを用いたモデルのトレーニングプロセスであるオンライン連続学習が注目されている。 しかし、しばしば見過ごされる重要な側面はラベル遅延であり、遅い、コストのかかるアノテーションプロセスのために新しいデータがラベル付けされない可能性がある。 本稿では,データとラベルストリーム間のラベル遅延を時間ステップで明示的にモデル化する,新しい連続学習フレームワークを提案する。 各ステップにおいて、フレームワークは現在のステップ$t$からのラベル付きデータと、タイムステップ$t-d$から$d$で遅延したラベルの両方を明らかにする。 1060gpu日という広範な実験で、計算資源の強化だけではこの課題に取り組むには不十分であることを示した。 その結果,ラベル遅延が顕著になるとラベル付きデータのみに依存する場合,顕著な性能低下が認められた。 さらに驚くべきことに、最先端のSSLとTTA技術を使用して、新しいラベル付きデータを利用する場合、遅延教師付きストリーム上で単にトレーニングするna\"iveメソッドのパフォーマンスを上回りません。 この目的のために、新しいラベルなしサンプルと最もよく似たラベル付きメモリサンプルからリハーサルする、シンプルで効率的なベースラインを導入する。 この手法は,計算複雑性を大幅に増大させることなくラベル遅延による精度ギャップを埋める。 提案手法はラベル遅延係数に最も影響を受けていないことを示し、場合によっては非遅延の精度を回復させる。 本手法の有効性を実証し,様々な改善と感度実験を行った。

Online continual learning, the process of training models on streaming data, has gained increasing attention in recent years. However, a critical aspect often overlooked is the label delay, where new data may not be labeled due to slow and costly annotation processes. We introduce a new continual learning framework with explicit modeling of the label delay between data and label streams over time steps. In each step, the framework reveals both unlabeled data from the current time step $t$ and labels delayed with $d$ steps, from the time step $t-d$. In our extensive experiments amounting to 1060 GPU days, we show that merely augmenting the computational resources is insufficient to tackle this challenge. Our findings underline a notable performance decline when solely relying on labeled data when the label delay becomes significant. More surprisingly, when using state-of-the-art SSL and TTA techniques to utilize the newer, unlabeled data, they fail to surpass the performance of a na\"ive method that simply trains on the delayed supervised stream. To this end, we introduce a simple, efficient baseline that rehearses from the labeled memory samples that are most similar to the new unlabeled samples. This method bridges the accuracy gap caused by label delay without significantly increasing computational complexity. We show experimentally that our method is the least affected by the label delay factor and in some cases successfully recovers the accuracy of the non-delayed counterpart. We conduct various ablations and sensitivity experiments, demonstrating the effectiveness of our approach.
翻訳日:2023-12-05 20:01:24 公開日:2023-12-01
# 一貫性のあるメッシュ拡散

Consistent Mesh Diffusion ( http://arxiv.org/abs/2312.00971v1 )

ライセンス: Link先を確認
Julian Knodt and Xifeng Gao(参考訳) UVパラメータ化による3Dメッシュを前提として,テキストプロンプトからテクスチャを生成する新しいアプローチを提案する。 以前の作業では、テキストから画像への拡散モデルからの最適化を使用してテクスチャと幾何を生成するが、これは遅く、かなりの計算リソースを必要とする。 また,複数の2d画像の拡散経路を最初に統一し,マルチディフフュージョン~\cite{multidiffusion} で3dに重ね合わせることにより,画像の描画に1つの深度から画像への拡散ネットワークを用い,画像に1つの一貫したテクスチャを生成する手法を提案する。 我々は、30のメッシュを含むデータセット上でのアプローチを実証し、1メッシュにつき約5分かかることを示した。 アプローチの品質を評価するために,CLIP-score~\cite{clipscore} と Frechet Inception Distance (FID)~\cite{frechet} を用いてレンダリングの品質を評価し,事前の作業よりも改善した点を示す。

Given a 3D mesh with a UV parameterization, we introduce a novel approach to generating textures from text prompts. While prior work uses optimization from Text-to-Image Diffusion models to generate textures and geometry, this is slow and requires significant compute resources. Alternatively, there are projection based approaches that use the same Text-to-Image models that paint images onto a mesh, but lack consistency at different viewing angles, we propose a method that uses a single Depth-to-Image diffusion network, and generates a single consistent texture when rendered on the 3D surface by first unifying multiple 2D image's diffusion paths, and hoisting that to 3D with MultiDiffusion~\cite{multidiffusion}. We demonstrate our approach on a dataset containing 30 meshes, taking approximately 5 minutes per mesh. To evaluate the quality of our approach, we use CLIP-score~\cite{clipscore} and Frechet Inception Distance (FID)~\cite{frechet} to evaluate the quality of the rendering, and show our improvement over prior work.
翻訳日:2023-12-05 19:49:58 公開日:2023-12-01
# 量子速度限界における2量子ゲートの実装

Implementing two-qubit gates at the quantum speed limit ( http://arxiv.org/abs/2206.07716v4 )

ライセンス: Link先を確認
Joel Howard, Alexander Lidiak, Casey Jameson, Bora Basyildiz, Kyle Clark, Tongyu Zhao, Mustafa Bal, Junling Long, David P. Pappas, Meenakshi Singh, Zhexuan Gong(参考訳) 基本量子ゲート、特に2量子ビットゲートの速度は、最終的に量子回路が動作可能な速度の限界を設定する。 本研究では,2つの超伝導トランスモン量子ビット間の物理的相互作用強度によって可能となる最大速度で2量子ゲートを実験により実証した。 この量子速度制限を、機械学習にインスパイアされた最適制御法を用いて設計した実験ゲートを実装することで達成する。 重要な点として,本手法では,解析速度限界に近い任意の2量子ゲートを高忠実度で達成するために,シングルキュービット駆動強度が相互作用強度より適度に大きくなることしか要求されない。 このように、この手法は、単一キュービットと2キュービットのゲート速度に匹敵するものや、常時オンの相互作用を持つものなど、様々なプラットフォームに適用できる。 本手法は,単一キュービットゲートとネイティブ2キュービットゲートの長いシーケンスで達成される非ネイティブ2キュービットゲートに対して,大幅な高速化を期待する。

The speed of elementary quantum gates, particularly two-qubit gates, ultimately sets the limit on the speed at which quantum circuits can operate. In this work, we experimentally demonstrate commonly used two-qubit gates at nearly the fastest possible speed allowed by the physical interaction strength between two superconducting transmon qubits. We achieve this quantum speed limit by implementing experimental gates designed using a machine learning inspired optimal control method. Importantly, our method only requires the single-qubit drive strength to be moderately larger than the interaction strength to achieve an arbitrary two-qubit gate close to its analytical speed limit with high fidelity. Thus, the method is applicable to a variety of platforms including those with comparable single-qubit and two-qubit gate speeds, or those with always-on interactions. We expect our method to offer significant speedups for non-native two-qubit gates that are typically achieved with a long sequence of single-qubit and native two-qubit gates.
翻訳日:2023-12-04 19:30:38 公開日:2023-12-01
# 自己整合側ゲートを有するグラフェン系量子ホール干渉計

Graphene-based quantum Hall interferometer with self-aligned side gates ( http://arxiv.org/abs/2206.05623v2 )

ライセンス: Link先を確認
Lingfei Zhao, Ethan G. Arnault, Trevyn F. Q. Larson, Zubair Iftikhar, Andrew Seredinski, Tate Fleming, Kenji Watanabe, Takashi Taniguchi, Francois Amet, and Gleb Finkelstein(参考訳) グラフェンの消滅するバンドギャップは、従来のスプリットゲートによって導入された部分的に透明なp-nインターフェースである高品質の量子点接触(QPC)を作るための課題を長年提示してきた。 この複雑さはグラフェン量子ホールFabry-P'erot干渉計の製造を妨げ、近年の進歩により、高抵抗の$\nu=0$状態を利用する分割ゲートQPCが動作できるようになった。 ここでは, グラフェンシートの狭い溝をエッチングし, 導電路を自己整合グラフェン側ゲートから分離することにより, QPCの製造法を提案する。 量子ホール系における個別QPCの動作を実証し、さらにこれらのQPCを用いて量子ホール干渉計を作成し研究する。

The vanishing band gap of graphene has long presented challenges for making high-quality quantum point contacts (QPCs) -- the partially transparent p-n interfaces introduced by conventional split-gates tend to short the QPC. This complication has hindered the fabrication of graphene quantum Hall Fabry-P\'erot interferometers, until recent advances have allowed split-gate QPCs to operate utilizing the highly resistive $\nu=0$ state. Here, we present a simple recipe to fabricate QPCs by etching a narrow trench in the graphene sheet to separate the conducting channel from self-aligned graphene side gates. We demonstrate operation of the individual QPCs in the quantum Hall regime, and further utilize these QPCs to create and study a quantum Hall interferometer.
翻訳日:2023-12-04 19:30:21 公開日:2023-12-01
# ジャコビアン制御によるガウスカーネルリッジ回帰の帯域選択

Bandwidth Selection for Gaussian Kernel Ridge Regression via Jacobian Control ( http://arxiv.org/abs/2205.11956v4 )

ライセンス: Link先を確認
Oskar Allerbo and Rebecka J\"ornsten(参考訳) ほとんどの機械学習手法はハイパーパラメータのチューニングを必要とする。 ガウス核を持つカーネルリッジ回帰では、ハイパーパラメータは帯域幅である。 帯域幅はカーネルの長さスケールを規定し、優れた一般化モデルを得るために慎重に選択する必要がある。 帯域幅選択、クロスバリデーション、限界極大化のデフォルト手法は、計算コストが高いにもかかわらず良い結果をもたらすことが多い。 ヤコビアン正則化に着想を得て、ガウス核によるカーネルリッジ回帰によって推定される関数の微分がカーネル帯域に依存するかの近似式を定式化する。 この表現を用いて、ジャコビアン制御に基づく閉形式、計算量的フェザーライト、帯域選択ヒューリスティックを提案する。 さらに、ヤコビアン式は、推定関数の滑らかさとトレーニングデータカーネル行列の条件付けとの間のトレードオフである帯域幅選択を照らす。 本手法は,実データと合成データに比較して,モデル性能の面ではペアだが,最大6桁の高速化が期待できることを示す。

Most machine learning methods require tuning of hyper-parameters. For kernel ridge regression with the Gaussian kernel, the hyper-parameter is the bandwidth. The bandwidth specifies the length scale of the kernel and has to be carefully selected to obtain a model with good generalization. The default methods for bandwidth selection, cross-validation and marginal likelihood maximization, often yield good results, albeit at high computational costs. Inspired by Jacobian regularization, we formulate an approximate expression for how the derivatives of the functions inferred by kernel ridge regression with the Gaussian kernel depend on the kernel bandwidth. We use this expression to propose a closed-form, computationally feather-light, bandwidth selection heuristic, based on controlling the Jacobian. In addition, the Jacobian expression illuminates how the bandwidth selection is a trade-off between the smoothness of the inferred function and the conditioning of the training data kernel matrix. We show on real and synthetic data that compared to cross-validation and marginal likelihood maximization, our method is on pair in terms of model performance, but up to six orders of magnitude faster.
翻訳日:2023-12-04 19:30:08 公開日:2023-12-01
# プログラム可能な2量子状態の線形光発生

Programmable heralded linear optical generation of two-qubit states ( http://arxiv.org/abs/2204.08788v2 )

ライセンス: Link先を確認
Suren A. Fldzhyan, Mikhail Yu. Saygin, Sergei P. Kulik(参考訳) 我々はプログラマブルリニア光学による2量子ビットデュアルレールエンコード状態のヘラルド生成について検討した。 4つの単一光子から状態を生成する2種類のスキームが検討されている。 これらのスキームは、2つの補助光子を1つのモードで検出する1モード・ヘラルディングと、2つのモードで同時に1つの光子が検出される2モード・ヘラルディングという、成功した生成イベントを指示する異なる検出パターンを有する。 我々は,スキームの成功確率の目標状態の絡み合い度への依存性が本質的に異なることを示した。 特に、プログラム可能な干渉計がユニタリ転送行列の全空間を探索できる場合、一モードのシーディングは高絡み合い状態に対してより良い効率をもたらす。 弱い絡み合いの状態では、2モードのヘラルディングがよい場合に逆転する。 1つの可変位相シフトによってプログラムされる2モードのヘラルドを持つスキームの最小分解を見出した。 2量子状態を生成するために設計された線形光学スキームは、既知の2量子線形光学ゲートを持つゲートベース回路を実装する方式よりも効率的である。 この結果から, 2ビットデュアルレール符号化フォトニック状態の生成に必要な物理資源の大幅な削減が得られた。

We have investigated the heralded generation of two-qubit dual-rail-encoded states by programmable linear optics. Two types of schemes generating the states from four single photons, which is the minimal possible to accomplish the task, have been considered. The schemes have different detection patterns heralding successful generation events, namely, one-mode heralding, in which the two auxiliary photons are detected in one mode, and two-mode heralding, in which single photons are detected in each of the two modes simultaneously. We have shown that the dependence of the schemes' success probabilities on the target state's degree of entanglement are essentially different. In particular, one-mode heralding yields better efficiency for highly-entangled states, if the programmable interferometers can explore the full space of the unitary transfer matrices,. It is reversed in case of weakly-entangled states where two-mode heralding is better. We have found a minimal decomposition of the scheme with two-mode heralding that is programmed by one variable phase shift. We infer that the linear optical schemes designed specifically for generation of two-qubit states are more efficient than schemes implementing gate-based circuits with known two-qubit linear optical gates. Our results yield substantial reduction of physical resources needed to generate two-qubit dual-rail-encoded photonic states.
翻訳日:2023-12-04 19:29:48 公開日:2023-12-01
# Swin-Conv-UNetによるブラインド画像の実用化とデータ合成

Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis ( http://arxiv.org/abs/2203.13278v4 )

ライセンス: Link先を確認
Kai Zhang, Yawei Li, Jingyun Liang, Jiezhang Cao, Yulun Zhang, Hao Tang, Deng-Ping Fan, Radu Timofte, Luc Van Gool(参考訳) 近年、深層ニューラルネットワークを画像デノイジング(画像デノイジング)に活用する劇的な進歩が見られたが、既存の手法は主に、加算白色ガウスノイズ(awgn)、jpeg圧縮ノイズ、カメラセンサノイズ、実画像の汎用ブラインドデノイジング法などの単純なノイズ仮定に依存している。 本稿では,ネットワークアーキテクチャ設計とデータ合成のトレーニングの観点から,この問題を解決しようとする。 具体的には,ネットワークアーキテクチャ設計のために,残畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング機能を組み込んだswin-convブロックを提案する。 トレーニングデータ合成のために,ガウス,ポアソン,スペックル,JPEG圧縮,処理されたカメラセンサノイズなど,様々な種類のノイズを考慮した実用的なノイズ劣化モデルの設計と縮小を行い,ランダムシャッフル戦略と二重劣化戦略を伴う。 AGWN除去と実画像復号化に関する大規模な実験により、新しいネットワークアーキテクチャ設計が最先端の性能を実現し、新しい劣化モデルが実用性を大幅に向上することを示した。 私たちの研究は、現在の分別研究に有用な洞察を与えることができると考えています。

While recent years have witnessed a dramatic upsurge of exploiting deep neural networks toward solving image denoising, existing methods mostly rely on simple noise assumptions, such as additive white Gaussian noise (AWGN), JPEG compression noise and camera sensor noise, and a general-purpose blind denoising method for real images remains unsolved. In this paper, we attempt to solve this problem from the perspective of network architecture design and training data synthesis. Specifically, for the network architecture design, we propose a swin-conv block to incorporate the local modeling ability of residual convolutional layer and non-local modeling ability of swin transformer block, and then plug it as the main building block into the widely-used image-to-image translation UNet architecture. For the training data synthesis, we design a practical noise degradation model which takes into consideration different kinds of noise (including Gaussian, Poisson, speckle, JPEG compression, and processed camera sensor noises) and resizing, and also involves a random shuffle strategy and a double degradation strategy. Extensive experiments on AGWN removal and real image denoising demonstrate that the new network architecture design achieves state-of-the-art performance and the new degradation model can help to significantly improve the practicability. We believe our work can provide useful insights into current denoising research.
翻訳日:2023-12-04 19:29:27 公開日:2023-12-01
# ランダムニューラルネットワークによる最適停止

Optimal Stopping via Randomized Neural Networks ( http://arxiv.org/abs/2104.13669v4 )

ライセンス: Link先を確認
Calypso Herrera, Florian Krach, Pierre Ruyssen, Josef Teichmann(参考訳) 本稿では,標準基底関数やディープニューラルネットワークではなく,ランダム化されたニューラルネットワークを使用することによる最適停止問題の解を近似する利点を提案する。 重要なアイデアは、ニューラルネットワークを使用することで、継続値を近似するために、隠れたレイヤのパラメータがランダムに生成され、最後のレイヤのみがトレーニングされる。 我々のアプローチは、既存のアプローチがますます現実的でない高次元問題に適用できる。 さらに,本手法は単純な線形回帰を用いて最適化できるので,実装が容易であり,理論的保証が提供できる。 black-scholes, heston, rough hestonモデルにおけるアメリカのオプション価格設定と,分数ブラウン運動の最適停止について検討した。 いずれの場合も、我々のアルゴリズムは計算時間の観点から最先端や他の関連する機械学習アプローチよりも優れており、同等の結果が得られます。 さらに,アメリカの選択肢のギリシア語を効率的に計算できることを示す。

This paper presents the benefits of using randomized neural networks instead of standard basis functions or deep neural networks to approximate the solutions of optimal stopping problems. The key idea is to use neural networks, where the parameters of the hidden layers are generated randomly and only the last layer is trained, in order to approximate the continuation value. Our approaches are applicable to high dimensional problems where the existing approaches become increasingly impractical. In addition, since our approaches can be optimized using simple linear regression, they are easy to implement and theoretical guarantees can be provided. We test our approaches for American option pricing on Black--Scholes, Heston and rough Heston models and for optimally stopping a fractional Brownian motion. In all cases, our algorithms outperform the state-of-the-art and other relevant machine learning approaches in terms of computation time while achieving comparable results. Moreover, we show that they can also be used to efficiently compute Greeks of American options.
翻訳日:2023-12-04 19:28:50 公開日:2023-12-01
# 幅有界ニューラルネットワークのアトラクション盆地の位相特性と表現性

Topological properties of basins of attraction and expressiveness of width bounded neural networks ( http://arxiv.org/abs/2011.04923v6 )

ライセンス: Link先を確認
Hans-Peter Beise, Steve Dias Da Cruz(参考訳) Radhakrishnanなど。 著者らは,通常のsgd法で学習したオートエンコーダが,トレーニングデータの周りにアトラクションの盆地を形成することを実証的に示した。 入力次元を超えない幅のネットワーク関数を考察し、この状況ではアトラクションの流域が有界であり、その補関数が有界成分を持つことができないことを示す。 これらの結果の条件は, 後者の研究のいくつかの実験で満たされ, そこで提案された問題に対処する。 また,より制限的な条件下では,アトラクションの流域が経路接続されていることも示している。 この結果における条件の厳密性は,いくつかの例によって示される。 最後に、上記の結果を証明するために用いられる議論により、連続関数の空間において、境界幅条件を満たすスカラー値ニューラルネットワーク関数が密集しない理由を導出することができる。

In Radhakrishnan et al. [2020], the authors empirically show that autoencoders trained with usual SGD methods shape out basins of attraction around their training data. We consider network functions of width not exceeding the input dimension and prove that in this situation basins of attraction are bounded and their complement cannot have bounded components. Our conditions in these results are met in several experiments of the latter work and we thus address a question posed therein. We also show that under some more restrictive conditions the basins of attraction are path-connected. The tightness of the conditions in our results is demonstrated by means of several examples. Finally, the arguments used to prove the above results allow us to derive a root cause why scalar-valued neural network functions that fulfill our bounded width condition are not dense in spaces of continuous functions.
翻訳日:2023-12-04 19:28:34 公開日:2023-12-01
# 逆移動可能性の解釈と促進のための統一的アプローチ

A Unified Approach to Interpreting and Boosting Adversarial Transferability ( http://arxiv.org/abs/2010.04055v2 )

ライセンス: Link先を確認
Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, Quanshi Zhang(参考訳) 本稿では, 対向的摂動の相互作用を用いて, 対向的伝達性を説明する。 我々は, 対向移動可能性と対向摂動の相互作用との間に負の相関関係を発見し, 証明する。 負の相関は、様々な入力を持つ異なるDNNを通してさらに検証される。 さらに、この負相関は、電流伝達可能性ブースティング法を理解するための統一的な視点と見なすことができる。 この目的のために、転送可能性を高めるいくつかの古典的な方法が、本質的には対向摂動の相互作用を減少させることを証明した。 そこで本研究では,攻撃過程における相互作用を直接ペナルティ化する手法を提案する。

In this paper, we use the interaction inside adversarial perturbations to explain and boost the adversarial transferability. We discover and prove the negative correlation between the adversarial transferability and the interaction inside adversarial perturbations. The negative correlation is further verified through different DNNs with various inputs. Moreover, this negative correlation can be regarded as a unified perspective to understand current transferability-boosting methods. To this end, we prove that some classic methods of enhancing the transferability essentially decease interactions inside adversarial perturbations. Based on this, we propose to directly penalize interactions during the attacking process, which significantly improves the adversarial transferability.
翻訳日:2023-12-04 19:28:18 公開日:2023-12-01
# 多人数モデリングのための部分的観測と機械的制約による分散ポリシー学習

Decentralized policy learning with partial observation and mechanical constraints for multiperson modeling ( http://arxiv.org/abs/2007.03155v2 )

ライセンス: Link先を確認
Keisuke Fujii, Naoya Takeishi, Yoshinobu Kawahara, Kazuya Takeda(参考訳) 実世界のマルチエージェント行動のルールを抽出することは、様々な科学・工学分野における現在の課題である。 生物学的エージェントは独立に観察と機械的制約を制限しているが、従来のデータ駆動モデルのほとんどはそのような仮定を無視し、生物学的な可能性や行動分析のモデル解釈性を欠いている。 本稿では, エージェントの認知と身体動態をモデル化し, 生物学的に妥当な行動を予測する, 部分観察と機械的制約を分散的に有する逐次生成モデルを提案する。 この問題を分散マルチエージェント模倣学習問題として定式化し,物理的および生体力学的ペナルティを有する階層的変動リカレントニューラルネットワークに基づくバイナリ部分観測と分散ポリシーモデルを活用する。 実世界のバスケットボールとサッカーのデータセットを用いて, 制約違反, 長期軌道予測, 部分観測の観点から, 本手法の有効性を示す。 本手法は,実世界データを用いて現実の軌跡を生成するマルチエージェントシミュレータとして使用できる。

Extracting the rules of real-world multi-agent behaviors is a current challenge in various scientific and engineering fields. Biological agents independently have limited observation and mechanical constraints; however, most of the conventional data-driven models ignore such assumptions, resulting in lack of biological plausibility and model interpretability for behavioral analyses. Here we propose sequential generative models with partial observation and mechanical constraints in a decentralized manner, which can model agents' cognition and body dynamics, and predict biologically plausible behaviors. We formulate this as a decentralized multi-agent imitation-learning problem, leveraging binary partial observation and decentralized policy models based on hierarchical variational recurrent neural networks with physical and biomechanical penalties. Using real-world basketball and soccer datasets, we show the effectiveness of our method in terms of the constraint violations, long-term trajectory prediction, and partial observation. Our approach can be used as a multi-agent simulator to generate realistic trajectories using real-world data.
翻訳日:2023-12-04 19:28:07 公開日:2023-12-01
# DNNから多種多種多様な特徴成分の解釈と解離

Interpreting and Disentangling Feature Components of Various Complexity from DNNs ( http://arxiv.org/abs/2006.15920v2 )

ライセンス: Link先を確認
Jie Ren, Mingjie Li, Zexu Liu, Quanshi Zhang(参考訳) 本稿では,DNNが学習した特徴量の定義,定量化,解析を目的とする。 特徴複雑性の一般的な定義を提案する。 DNNの特定の層の特徴を考えると、我々のメソッドは機能から異なる複雑さの要素を分離する。 さらに、信頼性、有効性、およびこれらの機能コンポーネントの過剰フィッティングの重要性を評価するためのメトリクスセットも設計する。 さらに,特徴量とDNNの性能の密接な関係を見出すことができた。 汎用的な数学的ツールとして、ネットワーク圧縮と知識蒸留の成功を分析するために、機能複雑性と提案メトリクスを用いることもできる。

This paper aims to define, quantify, and analyze the feature complexity that is learned by a DNN. We propose a generic definition for the feature complexity. Given the feature of a certain layer in the DNN, our method disentangles feature components of different complexity orders from the feature. We further design a set of metrics to evaluate the reliability, the effectiveness, and the significance of over-fitting of these feature components. Furthermore, we successfully discover a close relationship between the feature complexity and the performance of DNNs. As a generic mathematical tool, the feature complexity and the proposed metrics can also be used to analyze the success of network compression and knowledge distillation.
翻訳日:2023-12-04 19:27:49 公開日:2023-12-01
# ガウスのプロセスエキスパートの高速な混合

Fast Deep Mixtures of Gaussian Process Experts ( http://arxiv.org/abs/2006.13309v4 )

ライセンス: Link先を確認
Clement Etienam, Kody Law, Sara Wade, Vitaly Zankin(参考訳) 専門家の混合物は教師付き学習コンテキストにおいて柔軟なモデリングのための不可欠のツールとなり、平均関数だけでなく、出力全体の密度も入力によって変化する。 sparse gaussian process (gp) は,このようなモデルのエキスパートの有力候補として期待されている。本論文では,dnn(deep neural network)を用いて,sparse gpsの混合物から専門家を選定するためのゲーティングネットワークの設計を提案する。 さらに、CCR(Cluster-Classify-Regress)と呼ばれる高速な1回通過アルゴリズムを用いて、極端に高速なMAP推定器を近似する。 このモデルとアルゴリズムの強力な組み合わせは、柔軟で堅牢で極めて効率的な新しい方法を提供します。 特に、この手法は、精度と不確実性定量化の観点から競合する手法より優れている。 コストは低次元データセットと小型データセットで競合するが、高次元データセットと大規模データセットでは著しく低い。 与えられたアロケーションとアロケーションの配分を反復的に最大化する手法では,アルゴリズムがローカルMAP推定器に非常に高速な近似を達成できることを示すため,大幅な改善は得られない。 この洞察は、他の専門家モデルの混合の文脈でも有用である。

Mixtures of experts have become an indispensable tool for flexible modelling in a supervised learning context, allowing not only the mean function but the entire density of the output to change with the inputs. Sparse Gaussian processes (GP) have shown promise as a leading candidate for the experts in such models, and in this article, we propose to design the gating network for selecting the experts from such mixtures of sparse GPs using a deep neural network (DNN). Furthermore, a fast one pass algorithm called Cluster-Classify-Regress (CCR) is leveraged to approximate the maximum a posteriori (MAP) estimator extremely quickly. This powerful combination of model and algorithm together delivers a novel method which is flexible, robust, and extremely efficient. In particular, the method is able to outperform competing methods in terms of accuracy and uncertainty quantification. The cost is competitive on low-dimensional and small data sets, but is significantly lower for higher-dimensional and big data sets. Iteratively maximizing the distribution of experts given allocations and allocations given experts does not provide significant improvement, which indicates that the algorithm achieves a good approximation to the local MAP estimator very fast. This insight can be useful also in the context of other mixture of experts models.
翻訳日:2023-12-04 19:27:40 公開日:2023-12-01
# ChebNet: Chebyshev近似による強化電力ユニットを用いたディープニューラルネットワークの効率的かつ安定した構成

ChebNet: Efficient and Stable Constructions of Deep Neural Networks with Rectified Power Units via Chebyshev Approximations ( http://arxiv.org/abs/1911.05467v3 )

ライセンス: Link先を確認
Shanshan Tang and Bo Li and Haijun Yu(参考訳) 従来の研究 (B. Li, S. Tang, H. Yu, comun. Phy. 27(2):379-411, 2020] において、活性化関数として整流電力ユニット(RePU)で構築されたディープニューラルネットワークは、整流線形ユニットで構築されたものよりも十分な滑らかな関数を近似し、電力系列を用いた多項式近似を最適に複雑で近似誤差のないディープニューラルネットワークに変換できることが示されている。 しかし、実際には、関連する安定性の問題のため、電力系列近似は容易には得られない。 本稿では,chebyshev多項式近似に基づくrepu深層ニューラルネットワークの構築法を提案する。 周波数領域におけるチェビシェフ多項式近似の階層構造を用いて、ChebNetと呼ばれる効率的で安定したディープニューラルネットワーク構築を得る。 ChebNetsによるスムーズな関数の近似は、電力系列を用いた深部RePUネットの近似よりも悪くはない。 それと同時に、ChebNetsはずっと安定している。 数値計算の結果,構成したChebNetは,電力系列による深部RePUネットのチューニングにより得られるものよりもはるかに優れた結果が得られることがわかった。 ディープニューラルネットワークの直接トレーニングによってスペクトル精度を得るのは難しいため、ChebNetsはスペクトル精度を得るための実用的な方法を提供しており、スムーズな関数の効率的な近似を必要とする実アプリケーションで有用であることが期待されている。

In a previous study [B. Li, S. Tang and H. Yu, Commun. Comput. Phy. 27(2):379-411, 2020], it is shown that deep neural networks built with rectified power units (RePU) as activation functions can give better approximation for sufficient smooth functions than those built with rectified linear units, by converting polynomial approximations using power series into deep neural networks with optimal complexity and no approximation error. However, in practice, power series approximations are not easy to obtain due to the associated stability issue. In this paper, we propose a new and more stable way to construct RePU deep neural networks based on Chebyshev polynomial approximations. By using a hierarchical structure of Chebyshev polynomial approximation in frequency domain, we obtain efficient and stable deep neural network construction, which we call ChebNet. The approximation of smooth functions by ChebNets is no worse than the approximation by deep RePU nets using power series. On the same time, ChebNets are much more stable. Numerical results show that the constructed ChebNets can be further fine-tuned to obtain much better results than those obtained by tuning deep RePU nets constructed by power series approach. As spectral accuracy is hard to obtain by direct training of deep neural networks, ChebNets provide a practical way to obtain spectral accuracy, it is expected to be useful in real applications that require efficient approximations of smooth functions.
翻訳日:2023-12-04 19:27:18 公開日:2023-12-01
# キラルAndreevエッジ状態の干渉

Interference of chiral Andreev edge states ( http://arxiv.org/abs/1907.01722v3 )

ライセンス: Link先を確認
Lingfei Zhao, Ethan G. Arnault, Alexey Bondarev, Andrew Seredinski, Trevyn Larson, Anne W. Draelos, Hengming Li, Kenji Watanabe, Takashi Taniguchi, Fran\c{c}ois Amet, Harold U. Baranger and Gleb Finkelstein(参考訳) マヨラナフェルミオンのような位相的励起の探索は、異なる量子状態の境界に対する関心を喚起した。 ここでは、整数量子ホール絶縁体とs波超伝導体という概念的に異なる基底状態を持つ2つの電子の原型相の界面を探索する。 ハイブリダイゼーションされた電子とホール状態はキラルなマヨラナフェルミオンと類似しており、キラルなアンドレエフエッジ状態(英語版)(caes)と呼ばれる。 磁場によって決定される方向の界面に沿って伝播し、その干渉により、CAESによって蓄積された相に応じて、入ってくる電子を外部電子または穴に変えることができる。 以上の結果から,これらの励起がかなり長い時間にわたって伝播し干渉し,コヒーレントな操作の可能性を開くことが示唆された。

The search for topological excitations such as Majorana fermions has spurred interest in the boundaries between distinct quantum states. Here, we explore an interface between two prototypical phases of electrons with conceptually different ground states: the integer quantum Hall insulator and the s-wave superconductor. We find clear signatures of hybridized electron and hole states similar to chiral Majorana fermions, to which we refer as chiral Andreev edge states (CAES). They propagate along the interface in the direction determined by magnetic field and their interference can turn an incoming electron into an outgoing electron or a hole, depending on the phase accumulated by the CAES along their path. Our results demonstrate that these excitations can propagate and interfere over a significant length, opening future possibilities for their coherent manipulation.
翻訳日:2023-12-04 19:26:49 公開日:2023-12-01
# 円錐屈折による三次元暗焦点におけるボース・アインシュタイン凝縮体のトラップ

Trapping of Bose-Einstein condensates in a three-dimensional dark focus generated by conical refraction ( http://arxiv.org/abs/1705.02425v2 )

ライセンス: Link先を確認
D. Pfeiffer, L. Lind, J. K\"uber, F. Schmaltz, A. Turpin, V. Ahufinger, J. Mompart, G. Birkl(参考訳) 我々は中性原子とボース・アインシュタイン凝縮物に対する効率的な3次元暗焦点光トラップ電位を示す。 この「光学瓶」は、2軸結晶で起こる円錐屈折現象を利用した単一の青色の光場によって作られる。 ガウス入力ビームのボトルビームへの変換効率は100%近くであり、光学装置は二軸結晶と円偏光子のみを添加する必要がある。 円錐屈折理論に基づき、ポテンシャルの一般形、トラップ周波数、およびポテンシャル障壁高を導出する。 我々は、$^{87}$Rb Bose-Einstein Condensateを3次元で凝縮する実験を行う。 我々は、このタイプのポテンシャルにおいて、トラップ形状、弱い軸に沿った振動周波数、および超低温原子の寿命を決定する。

We present an efficient three-dimensional dark-focus optical trapping potential for neutral atoms and Bose-Einstein condensates. This "optical bottle" is created by a single blue-detuned light field exploiting the phenomenon of conical refraction occurring in biaxial crystals. The conversion of a Gaussian input beam to the bottle beam has an efficiency of close to 100 % and the optical setup requires the addition of the biaxial crystal and a circular polarizer only. Based on the conical-refraction theory, we derive the general form of the potential, the trapping frequencies, and the potential barrier heights. We present experiments on confining a $^{87}$Rb Bose-Einstein condensate in three dimensions. We determine the trap shape, the vibrational frequencies along the weak axis, as well as the lifetime of ultracold atoms in this type of potential.
翻訳日:2023-12-04 19:26:33 公開日:2023-12-01
# 情報ゲインによるベイズ学習は、強固な敵対的防御のリスクを正当化する

Bayesian Learning with Information Gain Provably Bounds Risk for a Robust Adversarial Defense ( http://arxiv.org/abs/2212.02003v2 )

ライセンス: Link先を確認
Bao Gia Doan, Ehsan Abbasnejad, Javen Qinfeng Shi, Damith C. Ranasinghe(参考訳) 敵攻撃に対して堅牢なディープニューラルネットワークモデルを学習するための新しいアルゴリズムを提案する。 従来のアルゴリズムでは、逆向きに訓練されたベイズニューラルネットワーク(BNN)が堅牢性を向上している。 ベイズモデルの多モード後角分布を近似する逆学習アプローチがモード崩壊につながることを認識し,モデルのロバスト性と性能の達成は最適ではないことを示した。 代わりに,マルチモーダル後方分布をよりよく近似するために,モード崩壊を防止することを提案する。 第二に、頑健なモデルが摂動を無視し、入力の情報内容のみを考慮すべきという直観に基づいて、情報獲得の目的を概念化し、その目的を定式化し、良心的および敵対的両方のトレーニングインスタンスから学習した情報を類似するように強制する。 重要なことは 我々は,情報獲得目標を最小化することで,従来の経験的リスクにアプローチする敵のリスクを証明し,実証する。 我々は,我々の努力が,BNNを敵対的に訓練する原則的手法の基礎となると信じている。 CIFAR-10 および STL-10 データセットの 0.035 歪みで PGD 攻撃下では, 対向訓練と Adv-BNN に比較して, 強靭性は 20% まで向上した。

We present a new algorithm to learn a deep neural network model robust against adversarial attacks. Previous algorithms demonstrate an adversarially trained Bayesian Neural Network (BNN) provides improved robustness. We recognize the adversarial learning approach for approximating the multi-modal posterior distribution of a Bayesian model can lead to mode collapse; consequently, the model's achievements in robustness and performance are sub-optimal. Instead, we first propose preventing mode collapse to better approximate the multi-modal posterior distribution. Second, based on the intuition that a robust model should ignore perturbations and only consider the informative content of the input, we conceptualize and formulate an information gain objective to measure and force the information learned from both benign and adversarial training instances to be similar. Importantly. we prove and demonstrate that minimizing the information gain objective allows the adversarial risk to approach the conventional empirical risk. We believe our efforts provide a step toward a basis for a principled method of adversarially training BNNs. Our model demonstrate significantly improved robustness--up to 20%--compared with adversarial training and Adv-BNN under PGD attacks with 0.035 distortion on both CIFAR-10 and STL-10 datasets.
翻訳日:2023-12-04 19:19:45 公開日:2023-12-01
# 質量独立大空間重ね合わせに対する重力-磁気力

Gravito-diamagnetic forces for mass independent large spatial superpositions ( http://arxiv.org/abs/2211.08435v5 )

ライセンス: Link先を確認
Run Zhou, Ryan J. Marshman, Sougato Bose, Anupam Mazumdar(参考訳) 10^{-19}-10^{-14}$ kg と $\delta x \sim 10~{\rm nm}-100~\mu {\rm m}$ の範囲内の質量と重ね合わせの大きさが困難な課題である。 これまで用いられてきた手法は、ウェーブパック展開や、質量と逆スケールする単一スピン依存力など、量子ancillaに依存する。 本稿では,比較的短時間で大きな空間重ね合わせを生成するために,重力加速度と反磁性反発を組み合わせた新しい手法を提案する。 After first creating a modest initial spatial superposition of $1~\mu {\rm m}$, achieved through techniques such as the Stern-Gerlach (SG) apparatus, we will show that we can achieve an $\sim 10^{2}-10^{3}$ fold improvement to the spatial superposition size ($1~{\rm \mu m}\rightarrow 980~\mu {\rm m}$) between the wave packets in less than $0.02$~s by using the Earth's gravitational acceleration and then the diamagnetic repulsive scattering of the nanocrystal, neither of which depend on the object mass. 最後に、波パケット軌道を閉じて空間干渉線を観測することができる。 我々の研究は、重力加速度と反磁性を組み合わせて大きな空間的重ね合わせを作成し、操作する可能性を強調し、マクロな量子重ね合わせを作るための新たな洞察を提供する。

Creating a massive spatial quantum superposition, such as the Schr\"odinger cat state, where the mass and the superposition size within the range $10^{-19}-10^{-14}$ kg and $\Delta x \sim 10~{\rm nm}-100~\mu {\rm m}$, is a challenging task. The methods employed so far rely either on wavepacket expansion or on a quantum ancilla, e.g. single spin dependent forces, which scale inversely with mass. In this paper, we present a novel approach that combines gravitational acceleration and diamagnetic repulsion to generate a large spatial superposition in a relatively short time. After first creating a modest initial spatial superposition of $1~\mu {\rm m}$, achieved through techniques such as the Stern-Gerlach (SG) apparatus, we will show that we can achieve an $\sim 10^{2}-10^{3}$ fold improvement to the spatial superposition size ($1~{\rm \mu m}\rightarrow 980~\mu {\rm m}$) between the wave packets in less than $0.02$~s by using the Earth's gravitational acceleration and then the diamagnetic repulsive scattering of the nanocrystal, neither of which depend on the object mass. Finally, the wave packet trajectories can be closed so that spatial interference fringes can be observed. Our findings highlight the potential of combining gravitational acceleration and diamagnetic repulsion to create and manipulate large spatial superpositions, offering new insights into creating macroscopic quantum superpositions.
翻訳日:2023-12-04 19:18:58 公開日:2023-12-01
# RaLiBEV:アンカーボックス自由物体検出システムのためのレーダとLiDARのBEV融合学習

RaLiBEV: Radar and LiDAR BEV Fusion Learning for Anchor Box Free Object Detection Systems ( http://arxiv.org/abs/2211.06108v4 )

ライセンス: Link先を確認
Yanlong Yang, Jianan Liu, Tao Huang, Qing-Long Han, Gang Ma and Bing Zhu(参考訳) 自動運転においては、LiDARとレーダーは周囲環境の認識において重要な役割を果たす。 LiDARは正確な3D空間センシング情報を提供するが、霧のような悪天候では機能しない。 一方、レーダー信号はその波長によって雨滴や霧の粒子に遭遇する際には回折することができるが、大きなノイズに悩まされる。 最近の最先端の研究は、レーダーとLiDARの融合が悪天候の堅牢な検出につながることを明らかにしている。 既存の研究では、畳み込みニューラルネットワークアーキテクチャを採用して、各センサデータから特徴を抽出し、2つの分岐特徴を調整して集約し、オブジェクト検出結果を予測する。 しかし,これらの手法はラベル割り当てと融合戦略の簡単な設計のため,境界ボックス推定の精度が低い。 本稿では,レーダーレンジ方位熱マップとLiDAR点雲から得られた特徴を融合させて,可能な物体を推定する,鳥眼視融合学習に基づくアンカーボックスフリー物体検出システムを提案する。 異なるラベル割り当て戦略は、前景や背景アンカーポイントの分類と対応する境界ボックスの回帰との整合性を促進するように設計されている。 さらに,新しい対話型トランスモジュールを用いることで,オブジェクト検出器の性能をさらに向上する。 本稿では,最近発表されたOxford Radar RobotCarデータセットを用いて,提案手法の優れた性能を示す。 本システムの平均精度は, 「クラー」 と「フォギー」 の訓練条件下で, 0.8 の IoU において, 13.1% と 19.0% で, 最先端の手法よりも有意に優れていた。

In autonomous driving, LiDAR and radar play important roles in the perception of the surrounding environment. LiDAR provides accurate 3D spatial sensing information but cannot work in adverse weather like fog. On the other hand, the radar signal can be diffracted when encountering raindrops or mist particles thanks to its wavelength, but it suffers from large noise. Recent state-of-the-art works reveal that fusion of radar and LiDAR can lead to robust detection in adverse weather. The existing works adopt convolutional neural network architecture to extract features from each sensor data, then align and aggregate the two branch features to predict object detection results. However, these methods have low accuracy of bounding box estimations due to a simple design of label assignment and fusion strategies. In this paper, we propose a bird's-eye view fusion learning-based anchor box-free object detection system, which fuses the feature derived from the radar range-azimuth heatmap and the LiDAR point cloud to estimate possible objects. Different label assignment strategies have been designed to facilitate the consistency between the classification of foreground or background anchor points and the corresponding bounding box regressions. Furthermore, the performance of the proposed object detector is further enhanced by employing a novel interactive transformer module. The superior performance of the methods proposed in this paper has been demonstrated using the recently published Oxford Radar RobotCar dataset. Our system's average precision significantly outperforms the state-of-the-art method by 13.1% and 19.0% at IoU of 0.8 under 'Clear+Foggy' training conditions for 'Clear' and 'Foggy' testing, respectively.
翻訳日:2023-12-04 19:18:31 公開日:2023-12-01
# 現代の画像深層ネットワークにおける変圧器と畳み込み

Demystify Transformers & Convolutions in Modern Image Deep Networks ( http://arxiv.org/abs/2211.05781v2 )

ライセンス: Link先を確認
Xiaowei Hu, Min Shi, Weiyun Wang, Sitong Wu, Linjie Xing, Wenhai Wang, Xizhou Zhu, Lewei Lu, Jie Zhou, Xiaogang Wang, Yu Qiao, Jifeng Dai(参考訳) 視覚トランスフォーマーは最近人気を博し、機能の改善と一貫したパフォーマンス向上を含む新しいビジョンバックボーンの開発につながった。 しかし、これらの進歩は、新しい特徴変換設計にのみ寄与するものではなく、高度なネットワークレベルとブロックレベルのアーキテクチャから生じる利点である。 本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。 これらの特徴変換モジュールのうち注意や畳み込みといった重要な違いは、空間的特徴集約アプローチ(spatial token mixer (stm) として知られる)にある。 公平な比較を容易にするために,ネットワークレベルとブロックレベルの異なる設計の影響を中和する統一アーキテクチャを導入する。 その後、包括的比較分析のための統合フレームワークに様々なstmが統合される。 各種タスクの実験と誘導バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により性能が著しく向上するが,STM間の性能差は持続する。 より詳細な分析により,有効受容場や不分散試験など,異なるSTMについて様々な知見が得られた。 この研究で使用されるすべてのモデルとコードは、 \url{https://github.com/OpenGVLab/STM-Evaluation}で公開されている。

Vision transformers have gained popularity recently, leading to the development of new vision backbones with improved features and consistent performance gains. However, these advancements are not solely attributable to novel feature transformation designs; certain benefits also arise from advanced network-level and block-level architectures. This paper aims to identify the real gains of popular convolution and attention operators through a detailed study. We find that the key difference among these feature transformation modules, such as attention or convolution, lies in their spatial feature aggregation approach, known as the "spatial token mixer" (STM). To facilitate an impartial comparison, we introduce a unified architecture to neutralize the impact of divergent network-level and block-level designs. Subsequently, various STMs are integrated into this unified framework for comprehensive comparative analysis. Our experiments on various tasks and an analysis of inductive bias show a significant performance boost due to advanced network-level and block-level designs, but performance differences persist among different STMs. Our detailed analysis also reveals various findings about different STMs, such as effective receptive fields and invariance tests. All models and codes used in this study are publicly available at \url{https://github.com/OpenGVLab/STM-Evaluation}.
翻訳日:2023-12-04 19:18:02 公開日:2023-12-01
# h_eval:自動音声認識タスクのための新しいハイブリッド評価指標

H_eval: A new hybrid evaluation metric for automatic speech recognition tasks ( http://arxiv.org/abs/2211.01722v3 )

ライセンス: Link先を確認
Zitha Sasindran, Harsha Yelchuri, T. V. Prabhakar, Supreeth Rao(参考訳) 多くの研究が自動音声認識(ASR)システムの評価指標としてワード誤り率(WER)の欠点について検討している。 werはリテラルな単語レベルの正確性のみを考慮しているため、意味距離(sd)やbertscoreのような意味的類似性に基づく新しい評価指標が開発されている。 しかし、これらの指標には、キーワードを過度に優先する傾向など、独自の制限があることがわかった。 H_evalは,意味的正当性と誤り率の両方を考慮し,WERとSDが不十分なシナリオにおいて高い性能を発揮する,ASRシステムのための新しいハイブリッド評価指標である。 BERTScoreに比べて軽量な計算のため、計量計算時間を49倍削減できる。 さらに,h_evalは下流nlpタスクと強く相関することを示した。 また, 計量計算時間を短縮するため, 蒸留技術を用いた高速かつ軽量な複数のモデルを構築した。

Many studies have examined the shortcomings of word error rate (WER) as an evaluation metric for automatic speech recognition (ASR) systems. Since WER considers only literal word-level correctness, new evaluation metrics based on semantic similarity such as semantic distance (SD) and BERTScore have been developed. However, we found that these metrics have their own limitations, such as a tendency to overly prioritise keywords. We propose H_eval, a new hybrid evaluation metric for ASR systems that considers both semantic correctness and error rate and performs significantly well in scenarios where WER and SD perform poorly. Due to lighter computation compared to BERTScore, it offers 49 times reduction in metric computation time. Furthermore, we show that H_eval correlates strongly with downstream NLP tasks. Also, to reduce the metric calculation time, we built multiple fast and lightweight models using distillation techniques
翻訳日:2023-12-04 19:17:42 公開日:2023-12-01
# 深部変圧器と説明可能な人工知能を用いた心臓MRIにおける心筋炎の自動診断

Automatic Diagnosis of Myocarditis Disease in Cardiac MRI Modality using Deep Transformers and Explainable Artificial Intelligence ( http://arxiv.org/abs/2210.14611v2 )

ライセンス: Link先を確認
Mahboobeh Jafari, Afshin Shoeibi, Navid Ghassemi, Jonathan Heras, Sai Ho Ling, Amin Beheshti, Yu-Dong Zhang, Shui-Hua Wang, Roohallah Alizadehsani, Juan M. Gorriz, U. Rajendra Acharya, Hamid Alinejad Rokny(参考訳) 心筋炎(英語:myocarditis)は、多くの人の健康を脅かす重要な心血管疾患(CVD)である。 HIVなどを含む微生物やウイルスの発生は、心筋炎疾患(MCD)の発症に重要な役割を果たしている。 心臓磁気共鳴画像(CMRI)スキャンで生成された画像は低コントラストであり、心臓血管疾患の診断が困難になる可能性がある。 一方、CVD患者ごとに多数のCMRIスライスを検査することは、医師にとって難しい課題である。 既存の課題を克服するために、研究者は人工知能(AI)ベースのコンピュータ支援診断システム(CADS)の使用を提案する。 本稿では,深層学習(DL)手法を用いて,CMR画像からのMDD検出のためのCADSについて概説する。 提案したCADSは,データセット,前処理,特徴抽出,分類,後処理など,いくつかのステップで構成されている。 まず実験のためにZ-Alizadehデータセットが選ばれた。 その後、CMR画像は、デノナイズ、リサイズ、CutMixおよびMixUp技術によるデータ拡張(DA)など、さまざまな前処理ステップを実行した。 以下では,cmr画像の特徴抽出と分類のために,最新の深層事前学習モデルと変圧器モデルについて述べる。 本研究の結果から,トランスフォーマーモデルが事前学習したアーキテクチャよりもmcd検出に優れた性能を示すことが明らかとなった。 DLアーキテクチャでは、乱流ニューラルトランス (TNT) モデルは印象的な精度を示し、10倍のクロスバリデーションアプローチを用いて99.73%に達した。 さらに,CMRI画像におけるMDDの疑い領域を特定するために,Explainable-based Grad Cam法を採用した。

Myocarditis is a significant cardiovascular disease (CVD) that poses a threat to the health of many individuals by causing damage to the myocardium. The occurrence of microbes and viruses, including the likes of HIV, plays a crucial role in the development of myocarditis disease (MCD). The images produced during cardiac magnetic resonance imaging (CMRI) scans are low contrast, which can make it challenging to diagnose cardiovascular diseases. In other hand, checking numerous CMRI slices for each CVD patient can be a challenging task for medical doctors. To overcome the existing challenges, researchers have suggested the use of artificial intelligence (AI)-based computer-aided diagnosis systems (CADS). The presented paper outlines a CADS for the detection of MCD from CMR images, utilizing deep learning (DL) methods. The proposed CADS consists of several steps, including dataset, preprocessing, feature extraction, classification, and post-processing. First, the Z-Alizadeh dataset was selected for the experiments. Subsequently, the CMR images underwent various preprocessing steps, including denoising, resizing, as well as data augmentation (DA) via CutMix and MixUp techniques. In the following, the most current deep pre-trained and transformer models are used for feature extraction and classification on the CMR images. The findings of our study reveal that transformer models exhibit superior performance in detecting MCD as opposed to pre-trained architectures. In terms of DL architectures, the Turbulence Neural Transformer (TNT) model exhibited impressive accuracy, reaching 99.73% utilizing a 10-fold cross-validation approach. Additionally, to pinpoint areas of suspicion for MCD in CMRI images, the Explainable-based Grad Cam method was employed.
翻訳日:2023-12-04 19:17:10 公開日:2023-12-01
# 畳み込みデコーダネットワークの周波数表現における欠陥

Defects of Convolutional Decoder Networks in Frequency Representation ( http://arxiv.org/abs/2210.09020v2 )

ライセンス: Link先を確認
Ling Tang, Wen Shen, Zhanpeng Zhou, Yuefeng Chen, Quanshi Zhang(参考訳) 本稿では,入力サンプルの周波数成分の異なる表現能力を考慮して,逐次畳み込みデコーダネットワークの表現欠陥を証明する。 我々はデコーダネットワークの中間層において特徴写像の各チャネルに離散フーリエ変換を行う。 次に、2次元円畳み込み定理を拡張し、周波数領域の畳み込み層を通して前方および後方の伝播を表現する。 これに基づいて,特徴スペクトルを表す3つの欠陥を証明した。 まず,畳み込み動作,ゼロパディング動作,その他一連の設定によって,畳み込みデコーダネットワークが高周波成分を弱める可能性が高くなることを示す。 第2に、アップサンプリング動作が特徴スペクトルを生成し、強い信号が一定の周波数で繰り返し現れることを証明する。 第3に、入力サンプルの周波数成分と回帰対象出力の周波数成分のシフトが小さい場合、デコーダは通常は効果的に学習できないことを証明する。

In this paper, we prove the representation defects of a cascaded convolutional decoder network, considering the capacity of representing different frequency components of an input sample. We conduct the discrete Fourier transform on each channel of the feature map in an intermediate layer of the decoder network. Then, we extend the 2D circular convolution theorem to represent the forward and backward propagations through convolutional layers in the frequency domain. Based on this, we prove three defects in representing feature spectrums. First, we prove that the convolution operation, the zero-padding operation, and a set of other settings all make a convolutional decoder network more likely to weaken high-frequency components. Second, we prove that the upsampling operation generates a feature spectrum, in which strong signals repetitively appear at certain frequencies. Third, we prove that if the frequency components in the input sample and frequency components in the target output for regression have a small shift, then the decoder usually cannot be effectively learned.
翻訳日:2023-12-04 19:16:38 公開日:2023-12-01
# BIASeD: 自動システム設計に不合理性をもたらす

BIASeD: Bringing Irrationality into Automated System Design ( http://arxiv.org/abs/2210.01122v3 )

ライセンス: Link先を確認
Aditya Gulati, Miguel Angel Lozano, Bruno Lepri, Nuria Oliver(参考訳) 人間の知覚、記憶、意思決定は、行動や決定に影響を与える数十の認知バイアスとヒューリスティックの影響を受けます。 このようなバイアスの広がりにもかかわらず、それらは一般に人間の行動をモデル化し人間と対話する今日の人工知能(ai)システムでは利用されない。 本稿では、人間と機械の協調の未来には、人間の認知バイアスをモデル化し、理解し、再現するaiシステムの開発が伴うと主張する。 我々は、人間の認知バイアスと人工知能の相互作用に関する研究課題の必要性を提案する。 我々は、AIシステムの観点から既存の認知バイアスを分類し、3つの幅広い関心領域を特定し、私たちのバイアスをよりよく理解するAIシステムの設計のための研究の方向性を概説する。

Human perception, memory and decision-making are impacted by tens of cognitive biases and heuristics that influence our actions and decisions. Despite the pervasiveness of such biases, they are generally not leveraged by today's Artificial Intelligence (AI) systems that model human behavior and interact with humans. In this theoretical paper, we claim that the future of human-machine collaboration will entail the development of AI systems that model, understand and possibly replicate human cognitive biases. We propose the need for a research agenda on the interplay between human cognitive biases and Artificial Intelligence. We categorize existing cognitive biases from the perspective of AI systems, identify three broad areas of interest and outline research directions for the design of AI systems that have a better understanding of our own biases.
翻訳日:2023-12-04 19:16:22 公開日:2023-12-01
# 量子アニールの断熱条件を実験的に評価する方法

How to experimentally evaluate the adiabatic condition for quantum annealing ( http://arxiv.org/abs/2208.02553v2 )

ライセンス: Link先を確認
Yuichiro Mori, Shiro Kawabata and Yuichiro Matsuzaki(参考訳) 本稿では,量子アニール(QA)中の断熱状態を評価する実験手法を提案する。 断熱条件は遷移行列要素とエネルギーギャップから成り,ハミルトニアンを対角化せずにこれらの成分に関する情報を同時に提供する。 鍵となる考え方は、QA中に振動場を加えることで時間領域信号のパワースペクトルを計測することであり、この測定結果から遷移行列要素の値とエネルギーギャップを推定できる。 本結果は,QAの性能解析に有効な実験基盤を提供する。

We propose an experimental method for evaluating the adiabatic condition during quantum annealing (QA), which will be essential for solving practical problems. The adiabatic condition consists of the transition matrix element and the energy gap, and our method simultaneously provides information about these components without diagonalizing the Hamiltonian. The key idea is to measure the power spectrum of a time domain signal by adding an oscillating field during QA, and we can estimate the values of the transition matrix element and energy gap from the measurement output. Our results provides a powerful experimental basis for analyzing the performance of QA.
翻訳日:2023-12-04 19:15:06 公開日:2023-12-01
# Tunable Information Bottleneck と R'enyi による分類の有用性, 公正性, コンパクト性

Classification Utility, Fairness, and Compactness via Tunable Information Bottleneck and R\'enyi Measures ( http://arxiv.org/abs/2206.10043v3 )

ライセンス: Link先を確認
Adam Gronowski, William Paul, Fady Alajaji, Bahman Gharesifard, Philippe Burlina(参考訳) センシティブな属性に基づいて識別するのではなく、正確で公平な機械学習アルゴリズムを設計することは、社会にとって重要な応用としてAIを受け入れることが最重要である。 本稿では,表現の実用性,公平性,コンパクト性(圧縮)の制約を取り入れたRFIB(R\enyi Fair Information Bottleneck Method)と呼ばれる新しいフェア表現学習手法を提案し,それを画像および表データ分類に適用する。 我々のアプローチの重要な特徴は、人口統計学的パリティと等化オッズの両方を公平さの制約として考慮し、両方の基準をより微妙な満足度を可能にすることである。 変動的アプローチを応用して、我々の目的が古典的インフォメーション・ボトルネック(IB)測度を含む損失関数を導出し、入力とエンコードされた埋め込みの間のコンパクト性を測定する相互情報IB項の次数$\alpha$の2つのR'enyi測度を上限とすることを示す。 我々は$\alpha$パラメータと他の2つの調整可能なIBパラメータがユーティリティ/フェアネストレードオフ目標達成に与える影響について検討し、$\alpha$パラメータが表現のコンパクト性を制御するために使える追加の自由度を与えることを示す。 3つの異なる画像データセット(EyePACS,CelebA,FairFace)と2つの表付きデータセット(Adult,CompAS)を二分法と分類法の両方の感度属性を用いて実験した結果、RFIBは様々な実用性、公正性、複合実用・公正性の測定値において、現在の最先端のアプローチよりも優れていることがわかった。

Designing machine learning algorithms that are accurate yet fair, not discriminating based on any sensitive attribute, is of paramount importance for society to accept AI for critical applications. In this article, we propose a novel fair representation learning method termed the R\'enyi Fair Information Bottleneck Method (RFIB) which incorporates constraints for utility, fairness, and compactness (compression) of representation, and apply it to image and tabular data classification. A key attribute of our approach is that we consider - in contrast to most prior work - both demographic parity and equalized odds as fairness constraints, allowing for a more nuanced satisfaction of both criteria. Leveraging a variational approach, we show that our objectives yield a loss function involving classical Information Bottleneck (IB) measures and establish an upper bound in terms of two R\'enyi measures of order $\alpha$ on the mutual information IB term measuring compactness between the input and its encoded embedding. We study the influence of the $\alpha$ parameter as well as two other tunable IB parameters on achieving utility/fairness trade-off goals, and show that the $\alpha$ parameter gives an additional degree of freedom that can be used to control the compactness of the representation. Experimenting on three different image datasets (EyePACS, CelebA, and FairFace) and two tabular datasets (Adult and COMPAS), using both binary and categorical sensitive attributes, we show that on various utility, fairness, and compound utility/fairness metrics RFIB outperforms current state-of-the-art approaches.
翻訳日:2023-12-04 19:14:55 公開日:2023-12-01
# 複雑な摂動知覚概念の符号化を避けるベイズニューラルネットワーク

Bayesian Neural Networks Avoid Encoding Complex and Perturbation-Sensitive Concepts ( http://arxiv.org/abs/2302.13095v2 )

ライセンス: Link先を確認
Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, Quanshi Zhang(参考訳) 本稿では,平均場変動型ベイズニューラルネットワーク(BNN)に着目し,BNNで符号化される可能性の低い概念を探索することにより,BNNの表現能力について検討する。 比較的小さな対話的概念のセットは、十分に訓練されたニューラルネットワークの知識表現の中に出現し、そのような概念はネットワーク出力を忠実に説明できる。 これに基づいて、我々の研究は、標準的なディープニューラルネットワーク(DNN)と比較して、BNNが複雑な概念をエンコードする可能性は低いことを証明した。 実験は我々の理論的証明を検証する。 より複雑な概念を符号化する傾向が必ずしも表現力の弱さを示唆するわけではないことに注意。 コードはhttps://github.com/sjtu-xai-lab/bnn-conceptsで入手できる。

In this paper, we focus on mean-field variational Bayesian Neural Networks (BNNs) and explore the representation capacity of such BNNs by investigating which types of concepts are less likely to be encoded by the BNN. It has been observed and studied that a relatively small set of interactive concepts usually emerge in the knowledge representation of a sufficiently-trained neural network, and such concepts can faithfully explain the network output. Based on this, our study proves that compared to standard deep neural networks (DNNs), it is less likely for BNNs to encode complex concepts. Experiments verify our theoretical proofs. Note that the tendency to encode less complex concepts does not necessarily imply weak representation power, considering that complex concepts exhibit low generalization power and high adversarial vulnerability. The code is available at https://github.com/sjtu-xai-lab/BNN-concepts.
翻訳日:2023-12-04 19:07:15 公開日:2023-12-01
# ニューラルネットワークは本当にシンボリック概念をエンコードしているのか?

Does a Neural Network Really Encode Symbolic Concepts? ( http://arxiv.org/abs/2302.13080v2 )

ライセンス: Link先を確認
Mingjie Li, Quanshi Zhang(参考訳) 近年,DNNによってモデル化された入力変数間の相互作用を抽出し,DNNによって符号化された概念として定義する研究が続いている。 しかし厳密に言えば、そのような相互作用が本当に意味のある概念を表すかどうかという確固たる保証はいまだに存在しない。 そこで本稿では,相互作用概念の信頼性を4つの観点から検討する。 広範囲にわたる実証研究により、よく訓練されたDNNは通常、人間の直感に部分的に整合したスパース、転送可能、差別的な概念を符号化することを示した。

Recently, a series of studies have tried to extract interactions between input variables modeled by a DNN and define such interactions as concepts encoded by the DNN. However, strictly speaking, there still lacks a solid guarantee whether such interactions indeed represent meaningful concepts. Therefore, in this paper, we examine the trustworthiness of interaction concepts from four perspectives. Extensive empirical studies have verified that a well-trained DNN usually encodes sparse, transferable, and discriminative concepts, which is partially aligned with human intuition.
翻訳日:2023-12-04 19:07:00 公開日:2023-12-01
# トランスファー学習による全波形インバージョン

Transfer Learning Enhanced Full Waveform Inversion ( http://arxiv.org/abs/2302.11259v2 )

ライセンス: Link先を確認
Stefan Kollmannsberger, Divya Singh and Leon Herrmann(参考訳) 本稿では,Full Waveform Inversion (FWI) を用いた非破壊検査分野において,ニューラルネットワークを好適に活用する方法を提案する。 提案手法は、隣接最適化内のニューラルネットワークを用いて、ドメイン内の未知の物質分布を識別する。 fwiの効率をさらに高めるために、事前訓練されたニューラルネットワークを使用して、反転の出発点を提供する。 これにより、特定のが一般化可能な設定に対するFull Waveform Inversionのイテレーションの数を減らすことができる。

We propose a way to favorably employ neural networks in the field of non-destructive testing using Full Waveform Inversion (FWI). The presented methodology discretizes the unknown material distribution in the domain with a neural network within an adjoint optimization. To further increase efficiency of the FWI, pretrained neural networks are used to provide a good starting point for the inversion. This reduces the number of iterations in the Full Waveform Inversion for specific, yet generalizable settings.
翻訳日:2023-12-04 19:06:50 公開日:2023-12-01
# 信頼度予測による信頼度校正手がかりの選択的提供

Selectively Providing Reliance Calibration Cues With Reliance Prediction ( http://arxiv.org/abs/2302.09995v2 )

ライセンス: Link先を確認
Yosuke Fukuchi, Seiji Yamada(参考訳) 意思決定に機械学習を利用する人間とインテリジェントエージェントの効果的なコラボレーションには、過度な信頼を避けるために、人間は何が可能で何ができないのかを理解する必要がある。 この問題に対する解決策は、rcc(reliance calibration cues)を用いたコミュニケーションによる人間依存度調整であり、エージェントの能力を評価するのに役立つ。 従来の研究は通常、RCCを継続的に提示することで依存度を調整しようとしたが、いつエージェントがRCCを提供するべきかは未解決のままである。 そこで我々は,RCCを選択的に提供するためのPred-RCを提案する。 Pred-RCは認知信頼モデルを使用して、人間がエージェントにタスクを割り当てるかどうかを予測する。 両症例の予測結果とRCCの有無を比較することにより,Pred-RCはRCCが人的依存に与える影響を評価する。 我々は,人間とAIの協調作業においてPred-RCを試験し,RCCの削減による人的依存のキャリブレーションに成功した。

For effective collaboration between humans and intelligent agents that employ machine learning for decision-making, humans must understand what agents can and cannot do to avoid over/under-reliance. A solution to this problem is adjusting human reliance through communication using reliance calibration cues (RCCs) to help humans assess agents' capabilities. Previous studies typically attempted to calibrate reliance by continuously presenting RCCs, and when an agent should provide RCCs remains an open question. To answer this, we propose Pred-RC, a method for selectively providing RCCs. Pred-RC uses a cognitive reliance model to predict whether a human will assign a task to an agent. By comparing the prediction results for both cases with and without an RCC, Pred-RC evaluates the influence of the RCC on human reliance. We tested Pred-RC in a human-AI collaboration task and found that it can successfully calibrate human reliance with a reduced number of RCCs.
翻訳日:2023-12-04 19:06:43 公開日:2023-12-01
# カオス多体量子系における電荷のフルカウント統計

Full Counting Statistics of Charge in Chaotic Many-body Quantum Systems ( http://arxiv.org/abs/2302.01355v2 )

ライセンス: Link先を確認
Ewan McCulloch, Jacopo De Nardis, Sarang Gopalakrishnan, Romain Vasseur(参考訳) 我々は$U(1)$-symmetric random unitary circuitにおける電荷輸送の総計数統計について検討する。 系の左半減期と右半減期の間に化学ポテンシャル不均衡が生じる初期混合状態について検討し, 典型回路における中心結合を横切る電荷の変動について検討した。 実効的なレプリカ統計力学モデルとヒルベルト空間次元において有効である創発的古典確率過程への写像を用いて、電荷移動のゆらぎが長い時間で対称排除過程に近づき、$t^{-1/2}$量子補正が導かれることを示す。 古典的非平衡系の変動流体力学とマクロ揺らぎ理論の文脈での結果を考察し, 直接行列-積状態計算に対する予測を確認する。

We investigate the full counting statistics of charge transport in $U(1)$-symmetric random unitary circuits. We consider an initial mixed state prepared with a chemical potential imbalance between the left and right halves of the system, and study the fluctuations of the charge transferred across the central bond in typical circuits. Using an effective replica statistical mechanics model and a mapping onto an emergent classical stochastic process valid at large onsite Hilbert space dimension, we show that charge transfer fluctuations approach those of the symmetric exclusion process at long times, with subleading $t^{-1/2}$ quantum corrections. We discuss our results in the context of fluctuating hydrodynamics and macroscopic fluctuation theory of classical non-equilibrium systems, and check our predictions against direct matrix-product state calculations.
翻訳日:2023-12-04 19:06:26 公開日:2023-12-01
# Timewarp: 時間相関ダイナミクスの学習による分子動力学の伝達可能な加速

Timewarp: Transferable Acceleration of Molecular Dynamics by Learning Time-Coarsened Dynamics ( http://arxiv.org/abs/2302.01170v2 )

ライセンス: Link先を確認
Leon Klein, Andrew Y. K. Foong, Tor Erlend Fjelde, Bruno Mlodozeniec, Marc Brockschmidt, Sebastian Nowozin, Frank No\'e, Ryota Tomioka(参考訳) 分子動力学 (md) シミュレーションは分子系をシミュレートするために広く使われている手法であり、最も一般的には運動方程式がフェムト秒の順序で時間ステップと統合される全原子分解能 ($1\textrm{fs}=10^{-15}\textrm{s}$) において用いられる。 MDはしばしば平衡特性の計算に使われ、ボルツマン分布のような平衡分布からのサンプリングを必要とする。 しかし、結合や折り畳みなどの多くの重要なプロセスはミリ秒以上の時間スケールで発生し、従来のMDでは効率的にサンプル化できない。 さらに、研究する分子システムごとに新しいmdシミュレーションを行う必要がある。 ボルツマン分布をターゲットとしたマルコフ連鎖モンテカルロ法において,正規化フローを提案分布として利用する拡張サンプリング手法であるTimewarpを提案する。 フローはmd軌道上でオフラインでトレーニングされ、10^{5}10^{6}\:\textrm{fs}$の分子動力学をシミュレートして、大きなステップを経ることを学ぶ。 重要なことは、Timewarpは分子システム間で転送可能であり、一度訓練すると、全原子分解能で見つからない小さなペプチド(2-4アミノ酸)に一般化し、その準安定状態を探究し、標準MDと比較してサンプリングのウォールクロック加速度を与える。 提案手法は,mdを高速化するための一般的な転送可能アルゴリズムへの重要なステップである。

Molecular dynamics (MD) simulation is a widely used technique to simulate molecular systems, most commonly at the all-atom resolution where equations of motion are integrated with timesteps on the order of femtoseconds ($1\textrm{fs}=10^{-15}\textrm{s}$). MD is often used to compute equilibrium properties, which requires sampling from an equilibrium distribution such as the Boltzmann distribution. However, many important processes, such as binding and folding, occur over timescales of milliseconds or beyond, and cannot be efficiently sampled with conventional MD. Furthermore, new MD simulations need to be performed for each molecular system studied. We present Timewarp, an enhanced sampling method which uses a normalising flow as a proposal distribution in a Markov chain Monte Carlo method targeting the Boltzmann distribution. The flow is trained offline on MD trajectories and learns to make large steps in time, simulating the molecular dynamics of $10^{5} - 10^{6}\:\textrm{fs}$. Crucially, Timewarp is transferable between molecular systems: once trained, we show that it generalises to unseen small peptides (2-4 amino acids) at all-atom resolution, exploring their metastable states and providing wall-clock acceleration of sampling compared to standard MD. Our method constitutes an important step towards general, transferable algorithms for accelerating MD.
翻訳日:2023-12-04 19:06:09 公開日:2023-12-01
# CodeScore: コード実行の学習によるコード生成の評価

CodeScore: Evaluating Code Generation by Learning Code Execution ( http://arxiv.org/abs/2301.09043v3 )

ライセンス: Link先を確認
Yihong Dong, Jiazheng Ding, Xue Jiang, Ge Li, Zhuo Li, and Zhi Jin(参考訳) 適切なコード評価基準(CEM)は、NLPとソフトウェア工学において重要な研究分野であるコード生成の進化に大きな影響を与えます。 マッチベースのCEM(BLEU, Accuracy, CodeBLEU)は2つの重大な欠点を負う。 1. 機能的等価性を考慮せずに、主に符号間の表面的差異を測定する。 しかし、異なるコードが同一の操作を実行できるため、関数等価性はコード生成の有効性を評価する上で重要である。 2. 主にRefのみの入力フォーマット用に設計されている。 しかし、コード評価は入力フォーマットの汎用性を必要とする。 Ref-only以外にも、既存のマッチベースのCEMが効果的に対応できないNL-onlyとRef\&NLフォーマットがある。 本稿では,3つの入力型に対する生成コードの機能的正しさを推定する,大規模言語モデル(llm)ベースのcemであるcodescoreを提案する。 CodeScoreを取得するために,LLMがコード実行(PassRatioとExecutability of generated code)を統一的な入力で学習するための統一コード生成学習フレームワークUniCEを提案する。 複数のコード評価データセットの大規模な実験結果は、CodeScoreが他のCEMと比較して58.87%の相関性を向上し、最先端のパフォーマンスを達成し、3つの入力フォーマットを効果的に扱うことを示した。

A proper code evaluation metric (CEM) profoundly impacts the evolution of code generation, which is an important research field in NLP and software engineering. Prevailing match-based CEMs (e.g., BLEU, Accuracy, and CodeBLEU) suffer from two significant drawbacks. 1. They primarily measure the surface differences between codes without considering their functional equivalence. However, functional equivalence is pivotal in evaluating the effectiveness of code generation, as different codes can perform identical operations. 2. They are predominantly designed for the Ref-only input format. However, code evaluation necessitates versatility in input formats. Aside from Ref-only, there are NL-only and Ref\&NL formats, which existing match-based CEMs cannot effectively accommodate. In this paper, we propose CodeScore, a large language model (LLM)-based CEM, which estimates the functional correctness of generated code on three input types. To acquire CodeScore, we present UniCE, a unified code generation learning framework, for LLMs to learn code execution (i.e., learning PassRatio and Executability of generated code) with unified input. Extensive experimental results on multiple code evaluation datasets demonstrate that CodeScore absolutely improves up to 58.87% correlation with functional correctness compared to other CEMs, achieves state-of-the-art performance, and effectively handles three input formats.
翻訳日:2023-12-04 19:04:59 公開日:2023-12-01
# EENetを用いた適応型ディープニューラルネットワーク推論最適化

Adaptive Deep Neural Network Inference Optimization with EENet ( http://arxiv.org/abs/2301.07099v2 )

ライセンス: Link先を確認
Fatih Ilhan, Ka-Ho Chow, Sihao Hu, Tiansheng Huang, Selim Tekin, Wenqi Wei, Yanzhao Wu, Myungjin Lee, Ramana Kompella, Hugo Latapie, Gaowen Liu, Ling Liu(参考訳) 十分に訓練されたディープニューラルネットワーク(DNN)は、予測中にすべてのテストサンプルを等しく扱う。 早期終了による適応的DNN推論は、いくつかのテスト例が他のものよりも容易に予測できるという観察を活用する。 本稿では,マルチエクイットdnnモデルのための新しい早期出力スケジューリングフレームワークeenetを提案する。 すべてのサンプルが予測中にすべてのDNNレイヤを通過する代わりに、EENetは早期終了スケジューラを学習する。 ヒューリスティックスに基づく従来の早期解法とは対照的に,我々のEENetフレームワークは,与えられたサンプル平均推定予算を満たしつつ,モデル精度を最大化するための早期解法を最適化する。 4つのコンピュータビジョンデータセット(CIFAR-10, CIFAR-100, ImageNet, Cityscapes)と2つのNLPデータセット(SST-2, AgNews)で大規模な実験が行われた。 その結果、EENetによる適応推論は、既存の代表的な早期退避技術より優れていることが示された。 また、EENetの利点を解釈するために、比較結果の詳細な可視化分析を行う。

Well-trained deep neural networks (DNNs) treat all test samples equally during prediction. Adaptive DNN inference with early exiting leverages the observation that some test examples can be easier to predict than others. This paper presents EENet, a novel early-exiting scheduling framework for multi-exit DNN models. Instead of having every sample go through all DNN layers during prediction, EENet learns an early exit scheduler, which can intelligently terminate the inference earlier for certain predictions, which the model has high confidence of early exit. As opposed to previous early-exiting solutions with heuristics-based methods, our EENet framework optimizes an early-exiting policy to maximize model accuracy while satisfying the given per-sample average inference budget. Extensive experiments are conducted on four computer vision datasets (CIFAR-10, CIFAR-100, ImageNet, Cityscapes) and two NLP datasets (SST-2, AgNews). The results demonstrate that the adaptive inference by EENet can outperform the representative existing early exit techniques. We also perform a detailed visualization analysis of the comparison results to interpret the benefits of EENet.
翻訳日:2023-12-04 19:04:36 公開日:2023-12-01
# バイアスのあるgottesman-kitaev-preskill反復コード

Biased Gottesman-Kitaev-Preskill repetition code ( http://arxiv.org/abs/2212.11397v2 )

ライセンス: Link先を確認
Matthew P. Stafford, Nicolas C. Menicucci(参考訳) Gottesmann-Kitaev-Preskill (GKP)エンコーディングに基づく連続可変量子コンピューティングアーキテクチャは、GKP状態とガウス演算の確率的供給でフォールトトレランスを達成できるため、有望な候補として浮上している。 さらに、長方形格子GKP状態への一般化により、偏りによる性能向上を示す量子ビット符号との結合によりバイアスを導入、活用することができる。 しかしながら、これらの符号(XZZX曲面符号など)は、まだ重量4の安定化器測定を必要としており、克服する複雑な復号処理を必要とする。 本研究では,正方形格子GKP符号化の符号容量挙動を,等方的ガウス変位チャネルの下で繰り返し符号と連結して検討する。 ノイズの標準偏差に対して$\sigma = 0.599$の数値しきい値は、gkpレベルでのバイアスの増加によるトレードオフによってバイアスのあるgkp平面符号を上回っている。 これはすべて、重量2スタビリザー演算子と、キュービットレベルで単純なデコードだけで達成される。 さらに、中間レベルのバイアス(アスペクト比$\leq 2.4$)と9つ以上のデータモードでは、論理誤差率の大幅な削減が$\sigma \leq 0.3$で達成でき、GKPバイアスの繰り返し符号を単純な低レベル量子ビット符号化として使用することで、さらなる結合を実現することができる。

Continuous-variable quantum computing architectures based upon the Gottesmann-Kitaev-Preskill (GKP) encoding have emerged as a promising candidate because one can achieve fault-tolerance with a probabilistic supply of GKP states and Gaussian operations. Furthermore, by generalising to rectangular-lattice GKP states, a bias can be introduced and exploited through concatenation with qubit codes that show improved performance under biasing. However, these codes (such as the XZZX surface code) still require weight-four stabiliser measurements and have complex decoding requirements to overcome. In this work, we study the code-capacity behaviour of a rectangular-lattice GKP encoding concatenated with a repetition code under an isotropic Gaussian displacement channel. We find a numerical threshold of $\sigma = 0.599$ for the noise's standard deviation, which outperforms the biased GKP planar surface code with a trade-off of increased biasing at the GKP level. This is all achieved with only weight-two stabiliser operators and simple decoding at the qubit level. Furthermore, with moderate levels of bias (aspect ratio $\leq 2.4$) and nine or fewer data modes, significant reductions in logical error rates can still be achieved for $\sigma \leq 0.3$, opening the possibility of using GKP-biased repetition codes as a simple low-level qubit encoding for further concatenation.
翻訳日:2023-12-04 19:04:16 公開日:2023-12-01
# housecat6d -- 現実的なシナリオで家庭用オブジェクトを含む大規模マルチモーダルカテゴリレベル6dオブジェクト知覚データセット

HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object Perception Dataset with Household Objects in Realistic Scenarios ( http://arxiv.org/abs/2212.10428v5 )

ライセンス: Link先を確認
HyunJun Jung, Guangyao Zhai, Shun-Cheng Wu, Patrick Ruhkamp, Hannah Schieber, Giulia Rizzoli, Pengyuan Wang, Hongcheng Zhao, Lorenzo Garattoni, Sven Meier, Daniel Roth, Nassir Navab, Benjamin Busam(参考訳) 6dオブジェクトポーズの推定は、3dコンピュータビジョンにおいて大きな課題である。 成功したインスタンスレベルのアプローチに基づいて、研究は実用的なアプリケーションのためのカテゴリレベルのポーズ推定へとシフトしている。 しかし、現在のカテゴリレベルのデータセットは、アノテーションの品質に乏しく、多様である。 これに対応するために、新しいカテゴリレベルの6DポーズデータセットであるHouseCat6Dを紹介する。 特徴 1) ポラリメトリックRGBと深さ(RGBD+P)による多モード性 2)10のカテゴリーにまたがる194の多様なオブジェクトを包含し,2つのフォトメトリックに挑戦するオブジェクトを含む。 3. エラー範囲がわずか 1.35 mm から 1.74 mm の高品質なポーズアノテーションを提供する。 データセットも含んでいます 4)包括的視点と咬合範囲を有する大規模場面41件。 5)チェッカーボードのない環境,及び 6) 密集した6次元パラレルジャウロボット把持アノテーション。 さらに,主要なカテゴリーレベルのポーズ推定ネットワークのベンチマーク結果を示す。

Estimating 6D object poses is a major challenge in 3D computer vision. Building on successful instance-level approaches, research is shifting towards category-level pose estimation for practical applications. Current category-level datasets, however, fall short in annotation quality and pose variety. Addressing this, we introduce HouseCat6D, a new category-level 6D pose dataset. It features 1) multi-modality with Polarimetric RGB and Depth (RGBD+P), 2) encompasses 194 diverse objects across 10 household categories, including two photometrically challenging ones, and 3) provides high-quality pose annotations with an error range of only 1.35 mm to 1.74 mm. The dataset also includes 4) 41 large-scale scenes with comprehensive viewpoint and occlusion coverage, 5) a checkerboard-free environment, and 6) dense 6D parallel-jaw robotic grasp annotations. Additionally, we present benchmark results for leading category-level pose estimation networks.
翻訳日:2023-12-04 19:03:46 公開日:2023-12-01
# ロレンツ三重粒子との光相互作用の量子論:光学的検出と3次元基底状態冷却

Quantum theory of light interaction with a Lorenz-Mie particle: Optical detection and three-dimensional ground-state cooling ( http://arxiv.org/abs/2212.04838v3 )

ライセンス: Link先を確認
Patrick Maurer, Carlos Gonzalez-Ballestero, and Oriol Romero-Isart(参考訳) 量子電磁界と相互作用する浮揚誘電体球の運動量子力学を点-双極子近似を超えて理論的に解析する。 この目的のために、ストークスやアンチストークス過程を含む光子と質量中心フォノンの基本的な結合と任意の屈折率と大きさの誘電体球面の結合率を記述するハミルトン式を導出する。 次に,レーザー反射加熱速度と情報放射パターン(質量中心運動に関する情報を運ぶ散乱光の角分布)を導出し,集束レーザ光の存在下で,ランニングウェーブ構成とスタンディングウェーブ構成のいずれかにおいて,それらを効率的に評価する方法を示す。 この情報は、点双極子近似を超える光学浮揚誘電体球体のアクティブフィードバック冷却を実装するために重要である。 その結果、光学的検出とアクティブフィードバックを同時に行うことで、マイクロメーター系における誘電体球の3次元中心運動を同時に冷却できる実験可能な構成とパラメータ状態が予測された。 重心基底状態に冷却できる誘電体粒子の質量をスケールアップすることは、大規模に量子力学をテストするだけでなく、光学的浮上センサーを用いて新しい物理学(例えばダークマター)を探索する実験にも関係している。

We analyze theoretically the motional quantum dynamics of a levitated dielectric sphere interacting with the quantum electromagnetic field beyond the point-dipole approximation. To this end, we derive a Hamiltonian describing the fundamental coupling between photons and center-of-mass phonons, including Stokes and anti-Stokes processes, and the coupling rates for a dielectric sphere of arbitrary refractive index and size. We then derive the laser recoil heating rates and the information radiation patterns (the angular distribution of the scattered light that carries information about the center-of-mass motion) and show how to evaluate them efficiently in the presence of a focused laser beam, in either a running- or a standing-wave configuration. This information is crucial to implement active feedback cooling of optically levitated dielectric spheres beyond the point-dipole approximation. Our results predict several experimentally feasible configurations and parameter regimes where optical detection and active feedback can simultaneously cool to the ground state the three-dimensional center-of-mass motion of dielectric spheres in the micrometer regime. Scaling up the mass of the dielectric particles that can be cooled to the center-of-mass ground state is relevant not only for testing quantum mechanics at large scales but also for current experimental efforts that search for new physics (e.g., dark matter) using optically levitated sensors.
翻訳日:2023-12-04 19:03:35 公開日:2023-12-01
# 逆レンダリングのための物理に基づく間接照明

Physics-based Indirect Illumination for Inverse Rendering ( http://arxiv.org/abs/2212.04705v2 )

ライセンス: Link先を確認
Youming Deng, Xueting Li, Sifei Liu, Ming-Hsuan Yang(参考訳) 本稿では,複数視点のRGB画像からシーンの照明,幾何学,材料を学習する物理ベースの逆レンダリング手法を提案する。 シーンの照明をモデル化するために、既存の逆レンダリングは間接照明を完全に無視するか、粗い近似によってモデル化し、シーンの準最適照明、幾何学、物質予測に繋がる。 そこで本研究では, 効率の良い球面追跡アルゴリズムを用いて表面点を同定し, 反射に基づいて各表面点の入射光を明示的に追跡する物理ベースの照明モデルを提案する。 次に, 効率的なニューラルネットワークを用いて, 識別された各間接光を推定する。 さらに、ライプニッツ積分則を用いて、コンピュータグラフィックスにおける微分可能光にインスパイアされた境界光による照明モデルの非微分可能性を解決する。 その結果、提案した微分可能照明モデルは、幾何学や材料推定とともにエンドツーエンドで学習することができる。 副産物として、我々の物理ベースの逆レンダリングモデルは、フレキシブルでリアルな素材編集やリライティングを容易にする。 合成および実世界のデータセットに対する大規模な実験により、提案手法は、新規なビュー合成および逆レンダリングに関する既存の逆レンダリング手法に対して好適に機能することを示した。

We present a physics-based inverse rendering method that learns the illumination, geometry, and materials of a scene from posed multi-view RGB images. To model the illumination of a scene, existing inverse rendering works either completely ignore the indirect illumination or model it by coarse approximations, leading to sub-optimal illumination, geometry, and material prediction of the scene. In this work, we propose a physics-based illumination model that first locates surface points through an efficient refined sphere tracing algorithm, then explicitly traces the incoming indirect lights at each surface point based on reflection. Then, we estimate each identified indirect light through an efficient neural network. Moreover, we utilize the Leibniz's integral rule to resolve non-differentiability in the proposed illumination model caused by boundary lights inspired by differentiable irradiance in computer graphics. As a result, the proposed differentiable illumination model can be learned end-to-end together with geometry and materials estimation. As a side product, our physics-based inverse rendering model also facilitates flexible and realistic material editing as well as relighting. Extensive experiments on synthetic and real-world datasets demonstrate that the proposed method performs favorably against existing inverse rendering methods on novel view synthesis and inverse rendering.
翻訳日:2023-12-04 19:03:12 公開日:2023-12-01
# 光励起分子集合体におけるカシャ則のスケーリング則

Scaling law for Kasha's rule in photoexcited molecular aggregates ( http://arxiv.org/abs/2304.10236v3 )

ライセンス: Link先を確認
Raphael Holzinger, Nico S. Bassler, Helmut Ritsch and Claudiu Genes(参考訳) 分子集合体の光物理学を量子光学の観点から研究し、カシャの規則と呼ばれる集団電子励起の高速非放射緩和のためのスケーリング法則の導出に焦点を当てた。 集合体は、隣接するモノマー間の近接場双極子-双極子交換に由来する非局在電子励起を持つ、エネルギー的に広い集合状態多様体を示す。 光波長での光励起はモノマー-モノマー平均分離よりもはるかに大きく、ほとんど独占的に対称な集合状態に対応し、h-アグリゲーションとして知られる配置では上向きのヒプソクロミックシフトを示す。 分子内振動モードを経由する超高速の非放射緩和は低エネルギー、低ラジカル状態となり、蛍光を効果的に阻害する。 解析処理により, この緩和過程の近似スケーリング則の導出が可能となり, 利用可能な低エネルギー振動モードの数に線形であり, 隣接するモノマー間の双極子-双極子相互作用強度に直接比例する。

We study the photophysics of molecular aggregates from a quantum optics perspective, with emphasis on deriving scaling laws for the fast non-radiative relaxation of collective electronic excitations, referred to as Kasha's rule. Aggregates exhibit an energetically broad manifold of collective states with delocalized electronic excitations originating from near field dipole-dipole exchanges between neighboring monomers. Photo-excitation at optical wavelengths, much larger than the monomer-monomer average separation, addresses almost exclusively symmetric collective states, which for an arrangement known as H-aggregate, show an upward hypsochromic shift. The extremely fast subsequent non-radiative relaxation via intramolecular vibrational modes populates lower energy, subradiant states, resulting in an effective inhibition of fluorescence. Our analytical treatment allows for the derivation of an approximate scaling law of this relaxation process, linear in the number of available low energy vibrational modes and directly proportional to the dipole-dipole interaction strength between neighbouring monomers.
翻訳日:2023-12-04 18:56:14 公開日:2023-12-01
# raft: 生成的ファンデーションモデルアライメントに対する報酬ランクの微調整

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment ( http://arxiv.org/abs/2304.06767v4 )

ライセンス: Link先を確認
Hanze Dong, Wei Xiong, Deepanshu Goyal, Yihan Zhang, Winnie Chow, Rui Pan, Shizhe Diao, Jipeng Zhang, Kashun Shum, Tong Zhang(参考訳) 生成基盤モデルは、広範な教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。 このようなバイアスは、潜在的に深刻な結果を伴う、最適以下のサンプル、歪んだ結果、不公平を生み出す可能性がある。 したがって、これらのモデルを人間の倫理や嗜好と整合させることは、現実世界のアプリケーションに責任と効果的なデプロイを確実にするための重要なステップである。 以前の研究は、主に人的フィードバック(rlhf)からの強化学習を採用しており、生成モデルは、人的フィードバックによる報酬モデルによって誘導されるrlアルゴリズムで微調整されている。 しかし、RLアルゴリズムに付随する非効率性と不安定性はしばしばアライメントの成功に重大な障害をもたらし、より堅牢で合理化されたアプローチの開発を必要とする。 この目的のために、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuning (RAFT)を導入する。 報奨モデルと十分なサンプル数を利用することで,高品質なサンプルを選択し,望ましくない振る舞いを示すサンプルを破棄し,フィルタされたサンプルの微調整によりモデルを強化した。 本研究では,大規模言語モデルと拡散モデルの両方において,報酬学習やその他の自動メトリクスのモデル性能を効果的に向上できることを示す。

Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently enhancing the model by fine-tuning on these filtered samples. Our studies show that RAFT can effectively improve the model performance in both reward learning and other automated metrics in both large language models and diffusion models.
翻訳日:2023-12-04 18:55:56 公開日:2023-12-01
# 分割、マージ、精製:オーバーセグメンテーションと反復探索による厳密なバウンディングボックスの適合

Split, Merge, and Refine: Fitting Tight Bounding Boxes via Over-Segmentation and Iterative Search ( http://arxiv.org/abs/2304.04336v3 )

ライセンス: Link先を確認
Chanhyeok Park, Minhyuk Sung(参考訳) 完全境界を保証しながら形状のタイトなバウンディングボックスを達成することは、効率的な幾何学的操作と教師なし意味部分検出にとって必須のタスクである。 しかし、以前の方法は完全なカバレッジと厳密性の両方を達成できなかった。 従来の反復探索法は初期化に対する感度に悩まされているが, 目的の非微分性のため, ニューラルネットワークに基づく手法はこれらの目標に適していない。 本稿では,オーバーセグメンテーションと反復的マージ・リファインメントにより3次元形状のタイトなバウンディングボックス群を求めるための新しい枠組みを提案する。 以上の結果から, 有効な検索手法を適切な目的に活用することが, 両方の特性を持つ境界ボックス生成の鍵となる。 既存のプレセグメンテーションを用いて形状を分割し、オーバーセグメンテーションを得る。 次に,新しいタイトネス・アウェアマージ基準と階層的マージを適用する。 また,初期化に対する感度を克服するために,より広範な探索を促進するソフト報酬機能を備えたマルコフ決定プロセス(mdp)のバウンディングボックスパラメータを洗練するためのアクションを定義する。 最後に,モンテカルロ木探索(MCTS)に基づく多行動宇宙探査により,改良の歩みをさらに改善する。 多様な3次元形状について熟慮した評価を行うことで,トレーニングデータや監督を必要とせず,完全なカバレッジ,タイトネス,適切なバウンディングボックス数を示す。 これにより、コンピュータビジョンやグラフィックスの様々な下流タスクに適用することができる。

Achieving tight bounding boxes of a shape while guaranteeing complete boundness is an essential task for efficient geometric operations and unsupervised semantic part detection. But previous methods fail to achieve both full coverage and tightness. Neural-network-based methods are not suitable for these goals due to the non-differentiability of the objective, while classic iterative search methods suffer from their sensitivity to the initialization. We propose a novel framework for finding a set of tight bounding boxes of a 3D shape via over-segmentation and iterative merging and refinement. Our result shows that utilizing effective search methods with appropriate objectives is the key to producing bounding boxes with both properties. We employ an existing pre-segmentation to split the shape and obtain over-segmentation. Then, we apply hierarchical merging with our novel tightness-aware merging and stopping criteria. To overcome the sensitivity to the initialization, we also define actions to refine the bounding box parameters in an Markov Decision Process (MDP) setup with a soft reward function promoting a wider exploration. Lastly, we further improve the refinement step with Monte Carlo Tree Search (MCTS) based multi-action space exploration. By thoughtful evaluation on diverse 3D shapes, we demonstrate full coverage, tightness, and an adequate number of bounding boxes of our method without requiring any training data or supervision. It thus can be applied to various downstream tasks in computer vision and graphics.
翻訳日:2023-12-04 18:55:34 公開日:2023-12-01
# HarsanyiNet: 単一のフォワードプロパゲーションにおける正確なシェープ値の計算

HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation ( http://arxiv.org/abs/2304.01811v2 )

ライセンス: Link先を確認
Lu Chen, Siyu Lou, Keyan Zhang, Jin Huang, Quanshi Zhang(参考訳) シェープの価値は信頼に値する帰属指標として広く見なされている。 しかしながら、ディープニューラルネットワーク(DNN)の入力変数の属性を説明するためにShapley値を使用する場合、現実のアプリケーションで比較的正確なShapley値を近似するためには、通常非常に高い計算コストが必要となる。 そこで本研究では,入力変数の正確なShapley値を単一の前方伝播で同時に計算する,新しいネットワークアーキテクチャであるHarsanyiNetを提案する。 HarsanyiNetは、Shapley値がネットワークによって符号化されたHarsanyi相互作用の再分配として再構成可能であるという理論的基礎に基づいて設計されている。

The Shapley value is widely regarded as a trustworthy attribution metric. However, when people use Shapley values to explain the attribution of input variables of a deep neural network (DNN), it usually requires a very high computational cost to approximate relatively accurate Shapley values in real-world applications. Therefore, we propose a novel network architecture, the HarsanyiNet, which makes inferences on the input sample and simultaneously computes the exact Shapley values of the input variables in a single forward propagation. The HarsanyiNet is designed on the theoretical foundation that the Shapley value can be reformulated as the redistribution of Harsanyi interactions encoded by the network.
翻訳日:2023-12-04 18:55:10 公開日:2023-12-01
# 新しい特許類似度測定手法:意味的距離と技術的距離

A Novel Patent Similarity Measurement Methodology: Semantic Distance and Technological Distance ( http://arxiv.org/abs/2303.16767v2 )

ライセンス: Link先を確認
Yongmin Yoo, Cheonkam Jeong, Sanguk Gim, Junwon Lee, Zachary Schimke, Deaho Seo(参考訳) 特許類似性分析は、特許侵害のリスクを評価する上で重要な役割を果たす。 それにもかかわらず、この分析は主に法律の専門家によって手作業で行われ、しばしば時間がかかります。 自然言語処理技術の最近の進歩は、このプロセスの自動化に有望な手段を提供する。 しかし、特許間の類似性を測定する方法はまだ、手動で特許を分類する専門家に依存している。 近年の人工知能技術の発展により,自然言語処理技術を用いた特許の意味的類似性に着目した研究が盛んに行われている。 しかし、既存の自然言語処理技術を用いて、複雑な技術を表す法的文書である特許データを正確に分析することは困難である。 これらの制約に対処するために,本研究では,書誌的類似性を考慮したハイブリッド手法を提案し,特許の意味的類似性,特許間の技術的類似性,特許の書誌的情報を考慮して,特許間の類似性を測定する。 自然言語処理技術を用いて,特許文書に基づく意味的類似度を測定し,国際特許分類(IPC)コードの共存度を通じて技術的類似度を算出する。 特許の書誌情報の類似性を、引用情報、発明者情報及び割り当て情報という特許の特殊特性を用いて算出する。 本稿では,各類似度法に適切な重み付けを割り当てるモデルを提案する。 専門家の助けを借りて,420組について手作業による類似度評価を行い,このデータをもとにモデルの性能評価を行った。 我々は,本手法が最近の自然言語処理技術より優れていることを実証的に示した。

Patent similarity analysis plays a crucial role in evaluating the risk of patent infringement. Nonetheless, this analysis is predominantly conducted manually by legal experts, often resulting in a time-consuming process. Recent advances in natural language processing technology offer a promising avenue for automating this process. However, methods for measuring similarity between patents still rely on experts manually classifying patents. Due to the recent development of artificial intelligence technology, a lot of research is being conducted focusing on the semantic similarity of patents using natural language processing technology. However, it is difficult to accurately analyze patent data, which are legal documents representing complex technologies, using existing natural language processing technologies. To address these limitations, we propose a hybrid methodology that takes into account bibliographic similarity, measures the similarity between patents by considering the semantic similarity of patents, the technical similarity between patents, and the bibliographic information of patents. Using natural language processing techniques, we measure semantic similarity based on patent text and calculate technical similarity through the degree of coexistence of International patent classification (IPC) codes. The similarity of bibliographic information of a patent is calculated using the special characteristics of the patent: citation information, inventor information, and assignee information. We propose a model that assigns reasonable weights to each similarity method considered. With the help of experts, we performed manual similarity evaluations on 420 pairs and evaluated the performance of our model based on this data. We have empirically shown that our method outperforms recent natural language processing techniques.
翻訳日:2023-12-04 18:54:56 公開日:2023-12-01
# 世代拡大のためのマルチモーダル情報の検索:サーベイ

Retrieving Multimodal Information for Augmented Generation: A Survey ( http://arxiv.org/abs/2303.10868v3 )

ライセンス: Link先を確認
Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do, Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty(参考訳) LLM(Large Language Models)が普及するにつれて、LLMの生成能力を高めるためにマルチモーダルを使用するという重要なトレンドが出現し、LLMが世界とよりうまく対話できるようになる。 しかし、どの段階と異なるモダリティを組み込むかという統一的な認識が欠けている。 本研究では,画像,コード,テーブル,グラフ,音声など多様な形式を持つマルチモーダル知識を検索し,生成モデルを支援する手法について検討する。 このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な懸念に対する有望な解決策を提供する。 本調査では,本手法の応用についてより深く理解し,LLMの急速に発展する分野に既存技術を適用することを奨励することが期待されている。

As Large Language Models (LLMs) become popular, there emerged an important trend of using multimodality to augment the LLMs' generation ability, which enables LLMs to better interact with the world. However, there lacks a unified perception of at which stage and how to incorporate different modalities. In this survey, we review methods that assist and augment generative models by retrieving multimodal knowledge, whose formats range from images, codes, tables, graphs, to audio. Such methods offer a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. By providing an in-depth review, this survey is expected to provide scholars with a deeper understanding of the methods' applications and encourage them to adapt existing techniques to the fast-growing field of LLMs.
翻訳日:2023-12-04 18:54:34 公開日:2023-12-01
# サイクルエラー再構成によるエラープロファイルへのコヒーレントな貢献度の推定

Estimating Coherent Contributions to the Error Profile Using Cycle Error Reconstruction ( http://arxiv.org/abs/2303.09945v2 )

ライセンス: Link先を確認
Arnaud Carignan-Dugas, Shashank Kumar Ranu, Patrick Dreher(参考訳) 緩和と校正スキームは、今日のノイズ中間スケール量子(NISQ)ハードウェアの計算範囲を最大化するために中心的であるが、これらのスキームは、コヒーレントまたはデコヒーレントなエラーソースにのみ対処するように特化されている。 2つのタイプのエラーを定量化することは、ベンチマークエラー抑制ツールに関して望ましい機能となる。 本稿では,ハードコンピューティングサイクルのエラープロファイルに対するコヒーレントな寄与の詳細な推定を行うためのスケーラブルでサイクル中心の方法論を提案する。 提案するプロトコルは、K-body Noise Reconstruction(KNR)とも呼ばれるCER(Cycle Error Reconstruction)に基づいている。 このプロトコルはCycle Benchmarking (CB) と似ており、Pauli のフィデリティ推定 [1] に基づいたサイクル中心の診断を提供する。 我々は、pauli twirlingの対象となる前に、ハードサイクルを複数回折り畳むことができるようにすることで、cerにさらにハイパーパラメータを導入する。 付加した超パラメータの異なる値に対してCERを実行することにより、忠実度減衰公式の一般化によりコヒーレントな誤差寄与を推定できる。 我々は,量子シミュレータ上で数値シミュレーションを行い,ibmq_guadalupe,ibmq_manila,ibmq_montrealの3つのIBMチップ上で概念実証実験を行った。 これら3つの実験で、Zで偏ったかなりのコヒーレント誤差を測定する。

Mitigation and calibration schemes are central to maximize the computational reach of today's Noisy Intermediate Scale Quantum (NISQ) hardware, but these schemes are often specialized to exclusively address either coherent or decoherent error sources. Quantifying the two types of errors hence constitutes a desirable feature when it comes to benchmarking error suppression tools. In this paper, we present a scalable and cycle-centric methodology for obtaining a detailed estimate of the coherent contribution to the error profile of a hard computing cycle. The protocol that we suggest is based on Cycle Error Reconstruction (CER), also known as K-body Noise Reconstruction (KNR). This protocol is similar to Cycle Benchmarking (CB) in that it provides a cycle-centric diagnostic based on Pauli fidelity estimation [1]. We introduce an additional hyper-parameter in CER by allowing the hard cycles to be folded multiple times before being subject to Pauli twirling. Performing CER for different values of our added hyper-parameter allows estimating the coherent error contributions through a generalization of the fidelity decay formula. We confirm the accuracy of our method through numerical simulations on a quantum simulator, and perform proof-of-concept experiments on three IBM chips, namely ibmq_guadalupe, ibmq_manila, and ibmq_montreal. In all three experiments, we measure substantial coherent errors biased in Z.
翻訳日:2023-12-04 18:54:13 公開日:2023-12-01
# 説明から学ぶときの摂動の利用

Use Perturbations when Learning from Explanations ( http://arxiv.org/abs/2303.06419v3 )

ライセンス: Link先を確認
Juyeon Heo, Vihari Piratla, Matthew Wicker, Adrian Weller(参考訳) mlx(machine learning from explanations)は、モデル予測が正しい理由のために正しいことを保証するために、各入力に関連する、あるいは無関係な特徴の人間による説明を使用する学習のアプローチである。 既存のmlxアプローチは局所的なモデル解釈メソッドに依存しており、モデルと人間の説明を調整するために強力なモデル平滑化が必要である。 我々はMLXを頑健性問題として再考し、人間の説明では摂動が引き起こされる低次元多様体を規定し、このアプローチが強いモデル平滑化の必要性をいかに緩和するかを理論的および実証的に示す。 我々は、堅牢性を達成するための様々なアプローチを検討し、従来のmlxメソッドよりもパフォーマンスが向上した。 最後に,従来のMLX手法とロバスト性を組み合わせる方法を示し,合成および実世界のベンチマークで最先端の結果を得る。

Machine learning from explanations (MLX) is an approach to learning that uses human-provided explanations of relevant or irrelevant features for each input to ensure that model predictions are right for the right reasons. Existing MLX approaches rely on local model interpretation methods and require strong model smoothing to align model and human explanations, leading to sub-optimal performance. We recast MLX as a robustness problem, where human explanations specify a lower dimensional manifold from which perturbations can be drawn, and show both theoretically and empirically how this approach alleviates the need for strong model smoothing. We consider various approaches to achieving robustness, leading to improved performance over prior MLX methods. Finally, we show how to combine robustness with an earlier MLX method, yielding state-of-the-art results on both synthetic and real-world benchmarks.
翻訳日:2023-12-04 18:53:29 公開日:2023-12-01
# プロンプテッドフォアグラウンド・アウェア特徴コントラストを用いた汎用3次元自己教師型学習フレームワーク

Generalized 3D Self-supervised Learning Framework via Prompted Foreground-Aware Feature Contrast ( http://arxiv.org/abs/2303.06388v4 )

ライセンス: Link先を確認
Kangcheng Liu, Xinhu Zheng, Chaoqun Wang, Kai Tang, Ming Liu, Baoquan Chen(参考訳) コントラスト学習は3次元シーン理解タスクにおける教師なし事前学習に大きな可能性を示した。 しかし、既存のほとんどの作業は、コントラストを構築しながらアンカーとしてポイントの特徴をランダムに選び、しばしば3Dシーンで支配される背景点に対して明確なバイアスをもたらす。 また、物体認識と前景間識別は無視され、対照的な学習がより効果的になる。 これらの課題に対処するために,事前学習においてより効果的なポイントクラウド表現を学習するためのFAC++フレームワークを提案する。 FAC++は2つの新しいコントラスト設計で構成され、より効果的で情報的なコントラストペアを構築する。 1つは、ポイントが同じ意味を持つ傾向にある同じ前景セグメント内で正のペアを構築することである。 2つめは、3dセグメント/オブジェクト間の過度な区別を防止し、ポイントクラウドビュー内とポイントクラウドビュー間の特徴相関を効果的に学習するsiamese対応ネットワークにおける適応的特徴学習により、セグメントレベルでの前景-後景の区別をグループ化する。 さらに,FAC++と呼ばれる,よりバランスの取れたフォアグラウンド認識学習を強化するために,フォアグラウンド型地域サンプリングを設計した。 点アクティベーションマップを用いた可視化により, コントラストペアが事前学習中に前景領域間の明確な対応を捉えることを示す。 定量的実験により、FAC++は様々な下流3次元セマンティックセグメンテーション、インスタンスセグメンテーション、およびオブジェクト検出タスクにおいて、優れた知識伝達とデータ効率を達成することが示された。 すべてのコード、データ、およびモデルは、https://github.com/kangchengliu/fac_foreground_aware_contrastで利用可能である。

Contrastive learning has recently demonstrated great potential for unsupervised pre-training in 3D scene understanding tasks. However, most existing work randomly selects point features as anchors while building contrast, leading to a clear bias toward background points that often dominate in 3D scenes. Also, object awareness and foreground-to-background discrimination are neglected, making contrastive learning less effective. To tackle these issues, we propose a general foreground-aware feature contrast FAC++ framework to learn more effective point cloud representations in pre-training. FAC++ consists of two novel contrast designs to construct more effective and informative contrast pairs. The first is building positive pairs within the same foreground segment where points tend to have the same semantics. The second is that we prevent over-discrimination between 3D segments/objects and encourage grouped foreground-to-background distinctions at the segment level with adaptive feature learning in a Siamese correspondence network, which adaptively learns feature correlations within and across point cloud views effectively. Moreover, we have designed the foreground-prompted regional sampling to enhance more balanced foreground-aware learning, which is termed FAC++. Visualization with point activation maps shows that our contrast pairs capture clear correspondences among foreground regions during pre-training. Quantitative experiments also show that FAC++ achieves superior knowledge transfer and data efficiency in various downstream 3D semantic segmentation, instance segmentation as well as object detection tasks. All codes, data, and models are available at: https://github.com/KangchengLiu/FAC_Foreground_Aware_Contrast
翻訳日:2023-12-04 18:53:12 公開日:2023-12-01
# 摂動量子色力学における色彩の量子シミュレーション

Quantum simulation of colour in perturbative quantum chromodynamics ( http://arxiv.org/abs/2303.04818v2 )

ライセンス: Link先を確認
Herschel A. Chawdhry and Mathieu Pellen(参考訳) 量子コンピュータは量子システムのシミュレーションのために大きなスピードアップを期待されている。 本研究では、摂動量子色力学(QCD)におけるクォークとグルーオンの相互作用の色の部分をシミュレートする量子ゲートを提案する。 最初の用途として、これらの回路を無ノイズ量子コンピュータでシミュレートし、ファインマン図の様々な例の色係数を計算する。 この研究は摂動qcdにおける一般散乱過程の量子シミュレーションに向けた最初の重要な一歩である。

Quantum computers are expected to give major speed-ups for the simulation of quantum systems. In this work, we present quantum gates that simulate the colour part of the interactions of quarks and gluons in perturbative quantum chromodynamics (QCD). As a first application, we implement these circuits on a simulated noiseless quantum computer and use them to calculate colour factors for various examples of Feynman diagrams. This work constitutes a first key step towards a quantum simulation of generic scattering processes in perturbative QCD.
翻訳日:2023-12-04 18:52:42 公開日:2023-12-01
# 量子回路完全性:拡張と単純化

Quantum Circuit Completeness: Extensions and Simplifications ( http://arxiv.org/abs/2303.03117v3 )

ライセンス: Link先を確認
Alexandre Cl\'ement, No\'e Delorme, Simon Perdrix, Renaud Vilmart(参考訳) 量子回路は量子コンピューティングにおいて何十年にもわたって普及してきたが、量子回路に関する最初の完全な方程式理論が最近導入されたばかりである。 完全性は、量子回路上の真の方程式が方程式理論から導出できることを保証する。 この完全性を2つの方法で改善します (i)方程式論を単純化し、いくつかの規則が残りの規則から導出できることを証明する。 特に、最も複雑な3つのうち2つが取り除かれ、3つ目はわずかに単純化されている。 (ii)完全等式理論は、追加のワークスペースとハイブリッド量子計算を用いてそれぞれの量子計算を表現するために、アンシラエまたはクビット廃棄を持つ量子回路に拡張することができる。 これらのより表現豊かな設定において、残りの複雑な規則は大幅に単純化され、全ての方程式が有界数の量子ビットに作用する等式理論が導かれる。 表現型量子回路モデルのための単純で完全な方程式理論の開発は、量子回路を推論するための新しい道を開く。 回路最適化、ハードウェア制約の満足度、検証など、様々なコンパイルタスクに対する強力な公式な基盤を提供する。

Although quantum circuits have been ubiquitous for decades in quantum computing, the first complete equational theory for quantum circuits has only recently been introduced. Completeness guarantees that any true equation on quantum circuits can be derived from the equational theory. We improve this completeness result in two ways: (i) We simplify the equational theory by proving that several rules can be derived from the remaining ones. In particular, two out of the three most intricate rules are removed, the third one being slightly simplified. (ii) The complete equational theory can be extended to quantum circuits with ancillae or qubit discarding, to represent respectively quantum computations using an additional workspace, and hybrid quantum computations. We show that the remaining intricate rule can be greatly simplified in these more expressive settings, leading to equational theories where all equations act on a bounded number of qubits. The development of simple and complete equational theories for expressive quantum circuit models opens new avenues for reasoning about quantum circuits. It provides strong formal foundations for various compiling tasks such as circuit optimisation, hardware constraint satisfaction and verification.
翻訳日:2023-12-04 18:52:16 公開日:2023-12-01
# スイッチング力学系の識別性について

On the Identifiability of Switching Dynamical Systems ( http://arxiv.org/abs/2305.15925v3 )

ライセンス: Link先を確認
Carles Balsells-Rodas, Yixin Wang and Yingzhen Li(参考訳) 解釈可能性とアウト・オブ・ディストリビューションの一般化の領域では、潜在変数モデルの識別可能性が調査のキャプティベーション分野として現れている。 本研究では,動的システムのスイッチングの識別可能性について考察し,線形潜在変数モデルへの識別可能性解析の拡張に向けて最初の一歩を踏み出した。 まず,スイッチング力学系における連続的潜在変数の事前分布としてよく用いられるマルコフスイッチングモデルの同定可能性を証明する。 遷移分布は非線形ガウスによってパラメトリされる一階マルコフ依存構造の同定条件を示す。 次に,動的システムのアフィン変換までの切り換えにおける潜在変数の識別可能性と非線形写像を,同定可能な深い潜在変数モデルからの識別可能性解析手法を用いて確立する。 最終的に,スイッチング力学系に対する推定アルゴリズムを開発した。 実験を通じて,ビデオなどの高次元時系列をセグメント化するための識別可能なスイッチング力学系の実用性を示し,気候データにおけるシステム依存因果発見のための識別可能なマルコフスイッチングモデルの使用例を示す。

In the realm of interpretability and out-of-distribution generalisation, the identifiability of latent variable models has emerged as a captivating field of inquiry. In this work, we delve into the identifiability of Switching Dynamical Systems, taking an initial stride toward extending identifiability analysis to sequential latent variable models. We first prove the identifiability of Markov Switching Models, which commonly serve as the prior distribution for the continuous latent variables in Switching Dynamical Systems. We present identification conditions for first-order Markov dependency structures, whose transition distribution is parametrised via non-linear Gaussians. We then establish the identifiability of the latent variables and non-linear mappings in Switching Dynamical Systems up to affine transformations, by leveraging identifiability analysis techniques from identifiable deep latent variable models. We finally develop estimation algorithms for identifiable Switching Dynamical Systems. Throughout empirical studies, we demonstrate the practicality of identifiable Switching Dynamical Systems for segmenting high-dimensional time series such as videos, and showcase the use of identifiable Markov Switching Models for regime-dependent causal discovery in climate data.
翻訳日:2023-12-04 18:45:22 公開日:2023-12-01
# 科学的文書からのユーザ指向スニペットの非コンテキスト化のための質問応答フレームワーク

A Question Answering Framework for Decontextualizing User-facing Snippets from Scientific Documents ( http://arxiv.org/abs/2305.14772v3 )

ライセンス: Link先を確認
Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, Kyle Lo(参考訳) 多くの現実世界のアプリケーション(メモ取り、検索など)では、文書から文や段落を抽出し、そのスニペットをソース文書の外の人間に示す必要がある。 しかし、ユーザーは元のドキュメントのコンテキストがないため、スニペットを理解するのが難しくなるかもしれない。 本研究では,言語モデルを用いて科学文書のスニペットを書き換え,独自に読む。 まず、編集箇所の明確化や、他の文書への参照処理など、このユーザ向け非コンテクスト化タスクの要件と課題を定義します。 第2に,タスクを質問生成,質問応答,書き直しという3つの段階に分解するフレームワークを提案する。 このフレームワークを使って、経験豊富な科学記事読者から金のデコンテクスト化を収集する。 次に、現在最先端の商用およびオープンソース言語モデルにまたがるさまざまな実験を行い、タスクのモデルに、欠落するが関連のある情報を最も適切に提供する方法を特定します。 最後に、私たちのフレームワークに触発されたシンプルなプロンプト戦略であるQaDecontextを開発し、エンドツーエンドのプロンプトを改善する。 私たちは、書き直しが簡単であるのに対して、今日のモデルでは質問生成と回答は難しいまま、分析で結論付けます。

Many real-world applications (e.g., note taking, search) require extracting a sentence or paragraph from a document and showing that snippet to a human outside of the source document. Yet, users may find snippets difficult to understand as they lack context from the original document. In this work, we use language models to rewrite snippets from scientific documents to be read on their own. First, we define the requirements and challenges for this user-facing decontextualization task, such as clarifying where edits occur and handling references to other documents. Second, we propose a framework that decomposes the task into three stages: question generation, question answering, and rewriting. Using this framework, we collect gold decontextualizations from experienced scientific article readers. We then conduct a range of experiments across state-of-the-art commercial and open-source language models to identify how to best provide missing-but-relevant information to models for our task. Finally, we develop QaDecontext, a simple prompting strategy inspired by our framework that improves over end-to-end prompting. We conclude with analysis that finds, while rewriting is easy, question generation and answering remain challenging for today's models.
翻訳日:2023-12-04 18:44:35 公開日:2023-12-01
# 事前訓練を監督するクラス内・クラス内多様性のトレードオフについて

On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training ( http://arxiv.org/abs/2305.12224v2 )

ライセンス: Link先を確認
Jieyu Zhang, Bohan Wang, Zhengyu Hu, Pang Wei Koh, Alexander Ratner(参考訳) 事前トレーニングデータセットは、最先端の機械学習モデルの構築に不可欠であり、下流タスクへの影響に関する厳格な研究を動機付けている。 本研究では,教師付き事前学習データセットのクラス内多様性(クラスごとのサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討する。 経験的に、トレーニング済みデータセットのサイズが固定されると、最高のダウンストリームパフォーマンスはクラス内/クラス間の多様性のバランスをとることが分かりました。 基礎となるメカニズムを理解するために、下流の性能が両タイプの多様性に単調に依存することを示す。 特に, この理論は, 最適クラス対サンプル比 (#classes / #samples per class) が事前学習データセットのサイズに不変であることを明らかにしている。 我々は、ImageNetを事前学習データセットとして使用する場合、下流タスクの約2ポイントの改善により、このアプリケーションの有効性を実証する。

Pre-training datasets are critical for building state-of-the-art machine learning models, motivating rigorous study on their impact on downstream tasks. In this work, we study the impact of the trade-off between the intra-class diversity (the number of samples per class) and the inter-class diversity (the number of classes) of a supervised pre-training dataset. Empirically, we found that with the size of the pre-training dataset fixed, the best downstream performance comes with a balance on the intra-/inter-class diversity. To understand the underlying mechanism, we show theoretically that the downstream performance depends monotonically on both types of diversity. Notably, our theory reveals that the optimal class-to-sample ratio (#classes / #samples per class) is invariant to the size of the pre-training dataset, which motivates an application of predicting the optimal number of pre-training classes. We demonstrate the effectiveness of this application by an improvement of around 2 points on the downstream tasks when using ImageNet as the pre-training dataset.
翻訳日:2023-12-04 18:44:12 公開日:2023-12-01
# 文書接地ダイアログにおける有意な生成のためのポイントワイズ相互情報に基づくメトリクスとデコード戦略

Pointwise Mutual Information Based Metric and Decoding Strategy for Faithful Generation in Document Grounded Dialogs ( http://arxiv.org/abs/2305.12191v2 )

ライセンス: Link先を確認
Yatin Nandwani and Vineet Kumar and Dinesh Raghu and Sachindra Joshi and Luis A. Lastras(参考訳) 深層学習に基づくダイアログ生成モデルを使用する際の大きな懸念は、基礎となるドキュメントに対するtextit{faithful} ではない応答の潜在的な生成である。 接地文書に対する応答の忠実性を評価するための既存の自動化指標は、生成された応答と文書の内容との類似度を測定する。 しかし、これらの自動メトリクスは人間の判断とよく一致していない。 そこで本研究では,信頼度の測定を改善するために,生成した応答とソース文書間の(連続的な)ポイントワイド相互情報(PMI)を利用する新たな指標を提案する。 PMIは、ドキュメントが生成したレスポンスに影響を与える範囲を定量化し、より高いPMIはより忠実なレスポンスを示す。 我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。 BEGINベンチマーク実験では,測定値と評価値との相関性が改善された。 また,我々のデコーディング手法は,公に利用可能なドキュメント・グラウンド・ダイアログデータセット上での標準デコーディング手法と比較して,より忠実な応答を生成するのに有効であることを示した。

A major concern in using deep learning based generative models for document-grounded dialogs is the potential generation of responses that are not \textit{faithful} to the underlying document. Existing automated metrics used for evaluating the faithfulness of response with respect to the grounding document measure the degree of similarity between the generated response and the document's content. However, these automated metrics are far from being well aligned with human judgments. Therefore, to improve the measurement of faithfulness, we propose a new metric that utilizes (Conditional) Point-wise Mutual Information (PMI) between the generated response and the source document, conditioned on the dialogue. PMI quantifies the extent to which the document influences the generated response -- with a higher PMI indicating a more faithful response. We build upon this idea to create a new decoding technique that incorporates PMI into the response generation process to predict more faithful responses. Our experiments on the BEGIN benchmark demonstrate an improved correlation of our metric with human evaluation. We also show that our decoding technique is effective in generating more faithful responses when compared to standard decoding techniques on a set of publicly available document-grounded dialog datasets.
翻訳日:2023-12-04 18:43:54 公開日:2023-12-01
# SU(2)対称性を持つスピン系における平均純状態絡み合いエントロピー

Average pure-state entanglement entropy in spin systems with SU(2) symmetry ( http://arxiv.org/abs/2305.11211v3 )

ライセンス: Link先を確認
Rohit Patil, Lucas Hackl, George R. Fagan, Marcos Rigol(参考訳) 格子スピン系において生成されるsu(2)対称性とリッチヒルベルト空間構造が、局所ハミルトニアンの高励起固有状態とランダムな純粋な状態の平均エンタングルメントエントロピーに与える影響について検討した。 異なる固定全スピンに対するゼロトータル磁化セクター(J_z=0$)に着目して、量子カオスハミルトニアンの高励起固有状態とランダム純粋状態の平均エントロピーは、係数$s_A$がスピン密度$j=J/(\mathfrak{j}L)$、$s_A(j \rightarrow 0)=\ln (2\mathfrak{j}+1)$と$s_A(j \rightarrow 1)=0$、$\mathfrak{j}$が顕微鏡スピンであるような主体積法則項を持つ。 このことは、平均固有状態絡み合いエントロピーが、非アベリア対称性を持つハミルトニアンの量子カオスと可積分性の診断に使用できるという期待を裏付けるものである。 ハミルトニアン固有状態の文脈では、スピンは$\mathfrak{j}=\frac12$と$$$であり、ランダムな純粋状態に基づく計算ではスピン$\mathfrak{j}=\frac12$ケースに焦点を当てている。

We study the effect that the SU(2) symmetry, and the rich Hilbert space structure that it generates in lattice spin systems, has on the average entanglement entropy of highly excited eigenstates of local Hamiltonians and of random pure states. Focusing on the zero total magnetization sector ($J_z=0$) for different fixed total spin $J$, we argue that the average entanglement entropy of highly excited eigenstates of quantum-chaotic Hamiltonians and of random pure states has a leading volume-law term whose coefficient $s_A$ depends on the spin density $j=J/(\mathfrak{j}L)$, with $s_A(j \rightarrow 0)=\ln (2\mathfrak{j}+1)$ and $s_A(j \rightarrow 1)=0$, where $\mathfrak{j}$ is the microscopic spin. We provide numerical evidence that $s_A$ is smaller in highly excited eigenstates of integrable interacting Hamiltonians, which lends support to the expectation that the average eigenstate entanglement entropy can be used as a diagnostic of quantum chaos and integrability for Hamiltonians with non-Abelian symmetries. In the context of Hamiltonian eigenstates we consider spins $\mathfrak{j}=\frac12$ and $1$, while for our calculations based on random pure states we focus on the spin $\mathfrak{j}=\frac12$ case.
翻訳日:2023-12-04 18:43:34 公開日:2023-12-01
# 局所リプシッツを用いた深層学習画像再構成における不確かさ推定と分布外検出

Uncertainty Estimation and Out-of-Distribution Detection for Deep Learning-Based Image Reconstruction using the Local Lipschitz ( http://arxiv.org/abs/2305.07618v3 )

ライセンス: Link先を確認
Danyal F. Bhutto, Bo Zhu, Jeremiah Z. Liu, Neha Koonjoo, Hongwei B. Li, Bruce R. Rosen, and Matthew S. Rosen(参考訳) 正確な画像再構成は、医用画像の診断の中心にある。 画像再構成を含む逆問題の解法として,深層学習に基づく手法が提案されている。 しかし、これらのトレーニングされたモデルは、デプロイ中にトレーニングデータから大きく移行した、目に見えないデータ分散に遭遇する。 したがって、ある入力が、診断目的でトレーニングデータ分布に含まれるかどうかを評価することが不可欠である。 不確実性推定アプローチは存在するが、トレーニング分布の適合性を評価するのではなく、放射線科医に不確実性マップを提供することに重点を置いている。 そこで本研究では,局所リプシッツ基準に基づく分布画像と,99.94%の曲線下の領域の分布とを区別する手法を提案する。 実験により, 局所リプシッツ値と平均絶対誤差(MAE)との間には, 高スピアマンランク相関係数0.8475の強い相関関係が示され, 最適モデル性能の不確実性推定閾値が決定される。 偽陽性の同定により, 局所リプシッツとMAEの関係はデータ増大を誘導し, モデルの不確実性を低減した。 磁気共鳴画像(MRI)の再構成にAUTOMAPアーキテクチャを用いて検討を行った。 提案手法と, モンテカルロのドロップアウトと深層アンサンブルを比較し, さらなる解析には, UNET アーキテクチャを用いたMRI denoising and Computed Tomography (CT) Sparse-to-full view reconstruction が用いられた。 本手法は, 様々なアーキテクチャや学習機能, 特に医用画像再構成の領域において, 再構成画像の診断精度の維持が最重要でありながら適用可能であることを示す。

Accurate image reconstruction is at the heart of diagnostics in medical imaging. Supervised deep learning-based approaches have been investigated for solving inverse problems including image reconstruction. However, these trained models encounter unseen data distributions that are widely shifted from training data during deployment. Therefore, it is essential to assess whether a given input falls within the training data distribution for diagnostic purposes. Uncertainty estimation approaches exist but focus on providing an uncertainty map to radiologists, rather than assessing the training distribution fit. In this work, we propose a method based on the local Lipschitz-based metric to distinguish out-of-distribution images from in-distribution with an area under the curve of 99.94%. Empirically, we demonstrate a very strong relationship between the local Lipschitz value and mean absolute error (MAE), supported by a high Spearman's rank correlation coefficient of 0.8475, which determines the uncertainty estimation threshold for optimal model performance. Through the identification of false positives, the local Lipschitz and MAE relationship was used to guide data augmentation and reduce model uncertainty. Our study was validated using the AUTOMAP architecture for sensor-to-image Magnetic Resonance Imaging (MRI) reconstruction. We compare our proposed approach with baseline methods: Monte-Carlo dropout and deep ensembles, and further analysis included MRI denoising and Computed Tomography (CT) sparse-to-full view reconstruction using UNET architectures. We show that our approach is applicable to various architectures and learned functions, especially in the realm of medical image reconstruction, where preserving the diagnostic accuracy of reconstructed images remains paramount.
翻訳日:2023-12-04 18:42:54 公開日:2023-12-01
# 適応データ取得による高品質3DMPCの生成とUGV植物表現システムによるNeREFによるラジオメトリックキャリブレーション

Generating high-quality 3DMPCs by adaptive data acquisition and NeREF-based radiometric calibration with UGV plant phenotyping system ( http://arxiv.org/abs/2305.06777v2 )

ライセンス: Link先を確認
Pengyao Xie, Zhihong Ma, Ruiming Du, Xin Yang, Haiyan Cen(参考訳) 3d画像データとms画像データの融合は、構造および生化学の高スループット植物表現と生理的特徴を同時に表現する大きな可能性を秘めている。 しかし, 複雑な照明効果によるプラントキャノピー構造の3次元データ整合性の欠如とMS画像の低品質化は, 特に近位画像スケールにおいて大きな課題となる。 そこで本研究では, 適応データ取得とラジオメトリックキャリブレーションによる高品質な3DMPC生成手法を提案する。 適応的データ取得を実現するために, マルチセンサロボットアームを用いたUGVプラント表現システムに基づく効率的なNBV計画法を提案した。 NeREFは、放射校正のための半球基準のDN値を予測するために用いられた。 NBVの計画では、結合速度1.55 rad/sの単一植物の平均総時間は62.8秒であり、未計画の植物に比べて平均18.0%減少した。 プラント全体のデータの完全性は、固定された視点だけで平均23.6%向上した。 ASD測定と比較すると, 3次元ラジオメトリックキャリブレーションのないMS画像の単フレーム画像と比較すると, 3DMPCから得られた反射スペクトルのRMSEは0.08であり, 平均58.93%低下した。 3Dキャリブレーションプラント3DMPCは、クロロフィル含有量のPLSRの予測精度を向上し、R2では平均0.07、RMSEでは平均21.25%向上した。 自然光条件下での高品質3DMPCの生成に対する新たな視点を導入し,植物形態および生理的パラメータのより正確な分析を可能にした。

Fusion of 3D and MS imaging data has a great potential for high-throughput plant phenotyping of structural and biochemical as well as physiological traits simultaneously, which is important for decision support in agriculture and for crop breeders in selecting the best genotypes. However, lacking of 3D data integrity of various plant canopy structures and low-quality of MS images caused by the complex illumination effects make a great challenge, especially at the proximal imaging scale. Therefore, this study proposed a novel approach for adaptive data acquisition and radiometric calibration to generate high-quality 3DMPCs of plants. An efficient NBV planning method based on an UGV plant phenotyping system with a multi-sensor-equipped robotic arm was proposed to achieve adaptive data acquisition. The NeREF was employed to predict the DN values of the hemispherical reference for radiometric calibration. For NBV planning, the average total time for single plant at a joint speed of 1.55 rad/s was about 62.8 s, with an average reduction of 18.0% compared to the unplanned. The integrity of the whole-plant data was improved by an average of 23.6% compared to the fixed viewpoints alone. Compared with the ASD measurements, the RMSE of the reflectance spectra obtained from 3DMPCs at different regions of interest was 0.08 with an average decrease of 58.93% compared to the results obtained from the single-frame of MS images without 3D radiometric calibration. The 3D-calibrated plant 3DMPCs improved the predictive accuracy of PLSR for chlorophyll content, with an average increase of 0.07 in R2 and an average decrease of 21.25% in RMSE. Our approach introduced a fresh perspective on generating high-quality 3DMPCs of plants under the natural light condition, enabling more precise analysis of plant morphological and physiological parameters.
翻訳日:2023-12-04 18:42:23 公開日:2023-12-01
# 不完全情報を用いたテキスト生成のための逆非自己回帰モデル

An Adversarial Non-Autoregressive Model for Text Generation with Incomplete Information ( http://arxiv.org/abs/2305.03977v2 )

ライセンス: Link先を確認
Da Ren, Yi Cai, Qing Li(参考訳) 非自己回帰モデルは、入力が対応する出力の完全な情報を持つ完全情報シナリオ(CIS)で広く研究されている。 しかし、不完全情報シナリオ(IIS)における彼らの探索は極めて限られている。 解析の結果,IISの不完全入力情報により,最大類似度推定の下で訓練された既存の非自己回帰モデルの性質的限界が増大することが明らかとなった。 本稿では,2つの特徴を有するIIS型非自己回帰変換器(ANT)を提案する。 1)より合理的な隠蔽表現を提供する位置対応自己変調 2)依存性フィードフォワードネットワークは、依存性モデリングの能力を強化する。 我々はANTをIISの他の主流モデルと比較し、ANTがデコードイテレーションをはるかに少なくして同等のパフォーマンスを達成できることを示します。 さらに,潜時補間や半教師あり学習など,様々な応用にその可能性を示す。

Non-autoregressive models have been widely studied in the Complete Information Scenario (CIS), in which the input has complete information of corresponding output. However, their explorations in the Incomplete Information Scenario (IIS) are extremely limited. Our analyses reveal that the IIS's incomplete input information will augment the inherent limitations of existing non-autoregressive models trained under Maximum Likelihood Estimation. In this paper, we propose for the IIS an Adversarial Non-autoregressive Transformer (ANT) which has two features: 1) Position-Aware Self-Modulation to provide more reasonable hidden representations, and 2) Dependency Feed Forward Network to strengthen its capacity in dependency modeling. We compare ANT with other mainstream models in the IIS and demonstrate that ANT can achieve comparable performance with much fewer decoding iterations. Furthermore, we show its great potential in various applications like latent interpolation and semi-supervised learning.
翻訳日:2023-12-04 18:41:52 公開日:2023-12-01
# シミュレーションモデルにおける半監督テストケース生成の有用性について

On the Benefits of Semi-Supervised Test Case Generation for Simulation Models ( http://arxiv.org/abs/2305.03714v2 )

ライセンス: Link先を確認
Xiao Ling, Tim Menzies(参考訳) 複雑なシミュレーションモデルのテストは高価で時間がかかります。 この問題を解決する現在の最先端のメソッドは、完全に監視されている。 一方、gencluシステム(本論文で紹介されている)は半教師付きアプローチを取る。 (a)少数の情報のみを(シミュレーションを通して)実際にラベル付けし、 b) それらのラベルは、残りのデータに分散されます。 サイバー物理システムの5つのオープンソースシミュレーションモデルに適用すると、GenCluのテスト生成は、従来の技術よりも桁違いに高速になる。 さらに、変異試験によって評価された場合、gencluが生成したテストは、ここでテストしたどのテストよりも良いか、あるいは良いものでした。 したがって,先行手法(進化的探索と完全教師付き学習)よりも半教師付き手法を推奨する。

Testing complex simulation models can be expensive and time consuming. Current state-of-the-art methods that explore this problem are fully-supervised; i.e. they require that all examples are labeled. On the other hand, the GenClu system (introduced in this paper) takes a semi-supervised approach; i.e. (a) only a small subset of information is actually labeled (via simulation) and (b) those labels are then spread across the rest of the data. When applied to five open-source simulation models of cyber-physical systems, GenClu's test generation can be multiple orders of magnitude faster than the prior state of the art. Further, when assessed via mutation testing, tests generated by GenClu were as good or better than anything else tested here. Hence, we recommend semi-supervised methods over prior methods (evolutionary search and fully-supervised learning).
翻訳日:2023-12-04 18:41:41 公開日:2023-12-01
# 複数の観測可能な天体の量子速度限界:保存法則、相関法、マクロシステム

Quantum Velocity Limits for Multiple Observables: Conservation Laws, Correlations, and Macroscopic Systems ( http://arxiv.org/abs/2305.03190v3 )

ライセンス: Link先を確認
Ryusuke Hamazaki(参考訳) 複数のオブザーバブルが相互にダイナミクスにどのように影響するかは、統計力学において重要な問題である。 本研究では,非平衡量子力学の定量的かつ厳密な理論を確立すべく,量子速度限界という新しい概念を導入する。 量子速度制限は、複数の可観測体の速度を記述するベクトルの普遍的不等式である。 彼らは、実験的にアクセス可能なものや保存量といった他の観測可能量の知識がある場合、観測可能の速度は、単一の観測可能に対する従来の速度制限と比較して、より厳密な境界を持つことができることを明らかにした。 まず,観測対象の一般化相関行列と量子フィッシャー情報を用いて,情報理論的な速度限界を求める。 速度制限は様々な新しい結果をもたらす。 (i) 量子力学の基本成分である系の保存則は、観測量と保存量との相関を通じて、速度限界を改善することができる。 (ii)可観測物の速度は,他の可観測物の情報から非自明な下限で制限することができる。 (iii)非平衡的トレードオフ関係が存在し、非相関可観測性(例えば、反可換可観測性)の速度が同時に大きくならないこと。 (4) 局所的に相互作用する多体系における局所的なサブシステムの観測可能量に対する速度制限は、熱力学極限においても収束する。 さらに、確率電流の局所保存則に基づいて、複数の観測値に対する別の異なる速度制限を発見し、これは多量のマクロ遷移に有利となる。

How multiple observables mutually influence their dynamics has been a crucial issue in statistical mechanics. We introduce a new concept, "quantum velocity limits," to establish a quantitative and rigorous theory for non-equilibrium quantum dynamics for multiple observables. Quantum velocity limits are universal inequalities for a vector the describes velocities of multiple observables. They elucidate that the speed of an observable of our interest can be tighter bounded when we have knowledge of other observables, such as experimentally accessible ones or conserved quantities, compared with the conventional speed limits for a single observable. We first derive an information-theoretical velocity limit in terms of the generalized correlation matrix of the observables and the quantum Fisher information. The velocity limit has various novel consequences: (i) conservation law in the system, a fundamental ingredient of quantum dynamics, can improve the velocity limits through the correlation between the observables and conserved quantities; (ii) speed of an observable can be bounded by a nontrivial lower bound from the information on another observable; (iii) there exists a notable non-equilibrium tradeoff relation, stating that speeds of uncorrelated observables, e.g., anti-commuting observables, cannot be simultaneously large; (iv) velocity limits for any observables on a local subsystem in locally interacting many-body systems remain convergent even in the thermodynamic limit. Moreover, we discover another distinct velocity limit for multiple observables on the basis of the local conservation law of probability current, which becomes advantageous for macroscopic transitions of multiple quantities.
翻訳日:2023-12-04 18:41:29 公開日:2023-12-01
# 大域 atstasis の一般化モデルとしてのコントラスト損失

Contrastive losses as generalized models of global epistasis ( http://arxiv.org/abs/2305.03136v3 )

ライセンス: Link先を確認
David H. Brookes, Jakub Otwinowski, and Sam Sinai(参考訳) 適合関数は、生物系列の大きな組合せ空間を興味のある性質にマップする。 実験データからこれらのマルチモーダル関数を推測することは、現代のタンパク質工学において中心的なタスクである。 グローバルエピスタシスモデル(global epistasis model)は、観測データからフィットネス関数を推定するための有効で物理的に接地したモデルである。 これらのモデルは、スパース潜在関数が単調非線形性によって変換され、測定可能な適合度が生成されると仮定する。 本稿では,ブラッドレー・テリー損失のようなコントラスト損失関数を最小化することは,グローバル・エピスタシスが暗黙の潜在関数を抽出するための単純で柔軟な手法であることを示す。 我々は、大域的エピスタシスモデルの非線形性は、疎表現を含まない観察されたフィットネス関数を生成できるため、平均二乗誤差(MSE)損失を用いた場合の観察から学ぶのが非効率的である、というフィットネス・エピスタシスの不確実性原理を議論する。 我々は,MSEが有効でない制度においても,限られたデータからランキング関数を正確に推定できることを示す。 この洞察の実用的有用性を検証するために,コントラスト損失関数がベンチマークタスクのパフォーマンスを一貫して向上させることを示す。

Fitness functions map large combinatorial spaces of biological sequences to properties of interest. Inferring these multimodal functions from experimental data is a central task in modern protein engineering. Global epistasis models are an effective and physically-grounded class of models for estimating fitness functions from observed data. These models assume that a sparse latent function is transformed by a monotonic nonlinearity to emit measurable fitness. Here we demonstrate that minimizing contrastive loss functions, such as the Bradley-Terry loss, is a simple and flexible technique for extracting the sparse latent function implied by global epistasis. We argue by way of a fitness-epistasis uncertainty principle that the nonlinearities in global epistasis models can produce observed fitness functions that do not admit sparse representations, and thus may be inefficient to learn from observations when using a Mean Squared Error (MSE) loss (a common practice). We show that contrastive losses are able to accurately estimate a ranking function from limited data even in regimes where MSE is ineffective. We validate the practical utility of this insight by showing contrastive loss functions result in consistently improved performance on benchmark tasks.
翻訳日:2023-12-04 18:41:05 公開日:2023-12-01
# Phylo2Vec:バイナリツリーのベクトル表現

Phylo2Vec: a vector representation for binary trees ( http://arxiv.org/abs/2304.12693v2 )

ライセンス: Link先を確認
Matthew J Penn, Neil Scheidwasser, Mark P Khurana, David A Duch\^ene, Christl A Donnelly, Samir Bhatt(参考訳) 生物学的データから推定される2つの系統樹は、生物の共有進化の歴史を理解する中心である。 任意の最適度基準(例えば最大可能性)による木内の潜在ノード配置の推測はnp問題であり、無数のヒューリスティックなアプローチの発展を促している。 しかし、これらのヒューリスティックは、ランダムな木を均一にサンプリングしたり、因果的に成長する木空間を効果的に探索する体系的な手段を欠いていることが多い。 そこで本研究では,系統樹の新規表現であるphylo2vecについて述べる。 Phylo2Vecは、$n$の葉を持つ任意の二分木を長さ$n$の整数ベクトルにマッピングする。 我々はPhylo2Vecが系統樹の空間によく定義され、客観的であることを証明する。 Phylo2Vecの利点は2つある。 一 二分木を簡単に一様にサンプリングすること 二 超大型又は小型の跳躍で樹木空間を横断する系統的能力 概念実証として,Phylo2Vecを用いて5つの実世界のデータセットの最大推定を行い,単純な登山に基づく最適化がランダムから最適木へのツリー空間の広さを効率的に横切ることを示す。

Binary phylogenetic trees inferred from biological data are central to understanding the shared evolutionary history of organisms. Inferring the placement of latent nodes in a tree by any optimality criterion (e.g., maximum likelihood) is an NP-hard problem, propelling the development of myriad heuristic approaches. Yet, these heuristics often lack a systematic means of uniformly sampling random trees or effectively exploring a tree space that grows factorially, which are crucial to optimisation problems such as machine learning. Accordingly, we present Phylo2Vec, a new parsimonious representation of a phylogenetic tree. Phylo2Vec maps any binary tree with $n$ leaves to an integer vector of length $n$. We prove that Phylo2Vec is both well-defined and bijective to the space of phylogenetic trees. The advantages of Phylo2Vec are twofold: i) easy uniform sampling of binary trees and ii) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill climbing-based optimisation efficiently traverses the vastness of tree space from a random to an optimal tree.
翻訳日:2023-12-04 18:40:37 公開日:2023-12-01
# アルゴリズム情報予測可能性

Algorithmic Information Forecastability ( http://arxiv.org/abs/2304.10752v2 )

ライセンス: Link先を確認
Glauco Amigo, Daniel Andr\'es D\'iaz-Pach\'on, Robert J. Marks, Charles Baylis(参考訳) 全ての時系列の結果は予測できない(例えば、公正なコインの反転など)。 その他、反復 {01} シーケンス {010101." など。 は正確に予測できる。 アルゴリズム情報理論は、これらの極小の間にある予測可能性の尺度を提供することができる。 予測可能性の度合いは、データのみの関数である。 ラベル付きデータの予測(または分類)には、常に正確である予測のオラクル予測可能性、境界まで誤差の正確な予測可能性、その他の予測の確率予測可能性の3つのカテゴリを提案する。 それぞれのケースに例がある。

The outcome of all time series cannot be forecast, e.g. the flipping of a fair coin. Others, like the repeated {01} sequence {010101...} can be forecast exactly. Algorithmic information theory can provide a measure of forecastability that lies between these extremes. The degree of forecastability is a function of only the data. For prediction (or classification) of labeled data, we propose three categories for forecastability: oracle forecastability for predictions that are always exact, precise forecastability for errors up to a bound, and probabilistic forecastability for any other predictions. Examples are given in each case.
翻訳日:2023-12-04 18:40:18 公開日:2023-12-01
# 不連続ガレルキン時間領域法を用いた高精度カシミール・ポルダー力計算

High-accuracy Casimir-Polder force calculations using the Discontinuous Galerkin Time-Domain method ( http://arxiv.org/abs/2306.16939v2 )

ライセンス: Link先を確認
Philip Tr{\o}st Kristensen, Bettina Beverungen, Francesco Intravaia, Kurt Busch(参考訳) マイクロ構造材料近傍のカシミール・ポルダー力の高精度計算のための数値時間領域アプローチについて述べる。 時間領域の定式化を用いることで、非局所応答関数を含む高度な材料モデルによって記述された幅広い材料を調査することができる。 そこで,本手法の収束特性を徹底的に検証したいくつかの例を用いて検証を行い,解析的基準計算と比較すると,平均相対誤差は100万分の1程度であることがわかった。 応用例として,流体力学ドローモデルにより記述された鋭い金くさび近傍のカシミール・ポルダー力の異方性誘起反発挙動について検討する。

We describe a numerical time-domain approach for high-accuracy calculations of Casimir-Polder forces near micro-structured materials. The use of a time-domain formulation enables the investigation of a broad range of materials described by advanced material models, including nonlocal response functions. We validate the method by a number of example calculations for which we thoroughly investigate the convergence properties of the method, and comparing to analytical reference calculations, we find average relative errors as low as a few parts in a million. As an application example, we investigate the anisotropy-induced repulsive behavior of the Casimir-Polder force near a sharp gold wedge described by a hydrodynamic Drude model.
翻訳日:2023-12-04 18:33:54 公開日:2023-12-01
# AME-CAM:MRI脳腫瘍における弱視差分節に対するattentive Multiple-Exit CAM

AME-CAM: Attentive Multiple-Exit CAM for Weakly Supervised Segmentation on MRI Brain Tumor ( http://arxiv.org/abs/2306.14505v2 )

ライセンス: Link先を確認
Yu-Jen Chen, Xinrong Hu, Yiyu Shi, Tsung-Yi Ho(参考訳) 磁気共鳴画像(MRI)は、一般的に脳腫瘍のセグメンテーションに使われ、患者の評価と治療計画に欠かせない。 ラベル付けに必要な労力と専門知識を減らすために,クラスアクティベーションマッピング(cam)を用いたwsss(weakly supervised semantic segmentation)メソッドが提案されている。 しかし、既存のCAM法は、強い畳み込みとプール層によって低分解能に悩まされ、不正確な予測をもたらす。 本研究では,複数の解像度からアクティベーションマップを抽出し,階層的に集約し,予測精度を向上させる新しいCAM手法であるAME-CAMを提案する。 提案手法をBraTS 2021データセット上で評価し,最先端の手法よりも優れていることを示す。

Magnetic resonance imaging (MRI) is commonly used for brain tumor segmentation, which is critical for patient evaluation and treatment planning. To reduce the labor and expertise required for labeling, weakly-supervised semantic segmentation (WSSS) methods with class activation mapping (CAM) have been proposed. However, existing CAM methods suffer from low resolution due to strided convolution and pooling layers, resulting in inaccurate predictions. In this study, we propose a novel CAM method, Attentive Multiple-Exit CAM (AME-CAM), that extracts activation maps from multiple resolutions to hierarchically aggregate and improve prediction accuracy. We evaluate our method on the BraTS 2021 dataset and show that it outperforms state-of-the-art methods.
翻訳日:2023-12-04 18:33:42 公開日:2023-12-01
# 微分表示型測光ステレオ

Differentiable Display Photometric Stereo ( http://arxiv.org/abs/2306.13325v3 )

ライセンス: Link先を確認
Seokjun Choi, Seungwoo Yoon, Giljoo Nam, Seungyong Lee, Seung-Hwan Baek(参考訳) 光度ステレオは照明条件の変化を利用して表面の正常さを再構築する。 従来のモニタを照明源として使用するディスプレイフォトメトリックステレオは、バルクで使いづらい従来の設定でしばしば発生する制限を克服する可能性を秘めている。 本稿では、表示パターンの設計において、しばしば見落とされがちな課題に対処する、微分可能な表示測光ステレオ(DDPS)を提案する。 DDPSは、ヒューリスティックな表示パターンの使用から離れ、エンド・ツー・エンドでターゲットシステムに対して正確な正常な再構築をもたらす表示パターンを学習する。 そこで本研究では,基底照度画像形成と分析的測光・ステレオ再構成を結合した微分可能な枠組みを提案する。 微分可能なフレームワークは、自動微分によるディスプレイパターンの効果的な学習を容易にする。 また,実世界のトレーニングデータセット作成に3Dプリンティングを用いることで,ターゲットのリアルワールド設定の正確な再構築を可能にすることを提案する。 最後に、従来のLCDモニタは偏光を放射し、偏光カメラと組み合わせることで回折反射とスペクトル反射の光学的分離を可能にし、正確な正規化を実現する。 DDPSの大規模評価は、ヒューリスティックパターンと比較して正常再構成精度が向上し、パターンの初期化やキャリブレーションエラーに対する堅牢性、画像形成と再構成の単純化といった魅力的な特性を示す。

Photometric stereo leverages variations in illumination conditions to reconstruct surface normals. Display photometric stereo, which employs a conventional monitor as an illumination source, has the potential to overcome limitations often encountered in bulky and difficult-to-use conventional setups. In this paper, we present differentiable display photometric stereo (DDPS), addressing an often overlooked challenge in display photometric stereo: the design of display patterns. Departing from using heuristic display patterns, DDPS learns the display patterns that yield accurate normal reconstruction for a target system in an end-to-end manner. To this end, we propose a differentiable framework that couples basis-illumination image formation with analytic photometric-stereo reconstruction. The differentiable framework facilitates the effective learning of display patterns via auto-differentiation. Also, for training supervision, we propose to use 3D printing for creating a real-world training dataset, enabling accurate reconstruction on the target real-world setup. Finally, we exploit that conventional LCD monitors emit polarized light, which allows for the optical separation of diffuse and specular reflections when combined with a polarization camera, leading to accurate normal reconstruction. Extensive evaluation of DDPS shows improved normal-reconstruction accuracy compared to heuristic patterns and demonstrates compelling properties such as robustness to pattern initialization, calibration errors, and simplifications in image formation and reconstruction.
翻訳日:2023-12-04 18:33:27 公開日:2023-12-01
# G-NM:数値時系列予測モデルのグループ

G-NM: A Group of Numerical Time Series Prediction Models ( http://arxiv.org/abs/2306.11667v5 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,数値時系列予測モデル群 (G-NM) と総称される数値時系列予測モデルの包括的アンサンブルの開発と実装に焦点を当てた。 この包括的セットは、リカレントニューラルネットワーク(RNN)やLong Short-Term Memory(LSTM)といった現代のニューラルネットワークモデルに加えて、Autoregressive Integrated moving Average(ARIMA)、Holt-Wintersのメソッド、SVR(Support Vector Regression)といった従来のモデルを含む。 G-NMは、複雑な自然現象に固有のパターンや傾向に関連する予測能力を増強するために明確に構成されている。 これらの事象に関連する時系列データを利用することで、g-nmは長期にわたってそのような現象の予測を容易にする。 本研究の目的は,このような事象に対する我々の理解を深めることと,予測の精度を著しく向上させることである。 g-nmは時系列データに現れる線形および非線形の依存関係、季節性、トレンドの両方をカプセル化する。 これらのモデルはそれぞれ、線形トレンドと季節性を扱うARIMAのレジリエンス、非線形パターンをキャプチャするSVRの習熟度、時系列データの様々なコンポーネントをモデル化するLSTMの適応性など、さまざまな長所に貢献している。 g-nmポテンシャルの活用を通じて,大規模時系列予測モデルにおける最先端の進歩を試みている。 我々は,本研究が,自然界を構成する複雑な事象を理解し,予測するための,現在進行中の取り組みにおいて,重要な足掛かりとなることを期待する。

In this study, we focus on the development and implementation of a comprehensive ensemble of numerical time series forecasting models, collectively referred to as the Group of Numerical Time Series Prediction Model (G-NM). This inclusive set comprises traditional models such as Autoregressive Integrated Moving Average (ARIMA), Holt-Winters' method, and Support Vector Regression (SVR), in addition to modern neural network models including Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM). G-NM is explicitly constructed to augment our predictive capabilities related to patterns and trends inherent in complex natural phenomena. By utilizing time series data relevant to these events, G-NM facilitates the prediction of such phenomena over extended periods. The primary objective of this research is to both advance our understanding of such occurrences and to significantly enhance the accuracy of our forecasts. G-NM encapsulates both linear and non-linear dependencies, seasonalities, and trends present in time series data. Each of these models contributes distinct strengths, from ARIMA's resilience in handling linear trends and seasonality, SVR's proficiency in capturing non-linear patterns, to LSTM's adaptability in modeling various components of time series data. Through the exploitation of the G-NM potential, we strive to advance the state-of-the-art in large-scale time series forecasting models. We anticipate that this research will represent a significant stepping stone in our ongoing endeavor to comprehend and forecast the complex events that constitute the natural world.
翻訳日:2023-12-04 18:33:04 公開日:2023-12-01
# コードの大きな言語モデルは潜在的なバグでコードの完成に失敗する

Large Language Models of Code Fail at Completing Code with Potential Bugs ( http://arxiv.org/abs/2306.03438v2 )

ライセンス: Link先を確認
Tuan Dinh, Jinman Zhao, Samson Tan, Renato Negrinho, Leonard Lausen, Sheng Zha, George Karypis(参考訳) 大規模なコード言語モデル(Code-LLMs)は、最近、プログラミング補助とコードインテリジェンスの基本機能であるコード補完に大きな進歩をもたらした。 しかしながら、既存の作業のほとんどは、ソフトウェア開発では避けられないコードコンテキストにおけるバグの存在を無視しています。 そこで本研究では,コードコンテキストが潜在的なバグを含むリアルタイムコード提案の現実的なシナリオから着想を得た,バグのあるコード補完問題を紹介し,研究する。 タスクを体系的に研究するために,semantics-alteringオペレータの変更(buggy-humaneval)に由来する合成バグと,コーディング問題(buggy-fixeval)に対するユーザの投稿から派生した現実的なバグ(buggy-humaneval)の2つのデータセットを導入する。 潜在的なバグの存在は、パフォーマンスの高いコードllmの生成性能を著しく低下させる。 例えば、Buggy-HumanEvalのテストケースにおけるCODEGEN-2B-MONOの通過率は、コンテキスト内の単一の潜在的なバグから50%以上低下する。 最後に,潜在的なバグの悪影響を緩和するためのポストホック法について検討し,ポストホック法の性能に大きな差があることを見出した。

Large language models of code (Code-LLMs) have recently brought tremendous advances to code completion, a fundamental feature of programming assistance and code intelligence. However, most existing works ignore the possible presence of bugs in the code context for generation, which are inevitable in software development. Therefore, we introduce and study the buggy-code completion problem, inspired by the realistic scenario of real-time code suggestion where the code context contains potential bugs -- anti-patterns that can become bugs in the completed program. To systematically study the task, we introduce two datasets: one with synthetic bugs derived from semantics-altering operator changes (buggy-HumanEval) and one with realistic bugs derived from user submissions to coding problems (buggy-FixEval). We find that the presence of potential bugs significantly degrades the generation performance of the high-performing Code-LLMs. For instance, the passing rates of CODEGEN-2B-MONO on test cases of buggy-HumanEval drop more than 50% given a single potential bug in the context. Finally, we investigate several post-hoc methods for mitigating the adverse effect of potential bugs and find that there remains a significant gap in post-mitigation performance.
翻訳日:2023-12-04 18:32:19 公開日:2023-12-01
# 量子コンピューティングによる電力系統力学における微分代数方程式の解法

Solving Differential-Algebraic Equations in Power Systems Dynamics with Quantum Computing ( http://arxiv.org/abs/2306.01961v2 )

ライセンス: Link先を確認
Huynh T. T. Tran, Hieu T. Nguyen, Long Thanh Vu, Samuel T. Ojetola(参考訳) 電力系統の力学は、多くの発電機、負荷、伝送線路のために高次元非線形微分代数方程式によってモデル化される。 したがって、計算複雑性はシステムサイズとともに指数関数的に増加する。 本稿では,代替コンピューティング手法,特に量子コンピューティングアルゴリズムを用いた電力系統ダイナミクスの解法について評価することを目的とする。 シンボリックプログラミングフレームワークを活用することで、電力系統力学のDAEを通常の微分方程式(ODE)の等価な集合に変換する。 それらのデータは振幅エンコーディングによって量子コンピュータにエンコードできる。 システムの非線形性はテイラー多項式展開と量子状態テンソルによって捉えられ、状態変数は量子線形方程式解法によって更新される。 この結果から,量子コンピューティングは高精度で電力系統の力学を解くことができるが,複雑度はシステム次元の対数多項式であることがわかった。

Power system dynamics are generally modeled by high dimensional nonlinear differential-algebraic equations due to a large number of generators, loads, and transmission lines. Thus, its computational complexity grows exponentially with the system size. In this paper, we aim to evaluate the alternative computing approach, particularly the use of quantum computing algorithms to solve the power system dynamics. Leveraging a symbolic programming framework, we convert the power system dynamics' DAEs into an equivalent set of ordinary differential equations (ODEs). Their data can be encoded into quantum computers via amplitude encoding. The system's nonlinearity is captured by Taylor polynomial expansion and the quantum state tensor whereas state variables can be updated by a quantum linear equation solver. Our results show that quantum computing can solve the dynamics of the power system with high accuracy whereas its complexity is polynomial in the logarithm of the system dimension.
翻訳日:2023-12-04 18:31:58 公開日:2023-12-01
# 独立因果メカニズムの原理による因果解離表現の学習

Learning Causally Disentangled Representations via the Principle of Independent Causal Mechanisms ( http://arxiv.org/abs/2306.01213v2 )

ライセンス: Link先を確認
Aneesh Komanduri, Yongkai Wu, Feng Chen, Xintao Wu(参考訳) 分散因果表現の学習は、下流タスクに意味のある情報を抽出することの意味から、近年大きな注目を集めている課題である。 本研究は, 独立因果機構の観点から, 因果不連続の新しい概念を定義する。 icm-vaeは因果関係の観測ラベルによって管理される因果的不等角表現を学習するためのフレームワークである。 学習可能なフローベース微分型関数を用いて因果メカニズムをモデル化し、雑音変数を潜在因果変数にマッピングする。 さらに,因果的要因の分散を促進するために,因果的要因の因果的分布の学習を促進するために,既知の因果的構造を利用した因果的絡み合いを事前に提案する。 比較的穏やかな条件下では,因果因子の同定可能性と置換および要素別再パラメータ化までのメカニズムを理論的に示す。 我々は経験的に,このフレームワークが高度に不連続な因果要因を誘発し,介入的ロバスト性を改善し,反事実生成と互換性があることを実証する。

Learning disentangled causal representations is a challenging problem that has gained significant attention recently due to its implications for extracting meaningful information for downstream tasks. In this work, we define a new notion of causal disentanglement from the perspective of independent causal mechanisms. We propose ICM-VAE, a framework for learning causally disentangled representations supervised by causally related observed labels. We model causal mechanisms using learnable flow-based diffeomorphic functions to map noise variables to latent causal variables. Further, to promote the disentanglement of causal factors, we propose a causal disentanglement prior that utilizes the known causal structure to encourage learning a causally factorized distribution in the latent space. Under relatively mild conditions, we provide theoretical results showing the identifiability of causal factors and mechanisms up to permutation and elementwise reparameterization. We empirically demonstrate that our framework induces highly disentangled causal factors, improves interventional robustness, and is compatible with counterfactual generation.
翻訳日:2023-12-04 18:31:43 公開日:2023-12-01
# 拡散MRIにおける超解像のための時空間変換

Spatio-Angular Convolutions for Super-resolution in Diffusion MRI ( http://arxiv.org/abs/2306.00854v3 )

ライセンス: Link先を確認
Matthew Lyon, Paul Armitage, Mauricio A \'Alvarez(参考訳) 拡散MRI(dMRI)は画像のモダリティとして広く用いられているが、高解像度データセットを取得するには長い走査時間が必要である。 この領域内に存在する特異な幾何学を利用して、パラメトリック連続畳み込み(PCConv)フレームワーク上に広がるdMRI角超解像への新しいアプローチを示す。 我々は、フーリエ特徴マッピング、グローバル座標、ドメイン固有コンテキストを含むオペレーションにいくつかの追加を導入する。 このフレームワークを用いて,完全パラメトリック連続畳み込みネットワーク(pccnn)を構築し,既存のモデルと比較する。 我々はPCCNNの競合性能を極めて少ないパラメータを用いて実証した。 また,本製剤は,フィステル分析や神経突起配向分散・密度イメージングなど,臨床的に関連する下流解析によく適用できることを示した。

Diffusion MRI (dMRI) is a widely used imaging modality, but requires long scanning times to acquire high resolution datasets. By leveraging the unique geometry present within this domain, we present a novel approach to dMRI angular super-resolution that extends upon the parametric continuous convolution (PCConv) framework. We introduce several additions to the operation including a Fourier feature mapping, global coordinates, and domain specific context. Using this framework, we build a fully parametric continuous convolution network (PCCNN) and compare against existing models. We demonstrate the PCCNN performs competitively while using significantly less parameters. Moreover, we show that this formulation generalises well to clinically relevant downstream analyses such as fixel-based analysis, and neurite orientation dispersion and density imaging.
翻訳日:2023-12-04 18:31:23 公開日:2023-12-01
# 粗い集合による規則一般帰納学習

A rule-general abductive learning by rough sets ( http://arxiv.org/abs/2305.19718v3 )

ライセンス: Link先を確認
Xu-chang Guo, Hou-biao Li(参考訳) 実世界のタスクでは、通常大量のラベルなしデータとラベル付きデータがある。 この2つの学習を組み合わせることは半教師付き学習と呼ばれる。 専門家は論理ルールを使ってラベルのないデータをラベル付けすることができるが、この操作はコストがかかる。 知覚と推論の組み合わせは、そのような半教師付きタスクとドメイン知識の処理に良い影響を与える。 しかし、ドメイン知識の取得と修正、削減、ルールの生成は、解決すべき複雑な問題である。 ラフセット理論は情報システムにおける知識処理を解く重要な方法である。 本稿では,粗集合(RS-ABL)による規則一般帰納学習を提案する。 ルールの目標概念とサブ概念を情報テーブルに変換することにより、ドメイン知識の獲得とルールの修正・縮小・生成を低コストで解決するための粗いセット理論が用いられる。 このフレームワークは、知識ベースの範囲を広げるために、より広範な負のルールを生成することもできる。 従来の半教師付き学習法と比較して、RS-ABLは半教師付きタスクの処理精度が高い。

In real-world tasks, there is usually a large amount of unlabeled data and labeled data. The task of combining the two to learn is known as semi-supervised learning. Experts can use logical rules to label unlabeled data, but this operation is costly. The combination of perception and reasoning has a good effect in processing such semi-supervised tasks with domain knowledge. However, acquiring domain knowledge and the correction, reduction and generation of rules remain complex problems to be solved. Rough set theory is an important method for solving knowledge processing in information systems. In this paper, we propose a rule general abductive learning by rough set (RS-ABL). By transforming the target concept and sub-concepts of rules into information tables, rough set theory is used to solve the acquisition of domain knowledge and the correction, reduction and generation of rules at a lower cost. This framework can also generate more extensive negative rules to enhance the breadth of the knowledge base. Compared with the traditional semi-supervised learning method, RS-ABL has higher accuracy in dealing with semi-supervised tasks.
翻訳日:2023-12-04 18:31:08 公開日:2023-12-01
# 概念表現は身体を必要とするか? 大規模言語モデルからの洞察

Does Conceptual Representation Require Embodiment? Insights From Large Language Models ( http://arxiv.org/abs/2305.19103v3 )

ライセンス: Link先を確認
Qihui Xu, Yingying Peng, Samuel A. Nastase, Martin Chodorow, Minghua Wu, and Ping Li(参考訳) 言語だけが複雑な概念をもたらすのか、それとも具体的経験が不可欠か? 大規模言語モデル(LLM)の最近の進歩は、この問題に新たな視点を与えている。 LLMは制限されたモダリティに基づいて訓練されているが、様々な心理的タスクにおいて人間のようなパフォーマンスを示す。 ヒトとチャットgpts(gpt-3.5とgpt-4)の4,442種類の語彙概念の表現を,感情,敬礼,精神的可視化,感覚,運動経験という5つの重要な領域を含む多次元で比較した。 主な発見は2つあります 1) 両モデルとも非感性運動野ではヒトの表現と強く一致しているが, 感覚野や運動野では遅延がみられ, GPT-4はGPT-3.5より優れていた。 2) GPT-4の利得は付加的な視覚学習と結びついており, 触覚やイメージ可能性といった関連次元にも寄与すると考えられる。 これらの結果は、孤立した言語の制限を強調し、入力の多様なモダリティの統合は、より人間的な概念表現につながる。

To what extent can language alone give rise to complex concepts, or is embodied experience essential? Recent advancements in large language models (LLMs) offer fresh perspectives on this question. Although LLMs are trained on restricted modalities, they exhibit human-like performance in diverse psychological tasks. Our study compared representations of 4,442 lexical concepts between humans and ChatGPTs (GPT-3.5 and GPT-4) across multiple dimensions, including five key domains: emotion, salience, mental visualization, sensory, and motor experience. We identify two main findings: 1) Both models strongly align with human representations in non-sensorimotor domains but lag in sensory and motor areas, with GPT-4 outperforming GPT-3.5; 2) GPT-4's gains are associated with its additional visual learning, which also appears to benefit related dimensions like haptics and imageability. These results highlight the limitations of language in isolation, and that the integration of diverse modalities of inputs leads to a more human-like conceptual representation.
翻訳日:2023-12-04 18:30:53 公開日:2023-12-01
# テキスト駆動ビデオ編集のための画像拡散モデルのスペクトルシフト対応

SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for Text-driven Video Editing ( http://arxiv.org/abs/2305.18670v2 )

ライセンス: Link先を確認
Nazmul Karim, Umar Khalid, Mohsen Joneidi, Chen Chen, Nazanin Rahnavard(参考訳) テキスト・ツー・イメージ(t2i)拡散モデルは,テキストプロンプトに基づく高品質画像の合成において顕著な成功を収めている。 最近の手法では、非常に多くのテキストビデオペア上でT2Vモデルをトレーニングするか、あるいはテキストビデオペア上でT2Iモデルを独立して適用することで、成功を再現しようと試みている。 後者は計算コストは低いが、ビデオごとの適応には依然としてかなりの時間がかかる。 この問題に対処するために,パラメータ自体ではなくパラメータ空間のスペクトルシフトを微調整する,新しいスペクトルシフト・アウェア適応フレームワークであるsaveを提案する。 具体的には、予め訓練したT2I重みのスペクトル分解を行い、対応する特異ベクトルを凍結しながら特異値を更新する。 さらに,より小さい値よりも大きい値に厳密な制約を課すことを目的としたスペクトルシフト正規化器を導入する。 この正規化の形式により、モデルは、提供されたテキスト記述に合致したビデオ内のより細かい詳細を把握できる。 また,提案手法の理論的正当性も提案する。 提案手法は,スペクトルシフトのみを扱うため,適応時間(約10倍)を大幅に削減し,トレーニングのためのリソース制約を少なくする。 このような属性は、ビデオストリーミング中に望ましくないコンテンツを編集するなど、現実のアプリケーションに適している。 我々は,SAVEの有効性を,スタイル転送,オブジェクト置換,プライバシ保護など,異なる環境下での広範囲な実験的評価により検証する。

Text-to-Image (T2I) diffusion models have achieved remarkable success in synthesizing high-quality images conditioned on text prompts. Recent methods have tried to replicate the success by either training text-to-video (T2V) models on a very large number of text-video pairs or adapting T2I models on text-video pairs independently. Although the latter is computationally less expensive, it still takes a significant amount of time for per-video adaption. To address this issue, we propose SAVE, a novel spectral-shift-aware adaptation framework, in which we fine-tune the spectral shift of the parameter space instead of the parameters themselves. Specifically, we take the spectral decomposition of the pre-trained T2I weights and only update the singular values while freezing the corresponding singular vectors. In addition, we introduce a spectral shift regularizer aimed at placing tighter constraints on larger singular values compared to smaller ones. This form of regularization enables the model to grasp finer details within the video that align with the provided textual descriptions. We also offer theoretical justification for our proposed regularization technique. Since we are only dealing with spectral shifts, the proposed method reduces the adaptation time significantly (approx. 10 times) and has fewer resource constraints for training. Such attributes posit SAVE to be more suitable for real-world applications, e.g. editing undesirable content during video streaming. We validate the effectiveness of SAVE with an extensive experimental evaluation under different settings, e.g. style transfer, object replacement, privacy preservation, etc.
翻訳日:2023-12-04 18:30:33 公開日:2023-12-01
# マルチエージェント深層強化学習に基づくオンオフサッカー選手の行動評価

Action valuation of on- and off-ball soccer players based on multi-agent deep reinforcement learning ( http://arxiv.org/abs/2305.17886v2 )

ライセンス: Link先を確認
Hiroshi Nakahara, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii(参考訳) サッカーなどの侵略的なスポーツの分析は、ゲーム状況が時間と空間で連続的に変化し、複数のエージェントが個別にゲーム状況を認識して決定するので、困難である。 深層強化学習を用いた以前の研究は、しばしばチームが単一のエージェントであるとみなし、各個別のイベントでボールを保持しているチームや選手を評価してきた。 その後、ボールから遠く離れたプレイヤーを含む複数のプレイヤーのアクションを時空間的に連続した状態空間で評価することが難しかった。 本稿では,マルチエージェント深層強化学習に基づく1つの総合的な枠組みにおいて,オン・オフのサッカー選手に対して可能なアクションを評価する手法を提案する。 我々は、Googleリサーチフットボールを模倣し、強化学習における行動に教師あり学習を活用する連続状態空間における離散的なアクション空間を考える。 実験では,従来の指標,季節目標,ゲーム評価との関係を専門家によって分析し,提案手法の有効性を示した。 本手法は,チームワークやスカウト,ファンエンゲージメントに欠かせない,識別やラベル付けが難しいゲーム全体を通じて,複数のプレイヤーの継続的な動きを評価する。

Analysis of invasive sports such as soccer is challenging because the game situation changes continuously in time and space, and multiple agents individually recognize the game situation and make decisions. Previous studies using deep reinforcement learning have often considered teams as a single agent and valued the teams and players who hold the ball in each discrete event. Then it was challenging to value the actions of multiple players, including players far from the ball, in a spatiotemporally continuous state space. In this paper, we propose a method of valuing possible actions for on- and off-ball soccer players in a single holistic framework based on multi-agent deep reinforcement learning. We consider a discrete action space in a continuous state space that mimics that of Google research football and leverages supervised learning for actions in reinforcement learning. In the experiment, we analyzed the relationships with conventional indicators, season goals, and game ratings by experts, and showed the effectiveness of the proposed method. Our approach can assess how multiple players move continuously throughout the game, which is difficult to be discretized or labeled but vital for teamwork, scouting, and fan engagement.
翻訳日:2023-12-04 18:30:08 公開日:2023-12-01
# 統合されたPOMDPのポリシー勾配法

A Policy Gradient Method for Confounded POMDPs ( http://arxiv.org/abs/2305.17083v2 )

ライセンス: Link先を確認
Mao Hong, Zhengling Qi, Yanxun Xu(参考訳) 本稿では,オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)を整合化するためのポリシー勾配法を提案する。 まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定する新しい識別結果を確立する。 この同定により条件付きモーメント制約の系列を解き、一般的な関数近似を用いたmin-max学習手順を採用し、政策勾配を推定できる。 次に,条件モーメント制約の解法におけるサンプルサイズ,地平線長,集束係数,不適性尺度の観点から,事前指定したポリシークラス上で一様に勾配を推定するための有限サンプル非漸近境界を提案する。 最後に、勾配上昇アルゴリズムに勾配推定を展開させることにより、いくつかの技術的条件下での履歴依存最適ポリシーの発見において、提案アルゴリズムのグローバル収束性を示す。 我々の知る限り、これはPOMDPのポリシー勾配法をオフライン環境下で研究する最初の試みである。

In this paper, we propose a policy gradient method for confounded partially observable Markov decision processes (POMDPs) with continuous state and observation spaces in the offline setting. We first establish a novel identification result to non-parametrically estimate any history-dependent policy gradient under POMDPs using the offline data. The identification enables us to solve a sequence of conditional moment restrictions and adopt the min-max learning procedure with general function approximation for estimating the policy gradient. We then provide a finite-sample non-asymptotic bound for estimating the gradient uniformly over a pre-specified policy class in terms of the sample size, length of horizon, concentratability coefficient and the measure of ill-posedness in solving the conditional moment restrictions. Lastly, by deploying the proposed gradient estimation in the gradient ascent algorithm, we show the global convergence of the proposed algorithm in finding the history-dependent optimal policy under some technical conditions. To the best of our knowledge, this is the first work studying the policy gradient method for POMDPs under the offline setting.
翻訳日:2023-12-04 18:29:49 公開日:2023-12-01
# 3パス干渉計における5つの測定コンテキストによる単一光子の逐次伝播

Sequential propagation of a single photon through five measurement contexts in a three-path interferometer ( http://arxiv.org/abs/2308.02086v2 )

ライセンス: Link先を確認
Holger F. Hofmann(参考訳) 量子文脈性(Quantum contextuality)とは、実験的な証拠を独立した実測で説明できないシナリオを指す。 ここでは,文脈性の実証に必要な5つのコンテキストを逐次的に実現する3経路干渉計を提案する。 これにより、入力ポートと対応する出力ポートを接続する経路が破壊的干渉によってブロックされているように見えるパラドックス状態が観察できる。 弱測定で観測された条件電流はパラドックスの一貫した説明を提供し、弱値が波状伝播効果と局所粒子検出のギャップを埋めるのに役立つことを示した。

Quantum contextuality describes scenarios in which it is impossible to explain the experimental evidence in terms of a measurement independent reality. Here, I introduce a three-path interferometer in which all five contexts needed for a demonstration of contextuality are realized in sequence. It is then possible to observe a paradoxical situation where the paths connecting input ports to their corresponding output ports appear to be blocked by destructive interference. It is shown that the conditional currents observed in weak measurements provide a consistent explanation of the paradox, indicating that weak values might help to bridge the gap between wavelike propagation effects and local particle detection.
翻訳日:2023-12-04 18:22:17 公開日:2023-12-01
# 物体検出のためのDETR事前学習の見直し

Revisiting DETR Pre-training for Object Detection ( http://arxiv.org/abs/2308.01300v2 )

ライセンス: Link先を確認
Yan Ma, Weicong Liang, Bohan Chen, Yiduo Hao, Bojian Hou, Xiangyu Yue, Chao Zhang, Yuhui Yuan(参考訳) DETRによるCOCOオブジェクト検出とセグメンテーションベンチマークの顕著な成果により、近年の取り組みは、凍結したバックボーンを維持しながら、トランスフォーマーの自己教師付き事前トレーニングを通じてパフォーマンスを高めることを目的としている。 精度の顕著な進歩は、特定の研究で記録されている。 我々の調査は、DeTRegという代表的アプローチと、$\mathcal{H}$-Deformable-DETRのような新興モデルの文脈におけるパフォーマンス評価を深く掘り下げた。 DETRegは、完全なデータ条件下での堅牢なDETRベースのモデルの性能向上には不十分である。 本研究は,COCOとPASCAL VOCの探索要素である事前学習データセットの選択や,事前学習対象生成のための戦略に関する広範な実験を行う。 対照的に、私たちはSimple Self-trainingという最適化されたアプローチを採用しており、改善されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、顕著な拡張をもたらしています。 これらの努力の結果、COCO valセットのAPスコアは59.3 %で、事前トレーニングなしで$\mathcal{H}$-Deformable-DETR + Swin-Lより優れている。 さらに、コンテンポラリーイメージ・トゥ・テキスト(LLaVA)とテキスト・トゥ・イメージ(SDXL)モデルを組み合わせることで生成された一連の合成事前学習データセットは、オブジェクト検出能力を著しく増幅する。

Motivated by the remarkable achievements of DETR-based approaches on COCO object detection and segmentation benchmarks, recent endeavors have been directed towards elevating their performance through self-supervised pre-training of Transformers while preserving a frozen backbone. Noteworthy advancements in accuracy have been documented in certain studies. Our investigation delved deeply into a representative approach, DETReg, and its performance assessment in the context of emerging models like $\mathcal{H}$-Deformable-DETR. Regrettably, DETReg proves inadequate in enhancing the performance of robust DETR-based models under full data conditions. To dissect the underlying causes, we conduct extensive experiments on COCO and PASCAL VOC probing elements such as the selection of pre-training datasets and strategies for pre-training target generation. By contrast, we employ an optimized approach named Simple Self-training which leads to marked enhancements through the combination of an improved box predictor and the Objects$365$ benchmark. The culmination of these endeavors results in a remarkable AP score of $59.3\%$ on the COCO val set, outperforming $\mathcal{H}$-Deformable-DETR + Swin-L without pre-training by $1.4\%$. Moreover, a series of synthetic pre-training datasets, generated by merging contemporary image-to-text(LLaVA) and text-to-image (SDXL) models, significantly amplifies object detection capabilities.
翻訳日:2023-12-04 18:21:58 公開日:2023-12-01
# 超伝導ナノワイヤ単光子検出器を用いた低ノイズバランスホモジン検出

Low-noise Balanced Homodyne Detection with Superconducting Nanowire Single-Photon Detectors ( http://arxiv.org/abs/2307.16672v2 )

ライセンス: Link先を確認
Maximilian Protte, Timon Schapeler, Jan Sperling and Tim J. Bartley(参考訳) 超伝導ナノワイヤ単光子検出器(snspds)は光子計数実験の形で光の量子状態の離散的性質を研究するために広く用いられている。 SNSPDは、400〜\mathrm{kHz}$の帯域でホモダイン検出を行うことにより、光量子状態の連続変数の研究にも利用できることを示す。 2つのsnspdを用いて、局所発振器の連続波場と真空状態の場との干渉を計測することにより、カウントレートの差のばらつきが、ほぼ5桁にわたって局所発振器の光子束に線形に比例することを示す。 結果として生じるショットノイズクリアランス$(46.0\pm1.1)~\mathrm{dB}$はバランスの取れた光ホモダイン検出器の最も高いクリアランスであり、連続波状態における高度に絞られた状態を測定する可能性を示している。 さらに,$\mathrm{CMRR}=22.4~\mathrm{dB}$を測定した。 また,ジョイントクリックカウント統計から,弱コヒーレント状態の位相依存二次数を測定し,ホモダイン検出器としてのデバイスの機能を示す。

Superconducting nanowire single-photon detectors (SNSPDs) have been widely used to study the discrete nature of quantum states of light in the form of photon-counting experiments. We show that SNSPDs can also be used to study continuous variables of optical quantum states by performing homodyne detection at a bandwidth of $400~\mathrm{kHz}$. By measuring the interference of a continuous-wave field of a local oscillator with the field of the vacuum state using two SNSPDs, we show that the variance of the difference in count rates is linearly proportional to the photon flux of the local oscillator over almost five orders of magnitude. The resulting shot-noise clearance of $(46.0\pm1.1)~\mathrm{dB}$ is the highest reported clearance for a balanced optical homodyne detector, demonstrating their potential for measuring highly squeezed states in the continuous-wave regime. In addition, we measured a $\mathrm{CMRR}=22.4~\mathrm{dB}$. From the joint click counting statistics, we also measure the phase-dependent quadrature of a weak coherent state to demonstrate our device's functionality as a homodyne detector.
翻訳日:2023-12-04 18:21:29 公開日:2023-12-01
# 16ビットニューラルネットワークトレーニングのための安定adam最適化

Stable Adam Optimization for 16-bit Neural Networks Training ( http://arxiv.org/abs/2307.16189v7 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,機械学習モデルの16ビット計算で観測される数値不安定性に関する重要な問題に対処する。 このような不安定性、特にAdamのような一般的な最適化アルゴリズムを採用する場合、しばしばディープニューラルネットワークの不安定なトレーニングにつながる。 これは学習プロセスを損なうだけでなく、現実のアプリケーションに信頼性のあるモデルをデプロイする上でも大きな課題となる。 本研究は, この不安定性の原因として, エプシロンハイパーパラメーターを同定した。 16ビットの計算でエプシロンに微調整を加えることでアダムの数値安定性が向上し、16ビットのニューラルネットワークのより安定したトレーニングが可能になる。 本稿では,Adamオプティマイザからの更新を利用して学習プロセスの安定性を高める,新しい信頼性の高いアプローチを提案する。 当社のコントリビューションは、低精度計算における最適化の課題に対する深い洞察を提供し、ディープニューラルネットワークトレーニングの安定性を確保するためのソリューションを提供し、さまざまなアプリケーションで使用するための方法を提供します。

In this research, we address critical concerns related to the numerical instability observed in 16-bit computations of machine learning models. Such instability, particularly when employing popular optimization algorithms like Adam, often leads to unstable training of deep neural networks. This not only disrupts the learning process but also poses significant challenges in deploying dependable models in real-world applications. Our investigation identifies the epsilon hyperparameter as the primary source of this instability. A nuanced exploration reveals that subtle adjustments to epsilon within 16-bit computations can enhance the numerical stability of Adam, enabling more stable training of 16-bit neural networks. We propose a novel, dependable approach that leverages updates from the Adam optimizer to bolster the stability of the learning process. Our contributions provide deeper insights into optimization challenges in low-precision computations and offer solutions to ensure the stability of deep neural network training, paving the way for their dependable use in various applications.
翻訳日:2023-12-04 18:21:08 公開日:2023-12-01
# 畳み込みニューラルネットワークの前進過程の理解

Understanding Forward Process of Convolutional Neural Network ( http://arxiv.org/abs/2307.15090v2 )

ライセンス: Link先を確認
Peixin Tian(参考訳) 本稿では,cnnのフォワード処理における選択的回転について述べる。 アクティベーション関数を、入力データの回転的側面を統一し、定量化する識別機構として解明する。 実験は、この定義された方法論が、統計指標に基づいて入力を区別するプログレスネットワークを反映していることを示す。 また,データ処理パターンにおけるニューラルネットワークと人間の脳との整合性も明らかにした。

This paper reveal the selective rotation in the CNNs' forward processing. It elucidates the activation function as a discerning mechanism that unifies and quantizes the rotational aspects of the input data. Experiments show how this defined methodology reflects the progress network distinguish inputs based on statistical indicators, which can be comprehended or analyzed by applying structured mathematical tools. Our findings also unveil the consistency between artificial neural networks and the human brain in their data processing pattern.
翻訳日:2023-12-04 18:20:51 公開日:2023-12-01
# デュエット:効率的でスケーラブルなヒブリド・ネウラル・リレーション・アンダースタンディング

Duet: efficient and scalable hybriD neUral rElation undersTanding ( http://arxiv.org/abs/2307.13494v5 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Yabin Lu, Ziqi Li, Chang Shu, Yu Yan, Donghua Yang(参考訳) 学習された濃度推定法は従来の手法に比べて高精度である。 学習方法の中で、クエリ駆動アプローチは長い間、ワークロードのドリフト問題に直面してきた。 データ駆動法とハイブリッド法の両方がこの問題を回避するために提案されているが、その多くは高い訓練と推定コスト、限定されたスケーラビリティ、不安定性、および高次元テーブル上のロングテール分布問題に苦しむ。 本稿では,これらの問題のほとんどが,広く用いられているプログレッシブサンプリングによるものであることを実証する。 本稿では, 自己回帰モデルに述語情報を導入し, サンプリングや非微分不可能なプロセスなしに, 濃度を直接推定する安定かつ効率的でスケーラブルなハイブリッド手法であるDuetを提案し, 推定複雑性をナルーやUAEと比較して$O(n)$から$O(1)$に低減できるだけでなく, 高濃度および高次元のテーブル上で高い精度を実現する。 実験の結果、duetは上記のすべての設計目標を達成でき、より実用的であることが示されている。 加えて、DuetはGPUで学んだほとんどのメソッドよりもCPUでの推論コストが低い。

Learned cardinality estimation methods have achieved high precision compared to traditional methods. Among learned methods, query-driven approaches have faced the workload drift problem for a long time. Although both data-driven and hybrid methods are proposed to avoid this problem, most of them suffer from high training and estimation costs, limited scalability, instability, and long-tail distribution problems on high-dimensional tables, which seriously affects the practical application of learned cardinality estimators. In this paper, we prove that most of these problems are directly caused by the widely used progressive sampling. We solve this problem by introducing predicate information into the autoregressive model and propose Duet, a stable, efficient, and scalable hybrid method to estimate cardinality directly without sampling or any non-differentiable process, which can not only reduce the inference complexity from $O(n)$ to $O(1)$ compared to Naru and UAE but also achieve higher accuracy on high cardinality and high-dimensional tables. Experimental results show that Duet can achieve all the design goals above and be much more practical. Besides, Duet even has a lower inference cost on CPU than that of most learned methods on GPU.
翻訳日:2023-12-04 18:20:44 公開日:2023-12-01
# 連続的強化学習の定義

A Definition of Continual Reinforcement Learning ( http://arxiv.org/abs/2307.11046v2 )

ライセンス: Link先を確認
David Abel, Andr\'e Barreto, Benjamin Van Roy, Doina Precup, Hado van Hasselt, Satinder Singh(参考訳) 強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。 しかし、この視点は学習を無限の適応として扱うのではなく、解決策を見つけるという限定的な視点に基づいている。 対照的に、継続的強化学習は、最高のエージェントが決して学習をやめない状態を指す。 継続的な強化学習の重要性にもかかわらず、コミュニティは、そのコミットメントを強調し、主要な概念を正確かつ明確にする、問題の単純な定義を欠いている。 そこで本稿では,継続的な強化学習問題を慎重に定義することを目的としている。 エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめない」エージェントの概念を定式化する。 この新しい言語を用いて, 連続学習エージェントを, 暗黙の探索処理を無期限に行うものと解釈し, 連続的な強化学習を, 最良のエージェントが連続学習エージェントであるような設定として定義する。 本稿では,従来のマルチタスク強化学習と継続的教師付き学習が,私たちの定義の特別な事例であることを示す。 これらの定義と視点は、学習の中心にある多くの直感的な概念を定式化し、継続学習エージェントを取り巻く新しい研究経路を開く。

In a standard view of the reinforcement learning problem, an agent's goal is to efficiently identify a policy that maximizes long-term reward. However, this perspective is based on a restricted view of learning as finding a solution, rather than treating learning as endless adaptation. In contrast, continual reinforcement learning refers to the setting in which the best agents never stop learning. Despite the importance of continual reinforcement learning, the community lacks a simple definition of the problem that highlights its commitments and makes its primary concepts precise and clear. To this end, this paper is dedicated to carefully defining the continual reinforcement learning problem. We formalize the notion of agents that "never stop learning" through a new mathematical language for analyzing and cataloging agents. Using this new language, we define a continual learning agent as one that can be understood as carrying out an implicit search process indefinitely, and continual reinforcement learning as the setting in which the best agents are all continual learning agents. We provide two motivating examples, illustrating that traditional views of multi-task reinforcement learning and continual supervised learning are special cases of our definition. Collectively, these definitions and perspectives formalize many intuitive concepts at the heart of learning, and open new research pathways surrounding continual learning agents.
翻訳日:2023-12-04 18:20:20 公開日:2023-12-01
# 単一非局在質量の場による重力の非古典性検証

Testing the nonclassicality of gravity with the field of a single delocalized mass ( http://arxiv.org/abs/2307.09354v3 )

ライセンス: Link先を確認
Alessandro Pesci, Pierbiagio Pieri(参考訳) 重力の量子の性質の実験実験のための既存の提案のほとんどは、2つの非局在化質量または十分な空間範囲を持つ純粋量子状態で準備された調和結合質量の使用に基づいている。 ここでは、重力の作用下で動く調和的に閉じ込められた試験質量(最初の膨張と圧縮)と結合した1つの非局在質量に基づくセットアップを提案する。 本研究は, カシミール・ポルダー力の制御能力に大きく依存する実験の原理的実現可能性について検討した。 そこで我々は、これを達成するための設計を進め、同時にそれらと戦うだけでなく、これらの力を活用しようと試みた。

Most of the existing proposals for laboratory tests of a quantum nature of gravity are based on the use of two delocalized masses or harmonically bound masses prepared in pure quantum states with large enough spatial extent. Here a setup is proposed that is based on a single delocalized mass coupled to a harmonically trapped test mass (undergoing first expansion and then compression) that moves under the action of gravity. We investigate the in-principle feasibility of such an experiment, which turns out to crucially depend on the ability to tame Casimir-Polder forces. We thus proceed with a design aimed at achieving this, trying at the same time to take advantage of these forces rather than only fighting them.
翻訳日:2023-12-04 18:19:58 公開日:2023-12-01
# aecif-net : 視覚検査における自動構造状態評価のための注意強化型協調核融合ネットワーク

AECIF-Net: An Attention-Enhanced Co-Interactive Fusion Network for Automated Structural Condition Assessment in Visual Inspection ( http://arxiv.org/abs/2307.07643v3 )

ライセンス: Link先を確認
Chenyu Zhang, Zhaozheng Yin, Ruwen Qin(参考訳) ヴィジュアルインスペクションにおける構造条件評価を自動化するために必要な土木インフラの状態を効率的に監視する。 本稿では,視覚ブリッジ検査における自動構造状態評価のための注意強化型協調型核融合ネットワーク(aecif-net)を提案する。 AECIF-Netは、検査画像中の要素の構造要素とセグメント表面欠陥を同時に解析することができる。 2つのタスク固有の再学習サブネットを統合し、全体的な機能埋め込みからタスク固有の特徴を抽出する。 協調機能融合モジュールは、さらに空間相関を捉え、タスク間の情報共有を容易にする。 実験結果から,AECIF-Netは現状の手法よりも優れており,元素セグメンテーションでは92.11% mIoU,新しいベンチマークデータセットSteel Bridge Condition Inspection Visual (SBCIV) では87.16% mIoUの腐食セグメンテーションでは87.16% mIoUであった。 アブレーション研究はaecif-netの設計のメリットを検証し、ケーススタディは構造状態評価を自動化する能力を示している。

Efficiently monitoring the condition of civil infrastructures necessitates automating the structural condition assessment in visual inspection. This paper proposes an Attention-Enhanced Co-Interactive Fusion Network (AECIF-Net) for automatic structural condition assessment in visual bridge inspection. AECIF-Net can simultaneously parse structural elements and segment surface defects on the elements in inspection images. It integrates two task-specific relearning subnets to extract task-specific features from an overall feature embedding. A co-interactive feature fusion module further captures the spatial correlation and facilitates information sharing between tasks. Experimental results demonstrate that the proposed AECIF-Net outperforms the current state-of-the-art approaches, achieving promising performance with 92.11% mIoU for element segmentation and 87.16% mIoU for corrosion segmentation on the test set of the new benchmark dataset Steel Bridge Condition Inspection Visual (SBCIV). An ablation study verifies the merits of the designs for AECIF-Net, and a case study demonstrates its capability to automate structural condition assessment.
翻訳日:2023-12-04 18:19:46 公開日:2023-12-01
# 人間好奇心のネットワーク理論を用いた本質的動機付けグラフ探索

Intrinsically motivated graph exploration using network theories of human curiosity ( http://arxiv.org/abs/2307.04962v4 )

ライセンス: Link先を確認
Shubhankar P. Patankar, Mathieu Ouellet, Juan Cervino, Alejandro Ribeiro, Kieran A. Murphy and Dani S. Bassett(参考訳) 本質的に動機づけられた探索は、追加の外部報酬なしでも強化学習に役立つことが証明されている。 環境が自然にグラフとして表現される場合、探索を導く最善の方法は未解決の問題だ。 本研究では,情報ギャップ理論と圧縮進行理論という,人間の好奇心の2つの理論によるグラフ構造データ探索手法を提案する。 この理論は好奇心を、環境に訪れるノードによって引き起こされるサブグラフの位相的特徴を最適化する本質的な動機であると考えている。 これらの特徴をグラフニューラルネットワークに基づく強化学習の報奨として利用する。 合成生成グラフの複数のクラスにおいて、訓練されたエージェントは、訓練中に見られるよりも長い探索的歩行とより大きな環境に一般化する。 本手法は, トポロジ特性のグリーディ評価よりも効率的に計算する。 提案される本質的動機は、レコメンダシステムに対して特に関連がある。 いくつかの実世界のグラフ環境において、好奇心を考慮した次のノード推奨がPageRank中心性よりも人間の選択を予測できることを示した。

Intrinsically motivated exploration has proven useful for reinforcement learning, even without additional extrinsic rewards. When the environment is naturally represented as a graph, how to guide exploration best remains an open question. In this work, we propose a novel approach for exploring graph-structured data motivated by two theories of human curiosity: the information gap theory and the compression progress theory. The theories view curiosity as an intrinsic motivation to optimize for topological features of subgraphs induced by nodes visited in the environment. We use these proposed features as rewards for graph neural-network-based reinforcement learning. On multiple classes of synthetically generated graphs, we find that trained agents generalize to longer exploratory walks and larger environments than are seen during training. Our method computes more efficiently than the greedy evaluation of the relevant topological properties. The proposed intrinsic motivations bear particular relevance for recommender systems. We demonstrate that next-node recommendations considering curiosity are more predictive of human choices than PageRank centrality in several real-world graph environments.
翻訳日:2023-12-04 18:19:20 公開日:2023-12-01
# GeoPhy: 樹木地形の幾何学的勾配による系統解析

GeoPhy: Differentiable Phylogenetic Inference via Geometric Gradients of Tree Topologies ( http://arxiv.org/abs/2307.03675v2 )

ライセンス: Link先を確認
Takahiro Mimori, Michiaki Hamada(参考訳) 分子進化モデルに基づく系統推定は、生物学的データの進化的関係を理解するのに不可欠である。 樹木のトポロジーや枝の進化距離を含む系統樹変数の不確実性を考慮することは, 分子データから種との関係を正確に推定するために重要である。 変分ベイズ法は、スケーラブルで実践的なモデルを開発する上で鍵となるが、相補的かつ膨大なツリートポロジーを制限することなく系統的推論を行うことは依然として困難である。 本研究では,連続幾何空間における位相分布の一意な表現を利用する系統推論の新規かつ完全微分可能な定式化を提案する。 勾配推定のための設計空間と制御変数の実践的考察を通じて,我々のアプローチであるGeoPhyは,トポロジ的候補を制限することなく,変分推論を可能にする。 実際のベンチマークデータセットを用いた実験では、GeoPhyは全トポロジーを考慮した他の近似ベイズ法よりも著しく優れていた。

Phylogenetic inference, grounded in molecular evolution models, is essential for understanding the evolutionary relationships in biological data. Accounting for the uncertainty of phylogenetic tree variables, which include tree topologies and evolutionary distances on branches, is crucial for accurately inferring species relationships from molecular data and tasks requiring variable marginalization. Variational Bayesian methods are key to developing scalable, practical models; however, it remains challenging to conduct phylogenetic inference without restricting the combinatorially vast number of possible tree topologies. In this work, we introduce a novel, fully differentiable formulation of phylogenetic inference that leverages a unique representation of topological distributions in continuous geometric spaces. Through practical considerations on design spaces and control variates for gradient estimations, our approach, GeoPhy, enables variational inference without limiting the topological candidates. In experiments using real benchmark datasets, GeoPhy significantly outperformed other approximate Bayesian methods that considered whole topologies.
翻訳日:2023-12-04 18:19:06 公開日:2023-12-01
# 少数ショット動作認識のためのタスク固有アライメントと多レベルトランスフォーマ

Task-Specific Alignment and Multiple Level Transformer for Few-Shot Action Recognition ( http://arxiv.org/abs/2307.01985v2 )

ライセンス: Link先を確認
Fei Guo, Li Zhu, YiWang Wang, Jing Sun(参考訳) 少数ショット学習の研究分野において、画像ベースとビデオベースの主な違いは時間次元の追加である。 近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。 しかし、一部のビデオフレームはアクションとはほとんど関係がなく、単一のフレームレベルまたはセグメントレベルの機能を使用するだけでは十分な情報をマイニングできない。 本稿では,これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で順次解決する。 第1モジュール(TSA)は、アクション時間アライメントのためにアクション非関連フレームをフィルタリングすることを目的としている。 時間次元のフレームシーケンスに対するアフィン変換は線形サンプリングに使用される。 第2モジュール(MLT)は、サポートプロトタイプのマルチレベル機能とクエリサンプルに焦点を当て、異なるレベル機能で動作するアライメントのためのさらなる情報を見出す。 我々は、時間的順序アライメントに焦点を当てたL2配列距離と、ビデオの外観と意味のギャップを計測する最適輸送距離とを融合する融合距離に基づく融合損失を採用する。 実験の結果,HMDB51およびUCF101データセットの最先端結果と,KineticsベンチマークとV2データセットの競合結果が得られた。 私たちのコードはurlで入手できる。 https://github.com/cofly2014/tsa-mlt.git

In the research field of few-shot learning, the main difference between image-based and video-based is the additional temporal dimension. In recent years, some works have used the Transformer to deal with frames, then get the attention feature and the enhanced prototype, and the results are competitive. However, some video frames may relate little to the action, and only using single frame-level or segment-level features may not mine enough information. We address these problems sequentially through an end-to-end method named "Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)". The first module (TSA) aims at filtering the action-irrelevant frames for action duration alignment. Affine Transformation for frame sequence in the time dimension is used for linear sampling. The second module (MLT) focuses on the Multiple-level feature of the support prototype and query sample to mine more information for the alignment, which operates on different level features. We adopt a fusion loss according to a fusion distance that fuses the L2 sequence distance, which focuses on temporal order alignment, and the Optimal Transport distance, which focuses on measuring the gap between the appearance and semantics of the videos. Extensive experiments show our method achieves state-of-the-art results on the HMDB51 and UCF101 datasets and a competitive result on the benchmark of Kinetics and something 2-something V2 datasets. Our code is available at the URL: https://github.com/cofly2014/tsa-mlt.git
翻訳日:2023-12-04 18:18:51 公開日:2023-12-01
# 3Dポイントクラウド分類における敵攻撃と防御:サーベイ

Adversarial Attacks and Defenses on 3D Point Cloud Classification: A Survey ( http://arxiv.org/abs/2307.00309v2 )

ライセンス: Link先を確認
Hanieh Naderi and Ivan V. Baji\'c(参考訳) ディープラーニングは、支配的なAI技術として、2Dビジョンにおける幅広いタスクをうまく解決した。 近年、3dポイントクラウドでのディープラーニングは、この分野のさまざまなタスクに対処するために人気が高まっている。 顕著な成果にもかかわらず、ディープラーニングアルゴリズムは敵の攻撃に対して脆弱である。 これらの攻撃は人間の目には知覚できないが、テストや展開の段階ではディープニューラルネットワークを簡単に騙すことができる。 今後の研究を奨励するため,本研究では,ポイントクラウド分類における敵の攻撃と防御技術の最近の進歩を概説し,先ず敵の攻撃の原理と特性を紹介し,近年の敵の事例生成手法を要約・分析する。 さらに、データ重視およびモデル重視の方法で組織された防衛戦略の概要も提供する。 最後に、この領域におけるいくつかの現在の課題と潜在的研究の方向性を示す。

Deep learning has successfully solved a wide range of tasks in 2D vision as a dominant AI technique. Recently, deep learning on 3D point clouds is becoming increasingly popular for addressing various tasks in this field. Despite remarkable achievements, deep learning algorithms are vulnerable to adversarial attacks. These attacks are imperceptible to the human eye but can easily fool deep neural networks in the testing and deployment stage. To encourage future research, this survey summarizes the current progress on adversarial attack and defense techniques on point cloud classification.This paper first introduces the principles and characteristics of adversarial attacks and summarizes and analyzes adversarial example generation methods in recent years. Additionally, it provides an overview of defense strategies, organized into data-focused and model-focused methods. Finally, it presents several current challenges and potential future research directions in this domain.
翻訳日:2023-12-04 18:18:12 公開日:2023-12-01
# 学習可能な空間を持つ拡張畳み込みを用いたスパイクニューラルネットワークの学習遅延

Learning Delays in Spiking Neural Networks using Dilated Convolutions with Learnable Spacings ( http://arxiv.org/abs/2306.17670v3 )

ライセンス: Link先を確認
Ilyass Hammouamri, Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier(参考訳) スパイキングニューラルネットワーク(SNN)は、特に音声認識などの時間的タスクにおいて、電力効率の高い情報処理システムを構築するための有望な研究方向である。 SNNでは、1つのスパイクが1つのニューロンから別のニューロンに移動するのに必要な時間を指す。 これらの遅延はスパイク到着時間に影響を与えるため重要であり、スパイクニューロンが一致した入力スパイクに強く反応することが知られている。 より正式には、プラスチックの遅延がSNNの表現性を大幅に増大させることが理論的に示されている。 しかし、これらの遅延を学習する効率的なアルゴリズムは不足している。 本稿では,バックプロパゲーションを用いたディープフィードフォワードsnsでこの問題をオフラインで解決する,新しい離散時間アルゴリズムを提案する。 連続する層間の遅延をシミュレートするために、1次元の畳み込みを用いる。 カーネルは数個の非ゼロ重み(シナプスあたり1つ)しか含んでおらず、その位置は遅延に対応する。 これらの位置は、最近提案されたDilated Convolution with Learnable Spacings (DCLS)を使って重みとともに学習される。 我々は,スパイキングハイデルベルクデータセット (SHD) とスパイキング音声コマンド (SSC) と,その非スパイキングバージョンであるGoogle Speech Commands v0.02 (GSC) ベンチマークを用いて,時間パターンの検出を必要とする3つのデータセットについて評価を行った。 完全結合層が2つまたは3つ隠れたフィードフォワードSNNと,バニラ漏れの集積・発火ニューロンを用いた。 固定されたランダム遅延が役に立ち、それらを学ぶことがさらに役立ちます。 さらに,本手法は,再帰的な接続を必要とせず,パラメータも大幅に少ない3つのデータセットにおいて最先端を上回った。 本研究では,時間的データ処理の正確かつ正確なモデル開発における遅延学習の可能性を示す。 私たちのコードはPyTorch / SpikingJellyをベースにしており、https://github.com/Thvnvtos/SNN-delaysで利用可能です。

Spiking Neural Networks (SNNs) are a promising research direction for building power-efficient information processing systems, especially for temporal tasks such as speech recognition. In SNNs, delays refer to the time needed for one spike to travel from one neuron to another. These delays matter because they influence the spike arrival times, and it is well-known that spiking neurons respond more strongly to coincident input spikes. More formally, it has been shown theoretically that plastic delays greatly increase the expressivity in SNNs. Yet, efficient algorithms to learn these delays have been lacking. Here, we propose a new discrete-time algorithm that addresses this issue in deep feedforward SNNs using backpropagation, in an offline manner. To simulate delays between consecutive layers, we use 1D convolutions across time. The kernels contain only a few non-zero weights - one per synapse - whose positions correspond to the delays. These positions are learned together with the weights using the recently proposed Dilated Convolution with Learnable Spacings (DCLS). We evaluated our method on three datasets: the Spiking Heidelberg Dataset (SHD), the Spiking Speech Commands (SSC) and its non-spiking version Google Speech Commands v0.02 (GSC) benchmarks, which require detecting temporal patterns. We used feedforward SNNs with two or three hidden fully connected layers, and vanilla leaky integrate-and-fire neurons. We showed that fixed random delays help and that learning them helps even more. Furthermore, our method outperformed the state-of-the-art in the three datasets without using recurrent connections and with substantially fewer parameters. Our work demonstrates the potential of delay learning in developing accurate and precise models for temporal data processing. Our code is based on PyTorch / SpikingJelly and available at: https://github.com/Thvnvtos/SNN-delays
翻訳日:2023-12-04 18:18:01 公開日:2023-12-01
# QuantEase: 最適化に基づく言語モデルの量子化

QuantEase: Optimization-based Quantization for Language Models ( http://arxiv.org/abs/2309.01885v2 )

ライセンス: Link先を確認
Kayhan Behdin, Ayan Acharya, Aman Gupta, Qingquan Song, Siyu Zhu, Sathiya Keerthi, Rahul Mazumder(参考訳) 大規模言語モデル(llm)の人気が高まり、効率的なデプロイを可能にする圧縮技術への関心が高まっている。 本研究では,LLMのPTQ(Post-Training Quantization)に着目した。 近年の進歩を踏まえ,個々の層が別々の量子化を行う層別量子化フレームワーク quantease を紹介する。 この問題は離散的な非凸最適化であり、コーディネート・Descent(CD)技術に根ざしたアルゴリズムの開発を促す。 これらのCDベースの手法は、複雑な非凸層量子化問題に対する高品質な解を提供する。 特に、cdベースのアプローチでは、マトリックス反転や分解の必要性を回避して、マトリックス操作とベクトル操作のみに依存する、直接的な更新が特徴です。 我々はまた、我々のアプローチのoutlier-aware変種を探索し、完全な精度でかなりの重量(outlier)を保持できるようにしました。 提案手法は, GPTQなどの手法よりも15%向上し, 各種LLMおよびデータセットにわたる経験的評価において, パープレキシティとゼロショット精度の両面で最先端性能を実現する。 注意深い線形代数最適化を活用して、QuantEaseはFalcon-180Bのようなモデルを1つのNVIDIA A100 GPU上で$\sim$3時間で量子化することができる。 特に注目すべきは,LLMのほぼ3ビットの量子化と精度の低下を許容し,不均一な量子化やグループ化技術の必要性を回避し,SpQRなどの手法を最大2倍に改善する,という異常認識アルゴリズムである。

With the rising popularity of Large Language Models (LLMs), there has been an increasing interest in compression techniques that enable their efficient deployment. This study focuses on the Post-Training Quantization (PTQ) of LLMs. Drawing from recent advances, our work introduces QuantEase, a layer-wise quantization framework where individual layers undergo separate quantization. The problem is framed as a discrete-structured non-convex optimization, prompting the development of algorithms rooted in Coordinate Descent (CD) techniques. These CD-based methods provide high-quality solutions to the complex non-convex layer-wise quantization problems. Notably, our CD-based approach features straightforward updates, relying solely on matrix and vector operations, circumventing the need for matrix inversion or decomposition. We also explore an outlier-aware variant of our approach, allowing for retaining significant weights (outliers) with complete precision. Our proposal attains state-of-the-art performance in terms of perplexity and zero-shot accuracy in empirical evaluations across various LLMs and datasets, with relative improvements up to 15% over methods such as GPTQ. Leveraging careful linear algebra optimizations, QuantEase can quantize models like Falcon-180B on a single NVIDIA A100 GPU in $\sim$3 hours. Particularly noteworthy is our outlier-aware algorithm's capability to achieve near or sub-3-bit quantization of LLMs with an acceptable drop in accuracy, obviating the need for non-uniform quantization or grouping techniques, improving upon methods such as SpQR by up to two times in terms of perplexity.
翻訳日:2023-12-04 18:12:08 公開日:2023-12-01
# RLAIF:AIフィードバックによる人間のフィードバックからの強化学習のスケールアップ

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback ( http://arxiv.org/abs/2309.00267v2 )

ライセンス: Link先を確認
Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash(参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。 しかし、高品質な人間の嗜好ラベルを集めることは、時間と費用のかかる努力である。 Baiらが導入したRL from AI Feedback (RLAIF)は、強力なオフザシェルフLLMを活用して、人間のアノテーションの代わりに好みを生成する、有望な代替手段を提供する。 RLAIFは、要約、補助対話生成、無害対話生成のタスク全体にわたって、人間の評価者によって評価されるように、RLHFと同等または優れたパフォーマンスを達成する。 さらに、LDM選好ラベルラがポリシーと同じサイズであっても、教師付き微調整ベースラインを上回る性能を示す。 別の実験では、LLMに報酬スコアを直接促すことは、LLM選好ラベルを初めて報酬モデルに蒸留する標準RLAIF設定よりも優れた性能が得られる。 最後に、協調したAI嗜好を生成する手法について広範な研究を行う。 以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。

Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences. However, gathering high-quality human preference labels can be a time-consuming and expensive endeavor. RL from AI Feedback (RLAIF), introduced by Bai et al., offers a promising alternative that leverages a powerful off-the-shelf LLM to generate preferences in lieu of human annotators. Across the tasks of summarization, helpful dialogue generation, and harmless dialogue generation, RLAIF achieves comparable or superior performance to RLHF, as rated by human evaluators. Furthermore, RLAIF demonstrates the ability to outperform a supervised fine-tuned baseline even when the LLM preference labeler is the same size as the policy. In another experiment, directly prompting the LLM for reward scores achieves superior performance to the canonical RLAIF setup, where LLM preference labels are first distilled into a reward model. Finally, we conduct extensive studies on techniques for generating aligned AI preferences. Our results suggest that RLAIF can achieve human-level performance, offering a potential solution to the scalability limitations of RLHF.
翻訳日:2023-12-04 18:11:02 公開日:2023-12-01
# pointllm: 大きな言語モデルにポイントクラウドを理解する権限を与える

PointLLM: Empowering Large Language Models to Understand Point Clouds ( http://arxiv.org/abs/2308.16911v2 )

ライセンス: Link先を確認
Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin(参考訳) 大規模言語モデル(LLM)における前例のない進歩は、自然言語処理に大きな影響を与えたが、3D理解の領域を完全には受け入れていない。 本稿では,このギャップを埋めるための予備的な取り組みであるpointllmについて紹介する。 PointLLMは人間の指示で色付きのオブジェクトポイントクラウドを理解し、適切な応答を生成し、ポイントクラウドと常識の把握を図示する。 具体的には、ポイントクラウドエンコーダと強力なLCMを利用して、幾何学、外観、言語情報を効果的に融合する。 660Kの単純および70Kの複雑な点文命令ペアからなる新しいデータセットを収集し,2段階のトレーニング戦略を実現する。 pointllmの知覚と一般化の能力を厳密に評価するために,生成的3次元オブジェクト分類と3次元オブジェクトキャプションの2つのベンチマークを,人間評価,gpt-4/chatgpt評価,従来型メトリクスの3つの手法で評価した。 実験の結果,PointLLMは既存の2Dおよび3Dベースラインよりも優れた性能を示し,50%以上のサンプルにおいてヒトのアノテータを超越した評価対象キャプションタスクにおいて顕著な成果を示した。 コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/PointLLM で公開されている。

The unprecedented advancements in Large Language Models (LLMs) have shown a profound impact on natural language processing but are yet to fully embrace the realm of 3D understanding. This paper introduces PointLLM, a preliminary effort to fill this gap, enabling LLMs to understand point clouds and offering a new avenue beyond 2D visual data. PointLLM understands colored object point clouds with human instructions and generates contextually appropriate responses, illustrating its grasp of point clouds and common sense. Specifically, it leverages a point cloud encoder with a powerful LLM to effectively fuse geometric, appearance, and linguistic information. We collect a novel dataset comprising 660K simple and 70K complex point-text instruction pairs to enable a two-stage training strategy: aligning latent spaces and subsequently instruction-tuning the unified model. To rigorously evaluate the perceptual and generalization capabilities of PointLLM, we establish two benchmarks: Generative 3D Object Classification and 3D Object Captioning, assessed through three different methods, including human evaluation, GPT-4/ChatGPT evaluation, and traditional metrics. Experimental results reveal PointLLM's superior performance over existing 2D and 3D baselines, with a notable achievement in human-evaluated object captioning tasks where it surpasses human annotators in over 50% of the samples. Codes, datasets, and benchmarks are available at https://github.com/OpenRobotLab/PointLLM .
翻訳日:2023-12-04 18:10:40 公開日:2023-12-01
# リニア振動:視覚トランスフォーマのための新しい活性化機能

Linear Oscillation: A Novel Activation Function for Vision Transformer ( http://arxiv.org/abs/2308.13670v4 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 活性化関数はディープラーニングのリンチピンであり、ニューラルネットワークの表現能力とトレーニングダイナミクスの両方に大きな影響を及ぼす。 それらは表現の性質だけでなく、収束率を最適化し、一般化ポテンシャルを高める。 この重要な役割を評価し、$f(x) = x \times \sin(\alpha x + \beta)$と定義される線形振動(LoC)活性化関数を示す。 非線型性を主に導入する従来の活性化関数とは異なり、LoCは線形軌道と振動偏差をシームレスにブレンドする。 形容詞「線形振動」は、線形活性化と調和振動を融合させ、「混乱の親和性」の本質を捉えたユニークな特徴である。 ネットワークアクティベーション内の"制御された混乱"というこの概念は、より強固な学習、特に微妙なパターンを識別する必要のある文脈を促進することを実証している。 実験の結果,様々なニューラルアーキテクチャに統合された場合,locアクティベーション関数は,reluやsgmoidといった確立されたものよりも一貫して優れていることが明らかとなった。 LoCを用いたアバンギャルドビジョントランスモデルで示された恒星の性能は、その有効性をさらに検証する。 本研究は、他の顕著な活性化機能に対するLoCの顕著な利点を照らす。 トレーニング中に意図的な複雑さや「融合」を断続的に導入することで、より深く、ニュアンスのある学習を促すという考えを擁護する。 これは、ニューラルネットワークトレーニングの未来を形作る上で、公平に選択されたアクティベーション関数の重要な役割を強調する。

Activation functions are the linchpins of deep learning, profoundly influencing both the representational capacity and training dynamics of neural networks. They shape not only the nature of representations but also optimize convergence rates and enhance generalization potential. Appreciating this critical role, we present the Linear Oscillation (LoC) activation function, defined as $f(x) = x \times \sin(\alpha x + \beta)$. Distinct from conventional activation functions which primarily introduce non-linearity, LoC seamlessly blends linear trajectories with oscillatory deviations. The nomenclature "Linear Oscillation" is a nod to its unique attribute of infusing linear activations with harmonious oscillations, capturing the essence of the "Importance of Confusion". This concept of "controlled confusion" within network activations is posited to foster more robust learning, particularly in contexts that necessitate discerning subtle patterns. Our empirical studies reveal that, when integrated into diverse neural architectures, the LoC activation function consistently outperforms established counterparts like ReLU and Sigmoid. The stellar performance exhibited by the avant-garde Vision Transformer model using LoC further validates its efficacy. This study illuminates the remarkable benefits of the LoC over other prominent activation functions. It champions the notion that intermittently introducing deliberate complexity or "confusion" during training can spur more profound and nuanced learning. This accentuates the pivotal role of judiciously selected activation functions in shaping the future of neural network training.
翻訳日:2023-12-04 18:10:13 公開日:2023-12-01
# TpuGraphs: 大規模テンソル計算グラフのパフォーマンス予測データセット

TpuGraphs: A Performance Prediction Dataset on Large Tensor Computational Graphs ( http://arxiv.org/abs/2308.13490v2 )

ライセンス: Link先を確認
Phitchaya Mangpo Phothilimthana, Sami Abu-El-Haija, Kaidi Cao, Bahare Fatemi, Charith Mendis, Bryan Perozzi(参考訳) 正確なハードウェアパフォーマンスモデルは、コード最適化において重要な役割を果たす。 コンパイラがヒューリスティックな決定を行うのを手助けしたり、プログラムの最適な設定を特定するオートチューナーを支援することができる。 例えば、機械学習コンパイラであるXLAの自動チューニングは、Googleで相当なプロダクショントラフィックを提供する最先端モデルの10-20%のスピードアップを発見した。 プログラムのパフォーマンス予測にはいくつかのデータセットがあるが、基本ブロックやカーネルのような小さなサブプログラムをターゲットにしている。 本稿では、テンソル処理ユニット(TPU)上で動作する計算グラフとして表されるフルテンソルプログラムの性能予測データセットであるTpuGraphsを紹介する。 データセットの各グラフは、機械学習のワークロード、例えばトレーニングエポックや推論ステップの主計算を表す。 各データサンプルは、計算グラフ、コンパイル構成、および、その構成でコンパイルされたグラフの実行時間を含む。 データセットのグラフはオープンソースの機械学習プログラムから収集され、ResNet、EfficientNet、Mask R-CNN、Transformerといった一般的なモデルアーキテクチャが特徴である。 TpuGraphsは、最大のグラフプロパティ予測データセット(グラフサイズに匹敵する)よりも25倍多くグラフを提供し、マシンラーニングプログラムの既存のパフォーマンス予測データセットと比較して平均して770倍大きなグラフを提供する。 このグラフレベルの大きなグラフ予測タスクは、スケーラビリティ、トレーニング効率、モデル品質など、学習における新たな課題を導入します。

Precise hardware performance models play a crucial role in code optimizations. They can assist compilers in making heuristic decisions or aid autotuners in identifying the optimal configuration for a given program. For example, the autotuner for XLA, a machine learning compiler, discovered 10-20% speedup on state-of-the-art models serving substantial production traffic at Google. Although there exist a few datasets for program performance prediction, they target small sub-programs such as basic blocks or kernels. This paper introduces TpuGraphs, a performance prediction dataset on full tensor programs, represented as computational graphs, running on Tensor Processing Units (TPUs). Each graph in the dataset represents the main computation of a machine learning workload, e.g., a training epoch or an inference step. Each data sample contains a computational graph, a compilation configuration, and the execution time of the graph when compiled with the configuration. The graphs in the dataset are collected from open-source machine learning programs, featuring popular model architectures, e.g., ResNet, EfficientNet, Mask R-CNN, and Transformer. TpuGraphs provides 25x more graphs than the largest graph property prediction dataset (with comparable graph sizes), and 770x larger graphs on average compared to existing performance prediction datasets on machine learning programs. This graph-level prediction task on large graphs introduces new challenges in learning, ranging from scalability, training efficiency, to model quality.
翻訳日:2023-12-04 18:09:45 公開日:2023-12-01
# 脳波データを用いた脳卒中患者の神経学的予後 : 競合リスクを伴う動的生存分析フレームワーク

Neurological Prognostication of Post-Cardiac-Arrest Coma Patients Using EEG Data: A Dynamic Survival Analysis Framework with Competing Risks ( http://arxiv.org/abs/2308.11645v2 )

ライセンス: Link先を確認
Xiaobin Shen, Jonathan Elmer, George H. Chen(参考訳) 心不全から蘇生した患者は、死亡のリスクが高い。 これらの患者の神経学的結果の予測(神経学的予後予測のタスク)は、治療決定に有用である。 本稿では,心電図データを用いた脳卒中後心電図患者の神経学的予後予測のための最初の動的枠組みを提案する。 予測は、時間から偶発的な結果(覚醒または死までの時間)、または患者が目覚める確率、あるいは複数の時間的地平線を越えて死ぬ確率で表現される。 我々のフレームワークは、患者レベルの累積頻度関数を推定する形で競合するリスクをサポートする動的生存分析モデルを使用する。 我々は、患者が最初に何が起こるか、すなわち、覚醒、生命維持療法からの離脱(そして、決定論的に死に至る)、または(他の原因によって)死ぬという3つの競合するリスクを考える。 我々は,922人の実際のデータセット上で競合するリスクをサポートする3つの既存動的生存分析モデルをベンチマークすることで,我々の枠組みを実証する。 Our main experimental findings are that: (1) the classical Fine and Gray model which only uses a patient's static features and summary statistics from the patient's latest hour's worth of EEG data is highly competitive, achieving accuracy scores as high as the recently developed Dynamic-DeepHit model that uses substantially more of the patient's EEG data; and (2) in an ablation study, we show that our choice of modeling three competing risks results in a model that is at least as accurate while learning more information than simpler models (using two competing risks or a standard survival analysis setup with no competing risks).

Patients resuscitated from cardiac arrest who enter a coma are at high risk of death. Forecasting neurological outcomes of these patients (the task of neurological prognostication) could help with treatment decisions. In this paper, we propose, to the best of our knowledge, the first dynamic framework for neurological prognostication of post-cardiac-arrest comatose patients using EEG data: our framework makes predictions for a patient over time as more EEG data become available, and different training patients' available EEG time series could vary in length. Predictions are phrased in terms of either time-to-event outcomes (time-to-awakening or time-to-death) or as the patient's probability of awakening or of dying across multiple time horizons. Our framework uses any dynamic survival analysis model that supports competing risks in the form of estimating patient-level cumulative incidence functions. We consider three competing risks as to what happens first to a patient: awakening, being withdrawn from life-sustaining therapies (and thus deterministically dying), or dying (by other causes). We demonstrate our framework by benchmarking three existing dynamic survival analysis models that support competing risks on a real dataset of 922 patients. Our main experimental findings are that: (1) the classical Fine and Gray model which only uses a patient's static features and summary statistics from the patient's latest hour's worth of EEG data is highly competitive, achieving accuracy scores as high as the recently developed Dynamic-DeepHit model that uses substantially more of the patient's EEG data; and (2) in an ablation study, we show that our choice of modeling three competing risks results in a model that is at least as accurate while learning more information than simpler models (using two competing risks or a standard survival analysis setup with no competing risks).
翻訳日:2023-12-04 18:08:51 公開日:2023-12-01
# 辞書案内トランスフォーマによるアンダーディスプレイカメラのブラインドフェース復元

Blind Face Restoration for Under-Display Camera via Dictionary Guided Transformer ( http://arxiv.org/abs/2308.10196v2 )

ライセンス: Link先を確認
Jingfan Tan, Xiaoxu Chen, Tao Wang, Kaihao Zhang, Wenhan Luo, Xiaocun Cao(参考訳) 前面カメラをディスプレイパネルの下に隠すことで、Under-Display Camera(UDC)はフルスクリーン体験を提供する。 しかし, ディスプレイの特性から, UDCで撮影した画像は品質劣化に悩まされている。 UDC画像復元のための手法が提案され、進歩が達成されている。 UDCの顔画像の復元には特別な方法やデータセットはいまだに存在しないが、UDCのシーンで最も一般的な問題かもしれない。 そこで本研究では,udcの撮像過程におけるカラーフィルタリング,輝度減衰,回折を考慮し,udc-dmnetと呼ばれる2段ネットワークudc劣化モデルネットワークを提案し,udcイメージングの過程をモデル化してudc画像を合成する。 次に、UDC-DMNetとFFHQとCelebA-Testの高品質な顔画像を使用して、UDCの顔トレーニングデータセットFFHQ-P/TとテストデータセットCelebA-Test-P/Tを作成し、UDCの顔復元に利用します。 dgformer という新しい辞書案内トランスフォーマーネットワークを提案する。 修復における顔成分辞書の導入とUDC画像の特徴により、DGFormerはUDCシナリオにおけるブラインドフェイス復元に対処できる。 DGFormer と UDC-DMNet が最先端の性能を発揮することを示す実験を行った。

By hiding the front-facing camera below the display panel, Under-Display Camera (UDC) provides users with a full-screen experience. However, due to the characteristics of the display, images taken by UDC suffer from significant quality degradation. Methods have been proposed to tackle UDC image restoration and advances have been achieved. There are still no specialized methods and datasets for restoring UDC face images, which may be the most common problem in the UDC scene. To this end, considering color filtering, brightness attenuation, and diffraction in the imaging process of UDC, we propose a two-stage network UDC Degradation Model Network named UDC-DMNet to synthesize UDC images by modeling the processes of UDC imaging. Then we use UDC-DMNet and high-quality face images from FFHQ and CelebA-Test to create UDC face training datasets FFHQ-P/T and testing datasets CelebA-Test-P/T for UDC face restoration. We propose a novel dictionary-guided transformer network named DGFormer. Introducing the facial component dictionary and the characteristics of the UDC image in the restoration makes DGFormer capable of addressing blind face restoration in UDC scenarios. Experiments show that our DGFormer and UDC-DMNet achieve state-of-the-art performance.
翻訳日:2023-12-04 18:08:21 公開日:2023-12-01
# 人物体相互作用検出器の診断

Diagnosing Human-object Interaction Detectors ( http://arxiv.org/abs/2308.08529v2 )

ライセンス: Link先を確認
Fangrui Zhu, Yiming Xie, Weidi Xie, Huaizu Jiang(参考訳) 我々は,人-物間相互作用(HOI)の検出の著しい進歩を目撃した。 しかし、mAP(平均精度)への依存は、モデル性能のニュアンス(例えば、あるモデルが他のモデルよりも優れている理由)についての十分な洞察を与えていないため、この分野のさらなる革新を妨げる可能性がある。 この問題に対処するため,本論文では,オブジェクト検出ツールボックスの成功に触発されて,HOI検出モデルの詳細なブレークダウン分析を行うための診断ツールボックスを提案する。 HOI検出のパイプラインにおいて、まず全体論的調査を行う。 エラーの集合と各エラーを修正するためのオラクルを定義することで、各エラーの修正から得られたmAP改善に応じて、異なるエラーの意義を定量的に分析することができる。 次に,人間の対象対検出と相互作用分類という,HOI検出の2つのサブタスクを探索した。 第1検出タスクでは,検出結果のノイズレベルだけでなく,接地構造と対象のペアのカバレッジも計算する。 第2の分類タスクでは、正と負の区別結果のモデルの性能を測定し、人間と対象のペアが正しく検出されたときに実際の相互作用を分類する。 最先端のhoi検出モデル8種を解析し,今後の研究のために有用な診断知見を提供する。 例えば,最先端モデルRLIPv2は,多言語間相互作用の分類精度を大幅に向上させるため,他よりも優れていた。 当社のツールボックスは、さまざまなデータセットにまたがるさまざまなメソッドに適用可能で、https://github.com/neu-vi/diag-hoiで利用可能です。

We have witnessed significant progress in human-object interaction (HOI) detection. The reliance on mAP (mean Average Precision) scores as a summary metric, however, does not provide sufficient insight into the nuances of model performance (e.g., why one model is better than another), which can hinder further innovation in this field. To address this issue, in this paper, we introduce a diagnosis toolbox to provide detailed quantitative break-down analysis of HOI detection models, inspired by the success of object detection diagnosis toolboxes. We first conduct holistic investigations in the pipeline of HOI detection. By defining a set of errors and the oracles to fix each of them, we can have a quantitative analysis of the significance of different errors according to the mAP improvement obtained from fixing each error. We then delve into two sub-tasks of HOI detection: human-object pair detection and interaction classification, respectively. For the first detection task, we compute the coverage of ground-truth human-object pairs as well as the noisiness level in the detection results. For the second classification task, we measure a model's performance of differentiating positive and negative detection results and also classifying the actual interactions when the human-object pairs are correctly detected. We analyze eight state-of-the-art HOI detection models and provide valuable diagnosis insights to foster future research. For instance, our diagnosis shows that state-of-the-art model RLIPv2 outperforms others mainly because it significantly improves the multi-label interaction classification accuracy. Our toolbox is applicable for different methods across different datasets and available at https://github.com/neu-vi/Diag-HOI.
翻訳日:2023-12-04 18:07:41 公開日:2023-12-01
# 量子計測理論における正準占有状態(マクロ)のエントロピー

Entropy of the Canonical Occupancy (Macro) State in the Quantum Measurement Theory ( http://arxiv.org/abs/2308.04472v5 )

ライセンス: Link先を確認
Arnaldo Spalvieri(参考訳) 任意の数の非相互作用ボソンからなる平衡における系の占有数の確率分布は、環境の結合と関心の系である'ユニバース'から環境をトレースして得られる。 この論文で示された最初の新しい結果は、宇宙のベイズ的先行が多項分布であるとき、興味を持つ系の限界が多項分布であるということである。 この自己整合性は、ベイズ・マルチノミカルアプローチのコヒーレンスを明らかにする。 論文で提示された2つ目の新しい結果は、宇宙がボソニック固有状態にあるとき、関心系の分布は多変量超幾何分布であり、宇宙のボソン数が無限大である場合、多変量超幾何分布は多変量超幾何分布になる傾向があることがよく知られている。 さらに, 熱力学的エントロピーの古典的解析において生じる矛盾を解消し, ボゾン系の物理的エントロピーと占有数のシャノンエントロピーを同定することを提案する。 最後に、多項分布のエントロピーと多変量超幾何学分布のエントロピーとの情報理論的不等式を利用して、情報理論のベイズ主義と統計力学の経験主義の両方を共通の「インフォメカニクス」の枠組みに統合する。

The probability distribution of the occupancy numbers of a system at the equilibrium composed by an arbitrary number of non-interacting bosons is obtained by tracing out the environment from the ''universe'', that is the union of environment and system of interest. The first new result presented in the paper is that, when the Bayesian prior of the universe is the multinomial distribution, also the marginal of the system of interest is the multinomial distribution. This self-consistency reveals the coherence of the Bayesian-multinomial approach. The second new result presented in the paper is that, when the universe is in a bosonic eigenstate, the distribution of the system of interest is the multivariate hypergeometric distribution and it is well-known that, when the number of bosons of the universe tends to infinity, the multivariate hypergeometric distribution tends to the multinomial distribution. Furthermore, the paper proposes to identify the physical entropy of the bosonic system with the Shannon entropy of the occupancy numbers, fixing certain contradictions that arise in the classical analysis of thermodynamic entropy. Finally, by leveraging an information-theoretic inequality between the entropy of the multinomial distribution and the entropy of the multivariate hypergeometric distribution, both the Bayesianism of information theory and the empiricism of statistical mechanics are integrated into a common ''infomechanical'' framework.
翻訳日:2023-12-04 18:07:10 公開日:2023-12-01
# ディープラーニングを用いたカスタム熱力学の構築

Constructing Custom Thermodynamics Using Deep Learning ( http://arxiv.org/abs/2308.04119v2 )

ライセンス: Link先を確認
Xiaoli Chen, Beatrice W. Soh, Zi-En Ooi, Eleonore Vissol-Gaudin, Haijun Yu, Kostya S. Novoselov, Kedar Hippalgaonkar, Qianxiao Li(参考訳) ai(artificial intelligence)の最もエキサイティングな応用の1つは、以前に蓄積されたデータに基づく自動科学的発見であり、対称性や保存則など、既知の物理原理による制限と組み合わせられている。 このような自動仮説作成と検証は、従来の物理的直観が失敗する複雑な現象の研究を支援する。 本稿では,任意の確率的散逸系の巨視的力学記述を,その微視的軌跡の観察から直接学習するための一般化オンザガー原理に基づくプラットフォームを開発する。 本手法は, 還元された熱力学的座標を同時に構築し, それらの座標のダイナミクスを解釈する。 提案手法の有効性を理論的に検証し, 外部応用分野における長鎖の伸長を実験的に検証した。 具体的には、3つの解釈可能な熱力学座標を学習し、安定状態と遷移状態の同定と伸縮速度の制御を含む、ポリマー伸長の動的景観を構築する。 我々の一般的な方法論は、幅広い科学的・技術的応用に利用できる。

One of the most exciting applications of artificial intelligence (AI) is automated scientific discovery based on previously amassed data, coupled with restrictions provided by known physical principles, including symmetries and conservation laws. Such automated hypothesis creation and verification can assist scientists in studying complex phenomena, where traditional physical intuition may fail. Here we develop a platform based on a generalized Onsager principle to learn macroscopic dynamical descriptions of arbitrary stochastic dissipative systems directly from observations of their microscopic trajectories. Our method simultaneously constructs reduced thermodynamic coordinates and interprets the dynamics on these coordinates. We demonstrate its effectiveness by studying theoretically and validating experimentally the stretching of long polymer chains in an externally applied field. Specifically, we learn three interpretable thermodynamic coordinates and build a dynamical landscape of polymer stretching, including the identification of stable and transition states and the control of the stretching rate. Our general methodology can be used to address a wide range of scientific and technological applications.
翻訳日:2023-12-04 18:06:33 公開日:2023-12-01
# HyperAttention: 近距離時間におけるLong-context Attention

HyperAttention: Long-context Attention in Near-Linear Time ( http://arxiv.org/abs/2310.05869v3 )

ライセンス: Link先を確認
Insu Han, Rajesh Jayaram, Amin Karbasi, Vahab Mirrokni, David P. Woodruff, Amir Zandieh(参考訳) 本稿では,Large Language Models (LLMs) における長期文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttention という近似的な注意機構を提案する。 最近の研究は、最悪の場合、注意行列の項目が有界であるか、行列が低い安定階数でない限り、二次時間が必要であることを示唆している。 本研究では,(1)正規化注意行列における最大カラムノルム,(2)大規模エントリの検出・削除後の非正規化注意行列における行ノルムの割合の2つのパラメータを紹介する。 これらの細かいパラメータを使って問題の難しさを捉える。 従来の下界にもかかわらず、行列が非有界なエントリや大きな安定なランクを持つ場合であっても、上記のパラメータが小さい場合であっても線形時間サンプリングアルゴリズムを実現できる。 HyperAttentionは、他の高速な低レベル実装、特にFlashAttentionと簡単に統合できるモジュラーデザインを備えている。 経験的に、大きなエントリを識別するためにlocality sensitive hashing(lsh)を使用することで、hyperattentionは既存のメソッドを上回り、flashattentionのような最先端ソリューションと比べて大幅にスピードが向上する。 様々な長コンテキスト長のデータセットにおけるハイパーアテンションの実証的性能を検証する。 例えば、HyperAttentionは32kコンテキスト長でChatGLM2の推論時間を50%速くし、パープレキシティは5.6から6.3に増加する。 例えば131kのような大きなコンテキスト長では、HyperAttentionは単一の注意層上で5倍のスピードアップを提供する。

We present an approximate attention mechanism named HyperAttention to address the computational challenges posed by the growing complexity of long contexts used in Large Language Models (LLMs). Recent work suggests that in the worst-case scenario, quadratic time is necessary unless the entries of the attention matrix are bounded or the matrix has low stable rank. We introduce two parameters which measure: (1) the max column norm in the normalized attention matrix, and (2) the ratio of row norms in the unnormalized attention matrix after detecting and removing large entries. We use these fine-grained parameters to capture the hardness of the problem. Despite previous lower bounds, we are able to achieve a linear time sampling algorithm even when the matrix has unbounded entries or a large stable rank, provided the above parameters are small. HyperAttention features a modular design that easily accommodates integration of other fast low-level implementations, particularly FlashAttention. Empirically, employing Locality Sensitive Hashing (LSH) to identify large entries, HyperAttention outperforms existing methods, giving significant speed improvements compared to state-of-the-art solutions like FlashAttention. We validate the empirical performance of HyperAttention on a variety of different long-context length datasets. For example, HyperAttention makes the inference time of ChatGLM2 50\% faster on 32k context length while perplexity increases from 5.6 to 6.3. On larger context length, e.g., 131k, with causal masking, HyperAttention offers 5-fold speedup on a single attention layer.
翻訳日:2023-12-04 18:01:21 公開日:2023-12-01
# 不確実性関係の再考

Uncertainty relations revisited ( http://arxiv.org/abs/2310.05039v2 )

ライセンス: Link先を確認
Berthold-Georg Englert(参考訳) 量子力学の入門コースは通常、不確実性関係(典型的にはロバートソンが導いた不等式)に関する講義を含む。 For the benefit of the lecturers, we present a unified approach -- well suited for undergraduate teaching -- for deriving all standard uncertainty relations: those for products of variances by Kennard, Robertson, and Schr\"odinger, as well as those for sums of variances by Maccone and Pati. We also give a brief review of the early history of this topic and try to answer why the use of variances for quantifying uncertainty is so widespread, while alternatives are available that can be more natural and more fitting. It is common to regard the states that saturate the Robertson inequality as "minimum uncertainty states" although they do not minimize the variance of one observable, given the variance of another, incompatible observable. この目的を達成する状態は異なり、体系的に見ることができる。

Introductory courses on quantum mechanics usually include lectures on uncertainty relations, typically the inequality derived by Robertson and, perhaps, other statements. For the benefit of the lecturers, we present a unified approach -- well suited for undergraduate teaching -- for deriving all standard uncertainty relations: those for products of variances by Kennard, Robertson, and Schr\"odinger, as well as those for sums of variances by Maccone and Pati. We also give a brief review of the early history of this topic and try to answer why the use of variances for quantifying uncertainty is so widespread, while alternatives are available that can be more natural and more fitting. It is common to regard the states that saturate the Robertson inequality as "minimum uncertainty states" although they do not minimize the variance of one observable, given the variance of another, incompatible observable. The states that achieve this objective are different and can be found systematically.
翻訳日:2023-12-04 18:00:55 公開日:2023-12-01
# 1+1$次元のダンクル-フォッカー-プランク方程式

The Dunkl-Fokker-Planck Equation in $1+1$ Dimensions ( http://arxiv.org/abs/2310.05016v2 )

ライセンス: Link先を確認
R. D. Mota, D. Ojeda-Guill\'en, and M. A. Xicot\'encatl(参考訳) 空間微分をダンケル微分に置き換えることで、フォッカー・プランク方程式を (1+1) 次元で一般化する。 Dunkl-Fokker-Planck固有値方程式を求め,高調波発振器と遠心型ポテンシャルを求める。 さらに,ドリフト関数が奇数である場合には,最近開発されたwigner-dunkl超対称性の結果に還元する。

By replacing the spatial derivative with the Dunkl derivative, we generalize the Fokker-Planck equation in (1+1) dimensions. We obtain the Dunkl-Fokker-Planck eigenvalues equation and solve it for the harmonic oscillator plus a centrifugal-type potential. Furthermore, when the drift function is odd, we reduce our results to those of the recently developed Wigner-Dunkl supersymmetry.
翻訳日:2023-12-04 18:00:42 公開日:2023-12-01
# AG-CRC : 解剖学的知識が不十分なCTにおける大腸癌切除

AG-CRC: Anatomy-Guided Colorectal Cancer Segmentation in CT with Imperfect Anatomical Knowledge ( http://arxiv.org/abs/2310.04677v2 )

ライセンス: Link先を確認
Rongzhao Zhang, Zhian Bai, Ruoying Yu, Wenrao Pang, Lingyun Wang, Lifeng Zhu, Xiaofan Zhang, Huan Zhang, Weiguo Hu(参考訳) 医療画像から病変を区切る場合、人間の専門家は常にボクセルの背後にある解剖学的構造を念頭に置いておくことができる。 しかし,最新のディープラーニングアルゴリズムを用いたCTスキャンから,高品質な解剖学的情報を取得することは可能であるが,これらの自動生成臓器マスクが大腸癌の分節化(CRC)などの難治性病変の分節化にどのように役立つかは,未解決の問題である。 本稿では,CTからのCRCセグメンテーション,すなわちAG-CRCを支援するために自動生成臓器マスクを利用する新しい解剖誘導セグメンテーションフレームワークを開発する。 まず,既存のMOSモデル(TotalSegmentorなど)を用いた多臓器セグメンテーション (MOS) マスクを取得し,さらに大腸およびCRCボクセルの大部分をカバーする,より堅牢な関心器官 (OOI) マスクを導出する。 次に,重要な領域(例えば腫瘍や臓器)とサンプルの多様性の両方を考慮するヒューリスティックゲイン関数を最適化し,解剖学的に誘導された訓練パッチサンプリング戦略を提案する。 第3に,大腸などの管状臓器のトポロジーに触発された新しい自己教師付き学習スキームをデザインし,モデルの性能をさらに高める。 最後に,本質的な学習領域にのみ焦点をあてるために,マスク付き損失スキームを用いてモデルを誘導する。 提案する2つのcrcセグメンテーションデータセットについて,現在最先端の医用画像セグメンテーションモデルよりも相当な性能向上(diceでは5%から9%)が達成され,アブレーション研究により各成分の有効性がさらに証明された。

When delineating lesions from medical images, a human expert can always keep in mind the anatomical structure behind the voxels. However, although high-quality (though not perfect) anatomical information can be retrieved from computed tomography (CT) scans with modern deep learning algorithms, it is still an open problem how these automatically generated organ masks can assist in addressing challenging lesion segmentation tasks, such as the segmentation of colorectal cancer (CRC). In this paper, we develop a novel Anatomy-Guided segmentation framework to exploit the auto-generated organ masks to aid CRC segmentation from CT, namely AG-CRC. First, we obtain multi-organ segmentation (MOS) masks with existing MOS models (e.g., TotalSegmentor) and further derive a more robust organ of interest (OOI) mask that may cover most of the colon-rectum and CRC voxels. Then, we propose an anatomy-guided training patch sampling strategy by optimizing a heuristic gain function that considers both the proximity of important regions (e.g., the tumor or organs of interest) and sample diversity. Third, we design a novel self-supervised learning scheme inspired by the topology of tubular organs like the colon to boost the model performance further. Finally, we employ a masked loss scheme to guide the model to focus solely on the essential learning region. We extensively evaluate the proposed method on two CRC segmentation datasets, where substantial performance improvement (5% to 9% in Dice) is achieved over current state-of-the-art medical image segmentation models, and the ablation studies further evidence the efficacy of every proposed component.
翻訳日:2023-12-04 18:00:37 公開日:2023-12-01
# 自己監督型学習のためのハードビュー選択

Hard View Selection for Self-Supervised Learning ( http://arxiv.org/abs/2310.03940v3 )

ライセンス: Link先を確認
Fabio Ferreira, Ivo Rapant, Frank Hutter(参考訳) 多くの自己監視学習(SSL)メソッドは、優れたデータ拡張パイプラインが不可欠であるイメージ入力の異なる"ビュー"に不変であるようにモデルをトレーニングする。 プリテキストタスク、アーキテクチャ、ロバスト性の改善(例えば、シームズネットワークや教師ソフトマックス中心化など)にかなりの努力が払われたが、これらの手法の大半は、ランダムな再サイズ作物や色歪み操作のような画像拡張パイプライン内の操作のランダムサンプリングに強く依存している。 本稿では,ビュー生成の役割とそのパフォーマンスへの影響が,これまでのところ十分注目されていないことを論じる。 これに対処するために,ssl トレーニング中にトレーニング済みモデルをハードサンプルに公開するために,ランダムビュー生成を拡張するように設計された,簡単で学習不要かつ強力なハードビュー選択 (hvs) 戦略を提案する。 以下の反復的なステップを含む。 1)複数のビューをランダムにサンプリングし、2つのビューのペアを作成する。 2) トレーニング済みのモデルでは,ビューペアごとに前方パスを実行します。 3) 反対に,最悪の損失をもたらすペアを選択し, 4) 選択したペアで後方パスを実行する。 実験分析の結果,hvsでは,事前学習中のビューの結合を制御し,タスクの難易度を高めることが示された。 300-epochプリトレインのみにより、hvsは800-epoch dinoベースラインと密接に競合することができ、これはhvsの追加のフォワードによって引き起こされる減速の要因としても非常に有利である。 さらに、HVSは、リニア評価とDINO、SimSiam、iBOT、SimCLRなどの複数のSSLメソッド間の転送タスクにおける同様の改善で、ImageNetの0.4%から1.9%の精度改善を一貫して達成している。

Many Self-Supervised Learning (SSL) methods train their models to be invariant to different "views" of an image input for which a good data augmentation pipeline is crucial. While considerable efforts were directed towards improving pre-text tasks, architectures, or robustness (e.g., Siamese networks or teacher-softmax centering), the majority of these methods remain strongly reliant on the random sampling of operations within the image augmentation pipeline, such as the random resized crop or color distortion operation. In this paper, we argue that the role of the view generation and its effect on performance has so far received insufficient attention. To address this, we propose an easy, learning-free, yet powerful Hard View Selection (HVS) strategy designed to extend the random view generation to expose the pretrained model to harder samples during SSL training. It encompasses the following iterative steps: 1) randomly sample multiple views and create pairs of two views, 2) run forward passes for each view pair on the currently trained model, 3) adversarially select the pair yielding the worst loss, and 4) run the backward pass with the selected pair. In our empirical analysis we show that under the hood, HVS increases task difficulty by controlling the Intersection over Union of views during pretraining. With only 300-epoch pretraining, HVS is able to closely rival the 800-epoch DINO baseline which remains very favorable even when factoring in the slowdown induced by the additional forwards of HVS. Additionally, HVS consistently achieves accuracy improvements on ImageNet between 0.4% and 1.9% on linear evaluation and similar improvements on transfer tasks across multiple SSL methods, such as DINO, SimSiam, iBOT, and SimCLR.
翻訳日:2023-12-04 18:00:02 公開日:2023-12-01
# 量子アニーリングに対するメタヒューリスティック統合QAOAのベンチマーク

Benchmarking Metaheuristic-Integrated QAOA against Quantum Annealing ( http://arxiv.org/abs/2309.16796v2 )

ライセンス: Link先を確認
Arul Mazumder, Anuvab Sen, Udayon Sen(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、合成最適化の解法において最も有望なノイズ中間量子アルゴリズムの一つである。 残念ながら、QAOAのパフォーマンスはパラメータの選択に依存しており、標準的なオプティマイザはこれらの最適化関数の複雑さとミステリーのために重要なパラメータを識別できないことが多い。 本稿では,古典的および量子的ヒューリスティックスに対してメタヒューリスティックオプティマイザで修正したQAOA回路をベンチマークし,QAOAパラメータを同定する。 実験結果から,量子アニーリングとメタヒューリスティック統合QAOAの両領域における強度と限界に関する知見が得られた。 以上の結果から,このハイブリッド手法は古典的最適化戦略を活用し,qaoaの解質向上と収束速度の向上,特に頑丈な景観問題や限られた量子資源問題に対して有効であることが示唆された。 さらに,本研究は最適化問題の具体的特徴に基づいて,最も適切なアプローチを選択するためのガイドラインを提供する。

The Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising Noisy Intermediate Quantum Algorithms (NISQ) in solving combinatorial optimizations and displays potential over classical heuristic techniques. Unfortunately, QAOA performance depends on the choice of parameters and standard optimizers often fail to identify key parameters due to the complexity and mystery of these optimization functions. In this paper, we benchmark QAOA circuits modified with metaheuristic optimizers against classical and quantum heuristics to identify QAOA parameters. The experimental results reveal insights into the strengths and limitations of both Quantum Annealing and metaheuristic-integrated QAOA across different problem domains. The findings suggest that the hybrid approach can leverage classical optimization strategies to enhance the solution quality and convergence speed of QAOA, particularly for problems with rugged landscapes and limited quantum resources. Furthermore, the study provides guidelines for selecting the most appropriate approach based on the specific characteristics of the optimization problem at hand.
翻訳日:2023-12-04 17:58:04 公開日:2023-12-01
# ペルソナ符号化ポリエンコーダ:パーソナガイド付きマルチストリーム対話文スコアリング

Persona-Coded Poly-Encoder: Persona-Guided Multi-Stream Conversational Sentence Scoring ( http://arxiv.org/abs/2309.16770v2 )

ライセンス: Link先を確認
Junfeng Liu, Christopher Symons, Ranga Raju Vatsavai(参考訳) 機械学習とディープラーニングの最近の進歩は、多くの実践的応用において会話型AIの普及につながっている。 しかし、会話の質を向上させるために、会話コンテキストやパーソナライズされたチューニングを提供する補助情報を活用することは依然として非常に困難である。 例えば、個人のペルソナ情報を使って会話の質を向上させる研究は限られており、最先端の会話AI技術でさえ、マルチモーダルインタラクションデータ、人口統計、SDOHデータなどの異種データからの信号を効果的に活用することはできない。 本稿では,対話における応答生成の質を向上させるために,多ストリーム符号化方式におけるペルソナ情報を活用するペルソナ符号化方式を提案する。 提案手法の有効性を示すために,2つの異なるペルソナベースの会話型データセットを用いた手法を評価し,2つの最先端手法と比較した。 実験結果と分析により,ベースライン方式のポリエンコーダよりも会話品質が3.32%向上し,2.94%向上した。 さらに,本手法は,対話タスクにおけるマルチモーダルデータのより良い利用方法を提供する。 最後に,パーソナライズされた会話型ai技術の進歩に向けた課題と今後の研究方向性について概説する。

Recent advances in machine learning and deep learning have led to the widespread use of Conversational AI in many practical applications. However, it is still very challenging to leverage auxiliary information that can provide conversational context or personalized tuning to improve the quality of conversations. For example, there has only been limited research on using an individuals persona information to improve conversation quality, and even state-of-the-art conversational AI techniques are unable to effectively leverage signals from heterogeneous sources of auxiliary data, such as multi-modal interaction data, demographics, SDOH data, etc. In this paper, we present a novel Persona-Coded Poly-Encoder method that leverages persona information in a multi-stream encoding scheme to improve the quality of response generation for conversations. To show the efficacy of the proposed method, we evaluate our method on two different persona-based conversational datasets, and compared against two state-of-the-art methods. Our experimental results and analysis demonstrate that our method can improve conversation quality over the baseline method Poly-Encoder by 3.32% and 2.94% in terms of BLEU score and HR@1, respectively. More significantly, our method offers a path to better utilization of multi-modal data in conversational tasks. Lastly, our study outlines several challenges and future research directions for advancing personalized conversational AI technology.
翻訳日:2023-12-04 17:57:17 公開日:2023-12-01
# ハイブリッド行動強化学習によるUAV支援セマンティックコミュニケーション

UAV-assisted Semantic Communication with Hybrid Action Reinforcement Learning ( http://arxiv.org/abs/2309.16713v2 )

ライセンス: Link先を確認
Peiyuan Si, Jun Zhao, Kwok-Yan Lam, Qing Yang(参考訳) 本稿では,遠隔地におけるメタバースユーザのためのデータ収集効率を向上させるために,UAVの支援によるアップリンクセマンティックコミュニケーションの利用を検討する。 本研究では,コンストラクション品質と計算エネルギーコストのトレードオフをバランスしながら,アップリンクデータ収集の時間を短縮するために,意味モデルスケール,チャネル割り当て,伝送電力,uav軌道を決定するためのハイブリッドアクション強化学習(rl)フレームワークを提案する。 変数は離散型と連続型に分類され、2つの異なるRLエージェントによって最適化され、組み合わせたアクションを生成する。 シミュレーション結果から,提案するハイブリッドアクション強化学習フレームワークは,異なるパラメータ設定下でのアップリンク意味データ収集の効率を効果的に改善し,ベンチマークシナリオを上回った。

In this paper, we aim to explore the use of uplink semantic communications with the assistance of UAV in order to improve data collection effiicency for metaverse users in remote areas. To reduce the time for uplink data collection while balancing the trade-off between reconstruction quality and computational energy cost, we propose a hybrid action reinforcement learning (RL) framework to make decisions on semantic model scale, channel allocation, transmission power, and UAV trajectory. The variables are classified into discrete type and continuous type, which are optimized by two different RL agents to generate the combined action. Simulation results indicate that the proposed hybrid action reinforcement learning framework can effectively improve the efficiency of uplink semantic data collection under different parameter settings and outperforms the benchmark scenarios.
翻訳日:2023-12-04 17:56:56 公開日:2023-12-01
# ccedit:拡散モデルによる創造的かつ制御可能なビデオ編集

CCEdit: Creative and Controllable Video Editing via Diffusion Models ( http://arxiv.org/abs/2309.16496v2 )

ライセンス: Link先を確認
Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo(参考訳) 本稿では,拡散モデルに基づく汎用な生成ビデオ編集フレームワークであるCCEditを提案する。 提案手法では,構造と外観制御を分離し,正確かつ創造的な編集能力を確保する新しいトライデントネットワーク構造を採用する。 基本制御ネットアーキテクチャを利用して,映像の編集時の構造的完全性を維持する。 追加の外観分岐を組み込むことにより、ユーザーは編集されたキーフレームに対してきめ細かい制御を行うことができる。 これら2つのブランチは、学習可能なテンポラリレイヤを通じて、既存のtext-to-image(t2i)生成モデル上に構築されたメインブランチにシームレスに統合される。 フレームワークの汎用性は、構造表現とパーソナライズされたT2Iモデルの両方における多様な選択肢と、編集されたキーフレームを提供するオプションによって実証される。 包括的評価を容易にするため,100本のビデオと4本のターゲットプロンプトからなるBalanceCCベンチマークデータセットを導入した。 CCEditと8つの最先端ビデオ編集手法を比較した。 結果は、cceditが他のすべての方法よりも優れていることを示している。

In this paper, we present CCEdit, a versatile generative video editing framework based on diffusion models. Our approach employs a novel trident network structure that separates structure and appearance control, ensuring precise and creative editing capabilities. Utilizing the foundational ControlNet architecture, we maintain the structural integrity of the video during editing. The incorporation of an additional appearance branch enables users to exert fine-grained control over the edited key frame. These two side branches seamlessly integrate into the main branch, which is constructed upon existing text-to-image (T2I) generation models, through learnable temporal layers. The versatility of our framework is demonstrated through a diverse range of choices in both structure representations and personalized T2I models, as well as the option to provide the edited key frame. To facilitate comprehensive evaluation, we introduce the BalanceCC benchmark dataset, comprising 100 videos and 4 target prompts for each video. Our extensive user studies compare CCEdit with eight state-of-the-art video editing methods. The outcomes demonstrate CCEdit's substantial superiority over all other methods.
翻訳日:2023-12-04 17:56:40 公開日:2023-12-01
# ベータ拡散

Beta Diffusion ( http://arxiv.org/abs/2309.07867v3 )

ライセンス: Link先を確認
Mingyuan Zhou and Tianqi Chen and Zhendong Wang and Huangjie Zheng(参考訳) 境界範囲内でデータを生成するためにデマスキングとデノージングを統合する,新しい生成モデリング手法であるbeta diffusionを導入する。 スケールされたベータ分布とシフトしたベータ分布を使用することで、ベータ拡散は時間とともに乗法的遷移を利用して前方および逆拡散プロセスの両方を作成し、任意の時点のデータから、前縁と逆条件の両方でベータ分布を維持する。 加法的ガウスノイズと再重み付き証拠下界(ELBO)に依存する従来の拡散ベース生成モデルとは異なり、ベータ拡散はKL分散の凸性に由来するKL分割上界(KLUB)と乗法的に最適化される。 提案するklubは負のelboよりもベータ拡散の最適化に有効であることを実証し,2つの引数を交換したkl分岐のklubとして導出できることを示した。 bregman divergenceで表されるβ拡散の損失関数は、最適化のためのklubsの有効性をさらに支持する。 合成データと自然画像の双方における実験結果は,レンジ境界データの生成モデルにおけるベータ拡散の特異性を示し,拡散モデルの最適化におけるklubsの有効性を検証する。

We introduce beta diffusion, a novel generative modeling method that integrates demasking and denoising to generate data within bounded ranges. Using scaled and shifted beta distributions, beta diffusion utilizes multiplicative transitions over time to create both forward and reverse diffusion processes, maintaining beta distributions in both the forward marginals and the reverse conditionals, given the data at any point in time. Unlike traditional diffusion-based generative models relying on additive Gaussian noise and reweighted evidence lower bounds (ELBOs), beta diffusion is multiplicative and optimized with KL-divergence upper bounds (KLUBs) derived from the convexity of the KL divergence. We demonstrate that the proposed KLUBs are more effective for optimizing beta diffusion compared to negative ELBOs, which can also be derived as the KLUBs of the same KL divergence with its two arguments swapped. The loss function of beta diffusion, expressed in terms of Bregman divergence, further supports the efficacy of KLUBs for optimization. Experimental results on both synthetic data and natural images demonstrate the unique capabilities of beta diffusion in generative modeling of range-bounded data and validate the effectiveness of KLUBs in optimizing diffusion models, thereby making them valuable additions to the family of diffusion-based generative models and the optimization techniques used to train them.
翻訳日:2023-12-04 17:55:22 公開日:2023-12-01
# シンプレクティック構造-ハミルトニアン(グラフ)埋め込み

Symplectic Structure-Aware Hamiltonian (Graph) Embeddings ( http://arxiv.org/abs/2309.04885v3 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Tianle Zhang, Xiaowei Huang(参考訳) 従来のグラフニューラルネットワーク(gnn)では、固定埋め込み多様体の仮定はしばしば、多様なグラフジオメトリへの適応性を制限する。 近年,ノード特徴更新に物理法則を組み込むことにより,そのような埋め込みの動的性質に対処するために,ハミルトン系システムに着想を得たGNNが提案されている。 我々は、より柔軟なノード特徴更新のためにハミルトン力学を一般化する新しいアプローチであるSymphlectic Structure-Aware Hamiltonian GNN (SAH-GNN)を提案する。 既存のハミルトン的アプローチとは異なり、SAH-GNNはシンプレクティック・スティーフェル多様体に対してリーマン的最適化を用い、基礎となるシンプレクティック構造を適応的に学習し、既定の標準シンプレクティック構造の形式に依存する既存のハミルトン的GNNの制限を回避する。 このイノベーションにより、SAH-GNNは広範なハイパーパラメータチューニングなしで、様々なグラフデータセットに自動的に適応できる。 さらに訓練中にエネルギーを節約するので、暗黙のハミルトニアン系は物理的に有意である。 最後に,複数のグラフデータセットにまたがるノード分類タスクにおいて,SAH-GNNの優越性と適応性を実証的に検証する。

In traditional Graph Neural Networks (GNNs), the assumption of a fixed embedding manifold often limits their adaptability to diverse graph geometries. Recently, Hamiltonian system-inspired GNNs have been proposed to address the dynamic nature of such embeddings by incorporating physical laws into node feature updates. We present Symplectic Structure-Aware Hamiltonian GNN (SAH-GNN), a novel approach that generalizes Hamiltonian dynamics for more flexible node feature updates. Unlike existing Hamiltonian approaches, SAH-GNN employs Riemannian optimization on the symplectic Stiefel manifold to adaptively learn the underlying symplectic structure, circumventing the limitations of existing Hamiltonian GNNs that rely on a pre-defined form of standard symplectic structure. This innovation allows SAH-GNN to automatically adapt to various graph datasets without extensive hyperparameter tuning. Moreover, it conserves energy during training meaning the implicit Hamiltonian system is physically meaningful. Finally, we empirically validate SAH-GNN's superiority and adaptability in node classification tasks across multiple types of graph datasets.
翻訳日:2023-12-04 17:54:55 公開日:2023-12-01
# ロボット設計における双曲埋め込みの活用

Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot Design ( http://arxiv.org/abs/2311.00462v3 )

ライセンス: Link先を確認
Heng Dong, Junyu Zhang, Chongjie Zhang(参考訳) 多細胞ロボットの設計の目的は、多様なタスクを効率的に制御できる多数の細胞からなるロボットを作ることである。 これまでの研究では、さまざまなタスクのためのロボットを生成する能力が実証されてきたが、これらのアプローチは、しばしば広大なデザイン空間でロボットを直接最適化する。 そこで本研究では,多細胞ロボットを設計する手法を提案する。 まず、この戦略は最適な粗粒ロボットを探し、段階的に精製する。 本稿では,ロボット設計のための双曲組込み(herd)フレームワークを提案する。 HERDは共有双曲空間内で様々な粒度のロボットを統一し、最適化のために洗練されたクロスエントロピー法を利用する。 本手法は,双曲空間における探索領域を自律的に同定し,将来性を示す領域に集中することを可能にする。 最後に、EvoGymから得られた様々な課題に関する広範な実証研究は、我々のアプローチの優れた効率性と一般化能力を示している。

Multi-cellular robot design aims to create robots comprised of numerous cells that can be efficiently controlled to perform diverse tasks. Previous research has demonstrated the ability to generate robots for various tasks, but these approaches often optimize robots directly in the vast design space, resulting in robots with complicated morphologies that are hard to control. In response, this paper presents a novel coarse-to-fine method for designing multi-cellular robots. Initially, this strategy seeks optimal coarse-grained robots and progressively refines them. To mitigate the challenge of determining the precise refinement juncture during the coarse-to-fine transition, we introduce the Hyperbolic Embeddings for Robot Design (HERD) framework. HERD unifies robots of various granularity within a shared hyperbolic space and leverages a refined Cross-Entropy Method for optimization. This framework enables our method to autonomously identify areas of exploration in hyperbolic space and concentrate on regions demonstrating promise. Finally, the extensive empirical studies on various challenging tasks sourced from EvoGym show our approach's superior efficiency and generalization capability.
翻訳日:2023-12-04 17:48:04 公開日:2023-12-01
# 北エフの量子二重模型の任意のセクターの分類

Classification of the anyon sectors of Kitaev's quantum double model ( http://arxiv.org/abs/2310.19661v3 )

ライセンス: Link先を確認
Alex Bols, Siddharth Vadnerkar(参考訳) 無限三角格子上のキタエフの量子二重モデルの任意のセクターと、非アーベルケースを含む有限ゲージ群$G$の完全な分類を与える。 予想通り、モデルの任意のセクターは、正確に$G$の量子二重代数の既約表現に対応する。 私たちの証明は2つの主な部分からなる。 第一部では、量子二重代数の各既約表現を純粋状態として構成し、これらの純状態の GNS 表現が任意のセクターに対的に不随意であることを示す。 第2部では、任意のエノンセクターが、第1部で構築されたエノンセクターの1つに一意的に等しいことを示す。 最初の部分で構築された状態の純度は、これらの状態が適切な局所的制約を満たすユニークな状態として特徴づけられる。 これらの制約はフラックス制約とゲージ制約の2種類からなる。 フラックス制約は特定の文字列-ネット状態を取り除き、ゲージ制約はこれらの文字列-ネットのコンデンスを固定する。 証明の核心は、局所ゲージ変換のある群が局所弦ネットの集合に対して自由に推移的に作用するという事実である。 これらの状態の GNS 表現が任意のセクターであることの証明は、基底状態表現と比較し易い増幅同型表現と一意的に等しいことを示すことに依拠している。 第2部では、任意の任意のオンセクタは、第一部の純粋状態を特徴づける有限個の制約を除いてすべてを満たす純粋な状態を含むことを示す。 既知の手法を用いることで、これらの制約のうちの1つを除いて全てを満たすあらゆるセクターで純粋な状態を構築することができる。 最後に、そのような状態は、最初の部分で構築されたアノンセクタの1つにおいてベクトル状態でなければならないことを示す。

We give a complete classification of the anyon sectors of Kitaev's quantum double model on the infinite triangular lattice and for finite gauge group $G$, including the non-abelian case. As conjectured, the anyon sectors of the model correspond precisely to the irreducible representations of the quantum double algebra of $G$. Our proof consists of two main parts. In the first part, we construct for each irreducible representation of the quantum double algebra a pure state and show that the GNS representations of these pure states are pairwise disjoint anyon sectors. In the second part we show that any anyon sector is unitarily equivalent to one of the anyon sectors constructed in the first part. Purity of the states constructed in the first part is shown by characterising these states as the unique states that satisfy appropriate local constraints. These constraints are of two types, namely flux constraints and gauge constraints. The flux constraints single out certain string-net states, while the gauge constraints fix the way in which these string-nets condense. At the core of the proof is the fact that certain groups of local gauge transformations act freely and transitively on collections of local string-nets. The proof that the GNS representations of these states are anyon sectors relies on showing that they are unitarily equivalent to amplimorphism representations which are much easier to compare to the ground state representation. For the second part, we show that any anyon sector contains a pure state that satisfies all but a finite number of the constraints characterising the pure states of the first part. Using known techniques we can then construct a pure state in the anyon sector that satisfies all but one of these constraints. Finally, we show that any such state must be a vector state in one of the anyon sectors constructed in the first part.
翻訳日:2023-12-04 17:47:48 公開日:2023-12-01
# 量子通信用シリコン中のoバンドおよび遷移金属色中心の光物理

Photophysics of O-band and transition metal color centers in monolithic silicon for quantum communications ( http://arxiv.org/abs/2310.19510v2 )

ライセンス: Link先を確認
Murat Can Sarihan, Jiahui Huang, Jin Ho Kang, Cody Fan, Wei Liu, Khalifa M. Azizur-Rahman, Baolai Liang, Chee Wei Wong(参考訳) 低分散Oバンド波長における色中心は、エネルギー時間絡みによるメモリ支援量子通信に向けた長寿命量子ネットワークノードにとって不可欠な資源である。 そこで本研究では,光発光のダイナミクスを検証しながら,T中心およびその他の色中心欠陥の発生過程を解明し,量子ビットストレージと放射効率を向上させる。 t センターの $tx_{0}$ ライフタイムを 65% から 1.56 に延長した。 さらに、ゼロ分散波長に近づいた1312nm付近に$^*Cu_n^m$関連ダブルト発光が存在し、スピン縮退により0.5T以下で磁場誘起膨張が25%増加し、T中心を高忠実なスピン光子界面として置き換えることが可能となる。

Color centers at the low-dispersion O-band wavelengths are an essential resource for long-lifetime quantum network nodes toward memory-assisted quantum communications using energy-time entanglement. In this work, we explore the process of developing T centers and other color center defects to improve qubit storage and radiative efficiency while examining the photoluminescence dynamics. We have extended the $TX_{0}$ lifetime of T centers by 65% to 1.56 $\mu$s. Furthermore, we discover the presence of a $^*Cu_n^m$ related doublet emission around 1312 nm close to the zero-dispersion wavelength, with a spin degeneracy resulting in a magnetic-field induced broadening by 25% under 0.5 T, which can be an alternative to T centers as a high-fidelity spin-photon interface.
翻訳日:2023-12-04 17:47:16 公開日:2023-12-01
# 複素固有値を用いた動的モード分解と行列固有値分解の量子アルゴリズム

Quantum Algorithm for Dynamic Mode Decomposition and Matrix Eigenvalue Decomposition with Complex Eigenvalues ( http://arxiv.org/abs/2310.17783v2 )

ライセンス: Link先を確認
Yuta Mizuno, Tamiki Komatsuzaki(参考訳) 量子微分方程式解法によりシミュレーションされた時系列データを解析する量子アルゴリズムを提案する。 提案アルゴリズムは流体力学や疫学などの様々な分野で使用される動的モード分解アルゴリズムの量子バージョンである。 量子アルゴリズムは、対応する線形力学系を分析して行列固有値を抽出することもできる。 我々のアルゴリズムは、特定の行列型に限定された既存の効率的な量子固有解法とは異なり、複雑な固有値を持つ幅広い行列を扱う。 我々の量子アルゴリズムの複雑さは、$N$次元システムに対して$O(\operatorname{poly}\log N)$である。 これは既知の古典的アルゴリズムに対する指数的なスピードアップであり、少なくともO(N)$複雑性を持つ。 したがって, 量子アルゴリズムでは, 高次元力学系解析と行列固有値分解が可能であり, 古典的計算機では難解である。

We present a quantum algorithm that analyzes time series data simulated by a quantum differential equation solver. The proposed algorithm is a quantum version of the dynamic mode decomposition algorithm used in diverse fields such as fluid dynamics and epidemiology. Our quantum algorithm can also extract matrix eigenvalues by analyzing the corresponding linear dynamical system. Our algorithm handles a broader range of matrices with complex eigenvalues, unlike existing efficient quantum eigensolvers limited to specific matrix types. The complexity of our quantum algorithm is $O(\operatorname{poly}\log N)$ for an $N$-dimensional system. This is an exponential speedup over known classical algorithms with at least $O(N)$ complexity. Thus, our quantum algorithm is expected to enable high-dimensional dynamical systems analysis and large matrix eigenvalue decomposition, intractable for classical computers.
翻訳日:2023-12-04 17:47:01 公開日:2023-12-01
# VMAFによるPyTorchの再実装:実験結果

VMAF Re-implementation on PyTorch: Some Experimental Results ( http://arxiv.org/abs/2310.15578v3 )

ライセンス: Link先を確認
Kirill Aistov and Maxim Koroteev(参考訳) 標準VMAF実装に基づいて,PyTorchフレームワークを用いたVMAFの実装を提案する。 この実装で標準(libvmaf)と比較すると、vmafユニットで$\lesssim 10^{-2}$の差が示される。 目的関数としてVMAFを使用する場合の勾配計算について検討し、この関数を用いたトレーニングが不利な勾配を生じさせないことを示す。 その後、プリプロセッシングフィルタのトレーニングに実装が使用される。 その性能はアンシャープマスキングフィルタよりも優れていることが実証された。 結果として得られるフィルタは実装も容易であり、ビデオ圧縮改善のためのビデオ処理タスクにも適用できる。 これは数値実験の結果によって確認される。

Based on the standard VMAF implementation we propose an implementation of VMAF using PyTorch framework. For this implementation comparisons with the standard (libvmaf) show the discrepancy $\lesssim 10^{-2}$ in VMAF units. We investigate gradients computation when using VMAF as an objective function and demonstrate that training using this function does not result in ill-behaving gradients. The implementation is then used to train a preprocessing filter. It is demonstrated that its performance is superior to the unsharp masking filter. The resulting filter is also easy for implementation and can be applied in video processing tasks for video copression improvement. This is confirmed by the results of numerical experiments.
翻訳日:2023-12-04 17:46:50 公開日:2023-12-01
# 衝突自由運動計画のための絶縁体による伝熱拡散

Denoising Heat-inspired Diffusion with Insulators for Collision Free Motion Planning ( http://arxiv.org/abs/2310.12609v2 )

ライセンス: Link先を確認
Junwoo Chang, Hyunwoo Ryu, Jiwoo Kim, Soochul Yoo, Joohwan Seo, Nikhil Prakash, Jongeun Choi, Roberto Horowitz(参考訳) 拡散モデルは、柔軟性と多モード性のためにロボット工学の強力なツールとして台頭している。 これらの手法のいくつかは複雑な問題に効果的に対処するが、しばしば推論時の障害物検出に大きく依存し、追加の機器を必要とする。 これらの課題に対処し,推論時間中に,単一の視覚入力から,到達可能な目標と障害を回避する計画動作のみを同時に生成する手法を提案する。 我々のアプローチの中心は、衝突回避拡散カーネルをトレーニングに利用することである。 ビヘイビアクローニングモデルや古典拡散モデルに対する評価を通じて,その頑健性が証明された。 マルチモーダル環境では特に効果的で、目標に向かって移動し、障害物によってブロックされた到達不能なものを避けながら、衝突回避を確保する。

Diffusion models have risen as a powerful tool in robotics due to their flexibility and multi-modality. While some of these methods effectively address complex problems, they often depend heavily on inference-time obstacle detection and require additional equipment. Addressing these challenges, we present a method that, during inference time, simultaneously generates only reachable goals and plans motions that avoid obstacles, all from a single visual input. Central to our approach is the novel use of a collision-avoiding diffusion kernel for training. Through evaluations against behavior-cloning and classical diffusion models, our framework has proven its robustness. It is particularly effective in multi-modal environments, navigating toward goals and avoiding unreachable ones blocked by obstacles, while ensuring collision avoidance.
翻訳日:2023-12-04 17:46:27 公開日:2023-12-01
# Llemma: 数学のためのオープン言語モデル

Llemma: An Open Language Model For Mathematics ( http://arxiv.org/abs/2310.10631v2 )

ライセンス: Link先を確認
Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck(参考訳) 数学のための大きな言語モデルであるLlemmaを紹介します。 我々は、科学論文、数学を含むwebデータ、数学的コード、およびllemmaの混合である proof-pile-2 のコードllama を事前トレーニングし続けます。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデル、および未リリースのMinervaモデルスイートを均等に上回る。 さらに、llemmaはツールの使用と形式的な定理の証明を、それ以上の微調整なしに行うことができる。 70億と34億のパラメータモデル、Proof-Pile-2、実験を再現するコードを含む、すべてのアーティファクトを公開しています。

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
翻訳日:2023-12-04 17:45:46 公開日:2023-12-01
# JMedLoRA:インストラクションチューニングを用いた日本語大言語モデルの医学領域適応

JMedLoRA:Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning ( http://arxiv.org/abs/2310.10083v2 )

ライセンス: Link先を確認
Issey Sukeda, Masahiro Suzuki, Hiroki Sakaji, Satoshi Kodera(参考訳) ChatGPTのような大規模言語モデル(LLM)による継続的な影響の波の中で、医学領域へのLSMの適応が重要な研究フロンティアとして現れている。 主流のLSMは汎用アプリケーション向けに設計される傾向があるため、ドメイン適応による医療用LSMの構築は大きな課題である。 命令チューニングはいくつかのLSMを微調整するために使用されるが、ドメイン適応におけるその正確な役割は不明である。 ここでは,LoRAに基づく指導指導が日本語の質問応答タスクにおけるパフォーマンスに与える影響について述べる。 そこで我々は,従来の精度に加えて,"Exact Match" と "Gestalt distance" に基づく得点を含む,多面的質問に対する多面的評価を採用する。 以上の結果から,LoRAに基づく命令チューニングはLLMにドメイン固有の知識を部分的に組み込むことが可能であることが示唆された。 さらに,本研究は,英語中心モデルの日本語適応の可能性を強調しつつ,日本語中心モデルの持続的な制限を強調するものである。 このイニシアチブは、医療機関が外部サービスに頼ることなくモデルを微調整し運用できるようにするための先駆的な取り組みである。

In the ongoing wave of impact driven by large language models (LLMs) like ChatGPT, the adaptation of LLMs to medical domain has emerged as a crucial research frontier. Since mainstream LLMs tend to be designed for general-purpose applications, constructing a medical LLM through domain adaptation is a huge challenge. While instruction-tuning is used to fine-tune some LLMs, its precise roles in domain adaptation remain unknown. Here we show the contribution of LoRA-based instruction-tuning to performance in Japanese medical question-answering tasks. In doing so, we employ a multifaceted evaluation for multiple-choice questions, including scoring based on "Exact match" and "Gestalt distance" in addition to the conventional accuracy. Our findings suggest that LoRA-based instruction-tuning can partially incorporate domain-specific knowledge into LLMs, with larger models demonstrating more pronounced effects. Furthermore, our results underscore the potential of adapting English-centric models for Japanese applications in domain adaptation, while also highlighting the persisting limitations of Japanese-centric models. This initiative represents a pioneering effort in enabling medical institutions to fine-tune and operate models without relying on external services.
翻訳日:2023-12-04 17:45:34 公開日:2023-12-01
# 無線通信のための拡散モデル

Diffusion Models for Wireless Communications ( http://arxiv.org/abs/2310.07312v3 )

ライセンス: Link先を確認
Mehdi Letafati, Samad Ali, and Matti Latva-aho(参考訳) GPT-4や安定拡散モデルのような革新的基礎モデルは、人工知能(AI)の領域をAIベースのシステムへとパラダイムシフトさせた。 AIと機械学習(AI/ML)アルゴリズムは、将来の無線通信システムに広く組み込まれることが想定されている。 本稿では,無線通信システムにおける拡散モデルの応用について概説する。 ステップを越えてデータ生成プロセスを分解し、ノイズから徐々にサンプルを生成する、というのが重要なアイデアだ。 本稿では,2つのケーススタディに基づいて,AIネイティブ通信システムの開発に拡散モデルを用いる方法を示す。 具体的には,非理想的トランシーバを用いた無線通信方式において,ビット誤り率で30%改善が達成されるデノイジング拡散確率モデル(ddpm)を提案する。 他方の例では、ddpmは送信機で星座のシンボルを形作るために使われ、ロバストな分散性能を強調する。

Innovative foundation models, such as GPT-4 and stable diffusion models, have made a paradigm shift in the realm of artificial intelligence (AI) towards generative AI-based systems. AI and machine learning (AI/ML) algorithms are envisioned to be pervasively incorporated into the future wireless communications systems. In this article, we outline the applications of diffusion models in wireless communication systems, which are a new family of probabilistic generative models that have showcased state-of-the-art performance. The key idea is to decompose data generation process over "denoising" steps, gradually generating samples out of noise. Based on two case studies presented, we show how diffusion models can be employed for the development of resilient AI-native communication systems. Specifically, we propose denoising diffusion probabilistic models (DDPM) for a wireless communication scheme with non-ideal transceivers, where 30% improvement is achieved in terms of bit error rate. In the other example, DDPM is employed at the transmitter to shape the constellation symbols, highlighting a robust out-of-distribution performance.
翻訳日:2023-12-04 17:45:10 公開日:2023-12-01
# itransformer: 逆変換器は時系列予測に有効である

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting ( http://arxiv.org/abs/2310.06625v2 )

ライセンス: Link先を確認
Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long(参考訳) 線形予測モデルの最近のブームは、トランスフォーマーベースの予測器のアーキテクチャ変更に対する継続的な情熱に疑問を呈している。 これらの予測器はTransformerを利用して時系列の時間的トークンに対するグローバルな依存関係をモデル化し、各トークンは同じタイムスタンプの複数の変数によって形成される。 しかし、トランスフォーマーは、性能劣化と計算の爆発により、見返り窓が大きいシリーズの予測に挑戦する。 さらに、各時間トークンの埋め込みは、潜在的な遅延事象と異なる物理的測定を表わす複数の変数を融合させ、変数中心の表現の学習に失敗し、無意味な注意マップをもたらす可能性がある。 本研究では,Transformer コンポーネントの能力的責務を反映し,基本コンポーネントを変更することなく Transformer アーキテクチャを再利用する。 本稿では,注意とフィードフォワードネットワークを逆次元に適用するitransformerを提案する。 具体的には、個々の時系列の時間ポイントを多変量トークンに埋め込み、注意機構によって多変量相関を捉え、一方、各変量トークンに対してフィードフォワードネットワークを適用して非線形表現を学習する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端化を実現し、Transformerファミリーをさらに強化し、パフォーマンスの向上、さまざまな変数をまたいだ一般化能力、任意のルックバックウィンドウの利用性を向上する。

The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with each token formed by multiple variates of the same timestamp. However, Transformers are challenged in forecasting series with larger lookback windows due to performance degradation and computation explosion. Besides, the embedding for each temporal token fuses multiple variates that represent potential delayed events and distinct physical measurements, which may fail in learning variate-centric representations and result in meaningless attention maps. In this work, we reflect on the competent duties of Transformer components and repurpose the Transformer architecture without any modification to the basic components. We propose iTransformer that simply applies the attention and feed-forward network on the inverted dimensions. Specifically, the time points of individual series are embedded into variate tokens which are utilized by the attention mechanism to capture multivariate correlations; meanwhile, the feed-forward network is applied for each variate token to learn nonlinear representations. The iTransformer model achieves state-of-the-art on challenging real-world datasets, which further empowers the Transformer family with promoted performance, generalization ability across different variates, and better utilization of arbitrary lookback windows, making it a nice alternative as the fundamental backbone of time series forecasting.
翻訳日:2023-12-04 17:44:52 公開日:2023-12-01
# musechat:ビデオのための会話型音楽推薦システム

MuseChat: A Conversational Music Recommendation System for Videos ( http://arxiv.org/abs/2310.06282v3 )

ライセンス: Link先を確認
Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang(参考訳) ビデオのための音楽レコメンデーションは、マルチモーダル研究への関心が高まっている。 しかし、既存のシステムはコンテンツ互換性に重点を置いており、ユーザーの好みを無視していることが多い。 さらなる改良のためにユーザと対話したり、説明を提供したりできないことは、満足のいく経験に繋がる。 ビデオのための音楽提案をパーソナライズする対話型レコメンデーションシステムであるmusechatでこの問題に対処した。 我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。 レコメンデーションモジュールは、以前の推奨音楽やユーザの好みを含む任意の情報を入力としてビデオを取り、コンテキストにマッチした適切な音楽を取得する。 推論モジュールはLarge Language Model (Vicuna-7B)のパワーを備え、マルチモーダル入力に拡張され、推奨音楽に対して合理的な説明を提供することができる。 musechatの有効性を評価するために,ビデオに対する対話型音楽レコメンデーションという大規模データセットを構築し,正確な音楽トラック情報に基づいてユーザとレコメンデータ間の2ターンインタラクションをシミュレートする。 実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善され,高い解釈性と対話性が得られることがわかった。

Music recommendation for videos attracts growing interest in multi-modal research. However, existing systems focus primarily on content compatibility, often ignoring the users' preferences. Their inability to interact with users for further refinements or to provide explanations leads to a less satisfying experience. We address these issues with MuseChat, a first-of-its-kind dialogue-based recommendation system that personalizes music suggestions for videos. Our system consists of two key functionalities with associated modules: recommendation and reasoning. The recommendation module takes a video along with optional information including previous suggested music and user's preference as inputs and retrieves an appropriate music matching the context. The reasoning module, equipped with the power of Large Language Model (Vicuna-7B) and extended to multi-modal inputs, is able to provide reasonable explanation for the recommended music. To evaluate the effectiveness of MuseChat, we build a large-scale dataset, conversational music recommendation for videos, that simulates a two-turn interaction between a user and a recommender based on accurate music track information. Experiment results show that MuseChat achieves significant improvements over existing video-based music retrieval methods as well as offers strong interpretability and interactability.
翻訳日:2023-12-04 17:44:27 公開日:2023-12-01
# SimPLR: オブジェクト検出とセグメンテーションのためのシンプルでプレーンな変換器

SimPLR: A Simple and Plain Transformer for Object Detection and Segmentation ( http://arxiv.org/abs/2310.05920v2 )

ライセンス: Link先を確認
Duy-Kien Nguyen and Martin R. Oswald and Cees G. M. Snoek(参考訳) 様々なスケールで物体を検出する能力は、現代の物体検出器の設計において重要な役割を担っている。 手作りの部品を取り除き、トランスフォーマーでアーキテクチャを単純化するという大きな進歩にもかかわらず、マルチスケールの特徴マップやピラミッドデザインは、その経験的成功の重要な要素である。 本稿では, この特徴ピラミッドや階層的バックボーンへの依存は不要であり, 大規模注意を意識した変圧器ベースの検出器により, 背骨と検出ヘッドが非階層的かつ単一スケールの特徴を持つ平板検出器「SimPLR」が実現可能であることを示す。 平易なアーキテクチャにより、SimPLRは自己教師付き学習とViTによるスケーリングアプローチの利点を効果的に活用することができ、階層的およびマルチスケールのアプローチと比較して競争性能が向上する。 我々は,大規模なViTバックボーンにスケールする場合,SimPLRは終端分割モデル (Mask2Former) や平板バックボーン検出器 (ViTDet) よりも性能が向上することを示した。 コードはリリースされます。

The ability to detect objects in images at varying scales has played a pivotal role in the design of modern object detectors. Despite considerable progress in removing hand-crafted components and simplifying the architecture with transformers, multi-scale feature maps and/or pyramid design remain a key factor for their empirical success. In this paper, we show that this reliance on either feature pyramids or an hierarchical backbone is unnecessary and a transformer-based detector with scale-aware attention enables the plain detector `SimPLR' whose backbone and detection head are both non-hierarchical and operate on single-scale features. The plain architecture allows SimPLR to effectively take advantages of self-supervised learning and scaling approaches with ViTs, yielding competitive performance compared to hierarchical and multi-scale counterparts. We demonstrate through our experiments that when scaling to larger ViT backbones, SimPLR indicates better performance than end-to-end segmentation models (Mask2Former) and plain-backbone detectors (ViTDet), while consistently being faster. The code will be released.
翻訳日:2023-12-04 17:44:06 公開日:2023-12-01
# GaussianEditor: Swiftとコントロール可能な3D編集

GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2311.14521v2 )

ライセンス: Link先を確認
Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, Zhongang Cai, Lei Yang, Huaping Liu, Guosheng Lin(参考訳) 3D編集はゲームや仮想現実など多くの分野で重要な役割を果たしている。 メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。 一方,neural radiance field(nerf)のような暗黙の3d表現に基づく手法では,複雑なシーンを効果的に描画するが,処理速度の低下や特定のシーン領域の制御が制限される。 これらの課題に応えて,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。 GaussianEditorは、トレーニングプロセスを通して編集対象をトレースする提案したGaussianセマンティックトレースを通じて、編集の精度と制御を強化する。 さらに,2次元拡散モデルから確率的生成誘導下での安定化および微細化を実現するために階層型ガウススプラッティング(HGS)を提案する。 また,オブジェクトの効率的な削除と統合のための編集戦略を開発し,既存の手法では難しい課題である。 総合的な実験により,gaussianeditorの優れた制御,有効性,高速性能が示され,3d編集の著しい進歩が示された。 プロジェクトページ: https://buaacyw.github.io/gaussian-editor/

3D editing plays a crucial role in many areas such as gaming and virtual reality. Traditional 3D editing methods, which rely on representations like meshes and point clouds, often fall short in realistically depicting complex scenes. On the other hand, methods based on implicit 3D representations, like Neural Radiance Field (NeRF), render complex scenes effectively but suffer from slow processing speeds and limited control over specific scene areas. In response to these challenges, our paper presents GaussianEditor, an innovative and efficient 3D editing algorithm based on Gaussian Splatting (GS), a novel 3D representation. GaussianEditor enhances precision and control in editing through our proposed Gaussian semantic tracing, which traces the editing target throughout the training process. Additionally, we propose Hierarchical Gaussian splatting (HGS) to achieve stabilized and fine results under stochastic generative guidance from 2D diffusion models. We also develop editing strategies for efficient object removal and integration, a challenging task for existing methods. Our comprehensive experiments demonstrate GaussianEditor's superior control, efficacy, and rapid performance, marking a significant advancement in 3D editing. Project Page: https://buaacyw.github.io/gaussian-editor/
翻訳日:2023-12-04 17:37:51 公開日:2023-12-01
# アンダーサンプルMRI再構成のための高速可制御拡散モデル

Fast Controllable Diffusion Models for Undersampled MRI Reconstruction ( http://arxiv.org/abs/2311.12078v2 )

ライセンス: Link先を確認
Wei Jiang, Zhuang Xiong, Feng Liu, Nan Ye, Hongfu Sun(参考訳) 改良された深層学習法はMRI(MRI)のアンダーサンプル再構成において有望であるが、そのペア化データに対する要求はMRI取得パラメータの一般化性を制限する。 近年、異なるMRI取得のためのペアデータやモデル再構成なしに、アンサンプされたMRI再構成に制御不能な生成拡散モデルが適用されている。 しかし、一般に拡散モデルはサンプリングが遅く、最先端の加速技術は制御可能な生成プロセスに直接適用される場合、最適以下の結果をもたらす可能性がある。 本研究では,MRI画像再構成のための拡散モデルの制御可能生成を促進・促進するPredictor-Projector-Noisor(PPN)アルゴリズムを提案する。 以上の結果から, PPNは, k空間のアンサンプ測定に適合する高忠実なMR像を生成できることがわかった。 さらに、教師なしPPN加速拡散モデルが異なるMRI取得パラメータに適応可能であり、教師付き学習技術よりも臨床的に有用である。

Supervised deep learning methods have shown promise in undersampled Magnetic Resonance Imaging (MRI) reconstruction, but their requirement for paired data limits their generalizability to the diverse MRI acquisition parameters. Recently, unsupervised controllable generative diffusion models have been applied to undersampled MRI reconstruction, without paired data or model retraining for different MRI acquisitions. However, diffusion models are generally slow in sampling and state-of-the-art acceleration techniques can lead to sub-optimal results when directly applied to the controllable generation process. This study introduces a new algorithm called Predictor-Projector-Noisor (PPN), which enhances and accelerates controllable generation of diffusion models for undersampled MRI reconstruction. Our results demonstrate that PPN produces high-fidelity MR images that conform to undersampled k-space measurements with significantly shorter reconstruction time than other controllable sampling methods. In addition, the unsupervised PPN accelerated diffusion models are adaptable to different MRI acquisition parameters, making them more practical for clinical use than supervised learning techniques.
翻訳日:2023-12-04 17:36:38 公開日:2023-12-01
# 下流タスク一般化のためのLoRAアダプタのトークンレベル適応

Token-Level Adaptation of LoRA Adapters for Downstream Task Generalization ( http://arxiv.org/abs/2311.10847v2 )

ライセンス: Link先を確認
Joshua Belofsky(参考訳) 本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。 従来の混在型アーキテクチャとは異なり,本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けされた組み合わせを選択するために勾配のないルーティング関数を用いる。 その結果,LoRAアダプタのトークンレベル適応は,数学(GSM8K),科学(ARC-Challenge),読書理解(SQuAD),コーディング(CodeAlpaca-20k)タスクにおいて,基礎となるLlama-2-7bモデルよりも優れていた。 さらに、トークンレベルの適応の平均性能は、各タスクごとに微調整された個々のモデルよりも優れており、推論中に各トークンの適応で観察される最高のパフォーマンスが示される。 本研究のコードは,パブリックリポジトリを通じて公開されている。

This paper introduces a method for adapting LoRA adapters in smaller-sized language models to arbitrary downstream tasks. Unlike standard mixture-of-expert architectures, our method employs a gradient-free routing function to choose a weighted combination of experts without increasing the compute requirements for training or inference. The results show that token-level adaptation of LoRA adapters outperforms the base Llama-2-7b model across mathematical (GSM8K), scientific (ARC-Challenge), reading comprehension (SQuAD), and coding (CodeAlpaca-20k) tasks. Further evaluations also show that the average performance of token-level adaptation outperforms individual models fine-tuned for each of the tasks with the best performance observed in adaptation of every-other token during inference. The code for this study is made available through a public repository.
翻訳日:2023-12-04 17:36:21 公開日:2023-12-01
# 信頼できる大規模ビジョンモデル:サーベイ

Trustworthy Large Models in Vision: A Survey ( http://arxiv.org/abs/2311.09680v4 )

ライセンス: Link先を確認
Ziyan Guo and Li Xu and Jun Liu(参考訳) 大規模モデル(LM)の急速な進歩は、最近、自然言語処理(NLP)からコンピュータビジョン(CV)まで、様々な分野の深層学習に革命をもたらした。 しかし、LMは強力な性能を持つが信頼できない行動のため、学界や業界によってますます批判され、信頼性の高い方法によって緊急に緩和される必要がある。 NLPにおける信頼できるLMに関する文献が豊富にあるにもかかわらず、CVにおけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。 このギャップを緩和するために,本調査におけるlmsの視点における信頼に値する利用を妨げる4つの懸念を要約する。 1)人間の誤用。 2)脆弱性。 3)本質的な問題 4) 解釈可能。 それぞれの課題、対策、議論を強調することにより、この調査が読者のこの分野に対する理解を促進し、LMと人間の期待との整合を促進し、人類社会の災害というよりは、信頼できるLMを福祉として機能させることを期待する。

The rapid progress of Large Models (LMs) has recently revolutionized various fields of deep learning with remarkable grades, ranging from Natural Language Processing (NLP) to Computer Vision (CV). However, LMs are increasingly challenged and criticized by academia and industry due to their powerful performance but untrustworthy behavior, which urgently needs to be alleviated by reliable methods. Despite the abundance of literature on trustworthy LMs in NLP, a systematic survey specifically delving into the trustworthiness of LMs in CV remains absent. In order to mitigate this gap, we summarize four relevant concerns that obstruct the trustworthy usage in vision of LMs in this survey, including 1) human misuse, 2) vulnerability, 3) inherent issue and 4) interpretability. By highlighting corresponding challenge, countermeasures, and discussion in each topic, we hope this survey will facilitate readers' understanding of this field, promote alignment of LMs with human expectations and enable trustworthy LMs to serve as welfare rather than disaster for human society.
翻訳日:2023-12-04 17:36:03 公開日:2023-12-01
# 大域体による縮退スピン量子ビット上のゲートの絡み合い

Entangling gates on degenerate spin qubits dressed by a global field ( http://arxiv.org/abs/2311.09567v2 )

ライセンス: Link先を確認
Ingvild Hansen, Amanda E. Seedhouse, Santiago Serrano, Andreas Nickl, MengKe Feng, Jonathan Y. Huang, Tuomo Tanttu, Nard Dumoulin Stuyck, Wee Han Lim, Fay E. Hudson, Kohei M. Itoh, Andre Saraiva, Arne Laucht, Andrew S. Dzurak, Chih Hwan Yang(参考訳) コヒーレントな服装のスピンは、環境騒音に対する耐性とグローバル制御フィールドとの互換性のため、将来の量子コンピュータの構成要素として有望な結果を示している。 この操作モードにより、より快適なキュービットアーキテクチャ要求が可能になり、チップ上の信号ルーティングが簡単になる。 しかし、量子ビットアドレス性や2量子ビットゲートのようなマルチキュービット演算は、普遍量子コンピューティングへの実行可能な経路として、服を着た量子ビットと組み合わせてグローバル制御を確立することは、まだ実証されていない。 本稿では,大域的場を用いた縮退量子ビットの同時オン共振駆動を実証する。 さらに、オン共振駆動時のスワップ振動を実装し、駆動型2量子ビットゲートのデモンストレーションを構成する。 以上の結果から,重畳状態間のゲートの絡み合わさりの脆弱さと,ドレッシングが耐雑音性に与える影響が示唆された。 これらの結果は、服装のキュービットを持つグローバル制御操作にとって重要なマイルストーンである。 また、縮退スピンに関する興味深いスピン物理学の扉を開く。

Coherently dressed spins have shown promising results as building blocks for future quantum computers owing to their resilience to environmental noise and their compatibility with global control fields. This mode of operation allows for more amenable qubit architecture requirements and simplifies signal routing on the chip. However, multi-qubit operations, such as qubit addressability and two-qubit gates, are yet to be demonstrated to establish global control in combination with dressed qubits as a viable path to universal quantum computing. Here we demonstrate simultaneous on-resonance driving of degenerate qubits using a global field while retaining addressability for qubits with equal Larmor frequencies. Furthermore, we implement SWAP oscillations during on-resonance driving, constituting the demonstration of driven two-qubit gates. Significantly, our findings highlight the fragility of entangling gates between superposition states and how dressing can increase the noise robustness. These results represent a crucial milestone towards global control operation with dressed qubits. It also opens a door to interesting spin physics on degenerate spins.
翻訳日:2023-12-04 17:35:46 公開日:2023-12-01
# 数個の量子エミッタアンサンブルの非放射的構成:進化最適化アプローチ

Non-radiative configurations of a few quantum emitters ensembles: evolutionary optimization approach ( http://arxiv.org/abs/2311.07809v2 )

ライセンス: Link先を確認
Ilya Volkov, Stanislav Mitsai, Stepan Zhogolev, Danil Kornovan, Roman Savelev, and Mihail Petrov(参考訳) 本研究では,最大放射寿命を持つ量子状態をサポートする小さな原子アンサンブルの最適配置を微分進化アルゴリズムを用いて同定する。 原子は主に、最小の原子間距離 $r_{min}$ に依存する特定の幾何学を持つ準正則構造で組み立てられる。 特定の測地線における放射損失の抑制を支配する明快な物理を同定した。 しかし,小さなアンサンブルの特定の構成は,大規模配列の知識に基づいて容易には予測できないことが明らかとなった。 特に、無限格子の連続体の束縛状態からそれらの性質を継承する状態は、広い範囲の $r_{min}$ の値において最も亜ラジアンであることが判明した。 また,小原子間距離の場合,変調原子間距離を持つ鎖は,アンサンブルの大きさで放射損失の指数関数的に減少することを示した。

In this work, we employ differential evolution algorithm to identify the optimal configurations of small atomic ensembles supporting quantum states with maximal radiative lifetime. We demonstrate that atoms mostly tend to assemble in quasi-regular structures with specific geometry strongly depending on the minimal interatomic distance $r_{min}$. We identified the clear underlying physics that governs the suppression of the radiative losses in particular geometries. However, we reveal that the specific configurations in small ensembles are not easily predictable based on the knowledge established for the arrays of large size. In particular, the states that inherit their properties from bound states in continuum in infinite lattices turn out to be the most subradiant in a wide range of $r_{min}$ values. We also show that for small interatomic distance the chains with modulated interatomic distances exhibit fast exponential decrease of the radiative losses with the size of the ensemble.
翻訳日:2023-12-04 17:35:26 公開日:2023-12-01
# 古典画像データのフーリエモードからの効率的なMPS表現と量子回路

Efficient MPS representations and quantum circuits from the Fourier modes of classical image data ( http://arxiv.org/abs/2311.07666v2 )

ライセンス: Link先を確認
Bernhard Jobst, Kevin Shen, Carlos A. Riofr\'io, Elvira Shishenina and Frank Pollmann(参考訳) 機械学習タスクは量子コンピュータのエキサイティングな応用であり、従来のタスクよりも効率的に特定の問題を学習できることが証明されている。 量子機械学習アルゴリズムを古典データに適用することは、古典ビットよりも指数関数的に多くのデータを扱うことができるため、多くの重要な応用をもたらす可能性がある。 しかし、対応する量子状態の準備は通常指数関数的なゲート数を必要とするため、潜在的な量子速度アップを損なう可能性がある。 ここで、量子状態へ写像された後に十分に急速に減衰するフーリエスペクトルを持つ古典データは、シュミット級数(すなわち行列積状態)の小さい状態によってよく近似され、明示的な誤差境界を導出できることを示す。 これらの近似状態は、隣り合う2量子ビットゲートの線形数を持つ量子コンピュータ上で準備することができる。 結果が,'Imagenette'データセットから得られた1024\times1024$-pixelイメージのセットで数値的に確認される。 さらに,異なる変分回路ans\"atzeを考察し,一次元シーケンシャル回路がより強力なans\"atzeと同じ圧縮品質を達成することを数値的に示す。

Machine learning tasks are an exciting application for quantum computers, as it has been proven that they can learn certain problems more efficiently than classical ones. Applying quantum machine learning algorithms to classical data can have many important applications, as qubits allow for dealing with exponentially more data than classical bits. However, preparing the corresponding quantum states usually requires an exponential number of gates and therefore may ruin any potential quantum speedups. Here, we show that classical data with a sufficiently quickly decaying Fourier spectrum after being mapped to a quantum state can be well-approximated by states with a small Schmidt rank (i.e., matrix product states) and we derive explicit error bounds. These approximated states can, in turn, be prepared on a quantum computer with a linear number of nearest-neighbor two-qubit gates. We confirm our results numerically on a set of $1024\times1024$-pixel images taken from the 'Imagenette' dataset. Additionally, we consider different variational circuit ans\"atze and demonstrate numerically that one-dimensional sequential circuits achieve the same compression quality as more powerful ans\"atze.
翻訳日:2023-12-04 17:35:11 公開日:2023-12-01
# トラップイオン量子シミュレータによる非平衡散逸相転移の探索

Probing non-equilibrium dissipative phase transitions with trapped-ion quantum simulators ( http://arxiv.org/abs/2311.06199v2 )

ライセンス: Link先を確認
Casey Haack, Naushad Ahmad Kamar, Daniel Paz, Mohammad Maghrebi, Zhexuan Gong(参考訳) 制御可能な散逸を持つ開量子多体系は、そのダイナミクスと定常状態において新しい特徴を示すことができる。 パラダイム的な例として、散逸的横フィールドイジングモデルがある。 近年、全対全相互作用を持つこのモデルの定常状態は真に非平衡に近い臨界性であり、時間反転対称性が修正され、ゆらぎ散逸定理に違反していることが示されている。 しかし、そのような非平衡定常相転移の実験的研究は不十分である。 そこで本研究では, 連続弱光ポンピングレーザを用いて制御可能な散逸を制御可能な相転移を実証するために, 電流捕捉型量子シミュレータの現実的な実験セットアップと測定手法を提案する。 広い数値計算により、この散逸相転移とその非平衡特性の強いシグネチャは、幅広いシステムパラメータにわたって小さなシステムサイズで観測可能であることを示す。 さらに、スピンの周期的および確率的リセットを伴うフロケダイナミクスによって散逸が達成された場合、同じシグネチャも見られることを示す。 この方法で構築された散逸は、より一般的な駆動散逸系のシミュレーションや、有用な多体の絡み合った状態の散逸的な準備を容易にすることができる。

Open quantum many-body systems with controllable dissipation can exhibit novel features in their dynamics and steady states. A paradigmatic example is the dissipative transverse field Ising model. It has been shown recently that the steady state of this model with all-to-all interactions is genuinely non-equilibrium near criticality, exhibiting a modified time-reversal symmetry and violating the fluctuation-dissipation theorem. Experimental study of such non-equilibrium steady-state phase transitions is however lacking. Here we propose realistic experimental setups and measurement schemes for current trapped-ion quantum simulators to demonstrate this phase transition, where controllable dissipation is engineered via a continuous weak optical pumping laser. With extensive numerical calculations, we show that strong signatures of this dissipative phase transition and its non-equilibrium properties can be observed with a small system size across a wide range of system parameters. In addition, we show that the same signatures can also be seen if the dissipation is instead achieved via Floquet dynamics with periodic and probabilistic resetting of the spins. Dissipation engineered in this way may allow the simulation of more general types of driven-dissipative systems or facilitate the dissipative preparation of useful many-body entangled states.
翻訳日:2023-12-04 17:34:48 公開日:2023-12-01
# 3次元イベント表現を用いた人物ポーズ推定の再考

Rethinking Event-based Human Pose Estimation with 3D Event Representations ( http://arxiv.org/abs/2311.04591v3 )

ライセンス: Link先を確認
Xiaoting Yin, Hao Shi, Jiaan Chen, Ze Wang, Yaozu Ye, Huajian Ni, Kailun Yang, Kaiwei Wang(参考訳) 人間のポーズ推定はコンピュータビジョンの基本的で魅力的なタスクである。 従来のフレームベースのカメラやビデオは一般的に用いられるが、高いダイナミックレンジや重い動きのぼかしのシナリオでは信頼性が低下する。 対照的に、イベントカメラはこれらの困難なコンテキストをナビゲートするための堅牢なソリューションを提供する。 一般的な方法論では、イベントカメラを学習フレームワークに取り入れ、イベントをイベントフレームに蓄積する。 しかし、そのような手法は、イベントの固有非同期および高時間分解能特性を限界化する傾向がある。 この無視は、異なるアクションを識別するために不可欠な時間次元データを失うことにつながる。 この問題に対処し、イベント情報の3Dポテンシャルを解き放つために、Rasterized Event Point Cloud(RasEPC)とDecoupled Event Voxel(DEV)という2つの3Dイベント表現を導入します。 RasEPCは、正確な時間スライス内のイベントを同じ位置で照合し、3D属性を統計的手がかりで保存し、メモリと計算要求を著しく緩和する。 一方、dev表現はイベントをvoxelに識別し、3つの直交平面に投影し、分離されたイベントの注意を利用して2d平面から3dのヒントを取得する。 さらに,屋外シーンでのトレーニングや定量的分析を容易にするために,イベントベースの合成データセットEV-3DPWを開発した。 実世界のDHP19データセットでは,イベントポイントクラウド技術がリアルタイムなモバイル予測に優れており,デカップリングされたイベントボクセル法が最も精度が高い。 EV-3DPW実験により, 従来のRGB画像やイベントフレーム技術と比較して, 提案した3次元表現手法のロバスト性を示した。 私たちのコードとデータセットはhttps://github.com/masterhow/eventpointposeで公開されています。

Human pose estimation is a fundamental and appealing task in computer vision. Traditional frame-based cameras and videos are commonly applied, yet, they become less reliable in scenarios under high dynamic range or heavy motion blur. In contrast, event cameras offer a robust solution for navigating these challenging contexts. Predominant methodologies incorporate event cameras into learning frameworks by accumulating events into event frames. However, such methods tend to marginalize the intrinsic asynchronous and high temporal resolution characteristics of events. This disregard leads to a loss in essential temporal dimension data, crucial for discerning distinct actions. To address this issue and to unlock the 3D potential of event information, we introduce two 3D event representations: the Rasterized Event Point Cloud (RasEPC) and the Decoupled Event Voxel (DEV). The RasEPC collates events within concise temporal slices at identical positions, preserving 3D attributes with statistical cues and markedly mitigating memory and computational demands. Meanwhile, the DEV representation discretizes events into voxels and projects them across three orthogonal planes, utilizing decoupled event attention to retrieve 3D cues from the 2D planes. Furthermore, we develop and release EV-3DPW, a synthetic event-based dataset crafted to facilitate training and quantitative analysis in outdoor scenes. On the public real-world DHP19 dataset, our event point cloud technique excels in real-time mobile predictions, while the decoupled event voxel method achieves the highest accuracy. Experiments on EV-3DPW demonstrate that the robustness of our proposed 3D representation methods compared to traditional RGB images and event frame techniques under the same backbones. Our code and dataset have been made publicly available at https://github.com/MasterHow/EventPointPose.
翻訳日:2023-12-04 17:34:27 公開日:2023-12-01
# 大規模言語モデルの訓練・微調整・推論における実行時性能の判別

Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models ( http://arxiv.org/abs/2311.03687v2 )

ライセンス: Link先を確認
Longteng Zhang, Xiang Liu, Zeyu Li, Xinglin Pan, Peijie Dong, Ruibo Fan, Rui Guo, Xin Wang, Qiong Luo, Shaohuai Shi, Xiaowen Chu(参考訳) 大規模言語モデル(LLM)は、学術と産業の両方において大きな進歩を遂げており、その人気は、LLM事前学習、微調整、推論を加速する多くのオープンソースフレームワークと技術をもたらす。 LLMの訓練と展開は、かなりの計算資源とメモリを必要とするためコストがかかるため、システムパイプラインとオペレーターの改善のために多くの効率的なアプローチが開発されている。 しかし、ランタイムのパフォーマンスはハードウェアとソフトウェアスタックによって大きく異なるため、最高の構成を選択することは困難である。 本研究では,マクロとマイクロの両方の観点から性能をベンチマークすることを目的とする。 まず、ZeRO、量子化、再計算、FlashAttentionを含む、個別に最適化された3つの8GPUプラットフォーム上の7, 13, 70億のパラメータ(7B, 13B, 70B)の異なるサイズで、事前トレーニング、微調整、サービスLLMのエンドツーエンドのパフォーマンスをベンチマークする。 次に,LLMにおける計算処理や通信演算子を含む,サブモジュールの詳細なランタイム解析を行う。 エンドユーザにとって、私たちのベンチマークと調査結果は、LLMをデプロイするための構成を選択するハードウェアプラットフォームとともに、さまざまな最適化テクニック、トレーニング、推論フレームワークをより理解するのに役立ちます。 研究者にとって、我々は、LLMのランタイム性能をさらに最適化する将来的な作業の可能性を見出した。

Large Language Models (LLMs) have seen great advance in both academia and industry, and their popularity results in numerous open-source frameworks and techniques in accelerating LLM pre-training, fine-tuning, and inference. Training and deploying LLMs are expensive as it requires considerable computing resources and memory, hence many efficient approaches have been developed for improving system pipelines as well as operators. However, the runtime performance can vary significantly across hardware and software stacks, which makes it difficult to choose the best configuration. In this work, we aim to benchmark the performance from both macro and micro perspectives. First, we benchmark the end-to-end performance of pre-training, fine-tuning, and serving LLMs in different sizes , i.e., 7, 13, and 70 billion parameters (7B, 13B, and 70B) on three 8-GPU platforms with and without individual optimization techniques, including ZeRO, quantization, recomputation, FlashAttention. Then, we dive deeper to provide a detailed runtime analysis of the sub-modules, including computing and communication operators in LLMs. For end users, our benchmark and findings help better understand different optimization techniques, training and inference frameworks, together with hardware platforms in choosing configurations for deploying LLMs. For researchers, our in-depth module-wise analyses discover potential opportunities for future work to further optimize the runtime performance of LLMs.
翻訳日:2023-12-04 17:33:44 公開日:2023-12-01
# ランダムニューラルネットワークのリプシッツ定数の上下境界

Upper and lower bounds for the Lipschitz constant of random neural networks ( http://arxiv.org/abs/2311.01356v2 )

ライセンス: Link先を確認
Paul Geuchen, Thomas Heindl, Dominik St\"oger, Felix Voigtlaender(参考訳) 実験的研究により、ニューラルネットワークは入力の小さな対向的な摂動に非常に敏感であることが広く証明されている。 これらいわゆる逆例に対する最悪の場合のロバスト性は、ニューラルネットワークのリプシッツ定数によって定量化することができる。 本稿では,ランダムreluニューラルネットワークのリプシッツ定数の上限と下限について検討する。 具体的には、重みと偏りはHe初期化の一般化に従うと仮定し、偏りに対する一般対称分布が許容される。 浅いニューラルネットワークでは、リプシッツ定数を絶対数値定数まで特徴づける。 奥行きが一定で幅が十分大きい深層ネットワークの場合、確立された境界は、幅の対数的な係数によって異なる。

Empirical studies have widely demonstrated that neural networks are highly sensitive to small, adversarial perturbations of the input. The worst-case robustness against these so-called adversarial examples can be quantified by the Lipschitz constant of the neural network. In this paper, we study upper and lower bounds for the Lipschitz constant of random ReLU neural networks. Specifically, we assume that the weights and biases follow a generalization of the He initialization, where general symmetric distributions for the biases are permitted. For shallow neural networks, we characterize the Lipschitz constant up to an absolute numerical constant. For deep networks with fixed depth and sufficiently large width, our established bounds differ by a factor that is logarithmic in the width.
翻訳日:2023-12-04 17:32:56 公開日:2023-12-01
# gcmsにおける重複不透明種の高精度処理のための機械学習

Harnessing machine learning for accurate treatment of overlapping opacity species in GCMs ( http://arxiv.org/abs/2311.00775v2 )

ライセンス: Link先を確認
Aaron David Schneider, Paul Molli\`ere, Gilles Louppe, Ludmila Carone, Uffe Gr{\aa}e J{\o}rgensen, Leen Decin, Christiane Helling(参考訳) 太陽系外惑星や褐色小星の高精度な観測を理解するためには、流体力学、化学、放射線を含む詳細で複雑な一般循環モデル(GCM)が必要である。 本研究では, GCMにおける化学と放射線のカップリングを特に検討し, 平衡化学を仮定できない場合の相関-k仮定において, 異なる化学種の不透明度を混合する方法を比較した。 本稿では,個々の相関k不透明度(k-tables)を効果的に組み合わせた,DeepSets(DS)に基づく高速機械学習手法を提案する。 適応的等価消滅 (AEE) やランダムオーバーラップ (RORR) などの他の手法とともにDS法の評価を行った。 我々は、これらの混合法をGCM(expeRT/MITgcm)に統合し、ホットジュピターHD~209458 bの精度と性能を評価する。 以上の結果から,DS法はGCMでの使用には正確かつ効率的である一方,RORRは遅すぎることが示唆された。 さらに,AEEの精度はその具体的実装に依存しており,放射能伝達解収束の達成において,数値的な問題を提起する可能性がある。 次に, 簡便な化学不平衡状態においてDS混合法を適用し, TiOおよびVOの降雨をモデル化し, TiOおよびVOの降雨が成層圏の形成を妨げることを確認した。 gcmsにおける不平衡化学計算の一貫性をさらに高めるために, ds混合法と相関k放射伝達ソルバを結合するための文書とコードを提供する。 DS法はGCMの精度を十分に評価するために広く試験されてきたが、大気圏の探索を加速するためには他の方法が必要かもしれない。

To understand high precision observations of exoplanets and brown dwarfs, we need detailed and complex general circulation models (GCMs) that incorporate hydrodynamics, chemistry, and radiation. In this study, we specifically examine the coupling between chemistry and radiation in GCMs and compare different methods for mixing opacities of different chemical species in the correlated-k assumption, when equilibrium chemistry cannot be assumed. We propose a fast machine learning method based on DeepSets (DS), which effectively combines individual correlated-k opacities (k-tables). We evaluate the DS method alongside other published methods like adaptive equivalent extinction (AEE) and random overlap with rebinning and resorting (RORR). We integrate these mixing methods into our GCM (expeRT/MITgcm) and assess their accuracy and performance for the example of the hot Jupiter HD~209458 b. Our findings indicate that the DS method is both accurate and efficient for GCM usage, whereas RORR is too slow. Additionally, we observe that the accuracy of AEE depends on its specific implementation and may introduce numerical issues in achieving radiative transfer solution convergence. We then apply the DS mixing method in a simplified chemical disequilibrium situation, where we model the rainout of TiO and VO, and confirm that the rainout of TiO and VO would hinder the formation of a stratosphere. To further expedite the development of consistent disequilibrium chemistry calculations in GCMs, we provide documentation and code for coupling the DS mixing method with correlated-k radiative transfer solvers. The DS method has been extensively tested to be accurate enough for GCMs, however, other methods might be needed for accelerating atmospheric retrievals.
翻訳日:2023-12-04 17:32:33 公開日:2023-12-01
# 量子未来への投資 : 量子ベンチャーキャピタルの現状と今後の展開

Investing in the Quantum Future : State of Play and Way Forward for Quantum Venture Capital ( http://arxiv.org/abs/2311.17187v2 )

ライセンス: Link先を確認
Christophe Jurczak(参考訳) 何十年もの基本的な研究に基づいて、コンピューティング、センシング、ネットワークの分野で量子科学の新しい応用が生まれ始めている。 現在のデプロイメントのフェーズでは、量子技術はまだ日常的に使用されていないが、まだ実験室から離脱しているため、VC(Venture Capital)が不可欠である。 公的資金調達プログラムに関連して、VCは学術機関で生まれたスタートアップを支援し、社会に最も大きな影響を与えるアプリケーションに向けてエコシステムの優先順位を構造化する役割を担っている。 本論では, 量子ファンドQuantonation Iのケーススタディを用いて, 科学知識の創出, 雇用創出, 産業界への資金提供に対するその影響を詳述する。 本稿は、新しいスタートアップの出現を支える概念を紹介し、スケールアップ量子企業の資金調達を提唱する。 この論文は、社会への関与を向上し、大きな社会的利益を生かしたアプリケーションに焦点を当てたプロジェクトへの協力を求めることで、業界への影響を改善するための提案を締めくくっている。

Building on decades of fundamental research, new applications of Quantum Science have started to emerge in the fields of computing, sensing and networks. In the current phase of deployment, in which quantum technology is not yet in routine use but is still transitioning out of the laboratory, Venture Capital (VC) is critical. In association with public funding programs, VC supports startups born in academic institutions and has a role to play in structuring the priorities of the ecosystem, guiding it towards applications with the greatest impact on society. This paper illustrates this thesis with a case-study: the experience of the first dedicated quantum fund, Quantonation I, chronicling its impacts on the production of scientific knowledge, job creation and funding of the industry. The paper introduces concepts to support the emergence of new startups and advocates for funding of scale-up quantum companies. The paper concludes with proposals to improve the impact of the industry by taking steps to better involve society-at-large and with a call for collaboration on projects focused on the applications with a large societal benefit.
翻訳日:2023-12-04 17:23:14 公開日:2023-12-01
# フェルミオン散逸支援作用素進化を伴う弱相互作用鎖のエネルギー拡散

Energy diffusion in weakly interacting chains with fermionic dissipation-assisted operator evolution ( http://arxiv.org/abs/2311.17148v2 )

ライセンス: Link先を確認
En-Jui Kuo, Brayden Ware, Peter Lunts, Mohammad Hafezi, Christopher David White(参考訳) 高温での相互作用格子ハミルトニアンは、古典拡散方程式に支配されるエネルギー輸送をジェネリックに生み出すが、拡散速度の予測には微視的量子力学の数値シミュレーションが必要である。 このような輸送特性を予測するため、計算時間進化法は、絡み合いの成長を制御するためのスキームと組み合わせて、十分に長期にわたってうまくシミュレートする必要がある。 散逸支援作用素進化(DAOE)は、大きなパウリ重みを持つ作用素の成分を減衰させることで絡み合いを制御する。 本稿では,フェミオン系に対するDAOEの一般化について述べる。 代わりに, フェルミオン重みを持つ演算子の成分を減衰させる。 相互作用する1次元Majorana鎖におけるエネルギー輸送のシミュレーションにおいて,DAOE,新しいフェミオンDAOE(FDAOE)および別のシミュレーション手法である密度行列トランケーション(DMT)の性能について検討した。 この鎖は、フェルミの黄金律に基づく単純な期待とは対照的に、相互作用強度のような拡散係数を第4の力にスケーリングするが、'emph{weak integrability break} の理論に基づく最近の予測と一致している。 系のフェルミオン性が最も関係のある弱い相互作用系では、FDAOEはDAOEよりも効率的に系をシミュレートする。

Interacting lattice Hamiltonians at high temperature generically give rise to energy transport governed by the classical diffusion equation; however, predicting the rate of diffusion requires numerical simulation of the microscopic quantum dynamics. For the purpose of predicting such transport properties, computational time evolution methods must be paired with schemes to control the growth of entanglement to tractably simulate for sufficiently long times. One such truncation scheme -- dissipation-assisted operator evolution (DAOE) -- controls entanglement by damping out components of operators with large Pauli weight. In this paper, we generalize DAOE to treat fermionic systems. Our method instead damps out components of operators with large fermionic weight. We investigate the performance of DAOE, the new fermionic DAOE (FDAOE), and another simulation method, density matrix truncation (DMT), in simulating energy transport in an interacting one-dimensional Majorana chain. The chain is found to have a diffusion coefficient scaling like interaction strength to the fourth power, contrary to naive expectations based on Fermi's Golden rule -- but consistent with recent predictions based on the theory of \emph{weak integrability breaking}. In the weak interaction regime where the fermionic nature of the system is most relevant, FDAOE is found to simulate the system more efficiently than DAOE.
翻訳日:2023-12-04 17:22:29 公開日:2023-12-01
# 神経常微分方程式の安定な初期化

Stability-Informed Initialization of Neural Ordinary Differential Equations ( http://arxiv.org/abs/2311.15890v2 )

ライセンス: Link先を確認
Theodor Westny and Arman Mohammadi and Daniel Jung and Erik Frisk(参考訳) 本稿では,ニューラル正規微分方程式 (Neural Ordinary Differential Equations,neural ODEs) の学習について考察し,特に数値積分法,安定領域,ステップサイズ,初期化技術との相互作用について考察する。 統合手法の選択が学習モデルを暗黙的に正規化する方法と,学習者の安定領域がトレーニングや予測性能にどのように影響するかを示す。 この分析から,安定性インフォームドパラメータ初期化手法を提案する。 初期化手法の有効性は、いくつかの学習ベンチマークと産業応用で示される。

This paper addresses the training of Neural Ordinary Differential Equations (neural ODEs), and in particular explores the interplay between numerical integration techniques, stability regions, step size, and initialization techniques. It is shown how the choice of integration technique implicitly regularizes the learned model, and how the solver's corresponding stability region affects training and prediction performance. From this analysis, a stability-informed parameter initialization technique is introduced. The effectiveness of the initialization method is displayed across several learning benchmarks and industrial applications.
翻訳日:2023-12-04 17:21:08 公開日:2023-12-01
# 為替取引における決定木心理的リスク評価

Decision Tree Psychological Risk Assessment in Currency Trading ( http://arxiv.org/abs/2311.15222v2 )

ライセンス: Link先を確認
Jai Pal(参考訳) 本研究は、AI(AI)を通貨トレーディングの世界に統合することに焦点を当て、個人トレーダの慣用性に合わせたインテリジェントなパーソナルアシスタントとして機能するパーソナライズされたAIモデルの開発を実証する。 この論文は、AIモデルがトレーダの履歴データ内のニュアンスドパターンを識別し、通貨取引における心理的リスクダイナミクスをより正確かつ洞察に富んだ評価を容易にすることを示唆している。 PRIは、トレーダーの心理的脆弱性を促進する市場の状況に応じて変動を経験するダイナミックな指標である。 高度な技術を利用することで、決定木を分類し、木構造内の決定境界を明確にすることができる。 ユーザの時系列取引エントリを組み込むことで、心理的リスクが高められた場合の臨界点の特定に適している。 リアルタイムの計算の性質は、心理的リスクの差し迫った瞬間についてトレーダーにタイムリーな警告を提供するプロアクティブツールとしてのモデルの実用性を高める。 この研究の意味は通貨取引の制限を超えて広がり、パーソナライズされたモデリングの法的な適用が効率的かつ戦略的アプローチとして現れる他の産業の領域に到達した。 本稿では,最先端技術と人間心理学の複雑なニュアンスを交点として,動的・高圧環境における意思決定支援のための変容パラダイムを提案する。

This research paper focuses on the integration of Artificial Intelligence (AI) into the currency trading landscape, positing the development of personalized AI models, essentially functioning as intelligent personal assistants tailored to the idiosyncrasies of individual traders. The paper posits that AI models are capable of identifying nuanced patterns within the trader's historical data, facilitating a more accurate and insightful assessment of psychological risk dynamics in currency trading. The PRI is a dynamic metric that experiences fluctuations in response to market conditions that foster psychological fragility among traders. By employing sophisticated techniques, a classifying decision tree is crafted, enabling clearer decision-making boundaries within the tree structure. By incorporating the user's chronological trade entries, the model becomes adept at identifying critical junctures when psychological risks are heightened. The real-time nature of the calculations enhances the model's utility as a proactive tool, offering timely alerts to traders about impending moments of psychological risks. The implications of this research extend beyond the confines of currency trading, reaching into the realms of other industries where the judicious application of personalized modeling emerges as an efficient and strategic approach. This paper positions itself at the intersection of cutting-edge technology and the intricate nuances of human psychology, offering a transformative paradigm for decision making support in dynamic and high-pressure environments.
翻訳日:2023-12-04 17:20:57 公開日:2023-12-01
# SEPSIS: 嘘をつかむことができます -- 偽装検出のための新しいパラダイム

SEPSIS: I Can Catch Your Lies -- A New Paradigm for Deception Detection ( http://arxiv.org/abs/2312.00292v1 )

ライセンス: Link先を確認
Anku Rani, Dwip Dalal, Shreya Gautam, Pankaj Gupta, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das(参考訳) 欺きは情報をひねる故意の実践である。 これは、人間の社会進化と深く絡み合っており、様々な面が特徴である。 本研究は、心理学のレンズを通しての偽証の問題を探求し、偽証を3つの形態に分類する枠組みを用いる: 欠落の嘘、委任の嘘、影響の嘘である。 本研究の主な焦点は, 排他的欠陥のみを調査することである。 そこで我々は,NLP技術を利用した偽造検出のための新しいフレームワークを提案する。 私たちは、有名なインドのニュースメディア、タイムズ・オブ・インディアのTwitterハンドルから、人気のある大規模なフェイクニュースデータセットとスクラップニュースの見出しを照合して、876,784のサンプルの注釈付きデータセットを収集しました。 各サンプルは4つの層でラベル付けされている。 (i)欠落の種類(推測、バイアス、歪み、事実性、意見) (二 嘘の色(黒、白等)及び (三)そのような嘘の意図(影響等) (四)嘘の話題(政治、教育、宗教等) 先述した偽造検出タスクに対処するために、微調整言語モデルのデータレスマージを利用する新しいマルチタスク学習パイプラインを提案する。 提案モデルはF1スコア0.87を達成し, 着目内容のタイプ, 色, 意図, 話題などすべての層で高い性能を示した。 最後に,本研究は,逸脱の嘘とプロパガンダ技術との関係について検討する。 これを実現するため,我々は詳細な分析を行った。 例えば,本研究では,読み込まれた言語と意見との間に有意な相関関係を示し,相互接続性に光を当てた。 この分野でさらなる研究を促進するため、私たちはモデルとデータセットをMITライセンスで利用可能にし、オープンソース研究に好適にします。

Deception is the intentional practice of twisting information. It is a nuanced societal practice deeply intertwined with human societal evolution, characterized by a multitude of facets. This research explores the problem of deception through the lens of psychology, employing a framework that categorizes deception into three forms: lies of omission, lies of commission, and lies of influence. The primary focus of this study is specifically on investigating only lies of omission. We propose a novel framework for deception detection leveraging NLP techniques. We curated an annotated dataset of 876,784 samples by amalgamating a popular large-scale fake news dataset and scraped news headlines from the Twitter handle of Times of India, a well-known Indian news media house. Each sample has been labeled with four layers, namely: (i) the type of omission (speculation, bias, distortion, sounds factual, and opinion), (ii) colors of lies(black, white, etc), and (iii) the intention of such lies (to influence, etc) (iv) topic of lies (political, educational, religious, etc). We present a novel multi-task learning pipeline that leverages the dataless merging of fine-tuned language models to address the deception detection task mentioned earlier. Our proposed model achieved an F1 score of 0.87, demonstrating strong performance across all layers including the type, color, intent, and topic aspects of deceptive content. Finally, our research explores the relationship between lies of omission and propaganda techniques. To accomplish this, we conducted an in-depth analysis, uncovering compelling findings. For instance, our analysis revealed a significant correlation between loaded language and opinion, shedding light on their interconnectedness. To encourage further research in this field, we will be making the models and dataset available with the MIT License, making it favorable for open-source research.
翻訳日:2023-12-04 16:06:07 公開日:2023-12-01
# 事前学習型気象埋め込みによる診断パラメータの予測

Learning to forecast diagnostic parameters using pre-trained weather embedding ( http://arxiv.org/abs/2312.00290v1 )

ライセンス: Link先を確認
Peetak P. Mitra, Vivek Ramavajjala(参考訳) データ駆動型気象予報(ddwp)モデルは、気象予報に人気が高まっている。 しかしながら、運用天気予報は様々な気象変数を予測する一方で、DDWPは現在、重要な予測変数の特定のセットを予測している。 非予後変数 (non-prognostic ("diagnostic") variables) は、予測変数 (fourCastNet) の依存変数として別々にモデル化されるか、DDWPのターゲットとして診断変数を含める。 しかし、各診断変数に対するトレーニングとデプロイのコストは、より多くの診断変数で劇的に増加し、そのようなモデルの運用使用を制限することができる。 同様に、新しい診断変数を追加するたびにDDWP全体をリトレーニングするのもコスト抑制である。 本稿では,新しい診断変数を高価なリトレーニングなしでエンドツーエンドDDWPモデルに追加する2段階のアプローチを提案する。 第1段階では、潜在空間に予測変数を埋め込むことを学ぶオートエンコーダをトレーニングします。 第2段階では、オートエンコーダは凍結され、"ダウンストリーム"モデルは、予測変数の潜在表現のみを入力として、診断変数を予測するために訓練される。 実験の結果,2段階の手法を用いてトレーニングしたモデルでは,トレーニング時の資源利用率を著しく低下させるとともに,トレーニング時と推定時と同等の精度が得られた。 このアプローチにより、既存のモデルに影響を与えることなく、必要に応じて新しい"ダウンストリーム"モデルを開発することができ、新しいモデルの運用における摩擦を低減できる。

Data-driven weather prediction (DDWP) models are increasingly becoming popular for weather forecasting. However, while operational weather forecasts predict a wide variety of weather variables, DDWPs currently forecast a specific set of key prognostic variables. Non-prognostic ("diagnostic") variables are sometimes modeled separately as dependent variables of the prognostic variables (c.f. FourCastNet), or by including the diagnostic variable as a target in the DDWP. However, the cost of training and deploying bespoke models for each diagnostic variable can increase dramatically with more diagnostic variables, and limit the operational use of such models. Likewise, retraining an entire DDWP each time a new diagnostic variable is added is also cost-prohibitive. We present an two-stage approach that allows new diagnostic variables to be added to an end-to-end DDWP model without the expensive retraining. In the first stage, we train an autoencoder that learns to embed prognostic variables into a latent space. In the second stage, the autoencoder is frozen and "downstream" models are trained to predict diagnostic variables using only the latent representations of prognostic variables as input. Our experiments indicate that models trained using the two-stage approach offer accuracy comparable to training bespoke models, while leading to significant reduction in resource utilization during training and inference. This approach allows for new "downstream" models to be developed as needed, without affecting existing models and thus reducing the friction in operationalizing new models.
翻訳日:2023-12-04 16:05:38 公開日:2023-12-01
# 線形モード数を持つボソンサンプリングの複素性-理論基礎

Complexity-theoretic foundations of BosonSampling with a linear number of modes ( http://arxiv.org/abs/2312.00286v1 )

ライセンス: Link先を確認
Adam Bouland, Daniel Brod, Ishaun Datta, Bill Fefferman, Daniel Grier, Felipe Hernandez, Michal Oszmaniec(参考訳) bosonsamplingは、フォトニックシステムにおける量子計算の優位性を示す主要な候補である。 最近、多くの印象的な実験的デモンストレーションを見てきたが、複雑性理論の硬さの議論と現在の実験の間には、いまだに深刻な距離がある。 最大のギャップの1つは、光子とモードの比率である: すべての現在の硬度証拠は、線形光学モードの数が少なくとも光子の数で2次にスケールする「ハイモード」状態を仮定する。 対照的に、現在の実験は、線形数のモードを持つ「低モード」な状態で動作する。 本稿では, このギャップを橋渡しし, 低モード実験の硬度証拠を, 従来高モード体制で確立されていたものと同じレベルに引き上げる。 これは、多数の行繰り返しに頑健な永続性を計算するための、新しい最悪-平均ケースの削減と、相関したエントリを持つ行列上の分布の証明を含む。

BosonSampling is the leading candidate for demonstrating quantum computational advantage in photonic systems. While we have recently seen many impressive experimental demonstrations, there is still a formidable distance between the complexity-theoretic hardness arguments and current experiments. One of the largest gaps involves the ratio of photons to modes: all current hardness evidence assumes a "high-mode" regime in which the number of linear optical modes scales at least quadratically in the number of photons. By contrast, current experiments operate in a "low-mode" regime with a linear number of modes. In this paper we bridge this gap, bringing the hardness evidence for the low-mode experiments to the same level as had been previously established for the high-mode regime. This involves proving a new worst-to-average-case reduction for computing the Permanent that is robust to large numbers of row repetitions and also to distributions over matrices with correlated entries.
翻訳日:2023-12-04 16:05:09 公開日:2023-12-01
# モバイルエッジコンピューティングのための年齢ベースのスケジューリング:深層強化学習アプローチ

Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2312.00279v1 )

ライセンス: Link先を確認
Xingqiu He, Chaoqun You, Tony Q. S. Quek(参考訳) モバイルエッジコンピューティング(MEC)の急速な開発により、人々の日常生活に利益をもたらすために、様々なリアルタイムアプリケーションがデプロイされた。 これらのアプリケーションの性能は、収集された環境情報の鮮度に大きく依存しており、情報時代(AoI)によって定量化することができる。 AoIの従来の定義では、ステータス情報を積極的にサンプリングして直接使用することができる。 しかし、多くのMEC対応アプリケーションでは、望ましいステータス情報はイベント駆動方式で更新され、データ処理が必要になる。 これらの応用をよりよくするために、我々はAoIの新たな定義を提案し、再定義されたAoIに基づいて、MECシステムに対するオンラインAoI最小化問題を定式化する。 特に、この問題はマルコフ決定過程(MDP)と解釈することができ、強化学習(RL)アルゴリズムによる解法を可能にする。 しかしながら、従来のRLアルゴリズムは完全に未知のシステムダイナミクスを持つMDP向けに設計されているため、通常は長い収束時間がかかる。 学習プロセスを加速するために,システムダイナミクスの部分的知識を活用すべく,pdss(post-decision states)を導入する。 PDSと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。 数値計算の結果,提案アルゴリズムは様々なシナリオにおいてベンチマークよりも優れていた。

With the rapid development of Mobile Edge Computing (MEC), various real-time applications have been deployed to benefit people's daily lives. The performance of these applications relies heavily on the freshness of collected environmental information, which can be quantified by its Age of Information (AoI). In the traditional definition of AoI, it is assumed that the status information can be actively sampled and directly used. However, for many MEC-enabled applications, the desired status information is updated in an event-driven manner and necessitates data processing. To better serve these applications, we propose a new definition of AoI and, based on the redefined AoI, we formulate an online AoI minimization problem for MEC systems. Notably, the problem can be interpreted as a Markov Decision Process (MDP), thus enabling its solution through Reinforcement Learning (RL) algorithms. Nevertheless, the traditional RL algorithms are designed for MDPs with completely unknown system dynamics and hence usually suffer long convergence times. To accelerate the learning process, we introduce Post-Decision States (PDSs) to exploit the partial knowledge of the system's dynamics. We also combine PDSs with deep RL to further improve the algorithm's applicability, scalability, and robustness. Numerical results demonstrate that our algorithm outperforms the benchmarks under various scenarios.
翻訳日:2023-12-04 16:04:54 公開日:2023-12-01
# 閉ループ展開によるテキスト属性制御

Text Attribute Control via Closed-Loop Disentanglement ( http://arxiv.org/abs/2312.00277v1 )

ライセンス: Link先を確認
Lei Sha, Thomas Lukasiewicz(参考訳) コンテンツを変更せずにテキストの属性を変更するには、まずテキストを無関係な属性とコンテンツ表現に分解する必要がある。 その後、推論フェーズにおいて、1つの属性の表現を異なる値に調整し、対応するテキストの属性もそれに応じて変更できることを期待する。 通常、絡み合いの方法は、逆境ベースの制約や相互情報に基づく制約など、エンコーダ-デコーダアーキテクチャの潜在空間にいくつかの制約を追加することである。 しかし、以前の半教師付き属性変更プロセスは、属性変更とコンテンツ保存の成功を保証するには不十分である。 本稿では,コンテンツ保存性を高めつつ,属性の堅牢な制御を実現するための新しい手法を提案する。 提案手法では,半教師付きコントラスト学習法を用いて,潜在空間における属性のアンタングル化を促進する。 従来の作品と異なり、再構成された文を再結合し、再分離された潜在空間と元の潜在空間を比較し、閉ループの不連続化処理を行う。 これはコンテンツ保存にも役立ちます。 さらに, コントラスト学習法は, 計算コストを軽減し, 相互情報の最小化や, 対角的学習を両立させる役割を代替することができる。 Yelp Serviceレビューデータセット、Amazon Product Reviewデータセット、GoEmotionsデータセットを含む3つのテキストデータセットの実験を行った。 実験の結果,本モデルの有効性が示された。

Changing an attribute of a text without changing the content usually requires to first disentangle the text into irrelevant attributes and content representations. After that, in the inference phase, the representation of one attribute is tuned to a different value, expecting that the corresponding attribute of the text can also be changed accordingly. The usual way of disentanglement is to add some constraints on the latent space of an encoder-decoder architecture, including adversarial-based constraints and mutual-information-based constraints. However, the previous semi-supervised processes of attribute change are usually not enough to guarantee the success of attribute change and content preservation. In this paper, we propose a novel approach to achieve a robust control of attributes while enhancing content preservation. In this approach, we use a semi-supervised contrastive learning method to encourage the disentanglement of attributes in latent spaces. Differently from previous works, we re-disentangle the reconstructed sentence and compare the re-disentangled latent space with the original latent space, which makes a closed-loop disentanglement process. This also helps content preservation. In addition, the contrastive learning method is also able to replace the role of minimizing mutual information and adversarial training in the disentanglement process, which alleviates the computation cost. We conducted experiments on three text datasets, including the Yelp Service review dataset, the Amazon Product review dataset, and the GoEmotions dataset. The experimental results show the effectiveness of our model.
翻訳日:2023-12-04 16:04:31 公開日:2023-12-01
# 継続的学習の自動化

Automating Continual Learning ( http://arxiv.org/abs/2312.00276v1 )

ライセンス: Link先を確認
Kazuki Irie, R\'obert Csord\'as, J\"urgen Schmidhuber(参考訳) 汎用学習システムは、常に変化する環境において、オープンエンドで自己改善するべきである。 しかし、ニューラルネットワークのための従来の学習アルゴリズムは、壊滅的な忘れ(cf)に苦しんでいる。 CFを避けるための新しいアルゴリズムを手作りする代わりに,自己参照型ニューラルネットワークをメタラーニングして,コンテキスト内連続(メタ)学習アルゴリズムをメタラーニングする,自動連続学習(ACL)を提案する。 aclはすべてのdesiderata -- 古いタスクと新しいタスクの両方で優れたパフォーマンス -- をメタ学習目標にエンコードする。 我々のACL学習アルゴリズムは、例えば、リプレイフリー環境でのSplit-MNISTベンチマークにおいて、手作りのアルゴリズムよりも優れており、複数のショットと標準画像分類データセットからなる多様なタスクの連続的な学習を可能にしている。

General-purpose learning systems should improve themselves in open-ended fashion in ever-changing environments. Conventional learning algorithms for neural networks, however, suffer from catastrophic forgetting (CF) -- previously acquired skills are forgotten when a new task is learned. Instead of hand-crafting new algorithms for avoiding CF, we propose Automated Continual Learning (ACL) to train self-referential neural networks to meta-learn their own in-context continual (meta-)learning algorithms. ACL encodes all desiderata -- good performance on both old and new tasks -- into its meta-learning objectives. Our experiments demonstrate that ACL effectively solves "in-context catastrophic forgetting"; our ACL-learned algorithms outperform hand-crafted ones, e.g., on the Split-MNIST benchmark in the replay-free setting, and enables continual learning of diverse tasks consisting of multiple few-shot and standard image classification datasets.
翻訳日:2023-12-04 16:04:07 公開日:2023-12-01
# Mark My Words: 言語モデル透かしの分析と評価

Mark My Words: Analyzing and Evaluating Language Model Watermarks ( http://arxiv.org/abs/2312.00273v1 )

ライセンス: Link先を確認
Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner(参考訳) 近年,大規模言語モデルの能力は著しく向上しており,その誤用も懸念されている。 この文脈では、機械が生成したテキストと人間が作成したコンテンツとを区別する能力が重要となる。 先行研究は、体系的な評価フレームワークの恩恵を受けるテキストをウォーターマークするための多くのスキームを提案している。 本研究は,画像透かしとは対照的にテキスト透かし技術に焦点をあて,異なるタスクや実用的な攻撃に対する包括的なベンチマークを提案する。 品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。 kirchenbauerらがllama2-7b-chatを透かし、100枚以下のトークンで品質が損なわれず、温度に関係なく単純な攻撃に対するタンパ抵抗も良い。 我々は、透かしの不明瞭さが要求の強大さを論じる:ロジット分布をわずかに修正するスキームは、生成品質を著しく損なうことなく、識別不能なものよりも優れています。 私たちはベンチマークを公開します。

The capabilities of large language models have grown significantly in recent years and so too have concerns about their misuse. In this context, the ability to distinguish machine-generated text from human-authored content becomes important. Prior works have proposed numerous schemes to watermark text, which would benefit from a systematic evaluation framework. This work focuses on text watermarking techniques - as opposed to image watermarks - and proposes a comprehensive benchmark for them under different tasks as well as practical attacks. We focus on three main metrics: quality, size (e.g. the number of tokens needed to detect a watermark), and tamper-resistance. Current watermarking techniques are good enough to be deployed: Kirchenbauer et al. can watermark Llama2-7B-chat with no perceivable loss in quality in under 100 tokens, and with good tamper-resistance to simple attacks, regardless of temperature. We argue that watermark indistinguishability is too strong a requirement: schemes that slightly modify logit distributions outperform their indistinguishable counterparts with no noticeable loss in generation quality. We publicly release our benchmark.
翻訳日:2023-12-04 16:03:51 公開日:2023-12-01
# 透明性を伴う臨床予測に向けて:高齢者医療における生存モデル構築のための説明可能なAIアプローチ

Towards Clinical Prediction with Transparency: An Explainable AI Approach to Survival Modelling in Residential Aged Care ( http://arxiv.org/abs/2312.00271v1 )

ライセンス: Link先を確認
Teo Susnjak, Elise Griffin, Mitchell McCutcheon, Kathleen Potter(参考訳) 背景: 正確な生存時間推定は、終末期の医療意思決定に役立つ。 目的:先進的機械学習を用いた高齢者介護者のための解釈可能な生存モデルの開発 オーストララシアの主要住宅介護業者である。 参加者:65歳以上の住民が2017年7月から2023年8月までの長期療養を認められた。 サンプルサイズ:40施設11,944人。 予測因子:年齢、性別、健康状態、共生性、認知機能、気分、栄養、運動性、喫煙、睡眠、肌の完全性、継続性などである。 結果:6カ月生存率を特に調整した生存後生存確率。 統計的分析: coxph, en, rr, lasso, gb, xgb, rfモデルの試験を20回行い、90/10の列車/テスト分割を行った。 c-index, harrell's c-index, dynamic auroc, ibs, calibrated rocを用いた精度評価。 パフォーマンスのためにXGBを選択し、Platetスケーリングを使用して1, 3, 6, 12ヶ月の予測をキャリブレーションした。 予測への影響を分析するためにSHAP値が使用される。 結果: GB, XGB, RFモデルは最高C-Index値(0.714, 0.712, 0.712)を示した。 最適xgbモデルは6ヶ月生存予測auroc 0.746 (95% ci 0.744-0.749) を示した。 主な死亡率予測には、年齢、男性性、移動性、健康状態、圧力潰瘍リスク、食欲などが含まれる。 結論: 本研究は, 高齢者医療の生存モデル作成に機械学習を適用し, 死亡リスク要因に関する臨床的知見と整合し, 説明可能なAIによるモデル解釈可能性と臨床的有用性を向上させる。

Background: Accurate survival time estimates aid end-of-life medical decision-making. Objectives: Develop an interpretable survival model for elderly residential aged care residents using advanced machine learning. Setting: A major Australasian residential aged care provider. Participants: Residents aged 65+ admitted for long-term care from July 2017 to August 2023. Sample size: 11,944 residents across 40 facilities. Predictors: Factors include age, gender, health status, co-morbidities, cognitive function, mood, nutrition, mobility, smoking, sleep, skin integrity, and continence. Outcome: Probability of survival post-admission, specifically calibrated for 6-month survival estimates. Statistical Analysis: Tested CoxPH, EN, RR, Lasso, GB, XGB, and RF models in 20 experiments with a 90/10 train/test split. Evaluated accuracy using C-index, Harrell's C-index, dynamic AUROC, IBS, and calibrated ROC. Chose XGB for its performance and calibrated it for 1, 3, 6, and 12-month predictions using Platt scaling. Employed SHAP values to analyze predictor impacts. Results: GB, XGB, and RF models showed the highest C-Index values (0.714, 0.712, 0.712). The optimal XGB model demonstrated a 6-month survival prediction AUROC of 0.746 (95% CI 0.744-0.749). Key mortality predictors include age, male gender, mobility, health status, pressure ulcer risk, and appetite. Conclusions: The study successfully applies machine learning to create a survival model for aged care, aligning with clinical insights on mortality risk factors and enhancing model interpretability and clinical utility through explainable AI.
翻訳日:2023-12-04 16:03:24 公開日:2023-12-01
# 戦術的エッジにおけるコンピュータビジョンの適応性:環境不確実性への対応

Adaptability of Computer Vision at the Tactical Edge: Addressing Environmental Uncertainty ( http://arxiv.org/abs/2312.00269v1 )

ライセンス: Link先を確認
Hayden Moore(参考訳) コンピュータビジョン(CV)システムは戦場における情報分析を改善するためにコマンド・アンド・コントロール(C2)システムに採用されつつある。 CVシステムは人工知能(AI)アルゴリズムを利用して環境を可視化し解釈し、状況認識を高める。 しかし, CVシステムの戦術エッジでの適応性は, 配置されたモデルと混同できる環境や物体が急速に変化するため, 依然として困難である。 この環境で利用されるcvモデルは、環境と環境に存在するオブジェクトが変化し始めると、その予測において不確実になる可能性がある。 さらに、ミッションの目的が急速に変化し、技術、カメラアングル、解像度が調整される。 これらはいずれもパフォーマンスに悪影響を及ぼし、システムに不確実性をもたらす可能性がある。 訓練環境や技術が配置環境と異なる場合、cvモデルは予期せぬ性能を発揮する。 残念ながら、戦術エッジのほとんどのシナリオは、デプロイされたC2およびCVシステムに不確実性定量化(UQ)を組み込んでいない。 本稿では,uqによるロバストなデータ操作とモデルの微調整を戦術エッジで同期化する考え方を検討する。 具体的には、データセットをキュレートし、予測の残量に基づいて子モデルをトレーニングし、これらの子モデルを使用して予測間隔(PI)を計算し、これらのPIを使用してデプロイされたモデルを校正する。 戦術的エッジにおけるC2およびCVシステムを取り巻くコアオペレーションにUQを組み込むことで,戦場での適応性を高めることができる。

Computer Vision (CV) systems are increasingly being adopted into Command and Control (C2) systems to improve intelligence analysis on the battlefield, the tactical edge. CV systems leverage Artificial Intelligence (AI) algorithms to help visualize and interpret the environment, enhancing situational awareness. However, the adaptability of CV systems at the tactical edge remains challenging due to rapidly changing environments and objects which can confuse the deployed models. A CV model leveraged in this environment can become uncertain in its predictions, as the environment and the objects existing in the environment begin to change. Additionally, mission objectives can rapidly change leading to adjustments in technology, camera angles, and image resolutions. All of which can negatively affect the performance of and potentially introduce uncertainty into the system. When the training environment and/or technology differs from the deployment environment, CV models can perform unexpectedly. Unfortunately, most scenarios at the tactical edge do not incorporate Uncertainty Quantification (UQ) into their deployed C2 and CV systems. This concept paper explores the idea of synchronizing robust data operations and model fine-tuning driven by UQ all at the tactical edge. Specifically, curating datasets and training child models based on the residuals of predictions, using these child models to calculate prediction intervals (PI), and then using these PI to calibrate the deployed models. By incorporating UQ into the core operations surrounding C2 and CV systems at the tactical edge, we can help drive purposeful adaptability on the battlefield.
翻訳日:2023-12-04 16:02:58 公開日:2023-12-01
# 学術大会

Academic competitions ( http://arxiv.org/abs/2312.00268v1 )

ライセンス: Link先を確認
Hugo Jair Escalante and Aleksandra Kruchinina(参考訳) 学術的課題は効果的な手段である (i)最先端の美術品 (ii)科学コミュニティ固有の話題や問題にスポットライトを当てる (iii)研究分野へのアクセス・参加という観点から、代表地域社会のギャップを縮めること。 競争は数世紀にわたってさかのぼることができ、その成果は現代の世界に大きな影響を与えた。 最近では、さまざまなドメインで生成される膨大な量のデータと、既存のメソッドの障壁を押し進める必要性、そのようなデータを扱うための利用可能なツールによって、人気が高まりました。 本章では、機械学習とその関連分野における学術的課題に関する調査を行う。 ここ数年で最も影響力のあるコンペをレビューし、知識領域における課題を分析します。 科学的な課題,その目標,主要な成果,今後の数年間の期待を概観する。

Academic challenges comprise effective means for (i) advancing the state of the art, (ii) putting in the spotlight of a scientific community specific topics and problems, as well as (iii) closing the gap for under represented communities in terms of accessing and participating in the shaping of research fields. Competitions can be traced back for centuries and their achievements have had great influence in our modern world. Recently, they (re)gained popularity, with the overwhelming amounts of data that is being generated in different domains, as well as the need of pushing the barriers of existing methods, and available tools to handle such data. This chapter provides a survey of academic challenges in the context of machine learning and related fields. We review the most influential competitions in the last few years and analyze challenges per area of knowledge. The aims of scientific challenges, their goals, major achievements and expectations for the next few years are reviewed.
翻訳日:2023-12-04 16:02:31 公開日:2023-12-01
# アクティブ探索によるヒトフィードバックからのサンプル効率的な強化学習

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration ( http://arxiv.org/abs/2312.00267v1 )

ライセンス: Link先を確認
Viraj Mehta and Vikramjeet Das and Ojash Neopane and Yijia Dai and Ilija Bogunovic and Jeff Schneider and Willie Neiswanger(参考訳) 評価に基づくフィードバックは,報酬関数の直接評価が不可能な強化学習において,多くの応用において重要である。 最近の顕著な例は、大規模な言語モデルにおける人間のフィードバック(RLHF)からの強化学習である。 RLHFの多くの応用において、人間のフィードバックを得るためのコストは相当である。 本研究では,適切な方針を最も効率的に特定するために,人間のフィードバックを得るためのコンテキストを選択できるという利点を生かして,これをオフラインのコンテクスト・デュエル・バンディット問題として定式化する。 本稿では,この問題に対して高信頼度型アルゴリズムを提案し,多項式の最悪ケース後悔境界を証明した。 次に,本手法が既存手法より優れていることを,合成条件で実証的に確認する。 その後、大規模言語モデルのRLHF訓練における実践的利用のための設定と方法論を拡張した。 そこで本手法は,実世界の3つのデータセット上での複数のベースラインよりも,人間の好みのサンプルが少なく,より優れた性能を実現することができる。

Preference-based feedback is important for many applications in reinforcement learning where direct evaluation of a reward function is not feasible. A notable recent example arises in reinforcement learning from human feedback (RLHF) on large language models. For many applications of RLHF, the cost of acquiring the human feedback can be substantial. In this work, we take advantage of the fact that one can often choose contexts at which to obtain human feedback in order to most efficiently identify a good policy, and formalize this as an offline contextual dueling bandit problem. We give an upper-confidence-bound style algorithm for this problem and prove a polynomial worst-case regret bound. We then provide empirical confirmation in a synthetic setting that our approach outperforms existing methods. After, we extend the setting and methodology for practical use in RLHF training of large language models. Here, our method is able to reach better performance with fewer samples of human preferences than multiple baselines on three real-world datasets.
翻訳日:2023-12-04 16:02:17 公開日:2023-12-01
# スクリッパー:長鎖のスキッピングによる量子アニールのリーチと忠実度の向上

Skipper: Improving the Reach and Fidelity of Quantum Annealers by Skipping Long Chains ( http://arxiv.org/abs/2312.00264v1 )

ライセンス: Link先を確認
Ramin Ayanzadeh and Moinuddin Qureshi(参考訳) 量子アニール (QA) は単一命令マシンとして動作し、限られた量子ビット接続を克服するためのSWAP操作を欠いている。 その結果、複数の物理量子ビットは、高い接続性を持つプログラム量子ビットを形成し、結果として、有効QA容量が最大33倍まで大幅に減少する。 私たちはQAでそれを観察します。 (a)鎖長は、パワーロー分布を示し、数個の支配鎖は他の鎖よりも実質的に多くの量子ビットを有する。) (b)物理キュービットの約25%は使われず、鎖間で孤立している。 そこで本研究では,主鎖をスキップし,プログラムキュービットを2つの読み出し結果で置換することにより,QAのキャパシティと忠実度を向上させるソフトウェア技術であるSkipperを提案する。 5761量子ビットのqaを用いて,11チェーンをスキップした場合に最大59%(例28%)の大きな問題にskipperが対処できることを実証した。 さらに、5つのチェーン(32ラン)を切断すると、QA忠実度を最大44%(Avg.33%)向上させることができる。 ユーザーはSkipperで最大11個のチェーンカットを指定できる。 そこで我々は,11個のチェーントリムを持つ最大23個の量子実行可能ファイルを実行し,グローバル最適化を保ちにくいサブプロブレムをスキップするグリーディスキームであるskipper-gを提案する。 スキッパー-Gは5本の鎖を切ると最大41%(Avg. 29%)のQA忠実度を向上できる(11ラン)。

Quantum Annealers (QAs) operate as single-instruction machines, lacking a SWAP operation to overcome limited qubit connectivity. Consequently, multiple physical qubits are chained to form a program qubit with higher connectivity, resulting in a drastically diminished effective QA capacity by up to 33x. We observe that in QAs: (a) chain lengths exhibit a power-law distribution, a few dominant chains holding substantially more qubits than others; and (b) about 25% of physical qubits remain unused, getting isolated between these chains. We propose Skipper, a software technique that enhances the capacity and fidelity of QAs by skipping dominant chains and substituting their program qubit with two readout results. Using a 5761-qubit QA, we demonstrate that Skipper can tackle up to 59% (Avg. 28%) larger problems when eleven chains are skipped. Additionally, Skipper can improve QA fidelity by up to 44% (Avg. 33%) when cutting five chains (32 runs). Users can specify up to eleven chain cuts in Skipper, necessitating about 2,000 distinct quantum executable runs. To mitigate this, we introduce Skipper-G, a greedy scheme that skips sub-problems less likely to hold the global optimum, executing a maximum of 23 quantum executables with eleven chain trims. Skipper-G can boost QA fidelity by up to 41% (Avg. 29%) when cutting five chains (11 runs).
翻訳日:2023-12-04 16:02:00 公開日:2023-12-01
# 金融分類タスクにおける量子多重カーネル学習

Quantum Multiple Kernel Learning in Financial Classification Tasks ( http://arxiv.org/abs/2312.00260v1 )

ライセンス: Link先を確認
Shungo Miyabe, Brian Quanz, Noriaki Shimada, Abhijit Mitra, Takahiro Yamamoto, Vladimir Rastunkov, Dimitris Alevras, Mekena Metcalf, Daniel J.M. King, Mohammad Mamouei, Matthew D. Jackson, Martin Brown, Philip Intallura, and Jae-Eun Park(参考訳) 金融サービスは、アンロックされた短期量子ユーティリティが利益をもたらす可能性があり、特に量子機械学習アルゴリズムは予測モデルの品質を向上させることでビジネスに利益をもたらす可能性がある。 量子カーネルの手法は、不正検出のような金融やバイナリの分類タスクで成功し、変分量子機械学習のアプローチに見られる問題を回避する。 しかし、古典的なデータセットに適した量子カーネルを選択することは依然として困難である。 本稿では,単一のカーネルアプローチよりも分類品質を向上できるハイブリッド量子多重カーネル学習(qmkl)手法を提案する。 本研究は,量子カーネル法と量子カーネル法の両方を用いて,QMKLのロバスト性をテストする。 さらに、誤差軽減パイプラインを用いて量子ハードウェア上でQMKLを実証し、大きな量子ビット状態におけるQMKLの利点を示す。

Financial services is a prospect industry where unlocked near-term quantum utility could yield profitable potential, and, in particular, quantum machine learning algorithms could potentially benefit businesses by improving the quality of predictive models. Quantum kernel methods have demonstrated success in financial, binary classification tasks, like fraud detection, and avoid issues found in variational quantum machine learning approaches. However, choosing a suitable quantum kernel for a classical dataset remains a challenge. We propose a hybrid, quantum multiple kernel learning (QMKL) methodology that can improve classification quality over a single kernel approach. We test the robustness of QMKL on several financially relevant datasets using both fidelity and projected quantum kernel approaches. We further demonstrate QMKL on quantum hardware using an error mitigation pipeline and show the benefits of QMKL in the large qubit regime.
翻訳日:2023-12-04 16:01:31 公開日:2023-12-01
# 広帯域波長可変レーザおよびチップ上高出力増幅器用チタン:サファイアオン絶縁体

Titanium:Sapphire-on-insulator for broadband tunable lasers and high-power amplifiers on chip ( http://arxiv.org/abs/2312.00256v1 )

ライセンス: Link先を確認
Joshua Yang, Kasper Van Gasse, Daniil M. Lukin, Melissa A. Guidry, Geun Ho Ahn, Alexander D. White, Jelena Vu\v{c}kovi\'c(参考訳) チタン:サファイア(Ti:Sa)レーザーは基礎研究と技術応用の推進に不可欠である。 Ti:Saレーザーは帯域幅とチューニング範囲は未整合ですが、大きなサイズ、コスト、高い光ポンプパワーを必要とするため、使用は厳しく制限されています。 ここでは,Ti:Sa-on-insulator(Ti:SaOI)フォトニクスプラットフォームを実証し,Ti:Sa技術の劇的な小型化,コスト削減,スケーラビリティを実現する。 まず,低損失なギャラリーモード共振器の製作により,超低遅延閾値290$\mu$WのTi:Saレーザーを実現する。 そして,Ti:SaOI導波路におけるモード閉じ込めのオーダー・オブ・マグニチュードの改善により,超広帯域700〜950nm,ピークゲイン64dB/cmの1ドル以下で動作する最初の固体(非半導体)光増幅器を実現する。 ピーク電力1.0kWのピコ秒パルスの17dB歪みのない増幅を最大2.3nJのパルスエネルギーで実証した。 最後に、細いライン幅と24.7 THzのチューニングレンジを備えた最初の可変集積型Ti:Saレーザーを、低コストで小型で市販のグリーンレーザーダイオードで初めて励起できることを示した。 これにより、Ti:Saレーザー(現在はフットプリントが 0.15 mm$^2$未満である)の新たなモダリティへの扉が開けられる。 概念実証として,炭化ケイ素中の人工原子を用いた空洞量子電磁力学実験のための光制御として,Ti:SaOIレーザーアレイを用いる。 この研究は、ti:sa技術の民主化に向けた重要な一歩であり、コストとフットプリントの3桁の削減と、サブミクロン波長光の固体ブロードバンド増幅の導入である。

Titanium:Sapphire (Ti:Sa) lasers have been essential for advancing fundamental research and technological applications. Ti:Sa lasers are unmatched in bandwidth and tuning range, yet their use is severely restricted due to their large size, cost, and need for high optical pump powers. Here, we demonstrate a monocrystalline Ti:Sa-on-insulator (Ti:SaOI) photonics platform which enables dramatic miniaturization, cost-reduction, and scalability of Ti:Sa technology. First, through fabrication of low-loss whispering gallery mode resonators, we realize a Ti:Sa laser operating with an ultra-low lasing threshold of 290 $\mu$W. Then, through orders-of-magnitude improvement in mode confinement in Ti:SaOI waveguides, we realize the first integrated solid-state (i.e., non-semiconductor) optical amplifier operating below 1 $\mu$m, with an ultra-wide bandwidth of 700 - 950 nm and peak gain of 64 dB/cm. We demonstrate unprecedented 17 dB distortion-free amplification of picosecond pulses to up to 2.3 nJ pulse energy, corresponding to a peak power of 1.0 kW. Finally, we demonstrate the first tunable integrated Ti:Sa laser, featuring narrow linewidths and a 24.7 THz tuning range, which, for the first time, can be pumped with low-cost, miniature, off-the-shelf green laser diodes. This opens doors to new modalities of Ti:Sa lasers (now occupying a footprint less than 0.15 mm$^2$), such as massively-scalable Ti:Sa laser array systems for a variety of applications. As a proof-of-concept demonstration, we employ a Ti:SaOI laser array as the sole optical control for a cavity quantum electrodynamics experiment with artificial atoms in silicon carbide. This work is a key step towards the democratization of Ti:Sa technology through a three orders-of-magnitude reduction in cost and footprint, as well as the introduction of solid-state broadband amplification of sub-micron wavelength light.
翻訳日:2023-12-04 16:01:00 公開日:2023-12-01
# マッチング弱情報オントロジー

Matching Weak Informative Ontologies ( http://arxiv.org/abs/2312.00332v1 )

ライセンス: Link先を確認
Peng Wang(参考訳) 既存のオントロジーマッチング手法の多くは、リテラル情報を用いてアライメントを発見する。 しかし、オントロジーのリテラル情報は不透明であり、オントロジーの中には十分なリテラル情報を持たないものもある。 本稿では,これらのオントロジーを弱情報オントロジー (WIO) とみなし,既存の手法でWIOをマッチングすることは困難である。 一方、文字列ベースおよび言語ベースのマッチング手法は、WIOではうまく動作しない。 一方で、パフォーマンスを改善するために外部リソースを使用する方法もありますが、外部リソースの収集や処理には依然として時間がかかります。 そこで本稿では, オントロジ構造情報を用いてアライメントを見つけることで, wiosをマッチングする実用的な手法を提案する。 まず、意味部分グラフをオントロジーグラフから抽出し、オントロジー要素の正確な意味を捉える。 そして、wiosをマッチングするための新しい類似性伝播モデルを設計する。 一方、意味のない伝播を避けるために、類似性伝播は意味的な部分グラフやその他の条件によって制限される。 その結果、類似性伝播モデルにより、マッチング時の効率と品質のバランスが保証される。 最後に、類似性伝播モデルでは、いくつかの信頼性のあるアライメントを種として使用して、さらなるアライメントを見つけ、パフォーマンスを向上させるためにいくつかの有用な戦略が採用されている。 このWIOのマッチング方法はオントロジーマッチングシステムであるLilyで実装されている。 公開oaeiベンチマークデータセットにおける実験の結果は、lilyがwioマッチングタスクと一般的なオントロジーマッチングタスクの両方において、最先端の作業の大部分を著しく上回っていることを示している。 特に、Lilyはリコールを大きなマージンで増加させる一方、マッチング結果の精度は高い。

Most existing ontology matching methods utilize the literal information to discover alignments. However, some literal information in ontologies may be opaque and some ontologies may not have sufficient literal information. In this paper, these ontologies are named as weak informative ontologies (WIOs) and it is challenging for existing methods to matching WIOs. On one hand, string-based and linguistic-based matching methods cannot work well for WIOs. On the other hand, some matching methods use external resources to improve their performance, but collecting and processing external resources is still time-consuming. To address this issue, this paper proposes a practical method for matching WIOs by employing the ontology structure information to discover alignments. First, the semantic subgraphs are extracted from the ontology graph to capture the precise meanings of ontology elements. Then, a new similarity propagation model is designed for matching WIOs. Meanwhile, in order to avoid meaningless propagation, the similarity propagation is constrained by semantic subgraphs and other conditions. Consequently, the similarity propagation model ensures a balance between efficiency and quality during matching. Finally, the similarity propagation model uses a few credible alignments as seeds to find more alignments, and some useful strategies are adopted to improve the performance. This matching method for WIOs has been implemented in the ontology matching system Lily. Experimental results on public OAEI benchmark datasets demonstrate that Lily significantly outperforms most of the state-of-the-art works in both WIO matching tasks and general ontology matching tasks. In particular, Lily increases the recall by a large margin, while it still obtains high precision of matching results.
翻訳日:2023-12-04 15:54:16 公開日:2023-12-01
# StyleCrafter:スタイルアダプタによるスタイリズされたテキスト・ビデオ生成の強化

StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter ( http://arxiv.org/abs/2312.00330v1 )

ライセンス: Link先を確認
Gongye Liu, Menghan Xia, Yong Zhang, Haoxin Chen, Jinbo Xing, Xintao Wang, Yujiu Yang, Ying Shan(参考訳) text-to-video(t2v)モデルは、多様なビデオを生成する素晴らしい能力を示している。 しかし、ユーザー好みのスタイリッシュビデオを作るのに苦労している。 (i)特定の様式や表現における本質的な不器用さ (ii)概ね劣化した様式の忠実さ。 これらの課題に対処するために,スタイル制御アダプタを用いて事前学習したt2vモデルを拡張する汎用的手法であるstylecrafterを導入する。 スタイリングされたビデオデータセットの不足を考慮すると、まずスタイルリッチな画像データセットを用いてスタイル制御アダプタを訓練し、学習したスタイリング能力をテーラーメイドのファインタニングパラダイムを通じてビデオ生成に転送する。 コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,デカップリング学習戦略を用いて参照画像のみからスタイル情報を抽出する。 さらに,テキストベースのコンテンツ機能と画像ベースのスタイル機能の影響をバランスさせるために,スケール適応型融合モジュールを設計した。 StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。 実験によると、我々のアプローチは既存の競合他社よりも柔軟で効率的である。

Text-to-video (T2V) models have shown remarkable capabilities in generating diverse videos. However, they struggle to produce user-desired stylized videos due to (i) text's inherent clumsiness in expressing specific styles and (ii) the generally degraded style fidelity. To address these challenges, we introduce StyleCrafter, a generic method that enhances pre-trained T2V models with a style control adapter, enabling video generation in any style by providing a reference image. Considering the scarcity of stylized video datasets, we propose to first train a style control adapter using style-rich image datasets, then transfer the learned stylization ability to video generation through a tailor-made finetuning paradigm. To promote content-style disentanglement, we remove style descriptions from the text prompt and extract style information solely from the reference image using a decoupling learning strategy. Additionally, we design a scale-adaptive fusion module to balance the influences of text-based content features and image-based style features, which helps generalization across various text and style combinations. StyleCrafter efficiently generates high-quality stylized videos that align with the content of the texts and resemble the style of the reference images. Experiments demonstrate that our approach is more flexible and efficient than existing competitors.
翻訳日:2023-12-04 15:53:51 公開日:2023-12-01
# agent-om: オントロジーマッチングに大規模言語モデルを活用する

Agent-OM: Leveraging Large Language Models for Ontology Matching ( http://arxiv.org/abs/2312.00326v1 )

ライセンス: Link先を確認
Zhangcheng Qiang, Weiqing Wang, Kerry Taylor(参考訳) オントロジーマッチング(om)は異なるオントロジー間の意味的相互運用を可能にし、関連するエンティティを整合させることで概念的不均一性を解消する。 従来の知識ベースのエキスパートシステムと、より新しい機械学習ベースの予測システムである。 大規模言語モデル (LLM) と LLM ベースのエージェントは、データ工学において革命的になり、様々な領域で創造的に応用されているが、OM の可能性はまだ未定である。 本研究は,OMシステムのための新しいエージェント駆動LLM設計パラダイムを提案する。 OM に LLM を活用するためのいくつかの具体的な課題を考慮し、単純なプロンプトベースの OM ツールセットを用いて、2 つの Siamese エージェントからなる汎用フレームワークである Agent-OM を提案する。 我々のフレームワークは概念実証システムで実装されている。 3つのオントロジーアライメント評価イニシアチブ(OAEI)トラックを最先端のOMシステム上で評価した結果,本システムは,単純なOMタスク上での長年の最高のパフォーマンスに非常に近い結果を得ることができ,複雑なOMタスクにおける性能を著しく向上させることができることがわかった。

Ontology matching (OM) enables semantic interoperability between different ontologies and resolves their conceptual heterogeneity by aligning related entities. OM systems currently have two prevailing design paradigms: conventional knowledge-based expert systems and newer machine learning-based predictive systems. While large language models (LLMs) and LLM-based agents have become revolutionary in data engineering and have been applied creatively in various domains, their potential for OM remains underexplored. This study introduces a novel agent-powered LLM-based design paradigm for OM systems. With thoughtful consideration of several specific challenges to leverage LLMs for OM, we propose a generic framework, namely Agent-OM, consisting of two Siamese agents for retrieval and matching, with a set of simple prompt-based OM tools. Our framework is implemented in a proof-of-concept system. Evaluations of three Ontology Alignment Evaluation Initiative (OAEI) tracks over state-of-the-art OM systems show that our system can achieve very close results to the best long-standing performance on simple OM tasks and significantly improve the performance on complex and few-shot OM tasks.
翻訳日:2023-12-04 15:53:29 公開日:2023-12-01
# 行動警告識別のための機械学習: 包括的調査

Machine Learning for Actionable Warning Identification: A Comprehensive Survey ( http://arxiv.org/abs/2312.00324v1 )

ライセンス: Link先を確認
Xiuting Ge, Chunrong Fang, Xuanye Li, Weisong Sun, Daoyuan Wu, Juan Zhai, Shangwei Lin, Zhihong Zhao, Yang Liu, Zhenyu Chen(参考訳) Actionable Warning Identification (AWI)は、静的コードアナライザのユーザビリティ向上に重要な役割を果たす。 近年の機械学習(ML)の進歩により、ML技術をAWIに組み込むための様々なアプローチが提案されている。 これらのMLベースのAWIアプローチは、歴史的データから微妙で以前は見えなかったパターンを学習するMLの強い能力の恩恵を受けている。 しかし、これらのアプローチの包括的な概要が欠落しており、研究者や専門家が現在のプロセスを理解し、MLベースのAWIコミュニティの将来的な改善の可能性を発見するのを妨げる可能性がある。 本稿では、最先端のMLベースのAWIアプローチを体系的にレビューする。 まず,2000/01/01から2023/09/01までの50の初等研究を精査した。 次に、警告データセット作成、前処理、AWIモデル構築、評価ステージを含む、MLベースの典型的なAWIワークフローの概要を示す。 このようなワークフローでは、警告出力形式に基づいてMLベースのAWIアプローチを分類する。 また,各段階において使用する技術と,その強み,弱み,分布を分析する。 最後に、データ改善(警告ラベリング戦略の強化など)やモデル探索(AWIの大規模言語モデル探索など)といった側面に焦点を当てた、将来のMLベースのAWIアプローチのための実用的な研究方向を提供する。

Actionable Warning Identification (AWI) plays a crucial role in improving the usability of static code analyzers. With recent advances in Machine Learning (ML), various approaches have been proposed to incorporate ML techniques into AWI. These ML-based AWI approaches, benefiting from ML's strong ability to learn subtle and previously unseen patterns from historical data, have demonstrated superior performance. However, a comprehensive overview of these approaches is missing, which could hinder researchers/practitioners from understanding the current process and discovering potential for future improvement in the ML-based AWI community. In this paper, we systematically review the state-of-the-art ML-based AWI approaches. First, we employ a meticulous survey methodology and gather 50 primary studies from 2000/01/01 to 2023/09/01. Then, we outline the typical ML-based AWI workflow, including warning dataset preparation, preprocessing, AWI model construction, and evaluation stages. In such a workflow, we categorize ML-based AWI approaches based on the warning output format. Besides, we analyze the techniques used in each stage, along with their strengths, weaknesses, and distribution. Finally, we provide practical research directions for future ML-based AWI approaches, focusing on aspects like data improvement (e.g., enhancing the warning labeling strategy) and model exploration (e.g., exploring large language models for AWI).
翻訳日:2023-12-04 15:53:00 公開日:2023-12-01
# サーバーサイドコンピューティングによる自律走行におけるDNNを用いた再ローカライズモジュールの効率向上

Improving Efficiency of DNN-based Relocalization Module for Autonomous Driving with Server-side Computing ( http://arxiv.org/abs/2312.00316v1 )

ライセンス: Link先を確認
Dengbo Li, Jieren Cheng, Boyi Liu(参考訳) 本研究では,ディープニューラルネットワーク(DNN)を活用した,自律走行車におけるカメラ移動のための新しいフレームワークを提案する。 既存の文献では、様々なDNNベースのカメラリロケーション方式が提供されているが、それらの展開は推論時の高い計算要求によって妨げられている。 対照的に、当社のアプローチはエッジクラウドのコラボレーションを通じてこの問題に対処しています。 具体的には、ニューラルネットワークの特定のモジュールをサーバに戦略的にオフロードし、異なるネットワークセグメンテーションスキームの下でデータフレームの推論時間を評価し、オフロード決定を導く。 本研究は、自律走行車におけるDNNベースのカメラ再配置におけるサーバーサイドのオフロードの重要性を明らかにするとともに、データ融合の結果についても論じる。 最後に,提案手法の有効性を実験的評価により検証する。

In this work, we present a novel framework for camera relocation in autonomous vehicles, leveraging deep neural networks (DNN). While existing literature offers various DNN-based camera relocation methods, their deployment is hindered by their high computational demands during inference. In contrast, our approach addresses this challenge through edge cloud collaboration. Specifically, we strategically offload certain modules of the neural network to the server and evaluate the inference time of data frames under different network segmentation schemes to guide our offloading decisions. Our findings highlight the vital role of server-side offloading in DNN-based camera relocation for autonomous vehicles, and we also discuss the results of data fusion. Finally, we validate the effectiveness of our proposed framework through experimental evaluation.
翻訳日:2023-12-04 15:52:38 公開日:2023-12-01
# James-Stein Estimator による正規化の改善

Improving Normalization with the James-Stein Estimator ( http://arxiv.org/abs/2312.00313v1 )

ライセンス: Link先を確認
Seyedalireza Khoshsirat and Chandra Kambhamettu(参考訳) スタインのパラドックスは高次元統計学においてかなりの意味を持ち、サンプル平均は伝統的にデファクト推定量と見なされ、高次元において最も有効ではないかもしれないことを強調する。 これに対処するため、ジェームズ・スタイン推定器はサンプル平均をより集中的な平均ベクトルに向けて操ることによる拡張を提案する。 本稿では,まず,深層学習における正規化層が平均・分散に不許容推定子を用いることを示す。 次に、正規化層における平均および分散の推定を改善するために、ジェームズ・スタイン推定器を用いる新しい手法を提案する。 本手法は,画像分類,意味セグメンテーション,3次元オブジェクト分類などの異なるコンピュータビジョンタスクで評価する。 これらの評価を通して, 改良した正規化層は, 計算負荷を増すことなく, 全てのタスクにおいて, 一貫して優れた精度をもたらすことが明らかとなった。 さらに,多くの縮小推定値が従来の推定値を超えることを認識して,リッジとラッソの2つの顕著な縮小推定値について検討した。 さらに,収縮が推定層統計に与える影響を直感的に示すビジュアル表現を提供する。 最後に,修正バッチ正規化に対する正規化とバッチサイズの影響について検討した。 その結果,本手法はバッチサイズや正規化に対する感度が低く,各種設定の精度が向上した。

Stein's paradox holds considerable sway in high-dimensional statistics, highlighting that the sample mean, traditionally considered the de facto estimator, might not be the most efficacious in higher dimensions. To address this, the James-Stein estimator proposes an enhancement by steering the sample means toward a more centralized mean vector. In this paper, first, we establish that normalization layers in deep learning use inadmissible estimators for mean and variance. Next, we introduce a novel method to employ the James-Stein estimator to improve the estimation of mean and variance within normalization layers. We evaluate our method on different computer vision tasks: image classification, semantic segmentation, and 3D object classification. Through these evaluations, it is evident that our improved normalization layers consistently yield superior accuracy across all tasks without extra computational burden. Moreover, recognizing that a plethora of shrinkage estimators surpass the traditional estimator in performance, we study two other prominent shrinkage estimators: Ridge and LASSO. Additionally, we provide visual representations to intuitively demonstrate the impact of shrinkage on the estimated layer statistics. Finally, we study the effect of regularization and batch size on our modified batch normalization. The studies show that our method is less sensitive to batch size and regularization, improving accuracy under various setups.
翻訳日:2023-12-04 15:52:25 公開日:2023-12-01
# クリブル教師付きポリプセグメンテーションのためのsegment anythingモデル誘導協調学習ネットワーク

Segment Anything Model-guided Collaborative Learning Network for Scribble-supervised Polyp Segmentation ( http://arxiv.org/abs/2312.00312v1 )

ライセンス: Link先を確認
Yiming Zhao, Tao Zhou, Yunqi Gu, Yi Zhou, Yizhe Zhang, Ye Wu, Huazhu Fu(参考訳) ポリープセグメンテーションは早期のポリープの正確な位置決定に重要な役割を担っており、大腸癌の予防に重要な臨床的重要性を担っている。 完全教師付き深層学習技術を用いて様々なポリプセグメンテーション法を開発した。 しかし、診断中の医師によるポリープ画像に対するピクセルワイドアノテーションは、時間と費用の両方がかかる。 さらに、SAM(Segment Anything Model)のような視覚的基礎モデルも顕著な性能を示している。 それにもかかわらず、SAMを医学的セグメンテーションに直接適用しても、医学的知識の欠如により満足な結果が得られない可能性がある。 本稿では,本論文で提案する,スクリブル教師付きポリプセグメンテーションのためのsam誘導協調学習ネットワーク(sam-clnet)を提案する。 具体的には,まず,弱教師付きポリプセグメンテーションのためのクロスレベル拡張集約ネットワーク(cea-net)を提案する。 CEA-Net内では、隣接する特徴を統合し、異なる解像度特徴の表現能力を向上するクロスレベル拡張モジュール(CEM)を提案する。 さらに、FAM(Feature Aggregation Module)は、複数のレベルのリッチな機能をキャプチャするために使用される。 さらに,より正確なプロンプトを生成するために,CEA-Netが生成したセグメンテーションマップとスクリブルアノテーションを組み合わせたボックス拡張戦略を提案する。 これらのプロンプトはSAMに入力され、セグメンテーションSAM誘導マスクを生成し、CEA-Netを効果的に訓練するための追加の監督を提供する。 さらに、信頼性の低いSAM誘導マスクをフィルタリングする画像レベルフィルタリング機構を提案する。 我々のSAM-CLNetは、最先端の弱教師付きセグメンテーション法よりも優れていた。

Polyp segmentation plays a vital role in accurately locating polyps at an early stage, which holds significant clinical importance for the prevention of colorectal cancer. Various polyp segmentation methods have been developed using fully-supervised deep learning techniques. However, pixel-wise annotation for polyp images by physicians during the diagnosis is both time-consuming and expensive. Moreover, visual foundation models such as the Segment Anything Model (SAM) have shown remarkable performance. Nevertheless, directly applying SAM to medical segmentation may not produce satisfactory results due to the inherent absence of medical knowledge. In this paper, we propose a novel SAM-guided Collaborative Learning Network (SAM-CLNet) for scribble-supervised polyp segmentation, enabling a collaborative learning process between our segmentation network and SAM to boost the model performance. Specifically, we first propose a Cross-level Enhancement and Aggregation Network (CEA-Net) for weakly-supervised polyp segmentation. Within CEA-Net, we propose a Cross-level Enhancement Module (CEM) that integrates the adjacent features to enhance the representation capabilities of different resolution features. Additionally, a Feature Aggregation Module (FAM) is employed to capture richer features across multiple levels. Moreover, we present a box-augmentation strategy that combines the segmentation maps generated by CEA-Net with scribble annotations to create more precise prompts. These prompts are then fed into SAM, generating segmentation SAM-guided masks, which can provide additional supervision to train CEA-Net effectively. Furthermore, we present an Image-level Filtering Mechanism to filter out unreliable SAM-guided masks. Extensive experimental results show that our SAM-CLNet outperforms state-of-the-art weakly-supervised segmentation methods.
翻訳日:2023-12-04 15:51:59 公開日:2023-12-01
# 顔部セグメンテーションの幾何学的指導による3次元顔再建

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation ( http://arxiv.org/abs/2312.00311v1 )

ライセンス: Link先を確認
Zidu Wang, Xiangyu Zhu, Tianshuo Zhang, Baiqin Wang, Zhen Lei(参考訳) 3D Morphable Models (3DMM) は様々な用途で有望な3D顔再構成を提供する。 しかし、既存の方法では、スパースや不正確なランドマークなどの監督信号の欠陥により、極端な表現で顔の再構築に苦労している。 セグメンテーション情報は、顔再構成のための効果的な幾何学的文脈を含む。 ある種の試みは、直観的に微分可能なレンダラーに依存し、レンダリングされた再構成のシルエットとセグメンテーションを比較する。 本稿では,部分再投影距離損失(PRDL)を導入し,顔部分分割形状を十分に活用する。 具体的には、PRDLは顔部分のセグメンテーションを2Dポイントに変換し、再構成を画像面に再投影する。 その後、グリッドアンカーを導入し、これらのアンカーから点集合への異なる統計距離を計算することにより、PRDLは顔再構成のための点集合の分布を最適化するための幾何学記述子を確立する。 PRDLは、レンダラー方式と比較して明確な勾配を示し、広範囲な定量的および定性的実験において最先端の再構築性能を示す。 プロジェクトは一般公開される予定だ。

3D Morphable Models (3DMMs) provide promising 3D face reconstructions in various applications. However, existing methods struggle to reconstruct faces with extreme expressions due to deficiencies in supervisory signals, such as sparse or inaccurate landmarks. Segmentation information contains effective geometric contexts for face reconstruction. Certain attempts intuitively depend on differentiable renderers to compare the rendered silhouettes of reconstruction with segmentation, which is prone to issues like local optima and gradient instability. In this paper, we fully utilize the facial part segmentation geometry by introducing Part Re-projection Distance Loss (PRDL). Specifically, PRDL transforms facial part segmentation into 2D points and re-projects the reconstruction onto the image plane. Subsequently, by introducing grid anchors and computing different statistical distances from these anchors to the point sets, PRDL establishes geometry descriptors to optimize the distribution of the point sets for face reconstruction. PRDL exhibits a clear gradient compared to the renderer-based methods and presents state-of-the-art reconstruction performance in extensive quantitative and qualitative experiments. The project will be publicly available.
翻訳日:2023-12-04 15:51:32 公開日:2023-12-01
# 衛星リモートセンシングを用いたクラウドタイプ識別のための知識ベースデータ駆動(KBDD)フレームワーク

A knowledge-based data-driven (KBDD) framework for all-day identification of cloud types using satellite remote sensing ( http://arxiv.org/abs/2312.00308v1 )

ライセンス: Link先を確認
Longfeng Nie, Yuntian Chen, Mengge Du, Changqi Sun, Dongxiao Zhang(参考訳) 気象データの一種である雲の種類は、降雨量、熱波量、水資源量、洪水および干ばつ量、食料安全保障および植生被覆量、土地利用量の変化を評価する上で特に重要である。 高分解能測地観測を効果的に活用するために,ヒマワリ8/9衛星センサのスペクトル情報に基づいて,雲の種類を常時識別する知識ベースデータ駆動(KBDD)フレームワークを設計した。 また,CldNetという新しい,シンプルで効率的なネットワークを提案する。 SegNet, PSPNet, DeepLabV3+, UNet, ResUnetなどの一般的なセマンティックセグメンテーションネットワークと比較して, 提案したモデルCldNetの精度は80.89+-2.18%であり, それぞれ32%, 46%, 22%, 2%, 39%であった。 補助情報(衛星のゼニト/方位角、太陽のゼニト/方位角など)の補助により、可視および近赤外帯を用いたcldnet-wとテストデータセット上で可視および近赤外帯を使用しないcldnet-oの精度は、それぞれ82.23+-2.14%と73.21+-2.02%である。 一方、CldNetの総パラメータはわずか0.46Mであり、エッジ展開が容易である。 さらに、微調整のない訓練されたCldNetは、空間解像度 0.02{\deg}*0.02{\deg} の衛星スペクトルデータを用いて、より高解像度の雲種を予測することができる。 まとめると、CldNetを使用したKBDDフレームワークは、多くの気候評価分野に対して、高忠実で全日時空間のクラウド型データベースを提供する、非常に効果的なクラウド型識別システムである。

Cloud types, as a type of meteorological data, are of particular significance for evaluating changes in rainfall, heatwaves, water resources, floods and droughts, food security and vegetation cover, as well as land use. In order to effectively utilize high-resolution geostationary observations, a knowledge-based data-driven (KBDD) framework for all-day identification of cloud types based on spectral information from Himawari-8/9 satellite sensors is designed. And a novel, simple and efficient network, named CldNet, is proposed. Compared with widely used semantic segmentation networks, including SegNet, PSPNet, DeepLabV3+, UNet, and ResUnet, our proposed model CldNet with an accuracy of 80.89+-2.18% is state-of-the-art in identifying cloud types and has increased by 32%, 46%, 22%, 2%, and 39%, respectively. With the assistance of auxiliary information (e.g., satellite zenith/azimuth angle, solar zenith/azimuth angle), the accuracy of CldNet-W using visible and near-infrared bands and CldNet-O not using visible and near-infrared bands on the test dataset is 82.23+-2.14% and 73.21+-2.02%, respectively. Meanwhile, the total parameters of CldNet are only 0.46M, making it easy for edge deployment. More importantly, the trained CldNet without any fine-tuning can predict cloud types with higher spatial resolution using satellite spectral data with spatial resolution 0.02{\deg}*0.02{\deg}, which indicates that CldNet possesses a strong generalization ability. In aggregate, the KBDD framework using CldNet is a highly effective cloud-type identification system capable of providing a high-fidelity, all-day, spatiotemporal cloud-type database for many climate assessment fields.
翻訳日:2023-12-04 15:51:13 公開日:2023-12-01
# RadioGalaxyNET:拡張電波銀河と赤外線ホストの検出のためのデータセットと新しいコンピュータビジョンアルゴリズム

RadioGalaxyNET: Dataset and Novel Computer Vision Algorithms for the Detection of Extended Radio Galaxies and Infrared Hosts ( http://arxiv.org/abs/2312.00306v1 )

ライセンス: Link先を確認
Nikhel Gupta, Zeeshan Hayder, Ray P. Norris, Minh Huynh, and Lars Petersson(参考訳) 次世代のディープサーベイから電波銀河カタログを作成するには、拡張されたソースとその対応する赤外線ホストの関連コンポーネントの自動識別が必要である。 本稿では、マルチモーダルデータセットであるradiogalaxynetと、多成分拡張電波銀河とその対応する赤外線ホストの検出と局在を自動化するために設計された一連の新しいコンピュータビジョンアルゴリズムを紹介する。 データセットは4,155個の銀河と2,800枚の画像からなり、電波と赤外線のチャネルがある。 それぞれのインスタンスは、拡張無線銀河クラス、すべてのコンポーネントを含む対応する境界ボックス、ピクセルレベルのセグメンテーションマスク、対応する赤外線ホスト銀河のキーポイント位置に関する情報を提供する。 RadioGalaxyNETは、高感度のオーストラリア・スクエア・キロメア・アレー・パスファインダー(ASKAP)電波望遠鏡の画像、対応する赤外線画像、銀河検出のためのインスタンスレベルのアノテーションを含む最初のデータセットである。 本稿では,複数の物体検出アルゴリズムをベンチマークし,電波銀河と赤外線ホストの位置を同時に検出するための新しいマルチモーダル手法を提案する。

Creating radio galaxy catalogues from next-generation deep surveys requires automated identification of associated components of extended sources and their corresponding infrared hosts. In this paper, we introduce RadioGalaxyNET, a multimodal dataset, and a suite of novel computer vision algorithms designed to automate the detection and localization of multi-component extended radio galaxies and their corresponding infrared hosts. The dataset comprises 4,155 instances of galaxies in 2,800 images with both radio and infrared channels. Each instance provides information about the extended radio galaxy class, its corresponding bounding box encompassing all components, the pixel-level segmentation mask, and the keypoint position of its corresponding infrared host galaxy. RadioGalaxyNET is the first dataset to include images from the highly sensitive Australian Square Kilometre Array Pathfinder (ASKAP) radio telescope, corresponding infrared images, and instance-level annotations for galaxy detection. We benchmark several object detection algorithms on the dataset and propose a novel multimodal approach to simultaneously detect radio galaxies and the positions of infrared hosts.
翻訳日:2023-12-04 15:50:33 公開日:2023-12-01
# 雑音行列完全化のための線形形式の多重テスト

Multiple Testing of Linear Forms for Noisy Matrix Completion ( http://arxiv.org/abs/2312.00305v1 )

ライセンス: Link先を確認
Wanteng Ma, Lilun Du, Dong Xia and Ming Yuan(参考訳) 大規模レコメンダシステムの多くの重要なタスクは、ノイズの多い行列補完のための複数の線形形式のテストとして自然にキャストできる。 しかし、これらの問題は、低ランク構造によって引き起こされる推定エントリ間の微妙なバイアスと分散のトレードオフと複雑な依存性によって、ユニークな課題を呈している。 本稿では,これらの課題を克服するための一般的な手法として,シャープな漸近性を持つ個々の検定のための新しい統計データを導入し,データ分割と対称アソシエーション方式による偽発見率(FDR)の制御に活用する。 提案手法を用いて, ほぼ最適なサンプルサイズ条件下で, 有効なFDR制御を実現することができることを示す。 実際の数値シミュレーションや実データ例も提示され、その実用性がさらに説明されている。

Many important tasks of large-scale recommender systems can be naturally cast as testing multiple linear forms for noisy matrix completion. These problems, however, present unique challenges because of the subtle bias-and-variance tradeoff of and an intricate dependence among the estimated entries induced by the low-rank structure. In this paper, we develop a general approach to overcome these difficulties by introducing new statistics for individual tests with sharp asymptotics both marginally and jointly, and utilizing them to control the false discovery rate (FDR) via a data splitting and symmetric aggregation scheme. We show that valid FDR control can be achieved with guaranteed power under nearly optimal sample size requirements using the proposed methodology. Extensive numerical simulations and real data examples are also presented to further illustrate its practical merits.
翻訳日:2023-12-04 15:50:14 公開日:2023-12-01
# 画像分類ネットワークのためのDPT(Developmental Pretraining)

Developmental Pretraining (DPT) for Image Classification Networks ( http://arxiv.org/abs/2312.00304v1 )

ライセンス: Link先を確認
Niranjan Rajesh and Debayan Gupta(参考訳) オブジェクト認識のための深層ニューラルネットワークの要求が日に日に増大する背景において,その解決策としてdpt( developmental pretraining)を提案する。 DPTはカリキュラムベースの事前学習アプローチとして設計されており、データハングリーである従来の事前学習技術と競合するように設計されている。 これらのトレーニングアプローチは、事前学習データと十分に異なるデータが不足している下流分類タスクでネットワークが使用される際に、誤解を招く可能性のある不要な機能も導入する。 幼児の視覚発達からインスピレーションを得てDPTのカリキュラムを設計する。 DPTは、エッジや形状といった、慎重に選択された原始的かつ普遍的な特徴を、事前学習体制に参加するネットワークに教える段階的なアプローチを採用している。 ランダム化重み付きモデルに対して, DPT方式を施行したモデルを試験し, DPTの有効性を評価する。

In the backdrop of increasing data requirements of Deep Neural Networks for object recognition that is growing more untenable by the day, we present Developmental PreTraining (DPT) as a possible solution. DPT is designed as a curriculum-based pre-training approach designed to rival traditional pre-training techniques that are data-hungry. These training approaches also introduce unnecessary features that could be misleading when the network is employed in a downstream classification task where the data is sufficiently different from the pre-training data and is scarce. We design the curriculum for DPT by drawing inspiration from human infant visual development. DPT employs a phased approach where carefully-selected primitive and universal features like edges and shapes are taught to the network participating in our pre-training regime. A model that underwent the DPT regime is tested against models with randomised weights to evaluate the viability of DPT.
翻訳日:2023-12-04 15:49:59 公開日:2023-12-01
# QIENet:衛星リモートセンシングデータに基づくリカレントニューラルネットワークを用いた定量的照度推定ネットワーク

QIENet: Quantitative irradiance estimation network using recurrent neural network based on satellite remote sensing data ( http://arxiv.org/abs/2312.00299v1 )

ライセンス: Link先を確認
Longfeng Nie, Yuntian Chen, Dongxiao Zhang, Xinyue Liu, Wentian Yuan(参考訳) 地球水平照度(GHI)は、持続可能なグリーンエネルギーの生成に使用される太陽エネルギー資源の推定において重要な役割を果たす。 空間分解能の高いGHIを推定するために,QIENetと呼ばれる定量的照度推定ネットワークを提案する。 具体的には、リカレントニューラルネットワーク(rnn)と畳み込み動作により、衛星ひまわり8のリモートセンシングデータの時間的及び空間的特性を抽出・融合する。 QIENetの入力には、リモートセンシングデータだけでなく、GHI関連の時間情報(時間、日、月)や地理的情報(緯度、経度、緯度)も使用される。 衛星スペクトルチャネルB07,B11〜B15は、年間太陽エネルギーの空間分布に応じてQIENetのモデル入力として推奨される。 一方、QIENetは、時間ごとのGHI推定に対する様々な雲の影響を捉えている。 さらに重要なことは、QIENetは地上での観測を過大評価せず、RMSEを27.51%/18.00%、R2を20.17%/9.42%、rを8.69%/3.54%削減できる。 さらに、QIENetは、多くの応用エネルギー分野に対して、空間解像度 0.02{\deg} * 0.02{\deg}(a approximately 2km * 2km) の高忠実時間GHIデータベースを提供することができる。

Global horizontal irradiance (GHI) plays a vital role in estimating solar energy resources, which are used to generate sustainable green energy. In order to estimate GHI with high spatial resolution, a quantitative irradiance estimation network, named QIENet, is proposed. Specifically, the temporal and spatial characteristics of remote sensing data of the satellite Himawari-8 are extracted and fused by recurrent neural network (RNN) and convolution operation, respectively. Not only remote sensing data, but also GHI-related time information (hour, day, and month) and geographical information (altitude, longitude, and latitude), are used as the inputs of QIENet. The satellite spectral channels B07 and B11 - B15 and time are recommended as model inputs for QIENet according to the spatial distributions of annual solar energy. Meanwhile, QIENet is able to capture the impact of various clouds on hourly GHI estimates. More importantly, QIENet does not overestimate ground observations and can also reduce RMSE by 27.51%/18.00%, increase R2 by 20.17%/9.42%, and increase r by 8.69%/3.54% compared with ERA5/NSRDB. Furthermore, QIENet is capable of providing a high-fidelity hourly GHI database with spatial resolution 0.02{\deg} * 0.02{\deg}(approximately 2km * 2km) for many applied energy fields.
翻訳日:2023-12-04 15:49:46 公開日:2023-12-01
# 直交正準相関解析に向けて:予備定式化と概念実証

Towards Aligned Canonical Correlation Analysis: Preliminary Formulation and Proof-of-Concept Results ( http://arxiv.org/abs/2312.00296v1 )

ライセンス: Link先を確認
Biqian Cheng, Evangelos E. Papalexakis, Jia Chen(参考訳) 正準相関解析(CCA)は、データの複数のビューを最大相関した潜在空間に埋め込むために広く応用されている。 しかしながら、従来のアプローチで要求される様々なデータ視点の整合は、多くの実用的なケースにおいて不明確である。 本研究では、アライメントとマルチビューの埋め込みを反復的に解決し、この問題に対処する新しいフレームワークであるACCA(Aligned Canonical correlation Analysis)を提案する。

Canonical Correlation Analysis (CCA) has been widely applied to jointly embed multiple views of data in a maximally correlated latent space. However, the alignment between various data perspectives, which is required by traditional approaches, is unclear in many practical cases. In this work we propose a new framework Aligned Canonical Correlation Analysis (ACCA), to address this challenge by iteratively solving the alignment and multi-view embedding.
翻訳日:2023-12-04 15:49:19 公開日:2023-12-01
# PsyAttention:パーソナリティ検出のための心理的注意モデル

PsyAttention: Psychological Attention Model for Personality Detection ( http://arxiv.org/abs/2312.00293v1 )

ライセンス: Link先を確認
Baohua Zhang, Yongyi Huang, Wenyao Cui, Huaping Zhang and Jianyun Shang(参考訳) パーソナリティ検出の研究は、BigFiveやMBTIなど、さまざまなパーソナリティモデルからの心理的特徴を取り入れる傾向にある。 900以上の心理的特徴があり、それぞれが人格検出に役立っている。 しかし、これらの特徴に異なる計算基準を適用すると、異なるシステムを用いて計算された特徴間の干渉が生じ、ノイズが発生し、性能が低下する可能性がある。 本稿では,提案する性格検出のための心理モデルを用いて,心理特徴を効果的にエンコードし,その数を85%削減する。 BigFiveとMBTIの実験では、PysAttentionは、それぞれ65.66%と86.30%の平均精度を達成し、最先端の手法よりも優れており、心理的特徴の符号化に有効であることを示している。

Work on personality detection has tended to incorporate psychological features from different personality models, such as BigFive and MBTI. There are more than 900 psychological features, each of which is helpful for personality detection. However, when used in combination, the application of different calculation standards among these features may result in interference between features calculated using distinct systems, thereby introducing noise and reducing performance. This paper adapts different psychological models in the proposed PsyAttention for personality detection, which can effectively encode psychological features, reducing their number by 85%. In experiments on the BigFive and MBTI models, PysAttention achieved average accuracy of 65.66% and 86.30%, respectively, outperforming state-of-the-art methods, indicating that it is effective at encoding psychological features.
翻訳日:2023-12-04 15:49:11 公開日:2023-12-01
# 心臓MRIのための総合的深層学習システム

A Generalizable Deep Learning System for Cardiac MRI ( http://arxiv.org/abs/2312.00357v1 )

ライセンス: Link先を確認
Rohan Shad, Cyril Zakka, Dhamanpreet Kaur, Robyn Fong, Ross Warren Filice, John Mongan, Kimberly Kalianos, Nishith Khandwala, David Eng, Matthew Leipzig, Walter Witschey, Alejandro de Feria, Victor Ferrari, Euan Ashley, Michael A. Acker, Curtis Langlotz, William Hiesinger(参考訳) 心臓MRIは、心筋の構造、機能、組織の特徴を総合的に評価することができる。 本稿では,ヒト心血管疾患と健康の広さを表現できる心臓MRIの基礎的ビジョンシステムについて述べる。 深層学習モデルは自己指導型コントラスト学習によって訓練され, 関連する放射線学報告の生テキストからシネケンス心磁図の視覚的概念を学習する。 我々は米国の4大大学臨床機関のデータに関するモデルを訓練し、評価する。 さらに、我々のモデルの性能を英国バイオバンクで紹介し、さらに2つの外部データセットを公開しています。 左室排出分画低下の問題や心臓アミロイド症や肥大型心筋症などの35の異なる病態の診断など、システムの創発的ゼロショット機能を調査し、様々なタスクで顕著な性能を示す。 本研究の深層学習システムは,ヒトの心血管疾患の複雑度を理解するだけでなく,これらの課題に必要なトレーニングデータのごく一部で,印象的かつ臨床レベルの診断精度をもたらす臨床問題に向けることができることを示す。

Cardiac MRI allows for a comprehensive assessment of myocardial structure, function, and tissue characteristics. Here we describe a foundational vision system for cardiac MRI, capable of representing the breadth of human cardiovascular disease and health. Our deep learning model is trained via self-supervised contrastive learning, by which visual concepts in cine-sequence cardiac MRI scans are learned from the raw text of the accompanying radiology reports. We train and evaluate our model on data from four large academic clinical institutions in the United States. We additionally showcase the performance of our models on the UK BioBank, and two additional publicly available external datasets. We explore emergent zero-shot capabilities of our system, and demonstrate remarkable performance across a range of tasks; including the problem of left ventricular ejection fraction regression, and the diagnosis of 35 different conditions such as cardiac amyloidosis and hypertrophic cardiomyopathy. We show that our deep learning system is capable of not only understanding the staggering complexity of human cardiovascular disease, but can be directed towards clinical problems of interest yielding impressive, clinical grade diagnostic accuracy with a fraction of the training data typically required for such tasks.
翻訳日:2023-12-04 15:42:53 公開日:2023-12-01
# 化学反応流における主成分輸送源の予測のための伝達学習

Transfer learning for predicting source terms of principal component transport in chemically reactive flow ( http://arxiv.org/abs/2312.00356v1 )

ライセンス: Link先を確認
Ki Sung Jung, Tarek Echekki, Jacqueline H. Chen, Mohammad Khalil(参考訳) 本研究の目的は, 各種伝達学習モデルを用いて, 水素/空気混合物の均一着火過程を表わすデータ駆動還元次モデルの化学源項を予測することにより, 必要なトレーニング試料数を削減することができるかを評価することである。 主成分分析は, 合成空間における水素/空気混合物の寸法を減少させる。 ニューラルネットワーク(ANN)は主成分の反応速度を集計するために用いられ、その後、通常の微分方程式の系が解かれる。 目標タスク(T0 > 1000 K および様々な phi )におけるトレーニングサンプルの数が減少するにつれて、還元次モデルは水素/空気混合物の着火進化を予測するのに失敗する。 次に、スパースデータセットを用いたANNモデルのトレーニングに、3つの転送学習戦略を適用する。 ANNモデルのトレーニングが、ソースからターゲットタスクへの知識伝達の度合いを制御する正規化項によって制限されている場合、スパースデータセットによる縮小順序モデルの性能は著しく向上する。 この目的のために, 部分初期化と正規化(papir)によるパラメータ制御を行い, 対象タスクにおけるannモデルの初期化と正規化のために, 伝達される知識の量を体系的に調整する。 その結果,ソースタスクとターゲットタスクのタスク類似性が比較的低い場合に,ターゲットタスクにおけるANNモデルの初期化スキームを変更することで,さらなるパフォーマンス向上が達成できることがわかった。

The objective of this study is to evaluate whether the number of requisite training samples can be reduced with the use of various transfer learning models for predicting, for example, the chemical source terms of the data-driven reduced-order model that represents the homogeneous ignition process of a hydrogen/air mixture. Principal component analysis is applied to reduce the dimensionality of the hydrogen/air mixture in composition space. Artificial neural networks (ANNs) are used to tabulate the reaction rates of principal components, and subsequently, a system of ordinary differential equations is solved. As the number of training samples decreases at the target task (i.e.,for T0 > 1000 K and various phi), the reduced-order model fails to predict the ignition evolution of a hydrogen/air mixture. Three transfer learning strategies are then applied to the training of the ANN model with a sparse dataset. The performance of the reduced-order model with a sparse dataset is found to be remarkably enhanced if the training of the ANN model is restricted by a regularization term that controls the degree of knowledge transfer from source to target tasks. To this end, a novel transfer learning method is introduced, parameter control via partial initialization and regularization (PaPIR), whereby the amount of knowledge transferred is systemically adjusted for the initialization and regularization of the ANN model in the target task. It is found that an additional performance gain can be achieved by changing the initialization scheme of the ANN model in the target task when the task similarity between source and target tasks is relatively low.
翻訳日:2023-12-04 15:42:31 公開日:2023-12-01
# 知識グラフを用いた大規模言語モデルの推論能力の探索

On Exploring the Reasoning Capability of Large Language Models with Knowledge Graphs ( http://arxiv.org/abs/2312.00353v1 )

ライセンス: Link先を確認
Pei-Chi Lo, Yi-Hang Tsai, Ee-Peng Lim, San-Yih Hwang(参考訳) 本稿では,LLMが内部知識グラフを用いて知識グラフを推論する能力,すなわち,事前学習中に学習した知識グラフについて検討する。 学習前の知識グラフからの情報と,文脈から知識グラフの関係を推測する能力について,LLMの精度について検討する。 これらの問題に対処するため,LLMを用いて4つの知識グラフ推論タスクを実行する。 さらに,LLMを用いた知識推論において発生する幻覚は,内容とオントロジーの幻覚の2種類を同定した。 実験の結果, LLMは, 単純な知識グラフ推論タスクと複雑な知識グラフ推論タスクの両方に, 入力コンテキストから推測できることがわかった。

This paper examines the capacity of LLMs to reason with knowledge graphs using their internal knowledge graph, i.e., the knowledge graph they learned during pre-training. Two research questions are formulated to investigate the accuracy of LLMs in recalling information from pre-training knowledge graphs and their ability to infer knowledge graph relations from context. To address these questions, we employ LLMs to perform four distinct knowledge graph reasoning tasks. Furthermore, we identify two types of hallucinations that may occur during knowledge reasoning with LLMs: content and ontology hallucination. Our experimental results demonstrate that LLMs can successfully tackle both simple and complex knowledge graph reasoning tasks from their own memory, as well as infer from input context.
翻訳日:2023-12-04 15:42:03 公開日:2023-12-01
# 量子カーネル t-Distributed Stochastic Neighbor Embedding

Quantum Kernel t-Distributed Stochastic Neighbor Embedding ( http://arxiv.org/abs/2312.00352v1 )

ライセンス: Link先を確認
Yoshiaki Kawase, Kosuke Mitarai, Keisuke Fujii(参考訳) データ視覚化は、直接見るのが難しいデータの特徴を理解する上で重要である。 ロスランドスケープを可視化し、最適化トラジェクトリを使用して最適化性能を解析する。 主成分分析を用いて局所的あるいは大域的最小値付近の損失景観を可視化することにより、一般的な最適化分析を行う。 しかし、この可視化は量子状態ではなく量子回路の変動パラメータに依存するため、量子状態の性質を通じて最適化過程のメカニズムを理解することは困難である。 本稿では,量子カーネルを用いた量子データ可視化手法を提案し,量子状態の高速かつ高精度な可視化を実現する。 数値実験では,手書き桁データセットを可視化し,低次元データに$k$-nearest neighborアルゴリズムを適用し,従来のカーネル法と比較して提案手法を定量的に評価した。 その結果,提案手法は最先端の古典的カーネル法と同等の精度を達成でき,量子機械学習に基づく可視化手法では,入力された高次元データの分離性が低下しない。 さらに, 横フィールドイジングモデルの基底状態を求めるための最適化軌跡を可視化し, 軌道特性の把握に成功した。 量子状態は観測可能なものしか見ることができない高次元の物体であるため、量子データの類似性を継承する可視化手法は、量子回路やアルゴリズムの挙動を理解するのに有用である。

Data visualization is important in understanding the characteristics of data that are difficult to see directly. It is used to visualize loss landscapes and optimization trajectories to analyze optimization performance. Popular optimization analysis is performed by visualizing a loss landscape around the reached local or global minimum using principal component analysis. However, this visualization depends on the variational parameters of a quantum circuit rather than quantum states, which makes it difficult to understand the mechanism of optimization process through the property of quantum states. Here, we propose a quantum data visualization method using quantum kernels, which enables us to offer fast and highly accurate visualization of quantum states. In our numerical experiments, we visualize hand-written digits dataset and apply $k$-nearest neighbor algorithm to the low-dimensional data to quantitatively evaluate our proposed method compared with a classical kernel method. As a result, our proposed method achieves comparable accuracy to the state-of-the-art classical kernel method, meaning that the proposed visualization method based on quantum machine learning does not degrade the separability of the input higher dimensional data. Furthermore, we visualize the optimization trajectories of finding the ground states of transverse field Ising model and successfully find the trajectory characteristics. Since quantum states are higher dimensional objects that can only be seen via observables, our visualization method, which inherits the similarity of quantum data, would be useful in understanding the behavior of quantum circuits and algorithms.
翻訳日:2023-12-04 15:41:49 公開日:2023-12-01
# 文脈内分類のためのラベル空間の操作

Manipulating the Label Space for In-Context Classification ( http://arxiv.org/abs/2312.00351v1 )

ライセンス: Link先を確認
Haokun Chen, Xu Yang, Yuhang Huang, Zihan Wu, Jing Wang, Xin Geng(参考訳) 言語モデル(LM)は、先行した単語に基づいて次の単語条件を生成して事前学習した後、与えられた文脈内例(ICE)のコンテキストに基づいて新しいタスク条件を学習するインコンテキスト学習(ICL)能力を取得する。 同様に、視覚条件付き言語モデリングは、視覚言語モデル(VLM)をICL能力で訓練するためにも用いられる。 しかしながら、言語モデリングの目的は、オブジェクトがテキストとペアリングされているかどうかを直接的に対比しないため、これらのVLMはCLIPのような対照的な学習ベースのモデルと比較して、典型的には弱い分類能力を示す。 分類のICLを改善するために、より多くのICEを使ってより多くの知識を提供するのは簡単な方法です。 しかし、これは選択時間を大幅に増加させる可能性があり、さらに重要なことに、追加のin-contextイメージは、vlmの処理能力を超えて、in-contextシーケンスの長さを延ばす傾向がある。 これらの制約を緩和するため,我々は,各氷のラベル空間を操作し,その知識密度を増加させることを提案し,より少ない氷でより多くの情報を伝達できるようにする。 具体的には,従来のImageNetや,CUB-200のようなよりきめ細かいデータセットを含む,多様なデータセット上でのコンテキスト内分類性能を改善するために,ラベル分布向上とビジュアル記述向上の2つの戦略を提案する。 具体的には、ImageNetのアプローチを用いて、4ショット設定で74.70\%から2ショットで76.21\%に精度を向上する。 CLIP を 0.67 % 上回る。 CUB-200では,CLIPよりも1ショット精度が48.86\%から69.05\%,12.15\%に向上した。 コードはhttps://anonymous.4open.science/r/MLS_ICCで与えられる。

After pre-training by generating the next word conditional on previous words, the Language Model (LM) acquires the ability of In-Context Learning (ICL) that can learn a new task conditional on the context of the given in-context examples (ICEs). Similarly, visually-conditioned Language Modelling is also used to train Vision-Language Models (VLMs) with ICL ability. However, such VLMs typically exhibit weaker classification abilities compared to contrastive learning-based models like CLIP, since the Language Modelling objective does not directly contrast whether an object is paired with a text. To improve the ICL of classification, using more ICEs to provide more knowledge is a straightforward way. However, this may largely increase the selection time, and more importantly, the inclusion of additional in-context images tends to extend the length of the in-context sequence beyond the processing capacity of a VLM. To alleviate these limitations, we propose to manipulate the label space of each ICE to increase its knowledge density, allowing for fewer ICEs to convey as much information as a larger set would. Specifically, we propose two strategies which are Label Distribution Enhancement and Visual Descriptions Enhancement to improve In-context classification performance on diverse datasets, including the classic ImageNet and more fine-grained datasets like CUB-200. Specifically, using our approach on ImageNet, we increase accuracy from 74.70\% in a 4-shot setting to 76.21\% with just 2 shots. surpassing CLIP by 0.67\%. On CUB-200, our method raises 1-shot accuracy from 48.86\% to 69.05\%, 12.15\% higher than CLIP. The code is given in https://anonymous.4open.science/r/MLS_ICC.
翻訳日:2023-12-04 15:41:26 公開日:2023-12-01
# スケーラブルなデータ駆動理論のケース:nlpにおける科学的進歩のパラダイム

The Case for Scalable, Data-Driven Theory: A Paradigm for Scientific Progress in NLP ( http://arxiv.org/abs/2312.00349v1 )

ライセンス: Link先を確認
Julian Michael(参考訳) 言語構造に関するスケーラブルなデータ駆動理論の開発を中心に,NLPにおける科学的進歩のためのパラダイムを提案する。 このアイデアは、関心の行動現象の完全なアノテーションを可能にする、厳密にスコープされた、慎重に定義された方法でデータを収集し、機械学習を使用してこれらの現象の説明理論を構築し、知的なAIシステムの構築ブロックを形成する。 概念的な基礎研究を行った後,質問応答駆動意味的役割ラベリング(qa-srl)を用いて,浅い意味構造に関するデータ駆動理論について検討を行った。 これはaiに関心のある複雑な言語行動の表面をひっかくにすぎないが、将来の科学的進歩を知らせるデータ収集と理論的モデリングの原則を概説する。 このノートは私の博士論文を要約し、多くを描いている。

I propose a paradigm for scientific progress in NLP centered around developing scalable, data-driven theories of linguistic structure. The idea is to collect data in tightly scoped, carefully defined ways which allow for exhaustive annotation of behavioral phenomena of interest, and then use machine learning to construct explanatory theories of these phenomena which can form building blocks for intelligible AI systems. After laying some conceptual groundwork, I describe several investigations into data-driven theories of shallow semantic structure using Question-Answer driven Semantic Role Labeling (QA-SRL), a schema for annotating verbal predicate-argument relations using highly constrained question-answer pairs. While this only scratches the surface of the complex language behaviors of interest in AI, I outline principles for data collection and theoretical modeling which can inform future scientific progress. This note summarizes and draws heavily on my PhD thesis.
翻訳日:2023-12-04 15:40:55 公開日:2023-12-01
# 転校学習を用いた教室環境における学生活動認識

Student Activity Recognition in Classroom Environments using Transfer Learning ( http://arxiv.org/abs/2312.00348v1 )

ライセンス: Link先を確認
Anagha Deshpande and Vedant Deshpande(参考訳) 人工知能とディープラーニングの最近の進歩は、ホームオートメーション、スマート監視システム、ヘルスケアなど、さまざまなアプリケーションにおける自動化を促進する。 ヒューマンアクティビティ認識(Human Activity Recognition)は、教室環境において、安全性、効率性、全体的な教育的品質を高めるために実装される新しい応用の1つである。 本稿では,教室環境における学生の活動を検知・認識するシステムを提案する。 この研究の時点で標準データセットが利用できなかったため、データセットは著者によって構造化され、記録されている。 ディープラーニングの分野で広く採用されているトランスファーラーニングは、画像やビデオ処理といった複雑なタスクに役立つことが証明されている。 VGG-16、ResNet-50、InceptionV3、Xceptionなどの事前訓練されたモデルは、特徴抽出と分類タスクに使用される。 Xceptionは、新しい教室データセットで93%の精度を達成し、他の3つのモデルよりも優れていた。 本研究で提案するシステムは,生徒や教育者に対して,より安全で生産性の高い学習環境を提供することを目的としている。

The recent advances in artificial intelligence and deep learning facilitate automation in various applications including home automation, smart surveillance systems, and healthcare among others. Human Activity Recognition is one of its emerging applications, which can be implemented in a classroom environment to enhance safety, efficiency, and overall educational quality. This paper proposes a system for detecting and recognizing the activities of students in a classroom environment. The dataset has been structured and recorded by the authors since a standard dataset for this task was not available at the time of this study. Transfer learning, a widely adopted method within the field of deep learning, has proven to be helpful in complex tasks like image and video processing. Pretrained models including VGG-16, ResNet-50, InceptionV3, and Xception are used for feature extraction and classification tasks. Xception achieved an accuracy of 93%, on the novel classroom dataset, outperforming the other three models in consideration. The system proposed in this study aims to introduce a safer and more productive learning environment for students and educators.
翻訳日:2023-12-04 15:40:36 公開日:2023-12-01
# RTQ:画像テキストモデルに基づくビデオ言語理解の再考

RTQ: Rethinking Video-language Understanding Based on Image-text Model ( http://arxiv.org/abs/2312.00347v1 )

ライセンス: Link先を確認
Xiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, and Liqiang Nie(参考訳) 近年の映像理解の進歩は、画像テキストモデルの基礎として確立され、画像と映像の共有知識によって有望な結果をもたらす。 しかし、ビデオ言語理解は、情報冗長性、時間依存、シーンの複雑さをもたらす非常に複雑な意味的詳細を含んでいるため、独特の課題を呈する。 現在の手法はこれらの問題に部分的に取り組んだだけであり、定量的分析によりこれらの手法が相補的であることを示唆している。 そこで我々はRTQ(Refine, Temporal model, Query)と呼ばれる新しいフレームワークを提案し,これらの課題を同時に解決する。 このアプローチでは、フレーム内の冗長な情報を精製し、フレーム間の時間的関係をモデル化し、ビデオからタスク固有の情報をクエリする。 驚くべきことに,本モデルは,映像言語前訓練がなくても優れた性能を示し,最先端前訓練法で達成されたものと同等かそれ以上である。

Recent advancements in video-language understanding have been established on the foundation of image-text models, resulting in promising outcomes due to the shared knowledge between images and videos. However, video-language understanding presents unique challenges due to the inclusion of highly complex semantic details, which result in information redundancy, temporal dependency, and scene complexity. Current techniques have only partially tackled these issues, and our quantitative analysis indicates that some of these methods are complementary. In light of this, we propose a novel framework called RTQ (Refine, Temporal model, and Query), which addresses these challenges simultaneously. The approach involves refining redundant information within frames, modeling temporal relations among frames, and querying task-specific information from the videos. Remarkably, our model demonstrates outstanding performance even in the absence of video-language pre-training, and the results are comparable with or superior to those achieved by state-of-the-art pre-training methods.
翻訳日:2023-12-04 15:40:18 公開日:2023-12-01
# trc: 安全強化学習のリスクを考慮した信頼領域条件値

TRC: Trust Region Conditional Value at Risk for Safe Reinforcement Learning ( http://arxiv.org/abs/2312.00344v1 )

ライセンス: Link先を確認
Dohyeong Kim and Songhwai Oh(参考訳) 安全はロボット工学において最重要であり、安全RLと呼ばれる安全を反映した強化学習が広く研究されている。 安全RLでは,規定された安全制約を満たしつつ,所望のリターンを最大化する政策を見出すことを目指している。 CVaRは一定のパーセンタイル以上の条件付き期待値であるため、リスクの条件値(CVaR)に対する制約は、高コストによる失敗の確率を効果的に低下させる。 本稿では,CVaR制約付き信頼領域ベースの安全RL手法であるTRCを提案する。 まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。 この近似を用いて、ポリシー勾配を得るためのサブプロブレムを定式化し、サブプロブレムを反復的に解いてポリシーを訓練する。 TRCは、各種ロボットによるシミュレーションにおける安全なナビゲーションタスクと、ClearpathのJackalロボットによるシミュレーションにより評価される。 他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。

As safety is of paramount importance in robotics, reinforcement learning that reflects safety, called safe RL, has been studied extensively. In safe RL, we aim to find a policy which maximizes the desired return while satisfying the defined safety constraints. There are various types of constraints, among which constraints on conditional value at risk (CVaR) effectively lower the probability of failures caused by high costs since CVaR is a conditional expectation obtained above a certain percentile. In this paper, we propose a trust region-based safe RL method with CVaR constraints, called TRC. We first derive the upper bound on CVaR and then approximate the upper bound in a differentiable form in a trust region. Using this approximation, a subproblem to get policy gradients is formulated, and policies are trained by iteratively solving the subproblem. TRC is evaluated through safe navigation tasks in simulations with various robots and a sim-to-real environment with a Jackal robot from Clearpath. Compared to other safe RL methods, the performance is improved by 1.93 times while the constraints are satisfied in all experiments.
翻訳日:2023-12-04 15:39:58 公開日:2023-12-01
# OpenStereo: ステレオマッチングと強力なベースラインのための総合ベンチマーク

OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline ( http://arxiv.org/abs/2312.00343v1 )

ライセンス: Link先を確認
Xianda Guo, Juntao Lu, Chenming Zhang, Yiqi Wang, Yiqun Duan, Tian Yang, Zheng Zhu, Long Chen(参考訳) コンピュータビジョンにおける重要な技術であるステレオマッチングは、ロボット工学、自律ナビゲーション、拡張現実において重要な役割を果たす。 近年、数多くの印象的な手法が開発されているにもかかわらず、その結果を複製し、実用的なアプリケーションに適したアーキテクチャを決定することは依然として困難である。 このギャップに対処するため,本論文では,性能向上に留まらず,実用性に焦点をあてた総合ベンチマークを提案する。 具体的には,OpenStereoと呼ばれる,柔軟で効率的なステレオマッチングコードベースを開発する。 openstereoには12以上のネットワークモデルのトレーニングと推論コードが含まれており、私たちの知る限り、最も完全なステレオマッチングツールボックスです。 OpenStereoをベースにSceneFlowデータセットの実験を行い、元の論文で報告されたパフォーマンス指標を達成または超えた。 さらに,最近のステレオマッチングの進展を,アブレーション実験によって詳細に再検討する。 これらの調査は、シンプルだが強力なベースラインモデルであるStereoBaseの開発にインスピレーションを与えた。 SceneFlowデータセット上での多数のステレオマッチング手法に対するStereoBaseの広範な比較分析により,その顕著な性能が示された。 ソースコードはhttps://github.com/XiandaGuo/OpenStereoで入手できる。

Stereo matching, a pivotal technique in computer vision, plays a crucial role in robotics, autonomous navigation, and augmented reality. Despite the development of numerous impressive methods in recent years, replicating their results and determining the most suitable architecture for practical application remains challenging. Addressing this gap, our paper introduces a comprehensive benchmark focusing on practical applicability rather than solely on performance enhancement. Specifically, we develop a flexible and efficient stereo matching codebase, called OpenStereo. OpenStereo includes training and inference codes of more than 12 network models, making it, to our knowledge, the most complete stereo matching toolbox available. Based on OpenStereo, we conducted experiments on the SceneFlow dataset and have achieved or surpassed the performance metrics reported in the original paper. Additionally, we conduct an in-depth revisitation of recent developments in stereo matching through ablative experiments. These investigations inspired the creation of StereoBase, a simple yet strong baseline model. Our extensive comparative analyses of StereoBase against numerous contemporary stereo matching methods on the SceneFlow dataset demonstrate its remarkably strong performance. The source code is available at https://github.com/XiandaGuo/OpenStereo.
翻訳日:2023-12-04 15:39:39 公開日:2023-12-01
# 信頼領域条件値を用いた効果的なオフポリティ安全強化学習

Efficient Off-Policy Safe Reinforcement Learning Using Trust Region Conditional Value at Risk ( http://arxiv.org/abs/2312.00342v1 )

ライセンス: Link先を確認
Dohyeong Kim and Songhwai Oh(参考訳) 本稿では,リスク尺度に基づく制約で安全強化学習(RL)問題を解決することを目的とする。 リスクの条件値(CVaR)のようなリスク対策は、コスト信号のテール分布に重点を置いているため、最悪の場合の障害を効果的に防止することができる。 TRCと呼ばれるオンラインセーフなRL法は、信頼領域法を用いてCVaR制約されたRL問題に対処し、高いリターンでほぼゼロの制約違反を持つポリシーを生成することができる。 しかし, 複雑な環境において優れた性能を達成し, 安全制約を迅速に満たすためには, rl法を効率的に試料化する必要がある。 そこで本稿では, CVaR制約付き非政治安全RL法について提案する。 リプレイバッファのオフポリシーデータが直接RTCのトレーニングに使用される場合、分散シフトに起因する推定誤差により性能が低下する。 この問題を解決するために,分散シフトの効果を低減できる新しい代理関数を提案し,適応的な信頼領域制約を導入して,バッファの再生から遠く離れないようにする。 提案手法はシミュレーションや実環境において評価され,複雑なロボット作業においても高いリターンを達成しつつ,数ステップで安全性の制約を満たしている。

This paper aims to solve a safe reinforcement learning (RL) problem with risk measure-based constraints. As risk measures, such as conditional value at risk (CVaR), focus on the tail distribution of cost signals, constraining risk measures can effectively prevent a failure in the worst case. An on-policy safe RL method, called TRC, deals with a CVaR-constrained RL problem using a trust region method and can generate policies with almost zero constraint violations with high returns. However, to achieve outstanding performance in complex environments and satisfy safety constraints quickly, RL methods are required to be sample efficient. To this end, we propose an off-policy safe RL method with CVaR constraints, called off-policy TRC. If off-policy data from replay buffers is directly used to train TRC, the estimation error caused by the distributional shift results in performance degradation. To resolve this issue, we propose novel surrogate functions, in which the effect of the distributional shift can be reduced, and introduce an adaptive trust-region constraint to ensure a policy not to deviate far from replay buffers. The proposed method has been evaluated in simulation and real-world environments and satisfied safety constraints within a few steps while achieving high returns even in complex robotic tasks.
翻訳日:2023-12-04 15:39:23 公開日:2023-12-01
# 過激主義とテロリズム(DMET)の動的マトリックス : 過激主義の異なるディグリーを特定するための継続的なアプローチ

Dynamic Matrix of Extremisms and Terrorism (DMET): A Continuum Approach Towards Identifying Different Degrees of Extremisms ( http://arxiv.org/abs/2312.00337v1 )

ライセンス: Link先を確認
Marten Risius, Kevin M. Blasiak, Susilo Wibisono, Rita Jabri-Markwell, Winnifred Louis(参考訳) 我々は、テロリズムとテロリズムの動的マトリックス(DMET)を用いて、テロリズムの現在の二元的理解(対テロリズム)を拡張することを提案する。 DMETは、過激主義の継続(例えば、右翼、左翼、宗教的、分離主義、単一問題)に寄与できるコンテンツとアクターのエコシステム全体を考慮している。 様々なイデオロギー的関与と特定された暴力(例えば、パルチザン、フリンジ、暴力的過激主義、テロリズム)の存在によって、認知的、行動的手がかりと集団のダイナミクスに基づいて、過激主義のレベルを組織する。 DMETは、過激主義のレベルを包括的に概念化したため、世界中で適用可能である。 また、動的であり、過激派アクターの地域別および時間別分類との反復的なマッピングを可能にする。 グローバルアクターがDMETのタイプと特徴を認識すれば、過激派アクター(個人、グループ、ムーブメントなど)のプロファイルを包括的に分析し、これらのアクターとその活動(ソーシャルメディアコンテンツなど)を時間をかけて追跡し、ターゲットとするカウンターアクティビティ(例えば、デプラットフォーム、コンテンツモデレーション、またはターゲットとするCVEの物語へのリダイレクト)を起動することができる。

We propose to extend the current binary understanding of terrorism (versus non-terrorism) with a Dynamic Matrix of Extremisms and Terrorism (DMET). DMET considers the whole ecosystem of content and actors that can contribute to a continuum of extremism (e.g., right-wing, left-wing, religious, separatist, single-issue). It organizes levels of extremisms by varying degrees of ideological engagement and the presence of violence identified (e.g., partisan, fringe, violent extremism, terrorism) based on cognitive and behavioral cues and group dynamics. DMET is globally applicable due to its comprehensive conceptualization of the levels of extremisms. It is also dynamic, enabling iterative mapping with the region- and time-specific classifications of extremist actors. Once global actors recognize DMET types and their distinct characteristics, they can comprehensively analyze the profiles of extremist actors (e.g., individuals, groups, movements), track these respective actors and their activities (e.g., social media content) over time, and launch targeted counter activities (e.g. de-platforming, content moderation, or redirects to targeted CVE narratives).
翻訳日:2023-12-04 15:39:00 公開日:2023-12-01
# ワンステップメッセージパッシングを用いたハイパーグラフノード表現学習

Hypergraph Node Representation Learning with One-Stage Message Passing ( http://arxiv.org/abs/2312.00336v1 )

ライセンス: Link先を確認
Shilin Qu, Weiqing Wang, Yuan-Fang Li, Xin Zhou, Fajie Yuan(参考訳) 表現的かつ一般的な構造としてのハイパーグラフは、様々な研究領域から大きな注目を集めている。 既存のハイパーグラフノード表現学習技術のほとんどはグラフニューラルネットワークに基づいており、2段階のメッセージパッシングパラダイム(node -> hyperedge -> node)を採用している。 このパラダイムは局所的な情報伝達のみに焦点を当て、世界的情報を効果的に考慮しないため、最適な表現は少ない。 代表的2段階のメッセージパッシング法の理論解析は, 数学的には, 局所的なメッセージパッシングの異なる手法をモデル化し, 一段階のメッセージパッシング(ノード ->ノード)に統一可能であることを示す。 しかし、ローカル情報のみをモデル化している。 この理論解析により,ハイパーグラフのグローバルおよびローカル情報伝搬をモデル化する一段階メッセージパッシングパラダイムを提案する。 我々はこのパラダイムをハイパーグラフノード表現学習のためのトランスフォーマーベースのフレームワークであるHGraphormerに統合する。 HGraphormerは、注目行列とハイパーグラフラプラシアンを組み合わせることで、ハイパーグラフ構造情報(ローカル情報)をトランスフォーマー(グローバル情報)に注入する。 HGraphormerは、半教師付きハイパーノード分類タスクで5つの代表的なベンチマークデータセット上で、最近のハイパーグラフ学習方法より優れており、新しい最先端のパフォーマンスが設定され、精度が2.52%から6.70%向上した。 コードとデータセットが利用可能です。

Hypergraphs as an expressive and general structure have attracted considerable attention from various research domains. Most existing hypergraph node representation learning techniques are based on graph neural networks, and thus adopt the two-stage message passing paradigm (i.e. node -> hyperedge -> node). This paradigm only focuses on local information propagation and does not effectively take into account global information, resulting in less optimal representations. Our theoretical analysis of representative two-stage message passing methods shows that, mathematically, they model different ways of local message passing through hyperedges, and can be unified into one-stage message passing (i.e. node -> node). However, they still only model local information. Motivated by this theoretical analysis, we propose a novel one-stage message passing paradigm to model both global and local information propagation for hypergraphs. We integrate this paradigm into HGraphormer, a Transformer-based framework for hypergraph node representation learning. HGraphormer injects the hypergraph structure information (local information) into Transformers (global information) by combining the attention matrix and hypergraph Laplacian. Extensive experiments demonstrate that HGraphormer outperforms recent hypergraph learning methods on five representative benchmark datasets on the semi-supervised hypernode classification task, setting new state-of-the-art performance, with accuracy improvements between 2.52% and 6.70%. Our code and datasets are available.
翻訳日:2023-12-04 15:38:32 公開日:2023-12-01
# 胸部X線撮影のための解剖学的一貫性埋め込みの学習

Learning Anatomically Consistent Embedding for Chest Radiography ( http://arxiv.org/abs/2312.00335v1 )

ライセンス: Link先を確認
Ziyu Zhou, Haozhe Luo, Jiaxuan Pang, Xiaowei Ding, Michael Gotway, Jianming Liang(参考訳) 自己教師付き学習(SSL)アプローチは、最近、注釈のない画像から視覚表現を学ぶことに大きな成功を示している。 写真画像と比較すると,同じ画像プロトコルで取得した医用画像は解剖学的に高い一貫性を示す。 本稿では,この解剖学的整合性を活用するために,PEAC (patch embedded of anatomical consistency) と呼ばれる新しいSSLアプローチを導入する。 Specifically, in this paper, we propose to learn global and local consistencies via stable grid-based matching, transfer pre-trained PEAC models to diverse downstream tasks, and extensively demonstrate that (1) PEAC achieves significantly better performance than the existing state-of-the-art fully/self-supervised methods, and (2) PEAC captures the anatomical structure consistency across views of the same patient and across patients of different genders, weights, and healthy statuses, which enhances the interpretability of our method for medical image analysis.

Self-supervised learning (SSL) approaches have recently shown substantial success in learning visual representations from unannotated images. Compared with photographic images, medical images acquired with the same imaging protocol exhibit high consistency in anatomy. To exploit this anatomical consistency, this paper introduces a novel SSL approach, called PEAC (patch embedding of anatomical consistency), for medical image analysis. Specifically, in this paper, we propose to learn global and local consistencies via stable grid-based matching, transfer pre-trained PEAC models to diverse downstream tasks, and extensively demonstrate that (1) PEAC achieves significantly better performance than the existing state-of-the-art fully/self-supervised methods, and (2) PEAC captures the anatomical structure consistency across views of the same patient and across patients of different genders, weights, and healthy statuses, which enhances the interpretability of our method for medical image analysis.
翻訳日:2023-12-04 15:38:07 公開日:2023-12-01
# Green Edge AI - 現代の調査

Green Edge AI: A Contemporary Survey ( http://arxiv.org/abs/2312.00333v1 )

ライセンス: Link先を確認
Yuyi Mao and Xianghao Yu and Kaibin Huang and Ying-Jun Angela Zhang and Jun Zhang(参考訳) 人工知能(AI)技術は、消費者電子製品、医療、製造業など、さまざまな産業において重要な実現要因として現れてきた。 aiのトランスフォーメーションパワーは、トレーニングのための広範なデータと、処理のためのかなりの計算リソースを必要とするディープニューラルネットワーク(dnn)の利用から導かれている。 その結果、DNNモデルは一般的にトレーニングされ、リソース豊富なクラウドサーバにデプロイされる。 しかし、クラウド通信に関連する潜在的なレイテンシの問題により、ディープラーニング(DL)ワークフローは、エンドユーザーデバイス(EUD)近くの無線エッジネットワークに移行しつつある。 このシフトはレイテンシに敏感なアプリケーションをサポートするように設計されており、エッジAIの新しいパラダイムが生まれ、ユビキタスAIアプリケーションをサポートする6Gネットワークにおいて重要な役割を果たす。 その可能性にもかかわらず、エッジAIは大きな課題に直面している。主な原因は、無線エッジネットワークのリソース制限と、DLのリソース集約的な性質の分断である。 具体的には、大規模なデータ取得とDNNのトレーニングおよび推論プロセスにより、EUDのバッテリエネルギーが急速に低下する可能性がある。 これにより、最適なパフォーマンスと持続可能なパフォーマンスを確保するために、エッジAIに対するエネルギーを意識したアプローチが必要になる。 本稿では,グリーンエッジAIに関する現代の調査を紹介する。 我々は、グリーンエッジAIの基本設計原則を特定するために、エッジAIシステムの主要なエネルギー消費成分を分析して開始する。 これらの原則に導かれ、トレーニングデータ取得、エッジトレーニング、エッジ推論を含む、エッジAIシステムにおける3つの重要なタスクのためのエネルギー効率の高い設計方法論を探索する。 最後に、エッジAIのエネルギー効率をさらに高めるために、将来的な研究の方向性を明らかにする。

Artificial intelligence (AI) technologies have emerged as pivotal enablers across a multitude of industries, including consumer electronics, healthcare, and manufacturing, largely due to their resurgence over the past decade. The transformative power of AI is primarily derived from the utilization of deep neural networks (DNNs), which require extensive data for training and substantial computational resources for processing. Consequently, DNN models are typically trained and deployed on resource-rich cloud servers. However, due to potential latency issues associated with cloud communications, deep learning (DL) workflows are increasingly being transitioned to wireless edge networks near end-user devices (EUDs). This shift is designed to support latency-sensitive applications and has given rise to a new paradigm of edge AI, which will play a critical role in upcoming 6G networks to support ubiquitous AI applications. Despite its potential, edge AI faces substantial challenges, mostly due to the dichotomy between the resource limitations of wireless edge networks and the resource-intensive nature of DL. Specifically, the acquisition of large-scale data, as well as the training and inference processes of DNNs, can rapidly deplete the battery energy of EUDs. This necessitates an energy-conscious approach to edge AI to ensure both optimal and sustainable performance. In this paper, we present a contemporary survey on green edge AI. We commence by analyzing the principal energy consumption components of edge AI systems to identify the fundamental design principles of green edge AI. Guided by these principles, we then explore energy-efficient design methodologies for the three critical tasks in edge AI systems, including training data acquisition, edge training, and edge inference. Finally, we underscore potential future research directions to further enhance the energy efficiency of edge AI.
翻訳日:2023-12-04 15:37:54 公開日:2023-12-01
# LinguaLinked: モバイルデバイス用の分散大規模言語モデル推論システム

LinguaLinked: A Distributed Large Language Model Inference System for Mobile Devices ( http://arxiv.org/abs/2312.00388v1 )

ライセンス: Link先を確認
Junchen Zhao, Yurun Song, Simeng Liu, Ian G. Harris, Sangeetha Abdu Jyothi(参考訳) モバイルデバイスにローカルにLLM(Large Language Models)をデプロイすることは、その広範なメモリ要求のために大きな課題となる。 本稿では,モバイル端末上で分散分散llm推論を行うシステムであるlingualinkedを提案する。 LinguaLinkedは、複数の信頼できるデバイス間で推論タスクの協調実行を可能にする。 lingualinkedは、情報をローカルに処理することでデータのプライバシを確保する。 LinguaLinkedには3つの重要な戦略がある。 まず、最適化されたモデル割当技術がllmをセグメント化し、各デバイスの機能に合わせてセグメントを線形最適化する。 第二に、最適化されたデータ伝達機構は、モデルセグメント間の効率的で構造化されたデータフローを確保しつつ、元のモデル構造の完全性を維持する。 最後に、lingualinkedには、ボトルネックを防ぐためにモバイルデバイス間でタスクを積極的に監視し再配布するランタイムロードバランサが組み込まれており、システムの全体的な効率と応答性が向上している。 LinguaLinkedは、ハイエンドからローエンドのAndroidデバイスに至るまで、さまざまなモバイルデバイスにわたる広範なテストを通じて、一貫したスループットと最小レイテンシを維持しながら、効率的なLCM推論を容易にすることを実証した。 我々の評価では、ベースラインと比較して、LinguaLinkedはシングルスレッド設定で1.11\times$から1.61\times$、マルチスレッドで1.73\times$から2.65\times$の推論性能加速を達成する。 さらに、ランタイムのロードバランシングにより、全体的な推論の加速は$1.29\times$から$1.32\times$となる。

Deploying Large Language Models (LLMs) locally on mobile devices presents a significant challenge due to their extensive memory requirements. In this paper, we introduce LinguaLinked, a system for decentralized, distributed LLM inference on mobile devices. LinguaLinked enables collaborative execution of the inference task across multiple trusted devices. LinguaLinked ensures data privacy by processing information locally. LinguaLinked uses three key strategies. First, an optimized model assignment technique segments LLMs and uses linear optimization to align segments with each device's capabilities. Second, an optimized data transmission mechanism ensures efficient and structured data flow between model segments while also maintaining the integrity of the original model structure. Finally, LinguaLinked incorporates a runtime load balancer that actively monitors and redistributes tasks among mobile devices to prevent bottlenecks, enhancing the system's overall efficiency and responsiveness. We demonstrate that LinguaLinked facilitates efficient LLM inference while maintaining consistent throughput and minimal latency through extensive testing across various mobile devices, from high-end to low-end Android devices. In our evaluations, compared to the baseline, LinguaLinked achieves an inference performance acceleration of $1.11\times$ to $1.61\times$ in single-threaded settings, $1.73\times$ to $2.65\times$ with multi-threading. Additionally, runtime load balancing yields an overall inference acceleration of $1.29\times$ to $1.32\times$.
翻訳日:2023-12-04 15:32:00 公開日:2023-12-01
# 分割型K空間合成によるマルチコントラスト並列イメージング

Partition-based K-space Synthesis for Multi-contrast Parallel Imaging ( http://arxiv.org/abs/2312.00387v1 )

ライセンス: Link先を確認
Yuxia Huang, Zhonghui Wu, Xiaoling Xu, Minghui Zhang, Shanshan Wang and Qiegen Liu(参考訳) マルチコントラストMRIは重要な医用画像撮影技術であるが, マルチコントラスト画像の取得時間が長く, 動画像の撮影が容易である。 特に、T2強調画像の取得時間は、その長い繰り返し時間(TR)により長くなる。 一方、T1強調画像はTRが短い。 したがって、T1およびT2強調画像の相補的な情報を活用することは、全体の撮像時間を短縮する手段である。 従来のT1支援型T2再構成手法は,画像領域をベースとした画像融合手法が主流であった。 画像領域再構成法は高い計算量と限られた柔軟性の欠陥を有する。 本稿では,特徴融合によりt2強調画像の超再構成品質を実現するために,分割型k空間合成(pks)と呼ばれる新しいマルチコントラストイメージング手法を提案する。 具体的には、まず、完全サンプリングされたt1 k空間データと未サンプリングのt2 k空間データを2つのサブデータに分解する。 次に、2つのサブT1/T2データを組み合わせて2つの新しいオブジェクトを構築する。 その後、T2強調画像の再構成を実現するために、この2つの新しいオブジェクトがデータ全体である。 最後に、各部のサブT2データを抽出して目的T2を合成する。 実験結果から, コントラストを独立に処理する従来のk-space parallel imaging (SAKE) よりも, 比較あるいは良好な結果が得られた。

Multi-contrast magnetic resonance imaging is a significant and essential medical imaging technique.However, multi-contrast imaging has longer acquisition time and is easy to cause motion artifacts. In particular, the acquisition time for a T2-weighted image is prolonged due to its longer repetition time (TR). On the contrary, T1-weighted image has a shorter TR. Therefore,utilizing complementary information across T1 and T2-weighted image is a way to decrease the overall imaging time. Previous T1-assisted T2 reconstruction methods have mostly focused on image domain using whole-based image fusion approaches. The image domain reconstruction method has the defects of high computational complexity and limited flexibility. To address this issue, we propose a novel multi-contrast imaging method called partition-based k-space synthesis (PKS) which can achieve super reconstruction quality of T2-weighted image by feature fusion. Concretely, we first decompose fully-sampled T1 k-space data and under-sampled T2 k-space data into two sub-data, separately. Then two new objects are constructed by combining the two sub-T1/T2 data. After that, the two new objects as the whole data to realize the reconstruction of T2-weighted image. Finally, the objective T2 is synthesized by extracting the sub-T2 data of each part. Experimental results showed that our combined technique can achieve comparable or better results than using traditional k-space parallel imaging(SAKE) that processes each contrast independently.
翻訳日:2023-12-04 15:31:31 公開日:2023-12-01
# 非単調演算子MnM-MOLを用いた局所単調演算子学習

Local monotone operator learning using non-monotone operators: MnM-MOL ( http://arxiv.org/abs/2312.00386v1 )

ライセンス: Link先を確認
Maneesh John, Jyothi Rikhab Chand, Mathews Jacob(参考訳) 磁気共鳴(MR)画像のアンダーサンプル計測からの回復は、近年広く研究されている重要な問題である。 反復再構成アルゴリズム内の畳み込みニューラルネットワーク(CNN)ブロックのエンドツーエンドトレーニングに依存するアンロールアプローチは、最先端のパフォーマンスを提供する。 これらのアルゴリズムはトレーニング中に大量のメモリを必要とするため、高次元アプリケーションでは採用が困難である。 深い平衡(deq)モデルと最近の単調演算子学習(mol)アプローチを導入して、ロールングの必要性をなくし、トレーニング中のメモリ要求を削減した。 どちらのアプローチも、フォワードとバックプロパゲーションのイテレーションが収束することを保証するために、ネットワーク上のリプシッツ制約を必要とする。 残念なことに、制約はしばしばアンロールされたメソッドと比較してパフォーマンスを低下させる。 この作業の主な焦点は、CNNブロックの制約を2つの異なる方法で緩和することである。 凸非凸正規化戦略に着想を得て、CNN自体をモノトン作用素として制約するのではなく、データ項とCNNブロックの勾配の和にモノトン制約を課した。 このアプローチにより、CNNは非モノトーンスコア関数を学習し、パフォーマンスを向上させることができる。 加えて、像多様体の周りの局所近傍において、演算子を単調に制限するだけである。 我々の理論的結果は,提案アルゴリズムが固定点に収束することが保証され,真の解に近く初期化されることを前提として,解が入力摂動に頑健であることを示す。 実験の結果, 緩和された制約は性能の向上に寄与し, MOLと同様の摂動入力に頑健であることがわかった。

The recovery of magnetic resonance (MR) images from undersampled measurements is a key problem that has seen extensive research in recent years. Unrolled approaches, which rely on end-to-end training of convolutional neural network (CNN) blocks within iterative reconstruction algorithms, offer state-of-the-art performance. These algorithms require a large amount of memory during training, making them difficult to employ in high-dimensional applications. Deep equilibrium (DEQ) models and the recent monotone operator learning (MOL) approach were introduced to eliminate the need for unrolling, thus reducing the memory demand during training. Both approaches require a Lipschitz constraint on the network to ensure that the forward and backpropagation iterations converge. Unfortunately, the constraint often results in reduced performance compared to unrolled methods. The main focus of this work is to relax the constraint on the CNN block in two different ways. Inspired by convex-non-convex regularization strategies, we now impose the monotone constraint on the sum of the gradient of the data term and the CNN block, rather than constrain the CNN itself to be a monotone operator. This approach enables the CNN to learn possibly non-monotone score functions, which can translate to improved performance. In addition, we only restrict the operator to be monotone in a local neighborhood around the image manifold. Our theoretical results show that the proposed algorithm is guaranteed to converge to the fixed point and that the solution is robust to input perturbations, provided that it is initialized close to the true solution. Our empirical results show that the relaxed constraints translate to improved performance and that the approach enjoys robustness to input perturbations similar to MOL.
翻訳日:2023-12-04 15:31:07 公開日:2023-12-01
# モビリティデータサイエンスにおける手法の組み合わせによる説明可能性の向上

Enhancing Explainability in Mobility Data Science through a combination of methods ( http://arxiv.org/abs/2312.00380v1 )

ライセンス: Link先を確認
Georgios Makridis, Vasileios Koukos, Georgios Fatouros, Dimosthenis Kyriazis(参考訳) モビリティデータサイエンスの領域では、軌跡データに基づいて訓練されたモデルを解釈し、エンティティの時空間移動を解明する複雑なタスクは、常に重大な課題を提起してきた。 従来のXAI技術はポテンシャルに富むが、軌跡データに固有の異なる構造とニュアンスをしばしば見落としている。 この不足を観察し,重要なxai技術であるlime (local interpretable model-agnostic explanations), shap (shapley additive descriptions), saliency map, attention mechanism, direct velocity visualization, and permutation feature importance (pfi) を調和させる包括的フレームワークを導入した。 これらの手法を特異に展開する従来の戦略とは異なり、我々の統一アプローチはこれらの手法の集団的有効性に乗じ、軌道データに依存するモデルに対してより深くより詳細な洞察を与える。 この合成を作成する際には、トラジェクトリの多面的本質に効果的に対処し、増幅された解釈可能性だけでなく、モデル決定の微妙で文脈的にリッチな理解も達成する。 本研究の枠組みを検証・拡張するために,様々な利用者の嗜好や受容度を測定する調査を行った。 特にデータサイエンティストやit専門家、mlエンジニアといった役割のプロフェッショナルは、深くて技術的な理解を示し、解釈可能性のための融合手法に先行する傾向をしばしば示しました。 逆に、AIとデータサイエンスを知らないエンドユーザや個人は、タイムステップの重要度を示すバープロットや、船の軌道の要点を示す視覚的描写など、より単純な傾向を示した。

In the domain of Mobility Data Science, the intricate task of interpreting models trained on trajectory data, and elucidating the spatio-temporal movement of entities, has persistently posed significant challenges. Conventional XAI techniques, although brimming with potential, frequently overlook the distinct structure and nuances inherent within trajectory data. Observing this deficiency, we introduced a comprehensive framework that harmonizes pivotal XAI techniques: LIME (Local Interpretable Model-agnostic Explanations), SHAP (SHapley Additive exPlanations), Saliency maps, attention mechanisms, direct trajectory visualization, and Permutation Feature Importance (PFI). Unlike conventional strategies that deploy these methods singularly, our unified approach capitalizes on the collective efficacy of these techniques, yielding deeper and more granular insights for models reliant on trajectory data. In crafting this synthesis, we effectively address the multifaceted essence of trajectories, achieving not only amplified interpretability but also a nuanced, contextually rich comprehension of model decisions. To validate and enhance our framework, we undertook a survey to gauge preferences and reception among various user demographics. Our findings underscored a dichotomy: professionals with academic orientations, particularly those in roles like Data Scientist, IT Expert, and ML Engineer, showcased a profound, technical understanding and often exhibited a predilection for amalgamated methods for interpretability. Conversely, end-users or individuals less acquainted with AI and Data Science showcased simpler inclinations, such as bar plots indicating timestep significance or visual depictions pinpointing pivotal segments of a vessel's trajectory.
翻訳日:2023-12-04 15:30:37 公開日:2023-12-01
# コントラスト学習の最適サンプル複雑性

Optimal Sample Complexity of Contrastive Learning ( http://arxiv.org/abs/2312.00379v1 )

ライセンス: Link先を確認
Noga Alon, Dmitrii Avdiukhin, Dor Elboim, Orr Fischer, Grigory Yaroslavtsev(参考訳) コントラスト学習はラベル付きタプルからデータ表現を学習し、タプル内の距離関係を特定する、非常に成功した手法である。 コントラスト学習のサンプル複雑性,すなわち,高い一般化精度を得るのに十分なラベル付きタプルの最小数について検討する。 我々は、任意の距離関数、一般の$\ell_p$- distancesとツリーメトリクスに焦点を当てて、様々な設定でサンプル複雑性の厳密な境界を与える。 主な結果は、整数$p$に対して$\ell_p$- distancesを学習するサンプル複雑性の(ほぼ)最適境界です。 任意の$p \ge 1$に対して、$\tilde \Theta(\min(nd,n^2))$ラベル付きタプルは、$n$ポイントデータセットの$d$次元表現を学ぶのに十分であることを示す。 この結果は,入力サンプルの任意の分布を保ち,関連する問題のVapnik-Chervonenkis/Natarajan次元に対応する境界を与える。 さらに,VC/ナタラジャン次元を用いて得られたサンプルの複雑さに関する理論的境界は,統計的学習理論と深層学習の実践との実質的なギャップに関する民間伝承と対照的に,実験結果に対して強い予測力を持つことを示す。

Contrastive learning is a highly successful technique for learning representations of data from labeled tuples, specifying the distance relations within the tuple. We study the sample complexity of contrastive learning, i.e. the minimum number of labeled tuples sufficient for getting high generalization accuracy. We give tight bounds on the sample complexity in a variety of settings, focusing on arbitrary distance functions, both general $\ell_p$-distances, and tree metrics. Our main result is an (almost) optimal bound on the sample complexity of learning $\ell_p$-distances for integer $p$. For any $p \ge 1$ we show that $\tilde \Theta(\min(nd,n^2))$ labeled tuples are necessary and sufficient for learning $d$-dimensional representations of $n$-point datasets. Our results hold for an arbitrary distribution of the input samples and are based on giving the corresponding bounds on the Vapnik-Chervonenkis/Natarajan dimension of the associated problems. We further show that the theoretical bounds on sample complexity obtained via VC/Natarajan dimension can have strong predictive power for experimental results, in contrast with the folklore belief about a substantial gap between the statistical learning theory and the practice of deep learning.
翻訳日:2023-12-04 15:30:04 公開日:2023-12-01
# synfundus: 数百万のサンプルとマルチディセーゼアノテーションを備えた合成ファンドイメージデータセットの生成

SynFundus: Generating a synthetic fundus images dataset with millions of samples and multi-disease annotations ( http://arxiv.org/abs/2312.00377v1 )

ライセンス: Link先を確認
Fangxin Shang, Jie Fu, Yehui Yang, Lei Ma(参考訳) 医療画像の分野では、プライバシー制限による大規模データセットの不足は、医療用大規模モデルを開発する上で重要な障壁となっている。 この問題に対処するために,100万枚以上の網膜基底画像と広範な疾患・病理アノテーションを備えた高品質な合成データセットであるSynFundus-1Mを紹介した。 synfundus-generatorとsynfundus-1mは、メインストリームのパブリックリアルデータセットの既存の方法に比べて優れたフレシェ開始距離(fid)スコアを達成する。 さらに眼科医は、合成画像と実際の画像との識別の難しさを検証し、synfundus-1mの真正性を確認した。 広汎な実験により,CNNとViTがSynFundus-1Mから事前訓練やトレーニングによって得られることが実証された。 ImageNetやEyePACSのようなデータセットと比較して、モデルはSynFundus-1Mでトレーニングされる。

In the field of medical imaging, the scarcity of large-scale datasets due to privacy restrictions stands as a significant barrier to develop large models for medical. To address this issue, we introduce SynFundus-1M, a high-quality synthetic dataset with over 1 million retinal fundus images and extensive disease and pathologies annotations, which is generated by a Denoising Diffusion Probabilistic Model. The SynFundus-Generator and SynFundus-1M achieve superior Frechet Inception Distance (FID) scores compared to existing methods on main-stream public real datasets. Furthermore, the ophthalmologists evaluation validate the difficulty in discerning these synthetic images from real ones, confirming the SynFundus-1M's authenticity. Through extensive experiments, we demonstrate that both CNN and ViT can benifit from SynFundus-1M by pretraining or training directly. Compared to datasets like ImageNet or EyePACS, models train on SynFundus-1M not only achieve better performance but also faster convergence on various downstream tasks.
翻訳日:2023-12-04 15:29:37 公開日:2023-12-01
# 非ガウス浴槽と相互作用する量子系のダイナミクス:ポアソンノイズマスター方程式

Dynamics of a quantum system interacting with non-Gaussian baths: Poisson noise master equation ( http://arxiv.org/abs/2312.00376v1 )

ライセンス: Link先を確認
Ken Funo and Akihito Ishizaki(参考訳) 量子系は必然的に周囲の自由度に開放される。 したがって、開量子系の理論は、興味ある量子系のゆらぎ、散逸、および非コヒーレンスを理解するために重要である。 通常、浴槽は調和振動子のアンサンブルとしてモデル化され、量子系への浴槽の影響のガウス統計を導出する。 しかし、風呂が二状態系、スピン、または無調波発振器から構成される現象もあり、ガウスの非ガウス的な性質が重要となる。 しかしながら、そのような非ガウス浴の影響下で量子系を記述する理論的枠組みは十分に確立されていない。 ここでは, 非ガウスホワイトノイズを記述する上では, ポアソンノイズとして浴槽のポアソンノイズ特性に影響を受ける量子散逸系を記述する理論を開発する。 この浴を古典的な確率的ノイズ源としてモデル化した過去の研究とは対照的に、散逸性量子系の一貫した記述を可能にする量子バスモデルを導入する。 構築した浴モデルの特性は,浴の相関時間が短く,浴が量子システムと強く,離散的に相互作用する場合のポアソンノイズ特性と一致している。 その結果、白色雑音領域における非ガウス浴効果が明らかとなり、一般の非ガウス浴の影響下での開量子力学を記述する上で重要なステップとなる。 量子情報科学における散逸性量子状態工学のための非ガウス的な性質を持つ浴槽の設計や、生体物理化学および凝縮物質物理学における非ガウス的な浴効果の探索に使用できる。

Quantum systems are unavoidably open to their surrounding degrees of freedom. The theory of open quantum systems is thus crucial to understanding the fluctuations, dissipation, and decoherence of a quantum system of interest. Typically, the bath is modeled as an ensemble of harmonic oscillators, which yields Gaussian statistics of the bath influence on the quantum systems. However, there are also phenomena in which the bath consists of two-state systems, spins, or anharmonic oscillators; therefore, the non-Gaussian properties of the bath become important. Nevertheless, a theoretical framework to describe quantum systems under the influence of such non-Gaussian baths is not well established. Here, we develop a theory describing quantum dissipative systems affected by Poisson noise properties of the bath as Poisson noise is fundamental in describing non-Gaussian white noises. In contrast to past studies that modeled the bath as a classical stochastic noise source producing only pure dephasing, we introduce a quantum bath model that allows for the consistent description of dissipative quantum systems. The property of the constructed bath model is consistent with the Poisson noise properties when the bath correlation time is short and the bath interacts with the quantum system strongly but discretely. The obtained results reveal non-Gaussian bath effects in the white noise regime, and they provide an essential step toward describing open quantum dynamics under the influence of generic non-Gaussian baths. Our findings can be used to design baths with non-Gaussian properties for dissipative quantum state engineering in quantum information science, as well as to explore non-Gaussian bath effects in biophysical chemistry and condensed matter physics.
翻訳日:2023-12-04 15:29:19 公開日:2023-12-01
# テキストガイドによる3次元顔合成-生成から編集まで

Text-Guided 3D Face Synthesis -- From Generation to Editing ( http://arxiv.org/abs/2312.00375v1 )

ライセンス: Link先を確認
Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu(参考訳) テキスト誘導型3次元顔合成は,t2i(text-to-image)拡散モデルを用いることで驚くべき結果を得た。 しかし、既存の作品の多くは直接生成にのみ焦点を合わせ、編集を無視し、反復的な調整によってカスタマイズされた3d顔の合成を制限している。 本稿では,顔生成から編集までの統一的なテキスト誘導フレームワークを提案する。 生成段階では,結合による幾何学的詳細の損失を軽減するために,幾何学的テクスチュアデカップリング生成を提案する。 さらに、デカップリングにより、生成した幾何をテクスチャ生成の条件として利用することができ、高度に幾何学的・テクスチャ整合した結果が得られる。 さらに,RGBおよびYUV空間のテクスチャ品質を向上させるために,微調整テクスチャ拡散モデルを用いる。 編集段階では,まず,事前学習した拡散モデルを用いて顔の形状やテクスチャをテキストに基づいて更新する。 連続的な編集を可能にするために,UV領域の整合性維持規則を導入し,無関係な顔属性に対する意図しない変化を防止する。 また,一貫性を維持しつつ編集効率を向上させるための自己誘導整合重み戦略を提案する。 総合的な実験を通じて,顔合成における手法の優位性を示す。 プロジェクトページ: https://faceg2e.github.io/

Text-guided 3D face synthesis has achieved remarkable results by leveraging text-to-image (T2I) diffusion models. However, most existing works focus solely on the direct generation, ignoring the editing, restricting them from synthesizing customized 3D faces through iterative adjustments. In this paper, we propose a unified text-guided framework from face generation to editing. In the generation stage, we propose a geometry-texture decoupled generation to mitigate the loss of geometric details caused by coupling. Besides, decoupling enables us to utilize the generated geometry as a condition for texture generation, yielding highly geometry-texture aligned results. We further employ a fine-tuned texture diffusion model to enhance texture quality in both RGB and YUV space. In the editing stage, we first employ a pre-trained diffusion model to update facial geometry or texture based on the texts. To enable sequential editing, we introduce a UV domain consistency preservation regularization, preventing unintentional changes to irrelevant facial attributes. Besides, we propose a self-guided consistency weight strategy to improve editing efficacy while preserving consistency. Through comprehensive experiments, we showcase our method's superiority in face synthesis. Project page: https://faceg2e.github.io/.
翻訳日:2023-12-04 15:28:50 公開日:2023-12-01
# Fat-Tailed Customer Lifetime Value 予測のためのストリーミングベイズモデル

Streaming Bayesian Modeling for predicting Fat-Tailed Customer Lifetime Value ( http://arxiv.org/abs/2312.00373v1 )

ライセンス: Link先を確認
Alexey V. Calabourdin, Konstantin A. Aksenov(参考訳) 我々は階層ベイズモデルとGLMSに適用可能なオンライン学習MCMCアプローチを開発した。 また,複数種類の脂肪と薄い尾を一般化したltvモデルを開発した。 大型モバイルアプリの商用LTVデータにおける両開発の成果を実証する。

We develop an online learning MCMC approach applicable for hierarchical bayesian models and GLMS. We also develop a fat-tailed LTV model that generalizes over several kinds of fat and thin tails. We demonstrate both developments on commercial LTV data from a large mobile app.
翻訳日:2023-12-04 15:28:31 公開日:2023-12-01
# web 検索におけるイベント駆動リアルタイム検索

Event-driven Real-time Retrieval in Web Search ( http://arxiv.org/abs/2312.00372v1 )

ライセンス: Link先を確認
Nan Yang, Yannan Zhang, Xiaoling Bai, Hualong Deng, Tianhua Zhou and Jin Ma(参考訳) リアルタイム検索における情報検索は、古典的なウェブ検索で遭遇した情報とは異なるユニークな課題を示す。 これらの課題は、地震、選挙、戦争などの突発的なニュースイベントの発生と進化に影響されるユーザ検索意図の急激な変化によって特に顕著である。 静的セマンティック表現に主に焦点をあてた従来の密集検索手法では、即時検索インテントをキャプチャする能力が欠如しており、最新のイベント関連文書をタイムセンシティブなシナリオで検索する際の性能が劣っている。 この問題に対処するため,本稿では,リアルタイム検索意図を表すイベント情報を用いてクエリを拡張する。 イベント情報は、クロスアテンションメカニズムを通じてクエリと統合され、時間-コンテキストのクエリ表現となる。 マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。 ms-marcoのような公開データセットはクエリ側ではイベント情報を一切含んでおらず、時間に敏感なクエリも少ないため、modelzooベースの粗いアノテーションとllm駆動の細かいアノテーションプロセスを含むこの問題に対処するための自動データ収集とアノテーションパイプラインを設計します。 また、2段階トレーニングやハードネガティブサンプリングといったトレーニング手法も共有しています。 最後に、100万規模の運用データセット上でオフライン実験を行い、我々のアプローチを評価し、実際のオンラインシステムにA/Bテストを展開し、パフォーマンスを検証する。 実験の結果,提案手法は既存の最先端のベースライン法よりも大幅に優れていた。

Information retrieval in real-time search presents unique challenges distinct from those encountered in classical web search. These challenges are particularly pronounced due to the rapid change of user search intent, which is influenced by the occurrence and evolution of breaking news events, such as earthquakes, elections, and wars. Previous dense retrieval methods, which primarily focused on static semantic representation, lack the capacity to capture immediate search intent, leading to inferior performance in retrieving the most recent event-related documents in time-sensitive scenarios. To address this issue, this paper expands the query with event information that represents real-time search intent. The Event information is then integrated with the query through a cross-attention mechanism, resulting in a time-context query representation. We further enhance the model's capacity for event representation through multi-task training. Since publicly available datasets such as MS-MARCO do not contain any event information on the query side and have few time-sensitive queries, we design an automatic data collection and annotation pipeline to address this issue, which includes ModelZoo-based Coarse Annotation and LLM-driven Fine Annotation processes. In addition, we share the training tricks such as two-stage training and hard negative sampling. Finally, we conduct a set of offline experiments on a million-scale production dataset to evaluate our approach and deploy an A/B testing in a real online system to verify the performance. Extensive experimental results demonstrate that our proposed approach significantly outperforms existing state-of-the-art baseline methods.
翻訳日:2023-12-04 15:28:26 公開日:2023-12-01
# 画像分類に基づくマルチドメインアクティブラーニングのベンチマーク

Benchmarking Multi-Domain Active Learning on Image Classification ( http://arxiv.org/abs/2312.00364v1 )

ライセンス: Link先を確認
Jiayi Li, Rohan Taori, Tatsunori B. Hashimoto(参考訳) アクティブラーニングは、情報的データポイントを戦略的にラベル付けすることで、モデルパフォーマンスを向上させることを目的としている。 広範に研究されているが、大規模な実世界のデータセットに対する効果はいまだに未調査である。 既存の研究は主にシングルソースデータに焦点を当てており、実世界のデータの多領域性を無視している。 このギャップを埋めるために,マルチドメインアクティブラーニングベンチマークを導入する。 従来の1ドメインアクティブラーニング戦略は,マルチドメインシナリオにおけるランダム選択よりも効果が低い場合が多い。 既存のジャンルベースのドメインデータセットとは対照的に,地理的ドメインを中心に構築された,新たな大規模イメージデータセットである clip-geoyfcc も紹介する。 ベンチマークの分析は、すべてのマルチドメイン戦略が重要なトレードオフを示し、すべてのデータセットやすべてのメトリクスに対して戦略がパフォーマンスを上回らず、将来の研究の必要性を強調していることを示している。

Active learning aims to enhance model performance by strategically labeling informative data points. While extensively studied, its effectiveness on large-scale, real-world datasets remains underexplored. Existing research primarily focuses on single-source data, ignoring the multi-domain nature of real-world data. We introduce a multi-domain active learning benchmark to bridge this gap. Our benchmark demonstrates that traditional single-domain active learning strategies are often less effective than random selection in multi-domain scenarios. We also introduce CLIP-GeoYFCC, a novel large-scale image dataset built around geographical domains, in contrast to existing genre-based domain datasets. Analysis on our benchmark shows that all multi-domain strategies exhibit significant tradeoffs, with no strategy outperforming across all datasets or all metrics, emphasizing the need for future research.
翻訳日:2023-12-04 15:28:03 公開日:2023-12-01
# 画像で踊る:静力学的不連続によるビデオ蒸留

Dancing with Images: Video Distillation via Static-Dynamic Disentanglement ( http://arxiv.org/abs/2312.00362v1 )

ライセンス: Link先を確認
Ziyu Wang, Yue Xu, Cewu Lu, Yong-Lu Li(参考訳) 最近、データセット蒸留は効率的な機械学習、特に画像データセットへの道を開いた。 しかし、ビデオの蒸留は、排他的時間次元によって特徴づけられ、未探索領域のままである。 本研究では,ビデオ蒸留の体系的研究を行い,時間的圧縮を分類する分類法を提案する。 本研究は, 蒸留中に時間情報はよく学習されず, 合成データの時間次元がほとんど寄与しないことを明らかにした。 この観察は、ビデオ内の動的および静的情報を分離する統合された枠組みを動機付けます。 まず静止画に静止画を蒸留し、次に動的・動情報を学習可能な動的メモリブロックで補償する。 提案手法は,ビデオデータセットの様々なスケールでの最先端化を実現する。 私たちのコードは公開されます。

Recently, dataset distillation has paved the way towards efficient machine learning, especially for image datasets. However, the distillation for videos, characterized by an exclusive temporal dimension, remains an underexplored domain. In this work, we provide the first systematic study of video distillation and introduce a taxonomy to categorize temporal compression. Our investigation reveals that the temporal information is usually not well learned during distillation , and the temporal dimension of synthetic data contributes little. The observations motivate our unified framework of disentangling the dynamic and static information in the videos. It first distills the videos into still images as static memory and then compensates the dynamic and motion information with a learnable dynamic memory block. Our method achieves state-of-the-art on video datasets at different scales, with notably smaller storage expenditure. Our code will be publicly available.
翻訳日:2023-12-04 15:27:50 公開日:2023-12-01
# dual-prompt learning による効率的なマルチモーダルセマンティクスセグメンテーション

Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning ( http://arxiv.org/abs/2312.00360v1 )

ライセンス: Link先を確認
Shaohua Dong, Yunhe Feng, Qing Yang, Yan Huang, Dongfang Liu, Heng Fan(参考訳) マルチモーダル(例えば、RGB-Depth/RGB-Thermal)融合は複雑なシーン(例えば、屋内/低照度条件)におけるセマンティックセグメンテーションを改善する大きな可能性を示している。 既存のアプローチでは、マルチモーダルセマンティクスセグメンテーションを実現するための複雑な機能融合戦略を持つデュアルブランチエンコーダ-デコーダフレームワークを完全に微調整することが多い。 この問題に対処するために,訓練効率の高いマルチモーダル(例えばrgb-d/t)意味セグメンテーションのための,驚くほど単純で効果的なdplnetを提案する。 DPLNetの中核は、凍結した事前訓練されたRGBモデルをマルチモーダルなセマンティックセグメンテーションに直接適用し、パラメータ更新を減らすことである。 本研究では,MPG (Multimodal prompt generator) とMultimodal Feature Adapter (MFA) の2つのプロンプト学習モジュールを提案する。 MPGは、異なるモダリティをコンパクトな方法で融合させ、シャドウから深層ステージに挿入して、凍結したバックボーンに注入されるマルチレベルのマルチモーダルプロンプトを生成する。 mpgとmfaの両方が軽量であるため、マルチモーダル特徴の融合と学習のためにトレーニング可能なパラメータ(3.88m、4.4%)が導入された。 単純なデコーダ(3.27Mパラメータ)を使用することで、DPLNetは新たな最先端のパフォーマンスを達成するか、4つのRGB-D/Tセマンティックセマンティックセグメンテーションデータセットにおける他の複雑なアプローチと同等である。 さらに,dplnetは汎用的であり,salient object detectionやvideo semantic segmentationといった他のマルチモーダルタスクにも適用可能であることを示す。 特別な設計がなければ、dplnetは多くの複雑なモデルを上回る。 私たちのコードはgithub.com/ShaohuaDong2021/DPLNetで利用できます。

Multimodal (e.g., RGB-Depth/RGB-Thermal) fusion has shown great potential for improving semantic segmentation in complex scenes (e.g., indoor/low-light conditions). Existing approaches often fully fine-tune a dual-branch encoder-decoder framework with a complicated feature fusion strategy for achieving multimodal semantic segmentation, which is training-costly due to the massive parameter updates in feature extraction and fusion. To address this issue, we propose a surprisingly simple yet effective dual-prompt learning network (dubbed DPLNet) for training-efficient multimodal (e.g., RGB-D/T) semantic segmentation. The core of DPLNet is to directly adapt a frozen pre-trained RGB model to multimodal semantic segmentation, reducing parameter updates. For this purpose, we present two prompt learning modules, comprising multimodal prompt generator (MPG) and multimodal feature adapter (MFA). MPG works to fuse the features from different modalities in a compact manner and is inserted from shadow to deep stages to generate the multi-level multimodal prompts that are injected into the frozen backbone, while MPG adapts prompted multimodal features in the frozen backbone for better multimodal semantic segmentation. Since both the MPG and MFA are lightweight, only a few trainable parameters (3.88M, 4.4% of the pre-trained backbone parameters) are introduced for multimodal feature fusion and learning. Using a simple decoder (3.27M parameters), DPLNet achieves new state-of-the-art performance or is on a par with other complex approaches on four RGB-D/T semantic segmentation datasets while satisfying parameter efficiency. Moreover, we show that DPLNet is general and applicable to other multimodal tasks such as salient object detection and video semantic segmentation. Without special design, DPLNet outperforms many complicated models. Our code will be available at github.com/ShaohuaDong2021/DPLNet.
翻訳日:2023-12-04 15:27:36 公開日:2023-12-01
# 温度バランス、レイヤーワイドウェイト分析、ニューラルネットワークトレーニング

Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training ( http://arxiv.org/abs/2312.00359v1 )

ライセンス: Link先を確認
Yefan Zhou, Tianyu Pang, Keqin Liu, Charles H. Martin, Michael W. Mahoney, Yaoqing Yang(参考訳) 現代の機械学習における正規化は不可欠であり、トレーニングセット、モデルファミリー、エラー関数、正規化項、最適化といったアルゴリズム設計の様々な形態を取ることができる。 特に、学習の統計力学における温度のようなパラメータとして解釈できる学習率は、ニューラルネットワークトレーニングにおいて重要な役割を果たす。 実際、広く採用されている多くのトレーニング戦略は、基本的に時間の経過とともに学習率の低下を定義するだけである。 このプロセスは、(モデル全体の)グローバル学習率またはパラメータ毎に異なる学習率を使用して、温度を低下させると解釈できる。 本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。 TempBalanceは、訓練されたモデルにおける異なるレイヤの暗黙的な自己規則化を特徴付けるアプローチであるHT-SR理論に基づいている。 実験では,ht-srモチベーション指標を用いて,モデルトレーニング中のネットワーク層全体の温度のスケジューリングとバランスを誘導し,テスト時のパフォーマンスを向上させる効果を実証する。 CIFAR10, CIFAR100, SVHN, TinyImageNetデータセット上で, 様々な深さと幅を持つResNet, VGG, WideResNetsを用いてTempBalanceを実装した。 以上の結果から,TempBalanceは通常のSGDと慎重に調整されたスペクトルノルム正規化よりも優れていた。 また、TempBalanceは最先端のオプティマイザや学習率スケジューラよりも優れています。

Regularization in modern machine learning is crucial, and it can take various forms in algorithmic design: training set, model family, error function, regularization terms, and optimizations. In particular, the learning rate, which can be interpreted as a temperature-like parameter within the statistical mechanics of learning, plays a crucial role in neural network training. Indeed, many widely adopted training strategies basically just define the decay of the learning rate over time. This process can be interpreted as decreasing a temperature, using either a global learning rate (for the entire model) or a learning rate that varies for each parameter. This paper proposes TempBalance, a straightforward yet effective layer-wise learning rate method. TempBalance is based on Heavy-Tailed Self-Regularization (HT-SR) Theory, an approach which characterizes the implicit self-regularization of different layers in trained models. We demonstrate the efficacy of using HT-SR-motivated metrics to guide the scheduling and balancing of temperature across all network layers during model training, resulting in improved performance during testing. We implement TempBalance on CIFAR10, CIFAR100, SVHN, and TinyImageNet datasets using ResNets, VGGs, and WideResNets with various depths and widths. Our results show that TempBalance significantly outperforms ordinary SGD and carefully-tuned spectral norm regularization. We also show that TempBalance outperforms a number of state-of-the-art optimizers and learning rate schedulers.
翻訳日:2023-12-04 15:26:52 公開日:2023-12-01
# データ拡張がQCNNに与える影響

Impact of Data Augmentation on QCNNs ( http://arxiv.org/abs/2312.00358v1 )

ライセンス: Link先を確認
Leting Zhouli, Peiyong Wang, Udaya Parampalli(参考訳) 近年,画像認識には古典的畳み込みニューラルネットワーク(CNN)が応用されている。 量子畳み込みニューラルネットワーク(QCNN)は,量子機構を用いてCNNの新たな一般化として提案される。 量子メカニズムは、入力のサイズを$N$から$log_2N$に下げることで、QCNNの効率的なトレーニングプロセスにつながる。 本稿では,CNN と QCNN を比較し,一般的に使用されている3つのデータセットの損失と予測精度をテストする。 データセットには、MNISTの手書き桁、Fashion MNIST、cat/dog顔画像が含まれる。 また、データ拡張(DA)は、CNNでよく使われている手法で、元の入力に基づいて類似した画像を生成することによって分類性能を向上させる。 驚くべきことに、データ拡張はQCNNのパフォーマンスを向上しなかった。 この結果の背景にある理由と論理を議論し、量子機械学習理論の理解を深めたいと考えている。

In recent years, Classical Convolutional Neural Networks (CNNs) have been applied for image recognition successfully. Quantum Convolutional Neural Networks (QCNNs) are proposed as a novel generalization to CNNs by using quantum mechanisms. The quantum mechanisms lead to an efficient training process in QCNNs by reducing the size of input from $N$ to $log_2N$. This paper implements and compares both CNNs and QCNNs by testing losses and prediction accuracy on three commonly used datasets. The datasets include the MNIST hand-written digits, Fashion MNIST and cat/dog face images. Additionally, data augmentation (DA), a technique commonly used in CNNs to improve the performance of classification by generating similar images based on original inputs, is also implemented in QCNNs. Surprisingly, the results showed that data augmentation didn't improve QCNNs performance. The reasons and logic behind this result are discussed, hoping to expand our understanding of Quantum machine learning theory.
翻訳日:2023-12-04 15:26:26 公開日:2023-12-01
# PEFTデビアス : PEFTを用いたデバイアス情報の取得

PEFTDebias : Capturing debiasing information using PEFTs ( http://arxiv.org/abs/2312.00434v1 )

ライセンス: Link先を確認
Sumit Agarwal, Aditya Srikanth Veerubhotla, Srijan Bansal(参考訳) 基礎モデルの利用の増加は、事前トレーニング中に発生する暗黙のバイアスに対処することの必要性を浮き彫りにしている。 本稿では,パラメータ効率のよい微調整(PEFT)を用いた基礎モデルのバイアス軽減手法であるPEFTDebiasを紹介する。 PEFTDebiasは、特定のバイアス軸に沿ってデバイアスパラメータを取得する上流フェーズと、これらのパラメータをモデルに組み込んで微調整プロセス中に凍結する下流フェーズの2つの主要なフェーズから構成される。 性別と人種の2つのバイアス軸にまたがる4つのデータセットについて評価することで,下流バイアスをペフトで効果的に低減できることがわかった。 さらに,これらのパラメータは軸特異的な偏り特性を有しており,様々な下流タスクにおけるバイアス軽減に有効であることを示す。 再現性を確保するために、実験を行うコードをリリースします。

The increasing use of foundation models highlights the urgent need to address and eliminate implicit biases present in them that arise during pretraining. In this paper, we introduce PEFTDebias, a novel approach that employs parameter-efficient fine-tuning (PEFT) to mitigate the biases within foundation models. PEFTDebias consists of two main phases: an upstream phase for acquiring debiasing parameters along a specific bias axis, and a downstream phase where these parameters are incorporated into the model and frozen during the fine-tuning process. By evaluating on four datasets across two bias axes namely gender and race, we find that downstream biases can be effectively reduced with PEFTs. In addition, we show that these parameters possess axis-specific debiasing characteristics, enabling their effective transferability in mitigating biases in various downstream tasks. To ensure reproducibility, we release the code to do our experiments.
翻訳日:2023-12-04 15:21:06 公開日:2023-12-01
# 相互情報から期待されるダイナミクスへ:重機SGDの新しい一般化境界

From Mutual Information to Expected Dynamics: New Generalization Bounds for Heavy-Tailed SGD ( http://arxiv.org/abs/2312.00427v1 )

ライセンス: Link先を確認
Benjamin Dupuis, Paul Viallard(参考訳) 現代の機械学習アルゴリズムの一般化能力を理解することは、過去数十年で主要な研究トピックとなっている。 近年,確率的勾配降下(sgd)の学習ダイナミクスは,重み付き力学と関連している。 これはそれらの力学のフラクタル特性を利用して一般化理論にうまく応用されている。 しかし、導出された境界は計算可能性の範囲を超えている相互情報(疎結合)に依る。 本研究では,これらの相互情報項を使わずに,重項力学の軌跡上の一般化を証明した。 代わりに,学習のダイナミクス(経験的リスクに依存する)と期待されるもの(人口リスクに依存する)を比較することにより,幾何学的分離という用語を導入する。 ヘビーテールドとフラクタル文学の技法を駆使して、この幾何学用語をさらに上向きにし、完全に計算可能である。 さらに, 境界を狭める試みとして, 同じ幾何学的用語が重要な役割を担い, 上述の手法を用いても有界化が可能である摂動力学に基づくPAC-ベイズ的設定を提案する。

Understanding the generalization abilities of modern machine learning algorithms has been a major research topic over the past decades. In recent years, the learning dynamics of Stochastic Gradient Descent (SGD) have been related to heavy-tailed dynamics. This has been successfully applied to generalization theory by exploiting the fractal properties of those dynamics. However, the derived bounds depend on mutual information (decoupling) terms that are beyond the reach of computability. In this work, we prove generalization bounds over the trajectory of a class of heavy-tailed dynamics, without those mutual information terms. Instead, we introduce a geometric decoupling term by comparing the learning dynamics (depending on the empirical risk) with an expected one (depending on the population risk). We further upper-bound this geometric term, by using techniques from the heavy-tailed and the fractal literature, making it fully computable. Moreover, as an attempt to tighten the bounds, we propose a PAC-Bayesian setting based on perturbed dynamics, in which the same geometric term plays a crucial role and can still be bounded using the techniques described above.
翻訳日:2023-12-04 15:20:50 公開日:2023-12-01
# 低出力ニューロモルフィックアプローチによる効率的な眼球追跡

A Low-Power Neuromorphic Approach for Efficient Eye-Tracking ( http://arxiv.org/abs/2312.00425v1 )

ライセンス: Link先を確認
Pietro Bonazzi, Sizhen Bian, Giovanni Lippolis, Yawei Li, Sadique Sheik, Michele Magno(参考訳) 本稿では,ダイナミックビジョンセンサ(dvs)カメラが捉えた純粋なイベントデータを用いて,視線追跡のためのニューロモルフィックな手法を提案する。 このフレームワークは、直接訓練されたスパイキングニューロンネットワーク(SNN)回帰モデルを統合し、最新の最先端の低消費電力エッジニューロモルフィックプロセッサであるSpeckを活用する。 まず,30名のボランティアから2台のガラス製dvsカメラで収集したイベントベースのアイトラッキングデータセット「ini-30」を紹介する。 次に、Integrate And Fire (IAF) ニューロンをベースとした SNN モデル "Retina" について記述し、64k パラメータ(最新の 6.63 倍)のみを特徴とし、64x64 DVS 入力でわずか 3.24 ピクセルの瞳孔追跡誤差を達成している。 この連続回帰出力は、出力スパイク層を横切る非スパイク時間1dフィルタを用いて畳み込みによって得られる。 最後に、ニューロモルフィックプロセッサ上で網膜を評価し、時間ウィンドウに依存する2.89-4.8 mWと5.57-8.01 mSのレイテンシのエンドツーエンドのパワーを示す。 また,イベントフレーム上に構築した最新のイベントベースのアイトラッキング手法である"3et"に対するベンチマークも行った。 その結果、retinaは1.24pxの瞳孔の誤差を減らし、計算の複雑さを35倍のmac操作で減らした。 この研究は、クローズループニューロモルフィックソリューションのさらなる研究と、エッジパフォーマンスを追求する真のイベントベースのトレーニングのための道を開くことを願っている。

This paper introduces a neuromorphic methodology for eye tracking, harnessing pure event data captured by a Dynamic Vision Sensor (DVS) camera. The framework integrates a directly trained Spiking Neuron Network (SNN) regression model and leverages a state-of-the-art low power edge neuromorphic processor - Speck, collectively aiming to advance the precision and efficiency of eye-tracking systems. First, we introduce a representative event-based eye-tracking dataset, "Ini-30", which was collected with two glass-mounted DVS cameras from thirty volunteers. Then,a SNN model, based on Integrate And Fire (IAF) neurons, named "Retina", is described , featuring only 64k parameters (6.63x fewer than the latest) and achieving pupil tracking error of only 3.24 pixels in a 64x64 DVS input. The continous regression output is obtained by means of convolution using a non-spiking temporal 1D filter slided across the output spiking layer. Finally, we evaluate Retina on the neuromorphic processor, showing an end-to-end power between 2.89-4.8 mW and a latency of 5.57-8.01 mS dependent on the time window. We also benchmark our model against the latest event-based eye-tracking method, "3ET", which was built upon event frames. Results show that Retina achieves superior precision with 1.24px less pupil centroid error and reduced computational complexity with 35 times fewer MAC operations. We hope this work will open avenues for further investigation of close-loop neuromorphic solutions and true event-based training pursuing edge performance.
翻訳日:2023-12-04 15:20:18 公開日:2023-12-01
# 畳み込みニューラルネットワークを用いた衛星による貧困予測の解説に向けて

Towards Explaining Satellite Based Poverty Predictions with Convolutional Neural Networks ( http://arxiv.org/abs/2312.00416v1 )

ライセンス: Link先を確認
Hamid Sarmadi, Thorsteinn R\"ognvaldsson, Nils Roger Carlsson, Mattias Ohlsson, Ibrahim Wahab, Ola Hall(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、サテライト画像から驚くほどの精度で貧困と開発指標を予測することが示されている。 本稿では,cnns応答を詳細に分析し,予測の基礎を説明する最初の試みを示す。 CNNモデルは、比較的低解像度の日夜衛星画像に基づいて訓練されているが、ウェルス指数のカテゴリーの上位に高解像度の画像を見る人より優れている。 モデル上で行われた複数の説明可能性実験は、オブジェクトのサイズ、画像中のピクセル色の重要性を示し、入力画像における異なる構造の重要性を可視化する。 富のネットワーク予測を最大化するタイプイメージも可視化され、cnnの予測が何に基づいているかの手がかりを提供する。

Deep convolutional neural networks (CNNs) have been shown to predict poverty and development indicators from satellite images with surprising accuracy. This paper presents a first attempt at analyzing the CNNs responses in detail and explaining the basis for the predictions. The CNN model, while trained on relatively low resolution day- and night-time satellite images, is able to outperform human subjects who look at high-resolution images in ranking the Wealth Index categories. Multiple explainability experiments performed on the model indicate the importance of the sizes of the objects, pixel colors in the image, and provide a visualization of the importance of different structures in input images. A visualization is also provided of type images that maximize the network prediction of Wealth Index, which provides clues on what the CNN prediction is based on.
翻訳日:2023-12-04 15:19:25 公開日:2023-12-01
# 大規模視覚言語モデルによる高能率・高能率部分関連映像検索のための超画像学習

Large-scale Vision-Language Models Learn Super Images for Efficient and High-Performance Partially Relevant Video Retrieval ( http://arxiv.org/abs/2312.00414v1 )

ライセンス: Link先を確認
Taichi Nishimura and Shota Nakada and Masayoshi Kondo(参考訳) 本稿では,入力テキストクエリに少なくとも1つの関連モーメントを含む長編長編ビデオの検索を目的とした,部分関連ビデオ検索(PRVR)の効率的かつ高性能な手法を提案する。 効率性と性能の両面で、これまでの研究で見過ごされたボトルネックは、高密度フレームの視覚的符号化である。 これにより、研究者は、学習された視覚表現の限られた能力のため、軽量な視覚バックボーンを選択することができる。 しかし、低効率のため、単に高性能な大規模視覚言語モデル(VLM)に置き換えることは望ましくない。 これらの問題に対処するために、高密度なフレームの代わりに、ビデオフレームを$N \times N$ gridレイアウトで並べ替えることで生成されるスーパーイメージに焦点を当てる。 これにより、ヴィジュアルエンコーディングの数を$\frac{1}{n^2}$に減らし、大規模なvlmの低効率を補うことができ、強力なエンコーダとしてそれらを採用できます。 驚くべきことに、単純なクエリイメージアテンショントリックにより、VLMはスーパーイメージを効果的に一般化し、SOTA法に対して有望なゼロショット性能を示す。 さらに,VLMバックボーンにいくつかのトレーニング可能なモジュールを組み込むことにより,微調整手法を提案する。 実験の結果,本手法は,ActivityNet CaptionsとTVRの最高の性能を効果的に達成できることが示された。

In this paper, we propose an efficient and high-performance method for partially relevant video retrieval (PRVR), which aims to retrieve untrimmed long videos that contain at least one relevant moment to the input text query. In terms of both efficiency and performance, the overlooked bottleneck of previous studies is the visual encoding of dense frames. This guides researchers to choose lightweight visual backbones, yielding sub-optimal retrieval performance due to their limited capabilities of learned visual representations. However, it is undesirable to simply replace them with high-performance large-scale vision-and-language models (VLMs) due to their low efficiency. To address these issues, instead of dense frames, we focus on super images, which are created by rearranging the video frames in a $N \times N$ grid layout. This reduces the number of visual encodings to $\frac{1}{N^2}$ and compensates for the low efficiency of large-scale VLMs, allowing us to adopt them as powerful encoders. Surprisingly, we discover that with a simple query-image attention trick, VLMs generalize well to super images effectively and demonstrate promising zero-shot performance against SOTA methods efficiently. In addition, we propose a fine-tuning approach by incorporating a few trainable modules into the VLM backbones. The experimental results demonstrate that our approaches efficiently achieve the best performance on ActivityNet Captions and TVR.
翻訳日:2023-12-04 15:19:01 公開日:2023-12-01
# プログラミング言語理解と表現のための抽象構文木:どこまで遠いのか?

Abstract Syntax Tree for Programming Language Understanding and Representation: How Far Are We? ( http://arxiv.org/abs/2312.00413v1 )

ライセンス: Link先を確認
Weisong Sun and Chunrong Fang and Yun Miao and Yudu You and Mengzhe Yuan and Yuchen Chen and Quanjun Zhang and An Guo and Xiang Chen and Yang Liu and Zhenyu Chen(参考訳) プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで難しい課題である。 深層学習技術を適用してソースコードの特徴を数値的に表現し,セマンティクスを保存することを目的とする。 これらの表現は、その後のコード関連タスクの促進に使用できる。 基本的なコード機能であるabstract syntax tree(ast)は、ソースコードの構文情報を示し、コード表現学習で広く使われている。 しかし、ASTベースのコード表現が後続のコード関連タスクをどのように促進するかについて、体系的で定量的な評価がまだ残っていない。 本稿では,まず,astベースのコード表現がフォローアップコード関連タスクの促進に有効であるかを検討するため,包括的な実証研究を行う。 そのために、コードトークンシーケンス(略してToken)ベースのコード表現と、ASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。 驚くべきことに、全体的な定量的統計結果は、astベースのコード表現でトレーニングされたモデルは、トークンベースのコード表現でトレーニングされたモデルに比べて、3つのタスク全体で一貫してパフォーマンスが悪くなっていることを示している。 さらに定量的分析の結果,ASTベースのコード表現で訓練されたモデルは,Tokenベースのコード表現で訓練されたモデルよりも優れていることがわかった。 また、AST解析・前処理・エンコード手法の選択がASTベースのコード表現およびその後のコード関連タスクに与える影響を評価するための包括的な実験も行います。 本研究は将来の研究者に対して,ASTを完全に活用するための各段階でのソリューションの選択方法に関する詳細なガイダンスを提供する。

Programming language understanding and representation (a.k.a code representation learning) has always been a hot and challenging task in software engineering. It aims to apply deep learning techniques to produce numerical representations of the source code features while preserving its semantics. These representations can be used for facilitating subsequent code-related tasks. The abstract syntax tree (AST), a fundamental code feature, illustrates the syntactic information of the source code and has been widely used in code representation learning. However, there is still a lack of systematic and quantitative evaluation of how well AST-based code representation facilitates subsequent code-related tasks. In this paper, we first conduct a comprehensive empirical study to explore the effectiveness of the AST-based code representation in facilitating follow-up code-related tasks. To do so, we compare the performance of models trained with code token sequence (Token for short) based code representation and AST-based code representation on three popular types of code-related tasks. Surprisingly, the overall quantitative statistical results demonstrate that models trained with AST-based code representation consistently perform worse across all three tasks compared to models trained with Token-based code representation. Our further quantitative analysis reveals that models trained with AST-based code representation outperform models trained with Token-based code representation in certain subsets of samples across all three tasks. We also conduct comprehensive experiments to evaluate and reveal the impact of the choice of AST parsing/preprocessing/encoding methods on AST-based code representation and subsequent code-related tasks. Our study provides future researchers with detailed guidance on how to select solutions at each stage to fully exploit AST.
翻訳日:2023-12-04 15:18:10 公開日:2023-12-01
# scheme: 視覚トランスフォーマーのためのスケーラブルなチャンナーミキサー

SCHEME: Scalable Channer Mixer for Vision Transformers ( http://arxiv.org/abs/2312.00412v1 )

ライセンス: Link先を確認
Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos(参考訳) 視覚トランスフォーマーは、多くの視覚タスクで印象的な性能のため、大きな注目を集めている。 トークンミキサーや注意ブロックは、非常に詳細に研究されているが、チャネルミキサーや特徴混合ブロック(ffnまたはmlp)は、モデル内のパラメータと計算の大部分を担っているにもかかわらず、深くは探索されていない。 本研究では,より広い拡張率をサポートすることで精度を向上させるブロック対角形mlp構造を用いて,分散特徴混合が密接な接続を置き換えることができるか検討する。 この構造により形成された特徴クラスタを改善し、精度をさらに向上するため、トレーニング中に並列ブランチとして軽量でパラメータフリーなチャネル共分散アテンション(CCA)機構を導入する。 このCCAの設計は、訓練が収束するにつれて寄与がゼロになる訓練中、チャネル群間の段階的な特徴混合を可能にする。 これにより、推論中にCAAブロックを破棄することができ、計算コストを増大させることなく性能を向上させることができる。 結果として生じる$\textit{Scalable CHannEl MixEr}$ (SCHEME) は任意の ViT アーキテクチャにプラグインすることができ、MLP のブロック対角構造サイズを制御することで、複雑性と性能のトレードオフが異なるモデルのガムが得られる。 これはSCHEMEformerモデルの新しいファミリーの導入によって示される。 vitバックボーンの異なる画像分類、オブジェクト検出、セマンティックセグメンテーションの実験は、既存の設計、特に低いフロップス領域において、一貫して実質的な精度向上を示している。 例えば、SCHEMEformer は ImageNet-1K の1.77G FLOP で純アテンションミキサーを用いて ViT の 79.7% の精度の SOTA を確立する。

Vision Transformers have received significant attention due to their impressive performance in many vision tasks. While the token mixer or attention block has been studied in great detail, the channel mixer or feature mixing block (FFN or MLP) has not been explored in depth albeit it accounts for a bulk of the parameters and computation in a model. In this work, we study whether sparse feature mixing can replace the dense connections and confirm this with a block diagonal MLP structure that improves the accuracy by supporting larger expansion ratios. To improve the feature clusters formed by this structure and thereby further improve the accuracy, a lightweight, parameter-free, channel covariance attention (CCA) mechanism is introduced as a parallel branch during training. This design of CCA enables gradual feature mixing across channel groups during training whose contribution decays to zero as the training progresses to convergence. This allows the CCA block to be discarded during inference, thus enabling enhanced performance with no additional computational cost. The resulting $\textit{Scalable CHannEl MixEr}$ (SCHEME) can be plugged into any ViT architecture to obtain a gamut of models with different trade-offs between complexity and performance by controlling the block diagonal structure size in the MLP. This is shown by the introduction of a new family of SCHEMEformer models. Experiments on image classification, object detection, and semantic segmentation, with different ViT backbones, consistently demonstrate substantial accuracy gains over existing designs, especially under lower FLOPs regimes. For example, the SCHEMEformer establishes a new SOTA of 79.7% accuracy for ViTs using pure attention mixers on ImageNet-1K at 1.77G FLOPs.
翻訳日:2023-12-04 15:17:35 公開日:2023-12-01
# 多次元・高次モビリティ特徴クラスタリングによるライフスタイルプロファイルのマイニング

A framework for mining lifestyle profiles through multi-dimensional and high-order mobility feature clustering ( http://arxiv.org/abs/2312.00411v1 )

ライセンス: Link先を確認
Yeshuo Shu, Gangcheng Zhang, Keyi Liu, Jintong Tang, Liyan Xu(参考訳) 人間の移動性は高い規則性を示し、ライフスタイルのプロファイルの発見を促進する。 既存の研究は、そのようなプロファイリングにおいて人間の移動記録から抽出された高次特徴に埋め込まれた規則性を十分に活用していない。 本研究は,ユーザの移動軌跡記録から空間的,時間的,意味的次元から高次モビリティ特徴を抽出できるプログレッシブ特徴抽出手法を提案する。 移動モチーフ、移動時系列の離散フーリエ変換(dft)によって分解されたリズム、word2vecによるベクトル化された位置意味論などの特徴をそれぞれ3次元に対して抽出し、さらにクラスタ化してユーザのライフスタイル特性を明らかにする。 中国深セン市で,500万以上のユーザを対象にしたトラジェクトリデータセットを用いた実験により,ライフスタイルの異なる7つのユーザクラスタが得られた。 その結果,クロスオーダー軌道機能工学とクラスタリングによる詳細なユーザプロファイリングの可能性が示唆された。

Human mobility demonstrates a high degree of regularity, which facilitates the discovery of lifestyle profiles. Existing research has yet to fully utilize the regularities embedded in high-order features extracted from human mobility records in such profiling. This study proposes a progressive feature extraction strategy that mines high-order mobility features from users' moving trajectory records from the spatial, temporal, and semantic dimensions. Specific features are extracted such as travel motifs, rhythms decomposed by discrete Fourier transform (DFT) of mobility time series, and vectorized place semantics by word2vec, respectively to the three dimensions, and they are further clustered to reveal the users' lifestyle characteristics. An experiment using a trajectory dataset of over 500k users in Shenzhen, China yields seven user clusters with different lifestyle profiles that can be well interpreted by common sense. The results suggest the possibility of fine-grained user profiling through cross-order trajectory feature engineering and clustering.
翻訳日:2023-12-04 15:16:59 公開日:2023-12-01
# 翻訳不変系に対するサブシステム固有状態熱化仮説

Subsystem eigenstate thermalization hypothesis for translation invariant systems ( http://arxiv.org/abs/2312.00410v1 )

ライセンス: Link先を確認
Zhiqiang Huang and Xiao-Kan Guo(参考訳) 翻訳不変量子スピン系の固有状態熱化仮説は、最近ランダム行列を用いて証明されている。 本稿では, ランダム行列を使わずに, 変換不変量子系に対する固有状態熱化仮説のより強いサブシステムバージョンについて検討する。 量子分散あるいはBelavkin-Staszewski相対エントロピー上の小さな上限を示すことにより、変換不変量子系に対するサブシステム固有状態熱化仮説を基礎的に証明する。

The eigenstate thermalization hypothesis for translation invariant quantum spin systems has been proved recently by using random matrices. In this paper, we study the stronger subsystem version of eigenstate thermalization hypothesis for translation invariant quantum systems without referring to random matrices. By showing the small upper bounds on the quantum variance or the Belavkin-Staszewski relative entropy, we prove the subsystem eigenstate thermalization hypothesis for translation invariant quantum systems in an elementary way.
翻訳日:2023-12-04 15:16:44 公開日:2023-12-01
# CoLLiE: 大規模言語モデルの効率的な学習

CoLLiE: Collaborative Training of Large Language Models in an Efficient Way ( http://arxiv.org/abs/2312.00407v1 )

ライセンス: Link先を確認
Kai Lv, Shuo Zhang, Tianle Gu, Shuhao Xing, Jiawei Hong, Keyu Chen, Xiaoran Liu, Yuqing Yang, Honglin Guo, Tengxiao Liu, Yu Sun, Qipeng Guo, Hang Yan, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいてますます重要になっている。 オープンソースコミュニティによる事前学習されたモデルへのアクセスにより、これらのモデルを特定のアプリケーションに適用してパフォーマンスを向上させることが可能になった。 しかし、これらのモデルのトレーニングに必要なかなりのリソースは、効率的なソリューションを必要とします。 本稿では,3次元並列処理を用いた大規模言語モデルの協調学習,パラメータ効率向上(peft)手法,ライオン,アダン,ソフィア,ロモ,アダロモなどの最適化を行うための効率的なライブラリであるcollieを紹介する。 モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。 CoLLiEは、事前トレーニングと微調整のシナリオにおける一般的なソリューションと比較して、優れたトレーニング効率を証明している。 さらに,異なる最適化手法によるモデルサイズとgpuメモリ消費量の相関関係の実証評価を行い,スループットの分析を行った。 最後に,命令調整コンテキストにおいて,様々な最適化手法とPEFT手法の総合的な比較を行う。 CoLLiEはhttps://github.com/OpenLMLab/collie.comで入手できる。

Large language models (LLMs) are increasingly pivotal in a wide range of natural language processing tasks. Access to pre-trained models, courtesy of the open-source community, has made it possible to adapt these models to specific applications for enhanced performance. However, the substantial resources required for training these models necessitate efficient solutions. This paper introduces CoLLiE, an efficient library that facilitates collaborative training of large language models using 3D parallelism, parameter-efficient fine-tuning (PEFT) methods, and optimizers such as Lion, Adan, Sophia, LOMO and AdaLomo. With its modular design and comprehensive functionality, CoLLiE offers a balanced blend of efficiency, ease of use, and customization. CoLLiE has proven superior training efficiency in comparison with prevalent solutions in pre-training and fine-tuning scenarios. Furthermore, we provide an empirical evaluation of the correlation between model size and GPU memory consumption under different optimization methods, as well as an analysis of the throughput. Lastly, we carry out a comprehensive comparison of various optimizers and PEFT methods within the instruction-tuning context. CoLLiE is available at https://github.com/OpenLMLab/collie.
翻訳日:2023-12-04 15:16:37 公開日:2023-12-01
# 広帯域センサ空間におけるグループ活動認識のための因果パターンマイニング方式

A Causality-Aware Pattern Mining Scheme for Group Activity Recognition in a Pervasive Sensor Space ( http://arxiv.org/abs/2312.00404v1 )

ライセンス: Link先を確認
Hyunju Kim, Heesuk Son, Dongman Lee(参考訳) HAR(Human Activity Recognition)は、広く普及するコンピューティングにおいて重要な課題であり、その解決策は様々な分野に基づいて提示されている。 具体的には、プライバシーとアクセシビリティの問題のないスマートスペースにおけるHARでは、デプロイされた広帯域センサーによって生成されたデータストリームが活用される。 本稿では,ユーザ集団がユーザ識別なしで協調作業を行うグループアクティビティに着目し,ユーザグループが生成する広汎なセンサイベントシーケンスから因果パターンを抽出し,最先端のグラフィカルモデルと同じくらいの認識精度をサポートする,効率的なグループアクティビティ認識手法を提案する。 所定のデータストリームから無関係なノイズイベントをフィルタリングするために、一連のルールを利用して因果関係イベントをハイライトする。 次に、パターンツリーアルゴリズムは、成長する木構造を用いて、頻繁な因果パターンを抽出する。 抽出したパターンに基づいて、重み付け和に基づくパターンマッチングアルゴリズムは、グループアクティビティ認識のためのマッチングイベントパターンカウントを用いて、所定のテストイベントシーケンスに対するストアドグループアクティビティの確率を算出する。 提案手法をテストベッドおよびcasasデータセットから収集したデータを用いて評価し,ユーザが日常的にタスクを実行し,実環境での有効性を検証する。 実験の結果,提案方式は既存の方式よりも高い認識精度と少ないランタイムオーバーヘッドで実行可能であることがわかった。

Human activity recognition (HAR) is a key challenge in pervasive computing and its solutions have been presented based on various disciplines. Specifically, for HAR in a smart space without privacy and accessibility issues, data streams generated by deployed pervasive sensors are leveraged. In this paper, we focus on a group activity by which a group of users perform a collaborative task without user identification and propose an efficient group activity recognition scheme which extracts causality patterns from pervasive sensor event sequences generated by a group of users to support as good recognition accuracy as the state-of-the-art graphical model. To filter out irrelevant noise events from a given data stream, a set of rules is leveraged to highlight causally related events. Then, a pattern-tree algorithm extracts frequent causal patterns by means of a growing tree structure. Based on the extracted patterns, a weighted sum-based pattern matching algorithm computes the likelihoods of stored group activities to the given test event sequence by means of matched event pattern counts for group activity recognition. We evaluate the proposed scheme using the data collected from our testbed and CASAS datasets where users perform their tasks on a daily basis and validate its effectiveness in a real environment. Experiment results show that the proposed scheme performs higher recognition accuracy and with a small amount of runtime overhead than the existing schemes.
翻訳日:2023-12-04 15:16:17 公開日:2023-12-01
# viotgpt: インテリジェントビデオモノのインターネットに向けたビジョンツールの学習

VIoTGPT: Learning to Schedule Vision Tools towards Intelligent Video Internet of Things ( http://arxiv.org/abs/2312.00401v1 )

ライセンス: Link先を確認
Yaoyao Zhong, Mengshi Qi, Rui Wang, Yuhan Qiu, Yang Zhang, Huadong Ma(参考訳) Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。 モデルを認識し、収集した動画をインテリジェントに分析する学習は、viotにとって潜在的な火花となる。 本稿では,VIoTの細粒度・相互関連視覚ツール利用による課題に対処するため,人間と正しく対話し,知識映像をクエリし,視覚モデルを実行して複雑なタスクを遂行するLLMをベースとしたフレームワークであるVIoTGPTを構築した。 VIoTGPTと関連する今後の作業をサポートするため、トレーニングデータセットを慎重に作成し、セミオートマチックアノテーションに基づいた3つのカテゴリにわたる11の代表的な視覚モデルを含むベンチマークを確立した。 LLMをインテリジェントなVIoTエージェントとして機能させるために、収集したVIoTデータセットに基づいたReAct命令チューニングを使用して、ツール機能を学ぶ。 定量的および定性的な実験結果と分析により, VIoTGPTの有効性が示された。

Video Internet of Things (VIoT) has shown full potential in collecting an unprecedented volume of video data. Learning to schedule perceiving models and analyzing the collected videos intelligently will be potential sparks for VIoT. In this paper, to address the challenges posed by the fine-grained and interrelated vision tool usage of VIoT, we build VIoTGPT, the framework based on LLMs to correctly interact with humans, query knowledge videos, and invoke vision models to accomplish complicated tasks. To support VIoTGPT and related future works, we meticulously crafted the training dataset and established benchmarks involving 11 representative vision models across three categories based on semi-automatic annotations. To guide LLM to act as the intelligent agent towards intelligent VIoT, we resort to ReAct instruction tuning based on the collected VIoT dataset to learn the tool capability. Quantitative and qualitative experimental results and analyses demonstrate the effectiveness of VIoTGPT.
翻訳日:2023-12-04 15:15:55 公開日:2023-12-01
# トランスフォーマー型アテンションネットワークを用いた単視点rgbビデオからの臨界歩行パラメータ推定の学習

Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network ( http://arxiv.org/abs/2312.00398v1 )

ライセンス: Link先を確認
Quoc Hung T. Le, Hieu H. Pham(参考訳) 患者の筋骨格疾患や認知障害は、運動の困難を招き、心理的健康に悪影響を及ぼす。 早期診断と治療のための重要なツールである臨床歩行分析は、伝統的に高価な光学式モーションキャプチャシステムに依存している。 コンピュータビジョンとディープラーニングの最近の進歩は、よりアクセスしやすく、コスト効率の良い代替手段への扉を開いた。 本稿では,一眼レフカメラで撮影したRGBビデオから重要な歩行パラメータを推定する新しい時空間トランスフォーマーネットワークを提案する。 脳性麻痺患者の公的データセットを用いた経験的評価は、提案フレームワークが現在の最先端アプローチを超越し、一般的な歩行パラメータ(歩行速度、歩行偏差指数 - GDI、Knee Flexion Angle at Maximum Extension)の予測において大幅な改善を示し、パラメータが少ないこと、手動の特徴抽出の必要性を軽減することを示唆している。

Musculoskeletal diseases and cognitive impairments in patients lead to difficulties in movement as well as negative effects on their psychological health. Clinical gait analysis, a vital tool for early diagnosis and treatment, traditionally relies on expensive optical motion capture systems. Recent advances in computer vision and deep learning have opened the door to more accessible and cost-effective alternatives. This paper introduces a novel spatio-temporal Transformer network to estimate critical gait parameters from RGB videos captured by a single-view camera. Empirical evaluations on a public dataset of cerebral palsy patients indicate that the proposed framework surpasses current state-of-the-art approaches and show significant improvements in predicting general gait parameters (including Walking Speed, Gait Deviation Index - GDI, and Knee Flexion Angle at Maximum Extension), while utilizing fewer parameters and alleviating the need for manual feature extraction.
翻訳日:2023-12-04 15:15:37 公開日:2023-12-01
# GFN-SR: 生成フローネットワークによるシンボリック回帰

GFN-SR: Symbolic Regression with Generative Flow Networks ( http://arxiv.org/abs/2312.00396v1 )

ライセンス: Link先を確認
Sida Li, Ioana Marinescu, Sebastian Musslick(参考訳) シンボリック回帰 (sr) は解釈可能な機械学習の一分野であり、しばしば単純な関数からなる数学的表現を識別することを目的としており、与えられた共変量 x$ と応答 $y$ のセットに最も適している。 近年,複雑な組合せ探索問題の解法として,深層強化学習を応用した深部記号回帰法(deep symbolic regression:dsr)が普及している。 本研究では、ディープラーニングを用いてSRにアプローチするための代替フレームワーク(GFN-SR)を提案する。 我々は,表現木の構築を,有向非巡回グラフ (DAG) を経由したトラバースとしてモデル化し,GFlowNet がそのような木を逐次生成するための確率的ポリシーを学習できるようにする。 本手法は適応型報酬ベースラインで強化され,最適な表現の多様なセットを生成することができる。 特に、GFN-SRは、候補解空間上の報酬分布を学習する能力のため、ノイズの多いデータ構造において他のSRアルゴリズムよりも優れています。

Symbolic regression (SR) is an area of interpretable machine learning that aims to identify mathematical expressions, often composed of simple functions, that best fit in a given set of covariates $X$ and response $y$. In recent years, deep symbolic regression (DSR) has emerged as a popular method in the field by leveraging deep reinforcement learning to solve the complicated combinatorial search problem. In this work, we propose an alternative framework (GFN-SR) to approach SR with deep learning. We model the construction of an expression tree as traversing through a directed acyclic graph (DAG) so that GFlowNet can learn a stochastic policy to generate such trees sequentially. Enhanced with an adaptive reward baseline, our method is capable of generating a diverse set of best-fitting expressions. Notably, we observe that GFN-SR outperforms other SR algorithms in noisy data regimes, owing to its ability to learn a distribution of rewards over a space of candidate solutions.
翻訳日:2023-12-04 15:15:19 公開日:2023-12-01
# ジェスチャー認識システムに関する研究と調査

Study and Survey on Gesture Recognition Systems ( http://arxiv.org/abs/2312.00392v1 )

ライセンス: Link先を確認
Kshitij Deshpande, Varad Mashalkar, Kaustubh Mhaisekar, Amaan Naikwadi and Archana Ghotkar(参考訳) 近年、ジェスチャー認識領域では、主にコンピュータビジョンの技術的進歩により、かなりの研究が行なわれている。 この分野では様々な新しい応用が概念化され開発されている。 本稿では,ゲーム,医療,家電製品,産業用ロボット,仮想現実などの多分野におけるジェスチャー認識システムの実装について述べる。 この調査を通じて、ジェスチャーをキャプチャするための異なる手法を比較し、対比する。 様々なデータソースやデータ取得技術が議論されている。 手話におけるジェスチャーの役割は研究され、既存のアプローチも検討されている。 ジェスチャー認識システム構築における一般的な課題も検討されている。

In recent years, there has been a considerable amount of research in the Gesture Recognition domain, mainly owing to the technological advancements in Computer Vision. Various new applications have been conceptualised and developed in this field. This paper discusses the implementation of gesture recognition systems in multiple sectors such as gaming, healthcare, home appliances, industrial robots, and virtual reality. Different methodologies for capturing gestures are compared and contrasted throughout this survey. Various data sources and data acquisition techniques have been discussed. The role of gestures in sign language has been studied and existing approaches have been reviewed. Common challenges faced while building gesture recognition systems have also been explored.
翻訳日:2023-12-04 15:15:00 公開日:2023-12-01
# 流行予測のためのバックボーン型動的グラフ時空間ネットワーク

Backbone-based Dynamic Graph Spatio-Temporal Network for Epidemic Forecasting ( http://arxiv.org/abs/2312.00485v1 )

ライセンス: Link先を確認
Junkai Mao, Yuexing Han, Gouhei Tanaka and Bing Wang(参考訳) 正確な流行予測は伝染病の予防に重要な課題である。 多くのディープラーニングベースのモデルは、空間情報を構築する際に静的グラフや動的グラフにのみフォーカスし、それらの関係を無視している。 さらに、これらのモデルはしばしばリカレント構造に依存しており、エラーの蓄積と計算時間の消費につながる可能性がある。 上記の問題に対処するために,Backbone ベースの Dynamic Graph Spatio-Temporal Network (BDGSTN) と呼ばれる新しいモデルを提案する。 直感的には、グラフ構造の連続的かつ滑らかな変化は、隣接するグラフ構造を基本的なパターンを共有する。 この特性を捉えるために,プライマリ情報と時間モデルを含む静的バックボーングラフを生成する適応的手法を用いて,流行データの動的時間グラフを生成し,バックボーンベースの動的グラフを生成する。 繰り返し構造に関連する潜在的な制約を克服するため,線形モデルDLinearを導入し,時間的依存を処理し,流行予測のための動的グラフ畳み込みと組み合わせる。 2つのデータセットに対する大規模な実験により、BDGSTNはベースラインモデルより優れており、アブレーション比較はモデルコンポーネントの有効性をさらに検証している。 さらに,異なる側面の情報メトリクスを用いて,バックボーングラフとテンポラリグラフの意義を分析し,測定する。 最後に,モデルパラメータ量とトレーニング時間を比較し,BDGSTNの複雑さと効率性を検証した。

Accurate epidemic forecasting is a critical task in controlling disease transmission. Many deep learning-based models focus only on static or dynamic graphs when constructing spatial information, ignoring their relationship. Additionally, these models often rely on recurrent structures, which can lead to error accumulation and computational time consumption. To address the aforementioned problems, we propose a novel model called Backbone-based Dynamic Graph Spatio-Temporal Network (BDGSTN). Intuitively, the continuous and smooth changes in graph structure, make adjacent graph structures share a basic pattern. To capture this property, we use adaptive methods to generate static backbone graphs containing the primary information and temporal models to generate dynamic temporal graphs of epidemic data, fusing them to generate a backbone-based dynamic graph. To overcome potential limitations associated with recurrent structures, we introduce a linear model DLinear to handle temporal dependencies and combine it with dynamic graph convolution for epidemic forecasting. Extensive experiments on two datasets demonstrate that BDGSTN outperforms baseline models and ablation comparison further verifies the effectiveness of model components. Furthermore, we analyze and measure the significance of backbone and temporal graphs by using information metrics from different aspects. Finally, we compare model parameter volume and training time to confirm the superior complexity and efficiency of BDGSTN.
翻訳日:2023-12-04 15:09:07 公開日:2023-12-01
# 遅延を伴う多視点独立成分分析

MultiView Independent Component Analysis with Delays ( http://arxiv.org/abs/2312.00484v1 )

ライセンス: Link先を確認
Ambroise Heurtebise, Pierre Ablin, Alexandre Gramfort(参考訳) リニア独立成分分析(ICA)は、観測信号から独立した潜伏源を特定するために様々な領域で用いられているブラインドソース分離技術である。 高い信号対雑音比を得るためには、同じソースの複数のビューが存在する。 本稿では,MVICAD(MultiView Independent Component Analysis with Delays)を提案する。 このアルゴリズムは、ソースをいくつかの共有ソースの遅延バージョンにすることで、マルチビューicaモデル上に構築されている。 シミュレーションを用いて、MVICADがソースのアンミックスを改善することを示す。 さらに, ICAは神経科学においてしばしば用いられるため, 大規模脳磁図データセットであるCam-CANに適用した場合, レイテンシーは年齢に関連があることが示されている。 これらの結果は、MVICADモデルが人間の監督なしに、神経信号に豊かな影響を示せることを示した。

Linear Independent Component Analysis (ICA) is a blind source separation technique that has been used in various domains to identify independent latent sources from observed signals. In order to obtain a higher signal-to-noise ratio, the presence of multiple views of the same sources can be used. In this work, we present MultiView Independent Component Analysis with Delays (MVICAD). This algorithm builds on the MultiView ICA model by allowing sources to be delayed versions of some shared sources: sources are shared across views up to some unknown latencies that are view- and source-specific. Using simulations, we demonstrate that MVICAD leads to better unmixing of the sources. Moreover, as ICA is often used in neuroscience, we show that latencies are age-related when applied to Cam-CAN, a large-scale magnetoencephalography (MEG) dataset. These results demonstrate that the MVICAD model can reveal rich effects on neural signals without human supervision.
翻訳日:2023-12-04 15:08:45 公開日:2023-12-01
# Rationale 法定判断のための日本語トートケースデータセット

Japanese Tort-case Dataset for Rationale-supported Legal Judgment Prediction ( http://arxiv.org/abs/2312.00480v1 )

ライセンス: Link先を確認
Hiroaki Yamada, Takenobu Tokunaga, Ryutaro Ohara, Akira Tokutsu, Keisuke Takeshita, Mihoko Sumida(参考訳) 本稿では, トート予測と合理性抽出という2つのタスクを特徴とする日本語トートケースデータセット (JTD) である日本語法定判断予測 (LJP) の最初のデータセットを提案する。 合理性抽出タスクは、原告と被告による主張された議論から、裁判所が主張を受け入れることを識別する。 jtdは41人の法律専門家による3,477件の日本民法判決に基づいて構築されており、7,978件が関連当事者の主張の59,697件となっている。 提案する2つの課題の実現可能性を示す基礎実験を行い,法律専門家による誤差分析により誤りの原因を特定し,ljp研究の今後の方向性を示唆した。

This paper presents the first dataset for Japanese Legal Judgment Prediction (LJP), the Japanese Tort-case Dataset (JTD), which features two tasks: tort prediction and its rationale extraction. The rationale extraction task identifies the court's accepting arguments from alleged arguments by plaintiffs and defendants, which is a novel task in the field. JTD is constructed based on annotated 3,477 Japanese Civil Code judgments by 41 legal experts, resulting in 7,978 instances with 59,697 of their alleged arguments from the involved parties. Our baseline experiments show the feasibility of the proposed two tasks, and our error analysis by legal experts identifies sources of errors and suggests future directions of the LJP research.
翻訳日:2023-12-04 15:08:28 公開日:2023-12-01
# 物理系の解釈型メタラーニング

Interpretable Meta-Learning of Physical Systems ( http://arxiv.org/abs/2312.00477v1 )

ライセンス: Link先を確認
Matthieu Blanke and Marc Lelarge(参考訳) 機械学習の手法は、科学的なプロセスにおいて貴重な助けになるが、不均一な実験条件からデータが得られた困難な状況に直面する必要がある。 最近のメタラーニング手法はマルチタスク学習において大きな進歩を遂げているが、それらはブラックボックスニューラルネットワークに依存しており、高い計算コストと限られた解釈可能性をもたらす。 学習問題の構造を生かして,学習課題に関してアフィン構造を持つ,より単純な学習モデルを用いて多環境一般化を実現することができると主張する。 重要なことは、このアーキテクチャがシステムの物理的パラメータを識別し、解釈可能な学習を可能にすることを証明する。 本手法は,玩具モデルから複雑な非解析システムまで,物理システムの最先端アルゴリズムと比較することにより,競争的一般化性能と計算コストの低さを実証する。 本手法の解釈性は,物理パラメータによる適応と適応制御に応用される。

Machine learning methods can be a valuable aid in the scientific process, but they need to face challenging settings where data come from inhomogeneous experimental conditions. Recent meta-learning methods have made significant progress in multi-task learning, but they rely on black-box neural networks, resulting in high computational costs and limited interpretability. Leveraging the structure of the learning problem, we argue that multi-environment generalization can be achieved using a simpler learning model, with an affine structure with respect to the learning task. Crucially, we prove that this architecture can identify the physical parameters of the system, enabling interpreable learning. We demonstrate the competitive generalization performance and the low computational cost of our method by comparing it to state-of-the-art algorithms on physical systems, ranging from toy models to complex, non-analytical systems. The interpretability of our method is illustrated with original applications to physical-parameter-induced adaptation and to adaptive control.
翻訳日:2023-12-04 15:08:12 公開日:2023-12-01
# 事前学習言語モデルにおける素早い最適化のためのベイズ的アプローチ

A Bayesian approach for prompt optimization in pre-trained language models ( http://arxiv.org/abs/2312.00471v1 )

ライセンス: Link先を確認
Antonio Sabbatella, Andrea Ponti, Antonio Candelieri, Ilaria Giordani, Francesco Archetti(参考訳) プロンプトは、ある規則に従って語彙から選択された記号またはトークンのシーケンスで、テキストクエリに事前/連結される。 鍵となる問題はトークン列の選択方法である。この記事では、組合せ最適化問題として定式化する。 プロンプト列の長さで合成されたトークン空間の高次元性は、非常に効率的な解を必要とする。 本稿では,組合せ空間の連続的な埋め込みで実行されるベイズ最適化法を提案する。 本稿では,大規模言語モデル (LLM) へのアクセスを必要とせず,テキスト入力に付加される個別トークンを直接検索するハードプロンプトチューニング(HPT)に焦点を当てる。 GPT-4のように、モデル・アズ・ア・サービス(MaaS)方式でLLMが利用可能になれば、これは非常に重要です。 現在のmanu-scriptは、分類タスクの離散的なプロンプトの最適化に焦点を当てている。 離散的なプロンプトは、現実の応用におけるトークン空間の次元を考えると容易に難解になる難解な組合せ最適化問題を引き起こす。 本論文で考察する最適化手法はベイズ最適化 (BO) であり, モジュール構造と汎用性とともに, ブラックボックス最適化における主要なアプローチとなっている。 本稿では,pyTorch上に構築されたベイズ最適化研究のためのライブラリであるBoTorchを使用する。 6つのベンチマークにおけるRoB-ERTaの実験であるBOの"バニラ"バージョンを予備的に使用して得られた結果、さまざまなタスクにわたって優れたパフォーマンスを示し、検索空間のサイズ、精度、壁時計時間の間のトレードオフを分析することができる。

A prompt is a sequence of symbol or tokens, selected from a vocabulary according to some rule, which is prepended/concatenated to a textual query. A key problem is how to select the sequence of tokens: in this paper we formulate it as a combinatorial optimization problem. The high dimensionality of the token space com-pounded by the length of the prompt sequence requires a very efficient solution. In this paper we propose a Bayesian optimization method, executed in a continuous em-bedding of the combinatorial space. In this paper we focus on hard prompt tuning (HPT) which directly searches for discrete tokens to be added to the text input with-out requiring access to the large language model (LLM) and can be used also when LLM is available only as a black-box. This is critically important if LLMs are made available in the Model as a Service (MaaS) manner as in GPT-4. The current manu-script is focused on the optimization of discrete prompts for classification tasks. The discrete prompts give rise to difficult combinatorial optimization problem which easily become intractable given the dimension of the token space in realistic applications. The optimization method considered in this paper is Bayesian optimization (BO) which has become the dominant approach in black-box optimization for its sample efficiency along with its modular structure and versatility. In this paper we use BoTorch, a library for Bayesian optimization research built on top of pyTorch. Albeit preliminary and obtained using a 'vanilla' version of BO, the experiments on RoB-ERTa on six benchmarks, show a good performance across a variety of tasks and enable an analysis of the tradeoff between size of the search space, accuracy and wall clock time.
翻訳日:2023-12-04 15:07:56 公開日:2023-12-01
# unfolder: 折りたたみから折り目のある文書の高速ローカライズと画像修正

Unfolder: Fast localization and image rectification of a document with a crease from folding in half ( http://arxiv.org/abs/2312.00467v1 )

ライセンス: Link先を確認
A.M. Ershov, D.V. Tropin, E.E. Limonova, D.P. Nikolaev and V.V. Arlazarov(参考訳) 折り畳まれた文書の提示は現代社会では珍しいことではない。 このような文書をスマートフォンカメラで捉えてデジタル化することは、文書内容を別々の平面に分割できるため、難しい。 文書を広げるためには、エッジをキャプチャした画像に隠しておくことができる。 幾何的整形法は数多く存在するが、通常は任意の曲がり角と折りたたみのために開発された。 このようなアルゴリズムを考察し,文書を半分に折り畳むことで折りたたみ可能な画像に特化して開発したUnfolderを提案する。 アンフォルダは、文書画像の投影歪みに対して堅牢であり、修正後のクレーゼ近傍の画像を断片化しない。 新しいFolded Document Imagesデータセットは、折り畳まれた(2, 3, 4, 8 folds)ドキュメントの修正精度を調べるために作成された。 データセットには、テーブルに文書を置き、手元に保持した時にキャプチャされた1600の画像が含まれている。 unfolderアルゴリズムは、高度なニューラルネットワークメソッドであるdoctr (0.44) やdewarpnet (0.57) よりも優れた認識エラー率 0.33 を許容する。 Unfolderのランタイムの平均はiPhone XRで0.25s/imageしかなかった。

Presentation of folded documents is not an uncommon case in modern society. Digitizing such documents by capturing them with a smartphone camera can be tricky since a crease can divide the document contents into separate planes. To unfold the document, one could hold the edges potentially obscuring it in a captured image. While there are many geometrical rectification methods, they were usually developed for arbitrary bends and folds. We consider such algorithms and propose a novel approach Unfolder developed specifically for images of documents with a crease from folding in half. Unfolder is robust to projective distortions of the document image and does not fragment the image in the vicinity of a crease after rectification. A new Folded Document Images dataset was created to investigate the rectification accuracy of folded (2, 3, 4, and 8 folds) documents. The dataset includes 1600 images captured when document placed on a table and when held in hand. The Unfolder algorithm allowed for a recognition error rate of 0.33, which is better than the advanced neural network methods DocTr (0.44) and DewarpNet (0.57). The average runtime for Unfolder was only 0.25 s/image on an iPhone XR.
翻訳日:2023-12-04 15:07:28 公開日:2023-12-01
# 回転推定のための学習 unorthogonalized matrices

Learning Unorthogonalized Matrices for Rotation Estimation ( http://arxiv.org/abs/2312.00462v1 )

ライセンス: Link先を確認
Kerui Gu, Zhihao Li, Shiyong Liu, Jianzhuang Liu, Songcen Xu, Youliang Yan, Michael Bi Mi, Kenji Kawaguchi, Angela Yao(参考訳) 3次元回転の推定は、3次元コンピュータビジョンの一般的な手順である。 精度は回転表現に大きく依存する。 回転行列という表現の1つの形式は、その連続性、特にポーズ推定タスクのために人気がある。 学習過程は通常直交化を取り入れ、正則行列を保証する。 我々の研究は、勾配解析を通じて、グラムシュミット過程と特異値分解に基づく共通直交化手順が訓練効率を低下させることを示した。 この目的のために,学習過程から直交化を除去し,非直交化された擬似回転行列(PRoM)を学習することを提唱する。 最適化分析により、promはより高速に収束し、より良いソリューションになる。 直交化統合表現を様々な回転関連タスクで提案したPRoMに置き換えることで、人間のポーズ推定のための大規模ベンチマークで最先端の結果が得られる。

Estimating 3D rotations is a common procedure for 3D computer vision. The accuracy depends heavily on the rotation representation. One form of representation -- rotation matrices -- is popular due to its continuity, especially for pose estimation tasks. The learning process usually incorporates orthogonalization to ensure orthonormal matrices. Our work reveals, through gradient analysis, that common orthogonalization procedures based on the Gram-Schmidt process and singular value decomposition will slow down training efficiency. To this end, we advocate removing orthogonalization from the learning process and learning unorthogonalized `Pseudo' Rotation Matrices (PRoM). An optimization analysis shows that PRoM converges faster and to a better solution. By replacing the orthogonalization incorporated representation with our proposed PRoM in various rotation-related tasks, we achieve state-of-the-art results on large-scale benchmarks for human pose estimation.
翻訳日:2023-12-04 15:07:07 公開日:2023-12-01
# 超高真空中で動作する連続波・パルスxバンド電子スピン共鳴分光器による低次元スピンアンサンブルの研究

A continuous-wave and pulsed X-band electron spin resonance spectrometer operating in ultra-high vacuum for the study of low dimensional spin ensembles ( http://arxiv.org/abs/2312.00459v1 )

ライセンス: Link先を確認
Franklin H. Cho, Juyoung Park, Soyoung Oh, Jisoo Yu, Yejin Jeong, Luciano Colazzo, Lukas Spree, Caroline Hommel, Arzhang Ardavan, Giovanni Boero, and Fabio Donati(参考訳) 本稿では, 連続波・パルスXバンド電子スピン共鳴(ESR)分光計の開発について報告する。 超高真空下で動作し、単結晶Al$_2$O$_3$基板上のエピタキシャル成長銅膜を用いて実現した半波長マイクロストリップライン共振器を用いる。 1次元マイクロストリップライン共振器は、放射損失によって決定される上限に近い室温で200以上の品質係数を示す。 原子間力顕微鏡、低エネルギー電子回折、走査トンネル顕微鏡による共振器の銅帯の表面特性は、表面が原子状清浄で平坦で単結晶であることを示している。 数nmのYPc$_2$の厚い分子膜から15KでESRスペクトルを測定すると、YPc$_2$分子の単分子膜から信号対雑音比が7.7〜\text{G} \cdot \text{Hz}^{1/2}$の連続波ESR感度が6.5 \cdot 10^{10}~\text{spins}/\text{G} \cdot \text{Hz}^{1/2}$となることが分かる。 ガラス状マトリックス中で希釈したフリーラジカルを用いて, 動的脱カップリングと電子核二重共鳴を含む高次パルスesr実験能力を示す。

We report the development of a continuous-wave and pulsed X-band electron spin resonance (ESR) spectrometer for the study of spins on ordered surfaces down to cryogenic temperatures. The spectrometer operates in ultra-high vacuum and utilizes a half-wavelength microstrip line resonator realized using epitaxially grown copper films on single crystal Al$_2$O$_3$ substrates. The one-dimensional microstrip line resonator exhibits a quality factor of more than 200 at room temperature, close to the upper limit determined by radiation losses. The surface characterizations of the copper strip of the resonator by atomic force microscope, low-energy electron diffraction, and scanning tunneling microscope show that the surface is atomically clean, flat, and single crystalline. Measuring the ESR spectrum at 15 K from a few nm thick molecular film of YPc$_2$, we find a continuous-wave ESR sensitivity of $6.5 \cdot 10^{10}~\text{spins}/\text{G} \cdot \text{Hz}^{1/2}$ indicating that a signal-to-noise ratio of $7.7~\text{G} \cdot \text{Hz}^{1/2}$ is expected from a monolayer of YPc$_2$ molecules. Advanced pulsed ESR experimental capabilities including dynamical decoupling and electron-nuclear double resonance are demonstrated using free radicals diluted in a glassy matrix.
翻訳日:2023-12-04 15:06:52 公開日:2023-12-01
# 個人的および集団的行動を明らかにするための自動符号化GPSデータ

Auto-encoding GPS data to reveal individual and collective behaviour ( http://arxiv.org/abs/2312.00456v1 )

ライセンス: Link先を確認
Saint-Clair Chabert-Liddell, Nicolas Bez, Pierre Gloaguen, Sophie Donnet, St\'ephanie Mah\'evas(参考訳) 本研究では,個々の軌跡データから個人的および集団的行動を分析する,革新的で汎用的な手法を提案する。 この研究は、海洋生物多様性保全と生態系に基づく漁業管理の文脈で、規制追跡データから収集された漁船のgpsトラジェクタの分析に動機づけられている。 畳み込みニューラルネットワークを非線形写像として, 軌道の低次元潜在表現を構築する。 これは共変量を考慮した条件付き変分オートエンコーダのトレーニングによって行われる。 潜在表現の後方分布は実際の軌道の特性に関連付けることができる。 軌道の潜在分布は、分布を比較するのに適したバッタリア係数と比較される。 この係数を用いて,各容器の経時的挙動の変化を分析する。 集団行動分析のために,近接グラフを構築し,複数のネットワークに対する確率ブロックモデルの拡張を用いる。 このモデルは、それらの軌道の集合に基づいて個人をクラスタリングする。 フランスの漁船に適用することで,2014~2018年の間,個々の行動と集団行動が時空間的パターンを示す船舶群を得ることができる。

We propose an innovative and generic methodology to analyse individual and collective behaviour through individual trajectory data. The work is motivated by the analysis of GPS trajectories of fishing vessels collected from regulatory tracking data in the context of marine biodiversity conservation and ecosystem-based fisheries management. We build a low-dimensional latent representation of trajectories using convolutional neural networks as non-linear mapping. This is done by training a conditional variational auto-encoder taking into account covariates. The posterior distributions of the latent representations can be linked to the characteristics of the actual trajectories. The latent distributions of the trajectories are compared with the Bhattacharyya coefficient, which is well-suited for comparing distributions. Using this coefficient, we analyse the variation of the individual behaviour of each vessel during time. For collective behaviour analysis, we build proximity graphs and use an extension of the stochastic block model for multiple networks. This model results in a clustering of the individuals based on their set of trajectories. The application to French fishing vessels enables us to obtain groups of vessels whose individual and collective behaviours exhibit spatio-temporal patterns over the period 2014-2018.
翻訳日:2023-12-04 15:06:24 公開日:2023-12-01
# 複雑システムにおけるメタ多様性探索 : 人工的オープンエンドレスネスのレシピ?

Meta-Diversity Search in Complex Systems, A Recipe for Artificial Open-Endedness ? ( http://arxiv.org/abs/2312.00455v1 )

ライセンス: Link先を確認
Mayalen Etcheverry (Flowers), Bert Wang-Chak Chan, Cl\'ement Moulin-Frier (Flowers), Pierre-Yves Oudeyer (Flowers)(参考訳) Minecraftで「永遠に」実行すれば、無限の驚きを生み出すことができるような人工システムを構築することができるだろうか? この大きな課題を解決するための単一の道はないが、この記事では、マインクラフトにおけるますます複雑なアーティファクトの無限の世代のための、いくつかの機能的要素について紹介する。 オープンエンドシステムのためのフレームワークには、時間とともに再帰的にアーティファクトを成長・複雑化する複雑なシステムと、メタ多様性探索の概念を活用する発見アルゴリズムの2つのコンポーネントがある。 複雑なシステムは、単純なルールの集合からかなりの複雑さが生まれることを実証しているので、Minecraftであらゆる種類のアーティファクトを生成するための優れた候補であると考えています。 しかし、これらのシステムによって生成される可能性のあるアーティファクトの空間はしばしば未知であり、特徴付けや探索が困難である。 したがって、これらのシステムにおける新規で複雑なアーティファクトの長期的な発見を自動化することは、エキサイティングな研究分野である。 これらの課題に対処するために,人工的な「発見アシスタント」が多様な表現の集合を漸進的に学習し,それぞれに多様なパターンを探索するメタ多様性探索の問題を定式化する。 発見アシスタントは、新しい未知の多様性への探索を迅速に専門化しつつ、新しい多様性源を継続的に探すべきである。 Minecraft環境でこれらのアイデアを実装するために,レニア連続セルオートマトンに基づく人工的な「化学」システムをシミュレートし,人工的な「発見アシスタント」(ホームズと呼ばれる)を人工的に人工的に生成する。 ホームズは、多様性の異なる源を特徴づけるモジュラー表現の階層を漸進的に学習し、多様性探索戦略としてゴールベースの本質的な探索手法を用いる。

Can we build an artificial system that would be able to generate endless surprises if ran "forever" in Minecraft? While there is not a single path toward solving that grand challenge, this article presents what we believe to be some working ingredients for the endless generation of novel increasingly complex artifacts in Minecraft. Our framework for an open-ended system includes two components: a complex system used to recursively grow and complexify artifacts over time, and a discovery algorithm that leverages the concept of meta-diversity search. Since complex systems have shown to enable the emergence of considerable complexity from set of simple rules, we believe them to be great candidates to generate all sort of artifacts in Minecraft. Yet, the space of possible artifacts that can be generated by these systems is often unknown, challenging to characterize and explore. Therefore automating the long-term discovery of novel and increasingly complex artifacts in these systems is an exciting research field. To approach these challenges, we formulate the problem of meta-diversity search where an artificial "discovery assistant" incrementally learns a diverse set of representations to characterize behaviors and searches to discover diverse patterns within each of them. A successful discovery assistant should continuously seek for novel sources of diversities while being able to quickly specialize the search toward a new unknown type of diversity. To implement those ideas in the Minecraft environment, we simulate an artificial "chemistry" system based on Lenia continuous cellular automaton for generating artifacts, as well as an artificial "discovery assistant" (called Holmes) for the artifact-discovery process. Holmes incrementally learns a hierarchy of modular representations to characterize divergent sources of diversity and uses a goal-based intrinsically-motivated exploration as the diversity search strategy.
翻訳日:2023-12-04 15:06:10 公開日:2023-12-01
# 超次元計算を用いた二元化画像の符号化フレームワーク

An Encoding Framework for Binarized Images using HyperDimensional Computing ( http://arxiv.org/abs/2312.00454v1 )

ライセンス: Link先を確認
Laura Smets, Werner Van Leekwijck, Ing Jyh Tsang, and Steven Latr\'e(参考訳) hyperdimensional computing (hdc) は脳に触発され軽量な機械学習手法である。 文学において、モノのウェアラブルインターネット、ほぼセンサーに近い人工知能アプリケーション、デバイス上の処理に適用される候補として、大きな注目を集めている。 HDCは従来のディープラーニングアルゴリズムほど複雑ではなく、典型的には中等度から良質な分類性能を達成する。 HDCの性能を決定する重要な側面は、入力データの超次元(HD)空間への符号化である。 本稿では,特徴点選択と局所線形写像を用いて,近傍のパターンの類似性を保ったバイナライズされた画像を符号化する,ネイティブHD演算ベクトル演算のみに依存する,新しい軽量なアプローチを提案する。 この方法は、mnistデータセットのテストセットで97.35%、 fashion-mnistデータセットで84.12%の精度に達する。 これらの結果は、異なるエンコーディングアプローチを持つベースラインHDCを用いた他の研究よりも優れており、より複雑なハイブリッドHDCモデルと同等である。 提案手法は,ベースライン符号化に比べてノイズやボケに対して高いロバスト性を示す。

Hyperdimensional Computing (HDC) is a brain-inspired and light-weight machine learning method. It has received significant attention in the literature as a candidate to be applied in the wearable internet of things, near-sensor artificial intelligence applications and on-device processing. HDC is computationally less complex than traditional deep learning algorithms and typically achieves moderate to good classification performance. A key aspect that determines the performance of HDC is the encoding of the input data to the hyperdimensional (HD) space. This article proposes a novel light-weight approach relying only on native HD arithmetic vector operations to encode binarized images that preserves similarity of patterns at nearby locations by using point of interest selection and local linear mapping. The method reaches an accuracy of 97.35% on the test set for the MNIST data set and 84.12% for the Fashion-MNIST data set. These results outperform other studies using baseline HDC with different encoding approaches and are on par with more complex hybrid HDC models. The proposed encoding approach also demonstrates a higher robustness to noise and blur compared to the baseline encoding.
翻訳日:2023-12-04 15:05:39 公開日:2023-12-01
# ターゲットプロンプトと視覚コヒーレンスによる画像分割の一般化に向けて

Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence ( http://arxiv.org/abs/2312.00452v1 )

ライセンス: Link先を確認
Yajie Liu, Pu Ge, Haoxiang Ma, Shichao Fan, Qingjie Liu, Di Huang, Yunhong Wang(参考訳) Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。 圧倒的な進歩にもかかわらず、現在のアプローチが様々なテキスト表現や見えない視覚的実体を持つケースでうまく機能することは依然として困難であり、さらなる適用を制限している。 本稿では,上記の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRIS手法を提案する。 特に、制約のないテキストを扱うために、表現を統一した文脈で補完する明示的かつ決定的なプロンプトによって所定の表現を増加させることを提案し、言語的スタイル変化の存在下でのターゲットキャプチャを容易にする。 さらに,空間的関係と画素コヒーレンスを利用して不完全なターゲットマスクや不完全な不規則な不規則な不規則なクランプを扱うために,強力な事前学習モデルから視覚誘導を施したマルチモーダル融合凝集モジュールを導入する。 ゼロショットのクロスデータセット設定で広範囲な実験を行い,提案手法は,refcoco,refcoco+,refertの4.15\%,5.45\%,4.64\%miou増加など,最先端の手法と比較し,その効果を実証した。 さらに、GraspNet-RISの結果は、我々のアプローチが大きなドメインシフトを持つ新しいシナリオにもうまく適用可能であることを示している。

Referring image segmentation (RIS) aims to segment objects in an image conditioning on free-from text descriptions. Despite the overwhelming progress, it still remains challenging for current approaches to perform well on cases with various text expressions or with unseen visual entities, limiting its further application. In this paper, we present a novel RIS approach, which substantially improves the generalization ability by addressing the two dilemmas mentioned above. Specially, to deal with unconstrained texts, we propose to boost a given expression with an explicit and crucial prompt, which complements the expression in a unified context, facilitating target capturing in the presence of linguistic style changes. Furthermore, we introduce a multi-modal fusion aggregation module with visual guidance from a powerful pretrained model to leverage spatial relations and pixel coherences to handle the incomplete target masks and false positive irregular clumps which often appear on unseen visual entities. Extensive experiments are conducted in the zero-shot cross-dataset settings and the proposed approach achieves consistent gains compared to the state-of-the-art, e.g., 4.15\%, 5.45\%, and 4.64\% mIoU increase on RefCOCO, RefCOCO+ and ReferIt respectively, demonstrating its effectiveness. Additionally, the results on GraspNet-RIS show that our approach also generalizes well to new scenarios with large domain shifts.
翻訳日:2023-12-04 15:05:22 公開日:2023-12-01
# FSGS:ガウススプラッティングを用いた実時間Few-shotビュー合成

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting ( http://arxiv.org/abs/2312.00451v1 )

ライセンス: Link先を確認
Zehao Zhu, Zhiwen Fan, Yifan Jiang, Zhangyang Wang(参考訳) 限られた観測からの新しい視点合成は依然として重要かつ永続的な課題である。 しかし、既存のNeRFベースの小ショットビュー合成の高効率性はしばしば、正確な3D表現を得るために妥協される。 この課題に対処するため,我々は3次元ガウス型スプレーティングをベースとし,最大3次元のトレーニングビューでリアルタイムかつフォトリアリスティックなビュー合成を実現する,数ショットのビュー合成フレームワークを提案する。 提案手法はFSGSと呼ばれ,極端に疎い初期化SfM点を思慮深く設計したガウスアンアンプールプロセスで処理する。 提案手法は,新しいガウス群を最も代表的な場所周辺に反復的に分布させ,その後,空き領域に局所的な詳細情報を埋め込む。 また,gaussian最適化プロセスにおいて,事前学習された大規模単眼深度推定器を統合し,オンライン拡張ビューを利用して最適解への幾何最適化を導く。 限られた入力視点から見る疎点から, fsg は, シーンを包括的にカバーし, ノベルビューのレンダリング品質を高めることにより, 未熟な領域に正確に成長することができる。 全体として、FSGSはLLFF、Mip-NeRF360、Blenderなど、さまざまなデータセットの精度とレンダリング効率の両方で最先端のパフォーマンスを実現している。 プロジェクトサイト: https://zehaozhu.github.io/FSGS/。

Novel view synthesis from limited observations remains an important and persistent task. However, high efficiency in existing NeRF-based few-shot view synthesis is often compromised to obtain an accurate 3D representation. To address this challenge, we propose a few-shot view synthesis framework based on 3D Gaussian Splatting that enables real-time and photo-realistic view synthesis with as few as three training views. The proposed method, dubbed FSGS, handles the extremely sparse initialized SfM points with a thoughtfully designed Gaussian Unpooling process. Our method iteratively distributes new Gaussians around the most representative locations, subsequently infilling local details in vacant areas. We also integrate a large-scale pre-trained monocular depth estimator within the Gaussians optimization process, leveraging online augmented views to guide the geometric optimization towards an optimal solution. Starting from sparse points observed from limited input viewpoints, our FSGS can accurately grow into unseen regions, comprehensively covering the scene and boosting the rendering quality of novel views. Overall, FSGS achieves state-of-the-art performance in both accuracy and rendering efficiency across diverse datasets, including LLFF, Mip-NeRF360, and Blender. Project website: https://zehaozhu.github.io/FSGS/.
翻訳日:2023-12-04 15:04:54 公開日:2023-12-01
# Dolphins: 運転のためのマルチモーダル言語モデル

Dolphins: Multimodal Language Model for Driving ( http://arxiv.org/abs/2312.00438v1 )

ライセンス: Link先を確認
Yingzi Ma, Yulong Cao, Jiachen Sun, Marco Pavone, Chaowei Xiao(参考訳) 人間のような理解と応答性で複雑な現実のシナリオをナビゲートできる完全自動運転車(AV)の探索。 本稿では,対話型運転アシスタントとしての人間的能力の付与を目的とした視覚言語モデルであるイルカについて紹介する。 ドルフィンは、ビデオ(または画像)データ、テキスト命令、履歴制御信号からなるマルチモーダル入力を処理し、提供された命令に対応するインフォメーション出力を生成する。 オープンソースでトレーニング済みのビジョン言語モデルopenflamingoに基づいて、我々はまず、革新的な着地的思考連鎖(gcot)プロセスを通じてイルカの推論能力を高める。 そこでDolphinsを駆動領域に調整し、駆動固有の命令データを構築し、命令チューニングを行う。 BDD-Xデータセットの利用を通じて、4つの異なるAVタスクをDolphinsに統合し、複雑な運転シナリオの全体的理解を促進するようにしました。 その結果,Dolphinsの特徴は,(1)複雑で長い時間を要するオープンワールドの運転シナリオを包括的に理解し,AVタスクのスペクトルを解く能力,(2)文脈内学習による勾配のない即時適応やリフレクションによるエラーリカバリを含む人間のような能力の出現,の2つの次元に特徴付けられる。

The quest for fully autonomous vehicles (AVs) capable of navigating complex real-world scenarios with human-like understanding and responsiveness. In this paper, we introduce Dolphins, a novel vision-language model architected to imbibe human-like abilities as a conversational driving assistant. Dolphins is adept at processing multimodal inputs comprising video (or image) data, text instructions, and historical control signals to generate informed outputs corresponding to the provided instructions. Building upon the open-sourced pretrained Vision-Language Model, OpenFlamingo, we first enhance Dolphins's reasoning capabilities through an innovative Grounded Chain of Thought (GCoT) process. Then we tailored Dolphins to the driving domain by constructing driving-specific instruction data and conducting instruction tuning. Through the utilization of the BDD-X dataset, we designed and consolidated four distinct AV tasks into Dolphins to foster a holistic understanding of intricate driving scenarios. As a result, the distinctive features of Dolphins are characterized into two dimensions: (1) the ability to provide a comprehensive understanding of complex and long-tailed open-world driving scenarios and solve a spectrum of AV tasks, and (2) the emergence of human-like capabilities including gradient-free instant adaptation via in-context learning and error recovery via reflection.
翻訳日:2023-12-04 15:04:31 公開日:2023-12-01
# ニューラルモデルによる画像キャプションの強化

Enhancing Image Captioning with Neural Models ( http://arxiv.org/abs/2312.00435v1 )

ライセンス: Link先を確認
Pooja Bhatnagar, Sai Mrunaal, Sachin Kamnure(参考訳) 本研究では,ディープラーニングモデルを用いたニューラルイメージキャプションの領域を探索する。 本研究は,インジェクションアーキテクチャに着目し,異なるニューラルネットワークの構成の性能を調査し,キャプション生成を評価するための新しい品質指標を提案する。 広範な実験と分析を通じて、この研究は、画像キャプションにおける課題と機会を明らかにし、モデルの振る舞いと過剰フィットに関する洞察を提供する。 その結果、マージモデルはより大きな語彙と高いルージュスコアを示すが、インジェクションアーキテクチャは関連があり簡潔な画像キャプションを生成する。 この研究は、トレーニングデータの改良とハイパーパラメータの最適化の重要性も強調している。 この研究は、ニューラルイメージキャプションにおける知識の増大に寄与し、人工知能の民主化を強調し、この分野のさらなる探索を促進する。

This research explores the realm of neural image captioning using deep learning models. The study investigates the performance of different neural architecture configurations, focusing on the inject architecture, and proposes a novel quality metric for evaluating caption generation. Through extensive experimentation and analysis, this work sheds light on the challenges and opportunities in image captioning, providing insights into model behavior and overfitting. The results reveal that while the merge models exhibit a larger vocabulary and higher ROUGE scores, the inject architecture generates relevant and concise image captions. The study also highlights the importance of refining training data and optimizing hyperparameters for improved model performance. This research contributes to the growing body of knowledge in neural image captioning and encourages further exploration in the field, emphasizing the democratization of artificial intelligence.
翻訳日:2023-12-04 15:04:03 公開日:2023-12-01
# 余剰空洞による単一光子ルータの制御

Control of a single-photon router via an extra cavity ( http://arxiv.org/abs/2312.00531v1 )

ライセンス: Link先を確認
Yike Luo, Ya Yang, Jing Lu and Lan Zhou(参考訳) 制御可能な単一光子ルーティングは量子ネットワークにおいて重要な役割を果たす。 カスケード構成の3レベルエミッタによる2つの1次元(1D)導波路の単一光子散乱を,余剰共振器に結合した双極子として検討した。 単一光子の伝達のためのトンネル経路は、余剰キャビティが光子を含むかどうかによって切り替えられる。 この設定では、オートラー・タウンズ分割は余剰空洞によって変調され、余剰空洞内の光子数の観点から伝達谷(反射範囲)幅が調整可能である。 量子ネットワークにおける量子化可能な光子数を用いた単一光子経路の研究は有益である。

Controllable single-photon routing plays an important role in quantum networks. We investigate single-photon scattering in two one-dimensional (1D) waveguides by a three-level emitter with a cascade configuration, which is a dipole coupled to an extra cavity. The tunneling path for the transmission of a single photon is switched by whether the extra cavity contains photons. For the setup, the Autler-Townes splitting is modulated by the extra cavity, in which the transmission valley (reflection range) width is tunable in terms of the number of photons in the extra cavity. Our investigation will be beneficial to single-photon routing in quantum networks using quantifiable photon numbers in an extra cavity.
翻訳日:2023-12-04 14:57:51 公開日:2023-12-01
# アルゴリズムによる糖尿病網膜症診断への応用

Algorithm-based diagnostic application for diabetic retinopathy detection ( http://arxiv.org/abs/2312.00529v1 )

ライセンス: Link先を確認
Agnieszka Cisek, Karolina Korycinska, Leszek Pyziak, Marzena Malicka, Tomasz Wiecek, Grzegorz Gruzel, Kamil Szmuc, Jozef Cebulski, Mariusz Spyra(参考訳) 糖尿病網膜症(dr)は世界中の健康問題であり、特に20-65歳の労働者において視覚障害と盲目の主な原因となっている。 糖尿病患者数の増加とともに増加しており、先進国では発展途上国よりも一般的である。 糖尿病網膜症の診断分野における最近の研究は、眼科検査で得られた画像の解析などの高度な技術を用いている。 ニューラルネットワーク、ディープラーニング、画像解析アルゴリズムに基づく眼画像の自動解析手法は、診断の効率を向上させることができる。 本稿では,眼球鏡画像の処理と解析を含む自動DR診断法について述べる。 形態学的アルゴリズムを用いて、微小動脈瘤、出血、排出などのDRの特徴のある光学ディスクと病変を識別する。 DR自動診断は、この疾患の早期発見の効率を向上し、糖尿病関連視覚障害の患者数を減少させる可能性がある。 最後のステップは、眼科手術室で撮影された網膜画像をサーバにアップロードするグラフィカルなユーザーインターフェイスを持つアプリケーションを作ることだった。 これらの画像は、開発したアルゴリズムを用いて分析され、診断された。

Diabetic retinopathy (DR) is a growing health problem worldwide and is a leading cause of visual impairment and blindness, especially among working people aged 20-65. Its incidence is increasing along with the number of diabetes cases, and it is more common in developed countries than in developing countries. Recent research in the field of diabetic retinopathy diagnosis is using advanced technologies, such as analysis of images obtained by ophthalmoscopy. Automatic methods for analyzing eye images based on neural networks, deep learning and image analysis algorithms can improve the efficiency of diagnosis. This paper describes an automatic DR diagnosis method that includes processing and analysis of ophthalmoscopic images of the eye. It uses morphological algorithms to identify the optic disc and lesions characteristic of DR, such as microaneurysms, hemorrhages and exudates. Automated DR diagnosis has the potential to improve the efficiency of early detection of this disease and contribute to reducing the number of cases of diabetes-related visual impairment. The final step was to create an application with a graphical user interface that allowed retinal images taken at cooperating ophthalmology offices to be uploaded to the server. These images were then analyzed using a developed algorithm to make a diagnosis.
翻訳日:2023-12-04 14:57:39 公開日:2023-12-01
# 品質評価共有タスクへのsurreyai 2023の提出

SurreyAI 2023 Submission for the Quality Estimation Shared Task ( http://arxiv.org/abs/2312.00525v1 )

ライセンス: Link先を確認
Archchana Sindhujan, Diptesh Kanojia, Constantin Orasan, Tharindu Ranasinghe(参考訳) 品質評価(QE)システムは翻訳の質を評価するために必要な状況において重要であるが、参照はできない。 本稿では,SurreyAIチームがWMT23におけるSentence-Level Direct Assessment共有タスクに対して採用したアプローチについて述べる。 提案したアプローチはTransQuestフレームワークに基づいており、単一およびアンサンブル設定を使用してMonoTransQuestアーキテクチャ内で、さまざまなオートエンコーダで事前訓練された言語モデルを探索する。 提案システムでは,XLMV,InfoXLM-large,XLMR-largeが事前訓練された言語モデルである。 この評価はスピアマンとピアソンの相関係数を用いて,5言語対(英語-Gujarati,英語-Hindi,英語-Marathi,英語-Tamil,英語-Telugu)の機械予測品質スコアと人的判断の関係を評価する。 MonoTQ-InfoXLM-largeアプローチはロバストな戦略として現れ、この研究で提案された他のすべての個別モデルよりも、言語ペアの大部分のベースラインを大幅に改善する。

Quality Estimation (QE) systems are important in situations where it is necessary to assess the quality of translations, but there is no reference available. This paper describes the approach adopted by the SurreyAI team for addressing the Sentence-Level Direct Assessment shared task in WMT23. The proposed approach builds upon the TransQuest framework, exploring various autoencoder pre-trained language models within the MonoTransQuest architecture using single and ensemble settings. The autoencoder pre-trained language models employed in the proposed systems are XLMV, InfoXLM-large, and XLMR-large. The evaluation utilizes Spearman and Pearson correlation coefficients, assessing the relationship between machine-predicted quality scores and human judgments for 5 language pairs (English-Gujarati, English-Hindi, English-Marathi, English-Tamil and English-Telugu). The MonoTQ-InfoXLM-large approach emerges as a robust strategy, surpassing all other individual models proposed in this study by significantly improving over the baseline for the majority of the language pairs.
翻訳日:2023-12-04 14:57:20 公開日:2023-12-01
# モビリティ・アズ・ア・サービスシステムの利用意欲に及ぼすプライバシとセキュリティ意識と旅行者の懸念の影響

The Impact of Privacy and Security Attitudes and Concerns of Travellers on Their Willingness to Use Mobility-as-a-Service Systems ( http://arxiv.org/abs/2312.00519v1 )

ライセンス: Link先を確認
Maria Sophia Heering, Haiyue Yuan, Shujun Li(参考訳) 本稿では,旅行者のプライバシとセキュリティに対する態度が,モビリティ・アズ・ア・サービス(MaaS)システムの利用意欲に与える影響に関するオンライン調査の結果を報告する。 この研究は、MaaS獲得の可能性に対する障壁の調査を目的とした、より大きなプロジェクトの一部である。 このオンライン調査は、データプライバシとセキュリティの姿勢と懸念、および旅行者がMaaSシステムを使用する意図に関連付けられた様々な社会心理学的・社会デコグラフィー変数をカバーするように設計されている。 この調査には、多作な調査プラットフォームを通じてリクルートされた英国の参加者が320ドルだった。 全体としては、相関分析と多重回帰モデルにより、個人データのプライバシーとセキュリティに対する参加者の態度や懸念は、予期せぬ結果となったMaaSシステムの使用の決定に大きく影響しないことが示された。 もう一つの驚くべき結果として、プライバシーの不正侵入の犠牲者であったことは、個人がMaaSシステムを使用する意図に影響していないように見えるが、個人データの誤用について聞いた頻度はあった。 結果と今後の方向性についても議論されており、例えば、maasプロバイダは企業イメージの信頼性向上に取り組むことが推奨されている。

This paper reports results from an online survey on the impact of travellers' privacy and security attitudes and concerns on their willingness to use mobility-as-a-service (MaaS) systems. This study is part of a larger project that aims at investigating barriers to potential MaaS uptake. The online survey was designed to cover data privacy and security attitudes and concerns as well as a variety of socio-psychological and socio-demographic variables associated with travellers' intentions to use MaaS systems. The study involved $n=320$ UK participants recruited via the Prolific survey platform. Overall, correlation analysis and a multiple regression model indicated that, neither attitudes nor concerns of participants over the privacy and security of personal data would significantly impact their decisions to use MaaS systems, which was an unexpected result, however, their trust in (commercial and governmental) websites would. Another surprising result is that, having been a victim of improper invasion of privacy did not appear to affect individuals' intentions to use MaaS systems, whereas frequency with which one heard about misuse of personal data did. Implications of the results and future directions are also discussed, e.g., MaaS providers are encouraged to work on improving the trustworthiness of their corporate image.
翻訳日:2023-12-04 14:56:57 公開日:2023-12-01
# 交通予測のための時空間分離マスク事前学習

Spatio-Temporal-Decoupled Masked Pre-training for Traffic Forecasting ( http://arxiv.org/abs/2312.00516v1 )

ライセンス: Link先を確認
Haotian Gao, Renhe Jiang, Zheng Dong, Jinliang Deng, Xuan Song(参考訳) 多変量トラヒックフロー時系列の正確な予測は、時空間的不均一性と複雑な長距離相関パターンのため、依然として困難である。 そこで,本稿では,仮学習による複雑な時空間依存性の学習とエンコードを行うための,マスク付きオートエンコーダを用いた新しいフレームワークであるstd-maeを提案する。 具体的には,2つの分離マスクオートエンコーダを用いて,自己教師付き事前学習手法を用いて,空間的および時間的軸に沿ったトラヒックデータを再構成する。 これらのマスク再構成機構は、空間と時間の長距離相関を別々に捉える。 学習した隠れ表現は、下流の時空間トラフィック予測器を強化するために使用される。 広範に使用されている4つの交通ベンチマーク (PEMS03, PEMS04, PEMS07, PEMS08) の定量的, 定性的な評価を行い, STD-MAE は長時間の空間的および時間的パターンを捕捉する下流時空間モデルの性能を明示的に向上させる。 コードはhttps://github.com/jimmy-7664/std_maeで入手できる。

Accurate forecasting of multivariate traffic flow time series remains challenging due to substantial spatio-temporal heterogeneity and complex long-range correlative patterns. To address this, we propose Spatio-Temporal-Decoupled Masked Pre-training (STD-MAE), a novel framework that employs masked autoencoders to learn and encode complex spatio-temporal dependencies via pre-training. Specifically, we use two decoupled masked autoencoders to reconstruct the traffic data along spatial and temporal axes using a self-supervised pre-training approach. These mask reconstruction mechanisms capture the long-range correlations in space and time separately. The learned hidden representations are then used to augment the downstream spatio-temporal traffic predictor. A series of quantitative and qualitative evaluations on four widely-used traffic benchmarks (PEMS03, PEMS04, PEMS07, and PEMS08) are conducted to verify the state-of-the-art performance, with STD-MAE explicitly enhancing the downstream spatio-temporal models' ability to capture long-range intricate spatial and temporal patterns. Codes are available at https://github.com/Jimmy-7664/STD_MAE.
翻訳日:2023-12-04 14:56:36 公開日:2023-12-01
# 文書分類のための要約に基づくデータ拡張

Summarization-based Data Augmentation for Document Classification ( http://arxiv.org/abs/2312.00513v1 )

ライセンス: Link先を確認
Yueguan Wang and Naoki Yoshinaga(参考訳) 自然言語理解タスクにおける事前学習言語モデルの普及にもかかわらず、データスパース性の問題のため、文書などの長文の理解は依然として困難である。 人間が短いテキストを読むことで長いテキストを理解する能力に着想を得て,文書分類のための簡易かつ効果的な要約ベースのデータ拡張法であるsummaugを提案する。 まず,最初の学習例の入力を要約し,その要約した入力に合致する原ラベルを任意にマージすることにより,対象文書分類タスクの分かり易い例を得る。 次に,生成された擬似例を用いてカリキュラム学習を行う。 2つのデータセットによる実験結果から, 従来のベースライン法と比較して, 頑健性と精度の点で優位性が確認された。 コードとデータはhttps://github.com/etsurin/summaug.com/でリリースします。

Despite the prevalence of pretrained language models in natural language understanding tasks, understanding lengthy text such as document is still challenging due to the data sparseness problem. Inspired by that humans develop their ability of understanding lengthy text from reading shorter text, we propose a simple yet effective summarization-based data augmentation, SUMMaug, for document classification. We first obtain easy-to-learn examples for the target document classification task by summarizing the input of the original training examples, while optionally merging the original labels to conform to the summarized input. We then use the generated pseudo examples to perform curriculum learning. Experimental results on two datasets confirmed the advantage of our method compared to existing baseline methods in terms of robustness and accuracy. We release our code and data at https://github.com/etsurin/summaug.
翻訳日:2023-12-04 14:56:13 公開日:2023-12-01
# 未知の一般介入によるベイズ因果発見

Bayesian causal discovery from unknown general interventions ( http://arxiv.org/abs/2312.00509v1 )

ライセンス: Link先を確認
Alessandro Mascaro and Federico Castelletti(参考訳) 本稿では,観測データと介入実験データを組み合わせたDAG(Cousal Directed Acyclic Graphs)の学習問題について考察する。 現在の手法では、介入対象が不明であっても、介入対象ノードの親子関係を破壊するか、親セットを変更することなくその関係を変更するかのどちらかを想定している。 一般介入による因果発見のためのベイズ法を提案し、未知のターゲットの親集合の修正を可能にすることにより、この仮定を緩和する。 この枠組みでさえ、DAGと一般的な介入は、いくつかの等価クラスまでしか特定できない。 このような介入的マルコフ同値のグラフィカルな特徴と、区別不能な構造のスコア同値を保証するベイズ推論の適合性を持つ先行項を考案する。 そこで我々は,DAG,介入対象,誘導親集合上の後部分布を近似するマルコフ連鎖モンテカルロ法(MCMC)を開発した。 最後に,本手法をシミュレーションおよび実際のタンパク質発現データから評価する。

We consider the problem of learning causal Directed Acyclic Graphs (DAGs) using combinations of observational and interventional experimental data. Current methods tailored to this setting assume that interventions either destroy parent-child relations of the intervened (target) nodes or only alter such relations without modifying the parent sets, even when the intervention targets are unknown. We relax this assumption by proposing a Bayesian method for causal discovery from general interventions, which allow for modifications of the parent sets of the unknown targets. Even in this framework, DAGs and general interventions may be identifiable only up to some equivalence classes. We provide graphical characterizations of such interventional Markov equivalence and devise compatible priors for Bayesian inference that guarantee score equivalence of indistinguishable structures. We then develop a Markov Chain Monte Carlo (MCMC) scheme to approximate the posterior distribution over DAGs, intervention targets and induced parent sets. Finally, we evaluate the proposed methodology on both simulated and real protein expression data.
翻訳日:2023-12-04 14:56:00 公開日:2023-12-01
# vexir2vec:バイナリ類似性のためのアーキテクチャ中立組込みフレームワーク

VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity ( http://arxiv.org/abs/2312.00507v1 )

ライセンス: Link先を確認
S. VenkataKeerthy, Yashas Andaluri, Sayan Dey, Soumya Banerjee, Ramakrishna Upadrasta(参考訳) VEXIR2Vecは、バイナリで同様の関数を見つけるためのコード埋め込みフレームワークである。 我々の表現は、ValgrindやAngrといったバイナリ分析ツールが使用している中間表現であるVEX IRに依存しています。 提案する埋め込みは,関数を表現するための構文情報と意味情報の両方をエンコードし,アプリケーションとアーキテクチャに依存しない。 また,実効的な類似性解析のためにVEX IRを正規化する独自のピープホール最適化エンジンPOVを提案する。 我々は,コピー/コンスタント伝搬,定数折り畳み,共通部分表現除去,ロードストア除去などの最適化をPOVで設計する。 異なるアーキテクチャをターゲットとしたバイナリの実行,異なるコンパイラとバージョンによるコンパイル,最適化シーケンス,難読化という2つの実験で,フレームワークを評価した。 いくつかの標準プロジェクトや実世界の脆弱性について結果を示します。 以上の結果から,VEXIR2Vecは最先端技術よりも精度とリコール値が優れていることがわかった。 当社のフレームワークは非常にスケーラブルで,オープンソースツールのみを使用してマルチスレッド並列ライブラリとして構築されています。 VEXIR2Vecは、最も近い競合製品で約3.2 \times$のスピードアップを達成し、他のツールでオーダー・オブ・マグニチュード・スピードアップを行う。

We propose VEXIR2Vec, a code embedding framework for finding similar functions in binaries. Our representations rely on VEX IR, the intermediate representation used by binary analysis tools like Valgrind and angr. Our proposed embeddings encode both syntactic and semantic information to represent a function, and is both application and architecture independent. We also propose POV, a custom Peephole Optimization engine that normalizes the VEX IR for effective similarity analysis. We design several optimizations like copy/constant propagation, constant folding, common subexpression elimination and load-store elimination in POV. We evaluate our framework on two experiments -- diffing and searching -- involving binaries targeting different architectures, compiled using different compilers and versions, optimization sequences, and obfuscations. We show results on several standard projects and on real-world vulnerabilities. Our results show that VEXIR2Vec achieves superior precision and recall values compared to the state-of-the-art works. Our framework is highly scalable and is built as a multi-threaded, parallel library by only using open-source tools. VEXIR2Vec achieves about $3.2 \times$ speedup on the closest competitor, and orders-of-magnitude speedup on other tools.
翻訳日:2023-12-04 14:55:44 公開日:2023-12-01
# 創造的人工知能は個人の創造性を高めるが、新しいコンテンツの集団的多様性を減少させる

Generative artificial intelligence enhances individual creativity but reduces the collective diversity of novel content ( http://arxiv.org/abs/2312.00506v1 )

ライセンス: Link先を確認
Anil R. Doshi and Oliver P. Hauser(参考訳) 創造性は人間性の中核である。 生成人工知能(GenAI)は、新しいアイデアを提供することによって人間がより創造的になることを約束する。 我々は,GenAIのアイデアが非構造的創造的アウトプットの生成に与える影響を,一部の著者がGenAIプラットフォームからストーリーのアイデアを入手できるオンライン実験で調査した。 GenAIのアイデアへのアクセスは、特に創造的でない作家の間で、ストーリーをより創造的で、より書きやすく、より楽しいものと評価させる。 しかし、それぞれの条件における物語の類似性の客観的な尺度から、ジェナイ対応の物語は人間単独の物語よりも互いに類似していることが分かる。 これらの結果は、個人の創造性の向上を示唆するが、同時に集団的ノベルティを失うリスクも伴う。これは、個々の作家が自分達の著作を改善するためにGenAIを使う方がよいという社会的ジレンマに似ているが、総じて斬新な内容の狭い範囲がGenAIで生み出される可能性がある。 私たちの結果は、創造性を高めることに関心がある研究者、政策立案者、実践者にとって意味があります。

Creativity is core to being human. Generative artificial intelligence (GenAI) holds promise for humans to be more creative by offering new ideas, or less creative by anchoring on GenAI ideas. We study the causal impact of GenAI ideas on the production of an unstructured creative output in an online experimental study where some writers could obtain ideas for a story from a GenAI platform. We find that access to GenAI ideas causes stories to be evaluated as more creative, better written and more enjoyable, especially among less creative writers. However, objective measures of story similarity within each condition reveal that GenAI-enabled stories are more similar to each other than stories by humans alone. These results point to an increase in individual creativity, but at the same time there is a risk of losing collective novelty: this dynamic resembles a social dilemma where individual writers are better off using GenAI to improve their own writing, but collectively a narrower scope of novel content may be produced with GenAI. Our results have implications for researchers, policy-makers and practitioners interested in bolstering creativity, but point to potential downstream consequences from over-reliance.
翻訳日:2023-12-04 14:55:23 公開日:2023-12-01
# 心電図信号に対する自己教師付き表現学習の外部分布ロバスト性について

On the Out-Of-Distribution Robustness of Self-Supervised Representation Learning for Phonocardiogram Signals ( http://arxiv.org/abs/2312.00502v1 )

ライセンス: Link先を確認
Aristotelis Ballas, Vasileios Papapanagiotou and Christos Diou(参考訳) 目的:最近の研究活動の増加にもかかわらず,深層学習モデルはまだ広く医学的に受け入れられていない。 高品質な注釈付きデータの不足は、新しく収集されたout-of-distribution(ood)データセットで提示された場合の効率が低下しない、堅牢で一般化可能なモデルの開発を妨げることが多い。 方法: 対照的な自己教師付き学習(ssl)は、ラベルのないデータを利用してモデルの有効性と堅牢性を高めるため、ラベル付きデータの不足に対する潜在的な解決策を提供する。 本研究では,信号の一般化表現を学習することにより,心電図(PCG)の異常を検出するためのコントラストSSLを提案する。 具体的には、幅広いオーディオベース拡張の広範な比較評価を行い、異なる下流タスクにまたがる複数のデータセット上で訓練された分類器の評価を行う。 結果: トレーニング分布によっては, 完全教師付きモデルの有効性は, 未確認データで評価すると最大32%低下し, SSLモデルは最大10%低下し, 場合によっては改善される。 結論: 対照的にSSL事前トレーニングは、医療専門家による時間的および労働集約的なアノテーションプロセスに頼ることなく、見えないOODデータに一般化可能な堅牢な分類器の提供を支援することができる。 さらに、提案プロトコルは、堅牢なPCG信号処理のための最も有望かつ適切な拡張に光を当てる。 意義:新しいアプローチを開発するためのオープンソースコードベースに加えて,PCG分類のための堅牢なモデルを作成するためのロードマップを提供する。

Objective: Despite the recent increase in research activity, deep-learning models have not yet been widely accepted in medicine. The shortage of high-quality annotated data often hinders the development of robust and generalizable models, which do not suffer from degraded effectiveness when presented with newly-collected, out-of-distribution (OOD) datasets. Methods: Contrastive Self-Supervised Learning (SSL) offers a potential solution to the scarcity of labeled data as it takes advantage of unlabeled data to increase model effectiveness and robustness. In this research, we propose applying contrastive SSL for detecting abnormalities in phonocardiogram (PCG) samples by learning a generalized representation of the signal. Specifically, we perform an extensive comparative evaluation of a wide range of audio-based augmentations and evaluate trained classifiers on multiple datasets across different downstream tasks. Results: We experimentally demonstrate that, depending on its training distribution, the effectiveness of a fully-supervised model can degrade up to 32% when evaluated on unseen data, while SSL models only lose up to 10% or even improve in some cases. Conclusions: Contrastive SSL pretraining can assist in providing robust classifiers which can generalize to unseen, OOD data, without relying on time- and labor-intensive annotation processes by medical experts. Furthermore, the proposed extensive evaluation protocol sheds light on the most promising and appropriate augmentations for robust PCG signal processing. Significance: We provide researchers and practitioners with a roadmap towards producing robust models for PCG classification, in addition to an open-source codebase for developing novel approaches.
翻訳日:2023-12-04 14:54:58 公開日:2023-12-01
# グローバルローカライゼーション : 隣接カメラと遠距離カメラからの相対時空間幾何学的制約の利用

Global Localization: Utilizing Relative Spatio-Temporal Geometric Constraints from Adjacent and Distant Cameras ( http://arxiv.org/abs/2312.00500v1 )

ライセンス: Link先を確認
Mohammad Altillawi, Zador Pataki, Shile Li and Ziyuan Liu(参考訳) 以前マップされた領域の1つの画像からカメラを再ローカライズすることは、ロボット工学や拡張現実/バーチャルリアリティーにおける多くのコンピュータビジョンアプリケーションにとって不可欠である。 本研究では,単一の画像からグローバルフレームに対して6自由度カメラのポーズを推定する問題に対処する。 本稿では,局所化のための深層ネットワークの訓練を導くために,空間的および時間的制約の相対的ネットワークを活用することを提案する。 我々は,隣接するカメラフレームだけでなく,シーンの時空間において遠方にあるカメラフレームから得られる空間的および時間的相対的なポーズ制約を同時に採用する。 提案手法は,これらの制約により,比較的少ないあるいは少ない地上3次元座標が利用できる場合に,局所化を学習できることを示す。 実験では、これは利用可能な地平データの1%以下である。 本手法を3つの共通視定位データセット上で評価し,他の直接姿勢推定法よりも優れていることを示す。

Re-localizing a camera from a single image in a previously mapped area is vital for many computer vision applications in robotics and augmented/virtual reality. In this work, we address the problem of estimating the 6 DoF camera pose relative to a global frame from a single image. We propose to leverage a novel network of relative spatial and temporal geometric constraints to guide the training of a Deep Network for localization. We employ simultaneously spatial and temporal relative pose constraints that are obtained not only from adjacent camera frames but also from camera frames that are distant in the spatio-temporal space of the scene. We show that our method, through these constraints, is capable of learning to localize when little or very sparse ground-truth 3D coordinates are available. In our experiments, this is less than 1% of available ground-truth data. We evaluate our method on 3 common visual localization datasets and show that it outperforms other direct pose estimation methods.
翻訳日:2023-12-04 14:54:33 公開日:2023-12-01
# 対称多ビット状態に対する絶対分離性証人

Absolute separability witnesses for symmetric multiqubit states ( http://arxiv.org/abs/2312.00497v1 )

ライセンス: Link先を確認
Eduardo Serrano-Ens\'astiga, J\'er\^ome Denis and John Martin(参考訳) 対称性保存された大域的ユニタリ変換の下でのある種の量子状態の永続的な分離性は、ボゾン系の量子資源の文脈において重要な意味を持つ。 本研究では,任意の量子ビット数のSAS状態を検出するための基準を開発する。 我々のアプローチは、有限次元量子系に対するグラウバー・スダルシャン$P$表現に基づいている。 代数的不等式あるいは二次最適化問題としてそれぞれ定式化された状態$\rho$における線形と2つの非線形のSAS目撃者の3つの族を導入する。 これらの証人は、以前に知られていたものよりも多くのSAS状態を特定することができる。 我々はまた、証人によって検出されたSAS状態の部分集合の幾何学的性質を探求し、それらの区別に光を当てる。

The persistent separability of certain quantum states, known as symmetric absolutely separable (SAS), under symmetry-preserving global unitary transformations is of key significance in the context of quantum resources for bosonic systems. In this work, we develop criteria for detecting SAS states of any number of qubits. Our approach is based on the Glauber-Sudarshan $P$ representation for finite-dimensional quantum systems. We introduce three families of SAS witnesses, one linear and two non-linear in the state $\rho$, formulated respectively as an algebraic inequality or a quadratic optimization problem. These witnesses are capable of identifying more SAS states than previously known counterparts. We also explore the geometric properties of the subsets of SAS states detected by our witnesses, shedding light on their distinctions.
翻訳日:2023-12-04 14:54:16 公開日:2023-12-01
# 断裂とフーリエ基底をもつ局所ダイアバティック表現における非断熱円錐交叉ダイナミクス

Nonadiabatic conical intersection dynamics in the local diabatic representation with Strang splitting and Fourier basis ( http://arxiv.org/abs/2312.00496v1 )

ライセンス: Link先を確認
Bing Gu(参考訳) 本研究では,局所的なダイアバティック表現,全分子プロパゲータのストロング分割,一様格子を用いた離散変数表現を組み合わせた円錐交叉非断熱波パケット動的手法の開発と実装を行う。 局所的なダイアバティック表現を用いることで、非断熱遷移、電子コヒーレンス、幾何学的位相を含む全ての非断熱効果を捉える。 さらに、第1および第2微分結合では特異点が無く、電子波動関数位相の滑らかなゲージを必要としない。 さらに, 断熱的表現とは対照的に, スプリット演算子法は, 局所断熱的アンサッツを用いた全分子プロパゲータに直接適用できることを示した。 原始核基底関数として用いられるフーリエ級数は普遍的であり、あらゆる種類の反応性座標に適用できる。 局所ダイアバティック表現、ストラング分割、フーリエ基底の組み合わせは、標準電子構造計算から得られる断熱電子状態と直接的に円錐交叉量子力学の正確なモデリングを可能にする。

We develop and implement an exact conical intersection nonadiabatic wave packet dynamics method that combines the local diabatic representation, Strang splitting for the total molecular propagator, and discrete variable representation with uniform grids. By employing the local diabatic representation, this method captures all non-adiabatic effects, including nonadiabatic transitions, electronic coherences, and geometric phases. Moreover, it is free of singularities in the first and second derivative couplings, and does not require a smooth gauge of electronic wavefunction phase. We further show that in contrast to the adiabatic representation, the split-operator method can be directly applied to the full molecular propagator with the locally diabatic ansatz. The Fourier series, employed as the primitive nuclear basis functions, is universal and can be applied to all types of reactive coordinates. The combination of local diabatic representation, Strang splitting, and Fourier basis allows exact modeling of conical intersection quantum dynamics directly with adiabatic electronic states that can be obtained from standard electronic structure computations.
翻訳日:2023-12-04 14:54:03 公開日:2023-12-01
# 転写学習法を用いた白血病の診断・予測における説明可能なAI

Explainable AI in Diagnosing and Anticipating Leukemia Using Transfer Learning Method ( http://arxiv.org/abs/2312.00487v1 )

ライセンス: Link先を確認
Wahidul Hasan Abir, Md. Fahim Uddin, Faria Rahman Khanam and Mohammad Monirujjaman Khan(参考訳) 本研究は,小児および10代で流行する急性リンパ芽球性白血病(ALL)に焦点を当て,未熟な白血球(WBC)の急激な増殖を特徴とする。 これらの非定型細胞は健康な細胞を圧倒し、深刻な健康上の結果をもたらす。 ALLの早期かつ正確な検出は、有効治療と生存率の向上に不可欠である。 従来の診断方法は時間がかかり、コストがかかり、エラーを起こしやすい。 本稿では,コンピュータ支援診断(cad)モデルを用いて,白血病診断の精度と効率を高めるために深層学習技術を活用する自動検出手法を提案する。 この研究は、ALLの分類にResNet101V2、VGG19、InceptionV3、InceptionResNetV2といった様々なトランスファー学習モデルを利用している。 この方法論には、AIシステムの予測の妥当性と信頼性を保証するために、ローカル解釈可能なモデル非依存説明(LIME)の使用が含まれる。 このアプローチは、モデルによる決定が不透明で非可算であることが多い、AIの“ブラックボックス”の性質を克服するために重要である。 論文は、InceptionV3モデルを用いた提案手法が98.38%の精度を達成し、他の試験モデルよりも優れていることを強調した。 LIMEアルゴリズムによって検証されたこの結果は、ALを正確に識別するこの手法の可能性を示し、医療従事者にとって貴重なツールを提供する。 この研究は、医療診断における説明可能な人工知能(XAI)の影響を強調し、医療におけるより透明で信頼できるAI応用への道を開いた。

This research paper focuses on Acute Lymphoblastic Leukemia (ALL), a form of blood cancer prevalent in children and teenagers, characterized by the rapid proliferation of immature white blood cells (WBCs). These atypical cells can overwhelm healthy cells, leading to severe health consequences. Early and accurate detection of ALL is vital for effective treatment and improving survival rates. Traditional diagnostic methods are time-consuming, costly, and prone to errors. The paper proposes an automated detection approach using computer-aided diagnostic (CAD) models, leveraging deep learning techniques to enhance the accuracy and efficiency of leukemia diagnosis. The study utilizes various transfer learning models like ResNet101V2, VGG19, InceptionV3, and InceptionResNetV2 for classifying ALL. The methodology includes using the Local Interpretable Model-Agnostic Explanations (LIME) for ensuring the validity and reliability of the AI system's predictions. This approach is critical for overcoming the "black box" nature of AI, where decisions made by models are often opaque and unaccountable. The paper highlights that the proposed method using the InceptionV3 model achieved an impressive 98.38% accuracy, outperforming other tested models. The results, verified by the LIME algorithm, showcase the potential of this method in accurately identifying ALL, providing a valuable tool for medical practitioners. The research underscores the impact of explainable artificial intelligence (XAI) in medical diagnostics, paving the way for more transparent and trustworthy AI applications in healthcare.
翻訳日:2023-12-04 14:53:38 公開日:2023-12-01
# REDUCR: クラス優先度再重み付けを用いたロバストデータダウンサンプリング

REDUCR: Robust Data Downsampling Using Class Priority Reweighting ( http://arxiv.org/abs/2312.00486v1 )

ライセンス: Link先を確認
William Bankes, George Hughes, Ilija Bogunovic and Zi Wang(参考訳) 現代の機械学習モデルは、大規模なWebスケールデータがストリーミング形式で収集される現実世界の画像やテキストの分類タスクのために訓練するコストがますます高まっている。 トレーニングコストを削減するため、最も有用なデータポイントを選択するためにオンラインバッチ選択技術が開発されている。 しかし,これらの手法は,クラス不均衡や分布シフトなどにより,最悪クラスの一般化性能に支障をきたす可能性がある。 本研究は,クラス優先度の再重み付けを用いたロバストで効率的なデータダウンサンプリング手法であるreducrを紹介する。 REDUCRは、最悪のクラス一般化性能を維持しながら、トレーニングデータを削減する。 REDUCRは、オンライン学習アルゴリズムを用いて、クラスを意識した方法でデータポイントに優先度重みを割り当てる。 視覚およびテキスト分類タスクにおけるREDUCRのデータ効率とロバスト性能を実証する。 不均衡なクラス分布を持つウェブスクレイプデータセットでは、REDUCRは最悪のテスト精度(および平均精度)を大幅に改善し、最先端の手法を約15%上回る。

Modern machine learning models are becoming increasingly expensive to train for real-world image and text classification tasks, where massive web-scale data is collected in a streaming fashion. To reduce the training cost, online batch selection techniques have been developed to choose the most informative datapoints. However, these techniques can suffer from poor worst-class generalization performance due to class imbalance and distributional shifts. This work introduces REDUCR, a robust and efficient data downsampling method that uses class priority reweighting. REDUCR reduces the training data while preserving worst-class generalization performance. REDUCR assigns priority weights to datapoints in a class-aware manner using an online learning algorithm. We demonstrate the data efficiency and robust performance of REDUCR on vision and text classification tasks. On web-scraped datasets with imbalanced class distributions, REDUCR significantly improves worst-class test accuracy (and average accuracy), surpassing state-of-the-art methods by around 15%.
翻訳日:2023-12-04 14:52:55 公開日:2023-12-01
# インストラクションチューニングによるヒト脳へのLLMの適応

Instruction-tuning Aligns LLMs to the Human Brain ( http://arxiv.org/abs/2312.00575v1 )

ライセンス: Link先を確認
Khai Loong Aw, Syrielle Montariol, Badr AlKhamissi, Martin Schrimpf, Antoine Bosselut(参考訳) インストラクションチューニング(英: Instruction-tuning)は、大規模言語モデル(LLM)が自然言語クエリに対する人間の反応によく似た出力を生成するための、広く採用されている微調整手法である。 しかし、命令チューニングによって、LLMが人間の言語処理によく似ているかどうかは不明だ。 本研究は,(1)脳アライメント,(2)言語系におけるllm内部表現と神経活動との類似性,(2)行動アライメント,llmの類似性,および人間の行動が読書課題に及ぼす影響について検討した。 自然主義的な物語や文章を読むことを含む3つのデータセットにわたる25のバニラと指導用LLMを評価した。 命令の調整は脳のアライメントを平均6%向上させるが、行動のアライメントに類似した効果は認められない。 LLM-脳アライメントの背景となる要因を明らかにするため,LLMの脳アライメントとモデルサイズ,諸問題解決能力,諸領域にまたがる世界的知識を必要とするタスクの性能など,様々なモデル特性との相関関係を計算した。 特に、脳のアライメントとモデルサイズ(r = 0.95)と世界知識を必要とするタスク(r = 0.81)の間には、強い正の相関が認められた。 本研究は,LLMが世界知識表現と脳アライメントの両方を改善することを示し,LLMに世界知識をエンコードする機構が人間の脳への表現アライメントを改善することを示唆している。

Instruction-tuning is a widely adopted method of finetuning that enables large language models (LLMs) to generate output that more closely resembles human responses to natural language queries, in many cases leading to human-level performance on diverse testbeds. However, it remains unclear whether instruction-tuning truly makes LLMs more similar to how humans process language. We investigate the effect of instruction-tuning on LLM-human similarity in two ways: (1) brain alignment, the similarity of LLM internal representations to neural activity in the human language system, and (2) behavioral alignment, the similarity of LLM and human behavior on a reading task. We assess 25 vanilla and instruction-tuned LLMs across three datasets involving humans reading naturalistic stories and sentences. We discover that instruction-tuning generally enhances brain alignment by an average of 6%, but does not have a similar effect on behavioral alignment. To identify the factors underlying LLM-brain alignment, we compute correlations between the brain alignment of LLMs and various model properties, such as model size, various problem-solving abilities, and performance on tasks requiring world knowledge spanning various domains. Notably, we find a strong positive correlation between brain alignment and model size (r = 0.95), as well as performance on tasks requiring world knowledge (r = 0.81). Our results demonstrate that instruction-tuning LLMs improves both world knowledge representations and brain alignment, suggesting that mechanisms that encode world knowledge in LLMs also improve representational alignment to the human brain.
翻訳日:2023-12-04 14:46:03 公開日:2023-12-01
# 抽象的社会過程の可視化のための生成モデル:切り離し指標を用いたStyleGAN2のストリートビュー画像合成

Generative models for visualising abstract social processes: Guiding streetview image synthesis of StyleGAN2 with indices of deprivation ( http://arxiv.org/abs/2312.00570v1 )

ライセンス: Link先を確認
Aleksi Knuutila(参考訳) 本稿では,社会プロセスの視覚的側面を研究するために,GAN(Generative Adverserial Networks)の新たな応用を提案する。 私は、ロンドンでgoogle streetviewが撮影したカスタムデータセット14,564枚のstylegan2モデルをトレーニングしました。 トレーニング後、トレーニングセット内のイメージを反転させ、それらに対応するモデルの潜在空間内の点を見つけ、3つの反転技術による結果を比較する。 各データポイントに複数の不足指標からのメタデータを接続し、写真が撮影された地域の収入、健康、および環境の質を記述します。 これにより、モデルの潜伏空間のどの部分が、健康、収入、環境品質に特有の視覚的特徴を符号化し、これらの要因に基づいて新しい画像の合成を条件付けることができる。 合成画像は、それまで未知で研究が困難であった社会過程の視覚的特徴を反映し、ロンドンの失明地域と特権地区の視覚的差異を再現している。 GANは、視覚的な違いを示す連続した範囲の画像を生成する能力で知られている。 本稿では,静止画の視覚的比較や,スライダを用いた画像合成をガイドするインタラクティブなWebサイトを通じて,この能力をいかに活用するかを検証する。 条件付き合成には限界があり、結果は検証が難しいが、この論文は生成モデルが社会科学的手法の一部として再利用される可能性を示している。

This paper presents a novel application of Generative Adverserial Networks (GANs) to study visual aspects of social processes. I train a a StyleGAN2-model on a custom dataset of 14,564 images of London, sourced from Google Streetview taken in London. After training, I invert the images in the training set, finding points in the model's latent space that correspond to them, and compare results from three inversion techniques. I connect each data point with metadata from the Indices of Multiple Deprivation, describing income, health and environmental quality in the area where the photographs were taken. It is then possible to map which parts of the model's latent space encode visual features that are distinctive for health, income and environmental quality, and condition the synthesis of new images based on these factors. The synthetic images created reflect visual features of social processes that were previously unknown and difficult to study, describing recurring visual differences between deprived and privileged areas in London. GANs are known for their capability to produce a continuous range of images that exhibit visual differences. The paper tests how to exploit this ability through visual comparisons in still images as well as through an interactive website where users can guide image synthesis with sliders. Though conditioned synthesis has its limitations and the results are difficult to validate, the paper points to the potential for generative models to be repurposed to be parts of social scientific methods.
翻訳日:2023-12-04 14:45:31 公開日:2023-12-01
# 入試における正答率の解説的弁論抽出

Explanatory Argument Extraction of Correct Answers in Resident Medical Exams ( http://arxiv.org/abs/2312.00567v1 )

ライセンス: Link先を確認
Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo Agerri(参考訳) 医療専門家の日常活動を支援するために必要な技術の開発は、現在人工知能研究の分野でホットな話題となっている。 このようにして、人間とAIの相互作用を仲介するツールとして自然言語を用いたEvidence-Based Medicine(EBM)における情報抽出を容易にするために、多数の大規模言語モデル(LLM)と自動ベンチマークが最近提案されている。 最も代表的なベンチマークは、複数選択または長文の回答に限られており、英語でのみ利用可能である。 これらの欠点に対処するため、本稿では、以前の研究と異なり、新しいデータセットを提案する。 (i) 正しい回答に対する説明的な議論だけでなく、不正確な回答が正しくない理由を判断するための議論を含む。 (ii)この説明は、元々はスペイン人医師がスペイン人居住医試験の質問に答えるために書いたものである。 さらに,この新しいベンチマークでは,医師が書いた正答の説明を識別する新たな抽出作業の設定が可能となった。 また,医療専門家による手作業による手作業による評価に頼らずに,抽出QAパラダイムを利用してLLMの性能を自動評価できる点も有効である。 スペイン語の言語モデルに関する総合的な実験では、多言語モデルの方がモノリンガルモデルより優れており、医療領域に適応したモデルよりも優れていることが示されている。 さらに、単言語モデル全体の結果が混合され、より小さいモデルと劣ったモデルが競争的に機能する。 いずれにせよ,本研究の新たなデータセットとアプローチは,医療従事者が関連する根拠に基づく医学的問題の説明を識別する上で有効な手法であることを示す。

Developing the required technology to assist medical experts in their everyday activities is currently a hot topic in the Artificial Intelligence research field. Thus, a number of large language models (LLMs) and automated benchmarks have recently been proposed with the aim of facilitating information extraction in Evidence-Based Medicine (EBM) using natural language as a tool for mediating in human-AI interaction. The most representative benchmarks are limited to either multiple-choice or long-form answers and are available only in English. In order to address these shortcomings, in this paper we present a new dataset which, unlike previous work: (i) includes not only explanatory arguments for the correct answer, but also arguments to reason why the incorrect answers are not correct; (ii) the explanations are written originally by medical doctors to answer questions from the Spanish Residency Medical Exams. Furthermore, this new benchmark allows us to setup a novel extractive task which consists of identifying the explanation of the correct answer written by medical doctors. An additional benefit of our setting is that we can leverage the extractive QA paradigm to automatically evaluate performance of LLMs without resorting to costly manual evaluation by medical experts. Comprehensive experimentation with language models for Spanish shows that sometimes multilingual models fare better than monolingual ones, even outperforming models which have been adapted to the medical domain. Furthermore, results across the monolingual models are mixed, with supposedly smaller and inferior models performing competitively. In any case, the obtained results show that our novel dataset and approach can be an effective technique to help medical practitioners in identifying relevant evidence-based explanations for medical questions.
翻訳日:2023-12-04 14:45:06 公開日:2023-12-01
# グローバル収束保証を用いた内点制約強化学習

Interior Point Constrained Reinforcement Learning with Global Convergence Guarantees ( http://arxiv.org/abs/2312.00561v1 )

ライセンス: Link先を確認
Tingting Ni, Maryam Kamgarpour(参考訳) 我々は,期待累積的制約に対する期待累積報酬を最大化する最適方針を求めることを目的とした,無限遠制約付きマルコフ決定プロセス(cmdps)を検討する。 安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。 この目的のために,CMDPのログバリア関数に基づくゼロ階内点法を開発した。 フィッシャー非退化とポリシーパラメータ化の有界転送誤差という一般的な仮定条件の下で,アルゴリズムの理論的性質を定式化する。 特に,コンバージェンスのみにポリシーの実現性を保証する既存のCMDPアプローチとは対照的に,本アルゴリズムは学習過程におけるポリシーの実現性を保証し,サンプル複雑性$O(\varepsilon^{-6})$で最適ポリシーに収束する。 C-NPG-PDAアルゴリズムと比較して、我々のアルゴリズムは、同じフィッシャー非退化パラメーターを用いた学習におけるポリシー実現性を確保するために、追加の$O(\varepsilon^{-2})$サンプルを必要とする。

We consider discounted infinite horizon constrained Markov decision processes (CMDPs) where the goal is to find an optimal policy that maximizes the expected cumulative reward subject to expected cumulative constraints. Motivated by the application of CMDPs in online learning of safety-critical systems, we focus on developing an algorithm that ensures constraint satisfaction during learning. To this end, we develop a zeroth-order interior point approach based on the log barrier function of the CMDP. Under the commonly assumed conditions of Fisher non-degeneracy and bounded transfer error of the policy parameterization, we establish the theoretical properties of the algorithm. In particular, in contrast to existing CMDP approaches that ensure policy feasibility only upon convergence, our algorithm guarantees feasibility of the policies during the learning process and converges to the optimal policy with a sample complexity of $O(\varepsilon^{-6})$. In comparison to the state-of-the-art policy gradient-based algorithm, C-NPG-PDA, our algorithm requires an additional $O(\varepsilon^{-2})$ samples to ensure policy feasibility during learning with same Fisher-non-degenerate parameterization.
翻訳日:2023-12-04 14:44:37 公開日:2023-12-01
# 事例判断におけるバイアス:法的データセットか大規模言語モデルか?

Questioning Biases in Case Judgment Summaries: Legal Datasets or Large Language Models? ( http://arxiv.org/abs/2312.00554v1 )

ライセンス: Link先を確認
Aniket Deroy, Subhankar Maity(参考訳) 法的データセットの進化と大規模言語モデル(LLM)の出現は、特に判例判断の要約の生成において、法分野を大きく変えた。 しかし、これらの要約に埋め込まれた潜在的なバイアスについて重要な懸念が生じる。 本研究は,法的なデータセットと大規模言語モデルによる判断要約におけるバイアスについて検討する。 この研究は、法的意思決定に対するバイアスの影響を分析することを目的としている。 本研究は,これらの要約における偏見の正確性,公平性,含意を問うことによって,法的文脈における技術の役割と,世界中の司法システムへの影響をより深く理解することに貢献した。 本研究では,ジェンダー関連キーワード,レース関連キーワード,女性に対する犯罪関連キーワード,国名,宗教的キーワードについて検討した。 この研究は、大きな言語モデルと事前学習された抽象的要約モデルによって生成された出力のバイアスの興味深い証拠を示す。 これらのバイアスの背後にある理由は、さらなる研究が必要である。

The evolution of legal datasets and the advent of large language models (LLMs) have significantly transformed the legal field, particularly in the generation of case judgment summaries. However, a critical concern arises regarding the potential biases embedded within these summaries. This study scrutinizes the biases present in case judgment summaries produced by legal datasets and large language models. The research aims to analyze the impact of biases on legal decision making. By interrogating the accuracy, fairness, and implications of biases in these summaries, this study contributes to a better understanding of the role of technology in legal contexts and the implications for justice systems worldwide. In this study, we investigate biases wrt Gender-related keywords, Race-related keywords, Keywords related to crime against women, Country names and religious keywords. The study shows interesting evidences of biases in the outputs generated by the large language models and pre-trained abstractive summarization models. The reasoning behind these biases needs further studies.
翻訳日:2023-12-04 14:44:16 公開日:2023-12-01
# 横文ペアの強化による教師なし関係抽出の改善

Improving Unsupervised Relation Extraction by Augmenting Diverse Sentence Pairs ( http://arxiv.org/abs/2312.00552v1 )

ライセンス: Link先を確認
Qing Wang, Kang Zhou, Qiao Qiao, Yuepei Li, Qi Li(参考訳) unsupervised relation extraction (ure)は、手動アノテーションや既存の知識ベースを必要とせずに、原文から名前付きエンティティ間の関係を抽出することを目的としている。 最近のure研究では、研究者は関係表現を取得するための対比学習戦略に重点を置いた。 しかし、これらの研究は、対比学習のための多様な正のペアと適切な損失関数の探索という2つの重要な側面をしばしば見落としている。 本稿では, 正対の多様性を高め, コントラスト学習の判別力を高めるために, クロスセンテンスペア抽出を通じ, 内接対の強化と強化を両立させたオーギュアを提案する。 また,関係表現学習におけるノイズコントラスト推定(nce)損失の限界を特定し,文対にマージン損失を適用することを提案する。 NYT-FBとTACREDデータセットの実験は、提案した関係表現学習と単純なK-Meansクラスタリングが最先端のパフォーマンスを達成することを示した。

Unsupervised relation extraction (URE) aims to extract relations between named entities from raw text without requiring manual annotations or pre-existing knowledge bases. In recent studies of URE, researchers put a notable emphasis on contrastive learning strategies for acquiring relation representations. However, these studies often overlook two important aspects: the inclusion of diverse positive pairs for contrastive learning and the exploration of appropriate loss functions. In this paper, we propose AugURE with both within-sentence pairs augmentation and augmentation through cross-sentence pairs extraction to increase the diversity of positive pairs and strengthen the discriminative power of contrastive learning. We also identify the limitation of noise-contrastive estimation (NCE) loss for relation representation learning and propose to apply margin loss for sentence pairs. Experiments on NYT-FB and TACRED datasets demonstrate that the proposed relation representation learning and a simple K-Means clustering achieves state-of-the-art performance.
翻訳日:2023-12-04 14:44:00 公開日:2023-12-01
# 散逸性重質不純物による熱測定

Thermometry with a Dissipative Heavy Impurity ( http://arxiv.org/abs/2312.00549v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu(参考訳) 低温測定精度の向上は基礎科学および量子技術応用において重要である。 しかし、温度$t$ の測定精度は通常、$t$ は 0 になる傾向があるため発散する。 ここで、重い不純物を利用してボースガスの温度を測定することにより、分岐を避けるために精度$\delta^2 t\propto t^2$のランダウを得る。 さらに、重い不純物の初期運動量が固定され、非ゼロの場合、測定精度は$\delta^2 T\propto T^3$でランダウ境界を破ることができる。 我々は, 常に重い不純物の運動量分布を導出し, フィッシャー情報を計算することにより, 温度の最適測定精度を得る。 その結果,初期運動量の期待値の向上が測定精度の向上に有効であることが判明した。 さらに、運動量測定は、初期運動量が0に等しく固定されている場合の温度の最適測定である。 運動エネルギー測定は、初期運動量の期待値が0である場合に最適な測定である。 最後に,2つのボースガスの温度を同時に測定できることがわかった。 同時測定精度は、2つの温度が$T$に近い場合に$T^2$に比例する。

Improving the measurement precision of low temperature is significant in fundamental science and advanced quantum technology application. However, the measurement precision of temperature $T$ usually diverges as $T$ tends to 0. Here, by utilizing a heavy impurity to measure the temperature of a Bose gas, we obtain the Landau bound to precision $\delta^2 T\propto T^2$ to avoid the divergence. Moreover, when the initial momentum of the heavy impurity is fixed and non-zero, the measurement precision can be $\delta^2 T\propto T^3$ to break the Landau bound. We derive the momentum distribution of the heavy impurity at any moment and obtain the optimal measurement precision of the temperature by calculating the Fisher information. As a result, we find that enhancing the expectation value of the initial momentum can help to improve the measurement precision. In addition, the momentum measurement is the optimal measurement of the temperature in the case of that the initial momentum is fixed and not equal to 0. The kinetic energy measurement is the optimal measurement in the case of that the expectation value of the initial momentum is 0. Finally, we obtain that the temperatures of two Bose gases can be measured simultaneously. The simultaneous measurement precision is proportional to $T^2$ when two temperatures are close to $T$.
翻訳日:2023-12-04 14:43:42 公開日:2023-12-01
# 視覚観察によるドメイン適応模倣学習

Domain Adaptive Imitation Learning with Visual Observation ( http://arxiv.org/abs/2312.00548v1 )

ライセンス: Link先を確認
Sungho Choi, Seungyul Han, Woojun Kim, Jongseong Chae, Whiyoung Jung, Youngchul Sung(参考訳) 本稿では,対象領域のエージェントがソース領域における専門家のデモンストレーションを観察することでタスクの実行を学習する,視覚観察によるドメイン適応模倣学習について検討する。 ドメイン適応型模倣学習は、視覚的な知覚データを受け取るロボットが、異なる角度から他のロボットを視覚的に観察したり、異なる形状のロボットを観察することで、動きを模倣する必要がある、という現実的なシナリオに現れる。 視覚観察によるクロスドメイン模倣学習の領域シフトを克服するために,2つの特徴抽出と画像再構成に基づいて学習者の学習に使用できる入力観察から,ドメインに依存しない行動特徴を抽出する新しい枠組みを提案する。 実験の結果,本手法は,領域シフトによる視覚的観察から得られた模倣学習のアルゴリズムよりも優れていた。

In this paper, we consider domain-adaptive imitation learning with visual observation, where an agent in a target domain learns to perform a task by observing expert demonstrations in a source domain. Domain adaptive imitation learning arises in practical scenarios where a robot, receiving visual sensory data, needs to mimic movements by visually observing other robots from different angles or observing robots of different shapes. To overcome the domain shift in cross-domain imitation learning with visual observation, we propose a novel framework for extracting domain-independent behavioral features from input observations that can be used to train the learner, based on dual feature extraction and image reconstruction. Empirical results demonstrate that our approach outperforms previous algorithms for imitation learning from visual observation with domain shift.
翻訳日:2023-12-04 14:43:22 公開日:2023-12-01
# 回帰タスクに対するターゲット非依存なソースフリードメイン適応

Target-agnostic Source-free Domain Adaptation for Regression Tasks ( http://arxiv.org/abs/2312.00540v1 )

ライセンス: Link先を確認
Tianlang He, Zhiqiu Xia, Jierun Chen, Haoliang Li, S.-H. Gary Chan(参考訳) unsupervised domain adaptation(uda)は、ラベルなしのターゲットデータを使用して、ターゲットとソースの間のドメインギャップを埋めることを目指している。 ソースフリーなUDAは、データプライバシとストレージを保存するためにターゲットのラベル付きソースデータの要求を取り除く。 しかし、ソースフリーなUDAの研究は、ドメインギャップの分布に関する知識を前提としており、そのため、ターゲット認識または分類タスクに限られる。 そこで本研究では,回帰タスクのための新しいターゲット非依存なソースフリードメイン適応手法 tasfar を提案する。 TASFARは、予測信頼度を用いて、ラベル密度マップをターゲットラベル分布として推定し、ターゲットドメイン上のソースモデルをキャリブレーションする。 筆者らは,様々な領域のギャップを伴う4つの回帰作業,すなわち,異なる場面で数えるイメージベースの人々,異なる地区での住宅価格予測,異なる出発点からのタクシートリップ期間予測について,広範な実験を行った。 TASFARは、4つのタスクに対する平均22%のエラーを減らし、ソースデータを使用しずに、ソースベースUDAと同等の精度で達成することで、最先端のソースフリーUDAアプローチを大幅に上回っている。

Unsupervised domain adaptation (UDA) seeks to bridge the domain gap between the target and source using unlabeled target data. Source-free UDA removes the requirement for labeled source data at the target to preserve data privacy and storage. However, work on source-free UDA assumes knowledge of domain gap distribution, and hence is limited to either target-aware or classification task. To overcome it, we propose TASFAR, a novel target-agnostic source-free domain adaptation approach for regression tasks. Using prediction confidence, TASFAR estimates a label density map as the target label distribution, which is then used to calibrate the source model on the target domain. We have conducted extensive experiments on four regression tasks with various domain gaps, namely, pedestrian dead reckoning for different users, image-based people counting in different scenes, housing-price prediction at different districts, and taxi-trip duration prediction from different departure points. TASFAR is shown to substantially outperform the state-of-the-art source-free UDA approaches by averagely reducing 22% errors for the four tasks and achieve notably comparable accuracy as source-based UDA without using source data.
翻訳日:2023-12-04 14:43:08 公開日:2023-12-01
# ANOVA分解とNFFTベースマトリックスベクトル製品を用いたサポートベクトルマシンのインテリアポイント法

A Preconditioned Interior Point Method for Support Vector Machines Using an ANOVA-Decomposition and NFFT-Based Matrix-Vector Products ( http://arxiv.org/abs/2312.00538v1 )

ライセンス: Link先を確認
Theresa Wagner, John W. Pearson, Martin Stoll(参考訳) 本稿では,ソフトマージン支援ベクトルマシン最適化問題の数値解について考察する。 この問題は、大規模なカーネル行列を扱う場合の従来の最適化アルゴリズムの計算量が多いことから、一般的にSMOアルゴリズムを用いて解決される。 本研究では,全体最適化問題に対して内部点法で使用される特徴空間に対して,anova分解を用いたnfft加速行列ベクトル積を用いることを提案する。 本手法では,saddle point 形式の線形系の解を求めるので,krylov 部分空間ソルバとともにカーネル行列の低ランク近似に基づく事前条件付け手法を提案する。 我々は、ANOVAベースのカーネルの精度をデフォルトのLIBSVM実装と比較する。 いくつかの大規模データセット上で、異なるプリコンディショナーの性能とANOVAカーネルの精度について検討する。

In this paper we consider the numerical solution to the soft-margin support vector machine optimization problem. This problem is typically solved using the SMO algorithm, given the high computational complexity of traditional optimization algorithms when dealing with large-scale kernel matrices. In this work, we propose employing an NFFT-accelerated matrix-vector product using an ANOVA decomposition for the feature space that is used within an interior point method for the overall optimization problem. As this method requires the solution of a linear system of saddle point form we suggest a preconditioning approach that is based on low-rank approximations of the kernel matrix together with a Krylov subspace solver. We compare the accuracy of the ANOVA-based kernel with the default LIBSVM implementation. We investigate the performance of the different preconditioners as well as the accuracy of the ANOVA kernel on several large-scale datasets.
翻訳日:2023-12-04 14:42:43 公開日:2023-12-01
# 機械翻訳参照を用いたMTメトリクスの学習

Trained MT Metrics Learn to Cope with Machine-translated References ( http://arxiv.org/abs/2312.00536v1 )

ライセンス: Link先を確認
Jannis Vamvas, Tobias Domhan, Sony Trenous, Rico Sennrich and Eva Hasler(参考訳) MTの人的評価に基づいて訓練された神経メトリクスは、人間の判断とよく相関する傾向にあるが、その振る舞いは完全には理解されていない。 本稿では,人間の評価(Prism)に基づいて訓練されていない基準指標と,同じ指標のトレーニング版(Prism+FT)を比較した。 驚くべきことに、Prism+FTは機械翻訳参照に対してより堅牢になり、MT評価において悪名高い問題である。 これは、メトリックトレーニングの効果が、人間の判断との全体的な相関を改善する意図的な効果を超えることを示唆している。

Neural metrics trained on human evaluations of MT tend to correlate well with human judgments, but their behavior is not fully understood. In this paper, we perform a controlled experiment and compare a baseline metric that has not been trained on human evaluations (Prism) to a trained version of the same metric (Prism+FT). Surprisingly, we find that Prism+FT becomes more robust to machine-translated references, which are a notorious problem in MT evaluation. This suggests that the effects of metric training go beyond the intended effect of improving overall correlation with human judgments.
翻訳日:2023-12-04 14:42:28 公開日:2023-12-01
# RIS-based on-the-Air Semantic Communications -- 回折型ディープニューラルネットワークアプローチ

RIS-Based On-the-Air Semantic Communications -- a Diffractional Deep Neural Network Approach ( http://arxiv.org/abs/2312.00535v1 )

ライセンス: Link先を確認
Shuyi Chen, Yingzhe Hui, Yifan Qin, Yueyi Yuan, Weixiao Meng, Xuewen Luo, Hsiao-Hwa Chen(参考訳) 近年のセマンティック通信は,ビットレベル情報ではなくセマンティック情報に注目することで,高い伝送効率を実現するという利点から注目されている。 しかし、現在のAIベースのセマンティックコミュニケーション手法は実装にデジタルハードウェアを必要とする。 reconfigurable intelligence surface (riss) の急速な進歩により、オン・ザ・エア回折深層ニューラルネットワーク (d$^2$nn) と呼ばれる新しいアプローチがウェーブドメインにおけるセマンティック通信を可能にする。 本稿では,無線信号がRISを通過すると,その計算過程が本質的に発生する,RISベースのオンザエアセマンティックコミュニケーションの新しいパラダイムを提案する。 本稿では,システムモデルを示し,このスキームのデータと制御フローを考察し,画像伝送を用いた性能解析を例に示す。 従来のハードウェアベースのアプローチと比較して、RISベースのセマンティックコミュニケーションは、光速計算、計算能力の低さ、複数のタスクを同時に処理する能力など、魅力的な機能を提供する。

Semantic communication has gained significant attention recently due to its advantages in achieving higher transmission efficiency by focusing on semantic information instead of bit-level information. However, current AI-based semantic communication methods require digital hardware for implementation. With the rapid advancement on reconfigurable intelligence surfaces (RISs), a new approach called on-the-air diffractional deep neural networks (D$^2$NN) can be utilized to enable semantic communications on the wave domain. This paper proposes a new paradigm of RIS-based on-the-air semantic communications, where the computational process occurs inherently as wireless signals pass through RISs. We present the system model and discuss the data and control flows of this scheme, followed by a performance analysis using image transmission as an example. In comparison to traditional hardware-based approaches, RIS-based semantic communications offer appealing features, such as light-speed computation, low computational power requirements, and the ability to handle multiple tasks simultaneously.
翻訳日:2023-12-04 14:42:19 公開日:2023-12-01
# 自動運転検証における地盤真理アノテーションのLiDARによるストレッチ検出

LiDAR-based curb detection for ground truth annotation in automated driving validation ( http://arxiv.org/abs/2312.00534v1 )

ライセンス: Link先を確認
Jose Luis Apell\'aniz, Mikel Garc\'ia, Nerea Aranjuelo, Javier Barandiar\'an, Marcos Nieto(参考訳) カーブ検出は自動運転(AD:Automated Driving)において環境認識に必須であり、通常、乾燥可能領域と非駆動可能領域を制限する。 AD関数の開発と検証には注釈付きデータが必要である。 しかし、注釈付きポイントクラウドストレッチを持つ公開データセットの数は少ない。 本稿では,LiDARセンサの2つの主ステップからなる点雲列における3次元ストレッチを検出する手法を提案する。 まず,セグメンテーション深層ニューラルネットワークを用いて各スキャンの縁石を検出する。 そして、シーケンスレベル処理ステップは、車両のオドメトリを用いて再構成された点雲の3d縁石を推定する。 縁石のこれらの3次元点から, ASAM OpenLABEL標準に従って構成されたポリリンを得る。 これらの検出はラベル付けパイプラインの事前注釈として使用することができ、縁石関連の基底真理データを効率的に生成することができる。 提案手法は,自動生成された前アノテーションを伴わずに,lidarに基づく一連の配列の縁石をアノテートするために,異なる人間のアノテータが要求される実験を通じて検証する。 その結果,手動のアノテーションは検出によって50.99%短縮され,データ品質は維持された。

Curb detection is essential for environmental awareness in Automated Driving (AD), as it typically limits drivable and non-drivable areas. Annotated data are necessary for developing and validating an AD function. However, the number of public datasets with annotated point cloud curbs is scarce. This paper presents a method for detecting 3D curbs in a sequence of point clouds captured from a LiDAR sensor, which consists of two main steps. First, our approach detects the curbs at each scan using a segmentation deep neural network. Then, a sequence-level processing step estimates the 3D curbs in the reconstructed point cloud using the odometry of the vehicle. From these 3D points of the curb, we obtain polylines structured following ASAM OpenLABEL standard. These detections can be used as pre-annotations in labelling pipelines to efficiently generate curb-related ground truth data. We validate our approach through an experiment in which different human annotators were required to annotate curbs in a group of LiDAR-based sequences with and without our automatically generated pre-annotations. The results show that the manual annotation time is reduced by 50.99% thanks to our detections, keeping the data quality level.
翻訳日:2023-12-04 14:42:00 公開日:2023-12-01
# シャッテンノルムに基づく量子速度限界

Quantum Speed Limits based on Schatten norms ( http://arxiv.org/abs/2312.00533v1 )

ライセンス: Link先を確認
Alberto J. B. Rosal, Diego Paiva Pires, Diogo O. Soares-Pinto(参考訳) 有限次元量子系における一般物理過程における量子速度限界(qsls)の2つのファミリーについて述べる。 これらのqslはschatten $\alpha$-normsを用いて得られ、まず量子状態の空間の幾何的特徴を内部積に与え、次に行列ノルムに対するホルダーの不等式を用いる。 特に、単量子状態の場合、幾何学的qslは選択されたシャッテンノルムとは独立であり、そのような量化子の普遍性挙動を明らかにする。 さらに、文献におけるこれらの量子速度制限と既存のパラダイム的QSLの比較を行い、後者の結果がSchatten $\alpha$-normsに関連する一般的なQSLの事例を表すことを示した。 注目すべきは、進化した単一量子ビット状態の集団と量子コヒーレンスに大きく依存する量子速度制限の厳密性に関する必要十分条件に対処し、これらの条件の幾何学的解釈を示すことである。 最後に,単一量子状態のダイナミクスに対して得られた2つのqslを比較し,幾何的意味を持つ2つの状態間の不等式を提示する。

We present two families of quantum speed limits (QSLs) for finite-dimensional quantum systems undergoing a general physical process. These QSLs were obtained using Schatten $\alpha$-norms, firstly exploiting the geometric features of the space of quantum states endowed with some inner product, and secondly employing the Holder's inequality for matrix norms. In particular, for the case of single-qubit states, we find that the geometric QSL is independent of the Schatten norm chosen, thus revealing a universality behavior of such quantifiers. Furthermore, we provide a comparison of these quantum speed limits with existing paradigmatic QSLs in literature, thus showing that the latter results represent particular cases of a general class of QSLs related to Schatten $\alpha$-norms. Noteworthy, we address necessary and sufficient conditions for the tightness of the quantum speed limit that mostly depends on the populations and quantum coherences of the evolved single-qubit state, and also present a geometric interpretation for these set of conditions. Finally, we compare the two QSL obtained for the dynamics of single-qubit states, also presenting an inequality between them that has a clear geometrical meaning.
翻訳日:2023-12-04 14:41:40 公開日:2023-12-01
# DeepDR: 深部構造対応RGB-Dインペインティング

DeepDR: Deep Structure-Aware RGB-D Inpainting for Diminished Reality ( http://arxiv.org/abs/2312.00532v1 )

ライセンス: Link先を確認
Christina Gsaxner, Shohei Mori, Dieter Schmalstieg, Jan Egger, Gerhard Paar, Werner Bailer and Denis Kalkofen(参考訳) ディミネート・リアリティ(Dminished Reality, DR)とは、現実の物体を仮想的に背景に置き換えることで環境から取り除くことを指す。 現代のDRフレームワークは、未保存領域を幻覚するためにインペイントを使用する。 近年の深層学習による着色は有望であるが,3次元シーン編集などの高度なアプリケーションでは,コヒーレントな構造と3次元幾何学(深度)を生成する必要があるため,DRのユースケースは複雑である。 本稿では,DRのすべての要件を満たす最初のRGB-DインペイントフレームワークであるDeepDRを提案する。 複雑な背景を持つ領域における鮮明で一貫した境界を再構築することの難しさを克服し,シーンセマンティクスに色と深さの出力を明示的に条件付けることができる。 実験結果から,提案フレームワークは質的,定量的に関連作業より優れることが示された。

Diminished reality (DR) refers to the removal of real objects from the environment by virtually replacing them with their background. Modern DR frameworks use inpainting to hallucinate unobserved regions. While recent deep learning-based inpainting is promising, the DR use case is complicated by the need to generate coherent structure and 3D geometry (i.e., depth), in particular for advanced applications, such as 3D scene editing. In this paper, we propose DeepDR, a first RGB-D inpainting framework fulfilling all requirements of DR: Plausible image and geometry inpainting with coherent structure, running at real-time frame rates, with minimal temporal artifacts. Our structure-aware generative network allows us to explicitly condition color and depth outputs on the scene semantics, overcoming the difficulty of reconstructing sharp and consistent boundaries in regions with complex backgrounds. Experimental results show that the proposed framework can outperform related work qualitatively and quantitatively.
翻訳日:2023-12-04 14:41:17 公開日:2023-12-01
# BCN: 画像分類のためのバッチチャネル正規化

BCN: Batch Channel Normalization for Image Classification ( http://arxiv.org/abs/2312.00596v1 )

ライセンス: Link先を確認
Afifa Khaled, Chao Li, Jia Ning, Kun He(参考訳) 正規化技術は、高い学習率を実現し、初期化にはあまり注意を払わないため、ディープラーニングの分野で広く用いられている。 しかし、一般的な正規化技術の有効性は通常特定の領域に限られる。 標準バッチ正規化(BN)やレイヤ正規化(LN)とは異なり、BNは(N,H,W)次元に沿った平均と分散を計算し、LNは(C,H,W)次元に沿った平均と分散を計算する(N,C,H,Wはそれぞれバッチ、チャネル、空間高さ、幅寸法である)。 チャネル依存とバッチ依存の両方を適応的に利用し、特定のデータセットやタスクに基づいてBNとLNの利点を組み合わせるために、BCNは(N, H, W)と(C, H, W)軸に沿って入力を別々に正規化し、適応パラメータに基づいて正規化された出力を組み合わせる。 基本的なブロックとして、BCNはコンピュータビジョンの分野で様々な用途のために既存のモデルに容易に統合できる。 実験の結果,提案手法はcnnや視覚トランスフォーマーアーキテクチャの様々なバージョンにシームレスに適用できることがわかった。 コードはhttps://github.com/AfifaKhaled/BatchChannel-Normalizationで公開されている。

Normalization techniques have been widely used in the field of deep learning due to their capability of enabling higher learning rates and are less careful in initialization. However, the effectiveness of popular normalization technologies is typically limited to specific areas. Unlike the standard Batch Normalization (BN) and Layer Normalization (LN), where BN computes the mean and variance along the (N,H,W) dimensions and LN computes the mean and variance along the (C,H,W) dimensions (N, C, H and W are the batch, channel, spatial height and width dimension, respectively), this paper presents a novel normalization technique called Batch Channel Normalization (BCN). To exploit both the channel and batch dependence and adaptively and combine the advantages of BN and LN based on specific datasets or tasks, BCN separately normalizes inputs along the (N, H, W) and (C, H, W) axes, then combines the normalized outputs based on adaptive parameters. As a basic block, BCN can be easily integrated into existing models for various applications in the field of computer vision. Empirical results show that the proposed technique can be seamlessly applied to various versions of CNN or Vision Transformer architecture. The code is publicly available at https://github.com/AfifaKhaled/BatchChannel-Normalization
翻訳日:2023-12-04 14:34:49 公開日:2023-12-01
# ハイブリッドトランスフォーマーを用いた腹腔鏡下婦人科ビデオにおける事象認識

Event Recognition in Laparoscopic Gynecology Videos with Hybrid Transformers ( http://arxiv.org/abs/2312.00593v1 )

ライセンス: Link先を確認
Sahar Nasirihaghighi, Negin Ghamsarian, Heinrich Husslein, Klaus Schoeffmann(参考訳) 腹腔鏡下手術ビデオの解析は,手術訓練,術中合併症予測,術後外科的評価など,複雑かつ多面的な課題を呈する。 これらのビデオ内で重要な出来事を特定することは、ほとんどのアプリケーションにおいて重要な前提条件である。 本稿では,腹腔鏡下婦人科ビデオにおけるイベント認識のための包括的データセットを提案する。 本データセットは,術中課題と術後合併症に関連する重要な事象に対するアノテーションを含む。 アノテーションの精度を評価するため,複数のCNN-RNNアーキテクチャを用いてイベント認識性能を評価する。 さらに,腹腔鏡下手術ビデオにおける4つの特定の事象を認識するために,トレーニング推論フレームワークをカスタマイズしたハイブリッドトランスフォーマーアーキテクチャを導入,評価する。 提案手法はトランスフォーマーネットワークを活用し, フレーム間依存性を利用して, 関連するコンテンツの閉塞, 動きのぼかし, および手術場面の変動の悪影響を対処し, イベント認識精度を著しく向上させる。 さらに,手術シーンと外科医のスキルレベルの変化を管理するためのフレームサンプリング戦略を提案し,時間分解能の高いイベント認識を実現する。 我々は,従来のcnn-rnnアーキテクチャと比較して,提案手法がイベント認識において優れていることを示す実験を行った。

Analyzing laparoscopic surgery videos presents a complex and multifaceted challenge, with applications including surgical training, intra-operative surgical complication prediction, and post-operative surgical assessment. Identifying crucial events within these videos is a significant prerequisite in a majority of these applications. In this paper, we introduce a comprehensive dataset tailored for relevant event recognition in laparoscopic gynecology videos. Our dataset includes annotations for critical events associated with major intra-operative challenges and post-operative complications. To validate the precision of our annotations, we assess event recognition performance using several CNN-RNN architectures. Furthermore, we introduce and evaluate a hybrid transformer architecture coupled with a customized training-inference framework to recognize four specific events in laparoscopic surgery videos. Leveraging the Transformer networks, our proposed architecture harnesses inter-frame dependencies to counteract the adverse effects of relevant content occlusion, motion blur, and surgical scene variation, thus significantly enhancing event recognition accuracy. Moreover, we present a frame sampling strategy designed to manage variations in surgical scenes and the surgeons' skill level, resulting in event recognition with high temporal resolution. We empirically demonstrate the superiority of our proposed methodology in event recognition compared to conventional CNN-RNN architectures through a series of extensive experiments.
翻訳日:2023-12-04 14:34:22 公開日:2023-12-01
# 強化学習における物体位置の追跡:キーポイント検出のためのメトリクス(拡張版)

Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version) ( http://arxiv.org/abs/2312.00592v1 )

ライセンス: Link先を確認
Emma Cramer, Jonas Reiher, Sebastian Trimpe(参考訳) ロボット制御のための強化学習(RL)は通常、直接測定できないタスク関連オブジェクトに関する情報を含む環境状態の詳細な表現を必要とする。 空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。 SAEは物体の位置などの空間的特徴を目標としており、ロボットRLにおいてしばしば有用な表現である。 しかし、SAEが実際にシーン内のオブジェクトを追跡でき、したがってRLタスクに適した空間状態表現が得られるかどうかは、確立されたメトリクスが欠如しているため、ほとんど調査されていない。 本稿では,画像中の真理物体をキーポイントがどれだけよく追跡できるかを計測することにより,SAEインスタンスの性能を評価することを提案する。 シミュレーションされたロボットタスクからの画像データに基づいて,計算的に軽量なメトリクスを示し,共通ベースラインSAEアーキテクチャを評価する。 その結果,共通saeは空間抽出能力で大きく異なることがわかった。 さらに, 下流RLで使用する場合, 測定値の良好なSAEが優れた性能を発揮することを検証する。 したがって,我々の測定基準は高価なRLトレーニングを行う前にRL性能の有効かつ軽量な指標となる。 これらの知見に基づいて、トラッキング性能を改善するために、SAEアーキテクチャの3つの重要な変更点を特定する。 コードはanonymous.4open.science/r/sae-rlで利用可能です。

Reinforcement learning (RL) for robot control typically requires a detailed representation of the environment state, including information about task-relevant objects not directly measurable. Keypoint detectors, such as spatial autoencoders (SAEs), are a common approach to extracting a low-dimensional representation from high-dimensional image data. SAEs aim at spatial features such as object positions, which are often useful representations in robotic RL. However, whether an SAE is actually able to track objects in the scene and thus yields a spatial state representation well suited for RL tasks has rarely been examined due to a lack of established metrics. In this paper, we propose to assess the performance of an SAE instance by measuring how well keypoints track ground truth objects in images. We present a computationally lightweight metric and use it to evaluate common baseline SAE architectures on image data from a simulated robot task. We find that common SAEs differ substantially in their spatial extraction capability. Furthermore, we validate that SAEs that perform well in our metric achieve superior performance when used in downstream RL. Thus, our metric is an effective and lightweight indicator of RL performance before executing expensive RL training. Building on these insights, we identify three key modifications of SAE architectures to improve tracking performance. We make our code available at anonymous.4open.science/r/sae-rl.
翻訳日:2023-12-04 14:34:00 公開日:2023-12-01
# less is more: 参照なし画像品質評価を用いた参照知識の学習

Less is More: Learning Reference Knowledge Using No-Reference Image Quality Assessment ( http://arxiv.org/abs/2312.00591v1 )

ライセンス: Link先を確認
Xudong Li, Jingyuan Zheng, Xiawu Zheng, Runze Hu, Enwei Zhang, Yuting Gao, Yunhang Shen, Ke Li, Yutao Liu, Pingyang Dai, Yan Zhang, Rongrong Ji(参考訳) 参照画像を用いた画像品質評価(IQA)は、人間の視覚システムを模倣し、クエリ画像と原始参照画像を比較して画像品質を効果的に評価することで大きな成功を収めた。 しかし、野生の画像では、正確な参照画像にアクセスすることは極めて困難である。 我々は、nr-iqa(no-reference image quality assessment)設定下で参照知識を学習することは可能であると主張している。 具体的には,新しい特徴蒸留法を革新的に導入することにより,非整合参照画像から比較知識を学ぶための新しい枠組みを提案する。 そして, 高速収束を実現し, 過度適合を避けるため, さらに帰納バイアス正規化を提案する。 このようなフレームワークは、NR-IQAの先天性欠陥を解決するだけでなく、特徴抽出フレームワークを改善し、より豊富な品質情報を表現できるようにする。 意外なことに,本手法は,教師モデルと比較して,より顕著な改善を図りつつ,少ない入力を利用する。 8つの標準NR-IQAデータセットに対する大規模な実験は、最先端のNR-IQA手法よりも優れた性能を示し、すなわち、PLCC値が0.917(LIVECでは0.884)と0.686(LIVEFBでは0.661)である。

Image Quality Assessment (IQA) with reference images have achieved great success by imitating the human vision system, in which the image quality is effectively assessed by comparing the query image with its pristine reference image. However, for the images in the wild, it is quite difficult to access accurate reference images. We argue that it is possible to learn reference knowledge under the No-Reference Image Quality Assessment (NR-IQA) setting, which is effective and efficient empirically. Concretely, by innovatively introducing a novel feature distillation method in IQA, we propose a new framework to learn comparative knowledge from non-aligned reference images. And then, to achieve fast convergence and avoid overfitting, we further propose an inductive bias regularization. Such a framework not only solves the congenital defects of NR-IQA but also improves the feature extraction framework, enabling it to express more abundant quality information. Surprisingly, our method utilizes less input while obtaining a more significant improvement compared to the teacher models. Extensive experiments on eight standard NR-IQA datasets demonstrate the superior performance to the state-of-the-art NR-IQA methods, i.e., achieving the PLCC values of 0.917 (vs. 0.884 in LIVEC) and 0.686 (vs. 0.661 in LIVEFB).
翻訳日:2023-12-04 14:33:38 公開日:2023-12-01
# ディープシンボリック分類による説明可能な不正検出

Explainable Fraud Detection with Deep Symbolic Classification ( http://arxiv.org/abs/2312.00586v1 )

ライセンス: Link先を確認
Samantha Visbeek, Erman Acar, Floris den Hengst(参考訳) 不正検出の領域では、説明可能な、透明で、データ駆動型のモデルに対する需要が増えている。 不正検出モデルによる決定は、顧客論争が発生した場合に説明する必要がある。 さらに、モデルにおける意思決定プロセスは、規制当局やビジネスステークホルダーの信頼を得るために透明でなければならない。 同時に、不正検出ソリューションは、不正の騒々しいダイナミックな性質と巨大な履歴データセットの可用性によって、データから恩恵を受けることができる。 最後に、不正検出はそのクラス不均衡によって悪名高い: 一般的に、不正なトランザクションよりも数桁多い正当なトランザクションが存在する。 本稿では,分類問題に対するDeep Symbolic Regressionフレームワークの拡張であるDeep Symbolic Classification (DSC)を提案する。 dscは変数、定数、演算の語彙からなるすべての解析関数の空間における探索問題として分類をキャストし、任意の評価メトリックを直接最適化する。 検索は強化学習で訓練されたディープニューラルネットワークによって導かれる。 関数は閉形式で簡潔な数学的表現であるため、モデルは1つの分類決定のレベルとモデルの決定過程の両方において本質的に説明可能である。 さらに、F1スコアのようなクラス不均衡に頑健なメトリクスを最適化することで、クラス不均衡問題に対処する。 これにより、従来のアプローチを悩ませるオーバーサンプリングやアンサンプのテクニックが不要になる。 最後に、モデルは予測精度と説明可能性との明確なバランスを可能にする。 PaySimデータセットの評価は、最先端モデルとの競合予測性能を示しながら、説明可能性の観点からそれらを上回っている。 これにより、DSCは不正検出システムの有望なモデルとして確立される。

There is a growing demand for explainable, transparent, and data-driven models within the domain of fraud detection. Decisions made by fraud detection models need to be explainable in the event of a customer dispute. Additionally, the decision-making process in the model must be transparent to win the trust of regulators and business stakeholders. At the same time, fraud detection solutions can benefit from data due to the noisy, dynamic nature of fraud and the availability of large historical data sets. Finally, fraud detection is notorious for its class imbalance: there are typically several orders of magnitude more legitimate transactions than fraudulent ones. In this paper, we present Deep Symbolic Classification (DSC), an extension of the Deep Symbolic Regression framework to classification problems. DSC casts classification as a search problem in the space of all analytic functions composed of a vocabulary of variables, constants, and operations and optimizes for an arbitrary evaluation metric directly. The search is guided by a deep neural network trained with reinforcement learning. Because the functions are mathematical expressions that are in closed-form and concise, the model is inherently explainable both at the level of a single classification decision and the model's decision process. Furthermore, the class imbalance problem is successfully addressed by optimizing for metrics that are robust to class imbalance such as the F1 score. This eliminates the need for oversampling and undersampling techniques that plague traditional approaches. Finally, the model allows to explicitly balance between the prediction accuracy and the explainability. An evaluation on the PaySim data set demonstrates competitive predictive performance with state-of-the-art models, while surpassing them in terms of explainability. This establishes DSC as a promising model for fraud detection systems.
翻訳日:2023-12-04 14:32:21 公開日:2023-12-01
# 潜在ベルヌーイ変数を用いた適応パラメータ自由ロバスト学習

Adaptive Parameter-Free Robust Learning using Latent Bernoulli Variables ( http://arxiv.org/abs/2312.00585v1 )

ライセンス: Link先を確認
Aleksandr Karakulev (1), Dave Zachariah (2), Prashant Singh (1 and 3) ((1) Division of Scientific Computing, (2) Division of Systems and Control, (3) Science for Life Laboratory, Department of Information Technology, Uppsala University)(参考訳) 劣化した学習セットからの統計的学習に有効なパラメータフリーな手法を提案する。 潜在変数ベルヌーイ変数を用いて腐敗した非破壊サンプルを同定し,潜在変数が限界化される可能性の最大化として頑健な学習問題を定式化する。 得られた最適化問題は、効率的な期待-最大化法を用いて変分推論によって解決される。 提案手法は,汚職のレベルを自動的に推測し,異常値を特定しつつ,計算オーバーヘッドを最小にすることで,最先端よりも改善する。 オンライン学習やディープラーニングなど,さまざまな機械学習タスクにおいて,さまざまなノイズレベルに適応し,高い予測精度を達成するためのロバストな学習方法を示す。

We present an efficient parameter-free approach for statistical learning from corrupted training sets. We identify corrupted and non-corrupted samples using latent Bernoulli variables, and therefore formulate the robust learning problem as maximization of the likelihood where latent variables are marginalized out. The resulting optimization problem is solved via variational inference using an efficient Expectation-Maximization based method. The proposed approach improves over the state-of-the-art by automatically inferring the corruption level and identifying outliers, while adding minimal computational overhead. We demonstrate our robust learning method on a wide variety of machine learning tasks including online learning and deep learning where it exhibits ability to adapt to different levels of noise and attain high prediction accuracy.
翻訳日:2023-12-04 14:31:56 公開日:2023-12-01
# 法律アクターの自動化の倫理

The Ethics of Automating Legal Actors ( http://arxiv.org/abs/2312.00584v1 )

ライセンス: Link先を確認
Josef Valvoda, Alec Thompson, Ryan Cotterell and Simone Teufel(参考訳) 大規模な法的データセットの導入は、法的NLPのルネッサンスをもたらした。 これらのデータセットの多くは、判例を決定する裁判官の産物である法的判断で構成されている。 この事実と機械学習の仕組みは、いくつかの合法的nlpモデルが裁判官のモデルであることを意味する。 裁判官の自動化を主張する者もいるが、この立場では、裁判官の役割の自動化は、特に一般的な法制度において、難しい倫理的課題を引き起こしていると論じている。 我々の主張は、単にそれを適用するのではなく、積極的に法律を形作る裁判官の社会的役割に由来する。 現在のNLPモデルは、このタスクに必要な設備を持つにはほど遠いため、審査員の自動化には使用すべきではない。 さらに、モデルが人間レベルの能力を達成できたとしても、法的プロセスの自動化に固有の倫理的な懸念は残るだろう。

The introduction of large public legal datasets has brought about a renaissance in legal NLP. Many of these datasets are comprised of legal judgements - the product of judges deciding cases. This fact, together with the way machine learning works, means that several legal NLP models are models of judges. While some have argued for the automation of judges, in this position piece, we argue that automating the role of the judge raises difficult ethical challenges, in particular for common law legal systems. Our argument follows from the social role of the judge in actively shaping the law, rather than merely applying it. Since current NLP models come nowhere close to having the facilities necessary for this task, they should not be used to automate judges. Furthermore, even in the case the models could achieve human-level capabilities, there would still be remaining ethical concerns inherent in the automation of the legal process.
翻訳日:2023-12-04 14:31:42 公開日:2023-12-01
# ヒューマン・イン・ザ・ループを用いた機械学習システムの設計パターン

Design Patterns for Machine Learning Based Systems with Human-in-the-Loop ( http://arxiv.org/abs/2312.00582v1 )

ライセンス: Link先を確認
Jakob Smedegaard Andersen and Walid Maalej(参考訳) 教師付き機械学習(ML)を用いたシステムの開発と展開は、主に予測モデルの信頼性の限界と、人間の知性を自動意思決定に効果的に統合する方法に関する知識の欠如により、依然として困難である。 MLプロセスへの人間の関与は、純粋に自動化された予測の限界を克服し、実際にMLの適用性を改善する、有望で強力なパラダイムである。 設計パターンのカタログをコンパイルし、開発者が適切なHuman-in-the-loop(HiL)ソリューションを選択し実装する。 我々のカタログは、人間の関与とモデル再訓練のコストとして重要な要件を考慮に入れている。 4つのトレーニングパターン、4つのデプロイメントパターン、2つの直交協調パターンを含む。

The development and deployment of systems using supervised machine learning (ML) remain challenging: mainly due to the limited reliability of prediction models and the lack of knowledge on how to effectively integrate human intelligence into automated decision-making. Humans involvement in the ML process is a promising and powerful paradigm to overcome the limitations of pure automated predictions and improve the applicability of ML in practice. We compile a catalog of design patterns to guide developers select and implement suitable human-in-the-loop (HiL) solutions. Our catalog takes into consideration key requirements as the cost of human involvement and model retraining. It includes four training patterns, four deployment patterns, and two orthogonal cooperation patterns.
翻訳日:2023-12-04 14:30:58 公開日:2023-12-01
# データ駆動型地球工学への道-材料情報学からの教訓

Pathway to a fully data-driven geotechnics: lessons from materials informatics ( http://arxiv.org/abs/2312.00581v1 )

ライセンス: Link先を確認
Stephen Wu, Yu Otake, Yosuke Higo, Ikumasa Yoshida(参考訳) 本稿では,データ駆動手法をジオテクニクスに統合する際の課題と機会を解明し,材料情報学の成功からインスピレーションを得た。 土壌の複雑さ、多様性、包括的なデータの欠如の複雑さを強調する議論は、コミュニティ主導のデータベースイニシアチブとオープンサイエンスの動きの必要性の高まりを強調するものだ。 深層学習の変形力、特に高次元データからの特徴抽出と転送学習の可能性を活用することで、より協力的で革新的なジオテクニクス分野へのパラダイムシフトを想定する。 論文は、大きな言語モデルのような高度な計算ツールによってもたらされる、ジオテクニクスのインフォマティクスを再構築する革命的な可能性を強調しながら、前進的なスタンスで締めくくっている。

This paper elucidates the challenges and opportunities inherent in integrating data-driven methodologies into geotechnics, drawing inspiration from the success of materials informatics. Highlighting the intricacies of soil complexity, heterogeneity, and the lack of comprehensive data, the discussion underscores the pressing need for community-driven database initiatives and open science movements. By leveraging the transformative power of deep learning, particularly in feature extraction from high-dimensional data and the potential of transfer learning, we envision a paradigm shift towards a more collaborative and innovative geotechnics field. The paper concludes with a forward-looking stance, emphasizing the revolutionary potential brought about by advanced computational tools like large language models in reshaping geotechnics informatics.
翻訳日:2023-12-04 14:30:46 公開日:2023-12-01
# 161}$yb$^{3+}$:y$_2$sio$_5$単結晶の光コヒーレンスとスピン集団ダイナミクス

Optical coherence and spin population dynamics in $^{171}$Yb$^{3+}$:Y$_2$SiO$_5$ single crystals ( http://arxiv.org/abs/2312.00579v1 )

ライセンス: Link先を確認
Federico Chiossi, Eloise Lafitte-Houssat, Alban Ferrier, Sacha Welinski, Loic Morvan, Perrine Berger, Diana Serrano, Mikael Afzelius and Philippe Goldner(参考訳) Yb$^{3+}$-doped Y$_2$SiO$_5$ Crystalsは、長距離量子通信における光量子メモリのための有望なプラットフォームである。 この物質の関連性は、$^{171}$Ybの長い光学的およびスピンコヒーレンス時間と、大きな超微細な分割により、大きな帯域にわたって長い量子ストレージを可能にする。 光デコヒーレンスに影響を及ぼすメカニズムは正確には分かっていないが、特に低温測定では2Kから4Kの範囲に焦点が当てられている。 本研究では,2ppmおよび10ppmでドープした2つの171yb:yso結晶において,2パルスおよび3パルスフォトンエコーおよびスペクトルホールバーニングを行い,光均一線幅を求める。 40mkから18kの温度範囲で実験が行われ、320hzまでのライン幅が報告されている希土類イオンでは最も狭く、数mhzであった。 以上の結果から,均質な線幅は主に弾性二フォノン過程によるもので,温度とともに緩やかに広がり,均質な線幅は10kで25khzにしか達せず,低温では$^{89}$ybの核スピンフリップや常磁性欠陥や不純物との相互作用,高濃度の結晶に対するyb-yb相互作用が均質な線幅の主な制限因子である可能性が示唆された。 特に、スピンおよび光励起状態寿命の直接効果は、研究された全温度範囲における光デコヒーレンスへのわずかな寄与である。 以上の結果から, 均一線幅をさらに減少させる, あるいは, より高い$^{171}$Yb濃度で狭線を維持するための経路や方法が示唆された。

$^{171}$Yb$^{3+}$-doped Y$_2$SiO$_5$ crystals are a promising platform for optical quantum memories in long-distance quantum communications. The relevance of this material lies in $^{171}$Yb long optical and spin coherence times, along with a large hyperfine splitting, enabling long quantum storage over large bandwidths. Mechanisms affecting the optical decoherence are however not precisely known, especially since low-temperature measurements have so far focused on the 2 to 4 K range. In this work, we performed two- and three-pulse photon echoes and spectral hole burning to determine optical homogeneous linewidths in two 171 Yb:YSO crystals doped at 2 and 10 ppm. Experiments were performed in the 40 mK to 18 K temperature range, leading to linewidths between 320 Hz, among the narrowest reported for rare-earth ions, and several MHz. Our results show that above 6 K the homogeneous linewidth is mainly due to an elastic two-phonon process which results in a slow broadening with temperature, the homogeneous linewidth reaching only 25 kHz at 10 K. At lower temperatures, interactions with $^{89}$Yb nuclear spin-flips, paramagnetic defects or impurities, and also Yb-Yb interactions for the higher concentrated crystal, are likely the main limiting factor to the homogeneous linewidth. In particular, we conclude that the direct effect of spin and optical excited state lifetime is a minor contribution to optical decoherence in the whole temperature range studied. Our results indicate possible paths and regimes for further decreasing the homogeneous linewidths or maintaining narrow lines at higher $^{171}$Yb concentration.
翻訳日:2023-12-04 14:30:29 公開日:2023-12-01
# 2つの新しい非等価3ビットCHSHゲーム

Two new non-equivalent three-qubit CHSH games ( http://arxiv.org/abs/2312.00578v1 )

ライセンス: Link先を確認
Hamza Jaffali, Fr\'ed\'eric Holweck(参考訳) 本稿では、よく知られたchsh量子ゲームである3人のプレイヤーに一般化する。 そのため、可能な3変数のブール関数を全て考慮し、量子長所(与えられた絡み合った状態)を持つゲームシナリオに対応する変数を探索する。 特に2つの新しい3つの量子ゲームを提供し、1つのケースでは、プレイヤーが$GHZ$状態を共有するときに最高の量子戦略が得られ、もう1つのケースでは、プレイヤーは量子リソースとして$W$状態を使用するときより有利である。 本研究は,オンライン量子コンピュータ上でゲームシナリオを実装し,ゲーム毎に対応する量子リソースの利点を実験的に証明する。

In this paper, we generalize to three players the well-known CHSH quantum game. To do so, we consider all possible 3 variables Boolean functions and search among them which ones correspond to a game scenario with a quantum advantage (for a given entangled state). In particular we provide two new three players quantum games where, in one case, the best quantum strategy is obtained when the players share a $GHZ$ state, while in the other one the players have a better advantage when they use a $W$ state as their quantum resource. To illustrate our findings we implement our game scenarios on an online quantum computer and prove experimentally the advantage of the corresponding quantum resource for each game.
翻訳日:2023-12-04 14:29:54 公開日:2023-12-01
# 捕捉イオンとナノメカニカル振動子とのカップリング

Coupling trapped ions to a nanomechanical oscillator ( http://arxiv.org/abs/2312.00576v1 )

ライセンス: Link先を確認
Moritz Weegen, Martino Poggio, Stefan Willitsch(参考訳) トラップ中の冷たいイオンは、量子情報、精密分光、時計、化学における様々な応用を含む、確立され、高度に制御可能な量子システムである。 ナノメカニカル発振器は、先進的なセンシング応用や古典物理学と量子物理学の境界探索に用いられる。 本稿では,金属ナノワイヤとレーザー冷却イオンを組み合わせた小型イオントラップによるハイブリッドシステムの実装について報告する。 ナノワイヤの機械的駆動による2つの系の共振・オフ共振結合とイオンのコヒーレント運動励起を示す。 本研究は, 捕捉イオンの量子運動を機械的に操作し, イオン-機械ハイブリッド量子システムの開発と, 捕捉イオンによる機械系の交感神経冷却を行うための道筋を開く。

Cold ions in traps are well-established, highly controllable quantum systems with a wide variety of applications in quantum information, precision spectroscopy, clocks and chemistry. Nanomechanical oscillators are used in advanced sensing applications and for exploring the border between classical and quantum physics. Here, we report on the implementation of a hybrid system combining a metallic nanowire with laser-cooled ions in a miniaturised ion trap. We demonstrate resonant and off-resonant coupling of the two systems and the coherent motional excitation of the ion by the mechanical drive of the nanowire. The present results open up avenues for mechanically manipulating the quantum motion of trapped ions, for the development of ion-mechanical hybrid quantum systems and for the sympathetic cooling of mechanical systems by trapped ions and vice versa.
翻訳日:2023-12-04 14:29:41 公開日:2023-12-01
# 古典的振り子集合上で実現された量子ビット、絡み合った状態、および量子ゲート

Qubits, entangled states, and quantum gates realized on a set of classical pendulums ( http://arxiv.org/abs/2312.00631v1 )

ライセンス: Link先を確認
Alexey V. Nenashev, Florian Gebhard, Klaus Meerholz, Sergei D. Baranovskii(参考訳) ここでは、通常量子系に記述される絡み合い、量子ビット、量子ゲート、量子誤差補正、ユニタリ時間進化などの概念が、結合した古典振り子の集合上で適切に実現可能であることを示す。

Here we show that the concepts behind such terms as entanglement, qubits, quantum gates, quantum error corrections, unitary time evolution etc., which are usually ascribed to quantum systems, can be adequately realized on a set of coupled classical pendulums.
翻訳日:2023-12-04 14:22:44 公開日:2023-12-01
# 信頼のエコシステム(eot):協調的で信頼されたエコシステムによる自律システムの効果的な展開を可能にする

The Ecosystem of Trust (EoT): Enabling effective deployment of autonomous systems through collaborative and trusted ecosystems ( http://arxiv.org/abs/2312.00629v1 )

ライセンス: Link先を確認
Jon Arne Glomsrud and Tita Alissa Bach (Group Research and Development, DNV, H{\o}vik, Norway)(参考訳) エコシステムはユビキタスですが、内部の信頼は保証されていません。 エコシステム内のステークホルダは、目的を達成するために協力する必要があります。 双子のトランジション、緑のトランジションと並行して進むデジタルトランスフォーメーション、自律システムのデプロイを加速することにより、デプロイされたテクノロジが価値を生み出すことを保証するための信頼はさらに重要になっています。 このニーズに対処するため,我々は,利害関係者,技術・インフラ,制度・ガバナンス,生態系における人工的・自然な環境間の信頼を可能とし,技術の展開を支援する信頼のエコシステムを提案する。 このアプローチは、エコシステムの利害関係者が関心事に対処し、目標を一致させることで、価値を創造し、提供し、受け取ることができる。 我々は,利害関係者の視点からのアプローチを実世界のユースケースとして,自律的ゼロエミッションフェリーを提案する。 我々は、証拠と知識に由来する正当化された信頼の根拠として定義される保証は、このアプローチを実現するための前提条件であると主張する。 保証は、収集、分析、および伝達される証拠と知識を体系的、標的的、有意義な方法で提供する。 リスクの管理、信頼の共有、価値の創造を保証することによって、アプローチがテクノロジのデプロイを成功させることが可能になります。

Ecosystems are ubiquitous but trust within them is not guaranteed. Trust is paramount because stakeholders within an ecosystem must collaborate to achieve their objectives. With the twin transitions, digital transformation to go in parallel with green transition, accelerating the deployment of autonomous systems, trust has become even more critical to ensure that the deployed technology creates value. To address this need, we propose an ecosystem of trust approach to support deployment of technology by enabling trust among and between stakeholders, technologies and infrastructures, institutions and governance, and the artificial and natural environments in an ecosystem. The approach can help the stakeholders in the ecosystem to create, deliver, and receive value by addressing their concerns and aligning their objectives. We present an autonomous, zero emission ferry as a real world use case to demonstrate the approach from a stakeholder perspective. We argue that assurance, defined as grounds for justified confidence originated from evidence and knowledge, is a prerequisite to enable the approach. Assurance provides evidence and knowledge that are collected, analysed, and communicated in a systematic, targeted, and meaningful way. Assurance can enable the approach to help successfully deploy technology by ensuring that risk is managed, trust is shared, and value is created.
翻訳日:2023-12-04 14:22:37 公開日:2023-12-01
# ボース・アインシュタイン凝縮体を用いた原子重力計用ブラッグ格子形状の位相雑音の比較解析

Comparative Analysis of Phase Noise for different configurations of Bragg lattice for an Atomic Gravimeter with Bose-Einstein Condensate ( http://arxiv.org/abs/2312.00628v1 )

ライセンス: Link先を確認
Pranab Dutta, S. Sagar Maurya, Korak Biswas, Kushal Patel, and Umakant D. Rapol(参考訳) ボース・アインシュタイン凝縮系量子重力計におけるブラッグ回折に用いられるレーザの位相雑音の比較検討を行い,ブラッグビームを2種類の異なる構成で生成した。 構成の1つでは、移動光格子を形成するブラッグビームが、2つの異なる音響光学変調器を用いて生成される。 第2の構成では、2つの位相同期周波数を持つ1つの音響光学変調器を用いてブラッグビームを生成する。 第2の構成では、周波数帯域の4.7倍の位相雑音の抑制が、光部品と光学テーブルによって拾われた背景音響ノイズであるノイズの一次源である10$khz$で示される。 我々は、インターフェロメトリ時間10$ms$に対して99.7$\mu Gal/\sqrt Hz$の感度を報告した。

We perform a comparative study of the phase noise induced in the lasers used for Bragg diffraction in a Bose-Einstein condensate-based quantum gravimeter where the Bragg beams are generated using two different configurations. In one of the configurations, the Bragg beams that form the moving optical lattice are generated using two different acousto-optic modulators. In the second configuration, the Bragg beams are generated using a single acousto-optic modulator carrying two phase-locked frequencies. The second configuration shows a suppression of phase noise by a factor of 4.7 times in the frequency band upto 10 $kHz$, the primary source of noise, which is the background acoustic noise picked up by optical components and the optical table. We report a sensitivity of 99.7 $\mu Gal/\sqrt Hz$ for an interferometric time of 10 $ms$.
翻訳日:2023-12-04 14:22:13 公開日:2023-12-01
# 近赤外顔認識における領域ギャップの再考

Rethinking the Domain Gap in Near-infrared Face Recognition ( http://arxiv.org/abs/2312.00627v1 )

ライセンス: Link先を確認
Michail Tarasiou, Jiankang Deng, Stefanos Zafeiriou(参考訳) 不均一顔認識(HFR)は、視覚領域(VIS)と近赤外領域(NIR)にまたがる複雑な顔画像のマッチングを含む。 HFRに関する既存の文献の多くは、ドメインギャップを主要な課題と認識し、入力レベルまたは機能レベルにおいてドメインギャップをブリッジする取り組みを指示していますが、私たちの作業はこの傾向から逸脱しています。 大規模同種VISデータで事前トレーニングを行った場合,大規模なニューラルネットワークは,HFRにおいて例外的なゼロショット性能を示し,ドメインギャップが従来考えられていたよりも顕著でない可能性が示唆された。 低データの微調整の1つとしてHFR問題にアプローチすることで、包括的な事前学習、正規化された微調整戦略によって継承される、現在の4つの公開ベンチマークの最先端と一致または超える、簡単なフレームワークを導入する。 対応するコードはhttps://github.com/michaeltrs/RethinkNIRVISにある。

Heterogeneous face recognition (HFR) involves the intricate task of matching face images across the visual domains of visible (VIS) and near-infrared (NIR). While much of the existing literature on HFR identifies the domain gap as a primary challenge and directs efforts towards bridging it at either the input or feature level, our work deviates from this trend. We observe that large neural networks, unlike their smaller counterparts, when pre-trained on large scale homogeneous VIS data, demonstrate exceptional zero-shot performance in HFR, suggesting that the domain gap might be less pronounced than previously believed. By approaching the HFR problem as one of low-data fine-tuning, we introduce a straightforward framework: comprehensive pre-training, succeeded by a regularized fine-tuning strategy, that matches or surpasses the current state-of-the-art on four publicly available benchmarks. Corresponding codes can be found at https://github.com/michaeltrs/RethinkNIRVIS.
翻訳日:2023-12-04 14:21:58 公開日:2023-12-01
# 食品安全保障のトレンド予測--貯水池コンピューティングのアプローチ

Forecasting Trends in Food Security: a Reservoir Computing Approach ( http://arxiv.org/abs/2312.00626v1 )

ライセンス: Link先を確認
Joschka Herteux, Christoph R\"ath, Amine Baha, Giulia Martini, Duccio Piovani(参考訳) 早期警戒システムは効果的な人道行動に不可欠な手段である。 差し迫った災害に対する前向きな警告は、タイムリーで目標とする対応を促進し、生活、生活、金融資源の不足を救える。 本研究は,マリ,ナイジェリア,シリア,イエメンの4カ国で,60日間連続して食料消費の水準を予測するための新しい定量的方法論を提案する。 この手法は、世界食糧プログラムが統合した飢餓モニタリングシステムから入手可能なデータに基づいて構築されており、90か国にわたる主要な食料安全保障指標、紛争、気象イベント、その他の食料不安全の要因に関する毎日のアップデートを収集、処理、表示している(https://hungermap.wfp.org/)。 本研究では, ARIMA, XGBoost, LSTMs, CNNs, Reservoir Computing (RC) などのモデルの性能を, Root Mean Squared Error (RMSE) との比較により評価した。 この包括的な分析は、古典統計学、機械学習、ディープラーニングのアプローチに及んでいる。 その結果,リザーバコンピューティングは,限られたデータサンプルの過剰充填に対する強い抵抗と効率的なトレーニング能力の両方を考慮し,食品セキュリティの分野において特に適したモデルとして注目された。 本手法は,食品の安全性の予測と検出を目的とした,グローバルなデータ駆動早期警報システムの基盤となる。

Early warning systems are an essential tool for effective humanitarian action. Advance warnings on impending disasters facilitate timely and targeted response which help save lives, livelihoods, and scarce financial resources. In this work we present a new quantitative methodology to forecast levels of food consumption for 60 consecutive days, at the sub-national level, in four countries: Mali, Nigeria, Syria, and Yemen. The methodology is built on publicly available data from the World Food Programme's integrated global hunger monitoring system which collects, processes, and displays daily updates on key food security metrics, conflict, weather events, and other drivers of food insecurity across 90 countries (https://hungermap.wfp.org/). In this study, we assessed the performance of various models including ARIMA, XGBoost, LSTMs, CNNs, and Reservoir Computing (RC), by comparing their Root Mean Squared Error (RMSE) metrics. This comprehensive analysis spanned classical statistical, machine learning, and deep learning approaches. Our findings highlight Reservoir Computing as a particularly well-suited model in the field of food security given both its notable resistance to over-fitting on limited data samples and its efficient training capabilities. The methodology we introduce establishes the groundwork for a global, data-driven early warning system designed to anticipate and detect food insecurity.
翻訳日:2023-12-04 14:21:40 公開日:2023-12-01
# 実用的なパスベースベイズ最適化

Practical Path-based Bayesian Optimization ( http://arxiv.org/abs/2312.00622v1 )

ライセンス: Link先を確認
Jose Pablo Folch, James Odgers, Shiqiang Zhang, Robert M Lee, Behrang Shafei, David Walz, Calvin Tsay, Mark van der Wilk, Ruth Misener(参考訳) 化学工学と医薬品製造への応用により、データ駆動の実験設計への関心が高まっている。 ベイズ最適化(bo)は、高価なブラックボックス関数として興味のある反応をモデル化できるため、そのようなケースに適応できることが証明されている。 このブラックボックス関数のコストは2つの部分に分けられることがある。 (a)実験自体の費用、及び (b)入力パラメータを変更するコスト。 本稿では,SnAKeアルゴリズムを拡張し,両種類のコストを同時に処理する。 さらに、最大許容可能な入力変更の場合と、多目的設定の拡張についても提案する。

There has been a surge in interest in data-driven experimental design with applications to chemical engineering and drug manufacturing. Bayesian optimization (BO) has proven to be adaptable to such cases, since we can model the reactions of interest as expensive black-box functions. Sometimes, the cost of this black-box functions can be separated into two parts: (a) the cost of the experiment itself, and (b) the cost of changing the input parameters. In this short paper, we extend the SnAKe algorithm to deal with both types of costs simultaneously. We further propose extensions to the case of a maximum allowable input change, as well as to the multi-objective setting.
翻訳日:2023-12-04 14:21:15 公開日:2023-12-01
# 重み付きリース粒子

Weighted Riesz Particles ( http://arxiv.org/abs/2312.00621v1 )

ライセンス: Link先を確認
Xiongming Dai, Gerald Baumgartner(参考訳) マルコフ連鎖モンテカルロ法(mcmc)は、複素統計分布の局所的探索によってシミュレーションされ、対象に対する特定の解析式に対する煩雑な要求を回避しつつ、不確定なパラメータ空間の確率的探索は多くのサンプルの犠牲となり、この計算複雑性はパラメータ次元とともに増加する。 探索レベルでは、テンペリング、ハミルトニアンモンテカルロ、rao-redwellization、スケーラブルな手法などのアルゴリズムの収束を加速するいくつかの手法が提案されているが、この探索の確率的性質を避けることはできない。 対象分布は、パラメータの無限次元ユーレアー空間が多くの決定論的部分多様体からなる写像であり、一般化されたエネルギー計量、すなわち重み付きリースエネルギー(英語版)を提案する。 本研究では,リニア・ガウス状態空間モデル(合成データ)と非線型確率的ボラティリティモデル(実世界データ)を用いて実験的検討を行い,各点の特性を解析し,逐次的mcmcに組み込むことにより,より少ない評価で高い受入率が得られることを示す。

Markov chain Monte Carlo (MCMC) methods are simulated by local exploration of complex statistical distributions, and while bypassing the cumbersome requirement of a specific analytical expression for the target, this stochastic exploration of an uncertain parameter space comes at the expense of a large number of samples, and this computational complexity increases with parameter dimensionality. Although at the exploration level, some methods are proposed to accelerate the convergence of the algorithm, such as tempering, Hamiltonian Monte Carlo, Rao-redwellization, and scalable methods for better performance, it cannot avoid the stochastic nature of this exploration. We consider the target distribution as a mapping where the infinite-dimensional Eulerian space of the parameters consists of a number of deterministic submanifolds and propose a generalized energy metric, termed weighted Riesz energy, where a number of points is generated through pairwise interactions, to discretize rectifiable submanifolds. We study the properties of the point, called Riesz particle, and embed it into sequential MCMC, and we find that there will be higher acceptance rates with fewer evaluations, we validate it through experimental comparative analysis from a linear Gaussian state-space model with synthetic data and a non-linear stochastic volatility model with real-world data.
翻訳日:2023-12-04 14:21:06 公開日:2023-12-01
# 縦断的臨床登録簿における異なる計測機器の統合のためのドメイン適応手法の検討

Investigating a domain adaptation approach for integrating different measurement instruments in a longitudinal clinical registry ( http://arxiv.org/abs/2312.00616v1 )

ライセンス: Link先を確認
Maren Hackenberg, Michelle Pfaffenlehner, Max Behrens, Astrid Pechmann, Janbernd Kirschner, Harald Binder(参考訳) 長期臨床登録では、異なる時点の個人を評価するために異なる測定装置が使用された可能性がある。 これらを組み合わせるために,異なる測定器の項目をマッピングするジョイント潜在表現を得るための深層学習手法について検討した。 これは画像データのためのコンピュータサイエンスにおける確立された概念であるドメイン適応に対応する。 提案手法を例に,脊髄筋萎縮症(sma)患者の登録簿における運動機能計測器の異なる応用によって動機づけられた,比較的少ない時間点の縦型コホート設定における領域適応の可能性を評価する。 そこで,通常の微分方程式(ODE)による潜在表現の軌跡をモデル化し,基本特性から個人固有のODEパラメータを推定する。 ODEソリューションの適合性と複雑性の良さにより、測定器のマッピングを判断することができる。 次に、対応するペナルティ項をモデルフィッティングに組み込むことでアライメントを改善する方法について検討する。 測定器間の差分の影響を系統的に検討するために,修正SMAデータに基づくいくつかのシナリオを検討する。 より複雑なシナリオでは誤調整が増加するが、測定器の可用性が患者の状態に依存する場合でも、一部の構造は回復される。 より複雑な実SMAデータセットでも、合理的なマッピングが実現可能である。 これらの結果は、縦断レジストリデータの統計モデリングにおいて、ドメイン適応がより一般的に有用であることを示している。

In a longitudinal clinical registry, different measurement instruments might have been used for assessing individuals at different time points. To combine them, we investigate deep learning techniques for obtaining a joint latent representation, to which the items of different measurement instruments are mapped. This corresponds to domain adaptation, an established concept in computer science for image data. Using the proposed approach as an example, we evaluate the potential of domain adaptation in a longitudinal cohort setting with a rather small number of time points, motivated by an application with different motor function measurement instruments in a registry of spinal muscular atrophy (SMA) patients. There, we model trajectories in the latent representation by ordinary differential equations (ODEs), where person-specific ODE parameters are inferred from baseline characteristics. The goodness of fit and complexity of the ODE solutions then allows to judge the measurement instrument mappings. We subsequently explore how alignment can be improved by incorporating corresponding penalty terms into model fitting. To systematically investigate the effect of differences between measurement instruments, we consider several scenarios based on modified SMA data, including scenarios where a mapping should be feasible in principle and scenarios where no perfect mapping is available. While misalignment increases in more complex scenarios, some structure is still recovered, even if the availability of measurement instruments depends on patient state. A reasonable mapping is feasible also in the more complex real SMA dataset. These results indicate that domain adaptation might be more generally useful in statistical modeling for longitudinal registry data.
翻訳日:2023-12-04 14:20:40 公開日:2023-12-01
# 量子スピン系のwehrlエントロピーと絡み合い複雑性

Wehrl Entropy and Entanglement Complexity of Quantum Spin Systems ( http://arxiv.org/abs/2312.00611v1 )

ライセンス: Link先を確認
Chen Xu, Yiqi Yu and Peng Zhang(参考訳) 量子状態のWehrlエントロピー (Wehrl entropy) はコヒーレント状態分布関数 (Husimi function) のエントロピーであり、純粋状態に対してもゼロではない。 我々は、SU(2)$^{\otimes N}$コヒーレント状態(すなわち各粒子のスピンコヒーレント状態の直積)に関して、$N$スピン-1/2粒子に対するWehrlエントロピーについて検討する。 1)このWehrlエントロピーの統計的解釈。 2)wehrlエントロピーと量子エンタングルメントの関係 (1) に対して、コヒーレントな状態が正規直交基底群を成さないにもかかわらず、Wehrlエントロピーは依然として明確な物理的意味を持つ確率分布のエントロピーと解釈できる。 2) では, 粒子数 2\leq N\leq 20$ の様々な絡み合った純状態のWehrlエントロピーを数値計算する。 我々の結果は、N$$(N\gtrsim 10$)のシステムの場合、高カオスな絡み合った状態のWehrlエントロピーが通常の状態(例えばGHZ状態)よりもはるかに大きいことを示している。 これらの結果は、Wehrlエントロピーが局所ユニタリ変換の下で不変であるという事実と相まって、Wehrlエントロピーは、Husimi関数とWehrlエントロピー(Jour)の定義から直接A. Sugitaが提唱したように、多体純状態の量子絡み合い(絡み合いの複雑さ)の複雑さを反映できることを示している。 Phys 第36巻9081号(2003年)。 さらに、粒子当たりのwehrlエントロピーは、この複雑さの定量的な説明として役立つ。 さらに、多体純絡状態は、粒子当たりのWehrlエントロピーの振舞いにより、それぞれ異なる絡み合い複雑性を持つ極限$N\rightarrow\infty$の3つの型に分類できることを示す。

The Wehrl entropy of a quantum state is the entropy of the coherent-state distribution function (Husimi function), and is non-zero even for pure states. We investigate the Wehrl entropy for $N$ spin-1/2 particles with respect to SU(2)$^{\otimes N}$ coherent states (i.e., the direct products of spin coherent states of each particle). We focus on: (1) The statistical interpretation of this Wehrl entropy. (2) The relationship between the Wehrl entropy and quantum entanglement. For (1), despite the coherent states not forming a group of orthonormal bases, we prove that the Wehrl entropy can still be interpreted as the entropy of a probability distribution with clear physical meaning. For (2), we numerically calculate the Wehrl entropy of various entangled pure states with particle number $2\leq N\leq 20$. Our results show that for the large-$N$ ($N\gtrsim 10$) systems the Wehrl entropy of the highly chaotic entangled states are much larger than that of the regular ones (e.g., the GHZ state). These results, together with the fact that the Wehrl entropy is invariant under local unitary transformations, indicate that the Wehrl entropy can reflect the complexity of the quantum entanglement (entanglement complexity) of many-body pure states, as A. Sugita proposed directly from the definitions of the Husimi function and Wehrl entropy (Jour. Phys. A 36, 9081 (2003)). Furthermore, the Wehrl entropy per particle can serve as a quantitative description of this complexity. We further show that the many-body pure entangled states can be classified into three types, according to the behaviors of the Wehrl entropy per particle in the limit $N\rightarrow\infty$, with the states of each type having very different entanglement complexity.
翻訳日:2023-12-04 14:20:15 公開日:2023-12-01
# 量子スクイーズ光によるプラズモニック結合量子ドットにおけるロバスト絡みの発生

Generation of Robust Entanglement in Plasmonically Coupled Quantum Dots Driven by Quantum Squeezed Light ( http://arxiv.org/abs/2312.00608v1 )

ライセンス: Link先を確認
Sina Soleimanikahnoj, Stephen K. Gray and Norbert F. Scherer(参考訳) 我々の空洞量子力学計算は、単一モード励起光源を用いて、プラズモン結合された量子ドット間の定常な絡み合いの発生を実証する。 我々は、プラズモンの入射光源への強い結合と、スクイズド光子生成のペアワイズの性質が、初期励起の量子ドット間の絡み合いの形成を可能にすることを示した。 コンカージェンスとして測定された量子ドットの絡み合いは、光パルス源を圧縮光子の連続ポンピングに置き換えることで改善することができる。 以前導入されたスキームとは異なり、コンカレンスはシステムパラメータの変動に対して堅牢である。 具体的には、絡み合いの発生はプラズモン量子ドットカップリングの微調整に依存しない。 この研究は、オープン量子系における堅牢な絡み合った状態の準備の新しい視点を提供する。

Our cavity quantum electrodynamics calculations demonstrate generation of steady-state entanglement between a plasmonically coupled pair of quantum dots by using single-mode squeezed light source. We show that strong coupling of plasmons to the incoming light source and the pairwise nature of squeezed photon generation enable the formation of entanglement between the initially unexcited quantum dots. The entanglement of quantum dots, measured as concurrence, can be improved replacing a pulsed source of light to continuous pumping of squeezed photons. Unlike previously introduced schemes the concurrence is robust against variations in the system parameters. Specifically, the generation of entanglement does not rely on fine tuning of plasmon quantum dot coupling. This work provides a new perspective for robust entangled state preparation in open quantum systems.
翻訳日:2023-12-04 14:19:34 公開日:2023-12-01
# エッジモード、拡張TQFT、および測定に基づく量子計算

Edge modes, extended TQFT, and measurement based quantum computation ( http://arxiv.org/abs/2312.00605v1 )

ライセンス: Link先を確認
Gabriel Wong(参考訳) 量子テレポーテーションは、量子状態 \cite{Czech:2018kvg} の絡み合い構造を特徴づける平行輸送の概念を定義するために用いられる。 これは、絡み合いのゲージ理論を定式化できることを示している。 述語{Wong:2022mnv} では、1次元における測定に基づく量子計算がそのようなゲージ理論(MBQC)の用語で理解できることが説明されている。 本研究では、この「絡み合いゲージ理論」を拡張位相場理論として代替定式化する。 この定式化は、回路モデルとmbqcの関係に関する別の視点を与える。 さらに、ゲージ理論における拡張ヒルベルト空間構成(英語版)(extended hilbert space construction)の観点から、mbqc の解釈を提供し、エンタングルメントエッジモードが論理キュービットの役割を担う。

Quantum teleportation can be used to define a notion of parallel transport which characterizes the entanglement structure of a quantum state \cite{Czech:2018kvg}. This suggests one can formulate a gauge theory of entanglement. In \cite{Wong:2022mnv}, it was explained that measurement based quantum computation in one dimension can be understood in term of such a gauge theory (MBQC). In this work, we give an alternative formulation of this "entanglement gauge theory" as an extended topological field theory. This formulation gives a alternative perspective on the relation between the circuit model and MBQC. In addition, it provides an interpretation of MBQC in terms of the extended Hilbert space construction in gauge theories, in which the entanglement edge modes play the role of the logical qubit.
翻訳日:2023-12-04 14:19:22 公開日:2023-12-01
# 協調学習によるオンライン連続学習の可塑性向上

Improving Plasticity in Online Continual Learning via Collaborative Learning ( http://arxiv.org/abs/2312.00600v1 )

ライセンス: Link先を確認
Maorong Wang, Nicolas Michel, Ling Xiao, Toshihiko Yamasaki(参考訳) online continual learning (cl)は、継続的にデータストリームから新しい分類タスクを絶えず学習する問題を解決する。 オンラインCLのオフライン版とは異なり、トレーニングデータは一度しか見ることができない。 既存のオンラインCL研究の多くは、破滅的な忘れ(すなわちモデル安定性)をほとんど唯一の課題とみなしている。 本稿では,新しい知識(すなわちモデル可塑性)を得るためのモデルの能力は,オンラインclにおけるもう一つの課題であると主張する。 リプレイベースの戦略は破滅的な忘れを和らげるのに有効であることが示されているが、モデル可塑性の改善に向けた研究の注目の差は顕著である。 そこで本研究では,新しい概念獲得におけるモデルの能力を向上させるための協調学習ベースの戦略であるコラボレーティブ・コンチネンタル・ラーニング(ccl)を提案する。 さらに,モデルの学習を促進するための新しい協調学習方式である蒸留連鎖(dc)についても紹介する。 我々は既存の代表的オンラインCL作品にCCL-DCを適用した。 大規模な実験により、学習者が最先端のオンラインCL手法で十分に訓練されているとしても、我々の戦略はモデル可塑性を劇的に改善し、それによって全体の性能を大きく向上させることができることを示した。

Online Continual Learning (CL) solves the problem of learning the ever-emerging new classification tasks from a continuous data stream. Unlike its offline counterpart, in online CL, the training data can only be seen once. Most existing online CL research regards catastrophic forgetting (i.e., model stability) as almost the only challenge. In this paper, we argue that the model's capability to acquire new knowledge (i.e., model plasticity) is another challenge in online CL. While replay-based strategies have been shown to be effective in alleviating catastrophic forgetting, there is a notable gap in research attention toward improving model plasticity. To this end, we propose Collaborative Continual Learning (CCL), a collaborative learning based strategy to improve the model's capability in acquiring new concepts. Additionally, we introduce Distillation Chain (DC), a novel collaborative learning scheme to boost the training of the models. We adapted CCL-DC to existing representative online CL works. Extensive experiments demonstrate that even if the learners are well-trained with state-of-the-art online CL methods, our strategy can still improve model plasticity dramatically, and thereby improve the overall performance by a large margin.
翻訳日:2023-12-04 14:19:09 公開日:2023-12-01
# 量子計測理論における2つの結果

Two Results in the Quantum Theory of Measurements ( http://arxiv.org/abs/2312.00599v1 )

ライセンス: Link先を確認
Simone Del Vecchio, J\"urg Fr\"ohlich, Alessandro Pizzo, Alessio Ranallo(参考訳) 測定の量子論への応用に関する2つの定理が述べられ、証明されている。 最初のものは、コペンハーゲンの量子力学解釈で用いられるフォン・ノイマン測度仮説を明確化し、修正したものである。 2つ目は、'events' と '`measurements' の関係と、量子力学への$ETH$-Approach における測定の意味を明らかにすることである。

Two theorems with applications to the quantum theory of measurements are stated and proven. The first one clarifies and amends von Neumann's Measurement Postulate used in the Copenhagen interpretation of quantum mechanics. The second one clarifies the relationship between ``events'' and ``measurements'' and the meaning of measurements in the $ETH$-Approach to quantum mechanics.
翻訳日:2023-12-04 14:18:49 公開日:2023-12-01
# 連続したビデオストリームから学ぶ

Learning from One Continuous Video Stream ( http://arxiv.org/abs/2312.00598v1 )

ライセンス: Link先を確認
Jo\~ao Carreira, Michael King, Viorica P\u{a}tr\u{a}ucean, Dilara Gokay, C\u{a}t\u{a}lin Ionescu, Yi Yang, Daniel Zoran, Joseph Heyward, Carl Doersch, Yusuf Aytar, Dima Damen, Andrew Zisserman(参考訳) 私たちは、オンライン学習のためのフレームワークを単一の連続的なビデオストリームから導入します。 これは連続するビデオフレーム間の高い相関関係を考えると大きな課題となり、それ以前の作業はほとんどない。 我々のフレームワークは、このトピックを深く掘り下げ、既存の2つのビデオデータセットから作られたストリームとタスクのコレクションと、適応と一般化の両方を考慮したパフォーマンス評価の方法論を含むことができます。 我々は,事前学習と単一ストリーム評価の切り替えと任意のタスクの切り替えを,モデルの変更を必要とせず,常に同じピクセル損失を使用するための実用的で柔軟な方法として,ピクセル間モデリングを採用している。 このフレームワークを実装して,新しい予測タスクのファミリーによる事前学習から得られる,大規模な単一ストリーム学習の成果を得た。 これらの洞察の組み合わせは、同じアーキテクチャを使用し、コストのかかるリプレイバッファなしで、iid学習のパフォーマンスをバッチサイズ1にマッチさせる。

We introduce a framework for online learning from a single continuous video stream -- the way people and animals learn, without mini-batches, data augmentation or shuffling. This poses great challenges given the high correlation between consecutive video frames and there is very little prior work on it. Our framework allows us to do a first deep dive into the topic and includes a collection of streams and tasks composed from two existing video datasets, plus methodology for performance evaluation that considers both adaptation and generalization. We employ pixel-to-pixel modelling as a practical and flexible way to switch between pre-training and single-stream evaluation as well as between arbitrary tasks, without ever requiring changes to models and always using the same pixel loss. Equipped with this framework we obtained large single-stream learning gains from pre-training with a novel family of future prediction tasks, found that momentum hurts, and that the pace of weight updates matters. The combination of these insights leads to matching the performance of IID learning with batch size 1, when using the same architecture and without costly replay buffers.
翻訳日:2023-12-04 14:18:42 公開日:2023-12-01
# UAVと鳥:Budgerigar Flight Studyによる短距離航法の強化

UAVs and Birds: Enhancing Short-Range Navigation through Budgerigar Flight Studies ( http://arxiv.org/abs/2312.00597v1 )

ライセンス: Link先を確認
Md. Mahmudur Rahman, Sajid Islam, Showren Chowdhury, Sadia Jahan Zeba and Debajyoti Karmaker(参考訳) 本研究は,Budgerigars (Melopsittacus undulatus) の飛行行動について検討し,飛行軌跡や運動の知見を得た。 ステレオビデオカメラ記録からの3次元再構成を用いて,3回の飛行動作の離陸,飛行,着陸時の速度と加速度のパターンを精査した。 この知見は鳥の行動の理解に寄与するだけでなく、無人航空機(UAV)におけるアルゴリズムの進歩にも重要な意味を持つ。 この研究は、鳥類で観察される生物学的原理と、より効率的で自律的なUAVの開発におけるこれらの洞察の応用のギャップを埋めることを目的としている。 ドローンの利用が増加する中で、この研究は、鳥の行動、特に離陸、飛行、着陸の際に引き起こされた生物学的にインスパイアされた原則に焦点を当て、UAV能力を向上する。 この研究のために作られたデータセットは、Budgerigarsの離陸、飛行、着陸技術に光を当て、さまざまな状況や表面の速度を制御する能力を強調している。 この研究は、これらの原則をUAVアルゴリズムに組み込むことの可能性を強調し、短距離航法、離陸、飛行、着陸に関わる課題に対処する。

This study delves into the flight behaviors of Budgerigars (Melopsittacus undulatus) to gain insights into their flight trajectories and movements. Using 3D reconstruction from stereo video camera recordings, we closely examine the velocity and acceleration patterns during three flight motion takeoff, flying and landing. The findings not only contribute to our understanding of bird behaviors but also hold significant implications for the advancement of algorithms in Unmanned Aerial Vehicles (UAVs). The research aims to bridge the gap between biological principles observed in birds and the application of these insights in developing more efficient and autonomous UAVs. In the context of the increasing use of drones, this study focuses on the biologically inspired principles drawn from bird behaviors, particularly during takeoff, flying and landing flight, to enhance UAV capabilities. The dataset created for this research sheds light on Budgerigars' takeoff, flying, and landing techniques, emphasizing their ability to control speed across different situations and surfaces. The study underscores the potential of incorporating these principles into UAV algorithms, addressing challenges related to short-range navigation, takeoff, flying, and landing.
翻訳日:2023-12-04 14:18:24 公開日:2023-12-01
# 熱電流変動による整流ローレンツ力

Rectified Lorentz Force from Thermal Current Fluctuations ( http://arxiv.org/abs/2312.00666v1 )

ライセンス: Link先を確認
Carsten Henkel(参考訳) 有限温度保持された導電媒体において、自由キャリアはブラウン運動を行い、変動する電磁場を生成する。 平均的なローレンツ力密度を計算し、薄い地下の層では0にならず、表面を向いているが、バルクでは0になってしまう。 これは補正されたゆらぎの基本的な例であり、カシミール力や放射熱輸送と同様である。 また,ドリュードモデルといわゆるプラズマモデルとの区別実験を行った。

In a conducting medium held at finite temperature, free carriers are performing Brownian motion and generate fluctuating electromagnetic fields. We compute the averaged Lorentz force density that turns out nonzero in a thin sub-surface layer, pointing towards the surface, while vanishing in the bulk. This is an elementary example of rectified fluctuations, similar to the Casimir force or radiative heat transport. Our results also provide an experimental way to distinguish between the Drude and so-called plasma models.
翻訳日:2023-12-04 14:11:14 公開日:2023-12-01
# 階層的特徴型事前学習と領域対応微調整による一般化ラベル効率3次元シーン解析

Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning ( http://arxiv.org/abs/2312.00663v1 )

ライセンス: Link先を確認
Kangcheng Liu, Yong-Jin Liu, Kai Tang, Ming Liu, Baoquan Chen(参考訳) ディープニューラルネットワークモデルは、クローズドセット設定とフルラベルでトレーニングしながら、3dシーン理解において著しく進歩した。 しかし、現在の3D認識アプローチの大きなボトルネックは、様々な種類の現実世界のアプリケーションにおいて、トレーニングカテゴリを超えて、目に見えない新しいクラスを認識する能力がないことである。 その間、現在の最先端の3dシーン理解アプローチでは、ニューラルネットワークをトレーニングするための高品質なラベルが必要である。 本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のための,汎用的でシンプルな枠組みを提示する。 事前学習された視覚言語モデルから新しいカテゴリの知識を抽出するために,大規模視覚言語モデルから意味のある情報を抽出・抽出する階層的特徴整合型事前学習・知識蒸留手法を提案する。 境界情報を活用するために,領域レベル境界予測の恩恵を受ける境界認識を伴う新しいエネルギーベース損失を提案する。 潜在インスタンスの識別を奨励し、効率性を確保するため、ニューラルネットワークの確実な予測を用いて、複数の段階における中間特徴埋め込みを識別する非教師付き領域レベル意味論的学習手法を提案する。 室内と屋外の両方で大規模な実験を行い、データ効率の学習とオープンワールドのショット学習の両方において、我々のアプローチの有効性を実証した。 https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2q-MTAP? usp=共有。

Deep neural network models have achieved remarkable progress in 3D scene understanding while trained in the closed-set setting and with full labels. However, the major bottleneck for current 3D recognition approaches is that they do not have the capacity to recognize any unseen novel classes beyond the training categories in diverse kinds of real-world applications. In the meantime, current state-of-the-art 3D scene understanding approaches primarily require high-quality labels to train neural networks, which merely perform well in a fully supervised manner. This work presents a generalized and simple framework for dealing with 3D scene understanding when the labeled scenes are quite limited. To extract knowledge for novel categories from the pre-trained vision-language models, we propose a hierarchical feature-aligned pre-training and knowledge distillation strategy to extract and distill meaningful information from large-scale vision-language models, which helps benefit the open-vocabulary scene understanding tasks. To leverage the boundary information, we propose a novel energy-based loss with boundary awareness benefiting from the region-level boundary predictions. To encourage latent instance discrimination and to guarantee efficiency, we propose the unsupervised region-level semantic contrastive learning scheme for point clouds, using confident predictions of the neural network to discriminate the intermediate feature embeddings at multiple stages. Extensive experiments with both indoor and outdoor scenes demonstrated the effectiveness of our approach in both data-efficient learning and open-world few-shot learning. All codes, models, and data are made publicly available at: https://drive.google.com/drive/folders/1M58V-PtR8DBEwD296zJkNg_m2qq-MTAP?usp=sharing.
翻訳日:2023-12-04 14:11:05 公開日:2023-12-01
# 予習変圧器の非パラメトリック変動正規化

Nonparametric Variational Regularisation of Pretrained Transformers ( http://arxiv.org/abs/2312.00662v1 )

ライセンス: Link先を確認
Fabio Fehr, James Henderson(参考訳) 現在の大規模事前学習および微調整型トランスフォーマー大規模言語モデルのパラダイムは、自然言語処理におけるボード全体の大幅な改善につながっている。 しかし、そのような大きなモデルは、トレーニングデータに過度に適合するおそれがあり、結果として、ドメインが変化するとモデルの性能が低下する。 また、モデルのスケールのため、モデルを新しいドメインに微調整するコストが大きい。 非パラメトリック変分情報ボトルネック(NVIB)はトランスフォーマーにおけるクロスアテンションのトレーニングのレギュラーとして提案されており、オーバーフィット問題に対処する可能性がある。 我々は,NVIBフレームワークを拡張して,既存の事前学習トランスフォーマーをNonparametric Variational (NV)モデルとして再解釈可能であることを示す。 次に,初期化の変更は注意機構に新しい情報理論的ポストトレーニング正規化を導入し,ドメイン外の一般化をトレーニングなしで改善することを示した。 この成功は、事前訓練されたトランスフォーマーが暗黙的にNVベイズモデルであるという仮説を支持する。

The current paradigm of large-scale pre-training and fine-tuning Transformer large language models has lead to significant improvements across the board in natural language processing. However, such large models are susceptible to overfitting to their training data, and as a result the models perform poorly when the domain changes. Also, due to the model's scale, the cost of fine-tuning the model to the new domain is large. Nonparametric Variational Information Bottleneck (NVIB) has been proposed as a regulariser for training cross-attention in Transformers, potentially addressing the overfitting problem. We extend the NVIB framework to replace all types of attention functions in Transformers, and show that existing pretrained Transformers can be reinterpreted as Nonparametric Variational (NV) models using a proposed identity initialisation. We then show that changing the initialisation introduces a novel, information-theoretic post-training regularisation in the attention mechanism, which improves out-of-domain generalisation without any training. This success supports the hypothesis that pretrained Transformers are implicitly NV Bayesian models.
翻訳日:2023-12-04 14:10:37 公開日:2023-12-01
# 合成核融合ネットワークを用いたデュアルドメインマルチコントラストMRI再構成

Dual-Domain Multi-Contrast MRI Reconstruction with Synthesis-based Fusion Network ( http://arxiv.org/abs/2312.00661v1 )

ライセンス: Link先を確認
Junwei Yang, Pietro Li\`o(参考訳) 目的:マルチコントラストmriのための効率的なデュアルドメイン再構成フレームワークの開発に向けて,画像領域と周波数領域の両方におけるクロスコントラスト不一致を最小化し,最適化を促進することを目的とした。 理論と手法: 深層学習に基づく提案フレームワークは, より高速な完全サンプリング基準コントラストを用いて, アンダーサンプリング対象コントラストの最適化を容易にする。 方法は3つの重要なステップから構成される。 1) 参照コントラストから対象コントラストに類似したデータを合成する学習 2)マルチコントラストデータの登録とスキャン間動作の低減 3) 対象のコントラストを再構築するための登録データの利用 これらのステップには、整合性を確保するために正規化を適用した両方のドメインでの学習が含まれる。 また,脳MRIのデータセットを用いて,再構成性能を既存のディープラーニング手法と比較した。 結果: 最先端アルゴリズムと比較して, 最大8倍の加速率で提案手法の優越性を示す実験を行った。 包括的解析およびアブレーション研究により,提案成分の有効性がさらに示された。 結論:我々のデュアルドメインフレームワークは、マルチコントラストMRI再構成に有望なアプローチを提供する。 また、再建をさらに強化するために既存の方法と統合することもできる。

Purpose: To develop an efficient dual-domain reconstruction framework for multi-contrast MRI, with the focus on minimising cross-contrast misalignment in both the image and the frequency domains to enhance optimisation. Theory and Methods: Our proposed framework, based on deep learning, facilitates the optimisation for under-sampled target contrast using fully-sampled reference contrast that is quicker to acquire. The method consists of three key steps: 1) Learning to synthesise data resembling the target contrast from the reference contrast; 2) Registering the multi-contrast data to reduce inter-scan motion; and 3) Utilising the registered data for reconstructing the target contrast. These steps involve learning in both domains with regularisation applied to ensure their consistency. We also compare the reconstruction performance with existing deep learning-based methods using a dataset of brain MRI scans. Results: Extensive experiments demonstrate the superiority of our proposed framework, for up to an 8-fold acceleration rate, compared to state-of-the-art algorithms. Comprehensive analysis and ablation studies further present the effectiveness of the proposed components. Conclusion:Our dual-domain framework offers a promising approach to multi-contrast MRI reconstruction. It can also be integrated with existing methods to further enhance the reconstruction.
翻訳日:2023-12-04 14:10:17 公開日:2023-12-01
# 人間ピアラーニングに触発された資源制約付き知識拡散過程

Resource-constrained knowledge diffusion processes inspired by human peer learning ( http://arxiv.org/abs/2312.00660v1 )

ライセンス: Link先を確認
Ehsan Beikihassan, Amy K.Hoover, Ioannis Koutis, Ali Parviz, Niloofar Aghaieabiane(参考訳) 人工学習者の集団が与えられる環境について考察し,その目的は,学習資源の制約の下で,パフォーマンスの集約的尺度を最適化することにある。 この問題は、人間の教育システムにおけるピアラーニングの研究に動機づけられている。 本研究では,対話型人工学習者のネットワークにおける自然知識拡散過程について検討する。 自然」とは,学生の内的状態や学習過程がほとんど不透明である人間のピア学習を反映したプロセスであり,学習者をピアグループに割り当てる前に潜在的に評価できるコーディネータによるピア学習グループの形成に自由度が主である。 特に,このようなプロセスが実際にトレーニングリソースを効果的に活用し,ノイズの多いラベルを過度に当てはまることなく一般化する能力を持つモジュール型ニューラルモデルの設計を可能にすることを実証的に示す。

We consider a setting where a population of artificial learners is given, and the objective is to optimize aggregate measures of performance, under constraints on training resources. The problem is motivated by the study of peer learning in human educational systems. In this context, we study natural knowledge diffusion processes in networks of interacting artificial learners. By `natural', we mean processes that reflect human peer learning where the students' internal state and learning process is mostly opaque, and the main degree of freedom lies in the formation of peer learning groups by a coordinator who can potentially evaluate the learners before assigning them to peer groups. Among else, we empirically show that such processes indeed make effective use of the training resources, and enable the design of modular neural models that have the capacity to generalize without being prone to overfitting noisy labels.
翻訳日:2023-12-04 14:10:00 公開日:2023-12-01
# 回帰タスクの簡易転送可能性推定

Simple Transferability Estimation for Regression Tasks ( http://arxiv.org/abs/2312.00656v1 )

ライセンス: Link先を確認
Cuong N. Nguyen, Phong Tran, Lam Si Tung Ho, Vu Dinh, Anh T. Tran, Tal Hassner, Cuong V. Nguyen(参考訳) トランスファー可能性の推定について検討し,ディープラーニングモデルがソースから対象タスクへどの程度よく移行するかを推定する。 本稿では, 線形回帰モデルの正則平均二乗誤差に基づいて, 伝達可能性を推定する2つの単純かつ効率的な手法を提案する。 提案手法を伝達学習過程から得られた最適対象モデルの実際の伝達可能性と結びつけた新しい理論的結果を示す。 その単純さにもかかわらず、我々のアプローチは、精度と効率の両方で既存の最先端の回帰移動率推定器よりも大幅に優れている。 2つの大規模キーポイント回帰ベンチマークでは、我々の手法は平均で12%から36%、従来の最先端手法よりも少なくとも27%高速である。

We consider transferability estimation, the problem of estimating how well deep learning models transfer from a source to a target task. We focus on regression tasks, which received little previous attention, and propose two simple and computationally efficient approaches that estimate transferability based on the negative regularized mean squared error of a linear regression model. We prove novel theoretical results connecting our approaches to the actual transferability of the optimal target models obtained from the transfer learning process. Despite their simplicity, our approaches significantly outperform existing state-of-the-art regression transferability estimators in both accuracy and efficiency. On two large-scale keypoint regression benchmarks, our approaches yield 12% to 36% better results on average while being at least 27% faster than previous state-of-the-art methods.
翻訳日:2023-12-04 14:09:45 公開日:2023-12-01
# 健康のための機械学習シンポジウム2023 -- findings track

Machine Learning for Health symposium 2023 -- Findings track ( http://arxiv.org/abs/2312.00655v1 )

ライセンス: Link先を確認
Stefan Hegselmann, Antonio Parziale, Divya Shanmugam, Shengpu Tang, Mercy Nyamewaa Asiedu, Serina Chang, Thomas Hartvigsen, Harvineet Singh(参考訳) 2023年12月10日にルイジアナ州ニューオーリンズで開催された第3回機械学習・フォー・ヘルスシンポジウム(ML4H 2023)で発表されたFindingsの論文集。 ML4H 2023は、医療、バイオメディシン、公衆衛生など、様々な健康関連分野における問題に関する高品質な申請を招待した。 提出トラックはアーカイバル・プロシージャー・トラックと非アーキバル・アック・トラックの2つが提供された。 研究対象は、高度な技術的洗練と健康への影響の高い成熟した作業であった。 調査結果のトラックは、洞察に富んだ議論を呼び起こしたり、コミュニティにとって貴重なリソースになったり、新しいコラボレーションを可能にする新しいアイデアを探した。 手続トラックへの提出は受理されなかったとしても、自動的に結果トラックとして検討された。 ml4hシンポジウムに提出された全ての原稿は、二重盲検のピアレビュープロセスが行われた。

A collection of the accepted Findings papers that were presented at the 3rd Machine Learning for Health symposium (ML4H 2023), which was held on December 10, 2023, in New Orleans, Louisiana, USA. ML4H 2023 invited high-quality submissions on relevant problems in a variety of health-related disciplines including healthcare, biomedicine, and public health. Two submission tracks were offered: the archival Proceedings track, and the non-archival Findings track. Proceedings were targeted at mature work with strong technical sophistication and a high impact to health. The Findings track looked for new ideas that could spark insightful discussion, serve as valuable resources for the community, or could enable new collaborations. Submissions to the Proceedings track, if not accepted, were automatically considered for the Findings track. All the manuscripts submitted to ML4H Symposium underwent a double-blind peer-review process.
翻訳日:2023-12-04 14:09:34 公開日:2023-12-01
# trackdiffusion:拡散モデルによるマルチオブジェクト追跡データ生成

TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models ( http://arxiv.org/abs/2312.00651v1 )

ライセンス: Link先を確認
Pengxiang Li, Zhili Liu, Kai Chen, Lanqing Hong, Yunzhi Zhuge, Dit-Yan Yeung, Huchuan Lu, Xu Jia(参考訳) 拡散モデルは画像分類や物体検出などの知覚タスクのためのデータ生成において顕著である。 しかし、映像知覚の分野で重要な側面である高品質な追跡シーケンスを生成する可能性については、十分に検討されていない。 このギャップに対処するために,トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャであるtrackdiffusionを提案する。 trackdiffusionは、画像拡散モデルに動的かつ連続的な追跡軌跡を包含させ、複雑な動きニュアンスをキャプチャし、ビデオフレーム間のインスタンス一貫性を確保することで、バウンディングボックスのような静的なイメージ要素に焦点を当てた従来のレイアウト・ツー・イメージ(l2i)生成とコピー・ペースト合成とは大きく異なる。 生成したビデオシーケンスがMOT(Multi-object Tracking)システムのトレーニングに利用できることを初めて実証し、トラッカー性能が大幅に向上した。 実験の結果,本モデルは生成した映像列のインスタンス一貫性を著しく向上させ,知覚指標の改善に繋がることがわかった。 提案手法は,TrackAPの8.7とTrackAP$_{50}$11.8をYTVISデータセット上で実現し,MOTタスク以降におけるビデオデータ生成の標準を再定義する可能性を示している。

Diffusion models have gained prominence in generating data for perception tasks such as image classification and object detection. However, the potential in generating high-quality tracking sequences, a crucial aspect in the field of video perception, has not been fully investigated. To address this gap, we propose TrackDiffusion, a novel architecture designed to generate continuous video sequences from the tracklets. TrackDiffusion represents a significant departure from the traditional layout-to-image (L2I) generation and copy-paste synthesis focusing on static image elements like bounding boxes by empowering image diffusion models to encompass dynamic and continuous tracking trajectories, thereby capturing complex motion nuances and ensuring instance consistency among video frames. For the first time, we demonstrate that the generated video sequences can be utilized for training multi-object tracking (MOT) systems, leading to significant improvement in tracker performance. Experimental results show that our model significantly enhances instance consistency in generated video sequences, leading to improved perceptual metrics. Our approach achieves an improvement of 8.7 in TrackAP and 11.8 in TrackAP$_{50}$ on the YTVIS dataset, underscoring its potential to redefine the standards of video data generation for MOT tasks and beyond.
翻訳日:2023-12-04 14:09:19 公開日:2023-12-01
# オープン量子回路における量子カオスと異常緩和のロバスト性

Robustness of Quantum Chaos and Anomalous Relaxation in Open Quantum Circuits ( http://arxiv.org/abs/2312.00649v1 )

ライセンス: Link先を確認
Takato Yoshimura and Lucas S\'a(参考訳) 散逸は自然界において、カオス量子力学の運命に影響を与えるユビキタス現象である。 一般量子多体系における量子カオスと散逸の相互作用を特徴付けるために、最小の散逸的なフロケ多体系を考える。 任意の一点非ユニタリゲート(量子チャネル)の存在下でのランダム位相モデルのスペクトル形式因子の開量子系への拡張である散逸形式因子(dissipative form factor, dff)について検討した。 大きな局所ヒルベルト空間次元の極限において、ランダムなユニタリゲート上で平均化されたDFFの正確な式を得る。 十分に長い時間の間、系は常に緩やかに(つまりDFF崩壊)、ギャップ閉鎖の有無によって特徴づけられる2つの特徴的な状態を持つ。 システムは、ギャップ閉鎖状態において長い(しかし有限な)時間間隔で堅牢なランプを維持することができるが、ギャップがゼロのままである状態において量子カオスによって緩和は「補助」される。 後者の系では、熱力学的極限が先に取られた場合、そのギャップは散逸のない極限でも閉まらないことが分かる。

Dissipation is a ubiquitous phenomenon in nature that affects the fate of chaotic quantum dynamics. To characterize the interplay between quantum chaos and dissipation in generic quantum many-body systems, we consider a minimal dissipative Floquet many-body system. We study the dissipative form factor (DFF), an extension of the spectral form factor to open quantum systems, of the random phase model in the presence of arbitrary one-site nonunitary gates (quantum channels). In the limit of large local Hilbert space dimension, we obtain an exact expression for the DFF averaged over the random unitary gates, with simple, closed-form expressions in the limit of large times. We find that, for long enough times, the system always relaxes (i.e., the DFF decays) with two distinctive regimes characterized by the presence or absence of gap closing. While the system can sustain a robust ramp for a long (but finite) time interval in the gap-closing regime, relaxation is ``assisted'' by quantum chaos in the regime where the gap remains nonzero. In the latter regime, we find that, if the thermodynamic limit is taken first, the gap does not close even in the dissipationless limit.
翻訳日:2023-12-04 14:08:51 公開日:2023-12-01
# SPOT:自己回帰変換器を用いた物体中心学習のためのパッチ順変換による自己学習

SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers ( http://arxiv.org/abs/2312.00648v1 )

ライセンス: Link先を確認
Ioannis Kakogeorgiou, Spyros Gidaris, Konstantinos Karantzalos, Nikos Komodakis(参考訳) 教師なしのオブジェクト中心学習は、シーンを解釈可能なオブジェクトエンティティに分解することを目的としている。 Slotベースのオートエンコーダは、このタスクの顕著な方法である。 その中に、オブジェクト固有のスロットを生成するためにエンコーダを誘導し、リコンストラクション中にデコーダがそれらを利用できるようにするという重要な側面がある。 この本は2つの新しいテクニックを紹介します (i)デコーダからエンコーダへの優れたスロットベースのアテンションマスクを蒸留し、オブジェクトのセグメンテーションを高めたアテンションベースのセルフトレーニングアプローチ (II) 自己回帰変換器のパッチ順置換の革新的戦略により, 再構成におけるスロットベクトルの役割が強化される。 これらの戦略の有効性を実験的に示す。 この組み合わせアプローチは、特に複雑な実世界の画像において、教師なしオブジェクトセグメンテーションにおいて、以前のスロットベースのオートエンコーダ手法を大幅に上回る。 実装コードはhttps://github.com/gkakogeorgiou/spot で公開しています。

Unsupervised object-centric learning aims to decompose scenes into interpretable object entities, termed slots. Slot-based auto-encoders stand out as a prominent method for this task. Within them, crucial aspects include guiding the encoder to generate object-specific slots and ensuring the decoder utilizes them during reconstruction. This work introduces two novel techniques, (i) an attention-based self-training approach, which distills superior slot-based attention masks from the decoder to the encoder, enhancing object segmentation, and (ii) an innovative patch-order permutation strategy for autoregressive transformers that strengthens the role of slot vectors in reconstruction. The effectiveness of these strategies is showcased experimentally. The combined approach significantly surpasses prior slot-based autoencoder methods in unsupervised object segmentation, especially with complex real-world images. We provide the implementation code at https://github.com/gkakogeorgiou/spot .
翻訳日:2023-12-04 14:08:28 公開日:2023-12-01
# Hashmarks:AI評価のためのプライバシ保護ベンチマーク

Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation ( http://arxiv.org/abs/2312.00645v1 )

ライセンス: Link先を確認
Paul Bricman(参考訳) バイオテロリズムやサイバー戦争のようなセンシティブなトピックに関連する言語モデルの能力に関する洞察を得る必要性が高まっている。 しかし、従来のオープンソースベンチマークは、正しい回答を人間に読める形で公開する習慣があるため、このタスクには適していない。 同時に、強制的な四半期評価の実施は、開発を阻害し、信頼を損なう可能性がある。 本稿では,正しい回答を開示することなく,オープンで言語モデルを評価するためのプロトコルであるhashmarkingを提案する。 最も単純な形式では、hashmarkは公開前に参照ソリューションが暗号的にハッシュ化されているベンチマークである。 提案した評価プロトコルの概要に続いて,従来の攻撃ベクトル(虹色のテーブルアタックなど)に対するレジリエンスや,より有能な生成モデルに特有の障害モードに対するレジリエンスを評価する。

There is a growing need to gain insight into language model capabilities that relate to sensitive topics, such as bioterrorism or cyberwarfare. However, traditional open source benchmarks are not fit for the task, due to the associated practice of publishing the correct answers in human-readable form. At the same time, enforcing mandatory closed-quarters evaluations might stifle development and erode trust. In this context, we propose hashmarking, a protocol for evaluating language models in the open without having to disclose the correct answers. In its simplest form, a hashmark is a benchmark whose reference solutions have been cryptographically hashed prior to publication. Following an overview of the proposed evaluation protocol, we go on to assess its resilience against traditional attack vectors (e.g. rainbow table attacks), as well as against failure modes unique to increasingly capable generative models.
翻訳日:2023-12-04 14:08:10 公開日:2023-12-01
# 1つは全員を打ち負かす:「龍」-セーフボール構築のための統一的枠組み

One to beat them all: "RYU'' -- a unifying framework for the construction of safe balls ( http://arxiv.org/abs/2312.00640v1 )

ライセンス: Link先を確認
Thu-Le Tran, Cl\'ement Elvira, Hong-Phuong Dang, C\'edric Herzet(参考訳) 本稿では,対象最適化問題の双対解を証明可能な領域である `safe'' 球構築のための新しいフレームワーク ( `RYU''' ) を作成した。 コスト関数が閉、正則、凸リプシッツ-滑らか関数と閉、正則、凸関数の2項の和であるような標準設定に集中する。 RYUフレームワークは,過去10年間に提案されてきた最適化問題の全結果の一般化や改善を図っている。

In this paper, we put forth a novel framework (named ``RYU'') for the construction of ``safe'' balls, i.e. regions that provably contain the dual solution of a target optimization problem. We concentrate on the standard setup where the cost function is the sum of two terms: a closed, proper, convex Lipschitz-smooth function and a closed, proper, convex function. The RYU framework is shown to generalize or improve upon all the results proposed in the last decade for the considered family of optimization problems.
翻訳日:2023-12-04 14:07:56 公開日:2023-12-01
# EvE: 放射界濃縮のための生成優先事項の爆発

EvE: Exploiting Generative Priors for Radiance Field Enrichment ( http://arxiv.org/abs/2312.00639v1 )

ライセンス: Link先を確認
Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Jeremie Mary, Val\'erie Gouet-Brunet(参考訳) 制約のない画像コレクションからの大規模なシーンのモデリングは、コンピュータビジョンにおいて大きな課題であることが証明されている。 既存のニューラルネットワークレンダリング処理方法はクローズドワールド環境で動作し、知識はトレーニングセット内のシーンのキャプチャ画像に限られる。 EvE(EvE)は,我々の知識を最大限に活用するために,まず,生成前の先進的手法を用いてシーンモデリングを改善する方法を提案する。 我々は、K-Planes表現を外部知識で強化するために、事前訓練された生成ネットワークを用いる。 この目的のために,訓練セット上で訓練されたk面の最適化指導を行うための交互訓練手順を定義する。 本研究では,本手法の総合データおよび実観光写真収集における有用性を検証し,広範な実験を行った。 EvEはレンダリングシーンをよりリッチなディテールで強化し、新しいビューシンセサイザーのタスクにおいて芸術の状態を上回ります。 私たちのプロジェクトページはhttps://eve-nvs.github.io で参照できます。

Modeling large-scale scenes from unconstrained image collections in-the-wild has proven to be a major challenge in computer vision. Existing methods tackling in-the-wild neural rendering operate in a closed-world setting, where knowledge is limited to a scene's captured images within a training set. We propose EvE, which is, to the best of our knowledge, the first method leveraging generative priors to improve in-the-wild scene modeling. We employ pre-trained generative networks to enrich K-Planes representations with extrinsic knowledge. To this end, we define an alternating training procedure to conduct optimization guidance of K-Planes trained on the training set. We carry out extensive experiments and verify the merit of our method on synthetic data as well as real tourism photo collections. EvE enhances rendered scenes with richer details and outperforms the state of the art on the task of novel view synthesis in-the-wild. Our project page can be found at https://eve-nvs.github.io .
翻訳日:2023-12-04 14:07:46 公開日:2023-12-01
# 医用画像分割用視覚変換器に関する最近の調査

A Recent Survey of Vision Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2312.00634v1 )

ライセンス: Link先を確認
Asifullah Khan, Zunaira Rauf, Abdul Rehman Khan, Saima Rathore, Saddam Hussain Khan, Sahar Shah, Umair Farooq, Hifsa Asif, Aqsa Asif, Umme Zahoora, Rafi Ullah Khalil, Suleman Qamar, Umme Hani Asif, Faiza Babar Khan, Abdul Majid and Jeonghwan Gwak(参考訳) 医療画像分割は、診断、治療計画、疾患のモニタリングを可能にする様々な医療アプリケーションにおいて重要な役割を果たす。 近年,ビジョントランスフォーマー (ViT) は医用画像セグメンテーションの課題に対処するための有望な手法として登場している。 医療画像では、構造は通常高度に相互接続され、グローバルに分布する。 ViTは、画像内の長距離関係をモデル化するために、そのマルチスケールアテンションメカニズムを利用する。 しかし、画像に関連した帰納バイアスや翻訳的不変性が欠如しており、性能に影響を及ぼす可能性がある。 近年、研究者らはCNNをアーキテクチャに組み込んだ様々なViTベースのアプローチ、HVT(Hybrid Vision Transformers)を考案し、画像のグローバル情報に加えて局所的相関を捉えている。 本研究は, 医用画像セグメンテーションにおけるViTsおよびHVTsの最近の進歩について, 概説する。 ViTおよびHVTに基づく医用画像分割手法の分類とともに、複数の医用画像モダリティにおけるリアルタイム応用の概要を詳述する。 この調査は、ViTベースの医療画像セグメンテーションの最先端のアプローチを理解する上で、研究者、医療実践者、学生にとって貴重なリソースとなる可能性がある。

Medical image segmentation plays a crucial role in various healthcare applications, enabling accurate diagnosis, treatment planning, and disease monitoring. In recent years, Vision Transformers (ViTs) have emerged as a promising technique for addressing the challenges in medical image segmentation. In medical images, structures are usually highly interconnected and globally distributed. ViTs utilize their multi-scale attention mechanism to model the long-range relationships in the images. However, they do lack image-related inductive bias and translational invariance, potentially impacting their performance. Recently, researchers have come up with various ViT-based approaches that incorporate CNNs in their architectures, known as Hybrid Vision Transformers (HVTs) to capture local correlation in addition to the global information in the images. This survey paper provides a detailed review of the recent advancements in ViTs and HVTs for medical image segmentation. Along with the categorization of ViT and HVT-based medical image segmentation approaches we also present a detailed overview of their real-time applications in several medical image modalities. This survey may serve as a valuable resource for researchers, healthcare practitioners, and students in understanding the state-of-the-art approaches for ViT-based medical image segmentation.
翻訳日:2023-12-04 14:07:30 公開日:2023-12-01
# 自律走行のための鳥の視点空間における効率的な3次元物体検出に向けて:畳み込み型アプローチ

Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach ( http://arxiv.org/abs/2312.00633v1 )

ライセンス: Link先を確認
Yuxin Li, Qiang Han, Mengying Yu, Yuxin Jiang, Chaikiat Yeo, Yiheng Li, Zihang Huang, Nini Liu, Hsuanhan Chen, Xiaojun Wu(参考訳) bird's-eye-view (bev)空間における3dオブジェクト検出は、自動運転の分野で広く普及しているアプローチとして最近登場した。 視点視点法と比較して精度と速度推定の実証的な改善にもかかわらず、現実の自動運転車へのBEVベースの技術の展開は依然として困難である。 これは主に視覚変換器(ViT)ベースのアーキテクチャに依存しており、入力解像度に関して2次複雑さをもたらす。 この問題を解決するために,BEVベースの手法の有効性を維持しつつ,VTモデルの限界を回避するために,畳み込みのみのアーキテクチャ設計を利用するBEVENetという効率的なBEVベースの3D検出フレームワークを提案する。 私たちの実験では、bevenet は、nuscenes challenge における現在の state-the-art (sota) アプローチよりも 3$\times$ 高速であり、平均平均精度 (map) 0.456 と nuscenes validation データセット上で 0.555 の nuscenes detection score (nds) を達成し、推論速度は 47.6 フレーム/秒である。 我々の知る限り、この研究は、BEVベースの手法でこのような大幅な効率改善を初めて達成し、現実の自動運転アプリケーションの実現可能性を高めるものである。

3D object detection in Bird's-Eye-View (BEV) space has recently emerged as a prevalent approach in the field of autonomous driving. Despite the demonstrated improvements in accuracy and velocity estimation compared to perspective view methods, the deployment of BEV-based techniques in real-world autonomous vehicles remains challenging. This is primarily due to their reliance on vision-transformer (ViT) based architectures, which introduce quadratic complexity with respect to the input resolution. To address this issue, we propose an efficient BEV-based 3D detection framework called BEVENet, which leverages a convolutional-only architectural design to circumvent the limitations of ViT models while maintaining the effectiveness of BEV-based methods. Our experiments show that BEVENet is 3$\times$ faster than contemporary state-of-the-art (SOTA) approaches on the NuScenes challenge, achieving a mean average precision (mAP) of 0.456 and a nuScenes detection score (NDS) of 0.555 on the NuScenes validation dataset, with an inference speed of 47.6 frames per second. To the best of our knowledge, this study stands as the first to achieve such significant efficiency improvements for BEV-based methods, highlighting their enhanced feasibility for real-world autonomous driving applications.
翻訳日:2023-12-04 14:07:12 公開日:2023-12-01
# GIFT: 再生可能な微調整変換器

GIFT: Generative Interpretable Fine-Tuning Transformers ( http://arxiv.org/abs/2312.00700v1 )

ライセンス: Link先を確認
Chinmay Savadikar, Xi Song, Tianfu Wu(参考訳) 本稿では、下流タスクにおける微調整済み(しばしば大きな)トランスフォーマーモデルを、内蔵の解釈性を持つパラメータ効率の良い方法でGIFT(Generative Interpretable Fine-tuning Transformer)を提案する。 我々は,事前学習したトランスフォーマーモデルの微調整における2つの問題に対処し,パラメータ効率の良い微調整(peft)を極端に軽量かつ十分に表現可能とする方法と,事前学習モデルの知識を直接的に活用するためにペフトを学習する方法を提案する。 前者に対しては、トランスフォーマーモデルのマルチヘッド自己アテンションにおける最終的な投影(線形)層を選択し、その有効性を検証する。 後者については,下流データとの微調整において学習される新しいモデルパラメータ(しばしば低ランク近似形)を直接導入する先行技術とは対照的に,微調整パラメータを生成するための学習方法を提案する。 提案するパラメータ・ツー・クラスタ・アテンション(paca)を用いて,プロジェクション層の事前学習パラメータを入力し,微調整パラメータを生成するハイパートランスフォーマである。 PaCaは、テストにおいてセマンティックセグメンテーションの役割を担う単純なクラスタリングベースのフォワード説明器を提供する。 実験では,提案したGIFTをVTABベンチマークとFGVCベンチマークで検証した。 先行技術よりもかなり優れた性能を得る。 私たちのコードはhttps://github.com/savadikarc/giftで利用可能です。

We present GIFT (Generative Interpretable Fine-tuning Transformers) for fine-tuning pretrained (often large) Transformer models at downstream tasks in a parameter-efficient way with built-in interpretability. Our GIFT is a deep parameter-residual learning method, which addresses two problems in fine-tuning a pretrained Transformer model: Where to apply the parameter-efficient fine-tuning (PEFT) to be extremely lightweight yet sufficiently expressive, and How to learn the PEFT to better exploit the knowledge of the pretrained model in a direct way? For the former, we select the final projection (linear) layer in the multi-head self-attention of a Transformer model, and verify its effectiveness. For the latter, in contrast to the prior art that directly introduce new model parameters (often in low-rank approximation form) to be learned in fine-tuning with downstream data, we propose a method for learning to generate the fine-tuning parameters. Our GIFT is a hyper-Transformer which take as input the pretrained parameters of the projection layer to generate its fine-tuning parameters using a proposed Parameter-to-Cluster Attention (PaCa). The PaCa results in a simple clustering-based forward explainer that plays the role of semantic segmentation in testing. In experiments, our proposed GIFT is tested on the VTAB benchmark and the fine-grained visual classification (FGVC) benchmark. It obtains significantly better performance than the prior art. Our code is available at https://github.com/savadikarc/gift
翻訳日:2023-12-04 14:01:54 公開日:2023-12-01
# ビジュアルリッチ文書における検出に基づくテーブル構造認識の再考

Rethinking Detection Based Table Structure Recognition for Visually Rich Documents ( http://arxiv.org/abs/2312.00699v1 )

ライセンス: Link先を確認
Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir(参考訳) テーブル構造認識(tsr)は、非構造化テーブルイメージをhtmlシーケンスのような構造化フォーマットに変換することを目的としている。 一般的なソリューションの1つのタイプは、検出モデルを使用して、列や行などのテーブルのコンポーネントを検出し、次にルールベースの後処理を適用して、検出結果をHTMLシーケンスに変換することである。 しかし、既存の検出に基づく研究は、しばしば以下の制限がある。 第一に、これらの研究は通常、検出性能の改善に注意を払うが、TEDSのような細胞レベルのメトリクスに関して、必ずしもより良いパフォーマンスをもたらすとは限らない。 第二に、いくつかのソリューションは問題を単純化し、重要な情報を見逃す可能性がある。 最後に、いくつかの研究では、他のタイプのソリューションと同程度の情報を提供するためにより多くのコンポーネントを検出する問題を定義しているが、行、投影された行ヘッダ、列ヘッダが同一のバウンディングボックスを共有することができるため、この問題定義がマルチラベル検出であるという事実を無視する。 さらに、COCOメトリクスに関して同様のパフォーマンスを持つにもかかわらず、構造のみのTEDSに関して、2段階とトランスフォーマーベースの検出モデルの間には、しばしばパフォーマンスギャップがある。 そこで我々は,既存の検出ベースソリューションの限界を再考し,2段階およびトランスフォーマーベースの検出モデルを比較し,マルチクラス問題定義,アンカーボックス生成のアスペクト比,バックボーンネットワークの機能生成を含む,TSRタスクの2段階検出モデルの成功のための重要な設計側面を特定する。 SciTSR, FinTabNet, PubTables1Mデータセット上の構造のみのTEDSについて, 単純な手法を適用し, 最先端の性能を実現し, ベースラインのCascade R-CNNモデルを19.32%, 11.56%, 14.77%改善した。

Table Structure Recognition (TSR) aims at transforming unstructured table images into structured formats, such as HTML sequences. One type of popular solution is using detection models to detect components of a table, such as columns and rows, then applying a rule-based post-processing method to convert detection results into HTML sequences. However, existing detection-based studies often have the following limitations. First, these studies usually pay more attention to improving the detection performance, which does not necessarily lead to better performance regarding cell-level metrics, such as TEDS. Second, some solutions over-simplify the problem and can miss some critical information. Lastly, even though some studies defined the problem to detect more components to provide as much information as other types of solutions, these studies ignore the fact this problem definition is a multi-label detection because row, projected row header and column header can share identical bounding boxes. Besides, there is often a performance gap between two-stage and transformer-based detection models regarding the structure-only TEDS, even though they have similar performance regarding the COCO metrics. Therefore, we revisit the limitations of existing detection-based solutions, compare two-stage and transformer-based detection models, and identify the key design aspects for the success of a two-stage detection model for the TSR task, including the multi-class problem definition, the aspect ratio for anchor box generation, and the feature generation of the backbone network. We applied simple methods to improve these aspects of the Cascade R-CNN model, achieved state-of-the-art performance, and improved the baseline Cascade R-CNN model by 19.32%, 11.56% and 14.77% regarding the structure-only TEDS on SciTSR, FinTabNet, and PubTables1M datasets.
翻訳日:2023-12-04 14:01:29 公開日:2023-12-01
# 通勤運転者によるLCUの低オーバーヘッド並列化

Low-Overhead Parallelisation of LCU via Commuting Operators ( http://arxiv.org/abs/2312.00696v1 )

ライセンス: Link先を確認
Gregory Boyd(参考訳) LCU(Linear Combination of Unitary)法は演算子のブロック符号化の強力なスキームであるが、高いオーバーヘッドに悩まされている。 本稿では,LCUの並列化,特にLCUのSELECTサブルーチンについて,可観測粒子を通勤演算子の群に分割した上で,必要なクリフォード回路を一定深さで実行可能にする適応回路とテレポーテーションの利用について論じる。 実用的な分子ハミルトニアンにとって、深さの節約はo(n)$であり、h$_2$oハミルトニアン上で選択した場合の深さの節約は、小さな問題のサイズが我々のスキームにとって最悪の場合であるにもかかわらず、計算には$2\times$が必要であることを示唆する証拠がある。 本稿では,フォールトトレラント設定における本手法の意義について論じる。並列化は論理アルゴリズムと同じ因子で$t$-countを変更することなく$t$-depthを減少させる。

The Linear Combination of Unitaries (LCU) method is a powerful scheme for the block encoding of operators but suffers from high overheads. In this work, we discuss the parallelisation of LCU and in particular the SELECT subroutine of LCU based on partitioning of observables into groups of commuting operators, as well as the use of adaptive circuits and teleportation that allow us to perform required Clifford circuits in constant depth. We only require an $O(\log n)$ factor increase in the number of qubits in order to produce a significant depth reduction, with evidence suggesting that for practical molecular Hamiltonians, the depth saving is $O(n)$, and calculate a depth saving of $20\times$ for SELECT on a H$_2$O Hamiltonian, even though small problem sizes are the worst case for our scheme. We discuss the implications of our method in the fault-tolerant setting, noting that parallelisation reduces the $T$-depth by the same factor as the logical algorithm, without changing the $T$-count.
翻訳日:2023-12-04 14:00:56 公開日:2023-12-01
# 合成および実訓練データを用いた物体検出器の差異

Object Detector Differences when using Synthetic and Real Training Data ( http://arxiv.org/abs/2312.00694v1 )

ライセンス: Link先を確認
Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu, Pierre Nugues(参考訳) 高性能な一般化ニューラルネットワークをトレーニングするには、十分に大きく多様なデータセットが必要である。 プライバシ法を遵守しながらデータを収集することはますます難しくなり、これらの大規模なデータセットに注釈をつけることは、リソース重大かつ時間を要するタスクである。 これらの困難を克服するアプローチは、本質的にスケーラブルで自動注釈を付けることができるため、合成データを使用することである。 しかし、合成データのトレーニングがニューラルネットワークの層に与える影響は、まだ不明である。 本稿では,都市環境からの実画像と合成画像を用いてYOLOv3オブジェクト検出器を訓練する。 本研究では,CKA(Centered Kernel Alignment)を用いた類似性解析を行い,合成データに対する学習効果について検討する。 分析は、異なるモデル間で異なるパターンと類似のパターンを示しながら、検出器のアーキテクチャをキャプチャする。 この類似性分析では、合成データのトレーニングが各層に与える影響について洞察し、複雑なニューラルネットワークの内部動作をよりよく理解したいと思っています。 その結果、実データで訓練された検出器と合成データで訓練された検出器との最大の類似性は初期の層にあり、最も大きな違いは頭部にあることがわかった。 また, 凍結後骨と凍結後骨の間には, 性能や類似性に大きな差は見られなかった。

To train well-performing generalizing neural networks, sufficiently large and diverse datasets are needed. Collecting data while adhering to privacy legislation becomes increasingly difficult and annotating these large datasets is both a resource-heavy and time-consuming task. An approach to overcome these difficulties is to use synthetic data since it is inherently scalable and can be automatically annotated. However, how training on synthetic data affects the layers of a neural network is still unclear. In this paper, we train the YOLOv3 object detector on real and synthetic images from city environments. We perform a similarity analysis using Centered Kernel Alignment (CKA) to explore the effects of training on synthetic data on a layer-wise basis. The analysis captures the architecture of the detector while showing both different and similar patterns between different models. With this similarity analysis we want to give insights on how training synthetic data affects each layer and to give a better understanding of the inner workings of complex neural networks. The results show that the largest similarity between a detector trained on real data and a detector trained on synthetic data was in the early layers, and the largest difference was in the head part. The results also show that no major difference in performance or similarity could be seen between frozen and unfrozen backbone.
翻訳日:2023-12-04 14:00:22 公開日:2023-12-01
# VisionaryVR:バーチャルリアリティにおける視覚補正ソリューションの評価と最適化のための光学シミュレーションツール

VisionaryVR: An Optical Simulation Tool for Evaluating and Optimizing Vision Correction Solutions in Virtual Reality ( http://arxiv.org/abs/2312.00692v1 )

ライセンス: Link先を確認
Benedikt W. Hosp, Martin Dechant, Yannick Sauer, Rajat Agarwala, and Siegfried Wahl(参考訳) 視覚科学の手法の開発と評価には、様々な現実のシナリオでそれらの性能を評価するための堅牢で効率的なツールが必要である。 本研究は,実世界の光学的手法をシミュレートし,実験に高い実験制御を与える新しい仮想現実(vr)シミュレーションツールを提案する。 このツールには、複数の条件をスムーズに簡単に扱える実験用コントローラ、一般的な視線追跡コントローラ、設定可能なデフォーカスシミュレータ、仮想現実における参加者の行動を評価する一般的なVRアンケートローダが組み込まれている。 このVRベースのシミュレーションツールは、新しい光学的方法、修正、治療に関する理論的研究と応用研究のギャップを埋める。 視覚科学者は、堅牢で現実的で高速な研究環境で研究ツールを拡大することができる。

Developing and evaluating vision science methods require robust and efficient tools for assessing their performance in various real-world scenarios. This study presents a novel virtual reality (VR) simulation tool that simulates real-world optical methods while giving high experimental control to the experiment. The tool incorporates an experiment controller, to smoothly and easily handle multiple conditions, a generic eye-tracking controller, that works with most common VR eye-trackers, a configurable defocus simulator, and a generic VR questionnaire loader to assess participants' behavior in virtual reality. This VR-based simulation tool bridges the gap between theoretical and applied research on new optical methods, corrections, and therapies. It enables vision scientists to increase their research tools with a robust, realistic, and fast research environment.
翻訳日:2023-12-04 13:59:43 公開日:2023-12-01
# 開語彙オブジェクト6Dポーズ推定

Open-vocabulary object 6D pose estimation ( http://arxiv.org/abs/2312.00690v1 )

ライセンス: Link先を確認
Jaime Corsetti, Davide Boscaini, Changjae Oh, Andrea Cavallaro, Fabio Poiesi(参考訳) 本稿では,興味のある対象を特定するのにテキストプロンプトを用いるopen-vocabulary object 6d pose estimationの新たな設定について紹介する。 既存のアプローチとは対照的に、私たちの設定では (i)利害関係の対象は、テキストプロンプトを通してのみ特定される。 (ii)推論において対象モデル(cadやビデオシーケンスなど)は不要である。 (iii)二つの異なる場面の2つの異なる視点から撮影され、 (4)訓練期間中に対象物は観察されなかった。 そこで本研究では,2つの異なるシーンから対象対象を分割し,その相対的な6dポーズを推定する視覚言語モデルを用いた新しい手法を提案する。 提案手法の鍵となるのは,プロンプトによって提供されるオブジェクトレベルの情報を局所的な画像特徴と融合させることで,新しい概念に一般化できる特徴空間を実現することである。 我々は,2つの一般的なデータセットであるREAL275とToyota-Lightに基づく新しいベンチマークに対するアプローチを検証する。 その結果,本手法は,物体の相対的な6次元ポーズの推定において,手作り手法と最近のディープラーニングベースラインの両方に優れていた。 プロジェクトサイト: https://jcorsetti.github.io/oryon-website/

We introduce the new setting of open-vocabulary object 6D pose estimation, in which a textual prompt is used to specify the object of interest. In contrast to existing approaches, in our setting (i) the object of interest is specified solely through the textual prompt, (ii) no object model (e.g. CAD or video sequence) is required at inference, (iii) the object is imaged from two different viewpoints of two different scenes, and (iv) the object was not observed during the training phase. To operate in this setting, we introduce a novel approach that leverages a Vision-Language Model to segment the object of interest from two distinct scenes and to estimate its relative 6D pose. The key of our approach is a carefully devised strategy to fuse object-level information provided by the prompt with local image features, resulting in a feature space that can generalize to novel concepts. We validate our approach on a new benchmark based on two popular datasets, REAL275 and Toyota-Light, which collectively encompass 39 object instances appearing in four thousand image pairs. The results demonstrate that our approach outperforms both a well-established hand-crafted method and a recent deep learning-based baseline in estimating the relative 6D pose of objects in different scenes. Project website: https://jcorsetti.github.io/oryon-website/.
翻訳日:2023-12-04 13:59:17 公開日:2023-12-01
# GANによる赤外画像超解像

Infrared Image Super-Resolution via GAN ( http://arxiv.org/abs/2312.00689v1 )

ライセンス: Link先を確認
Yongsong Huang and Shinichiro Omachi(参考訳) データ分布に正確に適合する生成モデルの能力は、コンピュータビジョンや自然言語処理といった分野で広く採用され、成功を収めた。 本稿では,赤外線(ir)画像の超解像領域における生成モデルの応用について概説するとともに,様々な課題と対応訓練法について考察する。 我々は、IR画像超解像のための生成モデルの適用について、さらなる研究と進歩のための潜在的な領域を提案する。

The ability of generative models to accurately fit data distributions has resulted in their widespread adoption and success in fields such as computer vision and natural language processing. In this chapter, we provide a brief overview of the application of generative models in the domain of infrared (IR) image super-resolution, including a discussion of the various challenges and adversarial training methods employed. We propose potential areas for further investigation and advancement in the application of generative models for IR image super-resolution.
翻訳日:2023-12-04 13:58:46 公開日:2023-12-01
# コリファレンスレゾリューションの透明性に向けて:量子インスパイアされたアプローチ

Towards Transparency in Coreference Resolution: A Quantum-Inspired Approach ( http://arxiv.org/abs/2312.00688v1 )

ライセンス: Link先を確認
Hadi Wazni, Mehrnoosh Sadrzadeh(参考訳) 文法構造で導かれる言葉は文を形成するために構成され、談話構造で導かれる文は対話や文書を形成するために構成される。 文と談話単位の構成的側面は、しばしば機械学習アルゴリズムによって見過ごされる。 量子自然言語処理(QNLP)と呼ばれる最近のイニシアチブは、ヒルベルト空間の点として単語の意味を学び、文法構造をパラメトリッド量子回路(PQC)に変換することによってそれらに作用する。 以前の研究は、ヒルベルト空間の閉包における点を用いて、QNLP変換を談話構造に拡張した。 本稿では,この翻訳をウィノグラード型代名詞分解タスクで評価する。 バイナリ分類のための変分量子分類器(VQC)を訓練し、エンドツーエンドの代名詞分解システムを実装する。 IBMQソフトウェア上で実行されるシミュレーションは、F1スコア87.20%で収束した。 このモデルは3つの古典的コア参照解決システムのうち2つと、最先端のSpanBERTよりも優れていた。 混合量子古典モデルではこれらの結果が改善せず、F1スコアは約6%増加した。

Guided by grammatical structure, words compose to form sentences, and guided by discourse structure, sentences compose to form dialogues and documents. The compositional aspect of sentence and discourse units is often overlooked by machine learning algorithms. A recent initiative called Quantum Natural Language Processing (QNLP) learns word meanings as points in a Hilbert space and acts on them via a translation of grammatical structure into Parametrised Quantum Circuits (PQCs). Previous work extended the QNLP translation to discourse structure using points in a closure of Hilbert spaces. In this paper, we evaluate this translation on a Winograd-style pronoun resolution task. We train a Variational Quantum Classifier (VQC) for binary classification and implement an end-to-end pronoun resolution system. The simulations executed on IBMQ software converged with an F1 score of 87.20%. The model outperformed two out of three classical coreference resolution systems and neared state-of-the-art SpanBERT. A mixed quantum-classical model yet improved these results with an F1 score increase of around 6%.
翻訳日:2023-12-04 13:58:11 公開日:2023-12-01
# 時間進化によるスペクトル推定のための最大混合状態の爆発

Exploiting Maximally Mixed States for Spectral Estimation by Time Evolution ( http://arxiv.org/abs/2312.00687v1 )

ライセンス: Link先を確認
Kaelyn J. Ferris, Zihang Wang, Itay Hen, Amir Kalev, Nicholas T. Bronn, Vojtech Vlcek(参考訳) 量子時間進化を用いて、量子多体ハミルトニアン、より一般にエルミート作用素のスペクトルを推定するための新しいアプローチを導入する。 このアプローチでは、ハミルトニアンの関心の下で最大混合状態を進化させ、特定の時系列測定値を収集してスペクトルを推定している。 現在使われている古典的統計的サンプリング法よりも,本手法の利点を実証する。 ibm量子バックエンド上での2量子ビットハイゼンベルクハミルトニアンのスペクトル分解を実験的に推定することにより,本手法を実証する。 そこで本研究では,物理的に最も近い量子ビットに対して$n$-qubit Pauli回転を制御し,ネイティブエンタングリング相互作用の点から2キュービット回転を表現できるハードウェア効率の分解法を開発した。 これにより、時間発展シミュレーションプロトコルにおけるノイズの多い2ビット演算からのエラーの蓄積を大幅に削減した。 我々は、我々の研究の潜在的影響と、それが開く研究の今後の方向性について論じる。

We introduce a novel approach for estimating the spectrum of quantum many-body Hamiltonians, and more generally, of Hermitian operators, using quantum time evolution. In our approach we are evolving a maximally mixed state under the Hamiltonian of interest and collecting specific time-series measurements to estimate its spectrum. We demonstrate the advantage of our technique over currently used classical statistical sampling methods. We showcase our approach by experimentally estimating the spectral decomposition of a 2-qubit Heisenberg Hamiltonian on an IBM Quantum backend. For this purpose, we develop a hardware-efficient decomposition that controls $n$-qubit Pauli rotations against the physically closest qubit alongside expressing two-qubit rotations in terms of the native entangling interaction. This substantially reduced the accumulation of errors from noisy two-qubit operations in time evolution simulation protocols. We conclude by discussing the potential impact of our work and the future directions of research it opens.
翻訳日:2023-12-04 13:57:39 公開日:2023-12-01
# リニア四重極トラップの加熱速度

Heating rate in a linear quadrupole trap ( http://arxiv.org/abs/2312.00683v1 )

ライセンス: Link先を確認
Adrien Poindron, Jofre Pedregosa-Gutierrez, Caroline Champenois(参考訳) 高周波トラップでは、イオンアンサンブルの温度は高周波加熱による熱平衡に向かって収束する。 この効果は閉じ込められたアンサンブルの安定性に有害であり、冷却の正当化である。 この高周波加熱の強度は、周波数場$q_x$の振幅によって増加する。 解析式を用いて, 冷条件下でのイオンアンサンブル$t_0$の寿命は, 電力法$t_0\propto q_x^A$に従って$q_x$と増加し, 数種類のイオン量$N$に対して有意な差は認められなかった。 爆発開始時の温度は、$q_x$で直線的に減少する。 また,トラッピングパラメータによる非線形不安定性は,t_0$とb$を減少させ,一定の温度範囲で局所的に加熱速度を増加させることを示した。

In radio-frequency trap, the temperature of ion ensembles converges towards a hot equilibrium due to radio-frequency heating. This effect is detrimental to the stability of trapped ensembles and is the justification of cooling. The intensity of this radio-frequency heating increases with the amplitude of the radio-frequency field $q_x$. Using an analytical empirical formula, we show that the lifetime of the ion ensemble $t_0$ under cold condition increases with $q_x$ according to a power law $t_0\propto q_x^A$, and does not vary significantly for the several ion quantities $N$ tested. The temperature of the explosive onset $B$ decreases linearly with $q_x$. We also show that non-linear instabilities due to trapping parameters decreases $t_0$ and $B$, and produce a local increase of heating rate for certain temperature ranges.
翻訳日:2023-12-04 13:57:22 公開日:2023-12-01
# 文脈化語感覚:注意から構成性へ

Contextualized word senses: from attention to compositionality ( http://arxiv.org/abs/2312.00680v1 )

ライセンス: Link先を確認
Pablo Gamallo(参考訳) 言語モデルのニューラルアーキテクチャは、特にアテンションメカニズムに基づいて、トランスフォーマーのニューラルアーキテクチャがますます複雑になりつつある。 自然言語処理タスクへのそれらの適用は非常に実りあることが証明されているが、解釈可能性と説明可能性の少ないモデルであり続けている。 最も適したタスクの1つは、文脈的埋め込みを用いた文脈的単語感覚の符号化である。 本稿では,意味的構成性をモデル化し,文脈感覚を符号化する透過的,解釈可能,言語的に動機付けられた戦略を提案する。 特に依存関係や選択選好やパラダイムクラスといった意味概念に注意が向けられる。 提案モデルの部分的実装を行い、与えられた意味的タスク、すなわち文脈における単語感覚の類似性計算のためのトランスフォーマティブベースのアーキテクチャと比較する。 その結果,複雑なニューラルアーキテクチャの基盤となるブラックボックスを使わずに,言語的動機付けモデルと競合する可能性が示唆された。

The neural architectures of language models are becoming increasingly complex, especially that of Transformers, based on the attention mechanism. Although their application to numerous natural language processing tasks has proven to be very fruitful, they continue to be models with little or no interpretability and explainability. One of the tasks for which they are best suited is the encoding of the contextual sense of words using contextualized embeddings. In this paper we propose a transparent, interpretable, and linguistically motivated strategy for encoding the contextual sense of words by modeling semantic compositionality. Particular attention is given to dependency relations and semantic notions such as selection preferences and paradigmatic classes. A partial implementation of the proposed model is carried out and compared with Transformer-based architectures for a given semantic task, namely the similarity calculation of word senses in context. The results obtained show that it is possible to be competitive with linguistically motivated models instead of using the black boxes underlying complex neural architectures.
翻訳日:2023-12-04 13:57:05 公開日:2023-12-01
# 大規模言語モデルの効率スペクトル:アルゴリズムによる調査

The Efficiency Spectrum of Large Language Models: An Algorithmic Survey ( http://arxiv.org/abs/2312.00678v1 )

ライセンス: Link先を確認
Tianyu Ding, Tianyi Chen, Haidong Zhu, Jiachen Jiang, Yiqi Zhong, Jinxin Zhou, Guangzhi Wang, Zhihui Zhu, Ilya Zharkov, Luming Liang(参考訳) 大規模言語モデル(llm)の急速な成長は、様々な領域を変革し、人工知能の展望を形作る原動力となった。 しかし、これらのモデルの計算とメモリ需要の増加は、学術研究と実践的応用の両方を妨げる重大な課題をもたらす。 これらの問題に対処するため、アルゴリズムソリューションとハードウェアソリューションの両方を含む幅広い手法が開発され、llmの効率が向上している。 本調査では,LLMの効率向上を目的としたアルゴリズムの進歩を概観する。 トレーニングやモデル圧縮といった特定の分野に焦点を当てた他の調査とは異なり、llmのエンドツーエンドアルゴリズム開発に必要な効率の多面的次元について検討する。 具体的には、スケーリング法、データ利用、アーキテクチャの革新、トレーニングとチューニング戦略、推論技術など、効率性に関するさまざまなトピックを取り上げている。 本研究の目的は, 研究者や実践者にとって貴重な資源となり, 今後のイノベーションの土台を築くことにある。 関連した参照のリポジトリは、url{https://github.com/tding1/Efficient-LLM-Survey}で維持されます。

The rapid growth of Large Language Models (LLMs) has been a driving force in transforming various domains, reshaping the artificial general intelligence landscape. However, the increasing computational and memory demands of these models present substantial challenges, hindering both academic research and practical applications. To address these issues, a wide array of methods, including both algorithmic and hardware solutions, have been developed to enhance the efficiency of LLMs. This survey delivers a comprehensive review of algorithmic advancements aimed at improving LLM efficiency. Unlike other surveys that typically focus on specific areas such as training or model compression, this paper examines the multi-faceted dimensions of efficiency essential for the end-to-end algorithmic development of LLMs. Specifically, it covers various topics related to efficiency, including scaling laws, data utilization, architectural innovations, training and tuning strategies, and inference techniques. This paper aims to serve as a valuable resource for researchers and practitioners, laying the groundwork for future innovations in this critical research area. Our repository of relevant references is maintained at url{https://github.com/tding1/Efficient-LLM-Survey}.
翻訳日:2023-12-04 13:56:49 公開日:2023-12-01
# 走査型MRI再構成のための教師なし適応型命令型ニューラル表現学習

Unsupervised Adaptive Implicit Neural Representation Learning for Scan-Specific MRI Reconstruction ( http://arxiv.org/abs/2312.00677v1 )

ライセンス: Link先を確認
Junwei Yang, Pietro Li\`o(参考訳) 最近のMRI再建研究は、MRIの獲得を加速させる大きな可能性を示唆している。 ほとんどの最先端の手法は、特定の臨床条件下では非現実的で高価である再構成モデルを最適化するために、大量の完全サンプルデータを必要とする。 一方,教師なしのスキャン固有再構成法では,過剰フィッティングは制御不足により発生する可能性が高く,加速速度やアンダーサンプリングパターンの制限により,適用性はさらに制限される。 そこで本研究では,スパルシリティレベルやアンダーサンプリングのパターンに制約されることなく,復元品質を向上させるための教師なし,適応的な粒度調整フレームワークを提案する。 このフレームワークは、スキャン固有のMRI再構成に暗黙の神経表現を使用し、多次元座標から対応する信号強度へのマッピングを学習する。 さらに,獲得したk空間信号の自己超越的利用を段階的に洗練する新たな学習戦略を統合する。 このアプローチは、異なる周波数帯域にわたる不均一な分散情報からの監視信号の割合を効果的に調整し、全体的な再構成を改善しながら過度に適合する問題を緩和する。 2次元データと3次元データの両方を含む公開データセットの総合的な評価により,本手法は8倍のアンダーサンプリングにおいて,現在最先端のスキャン固有のMRI再構成技術より優れていることが示された。

In recent studies on MRI reconstruction, advances have shown significant promise for further accelerating the MRI acquisition. Most state-of-the-art methods require a large amount of fully-sampled data to optimise reconstruction models, which is impractical and expensive under certain clinical settings. On the other hand, for unsupervised scan-specific reconstruction methods, overfitting is likely to happen due to insufficient supervision, while restrictions on acceleration rates and under-sampling patterns further limit their applicability. To this end, we propose an unsupervised, adaptive coarse-to-fine framework that enhances reconstruction quality without being constrained by the sparsity levels or patterns in under-sampling. The framework employs an implicit neural representation for scan-specific MRI reconstruction, learning a mapping from multi-dimensional coordinates to their corresponding signal intensities. Moreover, we integrate a novel learning strategy that progressively refines the use of acquired k-space signals for self-supervision. This approach effectively adjusts the proportion of supervising signals from unevenly distributed information across different frequency bands, thus mitigating the issue of overfitting while improving the overall reconstruction. Comprehensive evaluation on a public dataset, including both 2D and 3D data, has shown that our method outperforms current state-of-the-art scan-specific MRI reconstruction techniques, for up to 8-fold under-sampling.
翻訳日:2023-12-04 13:56:30 公開日:2023-12-01
# LightCLIP:軽量ビジョンランゲージモデルのためのマルチレベルインタラクション学習

LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models ( http://arxiv.org/abs/2312.00674v1 )

ライセンス: Link先を確認
Ying Nie, Wei He, Kai Han, Yehui Tang, Tianyu Guo, Fanyi Du, Yunhe Wang(参考訳) CLIPのような視覚言語による事前トレーニングは、ゼロショット画像分類や画像テキスト検索など、さまざまな下流タスクで有望なパフォーマンスを示している。 既存のクリップアライクな作品の多くは、resnet50やvitのような比較的大きな画像エンコーダを採用しているが、ライトウェイトな作品はほとんど議論されない。 本稿では,軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。 まず、一部の画像テキスト対が厳密に1対1対応ではないという問題を緩和するため、負のサンプルのラベルを徐々に軟化することにより、従来のグローバルインスタンスレベルのアライメント目標を改善する。 第二に、画像パッチとテキストワード間のよりきめ細かいアライメントのために、緩和された両部マッチングに基づくトークンレベルアライメントの目的を導入する。 さらに、テキストエンコーダのパラメータの増加に応じてCLIPモデルの精度が向上しないという観測に基づいて、短縮テキストエンコーダのポテンシャルを最大化するために、マスク言語モデリング(MLM)の余分な目的を利用する。 実際、mlmを強化するために、異なるネットワークステージのマスキングテキスト埋め込みに非マスク画像を注入する補助融合モジュールが提案されている。 広範な実験により,提案手法は推論中に計算コストを増大させることなく,複数の下流タスクにおいて高い性能を実現することが示された。

Vision-language pre-training like CLIP has shown promising performance on various downstream tasks such as zero-shot image classification and image-text retrieval. Most of the existing CLIP-alike works usually adopt relatively large image encoders like ResNet50 and ViT, while the lightweight counterparts are rarely discussed. In this paper, we propose a multi-level interaction paradigm for training lightweight CLIP models. Firstly, to mitigate the problem that some image-text pairs are not strictly one-to-one correspondence, we improve the conventional global instance-level alignment objective by softening the label of negative samples progressively. Secondly, a relaxed bipartite matching based token-level alignment objective is introduced for finer-grained alignment between image patches and textual words. Moreover, based on the observation that the accuracy of CLIP model does not increase correspondingly as the parameters of text encoder increase, an extra objective of masked language modeling (MLM) is leveraged for maximizing the potential of the shortened text encoder. In practice, an auxiliary fusion module injecting unmasked image embedding into masked text embedding at different network stages is proposed for enhancing the MLM. Extensive experiments show that without introducing additional computational cost during inference, the proposed method achieves a higher performance on multiple downstream tasks.
翻訳日:2023-12-04 13:56:05 公開日:2023-12-01
# CellMixer:異種細胞集団の無注釈セマンティックセマンティックセグメンテーション

CellMixer: Annotation-free Semantic Cell Segmentation of Heterogeneous Cell Populations ( http://arxiv.org/abs/2312.00671v1 )

ライセンス: Link先を確認
Mehdi Naouar, Gabriel Kalweit, Anusha Klett, Yannick Vogt, Paula Silvestrini, Diana Laura Infante Ramirez, Roland Mertelsmann, Joschka Boedecker, Maria Kalweit(参考訳) 近年,セルセグメンテーションモデルの訓練に必要な精巧なピクセルレベルのアノテーションを省くため,教師なしのセルセグメンテーション手法がいくつか提案されている。 ほとんどの場合、これらのメソッドがインスタンスのセグメンテーションタスクを処理し、異なるセルインスタンスのタイプを無視して検出することに集中する。 このようなモデルは、セルカウントのような特定のタスクには適しているが、他のアプリケーションは各セルの型を特定する必要がある。 本稿では、異種細胞集団のセマンティックセグメンテーションのための革新的なアノテーションなしアプローチであるCellMixerを提案する。 本手法は,均質な細胞集団の画像レベルラベルからセグメンテーションモデルのトレーニングを可能にする。 以上の結果から,cellmixer は複数の細胞タイプとイメージングモードにまたがる競合的セグメンテーション性能を達成し,医用画像,細胞生物学,診断の幅広い応用への拡張性と可能性を示した。

In recent years, several unsupervised cell segmentation methods have been presented, trying to omit the requirement of laborious pixel-level annotations for the training of a cell segmentation model. Most if not all of these methods handle the instance segmentation task by focusing on the detection of different cell instances ignoring their type. While such models prove adequate for certain tasks, like cell counting, other applications require the identification of each cell's type. In this paper, we present CellMixer, an innovative annotation-free approach for the semantic segmentation of heterogeneous cell populations. Our augmentation-based method enables the training of a segmentation model from image-level labels of homogeneous cell populations. Our results show that CellMixer can achieve competitive segmentation performance across multiple cell types and imaging modalities, demonstrating the method's scalability and potential for broader applications in medical imaging, cellular biology, and diagnostics.
翻訳日:2023-12-04 13:55:41 公開日:2023-12-01
# 軌道フェッシュバッハ共鳴の存在下での2バンド原子超流動

Two band atomic superfluidity in the presence of orbital Feshbach resonance ( http://arxiv.org/abs/2312.00749v1 )

ライセンス: Link先を確認
Andrew Vincent and Theja N. De Silva(参考訳) 軌道フェシバッハ共鳴の存在下でのアルカリ土様フェルミ原子系の超流動特性について検討した。 基底状態と励起状態の2バンド記述とバンド内原子対の平均場近似を用いて,超流動/常流相間の相転移と交差について検討した。 バンド間相互作用とバンド間相互作用を組み合わせた有効散乱長を定義することにより, 基底状態と励起状態原子バンドの両方に対する閉形状ギャップと数密度方程式を導出する。 その結果, ゼロ温度解析結果と有限温度数値計算結果から, バルディーン, クーパー, シュライファー (bcs) およびボース・アインシュタイン凝縮 (bec) の各バンドの原子の滑らかな交差性を示すことができた。 さらに、バンド間相互作用とバンド内相互作用は、一方のバンド内の原子のBCS/BEC超流動状態と他方のバンド間の量子相転移を引き起こす。 我々は, MgB$_2$のような2バンド超伝導体の現在の理解に影響を及ぼすであろう, 将来の実験的および理論的研究のベンチマークとして, 我々の閉形解析結果が利用できることを期待する。

We study superfluid properties of alkali-earth-like Fermi atomic systems in the presence of orbital Feshbach resonance. Using a two-band description of the ground state and excited state and a mean-field approximation of the intra-band atomic pairing, we investigate the phase transitions and crossover between superfluid/normal phases. Defining an effective scattering length by combining both inter-band and intra-band interactions, we derive closed form gap and number density equations for both ground state and excited state atomic bands. We find that our zero-temperature analytical results and finite-temperature numerical results indicate that the system can show smooth crossover between Bardeen, Cooper, and Schreifer (BCS) and Bose-Einstein Condensate (BEC) superfluidity for atoms in each band. In addition, we find that inter-band and intra-band interactions can induce quantum phase transitions between BCS/BEC superfluid states of atoms in one band to that of the other. We anticipate that our closed form analytical results can be used as a bench mark for future experimental and theoretical investigations and will have an impact on the current understanding of two-band superconductors such as MgB$_2$.
翻訳日:2023-12-04 13:49:32 公開日:2023-12-01
# 6テスラおよびケルビン近傍で動作する3波混合量子制限動インダクタンスパラメトリック増幅器

Three-Wave Mixing Quantum-Limited Kinetic Inductance Parametric Amplifier operating at 6 Tesla and near 1 Kelvin ( http://arxiv.org/abs/2312.00748v1 )

ライセンス: Link先を確認
Simone Frasca, Camille Roy, Guillaume Beaulieu, Pasquale Scarlino(参考訳) パラメトリック増幅器は、最小付加雑音で弱い信号の増強を可能にすることで、現代の量子技術において重要な役割を果たす。 伝統的に、ジョセフソン接合はパラメトリック増幅器を構成する主要な選択肢である。 それにもかかわらず、高速度インダクタンス薄膜は、必要な非線形性を設計するための有効な代替品として出現している。 本研究では,高品位NbN超伝導薄膜を用いたキネティックインダクタンスパラメトリック増幅器(KIPA)の導入と特性評価を行う。 KIPAは従来のジョセフソン型パラメトリック増幅器のいくつかの制限に対処し、ダイナミックレンジ、運転温度、磁気抵抗性に優れていた。 量子制限増幅(>20dB)は20MHzのゲインバンド幅の製品で、最大6テスラのフィールドで動作し、温度は850mKである。 NbN薄膜の運動インダクタンスを損なうため、KIPAは量子信号増幅のための堅牢な解として登場し、量子情報処理や低温量子実験の研究可能性を高める。 磁場の互換性と高温での量子限界性能は、量子研究の新しい進歩を約束する貴重な道具である。

Parametric amplifiers play a crucial role in modern quantum technology by enabling the enhancement of weak signals with minimal added noise. Traditionally, Josephson junctions have been the primary choice for constructing parametric amplifiers. Nevertheless, high-kinetic inductance thin films have emerged as viable alternatives to engineer the necessary nonlinearity. In this work, we introduce and characterize a Kinetic Inductance Parametric Amplifier (KIPA) built using high-quality NbN superconducting thin films. The KIPA addresses some of the limitations of traditional Josephson-based parametric amplifiers, excelling in dynamic range, operational temperature, and magnetic field resilience. We demonstrate a quantum-limited amplification (> 20 dB) with a 20 MHz gain-bandwidth product, operational at fields up to 6 Tesla and temperatures as high as 850 mK. Harnessing kinetic inductance in NbN thin films, the KIPA emerges as a robust solution for quantum signal amplification, enhancing research possibilities in quantum information processing and low-temperature quantum experiments. Its magnetic field compatibility and quantum-limited performance at high temperatures make it an invaluable tool, promising new advancements in quantum research.
翻訳日:2023-12-04 13:49:12 公開日:2023-12-01
# デジタルディテクターの解読:マルチエージェントミステリーゲームにおけるLCM動作と能力の理解

Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games ( http://arxiv.org/abs/2312.00746v1 )

ライセンス: Link先を確認
Dekun Wu, Haochen Shi, Zhiyuan Sun, Bang Liu(参考訳) 本研究では,ai駆動ゲームにおける新たな分野である「重弁社」における大規模言語モデル(llm)の適用について検討する。 我々は,この複雑な物語環境におけるaiエージェント開発を促進するために,文字スクリプトやゲームルールを含む,jubensha専用の中国語データセットを初めて紹介する。 我々の研究は、LLMを用いたユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがゲームに自律的に関与できるようにし、Jubenshaのゲームプレイのダイナミクスを向上する。 これらのAIエージェントを評価するために,ケース情報と推論スキルの習得を目標とした特殊な手法を開発した。 さらに,情報収集,キラー検出,論理的推論といった重要な側面におけるエージェントのパフォーマンスを向上させるために,コンテキスト内学習の最新の進歩を取り入れた。 提案手法の有効性を実験的に検証した。 本研究の目的は、LLM能力の理解と、この分野の研究者に大規模言語モデルベースのエージェントを評価するための新しいベンチマークを確立することである。

In this study, we explore the application of Large Language Models (LLMs) in "Jubensha" (Chinese murder mystery role-playing games), a novel area in AI-driven gaming. We introduce the first Chinese dataset specifically for Jubensha, including character scripts and game rules, to foster AI agent development in this complex narrative environment. Our work also presents a unique multi-agent interaction framework using LLMs, allowing AI agents to autonomously engage in the game, enhancing the dynamics of Jubensha gameplay. To evaluate these AI agents, we developed specialized methods targeting their mastery of case information and reasoning skills. Furthermore, we incorporated the latest advancements in in-context learning to improve the agents' performance in critical aspects like information gathering, murderer detection, and logical reasoning. The experimental results validate the effectiveness of our proposed methods. This work aims to offer a fresh perspective on understanding LLM capabilities and establish a new benchmark for evaluating large language model-based agents to researchers in the field.
翻訳日:2023-12-04 13:48:52 公開日:2023-12-01
# ガウス過程によるスケーラブルなメタラーニング

Scalable Meta-Learning with Gaussian Processes ( http://arxiv.org/abs/2312.00742v1 )

ライセンス: Link先を確認
Petru Tighineanu, Lukas Grossberger, Paul Baireuther, Kathrin Skubch, Stefan Falkner, Julia Vinogradska, Felix Berkenkamp(参考訳) メタラーニングは、過去のデータを利用して同じディストリビューションから新しいタスクを素早く解決する強力なアプローチである。 低データ方式では、ガウス過程(GP)の閉形式後部に基づく手法とベイズ最適化は高い性能を達成している。 しかし、これらの手法は計算コストが高いか、タスクモデル間の不確実性の原則的伝播を妨げる仮定を導入するかのいずれかである。 これは、最適化中の探索と利用のバランスを損なう可能性がある。 本稿では,タスク数でスケーラブルなメタ学習のためのモジュール型GPモデルであるScaML-GPを開発する。 私たちのコアコントリビューションは、階層的なトレーニングとタスクのスケーラビリティを可能にする、慎重に設計されたマルチタスクカーネルです。 メタデータ上のScaML-GPの条件付けは、そのモジュラーの性質を公開し、メタタスクGPの後部を結合したテストタスクを先取りする。 合成および実世界のメタ学習実験において、ScaML-GPは少ないメタタスクと多数のメタタスクの両方で効率的に学習できることを示した。

Meta-learning is a powerful approach that exploits historical data to quickly solve new tasks from the same distribution. In the low-data regime, methods based on the closed-form posterior of Gaussian processes (GP) together with Bayesian optimization have achieved high performance. However, these methods are either computationally expensive or introduce assumptions that hinder a principled propagation of uncertainty between task models. This may disrupt the balance between exploration and exploitation during optimization. In this paper, we develop ScaML-GP, a modular GP model for meta-learning that is scalable in the number of tasks. Our core contribution is a carefully designed multi-task kernel that enables hierarchical training and task scalability. Conditioning ScaML-GP on the meta-data exposes its modular nature yielding a test-task prior that combines the posteriors of meta-task GPs. In synthetic and real-world meta-learning experiments, we demonstrate that ScaML-GP can learn efficiently both with few and many meta-tasks.
翻訳日:2023-12-04 13:48:35 公開日:2023-12-01
# 反対スコア蒸留:スコア蒸留がGANに合うとき

Adversarial Score Distillation: When score distillation meets GAN ( http://arxiv.org/abs/2312.00739v1 )

ライセンス: Link先を確認
Min Wei, Jingkai Zhou, Junyao Sun, Xuesong Zhang(参考訳) 既存のスコア蒸留法は,小さなCFGスケールで過度なスムーズ性や不安定性を示すとともに,大規模なCFGでは過飽和性を示す分類器フリーガイダンス(CFG)尺度に敏感である。 これらの問題を説明し分析するために,wasserstein generative adversarial network(wgan)パラダイムを用いて,スコア蒸留サンプリング(sds)の導出と既存のスコア蒸留の解読を行った。 WGANのパラダイムでは、既存のスコア蒸留は固定された準最適判別器を使用するか、不完全判別器最適化を行うかのいずれかで、スケールセンシティブな問題が発生する。 我々は,最適化可能な判別器を維持し,完全な最適化目的を用いて更新するadversarial score distillation (asd)を提案する。 実験により, 提案法が既存の方法に対して2次元蒸留処理やテキストから3次元処理に好適な効果を示した。 さらに、WGANパラダイムの一般化能力を探求するため、画像編集タスクにASDを拡張し、競合する結果を得る。 プロジェクトページとコードはhttps://github.com/2y7c3/ASD。

Existing score distillation methods are sensitive to classifier-free guidance (CFG) scale: manifested as over-smoothness or instability at small CFG scales, while over-saturation at large ones. To explain and analyze these issues, we revisit the derivation of Score Distillation Sampling (SDS) and decipher existing score distillation with the Wasserstein Generative Adversarial Network (WGAN) paradigm. With the WGAN paradigm, we find that existing score distillation either employs a fixed sub-optimal discriminator or conducts incomplete discriminator optimization, resulting in the scale-sensitive issue. We propose the Adversarial Score Distillation (ASD), which maintains an optimizable discriminator and updates it using the complete optimization objective. Experiments show that the proposed ASD performs favorably in 2D distillation and text-to-3D tasks against existing methods. Furthermore, to explore the generalization ability of our WGAN paradigm, we extend ASD to the image editing task, which achieves competitive results. The project page and code are at https://github.com/2y7c3/ASD.
翻訳日:2023-12-04 13:48:19 公開日:2023-12-01
# SeaLLMs - 東南アジア向け大規模言語モデル

SeaLLMs -- Large Language Models for Southeast Asia ( http://arxiv.org/abs/2312.00738v1 )

ライセンス: Link先を確認
Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Qingyu Tan, Liying Cheng, Guanzheng Chen, Yue Deng, Sen Yang, Chaoqun Liu, Hang Zhang, Lidong Bing(参考訳) 様々なタスクにおける大きな言語モデル(LLM)の顕著な成果にもかかわらず、低リソース言語や地域言語を犠牲にして、英語のような高リソース言語を好む言語バイアスが残っている。 この不均衡に対処するために,東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。 SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令およびアライメントチューニングにより、地域言語の複雑さをよりよく捉えるために、継続する事前訓練を通じてさらに進歩している。 これにより、地元の文化規範、慣習、様式的嗜好、法的配慮を尊重し、反映することができる。 包括的評価により,SeaLLM-13bモデルでは,言語タスクの幅広い範囲で優れた性能を示し,オープンソースモデルと比較してアシスタントスタイルの命令追従能力を示す。 さらに、タイ語、クメール語、ラオス語、ビルマ語などの非ラテン語ではchatgpt-3.5よりも大きく、軽量で費用対効果が高い。

Despite the remarkable achievements of large language models (LLMs) in various tasks, there remains a linguistic bias that favors high-resource languages, such as English, often at the expense of low-resource and regional languages. To address this imbalance, we introduce SeaLLMs, an innovative series of language models that specifically focuses on Southeast Asian (SEA) languages. SeaLLMs are built upon the Llama-2 model and further advanced through continued pre-training with an extended vocabulary, specialized instruction and alignment tuning to better capture the intricacies of regional languages. This allows them to respect and reflect local cultural norms, customs, stylistic preferences, and legal considerations. Our comprehensive evaluation demonstrates that SeaLLM-13b models exhibit superior performance across a wide spectrum of linguistic tasks and assistant-style instruction-following capabilities relative to comparable open-source models. Moreover, they outperform ChatGPT-3.5 in non-Latin languages, such as Thai, Khmer, Lao, and Burmese, by large margins while remaining lightweight and cost-effective to operate.
翻訳日:2023-12-04 13:47:56 公開日:2023-12-01
# テンソルネットワークによる対角線外固有状態熱化の探索

Probing Off-diagonal Eigenstate Thermalization with Tensor Networks ( http://arxiv.org/abs/2312.00736v1 )

ライセンス: Link先を確認
Maxine Luo, Rahul Trivedi, Mari Carmen Ba\~nuls and J. Ignacio Cirac(参考訳) 量子シミュレーションと組み合わせたエネルギーフィルタ法は、有限エネルギー密度の量子多体系の特性に効率的にアクセスすることができる[Lu et al. PRX Quantum 2, 020321 (2021)]。 このアルゴリズムをテンソルネットワークで古典的にシミュレートすることで、[yang et al. phys. rev. b 106, 024307 (2022)]に示されているように、大きなスピンチェーンのマイクロキャノニカル特性を調べることができる。 ここでは、この戦略を拡張して、熱化挙動と固有状態熱化仮説に根ざした、エネルギー固有ベイズにおける可観測物の外対角行列要素の性質を探求する。 本手法は,60地点までの可積分および非可積分スピンチェーンでテストし,正確な対角化によるアクセス性よりもはるかに大きい。 以上の結果から,外対角関数のスケールとエネルギー差について検討し,積分可能ケースと非可積分ケースの定量的差異を検証できる。

Energy filter methods in combination with quantum simulation can efficiently access the properties of quantum many-body systems at finite energy densities [Lu et al. PRX Quantum 2, 020321 (2021)]. Classically simulating this algorithm with tensor networks can be used to investigate the microcanonical properties of large spin chains, as recently shown in [Yang et al. Phys. Rev. B 106, 024307 (2022)]. Here we extend this strategy to explore the properties of off-diagonal matrix elements of observables in the energy eigenbasis, fundamentally connected to the thermalization behavior and the eigenstate thermalization hypothesis. We test the method on integrable and non-integrable spin chains of up to 60 sites, much larger than accessible with exact diagonalization. Our results allow us to explore the scaling of the off-diagonal functions with the size and energy difference, and to establish quantitative differences between integrable and non-integrable cases
翻訳日:2023-12-04 13:47:37 公開日:2023-12-01
# 雑音サンプルから計算したノイズフリー期待値の確率境界

Provable bounds for noise-free expectation values computed from noisy samples ( http://arxiv.org/abs/2312.00733v1 )

ライセンス: Link先を確認
Samantha V. Barron, Daniel J. Egger, Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz, Matthis Lehmkuehler, Stefan Woerner(参考訳) 本稿では,ノイズが量子コンピューティングに与える影響,特に雑音の多い量子コンピュータからビット文字列をサンプリングする際の課題,および最適化や機械学習への応用に与える影響について考察する。 我々は、ノイズ量子コンピュータから良いサンプルを抽出するためにサンプリングオーバーヘッドを正式に定量化し、ノイズ量子プロセッサの性能を決定する指標である層忠実度と関連づける。 さらに,ノイズのない期待値に対する証明可能な境界を決定するために,ノイズサンプルのリスクに対して条件付き値をどのように使用できるかを示す。 我々は,これらの境界を異なるアルゴリズムに活用する方法を議論し,最大127量子ビットを含む実際の量子コンピュータ上で実験を行い,その知見を実証する。 結果は理論的な予測と強い一致を示した。

In this paper, we explore the impact of noise on quantum computing, particularly focusing on the challenges when sampling bit strings from noisy quantum computers as well as the implications for optimization and machine learning applications. We formally quantify the sampling overhead to extract good samples from noisy quantum computers and relate it to the layer fidelity, a metric to determine the performance of noisy quantum processors. Further, we show how this allows us to use the Conditional Value at Risk of noisy samples to determine provable bounds on noise-free expectation values. We discuss how to leverage these bounds for different algorithms and demonstrate our findings through experiments on a real quantum computer involving up to 127 qubits. The results show a strong alignment with theoretical predictions.
翻訳日:2023-12-04 13:47:16 公開日:2023-12-01
# Gaussian Grouping:3Dシーンのセグメンテーションと編集

Gaussian Grouping: Segment and Edit Anything in 3D Scenes ( http://arxiv.org/abs/2312.00732v1 )

ライセンス: Link先を確認
Mingqiao Ye, Martin Danelljan, Fisher Yu and Lei Ke(参考訳) 近年のガウシアン・スプラッティングは3Dシーンの高品質でリアルタイムなノベルビュー合成を実現している。 しかし、細粒度オブジェクトレベルのシーン理解に欠けるにもかかわらず、外観と幾何学的モデリングのみに集中している。 この問題に対処するために,gaussian splattingを拡張したgaussian groupingを提案する。 我々は、各ガウス語をコンパクトなアイデンティティエンコーディングで拡張し、ガウス語をオブジェクトインスタンスや3dシーンの物のメンバーシップに応じてグループ化できるようにする。 高価な3dラベルに頼る代わりに、samによる2dマスク予測を活用し、微分可能レンダリング中のidエンコーディングを監督し、3d空間一貫性の正規化を導入する。 暗黙的なNeRF表現と比較すると、離散的かつグループ化された3Dガウスは、高画質、微粒度、効率で、あらゆるものを3Dで再構成、分割、編集することができる。 ガウシアングルーピングに基づいて,3次元オブジェクトの除去,インパインティング,カラー化,シーンの再現など,多用途なシーン編集アプリケーションにおいて有効性を示す局所ガウシアン編集方式を提案する。 私たちのコードとモデルはhttps://github.com/lkeab/gaussian-groupingにあります。

The recent Gaussian Splatting achieves high-quality and real-time novel-view synthesis of the 3D scenes. However, it is solely concentrated on the appearance and geometry modeling, while lacking in fine-grained object-level scene understanding. To address this issue, we propose Gaussian Grouping, which extends Gaussian Splatting to jointly reconstruct and segment anything in open-world 3D scenes. We augment each Gaussian with a compact Identity Encoding, allowing the Gaussians to be grouped according to their object instance or stuff membership in the 3D scene. Instead of resorting to expensive 3D labels, we supervise the Identity Encodings during the differentiable rendering by leveraging the 2D mask predictions by SAM, along with introduced 3D spatial consistency regularization. Comparing to the implicit NeRF representation, we show that the discrete and grouped 3D Gaussians can reconstruct, segment and edit anything in 3D with high visual quality, fine granularity and efficiency. Based on Gaussian Grouping, we further propose a local Gaussian Editing scheme, which shows efficacy in versatile scene editing applications, including 3D object removal, inpainting, colorization and scene recomposition. Our code and models will be at https://github.com/lkeab/gaussian-grouping.
翻訳日:2023-12-04 13:47:05 公開日:2023-12-01
# テンソル再生核ヒルベルト空間における安全強化学習

Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space ( http://arxiv.org/abs/2312.00727v1 )

ライセンス: Link先を確認
Xiaoyuan Cheng, Boli Chen, Liz Varga, Yukun Hu(参考訳) 本稿では, 部分的に観測可能な環境下での安全強化学習(RL)の課題を, 安全な到達目標を達成するために検討する。 従来の部分観測可能なマルコフ決定プロセス(pomdp)では、安全性を確保するには一般的に潜在状態の信念を推定することが必要となる。 しかし、連続状態空間における観測から潜伏状態を予測するために、PMDPの最適ベイズフィルタを正確に推定することは、主に難解な可能性のために大きな課題となる。 本稿では,RLの安全性を,未知のシステム力学や部分観測環境にほぼ確実に保証する確率的モデルに基づくアプローチを提案する。 我々は、予測状態表現(PSR)と再現ケルネルヒルベルト空間(RKHS)を利用して、将来の多段階観測を解析的に表現し、この文脈における結果は証明可能である。 さらに、カーネルベイズ則から本質的作用素を導出し、様々な演算子を用いた将来の観測の再帰的推定を可能にする。 textit{undercompleness} の仮定の下で、観測空間と行動空間の無限の大きさのRLアルゴリズムに対して多項式サンプル複雑性が確立され、$\epsilon-$suboptimal safe policy guarantee が保証される。

This paper delves into the problem of safe reinforcement learning (RL) in a partially observable environment with the aim of achieving safe-reachability objectives. In traditional partially observable Markov decision processes (POMDP), ensuring safety typically involves estimating the belief in latent states. However, accurately estimating an optimal Bayesian filter in POMDP to infer latent states from observations in a continuous state space poses a significant challenge, largely due to the intractable likelihood. To tackle this issue, we propose a stochastic model-based approach that guarantees RL safety almost surely in the face of unknown system dynamics and partial observation environments. We leveraged the Predictive State Representation (PSR) and Reproducing Kernel Hilbert Space (RKHS) to represent future multi-step observations analytically, and the results in this context are provable. Furthermore, we derived essential operators from the kernel Bayes' rule, enabling the recursive estimation of future observations using various operators. Under the assumption of \textit{undercompleness}, a polynomial sample complexity is established for the RL algorithm for the infinite size of observation and action spaces, ensuring an $\epsilon-$suboptimal safe policy guarantee.
翻訳日:2023-12-04 13:46:39 公開日:2023-12-01
# 非局所的ボックスの代数と通信複雑性の崩壊

Algebra of Nonlocal Boxes and the Collapse of Communication Complexity ( http://arxiv.org/abs/2312.00725v1 )

ライセンス: Link先を確認
Pierre Botteron, Anne Broadbent, Reda Chhaibi, Ion Nechita, and Cl\'ement Pellegrini(参考訳) 通信複雑性は、2つの遠いコンピュータが関数$f(X,Y)$を評価するのがいかに困難であるかを定量化し、文字列$X$と$Y$はそれぞれ第1のコンピュータと第2のコンピュータに分配される。 驚くべきことに、2つのコンピュータが共有するリソースであるいくつかの非ローカルボックスは、通信の複雑さを崩壊させることができるほど強力であり、ブール関数の$f$は1ビットの通信の交換で正確に推定できる。 popescu-rohrlich(pr)ボックスは、そのような崩壊するリソースの例であるが、崩壊する非局所的なボックスの集合の包括的記述は、いまだに解明されていない。 本研究では、非局所的ボックスを接続する配線の構造に関する代数的研究を行い、「ボックスの積」 $\mathtt{P}\boxtimes\matht{Q}$ の概念を定義し、関連する連想性と可換性を示す。 これにより「箱の軌道」の概念が生まれ、蒸留箱のアライメントと平行性に関する驚くべき幾何学的性質が明らかになる。 この新しいフレームワークのパワーは、連続するボックスをつなぐ最善の方法に関する事前報告された数値直観を証明し、様々なタイプのノイズモデルで通信の複雑さを崩壊させる最近特定されたノイズprボックスを数値的かつ分析的に復元することを可能にすることである。

Communication complexity quantifies how difficult it is for two distant computers to evaluate a function $f(X,Y)$ where the strings $X$ and $Y$ are distributed to the first and second computer, respectively and under the constraint of exchanging as few bits as possible. Surprisingly, some nonlocal boxes, which are resources shared by the two computers, are so powerful that they allow to collapse communication complexity, in the sense that any Boolean function $f$ can be correctly estimated with the exchange of only one bit of communication. The Popescu-Rohrlich (PR) box is an example of such a collapsing resource, but a comprehensive description of the set of collapsing nonlocal boxes remains elusive. In this work, we carry out an algebraic study of the structure of wirings connecting nonlocal boxes, thus defining the notion of the "product of boxes" $\mathtt{P}\boxtimes\mathtt{Q}$, and we show related associativity and commutativity results. This gives rise to the notion of the "orbit of a box", unveiling surprising geometrical properties about the alignment and parallelism of distilled boxes. The power of this new framework is that it allows to prove previously-reported numerical intuitions concerning the best way to wire consecutive boxes, and to numerically and analytically recover recently-identified noisy PR boxes that collapse communication complexity for different types of noise models.
翻訳日:2023-12-04 13:46:14 公開日:2023-12-01
# 一般化量子特異値変換

Generalized Quantum Singular Value Transformation ( http://arxiv.org/abs/2312.00723v1 )

ライセンス: Link先を確認
Christoph S\"underhauf(参考訳) 量子特異値変換は量子アルゴリズムに革命をもたらした。 多項式を任意の行列に適用することにより、量子アルゴリズムの統一像を提供する。 しかし、多項式は定値パリティと実係数に制限されており、回路(位相係数)を見つけることは実際困難であることが証明されている。 最近の研究でこれらの制限が取り除かれ、位相係数の高速な計算が可能になった。 ここでは二つの一般化を提案する。 一般化された量子特異値変換は任意の行列に対する複素多項式を可能にする。 エルミート行列に対しては、不確定パリティ多項式さえも許す一般化量子固有値変換を提案する。 多項式は、量子特異値変換に比べてスケールが小さくなければならないが、多項式の表現率が高く、位相係数の高速計算は、しばしば利点をもたらすことがある。 結果は、キュービット化、エルミート化、乗算を含む様々なブロック符号化(または投影されたユニタリ符号化)技術で達成される。 ブロック符号化行列を1つの余剰量子ビットで乗算する方法を示し、さらに余剰量子ビットを回避し平均回路長を減少させる測度初期乗算を導入する。

The quantum singular value transformation has revolutionised quantum algorithms. By applying a polynomial to an arbitrary matrix, it provides a unifying picture of quantum algorithms. However, polynomials are restricted to definite parity and real coefficients, and finding the circuit (the phase factors) has proven difficult in practice. Recent work has removed these restrictions and enabled faster computation of phase factors, yet only for unitary matrices. Here we propose two generalisations. The generalised quantum singular value transformation allows complex polynomials for arbitrary matrices. For Hermitian matrices, we propose the generalised quantum eigenvalue transformation that even allows polynomials of indefinite parity. While we find that the polynomial might have to be downscaled compared to the quantum singular value transformation, the higher expressivity of polynomials and faster computation of phase factors can sometimes result in advantages. The results are achieved with various block encoding (or projected unitary encoding) techniques, including qubitisation, Hermitianisation, and multiplication. We show how to multiply block-encoded matrices with only one extra qubit, and introduce measure-early multiplication to further avoid the extra qubit and decrease average circuit length.
翻訳日:2023-12-04 13:45:45 公開日:2023-12-01
# 情報最大化による分子表現からのバイアスの除去

Removing Biases from Molecular Representations via Information Maximization ( http://arxiv.org/abs/2312.00718v1 )

ライセンス: Link先を確認
Chenyu Wang, Sharut Gupta, Caroline Uhler, Tommi Jaakkola(参考訳) 細胞イメージングや遺伝子発現測定を薬物効果の読み出しとして用いる高スループット薬物スクリーニングは、薬物の化学構造と生物活性の関係を評価・理解するためのバイオテクノロジーの重要なツールである。 大規模なスクリーンを複数の実験に分割する必要があるため、バッチ効果に対処することが重要な課題であり、データの体系的なエラーや非生物学的関連を導入することができる。 我々は,COnfounder Removalのための情報最大化手法であるInfoCOREを提案し,バッチ効果を効果的に処理し,洗練された分子表現を得る。 InfoCOREは、バッチ識別子が与えられた潜在表現の条件付き相互情報に基づいて変動的な下界を確立する。 適応的にサンプルを改良し、含意されたバッチ分布を等化します。 薬物スクリーニングデータに対する大規模な実験は、分子特性予測や分子フェノタイプ検索を含む様々なタスクにおいてInfoCOREの優れた性能を示す。 さらに、InfoCOREが汎用的なフレームワークを提供し、突発的特徴との相関を最小化したり、機密属性を削除したりすることで、データフェアネスの一般的な分散シフトと問題を解消する結果を示す。 コードはhttps://github.com/uhlerlab/infocoreで入手できる。

High-throughput drug screening -- using cell imaging or gene expression measurements as readouts of drug effect -- is a critical tool in biotechnology to assess and understand the relationship between the chemical structure and biological activity of a drug. Since large-scale screens have to be divided into multiple experiments, a key difficulty is dealing with batch effects, which can introduce systematic errors and non-biological associations in the data. We propose InfoCORE, an Information maximization approach for COnfounder REmoval, to effectively deal with batch effects and obtain refined molecular representations. InfoCORE establishes a variational lower bound on the conditional mutual information of the latent representations given a batch identifier. It adaptively reweighs samples to equalize their implied batch distribution. Extensive experiments on drug screening data reveal InfoCORE's superior performance in a multitude of tasks including molecular property prediction and molecule-phenotype retrieval. Additionally, we show results for how InfoCORE offers a versatile framework and resolves general distribution shifts and issues of data fairness by minimizing correlation with spurious features or removing sensitive attributes. The code is available at https://github.com/uhlerlab/InfoCORE.
翻訳日:2023-12-04 13:45:28 公開日:2023-12-01
# SpaCE:空間境界環境

SpaCE: The Spatial Confounding Environment ( http://arxiv.org/abs/2312.00710v1 )

ライセンス: Link先を確認
Mauricio Tec, Ana Trisovic, Michelle Audirac, Sophie Woodward, Naeem Khoshnevis, Francesca Dominici(参考訳) 空間共役は、観測されていない空間変数が治療と結果の両方に影響しうる空間データを含む科学研究において重要な課題となる。 この問題を解決するために,空間共起環境(spatial confounding environment),現実的なベンチマークデータセットを提供する最初のツールキット,空間共起を緩和するために設計された因果的推論方法を体系的に評価するツールを紹介する。 各データセットには、トレーニングデータ、真の反事実、座標付き空間グラフ、欠落した空間共同創設者の効果を特徴付ける滑らかさと統合スコアが含まれる。 それはまた、因果推論ベンチマークのベストプラクティスに従って、最先端の機械学習アンサンブルを使用して生成される現実的な半合成結果と反ファクトアルを含んでいる。 データセットは、気候、健康、社会科学など様々な分野の実際の治療と共変量をカバーする。 SpaCEは、エンドツーエンドパイプラインの自動化、データのロードの簡略化、実験的なセットアップ、マシンラーニングと因果推論モデルの評価を容易にする。 SpaCEプロジェクトは、さまざまなサイズと空間的複雑さの数十のデータセットを提供する。 Pythonパッケージとして公開されており、コミュニティからのフィードバックとコントリビューションを奨励している。

Spatial confounding poses a significant challenge in scientific studies involving spatial data, where unobserved spatial variables can influence both treatment and outcome, possibly leading to spurious associations. To address this problem, we introduce SpaCE: The Spatial Confounding Environment, the first toolkit to provide realistic benchmark datasets and tools for systematically evaluating causal inference methods designed to alleviate spatial confounding. Each dataset includes training data, true counterfactuals, a spatial graph with coordinates, and smoothness and confounding scores characterizing the effect of a missing spatial confounder. It also includes realistic semi-synthetic outcomes and counterfactuals, generated using state-of-the-art machine learning ensembles, following best practices for causal inference benchmarks. The datasets cover real treatment and covariates from diverse domains, including climate, health and social sciences. SpaCE facilitates an automated end-to-end pipeline, simplifying data loading, experimental setup, and evaluating machine learning and causal inference models. The SpaCE project provides several dozens of datasets of diverse sizes and spatial complexity. It is publicly available as a Python package, encouraging community feedback and contributions.
翻訳日:2023-12-04 13:45:09 公開日:2023-12-01
# PointBeV:BeV予測に対するスパースアプローチ

PointBeV: A Sparse Approach to BeV Predictions ( http://arxiv.org/abs/2312.00703v1 )

ライセンス: Link先を確認
Loick Chambon, Eloi Zablocki, Mickael Chen, Florent Bartoccioni, Patrick Perez, Matthieu Cord(参考訳) bird's-eye view (bev)表現は、アプリケーション駆動におけるデファクト共有空間として登場し、センサーデータ融合のための統一空間を提供し、様々な下流タスクをサポートする。 しかし、従来のモデルは固定解像度と範囲を持つ格子を使い、全てのセルに一様リソースを割り当てることによる計算効率の非効率に直面する。 そこで本研究では,高密度グリッドではなく,スパースBeVセルで動作する新しいスパースBeVセグメンテーションモデルであるPointBeVを提案する。 このアプローチは、メモリ使用量を正確に制御し、長い時間的コンテキストの使用とメモリに制約されたプラットフォームへの適応を可能にする。 PointBeVはトレーニングに効率的な2パス戦略を採用しており、関心のある領域の集中的な計算を可能にしている。 推論時には、様々なメモリ/パフォーマンストレードオフで使用でき、新しい特定のユースケースに柔軟に適応できる。 PointBeVは、車両、歩行者、レーンのセグメンテーションのためのnuScenesデータセットの最先端の結果を達成し、スパース信号だけで訓練されているにもかかわらず、静的および時間的設定において優れたパフォーマンスを示す。 私たちは、アーキテクチャで使用される2つの新しい効率的なモジュールと共に、コードをリリースします。 スパース機能プル(sparse feature pulling)、イメージからbevへの効果的な機能抽出、効率的な時間モデリングを可能にするサブマニフォールドアテンション(submanifold attention)です。 私たちのコードはhttps://github.com/valeoai/pointbevで利用可能です。

Bird's-eye View (BeV) representations have emerged as the de-facto shared space in driving applications, offering a unified space for sensor data fusion and supporting various downstream tasks. However, conventional models use grids with fixed resolution and range and face computational inefficiencies due to the uniform allocation of resources across all cells. To address this, we propose PointBeV, a novel sparse BeV segmentation model operating on sparse BeV cells instead of dense grids. This approach offers precise control over memory usage, enabling the use of long temporal contexts and accommodating memory-constrained platforms. PointBeV employs an efficient two-pass strategy for training, enabling focused computation on regions of interest. At inference time, it can be used with various memory/performance trade-offs and flexibly adjusts to new specific use cases. PointBeV achieves state-of-the-art results on the nuScenes dataset for vehicle, pedestrian, and lane segmentation, showcasing superior performance in static and temporal settings despite being trained solely with sparse signals. We will release our code along with two new efficient modules used in the architecture: Sparse Feature Pulling, designed for the effective extraction of features from images to BeV, and Submanifold Attention, which enables efficient temporal modeling. Our code is available at https://github.com/valeoai/PointBeV.
翻訳日:2023-12-04 13:44:49 公開日:2023-12-01
# 高密度光追跡:ドットをつなぐ

Dense Optical Tracking: Connecting the Dots ( http://arxiv.org/abs/2312.00786v1 )

ライセンス: Link先を確認
Guillaume Le Moing, Jean Ponce, Cordelia Schmid(参考訳) 近年のポイントトラッキング手法では,映像のかなりの部分を通して任意のシーンポイントの軌跡を再現することが可能である。 しかし、単一のフレームで観測されるすべてのポイントを妥当な時間内に追跡するには、実際には遅すぎる。 本稿では,この問題を解決する新しい,シンプルかつ効率的な方法であるDOTを紹介する。 まず、オフザシェルフ点追跡アルゴリズムを用いて、動き境界のキー領域からトラックの小さなセットを抽出する。 ソースフレームとターゲットフレームが与えられた後、DOTは隣り合う補間を通して密集した流れ場と可視性マスクの粗い初期推定を計算し、学習可能な光学フロー推定器を用いてそれらを精算し、オクルージョンを明示的に処理し、接地構造対応による合成データに基づいて訓練する。 我々は、DOTが現在の光学フロー技術よりもはるかに正確であることを示し、OmniMotionのような洗練された"ユニバーサル"トラッカーよりも優れており、CoTrackerのような最良の点追跡アルゴリズムと同等か、あるいは同等であることを示した。 合成および実ビデオによる定量的および定性的な実験は、提案手法の可能性を実証する。 私たちのアプローチの機能を示すコード、データ、ビデオは、プロジェクトwebページ(https://16lemoing.github.io/dot.com/)で利用可能です。

Recent approaches to point tracking are able to recover the trajectory of any scene point through a large portion of a video despite the presence of occlusions. They are, however, too slow in practice to track every point observed in a single frame in a reasonable amount of time. This paper introduces DOT, a novel, simple and efficient method for solving this problem. It first extracts a small set of tracks from key regions at motion boundaries using an off-the-shelf point tracking algorithm. Given source and target frames, DOT then computes rough initial estimates of a dense flow field and visibility mask through nearest-neighbor interpolation, before refining them using a learnable optical flow estimator that explicitly handles occlusions and can be trained on synthetic data with ground-truth correspondences. We show that DOT is significantly more accurate than current optical flow techniques, outperforms sophisticated "universal" trackers like OmniMotion, and is on par with, or better than, the best point tracking algorithms like CoTracker while being at least two orders of magnitude faster. Quantitative and qualitative experiments with synthetic and real videos validate the promise of the proposed approach. Code, data, and videos showcasing the capabilities of our approach are available in the project webpage: https://16lemoing.github.io/dot .
翻訳日:2023-12-04 13:39:55 公開日:2023-12-01
# 大規模ビジョンモデルのためのスケーラブルな学習を可能にするシーケンスモデリング

Sequential Modeling Enables Scalable Learning for Large Vision Models ( http://arxiv.org/abs/2312.00785v1 )

ライセンス: Link先を確認
Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jitendra Malik, Alexei A Efros(参考訳) 本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。 そこで我々は,画像やビデオ,セマンティックセグメンテーションや深度再構成といった注釈付きデータソースを,ピクセルを超えてメタ知識を必要とせずに表現できる共通フォーマット"視覚文"を定義した。 この多種多様な視覚的データ(4200億トークンを含む)がシーケンスとして表現されると、モデルは次のトークン予測のためのクロスエントロピー損失を最小限に抑えるように訓練できる。 モデルアーキテクチャとデータの多様性のさまざまなスケールでトレーニングすることで、モデルを効果的にスケールする実証的な証拠を提供する。 多くの異なる視覚タスクは、テスト時に適切な視覚的プロンプトを設計することで解決できる。

We introduce a novel sequential modeling approach which enables learning a Large Vision Model (LVM) without making use of any linguistic data. To do this, we define a common format, "visual sentences", in which we can represent raw images and videos as well as annotated data sources such as semantic segmentations and depth reconstructions without needing any meta-knowledge beyond the pixels. Once this wide variety of visual data (comprising 420 billion tokens) is represented as sequences, the model can be trained to minimize a cross-entropy loss for next token prediction. By training across various scales of model architecture and data diversity, we provide empirical evidence that our models scale effectively. Many different vision tasks can be solved by designing suitable visual prompts at test time.
翻訳日:2023-12-04 13:39:35 公開日:2023-12-01
# 任意視プロンプトに従わない大規模マルチモーダルモデルの構築

Making Large Multimodal Models Understand Arbitrary Visual Prompts ( http://arxiv.org/abs/2312.00784v1 )

ライセンス: Link先を確認
Mu Cai, Haotian Liu, Siva Karthik Mustikovela, Gregory P. Meyer, Yuning Chai, Dennis Park, Yong Jae Lee(参考訳) 既存の大規模視覚言語マルチモーダルモデルは画像全体の理解に焦点を当てているが、地域固有の理解を達成するためのギャップは顕著である。 テキスト座標や空間符号化を用いる現在のアプローチは、視覚的なプロンプトのためのユーザフレンドリーなインターフェースを提供していないことが多い。 そこで本研究では,任意の視覚プロンプトをデコードできるマルチモーダルモデルを提案する。 これにより、ユーザーは直感的に画像にマークを付け、"red bounding box"や"pointed arrow"のような自然な手がかりを使ってモデルと対話することができる。 私たちのシンプルな設計は、rgbイメージに直接ビジュアルマーカーをオーバーレイし、複雑な領域エンコーディングの必要性をなくしますが、visual7w、pointqa、visual commonsense推論ベンチマークといった領域理解タスクで最先端のパフォーマンスを実現しています。 さらに、複数の次元にわたる視覚的プロンプトを理解するためのモデルの有効性を評価するための総合的なベンチマークViP-Benchを提案する。 コード、データ、モデルは公開されている。

While existing large vision-language multimodal models focus on whole image understanding, there is a prominent gap in achieving region-specific comprehension. Current approaches that use textual coordinates or spatial encodings often fail to provide a user-friendly interface for visual prompting. To address this challenge, we introduce a novel multimodal model capable of decoding arbitrary visual prompts. This allows users to intuitively mark images and interact with the model using natural cues like a "red bounding box" or "pointed arrow". Our simple design directly overlays visual markers onto the RGB image, eliminating the need for complex region encodings, yet achieves state-of-the-art performance on region-understanding tasks like Visual7W, PointQA, and Visual Commonsense Reasoning benchmark. Furthermore, we present ViP-Bench, a comprehensive benchmark to assess the capability of models in understanding visual prompts across multiple dimensions, enabling future research in this domain. Code, data, and model are publicly available.
翻訳日:2023-12-04 13:39:20 公開日:2023-12-01
# MorpheuS:モノクラーRGB-Dビデオによるニューラルダイナミック360{\deg}表面の再構成

MorpheuS: Neural Dynamic 360{\deg} Surface Reconstruction from Monocular RGB-D Video ( http://arxiv.org/abs/2312.00778v1 )

ライセンス: Link先を確認
Hengyi Wang, Jingwen Wang, Lourdes Agapito(参考訳) ニューラルレンダリングは動的シーン再構成において顕著な成功を収めた。 ニューラル表現の表現性のおかげで、先行作業は正確に動きを捉え、ターゲットオブジェクトの忠実度の高い再構築を実現することができる。 これにもかかわらず、現実世界のビデオシナリオは、神経表現が現実的な完成を達成するのに苦労する大きな未観測領域を特徴とすることが多い。 そこで本研究では,rgb-dビデオからダイナミックな360{\deg}表面再構成のためのフレームワークmorpheusを紹介する。 提案手法では,ターゲットシーンを,現在のフレームから正準空間へポイントをゆがめる変形場と合わせて,その形状と外観をエンコードする正準場としてモデル化する。 我々は、ビュー依存拡散を先取りし、その知識を蒸留し、観測されていない領域の現実的な完成を達成する。 実世界および合成データを用いた実験により, 単眼のrgb-dビデオから変形可能な物体の高忠実度360{\deg}表面再構成が可能となった。

Neural rendering has demonstrated remarkable success in dynamic scene reconstruction. Thanks to the expressiveness of neural representations, prior works can accurately capture the motion and achieve high-fidelity reconstruction of the target object. Despite this, real-world video scenarios often feature large unobserved regions where neural representations struggle to achieve realistic completion. To tackle this challenge, we introduce MorpheuS, a framework for dynamic 360{\deg} surface reconstruction from a casually captured RGB-D video. Our approach models the target scene as a canonical field that encodes its geometry and appearance, in conjunction with a deformation field that warps points from the current frame to the canonical space. We leverage a view-dependent diffusion prior and distill knowledge from it to achieve realistic completion of unobserved regions. Experimental results on various real-world and synthetic datasets show that our method can achieve high-fidelity 360{\deg} surface reconstruction of a deformable object from a monocular RGB-D video.
翻訳日:2023-12-04 13:38:21 公開日:2023-12-01
# VideoBooth:画像プロンプトによる拡散型ビデオ生成

VideoBooth: Diffusion-based Video Generation with Image Prompts ( http://arxiv.org/abs/2312.00777v1 )

ライセンス: Link先を確認
Yuming Jiang, Tianxing Wu, Shuai Yang, Chenyang Si, Dahua Lin, Yu Qiao, Chen Change Loy, Ziwei Liu(参考訳) テキスト駆動ビデオ生成は急速に進歩している。 しかし、テキストプロンプトだけでは、特にカスタマイズされたコンテンツ作成のためにユーザーの意図と正確に一致する、望ましい主題の外観を描くには不十分である。 本稿では,画像プロンプトを用いた映像生成の課題について検討し,テキストプロンプトを超えて,より正確かつ直接的なコンテンツ制御を実現する。 具体的には,2つの専用設計のフィードフォワードフレームワークであるVideoBoothを提案する。 1) 画像のプロンプトを粗い方法で埋め込むことを提案する。 画像エンコーダからの粗い視覚埋め込みは画像プロンプトの高レベルエンコーディングを提供し、提案されている注意インジェクションモジュールからの細かい視覚埋め込みは画像プロンプトのマルチスケールで詳細なエンコーディングを提供する。 これら2つの相補的な埋め込みは、望ましい外観を忠実に捉えることができる。 2)微妙なレベルの注意注入モジュールでは,複数スケールの画像プロンプトを付加キーと値として異なるフレームの注意層に投入する。 この余分な空間情報は、最初のフレームの詳細を洗練し、残りのフレームに伝播し、時間的一貫性を維持する。 広範囲な実験により、videoboothは、画像プロンプトで指定された主題でカスタマイズされた高品質ビデオを生成することで、最先端のパフォーマンスを達成できることが示されている。 特に、VideoBoothは、フィードフォワードパスで幅広い画像プロンプトを単一のモデルで処理する、一般化可能なフレームワークである。

Text-driven video generation witnesses rapid progress. However, merely using text prompts is not enough to depict the desired subject appearance that accurately aligns with users' intents, especially for customized content creation. In this paper, we study the task of video generation with image prompts, which provide more accurate and direct content control beyond the text prompts. Specifically, we propose a feed-forward framework VideoBooth, with two dedicated designs: 1) We propose to embed image prompts in a coarse-to-fine manner. Coarse visual embeddings from image encoder provide high-level encodings of image prompts, while fine visual embeddings from the proposed attention injection module provide multi-scale and detailed encoding of image prompts. These two complementary embeddings can faithfully capture the desired appearance. 2) In the attention injection module at fine level, multi-scale image prompts are fed into different cross-frame attention layers as additional keys and values. This extra spatial information refines the details in the first frame and then it is propagated to the remaining frames, which maintains temporal consistency. Extensive experiments demonstrate that VideoBooth achieves state-of-the-art performance in generating customized high-quality videos with subjects specified in image prompts. Notably, VideoBooth is a generalizable framework where a single model works for a wide range of image prompts with feed-forward pass.
翻訳日:2023-12-04 13:38:03 公開日:2023-12-01
# ヒューマンインタラクション計画の翻訳による汎用ゼロショットマニピュレーションに向けて

Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction Plans ( http://arxiv.org/abs/2312.00775v1 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Abhinav Gupta, Vikash Kumar, Shubham Tulsiani(参考訳) 我々は,多様な操作スキルのレパートリーを通じて,汎用的未認識物体とゼロショットで対話できるロボットを開発することの目標を追求し,そのような汎用的ロボットを学習するための豊かなデータソースとして,受動的人間のビデオがどのように機能するかを示す。 ロボットが対話データからどのように振る舞うかを直接学習する一般的なロボット学習アプローチとは異なり、我々は大規模な人間のビデオを利用して、人間が望むタスク(人間の計画)をどのように達成するかを学習し、次にこの計画をロボットの実施形態に翻訳する。 具体的には、シーンの現在の画像と目標画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。 我々はこれを、計画条件のロボット操作ポリシーを学習する翻訳モジュールと組み合わせ、デプロイ時トレーニングなしでゼロショットで汎用的な操作タスクの計画に従うことができる。 重要なことは、計画予測器は学習のために大規模な人間のビデオを利用することができるが、翻訳モジュールは少数のドメイン内データしか必要とせず、訓練中に見えないタスクに一般化することができる。 学習したシステムは,実世界の100タスクを包含し,40個のオブジェクトに一般化した16以上の操作スキルを発揮できることを示す。 https://homangab.github.io/hopman/

We pursue the goal of developing robots that can interact zero-shot with generic unseen objects via a diverse repertoire of manipulation skills and show how passive human videos can serve as a rich source of data for learning such generalist robots. Unlike typical robot learning approaches which directly learn how a robot should act from interaction data, we adopt a factorized approach that can leverage large-scale human videos to learn how a human would accomplish a desired task (a human plan), followed by translating this plan to the robots embodiment. Specifically, we learn a human plan predictor that, given a current image of a scene and a goal image, predicts the future hand and object configurations. We combine this with a translation module that learns a plan-conditioned robot manipulation policy, and allows following humans plans for generic manipulation tasks in a zero-shot manner with no deployment-time training. Importantly, while the plan predictor can leverage large-scale human videos for learning, the translation module only requires a small amount of in-domain data, and can generalize to tasks not seen during training. We show that our learned system can perform over 16 manipulation skills that generalize to 40 objects, encompassing 100 real-world tasks for table-top manipulation and diverse in-the-wild manipulation. https://homangab.github.io/hopman/
翻訳日:2023-12-04 13:37:39 公開日:2023-12-01
# 会話エージェントのための正規化文脈潜在相互作用による文脈検索

Context Retrieval via Normalized Contextual Latent Interaction for Conversational Agent ( http://arxiv.org/abs/2312.00774v1 )

ライセンス: Link先を確認
Junfeng Liu, Zhuocheng Mei, Kewen Peng, Ranga Raju Vatsavai(参考訳) AIを活用する会話エージェント、特にディープラーニングは、学術研究と現実世界のアプリケーションの両方に現れている。 しかしながら、これらのアプリケーションは、知識や事実を軽視すること、ユーザの好みをパーソナライズしないこと、トレーニングや推論中に計算リソースの膨大な需要など、依然として課題に直面している。 近年,会話エージェントに様々な補助情報を補うなど,様々な側面からこれらの課題に対処する研究が進められている。 しかし、既存の手法では、これらの補助サプリメントの関連情報を効果的かつ効率的に活用できないため、会話エージェントとその使用する言語モデルの力を更に解き放つことができる。 本稿では,人間,チャット履歴,知識背景の関連性を低レベル正規化コンテキスト潜在インタラクションを通じて学習することにより,適切な補助情報を正確かつ効率的に識別し,会話応答の質を向上させる新しい手法であるpk-ncliを提案する。 実験の結果, PK-NCLIはPK-FoCusよりも47.80%/30.61%/24.14%, 難易度, 知識基盤, 訓練効率が優れ, 同一の対人グラウンド性能を維持した。 また,言語モデルの選択やトレーニング重量のトレードオフなど,さまざまな要因がPK-NCLIの性能に与える影響を詳細に分析する。

Conversational agents leveraging AI, particularly deep learning, are emerging in both academic research and real-world applications. However, these applications still face challenges, including disrespecting knowledge and facts, not personalizing to user preferences, and enormous demand for computational resources during training and inference. Recent research efforts have been focused on addressing these challenges from various aspects, including supplementing various types of auxiliary information to the conversational agents. However, existing methods are still not able to effectively and efficiently exploit relevant information from these auxiliary supplements to further unleash the power of the conversational agents and the language models they use. In this paper, we present a novel method, PK-NCLI, that is able to accurately and efficiently identify relevant auxiliary information to improve the quality of conversational responses by learning the relevance among persona, chat history, and knowledge background through low-level normalized contextual latent interaction. Our experimental results indicate that PK-NCLI outperforms the state-of-the-art method, PK-FoCus, by 47.80%/30.61%/24.14% in terms of perplexity, knowledge grounding, and training efficiency, respectively, and maintained the same level of persona grounding performance. We also provide a detailed analysis of how different factors, including language model choices and trade-offs on training weights, would affect the performance of PK-NCLI.
翻訳日:2023-12-04 13:37:14 公開日:2023-12-01
# 美容製品発見とメイクアップ仮想試作品のための材料特性の自動抽出

Automated Material Properties Extraction For Enhanced Beauty Product Discovery and Makeup Virtual Try-on ( http://arxiv.org/abs/2312.00766v1 )

ライセンス: Link先を確認
Fatemeh Taheri Dezaki, Himanshu Arora, Rahul Suresh, Amin Banitalebi-Dehkordi(参考訳) 多数のメイク製品は、望ましい属性の理想的なマッチングを見つけるのを困難にしている。 製品発見のためのインテリジェントなアプローチは、より便利で満足できるメイクアップショッピング体験を強化するために必要である。 しかし、正確で効率的な製品発見を可能にするには、色やフィニッシュタイプといった詳細な属性を抽出する必要がある。 本研究では,複数のカスタマイズされた機械学習モデルを用いて,メークアップ製品画像から必須素材属性を抽出する自動パイプラインを提案する。 私たちのパイプラインは多用途で、様々な化粧品を扱えます。 パイプラインの有効性を示すために,アイシャドー製品(シングルとマルチシェード製品の両方)について,多種多様な形状,色,フィニッシュタイプで知られている挑戦的なメークアップ製品について,広範な実験を行った。 さらに,口紅やファウンデーションなど他の化粧品カテゴリにも適用可能であること,美容製品の適合性と有効性を示すことで,アプローチの適用性を実証した。 さらに,信頼性の観点から人間のラベル付け手法よりも機械学習パイプラインが優れていることを示すため,アブレーション実験を行った。 提案手法は,クロスカテゴリー製品発見における有効性を示し,特に,特定の衣服に完全に適合する化粧品を推奨する。 最後に,メイクアップショッピング体験をより魅力的にする仮想試用体験を実現するために,これらの素材属性の応用を実証する。

The multitude of makeup products available can make it challenging to find the ideal match for desired attributes. An intelligent approach for product discovery is required to enhance the makeup shopping experience to make it more convenient and satisfying. However, enabling accurate and efficient product discovery requires extracting detailed attributes like color and finish type. Our work introduces an automated pipeline that utilizes multiple customized machine learning models to extract essential material attributes from makeup product images. Our pipeline is versatile and capable of handling various makeup products. To showcase the efficacy of our pipeline, we conduct extensive experiments on eyeshadow products (both single and multi-shade ones), a challenging makeup product known for its diverse range of shapes, colors, and finish types. Furthermore, we demonstrate the applicability of our approach by successfully extending it to other makeup categories like lipstick and foundation, showcasing its adaptability and effectiveness across different beauty products. Additionally, we conduct ablation experiments to demonstrate the superiority of our machine learning pipeline over human labeling methods in terms of reliability. Our proposed method showcases its effectiveness in cross-category product discovery, specifically in recommending makeup products that perfectly match a specified outfit. Lastly, we also demonstrate the application of these material attributes in enabling virtual-try-on experiences which makes makeup shopping experience significantly more engaging.
翻訳日:2023-12-04 13:36:48 公開日:2023-12-01
# バイアス緩和のノックオン効果を説明する

Explaining Knock-on Effects of Bias Mitigation ( http://arxiv.org/abs/2312.00765v1 )

ライセンス: Link先を確認
Svetoslav Nizhnichenkov, Rahul Nair, Elizabeth Daly, Brian Mac Namee(参考訳) 機械学習システムでは、バイアス緩和アプローチは特権と特権のないグループ間で成果をより公平にすることを目的としている。 バイアス緩和法は様々な方法で機能し、例えばある場所でバイアスを緩和するなど「水」効果が知られている。 本稿では,緩和介入を適用した場合のコホートの影響を特徴付けることを目的とする。 そのために,介入効果を分類タスクとして扱い,説明可能なメタ分類法を学習し,結果が変化するコホートを識別する。 モデルライフサイクルの様々な段階で動作するバイアス緩和戦略について検討する。 メタ分類器が衝突したコホートを発見できることを実証的に実証した。 さらに,すべての緩和戦略が非自明な症例,すなわち緩和努力のみを理由として好ましくない結果が得られた者に負の影響を与えることを示した。 これは公正度指標の改善にもかかわらずである。 これらの結果を基礎として、メトリクスを集約する以上の静的緩和介入のより慎重な監査を行うために使用します。

In machine learning systems, bias mitigation approaches aim to make outcomes fairer across privileged and unprivileged groups. Bias mitigation methods work in different ways and have known "waterfall" effects, e.g., mitigating bias at one place may manifest bias elsewhere. In this paper, we aim to characterise impacted cohorts when mitigation interventions are applied. To do so, we treat intervention effects as a classification task and learn an explainable meta-classifier to identify cohorts that have altered outcomes. We examine a range of bias mitigation strategies that work at various stages of the model life cycle. We empirically demonstrate that our meta-classifier is able to uncover impacted cohorts. Further, we show that all tested mitigation strategies negatively impact a non-trivial fraction of cases, i.e., people who receive unfavourable outcomes solely on account of mitigation efforts. This is despite improvement in fairness metrics. We use these results as a basis to argue for more careful audits of static mitigation interventions that go beyond aggregate metrics.
翻訳日:2023-12-04 13:36:23 公開日:2023-12-01
# Beyond ChatBots: 構造化思想とパーソナライズドモデル応答のためのExploreLLM

Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses ( http://arxiv.org/abs/2312.00763v1 )

ライセンス: Link先を確認
Xiao Ma, Swaroop Mishra, Ariel Liu, Sophie Su, Jilin Chen, Chinmay Kulkarni, Heng-Tze Cheng, Quoc Le, Ed Chi(参考訳) 大規模言語モデル(llm)駆動のチャットボットは、今日は主にテキストベースであり、特に旅行計画や新しい都市についての学習のような探索的あるいは感覚的なタスクにおいて、大きな相互作用的認知負荷を課している。 インタラクションはテキスト的であるため、ユーザは構造や情報的な“香り”、あるいはハイレベルな好みや目標を特定する能力において、足場がほとんどありません。 ユーザが思考を構造化し、さまざまな選択肢を探索し、選択とレコメンデーションをナビゲートし、よりパーソナライズされたレスポンスを生成するために、より簡単にモデルをステアリングできるExploreLLMを導入しました。 ユーザスタディを実施して,explorellmを探索タスクや計画タスクに使用できることを示す。 またこの研究は、explorellmを使って、ユーザーが反応をより簡単にパーソナライズできることを示唆している。 ExploreLLMは、ユーザがチャットボット以外のLLMと対話する未来を指摘するとともに、自然言語とグラフィカルなユーザインターフェースの緊密な統合によって複雑なユーザタスクをサポートするように設計されている。

Large language model (LLM) powered chatbots are primarily text-based today, and impose a large interactional cognitive load, especially for exploratory or sensemaking tasks such as planning a trip or learning about a new city. Because the interaction is textual, users have little scaffolding in the way of structure, informational "scent", or ability to specify high-level preferences or goals. We introduce ExploreLLM that allows users to structure thoughts, help explore different options, navigate through the choices and recommendations, and to more easily steer models to generate more personalized responses. We conduct a user study and show that users find it helpful to use ExploreLLM for exploratory or planning tasks, because it provides a useful schema-like structure to the task, and guides users in planning. The study also suggests that users can more easily personalize responses with high-level preferences with ExploreLLM. Together, ExploreLLM points to a future where users interact with LLMs beyond the form of chatbots, and instead designed to support complex user tasks with a tighter integration between natural language and graphical user interfaces.
翻訳日:2023-12-04 13:36:05 公開日:2023-12-01
# 深層学習 - 高速かつ効率的なトレーニング不要アプローチ

Deep Unlearning: Fast and Efficient Training-free Approach to Controlled Forgetting ( http://arxiv.org/abs/2312.00761v1 )

ライセンス: Link先を確認
Sangamesh Kodge, Gobinda Saha and Kaushik Roy(参考訳) 機械学習は、業界が要求に応じてユーザーデータを削除し、プライバシーの意識を高めることに対する規制の要求が高まり、目覚ましい分野として浮上している。 既存のアプローチでは、モデルをスクラッチから再トレーニングするか、あるいは削除要求毎にいくつかの微調整ステップを使用する。 本研究では,学習モデルからクラス全体やクラス群を戦略的に排除するために設計された,新しいクラスアンラーニングアルゴリズムを提案する。 その目的のために,本アルゴリズムはまず,保持するクラスと学習しないクラスからのサンプルの特徴空間や活性化空間を表現して,保持空間とフォークスペースを推定する。 これらの空間を得るために,ネットワークを経由する数個のフォワードパスからネットワークアクティベーションを階層的に収集する必要がある新しい特異値分解に基づく手法を提案する。 そして、これらの空間間の共有情報を計算し、それを忘れる空間から取り除き、アンラーニングのためのクラス差別的特徴空間を分離します。 最後に,モデル重みをクラス判別空間の直交方向に投影し,未学習モデルを得る。 アルゴリズムの有効性をImageNet上で実証し、未学習のクラスサンプルに対して1%未満の精度を維持しながら、元のモデルと比較して精度を保ったまま、$\sim$1.5%の値のみのVision Transformerを用いて示す。 さらに,様々な画像分類データセットやネットワークアーキテクチャに対して平均7.8%の改善を示すメンバシップ推論攻撃に対して,計算効率が$\sim$6xであるのに対して,我々のアルゴリズムは一貫して性能が向上する。

Machine unlearning has emerged as a prominent and challenging area of interest, driven in large part by the rising regulatory demands for industries to delete user data upon request and the heightened awareness of privacy. Existing approaches either retrain models from scratch or use several finetuning steps for every deletion request, often constrained by computational resource limitations and restricted access to the original training data. In this work, we introduce a novel class unlearning algorithm designed to strategically eliminate an entire class or a group of classes from the learned model. To that end, our algorithm first estimates the Retain Space and the Forget Space, representing the feature or activation spaces for samples from classes to be retained and unlearned, respectively. To obtain these spaces, we propose a novel singular value decomposition-based technique that requires layer wise collection of network activations from a few forward passes through the network. We then compute the shared information between these spaces and remove it from the forget space to isolate class-discriminatory feature space for unlearning. Finally, we project the model weights in the orthogonal direction of the class-discriminatory space to obtain the unlearned model. We demonstrate our algorithm's efficacy on ImageNet using a Vision Transformer with only $\sim$1.5% drop in retain accuracy compared to the original model while maintaining under 1% accuracy on the unlearned class samples. Further, our algorithm consistently performs well when subject to Membership Inference Attacks showing 7.8% improvement on average across a variety of image classification datasets and network architectures, as compared to other baselines while being $\sim$6x more computationally efficient.
翻訳日:2023-12-04 13:35:43 公開日:2023-12-01
# 非局所励起フォノン結合をもつ一般モデルの基底状態絡み合いスペクトル

Ground-state entanglement spectrum of a generic model with nonlocal excitation-phonon coupling ( http://arxiv.org/abs/2312.00755v1 )

ライセンス: Link先を確認
Vladimir M. Stojanovic(参考訳) エンタングルメントスペクトルの概念は様々な多体系に対処するために用いられてきたが、ゼロ次元ボソン(例えば分散レスフォノン)に結合した一意的なスピンレスフェルミオン励起を記述するモデルは、この点に関してまだあまり注目されていない。 このギャップを埋めるために、ピエルス結合と呼吸モード結合という、短距離非局所励起-フォノン相互作用の2つの最も一般的なタイプを含むモデルの基底状態絡み合いスペクトルを数値的に評価する。 このモデルは臨界結合強度で鋭く交差する遷移を示し、これは準運動量 $k_{\textrm{gs}}=0$ の非退化基底状態から非零準運動量の対称対に対応する2次元退化状態への変化を意味する。 このモデルの別の特色は、ピエルス結合と呼吸モード結合の特別な場合において、素励起ブロッホ状態が準同値$0$または$\pi$はその固有状態であることである。 さらに、臨界結合強度以下では、この状態がモデルの基底状態である。 したがって、裸励起と強フォノン装束(ポーラロン)との鋭い遷移は、消失と有限絡みの間の遷移と考えることができる。 ここでは、最小の基底状態エンタングルメントスペクトル固有値は、エンタングルメントエントロピー自体の挙動をかなり模倣し、モデルのこの特別な場合において消滅することが示される。 このモデルのアナログシミュレータとして用いられる超伝導および中性原子系量子ビットアレイにおける$W$状態工学における励起フォノン絡みの影響についても論じる。

While the concept of the entanglement spectrum has heretofore been utilized to address various many-body systems, the models describing an itinerant spinless-fermion excitation coupled to zero-dimensional bosons (e.g. dispersionless phonons) have as yet not received much attention in this regard. To fill this gap, the ground-state entanglement spectrum of a model that includes two of the most common types of short-ranged, nonlocal excitation-phonon interaction -- the Peierls- and breathing-mode couplings -- is numerically evaluated here. This model displays a sharp, level-crossing transition at a critical coupling strength, which signifies the change from a nondegenerate ground state at the quasimomentum $K_{\textrm{gs}}=0$ to a twofold-degenerate one corresponding to a symmetric pair of nonzero quasimomenta. Another peculiarity of this model is that in the special case of equal Peierls- and breathing-mode coupling strengths the bare-excitation Bloch state with the quasimomentum $0$ or $\pi$ is its exact eigenstate. Moreover, below a critical coupling strength this state is the ground state of the model. Thus, the sharp transition between a bare excitation and a heavily phonon-dressed (polaronic) one can be thought of as a transition between vanishing and finite entanglement. It is demonstrated here that the smallest ground-state entanglement-spectrum eigenvalue to a large extent mimics the behavior of the entanglement entropy itself and vanishes in this special case of the model; by contrast, all the remaining eigenvalues diverge in this case. The implications of excitation-phonon entanglement for $W$-state engineering in superconducting and neutral-atom-based qubit arrays serving as analog simulators of this model are also discussed.
翻訳日:2023-12-04 13:35:13 公開日:2023-12-01
# Mamba: 選択状態空間を用いた線形時間シーケンスモデリング

Mamba: Linear-Time Sequence Modeling with Selective State Spaces ( http://arxiv.org/abs/2312.00752v1 )

ライセンス: Link先を確認
Albert Gu, Tri Dao(参考訳) 現在ディープラーニングのエキサイティングなアプリケーションの多くを動かしているファウンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。 線形注意、ゲート畳み込みおよび再帰モデル、構造化状態空間モデル(ssm)のような多くのサブクアドドラティック・タイム・アーキテクチャは、長いシーケンスにおけるトランスフォーマーの計算効率の非効率に対処するために開発されてきたが、それらは言語のような重要なモダリティに注意を払っていない。 このようなモデルの最大の弱点は、コンテンツベースの推論ができないことを特定し、いくつかの改善を行った。 まず、ssmパラメータを入力の関数とするだけで、その弱点に離散的モダリティを対応させ、モデルが現在のトークンに応じてシーケンス長次元に沿って情報を選択的に伝搬または忘れることができる。 第二に、この変更は効率的な畳み込みを防止しているが、ハードウェア対応の並列アルゴリズムをリカレントモードで設計する。 我々はこれらの選択的なSSMを、注意やMLPブロック(Mamba)を使わずに、シンプルなエンドツーエンドニューラルネットワークアーキテクチャに統合する。 Mambaは高速な推論(Transformersより5$\times$高いスループット)とシーケンス長の線形スケーリングを楽しみ、そのパフォーマンスは100万行までの実データで改善される。 一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。 言語モデリングでは、Mamba-3Bモデルは同じ大きさのTransformerより優れ、事前学習と下流評価の両方でTransformerの2倍のサイズにマッチする。

Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address Transformers' computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the sequence length dimension depending on the current token. Second, even though this change prevents the use of efficient convolutions, we design a hardware-aware parallel algorithm in recurrent mode. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba). Mamba enjoys fast inference (5$\times$ higher throughput than Transformers) and linear scaling in sequence length, and its performance improves on real data up to million-length sequences. As a general sequence model backbone, Mamba achieves state-of-the-art performance across several modalities such as language, audio, and genomics. On language modeling, our Mamba-3B model outperforms Transformers of the same size and matches Transformers twice its size, both in pretraining and downstream evaluation.
翻訳日:2023-12-04 13:34:41 公開日:2023-12-01
# 正規化非局所関数による変圧器のオーバースムーシングの緩和

Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals ( http://arxiv.org/abs/2312.00751v1 )

ライセンス: Link先を確認
Tam Nguyen, Tan M. Nguyen, Richard G. Baraniuk(参考訳) トランスフォーマーは、幅広い自然言語処理とコンピュータビジョンのアプリケーションで顕著な成功を収めてきた。 しかしながら、モデルの深さが大きくなるとトークン表現が同一になる過剰なスムーシング問題により、ディープトランスモデルの表現能力が低下する。 本研究では, 変圧器の自己保持層がスムーズ性を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。 そこで,本研究では,トークンの忠実性を保つために,自己照査からの滑らかな出力トークンと入力トークンとの差分のノルムをペナライズする新しい正規化器を提案する。 得られた正規化エネルギー関数を最小化することで、過密問題を緩和できる新しい変圧器モデルである正規化非局所関数(NeuTRENO)を持つニューラルトランスを導出する。 我々は, オブジェクト分類, 画像分割, 言語モデリングなど, 様々な作業において, トークン表現の過度な平滑化を低減するために, ベースライントランスフォーマよりもNeuTRENOの利点を実証的に示す。

Transformers have achieved remarkable success in a wide range of natural language processing and computer vision applications. However, the representation capacity of a deep transformer model is degraded due to the over-smoothing issue in which the token representations become identical when the model's depth grows. In this work, we show that self-attention layers in transformers minimize a functional which promotes smoothness, thereby causing token uniformity. We then propose a novel regularizer that penalizes the norm of the difference between the smooth output tokens from self-attention and the input tokens to preserve the fidelity of the tokens. Minimizing the resulting regularized energy functional, we derive the Neural Transformer with a Regularized Nonlocal Functional (NeuTRENO), a novel class of transformer models that can mitigate the over-smoothing issue. We empirically demonstrate the advantages of NeuTRENO over the baseline transformers and state-of-the-art methods in reducing the over-smoothing of token representations on various practical tasks, including object classification, image segmentation, and language modeling.
翻訳日:2023-12-04 13:33:37 公開日:2023-12-01
# 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈

Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning ( http://arxiv.org/abs/2310.07918v3 )

ライセンス: Link先を確認
Jannik Deuschel, Caleb N. Ellington, Benjamin J. Lengerich, Yingtao Luo, Pascal Friederich, Eric P. Xing(参考訳) 解釈可能な政策学習は、観察された行動から理解可能な決定方針を推定することを目指すが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制することによって不足する。 このトレードオフは、人間の意思決定プロセスのデータ駆動解釈を制限する。 例えば、バイアスや準最適プラクティスの医学的決定を監査するには、複雑な振る舞いの簡潔な記述を提供する決定プロセスのモデルが必要です。 基本的に、既存のアプローチは、人間の決定が動的であり、文脈情報とともに劇的に変化する場合、基本的な決定プロセスが普遍的なポリシーとして表されるため、このトレードオフによって負担される。 そこで本研究では,複雑な意思決定過程を,複雑な意思決定方針がコンテキスト固有の方針から構成されるマルチタスク学習問題としてモデル化する,文脈化ポリシリカバリ(cpr)を提案する。 CPRは、コンテキスト固有のポリシーを線形観測対アクションマッピングとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しい決定モデル$\textit{on-demand}$を生成する。 CPRは完全にオフラインで部分的に監視可能な決定環境と互換性があり、繰り返し発生するブラックボックスモデルや解釈可能な決定モデルを統合するように調整できる。 我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室における抗生物質処方の予測(+22\%=AUROC vs. 以前のSOTA)とアルツハイマー病患者のMRI処方の予測(+7.7\%=AUROC vs. 以前のSOTA)の正準的タスクにおける最先端のパフォーマンスを達成した。 この予測性能の改善により、CPRはポリシー学習のための解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高分解能な探索と分析を可能にする。

Interpretable policy learning seeks to estimate intelligible decision policies from observed actions; however, existing models fall short by forcing a tradeoff between accuracy and interpretability. This tradeoff limits data-driven interpretations of human decision-making process. e.g. to audit medical decisions for biases and suboptimal practices, we require models of decision processes which provide concise descriptions of complex behaviors. Fundamentally, existing approaches are burdened by this tradeoff because they represent the underlying decision process as a universal policy, when in fact human decisions are dynamic and can change drastically with contextual information. Thus, we propose Contextualized Policy Recovery (CPR), which re-frames the problem of modeling complex decision processes as a multi-task learning problem in which complex decision policies are comprised of context-specific policies. CPR models each context-specific policy as a linear observation-to-action mapping, and generates new decision models $\textit{on-demand}$ as contexts are updated with new observations. CPR is compatible with fully offline and partially observable decision environments, and can be tailored to incorporate any recurrent black-box model or interpretable decision model. We assess CPR through studies on simulated and real data, achieving state-of-the-art performance on the canonical tasks of predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs. previous SOTA) and predicting MRI prescription for Alzheimer's patients ($+7.7\%$ AUROC vs. previous SOTA). With this improvement in predictive performance, CPR closes the accuracy gap between interpretable and black-box methods for policy learning, allowing high-resolution exploration and analysis of context-specific decision models.
翻訳日:2023-12-04 11:51:32 公開日:2023-12-01
# TrTr:自動車人口の軌跡多様性を捉える変圧器を用いた多目的事前訓練大型交通モデル

TrTr: A Versatile Pre-Trained Large Traffic Model based on Transformer for Capturing Trajectory Diversity in Vehicle Population ( http://arxiv.org/abs/2309.12677v3 )

ライセンス: Link先を確認
Ruyi Feng, Zhibin Li, Bowen Liu and Yan Ding(参考訳) 軌道の多様性を理解することは、現実的な交通課題に対処する基本的な側面である。 しかしながら、トラジェクタの多様性を捉えることは、特に大規模パラメータの要求により、従来の機械学習やリカレントニューラルネットワークにおいて問題となる。 数億のパラメータを持つモデルの利用を可能にする並列計算能力で有名である、新しいトランスフォーマー技術は、有望なソリューションを提供する。 本研究では,トランスフォーマーアーキテクチャを交通タスクに適用し,車内における軌道の多様性を学習することを目的とした。 本稿では,トランスフォーマーの注意機構と交通タスクの目標への適応性を分析し,その後,特定の事前学習タスクを設計する。 これを実現するために、注意機構に合わせたデータ構造を作成し、事前学習プロセス中に構造化データに組み込まれた時空間的要求に対応する一連のノイズを導入する。 設計した事前学習モデルは, 車両の空間分布の把握に優れた性能を示し, 車両重なりの事例はなく, RMSEは0.6059である。 時系列予測の文脈では、予測された軌道速度の95%は7.5144m/sで真の速度と密接に一致している。 さらに、安定性テストでは、入力シーケンスより10倍長い時系列を連続的に予測し、滑らかな軌道を提供し、多様な運転行動を示すことによってロバスト性を示す。 事前訓練されたモデルは、下流の微調整タスクに良い基礎を提供する。 私たちのモデルのパラメータの数は5000万以上です。

Understanding trajectory diversity is a fundamental aspect of addressing practical traffic tasks. However, capturing the diversity of trajectories presents challenges, particularly with traditional machine learning and recurrent neural networks due to the requirement of large-scale parameters. The emerging Transformer technology, renowned for its parallel computation capabilities enabling the utilization of models with hundreds of millions of parameters, offers a promising solution. In this study, we apply the Transformer architecture to traffic tasks, aiming to learn the diversity of trajectories within vehicle populations. We analyze the Transformer's attention mechanism and its adaptability to the goals of traffic tasks, and subsequently, design specific pre-training tasks. To achieve this, we create a data structure tailored to the attention mechanism and introduce a set of noises that correspond to spatio-temporal demands, which are incorporated into the structured data during the pre-training process. The designed pre-training model demonstrates excellent performance in capturing the spatial distribution of the vehicle population, with no instances of vehicle overlap and an RMSE of 0.6059 when compared to the ground truth values. In the context of time series prediction, approximately 95% of the predicted trajectories' speeds closely align with the true speeds, within a deviation of 7.5144m/s. Furthermore, in the stability test, the model exhibits robustness by continuously predicting a time series ten times longer than the input sequence, delivering smooth trajectories and showcasing diverse driving behaviors. The pre-trained model also provides a good basis for downstream fine-tuning tasks. The number of parameters of our model is over 50 million.
翻訳日:2023-12-04 11:50:56 公開日:2023-12-01
# 意思決定システムのためのヘシアン・アウェアベイズ最適化

Hessian-Aware Bayesian Optimization for Decision Making Systems ( http://arxiv.org/abs/2308.00629v4 )

ライセンス: Link先を確認
Mohit Rajpal, Lac Gia Tran, Yehong Zhang, Bryan Kian Hsiang Low(参考訳) 意思決定システムを最適化するための多くのアプローチは、環境からの情報的フィードバックを必要とする勾配に基づく手法に依存している。 しかし、そのようなフィードバックが疎い場合や非形式的な場合、そのようなアプローチは性能が低下する可能性がある。 ベイズ最適化のような微分自由なアプローチは勾配フィードバックの品質への依存を緩和するが、複雑な意思決定システムの高次元設定ではスケールが不十分であることが知られている。 この問題は、システムが共有目標を達成するために協力する複数のアクター間のインタラクションを必要とする場合、悪化する。 次元的課題に対処するため,我々は,役割の概念を通じてアクタインタラクションのダイナミクスをモデル化するコンパクトな多層アーキテクチャを提案する。 我々は,多数のパラメータでパラメータ化された多層アーキテクチャを効率的に最適化するために,ヘッセン・アウェア・ベイズ最適化を導入する。 提案手法は, 不正又はスパース報酬下での強い経験的結果を示す。

Many approaches for optimizing decision making systems rely on gradient based methods requiring informative feedback from the environment. However, in the case where such feedback is sparse or uninformative, such approaches may result in poor performance. Derivative-free approaches such as Bayesian Optimization mitigate the dependency on the quality of gradient feedback, but are known to scale poorly in the high-dimension setting of complex decision making systems. This problem is exacerbated if the system requires interactions between several actors cooperating to accomplish a shared goal. To address the dimensionality challenge, we propose a compact multi-layered architecture modeling the dynamics of actor interactions through the concept of role. We introduce Hessian-aware Bayesian Optimization to efficiently optimize the multi-layered architecture parameterized by a large number of parameters, and give the first improved regret bound in additive high-dimensional Bayesian Optimization since Mutny & Krause (2018). Our approach shows strong empirical results under malformed or sparse reward.
翻訳日:2023-12-04 11:50:31 公開日:2023-12-01
# 保険請求頻度に対するベイズCARTモデル

Bayesian CART models for insurance claims frequency ( http://arxiv.org/abs/2303.01923v3 )

ライセンス: Link先を確認
Yaojun Zhang, Lanpeng Ji, Georgios Aivaliotis, and Charles Taylor(参考訳) 保険価格モデルの正確性と解釈可能性は、そのリスクを反映した公正かつ透明な保険料を確保するために不可欠である。 近年、分類・回帰木(carts)とそのアンサンブルは、予測性能が良く、比較的容易に解釈できるため、時間文学で人気を集めている。 本稿では,保険価格のベイズカートモデルについて,特にクレーム周波数モデルに着目して紹介する。 さらに,クレーム周波数に使用される共通ポアソン分布と負二項(nb)分布に加えて,不均衡保険請求データから生じる困難に対処するために,ゼロインフレーションポアソン(zip)分布に対するベイズカートを実装した。 そこで本研究では,データ拡張手法を用いた汎用MCMCアルゴリズムを提案する。 また,木モデル選択のための逸脱情報基準(dic)についても紹介する。 提案したモデルでは、政策ステークホルダーをよりリスクグループに分類できる木を識別することができる。 これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。

Accuracy and interpretability of a (non-life) insurance pricing model are essential qualities to ensure fair and transparent premiums for policy-holders, that reflect their risk. In recent years, the classification and regression trees (CARTs) and their ensembles have gained popularity in the actuarial literature, since they offer good prediction performance and are relatively easily interpretable. In this paper, we introduce Bayesian CART models for insurance pricing, with a particular focus on claims frequency modelling. Additionally to the common Poisson and negative binomial (NB) distributions used for claims frequency, we implement Bayesian CART for the zero-inflated Poisson (ZIP) distribution to address the difficulty arising from the imbalanced insurance claims data. To this end, we introduce a general MCMC algorithm using data augmentation methods for posterior tree exploration. We also introduce the deviance information criterion (DIC) for the tree model selection. The proposed models are able to identify trees which can better classify the policy-holders into risk groups. Some simulations and real insurance data will be discussed to illustrate the applicability of these models.
翻訳日:2023-12-04 11:50:11 公開日:2023-12-01
# MLLMによる視覚言語表現学習

MLLMs-Augmented Visual-Language Representation Learning ( http://arxiv.org/abs/2311.18765v2 )

ライセンス: Link先を確認
Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang and Yang You(参考訳) 視覚言語事前学習(VLP)は、大規模な画像テキストデータセットが利用可能であることから、マルチモーダルタスクにおいて顕著な成功を収めている。 本研究では,マルチモーダル大規模言語モデル(mllms)が,データ品質の向上によって視覚表現学習を向上できることを実証する。 MLLMを用いて,画像毎に複数のキャプションを拡張する手法を提案する。 MLLMの幻覚や本態的なキャプションスタイルがもたらすバイアスを回避するため,従来のキャプションと同じ長さのキャプションを維持できる「テキストシーリング」を提案する。 画像テキスト検索では,r@1の5.6 ~ 35.0%,16.8 ~ 46.1%の精度向上が得られた。 特に、ターゲットデータセットの微調整に匹敵するゼロショット結果が得られ、MLLMの多目的利用のさらなる探索が促進される。

Visual-language pre-training (VLP) has achieved remarkable success in multi-modal tasks, largely attributed to the availability of large-scale image-text datasets. In this work, we demonstrate that multi-modal large language models (MLLMs) can enhance visual-language representation learning by improving data quality. Our approach is simple, utilizing MLLMs to extend multiple captions for each image. To prevent the bias introduced by MLLMs' hallucinations and intrinsic caption styles, we propose "text shearing" to maintain the same length for extended captions as that of the original captions. In image-text retrieval, our method consistently obtains 5.6 ~ 35.0% and 16.8 ~ 46.1% improvement on R@1 under the fine-tuning and zero-shot settings, respectively. Notably, we obtain zero-shot results that are comparable to fine-tuning on target datasets, which encourages more exploration of the versatile use of MLLMs.
翻訳日:2023-12-04 11:47:16 公開日:2023-12-01
# トランスフォーマーによるチームのオリエンテーリング問題の解決

Solving the Team Orienteering Problem with Transformers ( http://arxiv.org/abs/2311.18662v2 )

ライセンス: Link先を確認
Daniel Fuertes, Carlos R. del-Blanco, Fernando Jaureguizar, Narciso Garc\'ia(参考訳) 車両群のためのルートプランニングは、荷物の配送、監視、輸送といった応用において重要な課題である。 この問題は、通常、チームオリエンテーリング問題と呼ばれる組合せ最適化問題としてモデル化される。 最も一般的なチームオリエンテーリング問題の解法は、主に線形プログラミングに基づいており、問題の大きさに応じて成長する大きな計算時間を利用することで正確な解を提供する。 本稿では,チームのオリエンテーリング問題を迅速かつ正確な方法で解くことができるマルチエージェント経路計画システムを提案する。 提案システムは、(グラフとしてモデル化された)シナリオとエージェントのコンテキストを符号化して、高速で正確なソリューションを提供することができる集中型トランスフォーマーニューラルネットワークに基づいている。 提案手法が計算速度の面で最先端の著作物の大部分を上回ることができることを示す実験がいくつか行われている。 また、コードはhttp://gti.ssr.upm.es/dataで公開されている。

Route planning for a fleet of vehicles is an important task in applications such as package delivery, surveillance, or transportation. This problem is usually modeled as a Combinatorial Optimization problem named as Team Orienteering Problem. The most popular Team Orienteering Problem solvers are mainly based on either linear programming, which provides accurate solutions by employing a large computation time that grows with the size of the problem, or heuristic methods, which usually find suboptimal solutions in a shorter amount of time. In this paper, a multi-agent route planning system capable of solving the Team Orienteering Problem in a very fast and accurate manner is presented. The proposed system is based on a centralized Transformer neural network that can learn to encode the scenario (modeled as a graph) and the context of the agents to provide fast and accurate solutions. Several experiments have been performed to demonstrate that the presented system can outperform most of the state-of-the-art works in terms of computation speed. In addition, the code is publicly available at http://gti.ssr.upm.es/data.
翻訳日:2023-12-04 11:46:59 公開日:2023-12-01
# スペクトラムセンシングにおける複数認知ユーザのための共同検出アルゴリズム

Joint Detection Algorithm for Multiple Cognitive Users in Spectrum Sensing ( http://arxiv.org/abs/2311.18599v2 )

ライセンス: Link先を確認
Fanfei Meng, Yuxin Wang, Lele Zhang, Yingxin Zhao(参考訳) スペクトルセンシング技術は現代の通信技術の重要な要素であり、タイトな周波数帯域における不足情報資源を効率的に活用するための重要な技術の一つである。 本稿では,まず3つの論理回路決定基準を導入し,その決定厳密性を分析する。 そこで本論文では,ソフト決定に基づくマルチユーザスペクトルセンシング手法について紹介する。 そして、3つの基準に対応する誤報確率と検出確率曲線をシミュレートする。 マルチユーザ協調センシングのシミュレーション結果は、シミュレーションプロセスが誤警報確率を著しく低減し、検出確率を高めることを示す。 このアプローチは、アイドル期間中に未占有のスペクトル資源を効果的に検出し、時間分割多重化の概念を活用し、情報資源の再分配を合理化する。 計算過程全体は、通信理論におけるパワースペクトル密度の計算原理に依存しており、ノイズパワーの閾値決定検出とノイズと信号パワーの和を含んでいる。 論理的検出手法の知覚的決定性能を相対的精度で反映した二次的決定検出を提供する。

Spectrum sensing technology is a crucial aspect of modern communication technology, serving as one of the essential techniques for efficiently utilizing scarce information resources in tight frequency bands. This paper first introduces three common logical circuit decision criteria in hard decisions and analyzes their decision rigor. Building upon hard decisions, the paper further introduces a method for multi-user spectrum sensing based on soft decisions. Then the paper simulates the false alarm probability and detection probability curves corresponding to the three criteria. The simulated results of multi-user collaborative sensing indicate that the simulation process significantly reduces false alarm probability and enhances detection probability. This approach effectively detects spectrum resources unoccupied during idle periods, leveraging the concept of time-division multiplexing and rationalizing the redistribution of information resources. The entire computation process relies on the calculation principles of power spectral density in communication theory, involving threshold decision detection for noise power and the sum of noise and signal power. It provides a secondary decision detection, reflecting the perceptual decision performance of logical detection methods with relative accuracy.
翻訳日:2023-12-04 11:46:21 公開日:2023-12-01
# 連続16ビットトレーニング:32ビット事前学習ニューラルネットワークの高速化

Continuous 16-bit Training: Accelerating 32-bit Pre-Trained Neural Networks ( http://arxiv.org/abs/2311.18587v2 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) ディープラーニングの分野では、32ビット精度で訓練されたモデルの正しさは、その堅牢性と精度の証明である。 しかしながら、これらのモデルの継続的な進化は、しばしばリソース集約的なさらなるトレーニングを必要とする。 本研究では,既存の32ビットモデルのトレーニングを16ビット精度で継続する手法を提案する。 この技術は、計算資源の効率性の必要性に対処するだけでなく、追加のトレーニングフェーズの速度を大幅に改善する。 継続するトレーニングに16ビット精度を採用することで、メモリ要求と計算負荷を大幅に削減でき、リソース制限された設定でトレーニングプロセスを高速化できる。 実験により,本手法は32ビットトレーニングで設定された高い精度を維持しつつ,訓練速度の大幅な向上が期待できることを示した。 このアプローチは、今日のコンテキストにおいて特に重要であり、ほとんどのモデルは当初32ビットでトレーニングされ、定期的な更新と改良を必要とする。 本研究は,16ビット継続学習のこの戦略が,持続的かつ効率的な深層学習の鍵となるソリューションになり得ることを示唆する。

In the field of deep learning, the prevalence of models initially trained with 32-bit precision is a testament to its robustness and accuracy. However, the continuous evolution of these models often demands further training, which can be resource-intensive. This study introduces a novel approach where we continue the training of these pre-existing 32-bit models using 16-bit precision. This technique not only caters to the need for efficiency in computational resources but also significantly improves the speed of additional training phases. By adopting 16-bit precision for ongoing training, we are able to substantially decrease memory requirements and computational burden, thereby accelerating the training process in a resource-limited setting. Our experiments show that this method maintains the high standards of accuracy set by the original 32-bit training while providing a much-needed boost in training speed. This approach is especially pertinent in today's context, where most models are initially trained in 32-bit and require periodic updates and refinements. The findings from our research suggest that this strategy of 16-bit continuation training can be a key solution for sustainable and efficient deep learning, offering a practical way to enhance pre-trained models rapidly and in a resource-conscious manner.
翻訳日:2023-12-04 11:45:49 公開日:2023-12-01
# 時間フレーム補間によるロバスト降雨予報器の学習

Learning Robust Precipitation Forecaster by Temporal Frame Interpolation ( http://arxiv.org/abs/2311.18341v2 )

ライセンス: Link先を確認
Lu Han, Xu-Yang Chen, Han-Jia Ye, De-Chuan Zhan(参考訳) ディープラーニングの最近の進歩は、天気予報モデルを著しく高めている。 しかし、これらのモデルは時空間シフトに対する感度のため、現実のシナリオでしばしば失敗する。 この問題は特に気象予報において深刻であり、特に粒度の細かい予測を行う場合には、モデルが局所的な変動や時間的変動に過剰に適合しがちである。 本稿では,このような空間的不一致に対するレジリエンスを示す頑健な降水予測モデルを開発することで,これらの課題に対処する。 本稿では,衛星画像と地中レーダデータから隣接するフレームを補間することにより,合成サンプルを生成し,フレームノイズに対するモデルのロバスト性を向上させる新しい手法であるtemporal frame interpolation (tfi)を提案する。 さらに,降雨強度の順序性を利用してモデルの性能を向上させる,ユニークなマルチレベルダイス損失関数(ml-dice)を組み込んだ。 提案手法は精度の予測において顕著な改善をもたらし,本モデルでは, <textit{Weather4cast'23} コンペティションの移行学習リーダーボードにおける \textit{1st place} の確保を実現している。 この成果は,我々の方法論の有効性を裏付けるだけでなく,気象予報における深層学習の新たな標準も確立している。 コードと重みは \url{https://github.com/Secilia-Cxy/UNetTFI} で公開されています。

Recent advances in deep learning have significantly elevated weather prediction models. However, these models often falter in real-world scenarios due to their sensitivity to spatial-temporal shifts. This issue is particularly acute in weather forecasting, where models are prone to overfit to local and temporal variations, especially when tasked with fine-grained predictions. In this paper, we address these challenges by developing a robust precipitation forecasting model that demonstrates resilience against such spatial-temporal discrepancies. We introduce Temporal Frame Interpolation (TFI), a novel technique that enhances the training dataset by generating synthetic samples through interpolating adjacent frames from satellite imagery and ground radar data, thus improving the model's robustness against frame noise. Moreover, we incorporate a unique Multi-Level Dice (ML-Dice) loss function, leveraging the ordinal nature of rainfall intensities to improve the model's performance. Our approach has led to significant improvements in forecasting precision, culminating in our model securing \textit{1st place} in the transfer learning leaderboard of the \textit{Weather4cast'23} competition. This achievement not only underscores the effectiveness of our methodologies but also establishes a new standard for deep learning applications in weather forecasting. Our code and weights have been public on \url{https://github.com/Secilia-Cxy/UNetTFI}.
翻訳日:2023-12-04 11:45:27 公開日:2023-12-01
# ShapeGPT:統一多モード言語モデルによる3次元形状生成

ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model ( http://arxiv.org/abs/2311.17618v3 )

ライセンス: Link先を確認
Fukun Yin, Xin Chen, Chi Zhang, Biao Jiang, Zibo Zhao, Jiayuan Fan, Gang Yu, Taihao Li, Tao Chen(参考訳) 命令駆動アプローチによって柔軟性を実現する大規模言語モデルの出現は、多くの伝統的な生成タスクに革命をもたらしたが、特に他のモダリティで包括的に3d形状を扱う3dデータのための大規模モデルはまだ未検討のままである。 命令ベースの形状生成によって、多目的多モード生成形状モデルは、3D仮想構築やネットワーク支援設計といった様々な分野に多大な利益をもたらすことができる。 本研究では,複数の形状関連タスクに対処するために,強力な事前学習言語モデルを活用する形状対応マルチモーダルフレームワークであるShapeGPTを提案する。 具体的には、ShapeGPTは単語文パラグラフの枠組みを用いて、連続した形を形づくり語に識別し、さらにこれらの単語を形づくり文のために組み立て、また複数段落の指示文と整合する。 この形状言語モデルを学ぶために、形状表現、マルチモーダルアライメント、命令に基づく生成を含む3段階のトレーニングスキームを用いて、形状言語コードブックをアライメントし、それらのモダリティ間の複雑な相関を学習する。 大規模な実験により、ShapeGPTは、テキスト・トゥ・シェイプ、シェイプ・トゥ・テキスト、シェイプ・コンプリート、形状編集など、形状関連タスクに匹敵する性能を達成している。

The advent of large language models, enabling flexibility through instruction-driven approaches, has revolutionized many traditional generative tasks, but large models for 3D data, particularly in comprehensively handling 3D shapes with other modalities, are still under-explored. By achieving instruction-based shape generations, versatile multimodal generative shape models can significantly benefit various fields like 3D virtual construction and network-aided design. In this work, we present ShapeGPT, a shape-included multi-modal framework to leverage strong pre-trained language models to address multiple shape-relevant tasks. Specifically, ShapeGPT employs a word-sentence-paragraph framework to discretize continuous shapes into shape words, further assembles these words for shape sentences, as well as integrates shape with instructional text for multi-modal paragraphs. To learn this shape-language model, we use a three-stage training scheme, including shape representation, multimodal alignment, and instruction-based generation, to align shape-language codebooks and learn the intricate correlations among these modalities. Extensive experiments demonstrate that ShapeGPT achieves comparable performance across shape-relevant tasks, including text-to-shape, shape-to-text, shape completion, and shape editing.
翻訳日:2023-12-04 11:44:46 公開日:2023-12-01
# TaskWeaver: コードファーストのエージェントフレームワーク

TaskWeaver: A Code-First Agent Framework ( http://arxiv.org/abs/2311.17541v2 )

ライセンス: Link先を確認
Bo Qiao, Liqun Li, Xu Zhang, Shilin He, Yu Kang, Chaoyun Zhang, Fangkai Yang, Hang Dong, Jue Zhang, Lu Wang, Minghua Ma, Pu Zhao, Si Qin, Xiaoting Qin, Chao Du, Yong Xu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang(参考訳) 大きな言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示しており、チャットボットや仮想アシスタントのようなアプリケーションで使用される。 しかし、既存のllmフレームワークはリッチなデータ構造でドメイン固有のデータ分析タスクを扱う際の制限に直面している。 さらに、多様なユーザー要件を満たすために柔軟性に苦しむ。 これらの問題に対処するため、TaskWeaverはLLMで動く自律エージェントを構築するためのコードファーストフレームワークとして提案されている。 ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。 TaskWeaverは、リッチなデータ構造、柔軟なプラグイン使用、動的プラグイン選択のサポートを提供し、複雑なロジックにLLMコーディング機能を活用する。 また、例を通してドメイン固有の知識を取り入れ、生成されたコードの安全な実行を保証する。 taskweaverは、複雑なタスクを処理し、ドメイン固有のシナリオに適応できるインテリジェントな会話エージェントを作成するための強力で柔軟なフレームワークを提供する。 コードはhttps://github.com/microsoft/taskweaver/でオープンソース化されている。

Large Language Models (LLMs) have shown impressive abilities in natural language understanding and generation, leading to their use in applications such as chatbots and virtual assistants. However, existing LLM frameworks face limitations in handling domain-specific data analytics tasks with rich data structures. Moreover, they struggle with flexibility to meet diverse user requirements. To address these issues, TaskWeaver is proposed as a code-first framework for building LLM-powered autonomous agents. It converts user requests into executable code and treats user-defined plugins as callable functions. TaskWeaver provides support for rich data structures, flexible plugin usage, and dynamic plugin selection, and leverages LLM coding capabilities for complex logic. It also incorporates domain-specific knowledge through examples and ensures the secure execution of generated code. TaskWeaver offers a powerful and flexible framework for creating intelligent conversational agents that can handle complex tasks and adapt to domain-specific scenarios. The code is open-sourced at https://github.com/microsoft/TaskWeaver/.
翻訳日:2023-12-04 11:44:23 公開日:2023-12-01
# CLiSA:衛星画像クラウドセグメンテーションのための直交交差注意を用いた階層型ハイブリッドトランスモデル

CLiSA: A Hierarchical Hybrid Transformer Model using Orthogonal Cross Attention for Satellite Image Cloud Segmentation ( http://arxiv.org/abs/2311.17475v2 )

ライセンス: Link先を確認
Subhajit Paul, Ashutosh Gupta(参考訳) 光衛星画像内の雲は、その存在が正確な解析と処理の能力を妨げるため、主要な関心事である。 雲の存在は、イメージタスクのスケジュールにも影響し、地上および宇宙ベースのシステムで貴重なストレージスペースを浪費する。 これらの理由から、光学リモートセンシング画像から正確な雲マスクを抽出することが重要な課題である。 衛星画像における雲検出のためのしきい値に基づく空間フィルタリングのような従来の手法は精度の欠如に苦しむ。 近年,深層学習アルゴリズムは,画素レベルの分類と意味レベルのセグメンテーションを可能にするため,画像セグメンテーション問題を解決するための有望なアプローチとして出現している。 本稿では,ハイブリッドトランスフォーマーアーキテクチャに基づく,clisa - cloud segmentation via lipschitz stable attention network という,効果的なクラウドマスク生成のためのディープラーニングモデルを提案する。 本研究では,階層的クロスアテンションモデルと組み合わせた直交自己アテンションの概念を提案し,リプシッツの安定性を理論的および経験的に検証する。 我々は,Lov\'asz-Softmax損失を前提として,対向的な設定で全体の設定を設計する。 Landsat-8, Sentinel-2, Cartosat-2sを含む複数の衛星画像データセットの質的および定量的な結果を示す。 比較実験の結果,我々のモデルは,他の最先端手法に対して好適に動作し,衛星マルチスペクトル(MX)画像からの雲抽出の精度向上も図っている。 また,異なるアーキテクチャ要素と目的関数に対応する選択を推奨する,異なるアブレーション研究も紹介する。

Clouds in optical satellite images are a major concern since their presence hinders the ability to carry accurate analysis as well as processing. Presence of clouds also affects the image tasking schedule and results in wastage of valuable storage space on ground as well as space-based systems. Due to these reasons, deriving accurate cloud masks from optical remote-sensing images is an important task. Traditional methods such as threshold-based, spatial filtering for cloud detection in satellite images suffer from lack of accuracy. In recent years, deep learning algorithms have emerged as a promising approach to solve image segmentation problems as it allows pixel-level classification and semantic-level segmentation. In this paper, we introduce a deep-learning model based on hybrid transformer architecture for effective cloud mask generation named CLiSA - Cloud segmentation via Lipschitz Stable Attention network. In this context, we propose an concept of orthogonal self-attention combined with hierarchical cross attention model, and we validate its Lipschitz stability theoretically and empirically. We design the whole setup under adversarial setting in presence of Lov\'asz-Softmax loss. We demonstrate both qualitative and quantitative outcomes for multiple satellite image datasets including Landsat-8, Sentinel-2, and Cartosat-2s. Performing comparative study we show that our model performs preferably against other state-of-the-art methods and also provides better generalization in precise cloud extraction from satellite multi-spectral (MX) images. We also showcase different ablation studies to endorse our choices corresponding to different architectural elements and objective functions.
翻訳日:2023-12-04 11:44:07 公開日:2023-12-01
# Agent Avatar:フォトリアリスティックなアバターエージェントのためのプランニング、運転、レンダリング

AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents ( http://arxiv.org/abs/2311.17465v2 )

ライセンス: Link先を確認
Duomin Wang, Bin Dai, Yu Deng, Baoyuan Wang(参考訳) 本研究の目的は,視覚的・行動的両面から自律的に顔の動きを計画し,アニメーション化できる対話型アバターエージェントを作ることである。 環境とエージェントプロファイルに関する高レベルなインプットを前提として,我々のフレームワークはLCMを用いて,アバターエージェントの顔の動きを詳細に記述する。 これらの記述はタスク非依存の駆動エンジンによってモーショントークンシーケンスに変換され、その後、スタンドアロンのニューラルベースレンダラーによってさらに消費され、最終的なフォトリアリスティックなアバターアニメーションを生成する。 これらの合理化プロセスにより、我々のフレームワークはモナディックとディアディックの両方の様々な非言語アバター相互作用に適応できる。 環境とのモナディックインタラクションが可能なエージェントと,dyadic会話用に設計されたエージェントという2つのタイプのエージェントを特徴とする,新たにコンパイルされたデータセットと既存のデータセットの両方に関する実験を含む広範な研究は,我々のアプローチの有効性と汎用性を検証するものだ。 我々は,llmとニューラルレンダリングを組み合わせることで,アバターエージェントの非言語的予測とフォトリアリスティックなレンダリングに飛躍的な一歩を踏み出した。

In this study, our goal is to create interactive avatar agents that can autonomously plan and animate nuanced facial movements realistically, from both visual and behavioral perspectives. Given high-level inputs about the environment and agent profile, our framework harnesses LLMs to produce a series of detailed text descriptions of the avatar agents' facial motions. These descriptions are then processed by our task-agnostic driving engine into motion token sequences, which are subsequently converted into continuous motion embeddings that are further consumed by our standalone neural-based renderer to generate the final photorealistic avatar animations. These streamlined processes allow our framework to adapt to a variety of non-verbal avatar interactions, both monadic and dyadic. Our extensive study, which includes experiments on both newly compiled and existing datasets featuring two types of agents -- one capable of monadic interaction with the environment, and the other designed for dyadic conversation -- validates the effectiveness and versatility of our approach. To our knowledge, we advanced a leap step by combining LLMs and neural rendering for generalized non-verbal prediction and photo-realistic rendering of avatar agents.
翻訳日:2023-12-04 11:43:23 公開日:2023-12-01
# VideoAssembler:拡散モデルを用いた参照エンティティを持つアイデンティティ一貫性ビデオ生成

VideoAssembler: Identity-Consistent Video Generation with Reference Entities using Diffusion Model ( http://arxiv.org/abs/2311.17338v2 )

ライセンス: Link先を確認
Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Zuxuan Wu, Hang Xu, Yu-Gang Jiang(参考訳) アイデンティティ一貫性のあるビデオ生成は、テキストプロンプトとエンティティの参照イメージの両方によってガイドされるビデオの合成を目指している。 現在のアプローチでは一般的に、エンティティの外観を統合するために、クロスアテンション・レイヤを使用し、主にセマンティックな属性をキャプチャし、エンティティの忠実度を損なう。 さらに、これらの手法は遭遇する新しいエンティティごとに反復的な微調整を必要とするため、適用性が制限される。 これらの課題に対処するために,我々は,アイデンティティ一貫性のあるビデオ生成のための新しいエンドツーエンドフレームワークであるvideoassemblerを紹介する。 VideoAssemblerは、入力参照エンティティに関してだけでなく、テキスト条件にも反応するフレキシブルなビデオを作成することに長けている。 さらに、エンティティの入力画像量を調整することで、VideoAssemblerは、画像生成から高度なビデオ編集まで、タスクの実行を可能にする。 VideoAssemblerは、Reference Entity Pyramid (REP)エンコーダとEntity-Prompt Attention Fusion (EPAF)モジュールの2つの主要コンポーネントで構成されている。 REPエンコーダは、安定した拡散モデルの認知段階に包括的外観の詳細を注入するように設計されている。 同時にEPAFモジュールを使用してテキスト整列機能を効果的に統合する。 さらに,不足データの課題を軽減するため,トレーニングデータの事前処理を行う手法を提案する。 UCF-101, MSR-VTT, DAVISデータセット上での VideoAssembler フレームワークの評価は, FVD では 346.84 , UCF-101 では 48.01 である。 プロジェクトページはhttps://gulucaptain.github.io/videoassembler/にあります。

Identity-consistent video generation seeks to synthesize videos that are guided by both textual prompts and reference images of entities. Current approaches typically utilize cross-attention layers to integrate the appearance of the entity, which predominantly captures semantic attributes, resulting in compromised fidelity of entities. Moreover, these methods necessitate iterative fine-tuning for each new entity encountered, thereby limiting their applicability. To address these challenges, we introduce VideoAssembler, a novel end-to-end framework for identity-consistent video generation that can conduct inference directly when encountering new entities. VideoAssembler is adept at producing videos that are not only flexible with respect to the input reference entities but also responsive to textual conditions. Additionally, by modulating the quantity of input images for the entity, VideoAssembler enables the execution of tasks ranging from image-to-video generation to sophisticated video editing. VideoAssembler comprises two principal components: the Reference Entity Pyramid (REP) encoder and the Entity-Prompt Attention Fusion (EPAF) module. The REP encoder is designed to infuse comprehensive appearance details into the denoising stages of the stable diffusion model. Concurrently, the EPAF module is utilized to integrate text-aligned features effectively. Furthermore, to mitigate the challenge of scarce data, we present a methodology for the preprocessing of training data. Our evaluation of the VideoAssembler framework on the UCF-101, MSR-VTT, and DAVIS datasets indicates that it achieves good performances in both quantitative and qualitative analyses (346.84 in FVD and 48.01 in IS on UCF-101). Our project page is at https://gulucaptain.github.io/videoassembler/.
翻訳日:2023-12-04 11:42:58 公開日:2023-12-01
# ブラインド/ロービジョンユーザのデータに対するクリップのパフォーマンス格差の説明

Explaining CLIP's performance disparities on data from blind/low vision users ( http://arxiv.org/abs/2311.17315v2 )

ライセンス: Link先を確認
Daniela Massiceti, Camilla Longden, Agnieszka S{\l}owik, Samuel Wills, Martin Grayson, Cecily Morrison(参考訳) 大規模マルチモーダルモデル(lmms)は、視覚障害者や低視力者(blv)のための自動化視覚支援の新たな時代を告げる可能性を秘めている。 しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。 私たちはCLIP(LMM)を実証的に評価することでこの問題に対処する。 ゼロショット分類タスクで25のクリップ変種をテストした結果,blvユーザが撮影した画像の精度は,webクローラした画像よりも平均15ポイント低いことがわかった。 この格差はCLIPの感度から生じる。 1) 画像の内容(例えば、障害対象だけでなく他の対象も認識していないこと) 2)画質(例えば、照明の変動に頑丈でない)、及び 3)テキストの内容(例えば、触覚形容詞や視覚表現によって記述された物体を認識しない)。 我々は、LAION-400M、LAION-2B、DataComp-1Bの3つの一般的な事前学習データセットのテキスト分析を行い、障害内容がほとんど言及されていないことを示す。 次に、clip-vit、clipseg、dall-e2の3つの下流モデルにパフォーマンス格差がどのように拡張されているかを示す3つの例を示す。 5つのイメージしか持たない数ショットの学習は、いくつかのシナリオにおいて、CLIPのBLVユーザに対するサービス品質の格差を軽減することができる。

Large multi-modal models (LMMs) hold the potential to usher in a new era of automated visual assistance for people who are blind or low vision (BLV). Yet, these models have not been systematically evaluated on data captured by BLV users. We address this by empirically assessing CLIP, a widely-used LMM likely to underpin many assistive technologies. Testing 25 CLIP variants in a zero-shot classification task, we find that their accuracy is 15 percentage points lower on average for images captured by BLV users than web-crawled images. This disparity stems from CLIP's sensitivities to 1) image content (e.g. not recognizing disability objects as well as other objects); 2) image quality (e.g. not being robust to lighting variation); and 3) text content (e.g. not recognizing objects described by tactile adjectives as well as visual ones). We delve deeper with a textual analysis of three common pre-training datasets: LAION-400M, LAION-2B and DataComp-1B, showing that disability content is rarely mentioned. We then provide three examples that illustrate how the performance disparities extend to three downstream models underpinned by CLIP: OWL-ViT, CLIPSeg and DALL-E2. We find that few-shot learning with as few as 5 images can mitigate CLIP's quality-of-service disparities for BLV users in some scenarios, which we discuss alongside a set of other possible mitigations.
翻訳日:2023-12-04 11:42:25 公開日:2023-12-01
# 因果的発見とドメイン知識の統合によるニューラルネットワークの性能向上

Enhancing the Performance of Neural Networks Through Causal Discovery and Integration of Domain Knowledge ( http://arxiv.org/abs/2311.17303v2 )

ライセンス: Link先を確認
Xiaoge Zhang, Xiao-Lin Wang, Fenglei Fan, Yiu-Ming Cheung, Indranil Bose(参考訳) 本稿では,観測変数間の階層的因果構造をニューラルネットワークに符号化し,予測性能を向上させるための汎用手法を開発する。 提案手法はcausality-informed neural network (cinn)と呼ばれ、構造的因果知識をニューラルネットワークの層間設計に体系的にマッピングし、すべての因果関係の方向性を厳密に保ちながら、3つのコヒーレントなステップを活用する。 最初のステップでは、CINNは、有向非巡回グラフ(DAG)学習を通じて観測データから因果関係を発見し、因果発見を連続最適化問題として再キャストし、組み合わせの性質を回避する。 第2のステップでは、観測された変数間の階層的因果構造が、専用のアーキテクチャとカスタマイズされた損失関数によってニューラルネットワークに体系的に符号化される。 因果DAGの変数を根、中間、葉ノードとして分類することにより、階層因果DAGは、因果DAGのノードとCINNのユニットの1対1対応でCINNに変換される。 損失関数に関して、DAGグラフの中間ノードと葉ノードをCINNトレーニング中にターゲット出力として扱い、異なるタイプのノード間の因果関係のコラーニングを行う。 CINNで複数の損失成分が出現するにつれて、矛盾する勾配の予測を利用して、複数の学習タスク間の勾配干渉を軽減する。 UCIデータセットの幅広い範囲にわたる計算実験は、他の最先端手法に比べて予測性能においてCINNのかなりの利点を示している。 さらに、アブレーション研究は、ニューラルネットワークの予測性能を段階的に向上させる上で、構造的および定量的因果知識を統合する価値を強調する。

In this paper, we develop a generic methodology to encode hierarchical causality structure among observed variables into a neural network in order to improve its predictive performance. The proposed methodology, called causality-informed neural network (CINN), leverages three coherent steps to systematically map the structural causal knowledge into the layer-to-layer design of neural network while strictly preserving the orientation of every causal relationship. In the first step, CINN discovers causal relationships from observational data via directed acyclic graph (DAG) learning, where causal discovery is recast as a continuous optimization problem to avoid the combinatorial nature. In the second step, the discovered hierarchical causality structure among observed variables is systematically encoded into neural network through a dedicated architecture and customized loss function. By categorizing variables in the causal DAG as root, intermediate, and leaf nodes, the hierarchical causal DAG is translated into CINN with a one-to-one correspondence between nodes in the causal DAG and units in the CINN while maintaining the relative order among these nodes. Regarding the loss function, both intermediate and leaf nodes in the DAG graph are treated as target outputs during CINN training so as to drive co-learning of causal relationships among different types of nodes. As multiple loss components emerge in CINN, we leverage the projection of conflicting gradients to mitigate gradient interference among the multiple learning tasks. Computational experiments across a broad spectrum of UCI data sets demonstrate substantial advantages of CINN in predictive performance over other state-of-the-art methods. In addition, an ablation study underscores the value of integrating structural and quantitative causal knowledge in enhancing the neural network's predictive performance incrementally.
翻訳日:2023-12-04 11:42:02 公開日:2023-12-01
# リアルタイム自由出血型心臓磁気共鳴画像における深層学習のセグメンテーションの評価

Assessment of Deep Learning Segmentation for Real-Time Free-Breathing Cardiac Magnetic Resonance Imaging ( http://arxiv.org/abs/2311.14049v3 )

ライセンス: Link先を確認
Martin Schilling and Christina Unterberg-Buchwald and Joachim Lotz and Martin Uecker(参考訳) 近年、心臓MRI(CMR)セグメンテーションのための様々なディープラーニングネットワークが開発され、分析されている。 しかし、ほとんど全員が呼吸中のシネCMRに焦点を当てている。 本研究は、安静時および運動負荷時のリアルタイム自由呼吸cmrにおける左室容積分析(セグメンテーション)において、深部学習法の精度を評価した。 健常者(n=15)とリアルタイム自由呼吸型CMRのデータを振り返って分析した。 商用ソフトウェア(comDL)と利用可能なニューラルネットワーク(nnU-Net)のセグメンテーションを、comDLセグメンテーションのマニュアル修正によって作成されたリファレンスと比較した。 左室心内膜(lv)、左室心筋(myo)、右室(rv)のセグメンテーションは、末期収縮期と末期拡張期の両方において評価され、dice係数(dc)を用いて解析された。 ボリューム分析は、LV端収縮体積(EDV)、LV端収縮体積(ESV)、LV放出率(EF)を含む。 cine cmr では、nnu-net と comdl は lv が 0.95 以上、myo と rv が 0.9 以上となる。 リアルタイムCMRでは, nnU-Net の精度が comDL の精度を上回っている。 リアルタイムCMRでは、nnU-NetはLVが0.94、MYOが0.89、RVが0.90、EDVが2.9mL、ESVが3.5mL、EFが2.6%である。 運動ストレス下でのリアルタイムCMRでは、nnU-Netは、LVが0.92、MYOが0.85、RVが0.83、EDVが11.4mL、ESVが2.9mL、EFが3.6%である。 シネCMRセグメンテーションのために設計または訓練されたディープラーニング手法は、リアルタイムCMRでよく機能する。 リアルタイムのフリーブレスCMRでは、ディープラーニングメソッドのパフォーマンスは、cine CMRのサーバ間変動と同等であり、使用可能なか、完全に自動セグメンテーションである。

In recent years, a variety of deep learning networks for cardiac MRI (CMR) segmentation have been developed and analyzed. However, nearly all of them are focused on cine CMR under breathold. In this work, accuracy of deep learning methods is assessed for volumetric analysis (via segmentation) of the left ventricle in real-time free-breathing CMR at rest and under exercise stress. Data from healthy volunteers (n=15) for cine and real-time free-breathing CMR were analyzed retrospectively. Segmentations of a commercial software (comDL) and a freely available neural network (nnU-Net), were compared to a reference created via the manual correction of comDL segmentation. Segmentation of left ventricular endocardium (LV), left ventricular myocardium (MYO), and right ventricle (RV) is evaluated for both end-systolic and end-diastolic phases and analyzed with Dice's coefficient (DC). The volumetric analysis includes LV end-diastolic volume (EDV), LV end-systolic volume (ESV), and LV ejection fraction (EF). For cine CMR, nnU-Net and comDL achieve a DC above 0.95 for LV and 0.9 for MYO, and RV. For real-time CMR, the accuracy of nnU-Net exceeds that of comDL overall. For real-time CMR at rest, nnU-Net achieves a DC of 0.94 for LV, 0.89 for MYO, and 0.90 for RV; mean absolute differences between nnU-Net and reference are 2.9mL for EDV, 3.5mL for ESV and 2.6% for EF. For real-time CMR under exercise stress, nnU-Net achieves a DC of 0.92 for LV, 0.85 for MYO, and 0.83 for RV; mean absolute differences between nnU-Net and reference are 11.4mL for EDV, 2.9mL for ESV and 3.6% for EF. Deep learning methods designed or trained for cine CMR segmentation can perform well on real-time CMR. For real-time free-breathing CMR at rest, the performance of deep learning methods is comparable to inter-observer variability in cine CMR and is usable or fully automatic segmentation.
翻訳日:2023-12-04 11:41:30 公開日:2023-12-01
# 合成データセットを用いた連続ビデオ間転送

Consistent Video-to-Video Transfer Using Synthetic Dataset ( http://arxiv.org/abs/2311.00213v3 )

ライセンス: Link先を確認
Jiaxin Cheng, Tianjun Xiao and Tong He(参考訳) 本稿では,テキストベースの動画編集において,資源集約型の動画単位の微調整を不要とする,新しい効率的な手法を提案する。 私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。 pix2pixの編集命令による画像転送の指示に触発されて,このパラダイムをビデオ領域に適用した。 Prompt-to-Promptをビデオに拡張することで、ペア化されたサンプルを効率よく生成します。 これと並行して,サンプリング中のロングビデオサンプリング補正を導入し,バッチ間で一貫したロングビデオを実現する。 提案手法はTune-A-Videoのような既存の手法を超越し,テキストベースの動画編集の大幅な進歩と,さらなる探索と展開のためのエキサイティングな道のりを示唆する。

We introduce a novel and efficient approach for text-based video-to-video editing that eliminates the need for resource-intensive per-video-per-model finetuning. At the core of our approach is a synthetic paired video dataset tailored for video-to-video transfer tasks. Inspired by Instruct Pix2Pix's image transfer via editing instruction, we adapt this paradigm to the video domain. Extending the Prompt-to-Prompt to videos, we efficiently generate paired samples, each with an input video and its edited counterpart. Alongside this, we introduce the Long Video Sampling Correction during sampling, ensuring consistent long videos across batches. Our method surpasses current methods like Tune-A-Video, heralding substantial progress in text-based video-to-video editing and suggesting exciting avenues for further exploration and deployment.
翻訳日:2023-12-04 11:40:49 公開日:2023-12-01