このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231228となっている論文です。

PDF登録状況(公開日: 20231228)

TitleAuthorsAbstract論文公表日・翻訳日
# 速報:説明責任の安全性は最終結果に影響を及ぼす

Short Paper: Accountable Safety Implies Finality ( http://arxiv.org/abs/2308.16902v3 )

ライセンス: Link先を確認
Joachim Neu, Ertem Nusret Tas, David Tse, (参考訳) BFT(Byzantine-fault Tolerant)ステートマシンレプリケーション(SMR)コンセンサスプロトコルでは,EthereumなどのPoSブロックチェーンをモチベーションとして,2つの重要なDesiderataが研究されている。 アカウンタブル・セーフティとは、いかなる不整合の場合でも、一部のバリデーターがプロトコルに確実に違反したと特定できることを意味する。 初期の研究は、これらの特性に対する可逆性の結果とプロトコル構築を別々に開発した。 説明責任の安全性が最終性を意味することを示し、その結果、以前の結果を統一する。

Motivated by proof-of-stake (PoS) blockchains such as Ethereum, two key desiderata have recently been studied for Byzantine-fault tolerant (BFT) state-machine replication (SMR) consensus protocols: Finality means that the protocol retains consistency, as long as less than a certain fraction of validators are malicious, even in partially-synchronous environments that allow for temporary violations of assumed network delay bounds. Accountable safety means that in any case of inconsistency, a certain fraction of validators can be identified to have provably violated the protocol. Earlier works have developed impossibility results and protocol constructions for these properties separately. We show that accountable safety implies finality, thereby unifying earlier results.
翻訳日:2024-03-19 07:03:01 公開日:2023-12-28
# 2023年9月26-27日CyberTraining PI Meeting開催報告

Report on 2023 CyberTraining PI Meeting, 26-27 September 2023 ( http://arxiv.org/abs/2312.14199v2 )

ライセンス: Link先を確認
Geoffrey Fox, Mary P Thomas, Sajal Bhatia, Marisa Brazil, Nicole M Gasparini, Venkatesh Mohan Merwade, Henry J. Neeman, Jeff Carver, Henri Casanova, Vipin Chaudhary, Dirk Colbry, Lonnie Crosby, Prasun Dewan, Jessica Eisma, Nicole M Gasparini, Ahmed Irfan, Kate Kaehey, Qianqian Liu, Zhen Ni, Sushil Prasad, Apan Qasem, Erik Saule, Prabha Sundaravadivel, Karen Tomko, (参考訳) この文書は、NSFサイバートレーニング助成金の主任調査員(PI)のための2日間の会議を記述している。 このレポートでは、招待された講演、パネル、6つのブレイクアウトセッションが取り上げられている。 会議には80以上のPIとNSFプログラムマネージャ(PM)が参加した。 報告書で詳細に記録された教訓は、現在および将来のPI、およびNSF PMがPIコミュニティが提案する今後の方向性を理解するのに役立つ豊富な情報である。 この会議は、NSF Cyberinfrastructure for Sustained Scientific Innovation (CSSI)プログラムのPIと同時開催された。 この共同場所は2つの共同セッションにつながった。 さらに、共同ポスターとリフレッシュセッションはCSSIとCyberTraining PIの相互作用の恩恵を受けている。

This document describes a two-day meeting held for the Principal Investigators (PIs) of NSF CyberTraining grants. The report covers invited talks, panels, and six breakout sessions. The meeting involved over 80 PIs and NSF program managers (PMs). The lessons recorded in detail in the report are a wealth of information that could help current and future PIs, as well as NSF PMs, understand the future directions suggested by the PI community. The meeting was held simultaneously with that of the PIs of the NSF Cyberinfrastructure for Sustained Scientific Innovation (CSSI) program. This co-location led to two joint sessions: one with NSF speakers and the other on broader impact. Further, the joint poster and refreshment sessions benefited from the interactions between CSSI and CyberTraining PIs.
翻訳日:2024-03-18 11:28:19 公開日:2023-12-28
# 強力なトレーサビリティを備えたブロックチェーンベースのプライバシ保護公開鍵検索暗号化

Blockchain-based Privacy-Preserving Public Key Searchable Encryption with Strong Traceability ( http://arxiv.org/abs/2312.16954v1 )

ライセンス: Link先を確認
Yue Han, Jinguang Han, Weizhi Meng, Jianchang Lai, Ge Wu, (参考訳) 公開鍵検索暗号化(Public key searchable encryption, PKSE)は、データユーザーが暗号化されたデータを検索できるようにする方式である。 違法ユーザを特定するために、多くの追跡可能なPKSEスキームが提案されている。 しかし、既存のスキームでは、違法なユーザーが検索したキーワードを追跡できず、同時にユーザーのプライバシーを保護できない。 一部の実践的アプリケーションでは、不正なユーザの身元と検索したキーワードの両方をトレースすることが、データの不正使用を防ぐために非常に重要である。 プライバシーを保護しながら、ユーザのアイデンティティとキーワードを束縛することは難しい。 さらに、既存のトレーサブルなPKSEスキームは、トラップドアクエリレコードの不偽造性と不変性を考慮していないため、フレームアップや否定の発生につながる可能性がある。 本稿では,この問題を解決するために,強トレーサビリティ(BP3KSEST)を用いたブロックチェーンベースのプライバシ保護PKSEを提案する。 提案手法は,(1) 認証された利用者が,識別情報やキーワードを公開せずに,トラップドア生成センタに認証し,トラップドアを取得可能であること,(2) データ利用者がシステム内で誤動作した場合,信頼された第三者(TTP)は,検索したキーワードと同一性の両方を追跡可能であること,(3) トラップドアクエリレコードは偽造できないこと,(4) トラップドアクエリレコードはブロックチェーンに格納されているため不変である。 特に、このスキームは、例えば電子健康記録(EHR)など、プライバシを考慮すべきシナリオに適している。 BP3KSESTスキームの定義とセキュリティモデルの両方を形式化し、具体的な構成を示す。 さらに,提案手法の安全性が正式に証明されている。 最後に、その効率を解析するための実装と評価を行う。

Public key searchable encryption (PKSE) scheme allows data users to search over encrypted data. To identify illegal users, many traceable PKSE schemes have been proposed. However, existing schemes cannot trace the keywords which illegal users searched and protect users' privacy simultaneously. In some practical applications, tracing both illegal users' identities and the keywords which they searched is quite important to against the abuse of data. It is a challenge to bind users' identities and keywords while protecting their privacy. Moreover, existing traceable PKSE schemes do not consider the unforgeability and immutability of trapdoor query records, which can lead to the occurrence of frame-up and denying. In this paper, to solve these problems, we propose a blockchain-based privacy-preserving PKSE with strong traceability (BP3KSEST) scheme. Our scheme provides the following features: (1) authorized users can authenticate to trapdoor generation center and obtain trapdoors without releasing their identities and keywords; (2) when data users misbehave in the system, the trusted third party (TTP) can trace both their identities and the keywords which they searched; (3) trapdoor query records are unforgeable; (4) trapdoor query records are immutable because records are stored in blockchain. Notably, this scheme is suitable to the scenarios where privacy must be considered, e.g., electronic health record (EHR). We formalize both the definition and security model of our BP3KSEST scheme, and present a concrete construction. Furthermore, the security of the proposed scheme is formally proven. Finally, the implementation and evaluation are conducted to analyze its efficiency.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-28
# BlackboxBench: ブラックボックスの敵攻撃の総合ベンチマーク

BlackboxBench: A Comprehensive Benchmark of Black-box Adversarial Attacks ( http://arxiv.org/abs/2312.16979v1 )

ライセンス: Link先を確認
Meixi Zheng, Xuanchen Yan, Zihao Zhu, Hongrui Chen, Baoyuan Wu, (参考訳) 敵対的な例は、ディープニューラルネットワーク(DNN)の脆弱性を評価するためのよく知られたツールである。 多くの敵攻撃アルゴリズムが開発されているが、モデルパラメータとアーキテクチャが攻撃者/評価者、すなわちブラックボックスの敵攻撃にはアクセスできないという現実的なシナリオでは依然として困難である。 現実的な重要性から,攻撃成功率の急激な増加と,ターゲットモデルに対するクエリ数の急激な減少を反映した,最近のアルゴリズムの急速な進歩があった。 しかし、これらのアルゴリズムには徹底的な評価と比較が欠如しており、実際の進歩の追跡、異なる技術経路の利点と欠点の分析、およびこの分野の将来的な開発ロードマップの設計が困難になっている。 そこで本研究では,ブラックボックスベンチと呼ばれるブラックボックス攻撃の包括的ベンチマークを構築することを目的としている。 主な内容は以下の通り。 1)25のクエリベースのアタックアルゴリズムと30の転送ベースのアタックアルゴリズムを実装した,統一的で拡張可能なモジュールベースのコードベース。 2つの広く使われているデータセット(CIFAR-10とImageNetのサブセット)上で、いくつかの主流モデルアーキテクチャに対して実装されたアルゴリズムを評価し、合計14,106個の評価結果を得た。 3) 徹底的な分析と新たな洞察、および分析ツール。 BlackboxBenchのWebサイトとソースコードはそれぞれhttps://blackboxbench.github.io/とhttps://github.com/SCLBD/BlackboxBench/で入手できる。

Adversarial examples are well-known tools to evaluate the vulnerability of deep neural networks (DNNs). Although lots of adversarial attack algorithms have been developed, it is still challenging in the practical scenario that the model's parameters and architectures are inaccessible to the attacker/evaluator, i.e., black-box adversarial attacks. Due to the practical importance, there has been rapid progress from recent algorithms, reflected by the quick increase in attack success rate and the quick decrease in query numbers to the target model. However, there is a lack of thorough evaluations and comparisons among these algorithms, causing difficulties of tracking the real progress, analyzing advantages and disadvantages of different technical routes, as well as designing future development roadmap of this field. Thus, in this work, we aim at building a comprehensive benchmark of black-box adversarial attacks, called BlackboxBench. It mainly provides: 1) a unified, extensible and modular-based codebase, implementing 25 query-based attack algorithms and 30 transfer-based attack algorithms; 2) comprehensive evaluations: we evaluate the implemented algorithms against several mainstreaming model architectures on 2 widely used datasets (CIFAR-10 and a subset of ImageNet), leading to 14,106 evaluations in total; 3) thorough analysis and new insights, as well analytical tools. The website and source codes of BlackboxBench are available at https://blackboxbench.github.io/ and https://github.com/SCLBD/BlackboxBench/, respectively.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-28
# 6Gネットワークにおけるマルチティアコンピューティング可能なディジタルツイン

Multi-Tier Computing-Enabled Digital Twin in 6G Networks ( http://arxiv.org/abs/2312.16999v1 )

ライセンス: Link先を確認
Kunlun Wang, Yongyi Tang, Trung Q. Duong, Saeed R. Khosravirad, Octavia A. Dobre, George K. Karagiannidis, (参考訳) デジタルツイン(DT)は、先進的なコミュニケーション、計算、人工知能を組み合わさって、将来の技術について議論する上で、繰り返しかつ一般的な機能である。 産業4.0の文脈では、製造業、自動車、医療といった産業がDTベースの開発を急速に採用している。 これまでの主な課題は、大量のデータ交換から生じる、通信とコンピューティングリソースに対する高い要求と、プライバシとセキュリティ上の懸念である。 新たなDTで低レイテンシと高セキュリティを実現するため,エッジ/フォグコンピューティングとクラウドコンピューティングを組み合わせたマルチ層コンピューティングが提案されている。 具体的には、DTシステムの運用上の問題を解決するために、低レイテンシデータ伝送、効率的なリソース割り当て、多層コンピューティングシステムのセキュリティ戦略が使用される。 本稿では,製造,車両のインターネット,医療の例を例として,DTのアーキテクチャと応用について紹介する。 同時に、DTをサポートするため、多層コンピューティングシステムのアーキテクチャと技術について研究する。 本稿では,協調型多層計算とDTにおける理論,アルゴリズム,応用に関する貴重な参照とガイダンスを提供する。

Digital twin (DT) is the recurrent and common feature in discussions about future technologies, bringing together advanced communication, computation, and artificial intelligence, to name a few. In the context of Industry 4.0, industries such as manufacturing, automotive, and healthcare are rapidly adopting DT-based development. The main challenges to date have been the high demands on communication and computing resources, as well as privacy and security concerns, arising from the large volumes of data exchanges. To achieve low latency and high security services in the emerging DT, multi-tier computing has been proposed by combining edge/fog computing and cloud computing. Specifically, low latency data transmission, efficient resource allocation, and validated security strategies of multi-tier computing systems are used to solve the operational problems of the DT system. In this paper, we introduce the architecture and applications of DT using examples from manufacturing, the Internet-of-Vehicles and healthcare. At the same time, the architecture and technology of multi-tier computing systems are studied to support DT. This paper will provide valuable reference and guidance for the theory, algorithms, and applications in collaborative multi-tier computing and DT.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-28
# Kirchhoff-Law Johnson NoiseがWeb 3.0に到達 - 分散IDプロトコルのためのランダムキー生成の統計的物理手法

Kirchhoff-Law Johnson Noise Meets Web 3.0: A Statistical Physical Method of Random Key Generation for Decentralized Identity Protocols ( http://arxiv.org/abs/2312.17113v1 )

ライセンス: Link先を確認
Christiana Chamon, Kamalesh Mohanasundar, Sarah A. Flanery, Francis K. Quek, (参考訳) 本稿では,Web 3.0プロトコルを用いた分散IDエコシステムのためのランダムキーの統計的物理生成について述べる。 Web 3.0は、通常ヘキサデシマルで表されるセキュアキーによって駆動され、初期化ベクトルと複雑な計算アルゴリズムによって擬似ランダムに生成される。 我々は,KLJN(Kirchhoff-law-Johnson-noise)方式により,真のランダムなバイナリキーを自然に生成し,Ethereumブロックチェーンに付加される分散識別子(DID)の生成を促進することにより,計算能力の増大を防止できることを実証した。

This paper presents a statistical physical generation of random keys for a decentralized identity ecosystem that uses Web 3.0 protocols. Web 3.0 is driven by secure keys, typically represented in hexadecimal, that are pseudo-randomly generated by an initialization vector and complex computational algorithms. We demonstrate that the statistical physical Kirchhoff-law-Johnson-noise (KLJN) scheme eliminates the additional computational power by naturally generating truly random binary keys to drive the creation of decentralized identifiers (DIDs) that are appended to an Ethereum blockchain.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-28
# サイバーレンジにおけるブルーチームサイバー姿勢のスケーラブルで自動評価

Scalable and automated Evaluation of Blue Team cyber posture in Cyber Ranges ( http://arxiv.org/abs/2312.17221v1 )

ライセンス: Link先を確認
Federica Bianchi, Enrico Bassetti, Angelo Spognardi, (参考訳) サイバーレンジは、安全なエクササイズを実行し、現実または仮説のシナリオをシミュレートするために必要不可欠な環境として出現した仮想トレーニング範囲である。 これらの複雑な計算インフラは、攻撃のシミュレーションを可能にし、防御ツールや方法論の評価を容易にし、脅威に対する新しい対策を開発する。 サイバーレンジスケーラビリティの主な課題の1つは、人間の操作者の手動介入を必要とするエクササイズ評価である、とWhiteチームは述べている。 本稿では,青と赤のチーム報告とよく知られたデータベースを用いて,既存の評価モデルの限界を克服し,運動結果の評価と評価を自動化する手法を提案する。 本提案では,Blue Teamsの行動と戦略を明確に強調し,サイバー姿勢の自動生成を可能にする。

Cyber ranges are virtual training ranges that have emerged as indispensable environments for conducting secure exercises and simulating real or hypothetical scenarios. These complex computational infrastructures enable the simulation of attacks, facilitating the evaluation of defense tools and methodologies and developing novel countermeasures against threats. One of the main challenges of cyber range scalability is the exercise evaluation that often requires the manual intervention of human operators, the White team. This paper proposes a novel approach that uses Blue and Red team reports and well-known databases to automate the evaluation and assessment of the exercise outcomes, overcoming the limitations of existing assessment models. Our proposal encompasses evaluating various aspects and metrics, explicitly emphasizing Blue Teams' actions and strategies and allowing the automated generation of their cyber posture.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-28
# Androidのマルウェア検知器に対するNOPの可視性について

Can you See me? On the Visibility of NOPs against Android Malware Detectors ( http://arxiv.org/abs/2312.17356v1 )

ライセンス: Link先を確認
Diego Soi, Davide Maiorca, Giorgio Giacinto, Harel Berger, (参考訳) Androidのマルウェアは依然として、モバイルシステムにとって最も重要な脅威だ。 機械学習システムは、これらの脅威を特定するのにますます使われているが、過去の研究では、特定のAPI呼び出しを追加するなど、Androidアプリケーションに微妙な変更を加えることによって、攻撃者がこれらの検出メカニズムを回避できることが明らかにされている。 これらの修正はしばしばNo OPerations (NOP)と呼ばれ、プログラムのセマンティクスを変更するべきではない。 しかし、多くのNOPは、アプリ分析プロセスの精細化によって発見および排除することができる。 本稿では,NOPや類似の非運用コードを見つけることの難しさを評価するための可視性指標を提案する。 われわれは、Androidマルウェア検出のための最先端のオプコードベースのディープラーニングシステム上で、我々の測定値を試した。 我々は,特徴空間と問題空間に対する攻撃を実施し,その可視性を指標として算出した。 得られた結果から,回避効果と検出可能性のトレードオフがみられた。我々の測定基準は,敵攻撃の実効性を確保するのに有用であり,防御性の向上にも有用である。

Android malware still represents the most significant threat to mobile systems. While Machine Learning systems are increasingly used to identify these threats, past studies have revealed that attackers can bypass these detection mechanisms by making subtle changes to Android applications, such as adding specific API calls. These modifications are often referred to as No OPerations (NOP), which ideally should not alter the semantics of the program. However, many NOPs can be spotted and eliminated by refining the app analysis process. This paper proposes a visibility metric that assesses the difficulty in spotting NOPs and similar non-operational codes. We tested our metric on a state-of-the-art, opcode-based deep learning system for Android malware detection. We implemented attacks on the feature and problem spaces and calculated their visibility according to our metric. The attained results show an intriguing trade-off between evasion efficacy and detectability: our metric can be valuable to ensure the real effectiveness of an adversarial attack, also serving as a useful aid to develop better defenses.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-28
# Seqnature: パケットシーケンスからネットワーク指紋を抽出する

Seqnature: Extracting Network Fingerprints from Packet Sequences ( http://arxiv.org/abs/2312.17370v1 )

ライセンス: Link先を確認
Janus Varmarken, Rahmadi Trimananda, Athina Markopoulou, (参考訳) 本稿では,パケットシーケンスを基本データ単位として使用する汎用ネットワークフィンガープリントフレームワークSeqnatureを提案する。 筆者らはSeqnatureの汎用性を5つの異なるフィンガープリント技術の実装に活用し,フレームワークの特殊な事例として,2つのカテゴリに大別した。 一 パケットシーケンスにおける各パケットの特徴、例えば、サイズ及び方向を考慮に入れた指紋認証技術 (II) ストリーム全体の機能,特にインターネットエンドポイントが接触しているもののみを考慮したフィンガープリント技術。 文献からのデータセットに5つのフィンガープリント技術を適用することにより,Seqnatureが異なるフィンガープリント技術の相対的性能の比較を容易にする方法について述べる。 その結果、例えば、エンドポイント情報だけではIoTデバイス上の個々のイベントを区別できないだけでなく、エンドポイント情報のみに基づくスマートTVアプリの指紋が、以前報告されたように区別されていないことが判明した。

This paper proposes a general network fingerprinting framework, Seqnature, that uses packet sequences as its basic data unit and that makes it simple to implement any fingerprinting technique that can be formulated as a problem of identifying packet exchanges that consistently occur when the fingerprinted event is triggered. We demonstrate the versatility of Seqnature by using it to implement five different fingerprinting techniques, as special cases of the framework, which broadly fall into two categories: (i) fingerprinting techniques that consider features of each individual packet in a packet sequence, e.g., size and direction; and (ii) fingerprinting techniques that only consider stream-wide features, specifically what Internet endpoints are contacted. We illustrate how Seqnature facilitates comparisons of the relative performance of different fingerprinting techniques by applying the five fingerprinting techniques to datasets from the literature. The results confirm findings in prior work, for example that endpoint information alone is insufficient to differentiate between individual events on Internet of Things devices, but also show that smart TV app fingerprints based exclusively on endpoint information are not as distinct as previously reported.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-28
# ユニバーサル構文構造:様々な自然言語に対するモデリング構文

Universal Syntactic Structures: Modeling Syntax for Various Natural Languages ( http://arxiv.org/abs/2402.01641v1 )

ライセンス: Link先を確認
Min K. Kim, Hafu Takero, Sara Fedovik(参考訳) 我々は,人間の脳が文形成の言葉をどう結び付けるかを説明することを目的とする。 構文表現をモデル化する新しいアプローチが導入され、すべての自然言語に対する普遍構文構造の存在を示す可能性がある。 DNAの二重ヘリックス構造が遺伝学の内部構造に光を当てていることから、言語が人間の脳でどのように機能するかの基礎的な理解を導入したいと考えています。 それは脳の知識のエンコーディングと復号化の方法かもしれない。 また、言語学、心理学、認知科学の理論にいくつかの洞察をもたらす。 普遍構文構造の背後にある論理とモデリング手法の方法論を考察した後、英語や韓国語など様々な自然言語の言語プロセスにおける普遍性を示すコーパスの分析を試みる。 最後に、人間の脳の理解を深めるために、臨界期仮説、普遍文法、言語に関するいくつかの主張について議論する。

We aim to provide an explanation for how the human brain might connect words for sentence formation. A novel approach to modeling syntactic representation is introduced, potentially showing the existence of universal syntactic structures for all natural languages. As the discovery of DNA's double helix structure shed light on the inner workings of genetics, we wish to introduce a basic understanding of how language might work in the human brain. It could be the brain's way of encoding and decoding knowledge. It also brings some insight into theories in linguistics, psychology, and cognitive science. After looking into the logic behind universal syntactic structures and the methodology of the modeling technique, we attempt to analyze corpora that showcase universality in the language process of different natural languages such as English and Korean. Lastly, we discuss the critical period hypothesis, universal grammar, and a few other assertions on language for the purpose of advancing our understanding of the human brain.
翻訳日:2024-02-11 17:14:43 公開日:2023-12-28
# マルチステージ不確実性認識によるユーザ信頼の維持

Maintaining User Trust Through Multistage Uncertainty Aware Inference ( http://arxiv.org/abs/2402.00015v1 )

ライセンス: Link先を確認
Chandan Agrawal, Ashish Papanai, Jerome White(参考訳) 本稿では,AIデプロイメントにおけるマルチステージアプローチについて述べる。 それぞれのステージはより正確な推論方法を含むが、各ステージへの関与にはコストが増大する。 アーキテクチャの概要では、自信のある推論決定を容易にするモデルの不確かさを定量化する手法を提案する。 建築は現在、インド全土の数千の綿花農家に活発に展開されている。 しかし、より広範なアイデアは、低リソース設定に挑戦するAIデプロイメントの分野の増加に適用できる。

This paper describes and evaluates a multistage approach to AI deployment. Each stage involves a more accurate method of inference, yet engaging each comes with an increasing cost. In outlining the architecture, we present a method for quantifying model uncertainty that facilitates confident deferral decisions. The architecture is currently under active deployment to thousands of cotton farmers across India. The broader idea however is applicable to a growing sector of AI deployments in challenging low resources settings.
翻訳日:2024-02-04 05:20:40 公開日:2023-12-28
# 小分子生成のためのハイブリッド量子サイクル生成対向ネットワーク

Hybrid quantum cycle generative adversarial network for small molecule generation ( http://arxiv.org/abs/2402.00014v1 )

ライセンス: Link先を確認
Matvei Anoshin, Asel Sagingalieva, Christopher Mansell, Vishal Shete, Markus Pflitsch, and Alexey Melnikov(参考訳) 現代の医薬品設計プロセスは、市場に参入する各化合物を開発するのにかなりの時間と資源を必要とする。 小分子の生成は医薬品発見の重要な側面であり、革新的な医薬品の開発に不可欠である。 しかし, 特異性, 妥当性, 多様性, 薬物類似性, 合成性, 溶解性分子薬物動態性は未だ最大化されていない。 本研究は、パラメタライズド量子回路の既知の分子生成逆数ネットワークへの工学的統合に基づく、新しい生成逆数ネットワークモデルを導入する。 導入された機械学習モデルには、強化学習原則に基づく新しいマルチパラメータ報酬関数が組み込まれている。 ベンチマークドラッグデザインデータセットであるQM9とPC9の広範な実験により、導入したモデルが以前に達成されたスコアよりも優れていることを示す。 最も顕著に、新しいスコアは、薬様度定量的推定の最大30%の増加を示している。 新しいハイブリッド量子機械学習アルゴリズムは、薬物動態特性の達成されたスコアと同様に、迅速かつ正確な薬物発見プロセスの開発に寄与する。

The contemporary drug design process demands considerable time and resources to develop each new compound entering the market. Generating small molecules is a pivotal aspect of drug discovery, essential for developing innovative pharmaceuticals. Uniqueness, validity, diversity, druglikeliness, synthesizability, and solubility molecular pharmacokinetic properties, however, are yet to be maximized. This work introduces several new generative adversarial network models based on engineering integration of parametrized quantum circuits into known molecular generative adversarial networks. The introduced machine learning models incorporate a new multi-parameter reward function grounded in reinforcement learning principles. Through extensive experimentation on benchmark drug design datasets, QM9 and PC9, the introduced models are shown to outperform scores achieved previously. Most prominently, the new scores indicate an increase of up to 30% in the druglikeness quantitative estimation. The new hybrid quantum machine learning algorithms, as well as the achieved scores of pharmacokinetic properties, contribute to the development of fast and accurate drug discovery processes.
翻訳日:2024-02-04 05:20:34 公開日:2023-12-28
# モダリティを欠いたマルチモーダル感情分析:知識伝達アプローチ

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach ( http://arxiv.org/abs/2401.10747v1 )

ライセンス: Link先を確認
Weide Liu, Huijing Zhan, Hao Chen, Fengmao Lv(参考訳) マルチモーダル感情分析は、視覚、言語、音響的手がかりを通じて個人が表現する感情を特定することを目的としている。 しかしながら、既存の研究の多くは、すべてのモダリティはトレーニングとテストの両方で利用可能であり、アルゴリズムが欠如したモダリティシナリオに影響を受けやすいと仮定している。 本稿では, 異なるモーダル間の変換を行い, 欠落した音声モーダルを再構成する, 新たな知識伝達ネットワークを提案する。 さらに,再建および観察されたモダリティの最大情報を保持するために,モダリティ間注意機構を開発する。 公開されている3つのデータセットに関する広範囲な実験は、ベースラインよりも大幅に改善され、完全なマルチモダリティの監督によって以前の方法に匹敵する結果が得られる。

Multimodal sentiment analysis aims to identify the emotions expressed by individuals through visual, language, and acoustic cues. However, most of the existing research efforts assume that all modalities are available during both training and testing, making their algorithms susceptible to the missing modality scenario. In this paper, we propose a novel knowledge-transfer network to translate between different modalities to reconstruct the missing audio modalities. Moreover, we develop a cross-modality attention mechanism to retain the maximal information of the reconstructed and observed modalities for sentiment prediction. Extensive experiments on three publicly available datasets demonstrate significant improvements over baselines and achieve comparable results to the previous methods with complete multi-modality supervision.
翻訳日:2024-01-28 16:23:44 公開日:2023-12-28
# DrugAssist: 分子最適化のための大規模言語モデル

DrugAssist: A Large Language Model for Molecule Optimization ( http://arxiv.org/abs/2401.10334v1 )

ライセンス: Link先を確認
Geyan Ye, Xibao Cai, Houtim Lai, Xing Wang, Junhong Huang, Longyue Wang, Wei Liu, Xiangxiang Zeng(参考訳) 近年,多種多様なタスクにおける大規模言語モデル(LLM)の印象的な性能は,薬物発見にLLMを適用しようとする試みが増えている。 しかしながら、分子最適化は、薬物発見パイプラインにおいて重要な課題であり、現在、LSMにはほとんど関与していない領域である。 既存のアプローチのほとんどは、専門家のフィードバックを生かさずに、データによって提供される化学構造の基本パターンのみを捉えることに重点を置いている。 これらの非相互作用的なアプローチは、薬物発見プロセスが専門家の経験と反復的改善の統合を必要とするものであるという事実を見落としている。 このギャップに対処するために,LSMの強い相互作用性と一般化性を活用し,人間と機械の対話を通して最適化を行う対話型分子最適化モデルであるDragonAssistを提案する。 DrugAssistは、単一および複数プロパティの最適化において主要な成果を上げ、同時にトランスファービリティと反復最適化の潜在的な可能性を示している。 さらに,分子最適化タスクの微調整言語モデルに対して,MomoOpt-Instructionsと呼ばれる大規模な命令ベースデータセットを公開している。 我々のコードとデータはhttps://github.com/blazerye/DrugAssistで公開されています。

Recently, the impressive performance of large language models (LLMs) on a wide range of tasks has attracted an increasing number of attempts to apply LLMs in drug discovery. However, molecule optimization, a critical task in the drug discovery pipeline, is currently an area that has seen little involvement from LLMs. Most of existing approaches focus solely on capturing the underlying patterns in chemical structures provided by the data, without taking advantage of expert feedback. These non-interactive approaches overlook the fact that the drug discovery process is actually one that requires the integration of expert experience and iterative refinement. To address this gap, we propose DrugAssist, an interactive molecule optimization model which performs optimization through human-machine dialogue by leveraging LLM's strong interactivity and generalizability. DrugAssist has achieved leading results in both single and multiple property optimization, simultaneously showcasing immense potential in transferability and iterative optimization. In addition, we publicly release a large instruction-based dataset called MolOpt-Instructions for fine-tuning language models on molecule optimization tasks. We have made our code and data publicly available at https://github.com/blazerye/DrugAssist, which we hope to pave the way for future research in LLMs' application for drug discovery.
翻訳日:2024-01-28 16:23:30 公開日:2023-12-28
# スパイクニューラルネットワークにおけるニューロンの高速勾配フリーアクティベーション最大化

Fast gradient-free activation maximization for neurons in spiking neural networks ( http://arxiv.org/abs/2401.10748v1 )

ライセンス: Link先を確認
Nikita Pospelov, Andrei Chertkov, Maxim Beketov, Ivan Oseledets, Konstantin Anokhin(参考訳) ニューラルネットワーク(NN)は、生活と人工の両方で、それぞれが独自の専門性を持つ複雑なニューロンシステムであるために機能する。 これらの特殊化はNNの内部動作機構を理解する上で重要である。 これを行う唯一の方法は、刺激に対する神経反応が既知の(微分可能な)機能ではないことであり、刺激に露出するフィードバックループを構築することであり、その特性は最大応答の方向に反復的に変化する。 このようなループを生きたネットワーク上でテストするには、まずそれを迅速かつ効率的に実行する方法を学び、可能な限り多くのイテレーションにおいて最も効果的な刺激(ニューロンの活性化を最大化するもの)に達する必要がある。 このようなループを効果的に設計したフレームワークを,人工スパイクニューラルネットワーク(SNN,生体脳におけるNNの振る舞いを模倣するモデル)でテストし,実験に成功した。 アクティベーション最大化 (AM) に用いる最適化手法は, アクティベーション関数の低ランクテンソル分解 (Tensor Train, TT) に基づいて, アクティベーション関数の領域に対する離散化, 刺激の潜時パラメータ空間 (CIFAR10サイズカラー画像, VQ-VAE あるいはSN-GAN) の潜時記述ベクトルから生成し, SNNに供給した。 我々の知る限り、本研究はSNNに効果的なAMを実現するための最初の試みである。 フレームワークのソースコードであるMANGO(Non-Gradient Optimizationによるニューラルアクティベーションの最大化)がGitHubで公開されている。

Neural networks (NNs), both living and artificial, work due to being complex systems of neurons, each having its own specialization. Revealing these specializations is important for understanding NNs inner working mechanisms. The only way to do this for a living system, the neural response of which to a stimulus is not a known (let alone differentiable) function is to build a feedback loop of exposing it to stimuli, the properties of which can be iteratively varied aiming in the direction of maximal response. To test such a loop on a living network, one should first learn how to run it quickly and efficiently, reaching most effective stimuli (ones that maximize certain neurons activation) in least possible number of iterations. We present a framework with an effective design of such a loop, successfully testing it on an artificial spiking neural network (SNN, a model that mimics the behaviour of NNs in living brains). Our optimization method used for activation maximization (AM) was based on low-rank tensor decomposition (Tensor Train, TT) of the activation function's discretization over its domain the latent parameter space of stimuli (CIFAR10-size color images, generated by either VQ-VAE or SN-GAN from their latent description vectors, fed to the SNN). To our knowledge, the present work is the first attempt to perform effective AM for SNNs. The source code of our framework, MANGO (for Maximization of neural Activation via Non-Gradient Optimization) is available on GitHub.
翻訳日:2024-01-28 16:05:47 公開日:2023-12-28
# LLM4EDA:電子設計自動化のための大規模言語モデルの進化

LLM4EDA: Emerging Progress in Large Language Models for Electronic Design Automation ( http://arxiv.org/abs/2401.12224v1 )

ライセンス: Link先を確認
Ruizhe Zhong, Xingbo Du, Shixiong Kai, Zhentao Tang, Siyuan Xu, Hui-Ling Zhen, Jianye Hao, Qiang Xu, Mingxuan Yuan, Junchi Yan(参考訳) ムーアの法則により、現代のチップ設計の複雑さと規模は急速に増大している。 電子設計自動化(EDA)は、完全なチップ設計プロセスで直面する課題に広く適用されている。 しかし、非常に大規模な集積回路の進化により、チップの設計に要する時間と資源が集中し、事前の知識が必要となった。 加えて、中間的な人間の制御活動は最適な解を求めるために重要である。 システム設計段階では、回路は通常、テキスト形式としてハードウェア記述言語(HDL)で表現される。 近年,Large Language Models (LLMs) は,文脈理解や論理推論,回答生成においてその能力を実証している。 回路はテキスト形式でHDLで表現できるので、EDAフィールドでLLMを活用でき、完全な自動チップ設計を実現し、電力、性能、面積(PPA)を改善した回路を生成することができるかどうかを疑うのは妥当である。 本稿では,EDA分野におけるLLMの適用に関する系統的研究を行い,以下の事例に分類する。 1)アシスタントチャットボット。 2)HDLとスクリプト生成 3)HDLの検証と分析。 さらに,論理合成,物理設計,マルチモーダル特徴抽出,回路アライメントにおけるllmの適用に着目し,今後の研究方向を強調する。 この分野での関連論文は、https://github.com/Thinklab-SJTU/Awesome-LLM4EDAというリンクで収集します。

Driven by Moore's Law, the complexity and scale of modern chip design are increasing rapidly. Electronic Design Automation (EDA) has been widely applied to address the challenges encountered in the full chip design process. However, the evolution of very large-scale integrated circuits has made chip design time-consuming and resource-intensive, requiring substantial prior expert knowledge. Additionally, intermediate human control activities are crucial for seeking optimal solutions. In system design stage, circuits are usually represented with Hardware Description Language (HDL) as a textual format. Recently, Large Language Models (LLMs) have demonstrated their capability in context understanding, logic reasoning and answer generation. Since circuit can be represented with HDL in a textual format, it is reasonable to question whether LLMs can be leveraged in the EDA field to achieve fully automated chip design and generate circuits with improved power, performance, and area (PPA). In this paper, we present a systematic study on the application of LLMs in the EDA field, categorizing it into the following cases: 1) assistant chatbot, 2) HDL and script generation, and 3) HDL verification and analysis. Additionally, we highlight the future research direction, focusing on applying LLMs in logic synthesis, physical design, multi-modal feature extraction and alignment of circuits. We collect relevant papers up-to-date in this field via the following link: https://github.com/Thinklab-SJTU/Awesome-LLM4EDA.
翻訳日:2024-01-28 15:41:15 公開日:2023-12-28
# 統一事前学習戦略のための調整可能な分子表現

Adjustable Molecular Representation for Unified Pre-training Strategy ( http://arxiv.org/abs/2401.06166v1 )

ライセンス: Link先を確認
Yan Ding, Hao Cheng, Zeliang Ye, Ruyi Feng, Zhongze Gu(参考訳) 我々は,統一事前学習戦略のための適応可能な分子表現のための大規模分子モデルAdaMRを提案する。 単一の分子エンコーディングを使用する最近の大規模分子モデルとは異なり、AdaMRは粒度調整可能な分子エンコーダを使用し、原子とサブ構造の両方で分子表現を学ぶ。 事前学習プロセスでは, 分子の正準化のためのタスクを設計し, 汎用分子表現を正準表現に変換する。 分子エンコーディングの粒度の調整により、モデル属性予測や分子生成など、複数の下流タスクへの影響を改善することができる。 サブ構造レベルの分子表現は、化学的性質を決定し、同様の機能を持つ特定の原子群や配列の情報を保持する。 一方、原子レベルの表現は、生成的分子正準化事前訓練タスクと組み合わされ、生成的タスクの妥当性、新規性、特異性を高める。 これらのAdaMRの特徴は、多くの下流タスクでその強力なパフォーマンスを示している。 ZINC250Kデータセット上の6つの異なるデータセット上の分子特性予測タスクと2つの生成タスクを用いて、提案した分子エンコーディングおよび事前学習手法を評価し、これらのタスクのうち5つのタスクでSOTA(State-of-the-art)結果を得る。

We propose a new large-scale molecular model, named AdaMR, which stands for Adjustable Molecular Representation for Unified Pre-training Strategy. Unlike recent large-scale molecular models that use a single molecular encoding, AdaMR employs a granularity-adjustable molecular encoder, learning molecular representations at both the atomic and substructure levels. For the pre-training process, we designed a task for molecular canonicalization, which involves transforming ltiple generic molecular representations into canonical representations. By adjusting the granularity of molecular encoding, the trained model can improve the effects on multiple downstream tasks, such as model attribute prediction and molecule generation. Substructure-level molecular representation retains information of specific atom groups or arrangements that determine chemical properties and have similar functions, which is beneficial for tasks like property prediction. Meanwhile, atomic-level representation, combined with generative molecular canonicalization pre-training tasks, enhances the validity, novelty, and uniqueness in generative tasks. These features of AdaMR demonstrate its strong performance in numerous downstream tasks. We use different molecular properties prediction tasks on six different datasets on MoleculeNet and two generative tasks on ZINC250K dataset to evaluate our proposed molecular encoding and pre-training methods, and obtain state-of-the-art (SOTA) results on five of these tasks.
翻訳日:2024-01-22 12:52:01 公開日:2023-12-28
# 破壊のビジョン:迷路を通した拡散モデルの潜伏空間をナビゲートすることで自然への影響を探る

Visions Of Destruction: Exploring Human Impact on Nature by Navigating the Latent Space of a Diffusion Model via Gaze ( http://arxiv.org/abs/2401.06361v1 )

ライセンス: Link先を確認
Mar Canet Sola and Varvara Guljajeva(参考訳) 本稿では,芸術的研究手法としてのオーディエンスインタラクションと生成AIを通じて伝達される人類新世を中心に,アートワーク「破壊のビジョン」について論じる。 視線に基づく対話は、観客を単なるオブザーバーから風景変化のエージェントへと移行させ、気候変動や惑星破壊のような差し迫った問題との深い最先端の関わりを育む。 本論文は,視線追跡をオーディエンスインタラクションの方法として展開するインタラクティブアートヒストリーの早期参照を考察し,インタラクティブな潜在空間ナビゲーションを示すAI支援アートを提示する。

This paper discusses the artwork "Visions of Destruction", with a primary conceptual focus on the Anthropocene, which is communicated through audience interaction and generative AI as artistic research methods. Gaze-based interaction transitions the audience from mere observers to agents of landscape transformation, fostering a profound, on-the-edge engagement with pressing issues such as climate change and planetary destruction. The paper looks into early references of interactive art history that deploy eye-tracking as a method for audience interaction, and presents recent AI-aided artworks that demonstrate interactive latent space navigation.
翻訳日:2024-01-22 12:38:11 公開日:2023-12-28
# アフリカに力を与える: 大陸における人工知能の採用に関する深い探究

Empowering Africa: An In-depth Exploration of the Adoption of Artificial Intelligence Across the Continent ( http://arxiv.org/abs/2401.09457v1 )

ライセンス: Link先を確認
Kinyua Gikunda(参考訳) 本稿では,アフリカにおける人工知能(ai)導入のダイナミックな展望を考察し,社会経済的課題への対応や開発促進におけるその多様な応用について考察する。 この研究はアフリカのAIエコシステムを調査し、地域のニュアンス、文化的要因、AIソリューションの展開を形作るインフラ的制約について考察している。 医療、農業、金融、教育におけるケーススタディでは、AIの効率性、アクセシビリティ、傾倒性への変革の可能性を強調している。 この論文は、固有のAIイノベーションと、アフリカのAIエコシステムに貢献する国際的なコラボレーションを強調している。 データプライバシとアルゴリズムバイアスを含む倫理的考慮事項は、責任あるAI実装をサポートするポリシーフレームワークと共に対処される。 政府組織、規制、民間部門パートナーシップの役割は、教育的ai開発環境の創造において検討されている。 デジタルリテラシーギャップや仕事のずれといった課題について論じ、緩和策を提案する。 結論として、この論文はアフリカにおけるAIの微妙な理解を提供し、持続可能な開発議論に寄与し、大陸における包括的で倫理的なAIエコシステムを提唱する。

This paper explores the dynamic landscape of Artificial Intelligence (AI) adoption in Africa, analysing its varied applications in addressing socio-economic challenges and fostering development. Examining the African AI ecosystem, the study considers regional nuances, cultural factors, and infrastructural constraints shaping the deployment of AI solutions. Case studies in healthcare, agriculture, finance, and education highlight AI's transformative potential for efficiency, accessibility, and inclusivity. The paper emphasizes indigenous AI innovations and international collaborations contributing to a distinct African AI ecosystem. Ethical considerations, including data privacy and algorithmic bias, are addressed alongside policy frameworks supporting responsible AI implementation. The role of governmental bodies, regulations, and private sector partnerships is explored in creating a conducive AI development environment. Challenges such as digital literacy gaps and job displacement are discussed, with proposed strategies for mitigation. In conclusion, the paper provides a nuanced understanding of AI in Africa, contributing to sustainable development discussions and advocating for an inclusive and ethical AI ecosystem on the continent.
翻訳日:2024-01-22 09:13:22 公開日:2023-12-28
# 政策学習のための任意の軌道モデリング

Any-point Trajectory Modeling for Policy Learning ( http://arxiv.org/abs/2401.00025v1 )

ライセンス: Link先を確認
Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel(参考訳) デモから学ぶことはロボットに新しいスキルを教える強力な方法であり、より多くのデモデータがポリシー学習を改善する。 しかし,実演データ収集のコストは大きなボトルネックとなっている。 ビデオはリッチなデータソースとして、行動、物理、意味に関する知識を含んでいるが、アクションラベルの欠如により、それらから制御固有の情報を抽出することは困難である。 本研究では、ビデオフレーム内の任意の点の将来の軌跡を予測するために、トラジェクトリモデルを事前学習することで、ビデオデモを利用する新しいフレームワーク、Any-point Trajectory Modeling (ATM)を導入する。 一度訓練すると、これらの軌道は詳細な制御ガイダンスを提供し、最小限のアクションラベルデータでロバストな visuomotor ポリシーの学習を可能にする。 本手法の有効性は130のシミュレーションタスクで実証され,言語条件の操作タスクに焦点が当てられている。 可視化とコードは \url{https://xingyu-lin.github.io/atm} で利用可能である。

Learning from demonstration is a powerful method for teaching robots new skills, and more demonstration data often improves policy learning. However, the high cost of collecting demonstration data is a significant bottleneck. Videos, as a rich data source, contain knowledge of behaviors, physics, and semantics, but extracting control-specific information from them is challenging due to the lack of action labels. In this work, we introduce a novel framework, Any-point Trajectory Modeling (ATM), that utilizes video demonstrations by pre-training a trajectory model to predict future trajectories of arbitrary points within a video frame. Once trained, these trajectories provide detailed control guidance, enabling the learning of robust visuomotor policies with minimal action-labeled data. Our method's effectiveness is demonstrated across 130 simulation tasks, focusing on language-conditioned manipulation tasks. Visualizations and code are available at: \url{https://xingyu-lin.github.io/atm}.
翻訳日:2024-01-15 12:28:05 公開日:2023-12-28
# 学生プログラミングの誤解に対する概念変異テスト

Conceptual Mutation Testing for Student Programming Misconceptions ( http://arxiv.org/abs/2401.00021v1 )

ライセンス: Link先を確認
Siddhartha Prasad (Brown University, USA), Ben Greenman (Brown University, USA), Tim Nelson (Brown University, USA), Shriram Krishnamurthi (Brown University, USA)(参考訳) 文脈:学生はしばしばプログラミングの問題の記述を誤解する。 これにより、フラストレーションを発生させ、学習を妨害し、成績を損なうという間違った問題を解決することができる。 研究者は、プログラミングを始める前にサンプルを書くことで、学生が問題をよりよく理解できるようにすることができることを発見した。 これらの例は、コーススタッフが提供する、正しい、間違った実装 -- 突然変異テストに似た -- に対してチェックされます。 その結果、問題に対する生徒の理解が向上し、プログラムに付随するテストスイートも改善され、どちらも望ましい教育成果となる。 Inquiry: ミュータント実装の作成には注意が必要です。 あまりにも多すぎる、あるいはあいまいすぎる場合、学生は非生産的なタスクに多くの時間を費やすことになり、フラストレーションになる。 代わりに、共通の問題誤解に対応する少数の変異体が欲しいのです。 本稿では,この形態の変異体を生成するための部分的自動化を伴うワークフローについて述べる。 アプローチ: 正しい実装を失敗する学生テストをまとめる。 学生の誤解はこれらの失敗に埋め込まれている。 次に、これらの障害を意味的にクラスタリングするためにメソッドを使用します。 これらのクラスターは概念的ミュータントに翻訳される。 これらは学生データに対して実行され、以前の方法よりも優れているかどうかを判断する。 これらのプロセスの一部は自動化も楽しめます。 知識: テストの失敗によって説明される学生の誤解は、上記のプロセスによって操作可能である。 結果として生じるミュータントは、学生の誤解を特定するのに優れている。 grounding: 今回の発見は,学生例の手動分析と,クラスタリング手法と概念的変異体作成プロセスの両方の定量的評価に基礎を置いている。 クラスター評価は、標準クラスター対応尺度を用いて基礎的真理と比較し、ミュータント評価は、概念的ミュータントが学生データに対してどのように作用するかを調べる。 重要性: 私たちの仕事は、コストを削減し、概念的に興味深いミュータントを生成する効果を高めるために、いくつかの自動化を伴うワークフローに寄与します。 このようなミュータントは、学習結果を改善し、学生のフラストレーションを減らし、より良い教育結果をもたらす。 この過程では、ソフトウェア文献でよく議論されていない突然変異検査のバリエーションも同定する。

Context: Students often misunderstand programming problem descriptions. This can lead them to solve the wrong problem, which creates frustration, obstructs learning, and imperils grades. Researchers have found that students can be made to better understand the problem by writing examples before they start programming. These examples are checked against correct and wrong implementations -- analogous to mutation testing -- provided by course staff. Doing so results in better student understanding of the problem as well as better test suites to accompany the program, both of which are desirable educational outcomes. Inquiry: Producing mutant implementations requires care. If there are too many, or they are too obscure, students will end up spending a lot of time on an unproductive task and also become frustrated. Instead, we want a small number of mutants that each correspond to common problem misconceptions. This paper presents a workflow with partial automation to produce mutants of this form which, notably, are not those produced by mutation-testing tools. Approach: We comb through student tests that fail a correct implementation. The student misconceptions are embedded in these failures. We then use methods to semantically cluster these failures. These clusters are then translated into conceptual mutants. These can then be run against student data to determine whether we they are better than prior methods. Some of these processes also enjoy automation. Knowledge: We find that student misconceptions illustrated by failing tests can be operationalized by the above process. The resulting mutants do much better at identifying student misconceptions. Grounding: Our findings are grounded in a manual analysis of student examples and a quantitative evaluation of both our clustering techniques and our process for making conceptual mutants. The clustering evaluation compares against a ground truth using standard cluster-correspondence measures, while the mutant evaluation examines how conceptual mutants perform against student data. Importance: Our work contributes a workflow, with some automation, to reduce the cost and increase the effectiveness of generating conceptually interesting mutants. Such mutants can both improve learning outcomes and reduce student frustration, leading to better educational outcomes. In the process, we also identify a variation of mutation testing not commonly discussed in the software literature.
翻訳日:2024-01-15 12:27:49 公開日:2023-12-28
# 自律運転用高速量子畳み込みニューラルネットワークによる低複雑物体検出

Fast Quantum Convolutional Neural Networks for Low-Complexity Object Detection in Autonomous Driving Applications ( http://arxiv.org/abs/2401.01370v1 )

ライセンス: Link先を確認
Hankyul Baek, Donghyeon Kim, and Joongheon Kim(参考訳) ディープラーニングの一貫した進歩とイノベーションによって、オブジェクト検出アプリケーションは、特にさまざまな視覚データを活用する自動運転において、広く普及している。 畳み込みニューラルネットワーク(CNN)が最適化されているため、自律運転における物体検出の性能と計算速度は大幅に改善されている。 しかしながら、オブジェクト検出で使用されるデータの複雑さと規模が指数関数的に増加するため、従来の計算のみでオブジェクト検出を行う場合、計算速度の面での制限がある。 これにより、量子畳み込みに基づく物体検出(QCOD)が提案され、高速に物体検出を行うために量子コンピューティングを採用する。 QCODは,提案した高速量子畳み込みを利用して入力チャネル情報をアップロードし,計算複雑性の低減と性能向上のために出力チャネルを再構築する。 最後に、kitti autonomous driving object detection datasetによる広範な実験により、提案する高速量子畳み込みとqcodが実物体検出アプリケーションでうまく動作していることが確認された。

Spurred by consistent advances and innovation in deep learning, object detection applications have become prevalent, particularly in autonomous driving that leverages various visual data. As convolutional neural networks (CNNs) are being optimized, the performances and computation speeds of object detection in autonomous driving have been significantly improved. However, due to the exponentially rapid growth in the complexity and scale of data used in object detection, there are limitations in terms of computation speeds while conducting object detection solely with classical computing. Motivated by this, quantum convolution-based object detection (QCOD) is proposed to adopt quantum computing to perform object detection at high speed. The QCOD utilizes our proposed fast quantum convolution that uploads input channel information and re-constructs output channels for achieving reduced computational complexity and thus improving performances. Lastly, the extensive experiments with KITTI autonomous driving object detection dataset verify that the proposed fast quantum convolution and QCOD are successfully operated in real object detection applications.
翻訳日:2024-01-15 09:54:18 公開日:2023-12-28
# 金融の因果性に関する3つの考察--時間分解能、非定常性、潜在要因

On the Three Demons in Causality in Finance: Time Resolution, Nonstationarity, and Latent Factors ( http://arxiv.org/abs/2401.05414v1 )

ライセンス: Link先を確認
Xinshuai Dong, Haoyue Dai, Yewen Fan, Songyao Jin, Sathyamoorthy Rajendran, Kun Zhang(参考訳) 金融データは基本的に時系列であり、時間分解のミスマッチ、分布の時間的変動特性(非定常性)、重要だが未知の因果要因という3つの根本的な問題に苦しむ。 本稿では,金融におけるこれら3つの悪魔を体系的に調べるための因果的視点に従う。 具体的には、これらの問題を因果関係の文脈で再検討し、問題がどのように対処できるのかを新しくて刺激的な理解へと導く。 この観点から、我々はこれらの問題に対する体系的な解決策を提供し、この領域における将来の研究の基盤となることを願っている。

Financial data is generally time series in essence and thus suffers from three fundamental issues: the mismatch in time resolution, the time-varying property of the distribution - nonstationarity, and causal factors that are important but unknown/unobserved. In this paper, we follow a causal perspective to systematically look into these three demons in finance. Specifically, we reexamine these issues in the context of causality, which gives rise to a novel and inspiring understanding of how the issues can be addressed. Following this perspective, we provide systematic solutions to these problems, which hopefully would serve as a foundation for future research in the area.
翻訳日:2024-01-15 08:36:03 公開日:2023-12-28
# カオスにおける部分順序:羅生門セットの特徴属性に関する合意

Partial Order in Chaos: Consensus on Feature Attributions in the Rashomon Set ( http://arxiv.org/abs/2110.13369v3 )

ライセンス: Link先を確認
Gabriel Laberge, Yann Pequignot, Alexandre Mathieu, Foutse Khomh, Mario Marchand(参考訳) ポストホックなグローバル/ローカルな特徴帰属法は、複雑な機械学習モデルの決定を理解するために徐々に採用されている。 しかし、データ量が限られているため、優れた経験的性能を持つモデルの多様性を得ることができるが、同じ予測に対して非常に異なる説明を提供するため、それらから洞察を導き出すことは困難である。 本研究では、モデル説明の下位仕様化を減少させる代わりに、それを完全に受け入れ、経験的性能(すなわち、ラショモン集合内のすべてのモデル)のすべてのモデルに対して一貫した特徴帰属に関する論理的ステートメントを抽出する。 局所的・グローバル的特徴重要度の部分的順序は、それらの相対的重要性に関する合意がない場合、それらの特徴の対が比較不能になることを許すことにより、より微妙な解釈を可能にするこの手法から生じる。 これらの部分順序に含まれる特徴間のすべての関係が、既存のアプローチによって提供されるランクにも成り立つことを証明している。 最後に, 移動可能なラショモン集合(付加モデル, カーネルリッジ, ランダムフォレスト)を持つ仮説空間を用いた3つの応用例を示し, 局所的および大域的モデル解釈を局所的かつ大域的に抽出する部分的順序付けが可能であることを示した。

Post-hoc global/local feature attribution methods are progressively being employed to understand the decisions of complex machine learning models. Yet, because of limited amounts of data, it is possible to obtain a diversity of models with good empirical performance but that provide very different explanations for the same prediction, making it hard to derive insight from them. In this work, instead of aiming at reducing the under-specification of model explanations, we fully embrace it and extract logical statements about feature attributions that are consistent across all models with good empirical performance (i.e. all models in the Rashomon Set). We show that partial orders of local/global feature importance arise from this methodology enabling more nuanced interpretations by allowing pairs of features to be incomparable when there is no consensus on their relative importance. We prove that every relation among features present in these partial orders also holds in the rankings provided by existing approaches. Finally, we present three use cases employing hypothesis spaces with tractable Rashomon Sets (Additive models, Kernel Ridge, and Random Forests) and show that partial orders allow one to extract consistent local and global interpretations of models despite their under-specification.
翻訳日:2024-01-03 03:31:54 公開日:2023-12-28
# 分布にロバストなモデルに基づくオフライン強化学習

Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity ( http://arxiv.org/abs/2208.05767v4 )

ライセンス: Link先を確認
Laixi Shi and Yuejie Chi(参考訳) 本稿では,オフライン強化学習(RL)におけるモデルロバストネスとサンプル効率の中心的課題について考察する。 環境の不確実性と不安定性のため、デプロイされた環境が履歴データセットの収集に使用される名目上のものから逸脱した場合でも、可能な限り少数のサンプルで堅牢なポリシを学ぶことが重要です。 有限水平および無限水平の両方の設定において、Kulback-Leiblerの発散によって指定された不確実性セットを持つグラフ状ロバストマルコフ決定過程に着目し、分布的にロバストなオフラインRLの定式化を考える。 分散的ロバストな値反復と不確実性に直面した悲観主義の原理を組み合わさったモデルベースアルゴリズムにおいて,ロバストな値推定を慎重に設計したデータ駆動型ペナルティ項でペナルティ化する手法を提案する。 状態動作空間を完全にカバーすることなく分布シフトを測定するヒストリーデータセットの軽度かつ調整された仮定の下で,提案するアルゴリズムの有限サンプル複雑性を確立する。 さらに,不確実性レベルが十分小さい場合,RMDP の学習は標準 MDP と同程度に困難であることが示唆される情報理論の下界を構築し,不確実性レベルの範囲において,(有効) 地平面長の多項式係数まで上界の厳密さを相関させる。 我々の知る限り、モデルの不確実性と部分的カバレッジの下で学習する、証明可能なほぼ最適のオフラインRLアルゴリズムを提供する。

This paper concerns the central issues of model robustness and sample efficiency in offline reinforcement learning (RL), which aims to learn to perform decision making from history data without active exploration. Due to uncertainties and variabilities of the environment, it is critical to learn a robust policy -- with as few samples as possible -- that performs well even when the deployed environment deviates from the nominal one used to collect the history dataset. We consider a distributionally robust formulation of offline RL, focusing on tabular robust Markov decision processes with an uncertainty set specified by the Kullback-Leibler divergence in both finite-horizon and infinite-horizon settings. To combat with sample scarcity, a model-based algorithm that combines distributionally robust value iteration with the principle of pessimism in the face of uncertainty is proposed, by penalizing the robust value estimates with a carefully designed data-driven penalty term. Under a mild and tailored assumption of the history dataset that measures distribution shift without requiring full coverage of the state-action space, we establish the finite-sample complexity of the proposed algorithms. We further develop an information-theoretic lower bound, which suggests that learning RMDPs is at least as hard as the standard MDPs when the uncertainty level is sufficient small, and corroborates the tightness of our upper bound up to polynomial factors of the (effective) horizon length for a range of uncertainty levels. To the best our knowledge, this provides the first provably near-optimal robust offline RL algorithm that learns under model uncertainty and partial coverage.
翻訳日:2024-01-03 03:21:59 公開日:2023-12-28
# DOGE-Train: エンドツーエンドトレーニングによるGPUの離散最適化

DOGE-Train: Discrete Optimization on GPU with End-to-end Training ( http://arxiv.org/abs/2205.11638v2 )

ライセンス: Link先を確認
Ahmed Abbas, Paul Swoboda(参考訳) 0-1整数線形プログラムの緩和を解くために,高速でスケーラブルなデータ駆動方式を提案する。 グラフニューラルネットワーク(GNN)とラグランジュ分解に基づくアルゴリズムであるFastDOG(AbbasとSwoboda 2022b)を組み合わせる。 エンドツーエンドのトレーニングでは後者を微分可能とし,アルゴリズムパラメータの予測にGNNを使用する。 これにより、二重実現性を含むアルゴリズムの理論的特性を維持でき、トレーニングを通じて改善しながら下界での非劣化を保証できる。 両実現可能性を維持した非パラメトリックGNN更新ステップを付加することで,基本解法の最適部分固定点を克服する。 トレーニングには教師なしの損失を使用します。 より小さな問題を学習し、GNNを約10k$のパラメータで構成し、強力な一般化性能を示す。 我々の解法は,非学習版よりも性能が著しく向上し,かつ,非常に大きな構造的予測問題のLP緩和と選択された組合せの目的値に近い値が得られる。 特に,その効率を保ちながら,特定の問題クラスに対する特殊近似解法よりも高い客観的値が得られる。 我々の解法は, 商用解法と比較して, 長時間の時効性能が良好である。 https://github.com/LPMP/BDDで公開されているコード

We present a fast, scalable, data-driven approach for solving relaxations of 0-1 integer linear programs. We use a combination of graph neural networks (GNN) and the Lagrange decomposition based algorithm FastDOG (Abbas and Swoboda 2022b). We make the latter differentiable for end-to-end training and use GNNs to predict its algorithmic parameters. This allows to retain the algorithm's theoretical properties including dual feasibility and guaranteed non-decrease in the lower bound while improving it via training. We overcome suboptimal fixed points of the basic solver by additional non-parametric GNN update steps maintaining dual feasibility. For training we use an unsupervised loss. We train on smaller problems and test on larger ones showing strong generalization performance with a GNN comprising only around $10k$ parameters. Our solver achieves significantly faster performance and better dual objectives than its non-learned version, achieving close to optimal objective values of LP relaxations of very large structured prediction problems and on selected combinatorial ones. In particular, we achieve better objective values than specialized approximate solvers for specific problem classes while retaining their efficiency. Our solver has better any-time performance over a large time period compared to a commercial solver. Code available at https://github.com/LPMP/BDD
翻訳日:2024-01-03 03:19:16 公開日:2023-12-28
# 量子エラー低減

Quantum Error Mitigation ( http://arxiv.org/abs/2210.00921v3 )

ライセンス: Link先を確認
Zhenyu Cai, Ryan Babbush, Simon C. Benjamin, Suguru Endo, William J. Huggins, Ying Li, Jarrod R. McClean, Thomas E. O'Brien(参考訳) 量子コンピュータが実世界の問題をうまく解くためには、ノイズの課題、すなわち不完全な相互作用によって基本的な物理コンポーネントで発生するエラーに取り組む必要がある。 量子フォールトトレランスの理論は、長期的には答えを与えることができるが、今後の 'NISQ' マシンでは、エラーを完全に除去するよりも、エラーを軽減する必要がある。 本稿では、量子エラー軽減のために提案された様々な手法を調査し、その原理的有効性を評価し、これまでに達成されたハードウェア実証について述べる。 提案手法の共通点と制限点を同定し,アルゴリズム的誤りを含む主要なノイズの種類に応じて緩和方法を選択する方法について述べる。 この分野のオープンな問題は特定され、科学とビジネスに影響を与える量子的優位性をもたらすことができる緩和ベースのデバイスの実現の可能性について論じる。

For quantum computers to successfully solve real-world problems, it is necessary to tackle the challenge of noise: the errors which occur in elementary physical components due to unwanted or imperfect interactions. The theory of quantum fault tolerance can provide an answer in the long term, but in the coming era of `NISQ' machines we must seek to mitigate errors rather than completely remove them. This review surveys the diverse methods that have been proposed for quantum error mitigation, assesses their in-principle efficacy, and then describes the hardware demonstrations achieved to date. We identify the commonalities and limitations among the methods, noting how mitigation methods can be chosen according to the primary type of noise present, including algorithmic errors. Open problems in the field are identified and we discuss the prospects for realising mitigation-based devices that can deliver quantum advantage with an impact on science and business.
翻訳日:2024-01-03 03:07:12 公開日:2023-12-28
# グラフ状態デコヒーレンスダイナミクスのための可解モデル

A solvable model for graph state decoherence dynamics ( http://arxiv.org/abs/2305.17231v2 )

ライセンス: Link先を確認
J\'er\^ome Houdayer, Haggai Landa and Gr\'egoire Misguich(参考訳) 我々は、$N$ qubitsの置換不変グラフ状態の連続散逸ダイナミクスに対して、正確に解けるおもちゃモデルを示す。 このような状態は、多くの量子情報処理装置の基本資源である$N$-qubit Greenberger-Horne-Zeilinger状態(GHZ)と局所的に等価である。 我々は3つの標準単量子ジャンプ作用素を持つリンドブラッドマスター方程式によって制御される状態の時間発展に注目し、ハミルトニアン部分は 0 に設定される。 可観測性の期待値に対する解析式をポーリ基底で常に拡張し, 非自明な中間時間ダイナミクスを解析する。 行列積作用素に基づく数値解法を用いて,最大64キュービットの系の時間発展をシミュレートし,解析結果との数値的完全一致を検証した。 系の二分割の作用素空間エンタングルメントエントロピーの進化は、周期がキュービットの数と対数的に増加する台地を示すのに対し、全てのパウリ演算子積は、少なくとも一定時間で減衰する期待値を持つ。

We present an exactly solvable toy model for the continuous dissipative dynamics of permutation-invariant graph states of $N$ qubits. Such states are locally equivalent to an $N$-qubit Greenberger-Horne-Zeilinger (GHZ) state, a fundamental resource in many quantum information processing setups. We focus on the time evolution of the state governed by a Lindblad master equation with the three standard single-qubit jump operators, the Hamiltonian part being set to zero. Deriving analytic expressions for the expectation values of observables expanded in the Pauli basis at all times, we analyze the nontrivial intermediate-time dynamics. Using a numerical solver based on matrix product operators, we simulate the time evolution for systems with up to 64 qubits and verify a numerically exact agreement with the analytical results. We find that the evolution of the operator space entanglement entropy of a bipartition of the system manifests a plateau whose duration increases logarithmically with the number of qubits, whereas all Pauli-operator products have expectation values decaying at most in constant time.
翻訳日:2024-01-03 02:33:54 公開日:2023-12-28
# m3icro:プログラム可能なマルチモード干渉に基づく機械学習対応コンパクトフォトニックテンソルコア

M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference ( http://arxiv.org/abs/2305.19505v2 )

ライセンス: Link先を確認
Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Zixuan Jiang, Ray T. Chen, David Z. Pan(参考訳) フォトニックコンピューティングは、超高速、大規模な並列処理、高エネルギー効率を提供する機械学習(ML)アクセラレーションの変革的な進歩を約束している。 しかし、標準光学部品に基づく現在のフォトニックテンソルコア(PTC)は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。 そこで我々は,M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。 プログラム可能なMOMMIは、本質的な光伝搬原理を活用し、デバイス毎の1つの乗算(MAC)演算の従来の計算パラダイムを超えて、単一デバイスでプログラム可能な行列ユニットを提供する。 時間のかかるシミュレーションを必要とするカスタマイズされたデバイスの最適化の難しさを克服するため、光学系にMLを適用してデバイス挙動を予測し、異なる最適化フローを実現する。 我々は、カスタマイズされたPTCの再構成可能性と行列表現性を徹底的に検討し、複素数値PSCの計算能力を完全に活用するブロック展開手法を導入する。 大規模な評価の結果、M3ICROは3.4-9.6倍のフットプリント、1.6-4.4倍の高速、10.6-42倍の計算密度、3.7-12倍のシステムスループット、最先端のコヒーレントPSC設計よりも優れたノイズ堅牢性を達成し、MLベンチマーク間の密接なタスク精度を維持した。 私たちのコードはhttps://github.com/JeremieMelo/M3ICRO-MOMMIでオープンソース化されています。

Photonic computing shows promise for transformative advancements in machine learning (ML) acceleration, offering ultra-fast speed, massive parallelism, and high energy efficiency. However, current photonic tensor core (PTC) designs based on standard optical components hinder scalability and compute density due to their large spatial footprint. To address this, we propose an ultra-compact PTC using customized programmable multi-operand multimode interference (MOMMI) devices, named M3ICRO. The programmable MOMMI leverages the intrinsic light propagation principle, providing a single-device programmable matrix unit beyond the conventional computing paradigm of one multiply-accumulate (MAC) operation per device. To overcome the optimization difficulty of customized devices that often requires time-consuming simulation, we apply ML for optics to predict the device behavior and enable a differentiable optimization flow. We thoroughly investigate the reconfigurability and matrix expressivity of our customized PTC, and introduce a novel block unfolding method to fully exploit the computing capabilities of a complex-valued PTC for near-universal real-valued linear transformations. Extensive evaluations demonstrate that M3ICRO achieves a 3.4-9.6x smaller footprint, 1.6-4.4x higher speed, 10.6-42x higher compute density, 3.7-12x higher system throughput, and superior noise robustness compared to state-of-the-art coherent PTC designs, while maintaining close-to-digital task accuracy across various ML benchmarks. Our code is open-sourced at https://github.com/JeremieMelo/M3ICRO-MOMMI.
翻訳日:2024-01-03 02:18:45 公開日:2023-12-28
# ユニタリ構成によるスケーラブル量子スピンネットワーク

Scalable Quantum Spin Networks from Unitary Construction ( http://arxiv.org/abs/2307.12978v2 )

ライセンス: Link先を確認
Abdulsalam H. Alsulami, Irene D'Amico, Marta P. Estarellas, and Timothy P. Spiller(参考訳) スピンネットワークシステムは、高忠実度で量子状態移動を達成し、絡み合いを生成するために使用できる。 短距離量子情報処理と位相センシングのためのスピンチェーンに基づくスピンネットワークシステムを設計するための新しいアプローチが最近[1]で提案されている。 本稿では,量子プロセッサの接続など,より長距離な量子情報処理に使用できる大規模スピンネットワークシステムを設計し,そのようなシステムのスケーラビリティについて検討する。 さらに、異なる種類の絡み合い状態を生成することができる、より複雑なスピンネットワーク設計を示す。 障害効果のシミュレーションは、そのような大きなスピンネットワークシステムでさえ、現実の障害レベルに対して堅牢であることを示している。

Spin network systems can be used to achieve quantum state transfer with high fidelity and to generate entanglement. A new approach to design spin-chain-based spin network systems, for shortrange quantum information processing and phase-sensing, has been proposed recently in [1]. In this paper, we investigate the scalability of such systems, by designing larger spin network systems that can be used for longer-range quantum information tasks, such as connecting together quantum processors. Furthermore, we present more complex spin network designs, which can produce different types of entangled states. Simulations of disorder effects show that even such larger spin network systems are robust against realistic levels of disorder.
翻訳日:2024-01-03 01:55:00 公開日:2023-12-28
# 異種性尺度を用いた量子ブロックマッチングアルゴリズム

Quantum Block-Matching Algorithm using Dissimilarity Measure ( http://arxiv.org/abs/2309.15792v2 )

ライセンス: Link先を確認
M. Mart\'inez-Felipe, J. Montiel-P\'erez, V. Onofre, A. Maldonado-Romo, Ricky Young(参考訳) 画像圧縮,画像クラスタリング,ベクトル量子化,非局所雑音低減など,検索領域内の類似した画像ブロック群を見つけることは,様々なアプリケーションにおいてしばしば必要となる。 このようなシナリオでは、異質性尺度を用いたブロックマッチングアルゴリズムを適用することができる。 本研究では、ユークリッド距離に基づく量子フーリエ変換やスワップテストを用いた尺度を提案する。 理想的および騒音シミュレーションを用いた小事例実験を行った。 Swapテストでは、IBMとIonQ量子デバイスが使われ、将来の短期的応用の可能性を示している。

Finding groups of similar image blocks within an ample search area is often necessary in different applications, such as video compression, image clustering, vector quantization, and nonlocal noise reduction. A block-matching algorithm that uses a dissimilarity measure can be applied in such scenarios. In this work, a measure that utilizes the quantum Fourier transform or the Swap test based on the Euclidean distance is proposed. Experiments on small cases with ideal and noisy simulations are implemented. In the case of the Swap test, the IBM and IonQ quantum devices have been used, demonstrating potential for future near-term applications.
翻訳日:2024-01-03 01:33:07 公開日:2023-12-28
# 大規模言語モデルを用いたグラフニューラルプロンプティング

Graph Neural Prompting with Large Language Models ( http://arxiv.org/abs/2309.15427v2 )

ライセンス: Link先を確認
Yijun Tian, Huan Song, Zichen Wang, Haozhu Wang, Ziqing Hu, Fang Wang, Nitesh V. Chawla, Panpan Xu(参考訳) 大規模言語モデル(llm)は、様々な言語モデリングタスクにおいて優れた性能を持つ驚くべき一般化能力を示している。 しかし、基礎知識の収集と返却に固有の制限がある。 既存の研究は、知識グラフ(KG)を利用して、共同学習とカスタマイズされたモデルアーキテクチャによる言語モデリングを強化してきたが、多くのパラメータと高い計算コストのためにLLMに適用することは問題である。 したがって, 接地知識(例えば, 検索型生成)を用いた事前学習されたllmの強化は, 未解決の問題である。 本研究では,学習支援のための新しいプラグ・アンド・プレイ法であるgraph neural prompting(gnp)を提案する。 gnpには、標準的なグラフニューラルネットワークエンコーダ、クロスモダリティプールモジュール、ドメインプロジェクタ、自己教師付きリンク予測目的など、さまざまな設計が含まれている。 複数のデータセットに対する大規模な実験は、異なるLLMサイズと設定にわたる常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。 コードはhttps://github.com/meettyj/GNPで入手できる。

Large language models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs (KGs) to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. Therefore, how to enhance pre-trained LLMs using grounded knowledge, e.g., retrieval-augmented generation, remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings. Code is available at https://github.com/meettyj/GNP.
翻訳日:2024-01-03 01:32:58 公開日:2023-12-28
# 最大拡散強化学習

Maximum diffusion reinforcement learning ( http://arxiv.org/abs/2309.15293v4 )

ライセンス: Link先を確認
Thomas A. Berrueta, Allison Pinosky, Todd D. Murphey(参考訳) データが独立しているという仮定は、すべての機械学習を支えている。 エージェント経験から順次データが収集される場合、強化学習のように、一般的にこの仮定は持たない。 ここでは,最大拡散強化学習(maximum diffusion reinforcement learning)と呼ぶエルゴード過程の統計力学を活用し,これらの限界を克服する手法を導出する。 エージェントエクスペリエンスを分離することで,個々のタスク試行を通じて,継続的デプロイメントにおけるシングルショット学習を可能にします。 さらに,本手法は,よく知られた最大エントロピー手法を一般化し,一般的なベンチマークにおける最先端性能を著しく上回ることを示す。 nexus of physics, learning, and controlの結果は、ロボットや自動運転車などの強化学習エージェントにおける、より透明で信頼性の高い意思決定への道を開くものでした。

The assumption that data are independent and identically distributed underpins all machine learning. When data are collected sequentially from agent experiences this assumption does not generally hold, as in reinforcement learning. Here, we derive a method that overcomes these limitations by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables single-shot learning in continuous deployments over the course of individual task attempts. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control pave the way towards more transparent and reliable decision-making in reinforcement learning agents, such as locomoting robots and self-driving cars.
翻訳日:2024-01-03 01:31:56 公開日:2023-12-28
# 深層学習による衛星ハイパースペクトル画像の海とクラウドのセグメンテーション

Sea-Land-Cloud Segmentation in Satellite Hyperspectral Imagery by Deep Learning ( http://arxiv.org/abs/2310.16210v2 )

ライセンス: Link先を確認
Jon Alvarez Justo, Joseph L. Garrett, Mariana-Iuliana Georgescu, Jesus Gonzalez-Llorente, Radu Tudor Ionescu, Tor Arne Johansen(参考訳) 衛星は、軌道上の推論を通じて自律性を高めるために、オンボードAIの採用が増えている。 この文脈において、高スペクトル(HS)衛星画像のセグメンテーションにおける深層学習(DL)技術の利用は、リモートセンシングの利点をもたらすため、我々は16種類の異なるモデルを訓練し、そのコードは我々の研究を通して利用可能としており、我々は、海洋(海)、地球(陸)、雲の形成の分類に焦点をあてた、HS画像のマルチクラスセグメンテーションに関係していると考えている。 我々は,海陸クラウドセグメンテーションの実証事例としてHYPSO-1ミッションを採用し,その有効性を示すために,新しい海陸クラウドランキングアプリケーションシナリオを導入する。 セグメント画像から海,陸,雲のカバレッジレベルに基づいて,hs画像のダウンリンクを優先順位付けする方法を検討する。 性能,パラメータ数,推測時間などを考慮し,将来の軌道配置のモデルについて比較検討した。 モデルには浅部モデルと深部モデルの両方が含まれており、新たに4つのDLモデルを提案すると、スペクトル(1D)と空間(2D)の両方のコンテキストからなる1つのスペクトルシグネチャ(1D)のセグメンテーションが3Dデータ処理より優れていることを示す。 1D-Justo-LiuNet と呼ばれる軽量DLモデルは,U-Net などの海面-クラウドセグメンテーションの最先端モデルを,性能 (0.93 精度) とパラメータ数 (4,563) で一貫して上回っている。 しかし、1dモデルは、テストされた処理アーキテクチャにおいて、より長い推論時間(15s)しか持たない。 最後に、軌道内セグメンテーションが生データよりもL1bの放射率キャリブレーション後に起こることを実証した後、より弱いセグメンテーション性能を犠牲にして、スペクトルチャネルを3つのモデルのパラメータ数と推論時間を減少させることを示した。

Satellites are increasingly adopting on-board AI for enhanced autonomy through in-orbit inference. In this context, the use of deep learning (DL) techniques for segmentation in hyperspectral (HS) satellite imagery offers advantages for remote sensing applications, and therefore, we train 16 different models, whose codes are made available through our study, which we consider to be relevant for on-board multi-class segmentation of HS imagery, focusing on classifying oceanic (sea), terrestrial (land), and cloud formations. We employ the HYPSO-1 mission as an illustrative case for sea-land-cloud segmentation, and to demonstrate the utility of the segments, we introduce a novel sea-land-cloud ranking application scenario. We consider how to prioritize HS image downlink based on sea, land, and cloud coverage levels from the segmented images. We comparatively evaluate the models for future in-orbit deployment, considering performance, parameter count, and inference time. The models include both shallow and deep models, and after we propose four new DL models, we demonstrate that segmenting single spectral signatures (1D) outperforms 3D data processing comprising both spectral (1D) and spatial (2D) contexts. We conclude that our lightweight DL model, called 1D-Justo-LiuNet, consistently surpasses state-of-the-art models for sea-land-cloud segmentation, such as U-Net and its variations, in terms of performance (0.93 accuracy) and parameter count (4,563). However, the 1D models present longer inference time (15s) in the tested processing architecture, which seems to be a suboptimal architecture for this purpose. Finally, after demonstrating that in-orbit segmentation should occur post L1b radiance calibration rather than on raw data, we also show that reducing spectral channels down to 3 lowers models' parameter counts and inference time, at the cost of weaker segmentation performance.
翻訳日:2024-01-03 01:25:03 公開日:2023-12-28
# PhayaThaiBERT:未同義語による事前訓練されたタイ語モデルの実現

PhayaThaiBERT: Enhancing a Pretrained Thai Language Model with Unassimilated Loanwords ( http://arxiv.org/abs/2311.12475v2 )

ライセンス: Link先を確認
Panyut Sriwirote, Jalinee Thapiang, Vasan Timtong, Attapol T. Rutherford(参考訳) wangchanbertaはトランスフォーマーベースのタイ語モデリングのデファクトスタンダードとなっているが、外国語の理解に関してはまだ欠点があり、特に英語の単語は多くの文脈でタイ語に正書法を同化せずに借用されることが多い。 我々は,WangchanBERTaのトークン化器における外来語彙の欠如を,これらの欠点の主な原因としている。 次に,WangchanBERTa の語彙を XLM-R の事前学習トークン化器からの語彙転送により拡張し,WangchanBERTa のチェックポイントから始まる拡張トークン化器を用いて,WangchanBERTa のトレーニングに用いるものよりも大きいデータセットに事前学習する。 以上の結果から,新しい事前学習モデルであるPhayaThaiBERTは,WangchanBERTaを多くの下流タスクやデータセットで上回っていることがわかった。

While WangchanBERTa has become the de facto standard in transformer-based Thai language modeling, it still has shortcomings in regard to the understanding of foreign words, most notably English words, which are often borrowed without orthographic assimilation into Thai in many contexts. We identify the lack of foreign vocabulary in WangchanBERTa's tokenizer as the main source of these shortcomings. We then expand WangchanBERTa's vocabulary via vocabulary transfer from XLM-R's pretrained tokenizer and pretrain a new model using the expanded tokenizer, starting from WangchanBERTa's checkpoint, on a new dataset that is larger than the one used to train WangchanBERTa. Our results show that our new pretrained model, PhayaThaiBERT, outperforms WangchanBERTa in many downstream tasks and datasets.
翻訳日:2024-01-03 00:57:58 公開日:2023-12-28
# オンラインプライマリエージェントインタラクションにおける学習 : メニューの力

Learning in Online Principal-Agent Interactions: The Power of Menus ( http://arxiv.org/abs/2312.09869v2 )

ライセンス: Link先を確認
Minbiao Han, Michael Albert, Haifeng Xu(参考訳) 本研究では, エージェントの個人情報を, エージェントの履歴的相互作用における嗜好から学習するオンラインプリンシパルエージェント問題において, ユビキタスな学習課題について検討する。 このパラダイムには、最近の文献で広く研究されている価格や契約設計といった重要な特別なケースが含まれている。 しかし、既存の研究は、プリンシパルが各ラウンドで1つの戦略しか選択できず、エージェントと対話し、そのアクションを通じてエージェントが明らかにした嗜好を観察できる場合を考慮している。 本稿では,本研究を拡張して,エージェントに対して戦略のメニューを提供し,さらに,エージェントの選択をメニューから観察することから学ぶことを可能にする。 我々は,いくつかのオンラインプリンシパルエージェント問題の設定を徹底的に調査し,それらのサンプルの複雑さを,我々が開発したアルゴリズムを伴って特徴付ける。 私たちはこのパラダイムを,Stackelberg(セキュリティ)ゲームやコントラクト設計,情報設計など,いくつかの重要な設計問題に初期化します。 最後に,stackelbergゲームにおけるオンライン学習に関する調査結果と既存の結果との関係についても検討し,peng et al. (2019) の重要なハードインスタンスを克服可能なソリューションを提供する。

We study a ubiquitous learning challenge in online principal-agent problems during which the principal learns the agent's private information from the agent's revealed preferences in historical interactions. This paradigm includes important special cases such as pricing and contract design, which have been widely studied in recent literature. However, existing work considers the case where the principal can only choose a single strategy at every round to interact with the agent and then observe the agent's revealed preference through their actions. In this paper, we extend this line of study to allow the principal to offer a menu of strategies to the agent and learn additionally from observing the agent's selection from the menu. We provide a thorough investigation of several online principal-agent problem settings and characterize their sample complexities, accompanied by the corresponding algorithms we have developed. We instantiate this paradigm to several important design problems $-$ including Stackelberg (security) games, contract design, and information design. Finally, we also explore the connection between our findings and existing results about online learning in Stackelberg games, and we offer a solution that can overcome a key hard instance of Peng et al. (2019).
翻訳日:2024-01-03 00:52:15 公開日:2023-12-28
# 情報整合性研究倫理に研究者の安全を取り入れる

Towards Incorporating Researcher Safety into Information Integrity Research Ethics ( http://arxiv.org/abs/2312.09395v2 )

ライセンス: Link先を確認
Joseph S. Schafer, Kate Starbird(参考訳) 従来の研究倫理は主に、参加者が権利の侵害を避けたり、参加者を危害にさらすために、安全、公正、倫理的に扱われることに重点を置いてきた。 CSCWにおける情報完全性の研究は、主にこれらの問題に焦点を当てており、インターネット研究倫理の焦点は主に参加者データの保護の増加に焦点を当てている。 しかし、インターネット研究の分野は情報整合性や問題情報といった文脈に重点を置いているため、他の倫理的枠組みや主題についてより明確な考察が求められる。 本研究は, 研究者の保護をより明確に検討し, 認識すべきであり, 参加者や幅広い社会に対して, より標準的な倫理的考察とともに検討すべきである。

Traditional research ethics has mainly and rightly been focused on making sure that participants are treated safely, justly, and ethically, to avoid the violation of their rights or putting participants in harm's way. Information integrity research within CSCW has also correspondingly mainly focused on these issues, and the focus of internet research ethics has primarily focused on increasing protections of participant data. However, as branches of internet research focus on more fraught contexts such as information integrity and problematic information, more explicit consideration of other ethical frames and subjects is warranted. In this workshop paper, we argue that researcher protections should be more explicitly considered and acknowledged in these studies, and should be considered alongside more standard ethical considerations for participants and for broader society.
翻訳日:2024-01-03 00:51:53 公開日:2023-12-28
# 公正さを思い出す:連続的意思決定における非マルコフ的公正について(予備報告)

Remembering to Be Fair: On Non-Markovian Fairness in Sequential Decision Making (Preliminary Report) ( http://arxiv.org/abs/2312.04772v2 )

ライセンス: Link先を確認
Parand A. Alamdari, Toryn Q. Klassen, Elliot Creager, Sheila A. McIlraith(参考訳) 公正な意思決定は、主に単一の決定に関して研究されている。 本稿では、複数の利害関係者が意思決定の結果に影響を受け得る順序決定の文脈における公平性の概念と、公正性の要件を超えた追加の制約や基準によって意思決定が通知されるかを検討する。 この設定では、公平性は多くの場合、現在の状態だけでなく、シーケンシャルな意思決定プロセスの歴史に依存する。 このフェアネス問題のクラスを理解するために、逐次意思決定の文脈において、非マルコフ的フェアネスの概念を定義する。 非マルコフ的フェアネスの性質を同定し、長期的、時空的、周期的、有界公正の概念を含む。 我々はさらに,非マルコフ的公平性と記憶の相互作用と,これが連続的な意思決定における公正な政策の構築をどのように支援できるかについて検討する。

Fair decision making has largely been studied with respect to a single decision. In this paper we investigate the notion of fairness in the context of sequential decision making where multiple stakeholders can be affected by the outcomes of decisions, and where decision making may be informed by additional constraints and criteria beyond the requirement of fairness. In this setting, we observe that fairness often depends on the history of the sequential decision-making process and not just on the current state. To advance our understanding of this class of fairness problems, we define the notion of non-Markovian fairness in the context of sequential decision making. We identify properties of non-Markovian fairness, including notions of long-term, anytime, periodic, and bounded fairness. We further explore the interplay between non-Markovian fairness and memory, and how this can support construction of fair policies in sequential decision-making settings.
翻訳日:2024-01-03 00:48:27 公開日:2023-12-28
# エンジニアリングシステム設計における動的意思決定 : Q-Learning アプローチ

Dynamic Decision Making in Engineering System Design: A Deep Q-Learning Approach ( http://arxiv.org/abs/2312.17284v1 )

ライセンス: Link先を確認
Ramin Giahi, Cameron A. MacKenzie, Reyhaneh Bijari(参考訳) 意思決定プロセスと見なされるエンジニアリングシステム設計は、複雑さと不確実性による課題に直面します。 本稿では,Deep Q-learningアルゴリズムを用いてエンジニアリングシステムの設計を最適化するフレームワークを提案する。 エンジニアリングシステム設計を最適化するためのステップバイステップのフレームワークを概説する。 目標は、複数の不確実性の源を与えられたシミュレーションモデルの出力を最大化するポリシーを見つけることである。 提案アルゴリズムは,決定変数が離散的であり,目的関数と制約がモンテカルロシミュレーションによって評価される線形および非線形多段階確率問題を扱う。 提案手法は,価格や需要など複数の不確実性が存在する場合に,2つのエンジニアリングシステム設計問題を解決することで有効性を示す。

Engineering system design, viewed as a decision-making process, faces challenges due to complexity and uncertainty. In this paper, we present a framework proposing the use of the Deep Q-learning algorithm to optimize the design of engineering systems. We outline a step-by-step framework for optimizing engineering system designs. The goal is to find policies that maximize the output of a simulation model given multiple sources of uncertainties. The proposed algorithm handles linear and non-linear multi-stage stochastic problems, where decision variables are discrete, and the objective function and constraints are assessed via a Monte Carlo simulation. We demonstrate the effectiveness of our proposed framework by solving two engineering system design problems in the presence of multiple uncertainties, such as price and demand.
翻訳日:2024-01-02 19:09:37 公開日:2023-12-28
# Intelligent Parsing:Eコマースクリエーティブからデザインセマンティックを抽出する自動パーシングフレームワーク

Intelligent Parsing: An Automated Parsing Framework for Extracting Design Semantics from E-commerce Creatives ( http://arxiv.org/abs/2312.17283v1 )

ライセンス: Link先を確認
Guandong Li, Xian Yang(参考訳) 産業用電子商取引の世界では、バナーやポスターのような創造的なデザインが普及している。 デザインセマンティクスを得るために、創造的なeコマースデザイン材料(デザイナーによって作られた文書)から構造化セマンティクス情報を抽出することは、インテリジェントデザインの領域における中核的な課題である。 本稿では,創造的素材をインテリジェントに解析するための総合的な自動化フレームワークを提案する。 このフレームワークは、マテリアル認識、プリプロセス、smartname、ラベル層を含む。 材料認識層は、様々な検出および認識インターフェースを統合し、ラベル識別と共に、創造材料内の補助領域の検出及び層レベルの検出を含むビジネス側面をカバーする。 アルゴリズム的には、カスケードRCNN、GFL、その他のモデルなど、様々な粗大な手法を包含する。 プリプロセス層は、クリエイティブなレイヤをフィルタリングし、クリエイティブな素材をグレードする。 スマートネーム層はクリエイティブ素材のインテリジェントな命名を実現し、ラベル層はクリエイティブ素材のマルチレベルタグをカバーし、異なる階層レベルでタグ付けを可能にする。 インテリジェント構文解析は、インテリジェントな生成、創造的最適化、マテリアルライブラリ構築といった下流プロセスを支援する完全な解析フレームワークを構成する。 suningの実用的なビジネスアプリケーションでは、クリエイティブ素材の露出、循環、クリックスルー率を著しく向上させ、クリエイティブ素材のクローズドループ生産を促進させ、実質的な利益をもたらす。

In the industrial e-commerce landscape, creative designs such as banners and posters are ubiquitous. Extracting structured semantic information from creative e-commerce design materials (manuscripts crafted by designers) to obtain design semantics represents a core challenge in the realm of intelligent design. In this paper, we propose a comprehensive automated framework for intelligently parsing creative materials. This framework comprises material recognition, preprocess, smartname, and label layers. The material recognition layer consolidates various detection and recognition interfaces, covering business aspects including detection of auxiliary areas within creative materials and layer-level detection, alongside label identification. Algorithmically, it encompasses a variety of coarse-to-fine methods such as Cascade RCNN, GFL, and other models. The preprocess layer involves filtering creative layers and grading creative materials. The smartname layer achieves intelligent naming for creative materials, while the label layer covers multi-level tagging for creative materials, enabling tagging at different hierarchical levels. Intelligent parsing constitutes a complete parsing framework that significantly aids downstream processes such as intelligent creation, creative optimization, and material library construction. Within the practical business applications at Suning, it markedly enhances the exposure, circulation, and click-through rates of creative materials, expediting the closed-loop production of creative materials and yielding substantial benefits.
翻訳日:2024-01-02 19:09:26 公開日:2023-12-28
# カオスの存在下での共起に近づいた量子絡み

Quantum entanglement approaching with concurrence in the presence of chaos ( http://arxiv.org/abs/2312.17280v1 )

ライセンス: Link先を確認
A. Fulop(参考訳) 共起の概念は二成分系の動的挙動を特徴づけるために研究されている。 量子キックトップモデルは、量子ビット系と絡み合いのカオス的性質において非常に重要である。 減少対称密度行列の固有値は決定され、有限シミュレーションにおける正則性とカオス性ダイナミクスを区別するこの駆動系を理解することができる。

The concept of concurrence is researched to characterize the dynamical behavior of the bipartite systems. The quantum kicked top model has great significance in the qubit systems and the chaotic properties of the entanglement. The eigenvalues of the reduced symmetric density matrix are determined, it allows us to understand this driven system to distinguish between regularity and chaoticity dynamics in the finite simulation, which depend on the strength excitation in the framework of the concurrence.
翻訳日:2024-01-02 19:09:02 公開日:2023-12-28
# 簡易適応モニタ回路におけるエクササイズ, 平均, ブローク対称性

Exact, Average, and Broken Symmetries in a Simple Adaptive Monitored Circuit ( http://arxiv.org/abs/2312.17309v1 )

ライセンス: Link先を確認
Zhi Li, Zhu-Xi Luo(参考訳) 対称性は平衡における物質の相を理解する強力なツールである。 測定可能な量子回路は、近年、本質的に平衡から外れた新しい物質状態のプラットフォームとして登場した。 対称性は、これらの新しい状態、その相および相転移の組織化原理として使用できるか? そこで本研究では,単一パラメータをチューニングすることで,異なる絡み合い遷移に加えて順序遷移をホストする単純な適応型モニタ回路において,この問題に対する肯定的な回答を与える。 対称性を破る初期状態から始めると、チューニングパラメータによって、定常状態は起こり得る。 (i)対称性を保ったままである。 (ii)軌道のアンサンブルにおける平均対称性を示す、又は (iii)各軌跡の正確な対称性を示す。 順序遷移は、イジング普遍性クラスによって記述される古典的な多数決モデルにおける遷移にマッピングされるが、絡み合う遷移はパーコレーションクラスにある。 解析的理解を支援するため, 数値シミュレーションも行った。

Symmetry is a powerful tool for understanding phases of matter in equilibrium. Quantum circuits with measurements have recently emerged as a platform for novel states of matter intrinsically out of equilibrium. Can symmetry be used as an organizing principle for these novel states, their phases and phase transitions? In this work, we give an affirmative answer to this question in a simple adaptive monitored circuit, which hosts an ordering transition in addition to a separate entanglement transition, upon tuning a single parameter. Starting from a symmetry-breaking initial state, depending on the tuning parameter, the steady state could (i) remain symmetry-broken, (ii) exhibit the average symmetry in the ensemble of trajectories, or (iii) exhibit the exact symmetry for each trajectory. The ordering transition is mapped to the transition in a classical majority vote model, described by the Ising universality class, while the entanglement transition lies in the percolation class. Numerical simulations are further presented to support the analytical understandings.
翻訳日:2024-01-02 15:15:56 公開日:2023-12-28
# 勾配フロス化:ジャコビアンの動的制御による勾配降下の改善

Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians ( http://arxiv.org/abs/2312.17306v1 )

ライセンス: Link先を確認
Rainer Engelken(参考訳) リカレントニューラルネットワーク(rnn)のトレーニングは、長い時間地平線を横切る勾配の不安定さのため、依然として課題である。 最近の研究は、これらの問題を、無限小摂動の成長または縮小を記述するフォワード力学に対するリアプノフ指数の値に関連付けている。 本稿では,学習中の前方運動のリアプノフ指数をゼロに推し進めることで,勾配不安定に対処する新しい手法である勾配フロス法を提案する。 我々は、微分線型代数を用いたバックプロパゲーションにより、リアプノフ指数を正則化する。 これにより、勾配を"浮き彫り"し、安定化し、ネットワークトレーニングを改善することができます。 勾配フロス化は, 勾配ノルムだけでなく, 長期ジャコビアンの条件数も制御し, 多次元誤差フィードバックの伝播を促進する。 トレーニング前にグラデーションフロスを適用すると,長時間ホライズンを伴うタスクの成功率と収束速度が向上することがわかった。 課題として,学習中の勾配フロスが,時間的バックプロパゲーションによって橋渡しできる時間線をさらに増加させることができることを示した。 さらに,様々なRNNアーキテクチャと時間的複雑さのタスクに対するアプローチの有効性を示す。 さらに,実際に使用可能な勾配フロスアルゴリズムの簡単な実装も提供する。 以上の結果から,リアプノフ指数の正則化による勾配フロスリングは,RNNトレーニングの有効性を著しく向上し,爆発的・消滅的な勾配問題を緩和できる可能性が示唆された。

Training recurrent neural networks (RNNs) remains a challenge due to the instability of gradients across long time horizons, which can lead to exploding and vanishing gradients. Recent research has linked these problems to the values of Lyapunov exponents for the forward-dynamics, which describe the growth or shrinkage of infinitesimal perturbations. Here, we propose gradient flossing, a novel approach to tackling gradient instability by pushing Lyapunov exponents of the forward dynamics toward zero during learning. We achieve this by regularizing Lyapunov exponents through backpropagation using differentiable linear algebra. This enables us to "floss" the gradients, stabilizing them and thus improving network training. We demonstrate that gradient flossing controls not only the gradient norm but also the condition number of the long-term Jacobian, facilitating multidimensional error feedback propagation. We find that applying gradient flossing prior to training enhances both the success rate and convergence speed for tasks involving long time horizons. For challenging tasks, we show that gradient flossing during training can further increase the time horizon that can be bridged by backpropagation through time. Moreover, we demonstrate the effectiveness of our approach on various RNN architectures and tasks of variable temporal complexity. Additionally, we provide a simple implementation of our gradient flossing algorithm that can be used in practice. Our results indicate that gradient flossing via regularizing Lyapunov exponents can significantly enhance the effectiveness of RNN training and mitigate the exploding and vanishing gradient problem.
翻訳日:2024-01-02 15:15:41 公開日:2023-12-28
# 多端子ジョセフソン・アンドレフ接合を有する量子回路

Quantum circuits with multiterminal Josephson-Andreev junctions ( http://arxiv.org/abs/2312.17305v1 )

ライセンス: Link先を確認
F. J. Matute-Ca\~nadas, L. Tosi, A. Levy Yeyati(参考訳) 多端子ジョセフソン接合におけるアンドレフ結合状態のフェルミオン構造が全回路の状態に影響を与えるように、複数の導波路がトンネル状態を超えて同時に接続される超伝導量子回路を探索する。 単一チャネル接触の単純なモデルと中間領域の単一レベルを用いて、リードが有限容量の島および/または有限インダクタンスを持つ形ループである異なる回路構成について議論する。 回路がノイズ保護量子ビットを定義するのに実用的関心のある状況を見いだし、バイフラクソンとトンネル方式で$0{-}\pi$ qubits にマップする。 また、これらの量子回路を適切に記述するためのゲージ選択の微妙さを指摘した。

We explore superconducting quantum circuits where several leads are simultaneously connected beyond the tunneling regime, such that the fermionic structure of Andreev bound states in the resulting multiterminal Josephson junction influences the states of the full circuit. Using a simple model of single channel contacts and a single level in the middle region, we discuss different circuit configurations where the leads are islands with finite capacitance and/or form loops with finite inductance. We find situations of practical interest where the circuits can be used to define noise protected qubits, which map to the bifluxon and $0{-}\pi$ qubits in the tunneling regime. We also point out the subtleties of the gauge choice for a proper description of these quantum circuits dynamics.
翻訳日:2024-01-02 15:15:13 公開日:2023-12-28
# エッジ摂動によるグラフ上の説明可能性に基づく逆攻撃

Explainability-Based Adversarial Attack on Graphs Through Edge Perturbation ( http://arxiv.org/abs/2312.17301v1 )

ライセンス: Link先を確認
Dibaloke Chanda, Saba Heidari Gheshlaghi and Nasim Yahya Soltani(参考訳) グラフニューラルネットワーク(GNN)は様々な領域で成功しているが、敵攻撃に対する感受性を示す。 これらの脆弱性を理解することは、堅牢でセキュアなアプリケーションを開発する上で非常に重要です。 本稿では,エッジ挿入と削除の両方を含むエッジ摂動によるテスト時間対向攻撃の影響について検討する。 グラフ内の重要なノードを同定し,これらのノード間のエッジ摂動を行うための,説明可能性に基づく新しい手法を提案する。 提案手法は3つの異なるアーキテクチャとデータセットを用いてノード分類を行う。 その結果、異なるクラスのノード間のエッジの導入は、同じクラスのノード間のエッジを削除するよりも影響が大きいことが示唆された。

Despite the success of graph neural networks (GNNs) in various domains, they exhibit susceptibility to adversarial attacks. Understanding these vulnerabilities is crucial for developing robust and secure applications. In this paper, we investigate the impact of test time adversarial attacks through edge perturbations which involve both edge insertions and deletions. A novel explainability-based method is proposed to identify important nodes in the graph and perform edge perturbation between these nodes. The proposed method is tested for node classification with three different architectures and datasets. The results suggest that introducing edges between nodes of different classes has higher impact as compared to removing edges among nodes within the same class.
翻訳日:2024-01-02 15:14:58 公開日:2023-12-28
# 潜在空間におけるドメイン不変表現学習による侵入検出の改善

Improving Intrusion Detection with Domain-Invariant Representation Learning in Latent Space ( http://arxiv.org/abs/2312.17300v1 )

ライセンス: Link先を確認
Padmaksha Roy, Tyler Cody, Himanshu Singhal, Kevin Choi, Ming Jin(参考訳) ドメインの一般化は、多くのトレーニングデータとラベルを持つ複数の関連ドメインからの知識を活用することに焦点を当て、未発見のin-distribution(in)とout-of-distribution(ood)ドメインの推論を強化する。 本研究では,マルチタスク学習を用いた二相表現学習手法を提案する。 このアプローチは、ネイティブドメインとクロスドメインの両方を含む複数のドメインにまたがる機能から潜伏空間を育み、INおよびOOD領域への一般化を促進することを目的としている。 さらに,先行空間と潜在空間の相互情報を最小化し,スプリアス特徴相関を効果的に解消することで,潜在空間の絡み合いを解消しようとする。 共同最適化により、ドメイン不変の機能学習が容易になる。 複数のサイバーセキュリティデータセットにまたがるモデルの有効性を評価するため、未確認のINおよびOODセットの標準分類基準を用いて、同時代のドメイン一般化手法を用いて結果を集計する。

Domain generalization focuses on leveraging knowledge from multiple related domains with ample training data and labels to enhance inference on unseen in-distribution (IN) and out-of-distribution (OOD) domains. In our study, we introduce a two-phase representation learning technique using multi-task learning. This approach aims to cultivate a latent space from features spanning multiple domains, encompassing both native and cross-domains, to amplify generalization to IN and OOD territories. Additionally, we attempt to disentangle the latent space by minimizing the mutual information between the prior and latent space, effectively de-correlating spurious feature correlations. Collectively, the joint optimization will facilitate domain-invariant feature learning. We assess the model's efficacy across multiple cybersecurity datasets, using standard classification metrics on both unseen IN and OOD sets, and juxtapose the results with contemporary domain generalization methods.
翻訳日:2024-01-02 15:14:48 公開日:2023-12-28
# 深層学習法による包括的電子-炭素散乱データへの経験的適合

Empirical fits to inclusive electron-carbon scattering data obtained by deep-learning methods ( http://arxiv.org/abs/2312.17298v1 )

ライセンス: Link先を確認
Beata E. Kowal, Krzysztof M. Graczyk, Artur M. Ankowski, Rwik Dharmapal Banerjee, Hemant Prasad, Jan T. Sobczyk(参考訳) ニューラルネットワークの枠組みを用いて, 準弾性ピークから共鳴励起, 深部非弾性散乱の開始まで, 広範囲のキネマティック領域における炭素の電子散乱断面積に経験的適合性を求める。 このようなモデル非依存パラメトリゼーションと対応する不確かさを得るための2つの異なる方法を考える:nnpdfアプローチ [j. high energy phys. 2002, 062] とモンテカルロドロップアウトに基づいて。 この解析において、$\chi^2$関数は、各独立な測定集合に対する系統的正規化の不確実性を考慮して、点間不確実性を含む損失関数を定義する。 我々の統計的アプローチは、それぞれ第1のアプローチと第2のアプローチに対して7\%$と12\%$のオーダーの同等の品質と同様の不確実性に適合する。 これらのモデルをテストするために、トレーニングプロセスから除外されたa~testデータセット、カバーされたキネマティック領域を超えて横たわるa〜dataset、スペクトル関数アプローチで得られた理論的予測と比較する。 両方のモデルの予測は、実験的な測定と理論的予測と一致する。 しかし、最初の統計的アプローチは、ドロップアウトアルゴリズムに基づくものよりも補間能力と外挿能力が優れていることを示している。

Employing the neural network framework, we obtain empirical fits to the electron-scattering cross section for carbon over a broad kinematic region, extending from the quasielastic peak, through resonance excitation, to the onset of deep-inelastic scattering. We consider two different methods of obtaining such model-independent parametrizations and the corresponding uncertainties: based on the NNPDF approach [J. High Energy Phys. 2002, 062], and on the Monte Carlo dropout. In our analysis, the $\chi^2$ function defines the loss function, including point-to-point uncertainties and considering the systematic normalization uncertainties for each independent set of measurements. Our statistical approaches lead to fits of comparable quality and similar uncertainties of the order of $7\%$ and $12\%$ for the first and the second approaches, respectively. To test these models, we compare their predictions to a~test dataset, excluded from the training process, a~dataset lying beyond the covered kinematic region, and theoretical predictions obtained within the spectral function approach. The predictions of both models agree with experimental measurements and the theoretical predictions. However, the first statistical approach shows better interpolation and extrapolation abilities than the one based on the dropout algorithm.
翻訳日:2024-01-02 15:14:28 公開日:2023-12-28
# LLMトレーニングにおける構造化パッケージングによる長期利用の改善

Structured Packing in LLM Training Improves Long Context Utilization ( http://arxiv.org/abs/2312.17296v1 )

ライセンス: Link先を確認
Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Henryk Michalewski, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) 長文Large Language Models(LCLM)の最近の進歩は、特に科学研究論文の問合せなどの応用において大きな関心を集めている。 しかし、その可能性はしばしば不適切な文脈利用によって制限される。 典型的なトレーニングデータに長期的セマンティック依存関係が欠如していることが主要な障害である。 これに対処するため、私たちは、関連するドキュメントをトレーニングインプットに頻繁に組み込むことの利点を考察します。 コードデータの固有ディレクトリ構造をトレーニング例のソースとして使用して,コーディングとは無関係なタスクであっても,難易度の改善を実証する。 これらの知見に基づいて,より広い焦点をあてた構造的パッキング(structured packing for long context, splice)を導入する。 SPLiCeは、最も相互に関連のあるドキュメントを単一のトレーニングコンテキストに照合する検索手法を用いて、トレーニング例を作成する革新的な方法である。 その結果、 \method{} はモデルの性能を高め、長いコンテキストをよりよく利用するために大きなモデルのトレーニングに使用できることがわかった。 我々は,大容量の3$Bモデルをトレーニングし,ダウンストリームタスクにおける難易度の改善と長文性能の向上を両立させた結果の有効性を検証した。

Recent advances in long-context Large Language Models (LCLMs) have generated significant interest, especially in applications such as querying scientific research papers. However, their potential is often limited by inadequate context utilization. We identify the absence of long-range semantic dependencies in typical training data as a primary hindrance. To address this, we delve into the benefits of frequently incorporating related documents into training inputs. Using the inherent directory structure of code data as a source of training examples, we demonstrate improvements in perplexity, even for tasks unrelated to coding. Building on these findings, but with a broader focus, we introduce Structured Packing for Long Context (SPLiCe). SPLiCe is an innovative method for creating training examples by using a retrieval method to collate the most mutually relevant documents into a single training context. Our results indicate that \method{} enhances model performance and can be used to train large models to utilize long contexts better. We validate our results by training a large $3$B model, showing both perplexity improvements and better long-context performance on downstream tasks.
翻訳日:2024-01-02 15:14:07 公開日:2023-12-28
# 大規模言語モデルのための透かし最適化

Optimizing watermarks for large language models ( http://arxiv.org/abs/2312.17295v1 )

ライセンス: Link先を確認
Bram Wouters(参考訳) 大規模言語モデル(LLMs)の台頭と潜在的な誤用に対する懸念により、生成型LLMの透かしが近年注目を集めている。 このような透かしの重要な側面は、その識別性と生成されたテキストの品質への影響の間のトレードオフである。 本稿では,多目的最適化問題の観点から,このトレードオフに対する系統的アプローチを提案する。 多くの堅牢で効率的な透かしに対して、関連するパレート最適解が同定され、現在デフォルトの透かしよりも優れていることを示す。

With the rise of large language models (LLMs) and concerns about potential misuse, watermarks for generative LLMs have recently attracted much attention. An important aspect of such watermarks is the trade-off between their identifiability and their impact on the quality of the generated text. This paper introduces a systematic approach to this trade-off in terms of a multi-objective optimization problem. For a large class of robust, efficient watermarks, the associated Pareto optimal solutions are identified and shown to outperform the currently default watermark.
翻訳日:2024-01-02 15:13:46 公開日:2023-12-28
# GitAgent: ツール拡張によるGitHubによる自律エージェントの実現

GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension ( http://arxiv.org/abs/2312.17294v1 )

ライセンス: Link先を確認
Bohan Lyu, Xin Cong, Heyang Yu, Pan Yang, Yujia Qin, Yining Ye, Yaxi Lu, Zhong Zhang, Yukun Yan, Yankai Lin, Zhiyuan Liu, Maosong Sun(参考訳) ChatGPTやGPT-4のようなLarge Language Models (LLMs) は自然言語処理に優れた能力を発揮しているが、複雑な多面的タスクに対処する上での有効性は限定的である。 研究領域の増大は、多様なタスクを実行できる外部ツールを備えたLCMベースのエージェントに焦点を当てている。 しかし、既存の LLM ベースのエージェントは、特に専門分野を含む様々なユーザクエリをカバーできない限られたツール群しかサポートしていない。 LLMベースのエージェントは、さまざまなユーザクエリに直面すると、ツールを自律的に拡張することが依然として課題である。 githubは、ツールに適したリソースと見なすことのできる多数のリポジトリをホストしているため、llmベースのエージェントは、ユーザクエリに従ってgithubのリポジトリを自律的に統合して、ツールセットを拡張することができる。 本稿では,githubから自動ツール拡張を実現するエージェントであるgitagentを紹介する。 GitAgentはリポジトリを組み込むための4段階の手順に従っており、GitHub Issues/PRを使用して、手続き中に遭遇した問題を解決することで、ヒューマンエクスペリエンスを学ぶことができる。 30のユーザクエリによる実験的評価はgitagentの有効性を示し、平均69.4%の成功率を達成した。

While Large Language Models (LLMs) like ChatGPT and GPT-4 have demonstrated exceptional proficiency in natural language processing, their efficacy in addressing complex, multifaceted tasks remains limited. A growing area of research focuses on LLM-based agents equipped with external tools capable of performing diverse tasks. However, existing LLM-based agents only support a limited set of tools which is unable to cover a diverse range of user queries, especially for those involving expertise domains. It remains a challenge for LLM-based agents to extend their tools autonomously when confronted with various user queries. As GitHub has hosted a multitude of repositories which can be seen as a good resource for tools, a promising solution is that LLM-based agents can autonomously integrate the repositories in GitHub according to the user queries to extend their tool set. In this paper, we introduce GitAgent, an agent capable of achieving the autonomous tool extension from GitHub. GitAgent follows a four-phase procedure to incorporate repositories and it can learn human experience by resorting to GitHub Issues/PRs to solve problems encountered during the procedure. Experimental evaluation involving 30 user queries demonstrates GitAgent's effectiveness, achieving a 69.4% success rate on average.
翻訳日:2024-01-02 15:13:38 公開日:2023-12-28
# $\mu$GUIDE:ディープラーニングを用いた一般化不確実性駆動推論による微細構造イメージングのためのフレームワーク

$\mu$GUIDE: a framework for microstructure imaging via generalized uncertainty-driven inference using deep learning ( http://arxiv.org/abs/2312.17293v1 )

ライセンス: Link先を確認
Ma\"eliss Jallais and Marco Palombo(参考訳) この研究は、任意の生体物理学モデルまたはmri信号表現から組織微細構造パラメータの後方分布を推定する一般的なベイズ的枠組みである\mu$guideを提案する。 シミュレーションに基づく推論と後方分布の効率的なサンプリングを組み合わせた新しいディープラーニングアーキテクチャを利用して、$\mu$guideは従来のベイジアンアプローチの計算コストと時間コストをバイパスし、モデル固有の要約統計を定義するために獲得制約に依存しない。 得られた後続分布は、モデル定義に存在する退化をハイライトし、推定されたパラメータの不確かさとあいまいさを定量化する。

This work proposes $\mu$GUIDE: a general Bayesian framework to estimate posterior distributions of tissue microstructure parameters from any given biophysical model or MRI signal representation, with exemplar demonstration in diffusion-weighted MRI. Harnessing a new deep learning architecture for automatic signal feature selection combined with simulation-based inference and efficient sampling of the posterior distributions, $\mu$GUIDE bypasses the high computational and time cost of conventional Bayesian approaches and does not rely on acquisition constraints to define model-specific summary statistics. The obtained posterior distributions allow to highlight degeneracies present in the model definition and quantify the uncertainty and ambiguity of the estimated parameters.
翻訳日:2024-01-02 15:13:16 公開日:2023-12-28
# 単語埋め込みのバイアスに及ぼす次元変化の影響

Effect of dimensionality change on the bias of word embeddings ( http://arxiv.org/abs/2312.17292v1 )

ライセンス: Link先を確認
Rohit Raj Rai, Amit Awekar(参考訳) 単語埋め込み法(WEM)はテキストデータの表現に広く用いられている。 これらの埋め込みの次元は様々なタスクや実装によって異なる。 下流タスクの精度に及ぼす次元変化の影響はよく調査された問題である。 しかし,次元変化が単語埋め込みのバイアスに与える影響について検討する必要がある。 英語のウィキペディアコーパスを用いて2つの静的(Word2VecとfastText)と2つのコンテキスト依存(ElMoとBERT)WEMでこの効果を研究する。 2つの観察があります 第一に、単語埋め込みのバイアスには、次元変化を伴う有意な変化がある。 第二に、次元変化が単語埋め込みのバイアスにどのように影響するかに一様性はない。 これらの要因は、単語埋め込みの次元性を選択しながら考慮すべきである。

Word embedding methods (WEMs) are extensively used for representing text data. The dimensionality of these embeddings varies across various tasks and implementations. The effect of dimensionality change on the accuracy of the downstream task is a well-explored question. However, how the dimensionality change affects the bias of word embeddings needs to be investigated. Using the English Wikipedia corpus, we study this effect for two static (Word2Vec and fastText) and two context-sensitive (ElMo and BERT) WEMs. We have two observations. First, there is a significant variation in the bias of word embeddings with the dimensionality change. Second, there is no uniformity in how the dimensionality change affects the bias of word embeddings. These factors should be considered while selecting the dimensionality of word embeddings.
翻訳日:2024-01-02 15:13:01 公開日:2023-12-28
# 畳み込みニューラルネットワークと長時間記憶層を組み合わせることでパーキンソン病の進行を予測する

Combining Convolution Neural Networks with Long-Short Time Memory Layers to Predict Parkinson's Disease Progression ( http://arxiv.org/abs/2312.17290v1 )

ライセンス: Link先を確認
Maria Frasca, Davide La Torre, Ilaria Cutica(参考訳) パーキンソン病(perkinson's disease)は、世界の人口の1%近くで起こる神経疾患である。 この疾患は、ドパミン産生の低下によって現れ、症状は認知的および行動的であり、疾患が進行するにつれて起こりうる幅広い性格変化、抑うつ性障害、記憶障害、感情的不規則を含む。 この疾患の早期診断と正確なステージングは、認知と運動の低下を遅くする適切な治療法を適用するために不可欠である。 現在、パーキンソン病の診断に利用可能な血液検査やバイオマーカーは1つもない。 磁気共鳴イメージングは過去30年間、pdと他の神経疾患の診断と鑑別に用いられてきた。 しかし、近年、いくつかのAIアルゴリズムが開発され、早期にPDの鑑別診断の精度と精度が向上している。 我々の知る限りでは、進歩の段階を特定するためのAIツールは作られていない。 本稿ではこのギャップを埋めることを目的とする。 parkinson's progression markers initiative(パーキンソンの進歩マーカーイニシアチブ)データセットを用いて、患者のmriと疾患ステージの兆候を報告し、進行レベルを特定するモデルを開発した。 画像と関連するスコアは、異なるディープラーニングモデルのトレーニングと評価に使用された。 標準尺度 (hoehn, yah scale) に基づき, 4つの異なる疾患進展レベルを識別した。 最終アーキテクチャは、3DCNNネットワークのカスケードで構成され、連続するLSTM層の効率的なトレーニングのためにRMIの空間特性を低減・抽出するために採用され、データ間の時間的依存関係をモデル化することを目的としている。 提案する3dcnn + lstmモデルは, 91.90\%の要素をマクロ平均ovr aucとして4つのクラスで分類することにより, 最先端の結果が得られることを示す。

Parkinson's disease is a neurological condition that occurs in nearly 1% of the world's population. The disease is manifested by a drop in dopamine production, symptoms are cognitive and behavioural and include a wide range of personality changes, depressive disorders, memory problems, and emotional dysregulation, which can occur as the disease progresses. Early diagnosis and accurate staging of the disease are essential to apply the appropriate therapeutic approaches to slow cognitive and motor decline. Currently, there is not a single blood test or biomarker available to diagnose Parkinson's disease. Magnetic resonance imaging has been used for the past three decades to diagnose and distinguish between PD and other neurological conditions. However, in recent years new possibilities have arisen: several AI algorithms have been developed to increase the precision and accuracy of differential diagnosis of PD at an early stage. To our knowledge, no AI tools have been designed to identify the stage of progression. This paper aims to fill this gap. Using the "Parkinson's Progression Markers Initiative" dataset, which reports the patient's MRI and an indication of the disease stage, we developed a model to identify the level of progression. The images and the associated scores were used for training and assessing different deep-learning models. Our analysis distinguished four distinct disease progression levels based on a standard scale (Hoehn and Yah scale). The final architecture consists of the cascading of a 3DCNN network, adopted to reduce and extract the spatial characteristics of the RMI for efficient training of the successive LSTM layers, aiming at modelling the temporal dependencies among the data. Our results show that the proposed 3DCNN + LSTM model achieves state-of-the-art results by classifying the elements with 91.90\% as macro averaged OVR AUC on four classes
翻訳日:2024-01-02 15:12:49 公開日:2023-12-28
# 変圧器を用いた大規模言語モデルのためのAIコンテンツ自己検出

AI Content Self-Detection for Transformer-based Large Language Models ( http://arxiv.org/abs/2312.17289v1 )

ライセンス: Link先を確認
Ant\^onio Junior Alves Caiado and Michael Hahsler(参考訳) テキスト生成にChatGPT、Bard、Claudeなど、大規模な言語モデルに基づく生成人工知能(AI)ツールを使用することは、驚くべき生産性向上の可能性に多くのエキサイティングな応用をもたらしている。 問題のひとつは、AIツールを使用する際のオーサシップ属性だ。 これは、生成aiツールの不適切な使用が、大量の自動生成デリバティブワークを作成することによって学生の学習や研究を阻害する可能性がある学術的な環境で特に重要である。 既存の盗作検出システムは、提出されたテキストのソースを追跡できるが、AI生成したテキストを正確に検出する手段がまだ備わっていない。 本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。 現状のトランスフォーマーモデルでは, 自作のテキストを自己検出し, ゼロショット学習を用いて小さな実験的な研究を行なえるのかを論じる。 結果は、生成されたテキストを識別するAIシステムのさまざまな機能を明らかにする。 GoogleのBardモデルは、94\%の精度で最大の自己検出能力を示し、続いてOpenAIのChatGPTが83\%である。 一方、アントロピックのクロードモデルでは自己検出ができないようである。

$ $The usage of generative artificial intelligence (AI) tools based on large language models, including ChatGPT, Bard, and Claude, for text generation has many exciting applications with the potential for phenomenal productivity gains. One issue is authorship attribution when using AI tools. This is especially important in an academic setting where the inappropriate use of generative AI tools may hinder student learning or stifle research by creating a large amount of automatically generated derivative work. Existing plagiarism detection systems can trace the source of submitted text but are not yet equipped with methods to accurately detect AI-generated text. This paper introduces the idea of direct origin detection and evaluates whether generative AI systems can recognize their output and distinguish it from human-written texts. We argue why current transformer-based models may be able to self-detect their own generated text and perform a small empirical study using zero-shot learning to investigate if that is the case. Results reveal varying capabilities of AI systems to identify their generated text. Google's Bard model exhibits the largest capability of self-detection with an accuracy of 94\%, followed by OpenAI's ChatGPT with 83\%. On the other hand, Anthropic's Claude model seems to be not able to self-detect.
翻訳日:2024-01-02 15:12:18 公開日:2023-12-28
# 接続医療機器からの多変量時系列クラスタリングモデルの比較研究

Comparative study of clustering models for multivariate time series from connected medical devices ( http://arxiv.org/abs/2312.17286v1 )

ライセンス: Link先を確認
Violaine Courrier (MODAL), Christophe Biernacki (MODAL), Cristian Preda (MODAL), Benjamin Vittrant(参考訳) 医療分野では、患者データは多変量時系列として収集され、患者の健康状態の全体像を提供する。 このデータはばらばらだが、コネクテッドデバイスはその頻度を高める可能性がある。 目標は、これらの時系列から患者プロファイルを作成することです。 ラベルがない場合、予測モデルを使用して、予測性能に基づいて評価された潜在クラスタ空間を形成しながら将来の値を予測することができる。 我々は、Withingのデータセット上の2つのモデル、全時系列をクラスタリングするMAGMAC LUSTと、個人のグループアフィリエイトが時間とともに変化する(動的クラスタリング)DGM${}^2$を比較した。

In healthcare, patient data is often collected as multivariate time series, providing a comprehensive view of a patient's health status over time. While this data can be sparse, connected devices may enhance its frequency. The goal is to create patient profiles from these time series. In the absence of labels, a predictive model can be used to predict future values while forming a latent cluster space, evaluated based on predictive performance. We compare two models on Withing's datasets, M AGMAC LUST which clusters entire time series and DGM${}^2$ which allows the group affiliation of an individual to change over time (dynamic clustering).
翻訳日:2024-01-02 15:11:56 公開日:2023-12-28
# スーパービジョンのないディープニューラルネットワークにおける概念の分散表現の理解

Understanding Distributed Representations of Concepts in Deep Neural Networks without Supervision ( http://arxiv.org/abs/2312.17285v1 )

ライセンス: Link先を確認
Wonjoon Chang, Dahee Kwon, Jaesik Choi(参考訳) ディープラーニング分類器によって学習される概念の中間表現を理解することは、一般的なモデル行動の解釈に不可欠である。 学習された概念を明らかにする既存のアプローチは、事前定義された概念セットやセグメンテーションプロセスのような人間の監督に依存することが多い。 本稿では,ニューロンの主部分集合を選択することで,概念の分散表現を発見できる新しい教師なし手法を提案する。 我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。 提案手法は, 解釈可能な領域を構成する主ニューロン, すなわちRelaxed Decision Region (RDR) を選択し, 特徴空間におけるコヒーレントな概念を包含する。 データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために使用できる。 さらに,各層にまたがる手法の適用性は,各層にまたがる異なる分散表現を明らかにし,深層学習モデルの内部メカニズムに関する深い洞察を提供する。

Understanding intermediate representations of the concepts learned by deep learning classifiers is indispensable for interpreting general model behaviors. Existing approaches to reveal learned concepts often rely on human supervision, such as pre-defined concept sets or segmentation processes. In this paper, we propose a novel unsupervised method for discovering distributed representations of concepts by selecting a principal subset of neurons. Our empirical findings demonstrate that instances with similar neuron activation states tend to share coherent concepts. Based on the observations, the proposed method selects principal neurons that construct an interpretable region, namely a Relaxed Decision Region (RDR), encompassing instances with coherent concepts in the feature space. It can be utilized to identify unlabeled subclasses within data and to detect the causes of misclassifications. Furthermore, the applicability of our method across various layers discloses distinct distributed representations over the layers, which provides deeper insights into the internal mechanisms of the deep learning model.
翻訳日:2024-01-02 15:11:44 公開日:2023-12-28
# アノテーションとしての言語モデル:教師なし文脈認識品質フレーズ生成

Language Model as an Annotator: Unsupervised Context-aware Quality Phrase Generation ( http://arxiv.org/abs/2312.17349v1 )

ライセンス: Link先を確認
Zhihao Zhang, Yuan Zuo, Chenghua Lin, Junjie Wu(参考訳) フレーズマイニングは、文脈から高品質なフレーズを識別することを目的とした基本的なテキストマイニングタスクである。 しかし、専門家からかなりの注釈を求める大規模なゴールドラベルデータセットの不足は、この課題を極めて困難にしている。 さらに、品質フレーズの新興、低頻度、ドメイン固有の性質は、このタスクを扱う上でさらに課題となる。 本稿では,大規模事前学習型言語モデル(lms)を基盤とした,教師なし文脈認識型品質フレーズマイニングフレームワークであるlmphraseを提案する。 具体的には,事前学習した言語モデルBERT(Annotator)上で,パラメータフリーな探索手法であるPerturbed Maskingを用いて,まず品質語句を銀ラベルとして抽出する。 典型的な統計ベースや遠方教師ありの手法とは対照的に、大きな事前学習された言語モデルから派生した銀のラベルは、lmsに含まれる豊富な文脈情報を考慮している。 結果として、高品質なフレーズの情報性、一致性、完全性を維持する上で、明確な利点をもたらす。 第二に、識別的スパン予測モデルのトレーニングは、大量の注釈付きデータに大きく依存しており、銀のラベルが過剰に適合するリスクに直面する可能性がある。 あるいは、シークエンス・ツー・シークエンス事前訓練言語モデルBARTを銀ラベル(ジェネレータ)で直接微調整することで、フレーズタグ付けタスクをシーケンス生成問題として定式化する。 最後に,アノテータとジェネレータの両方の品質フレーズを最終予測として統合し,それらの相補的性質と特徴を考察する。 我々のLMPhraseは、2つの異なるドメインデータセットで各タスクがテストされる2つの異なる粒度のフレーズマイニングタスクにおいて、既存の競合他社を一貫して上回ります。

Phrase mining is a fundamental text mining task that aims to identify quality phrases from context. Nevertheless, the scarcity of extensive gold labels datasets, demanding substantial annotation efforts from experts, renders this task exceptionally challenging. Furthermore, the emerging, infrequent, and domain-specific nature of quality phrases presents further challenges in dealing with this task. In this paper, we propose LMPhrase, a novel unsupervised context-aware quality phrase mining framework built upon large pre-trained language models (LMs). Specifically, we first mine quality phrases as silver labels by employing a parameter-free probing technique called Perturbed Masking on the pre-trained language model BERT (coined as Annotator). In contrast to typical statistic-based or distantly-supervised methods, our silver labels, derived from large pre-trained language models, take into account rich contextual information contained in the LMs. As a result, they bring distinct advantages in preserving informativeness, concordance, and completeness of quality phrases. Secondly, training a discriminative span prediction model heavily relies on massive annotated data and is likely to face the risk of overfitting silver labels. Alternatively, we formalize phrase tagging task as the sequence generation problem by directly fine-tuning on the Sequence-to-Sequence pre-trained language model BART with silver labels (coined as Generator). Finally, we merge the quality phrases from both the Annotator and Generator as the final predictions, considering their complementary nature and distinct characteristics. Extensive experiments show that our LMPhrase consistently outperforms all the existing competitors across two different granularity phrase mining tasks, where each task is tested on two different domain datasets.
翻訳日:2024-01-02 14:52:50 公開日:2023-12-28
# 減少ランク演算子回帰問題に対するランダム化アルゴリズム

A randomized algorithm to solve reduced rank operator regression ( http://arxiv.org/abs/2312.17348v1 )

ライセンス: Link先を確認
Giacomo Turri, Vladimir Kostic, Pietro Novelli, Massimiliano Pontil(参考訳) 本稿では,無限次元入力空間と出力空間を含むベクトル値回帰問題に対処するアルゴリズムを提案し,解析する。 このアルゴリズムは、低ランクのベクトル値関数(例えば演算子)を、ランク制約付き正規化された経験的リスク最小化によって、サンプリングデータ間で最適に学習する手法である。 本稿では,R4(Randomized Reduced Rank Regression)推定器(R4)を効率よく,かつ高精度に生成するガウス的スケッチ手法を提案する。 R4アルゴリズムのそれぞれに対して、結果として生じる正規化された経験的リスクは、スケッチのランダム性に期待して、ハイパーパラメータが適切に調整されたとき、任意に最適な値に近づくことを証明する。 数値的な解釈は、境界の厳密さを示し、2つの異なるシナリオで利点を示す。 一 合成・大規模神経科学データセットを用いたベクトル値回帰問題の解法 (ii)非線形確率力学系のクープマン作用素を回帰する。

We present and analyze an algorithm designed for addressing vector-valued regression problems involving possibly infinite-dimensional input and output spaces. The algorithm is a randomized adaptation of reduced rank regression, a technique to optimally learn a low-rank vector-valued function (i.e. an operator) between sampled data via regularized empirical risk minimization with rank constraints. We propose Gaussian sketching techniques both for the primal and dual optimization objectives, yielding Randomized Reduced Rank Regression (R4) estimators that are efficient and accurate. For each of our R4 algorithms we prove that the resulting regularized empirical risk is, in expectation w.r.t. randomness of a sketch, arbitrarily close to the optimal value when hyper-parameteres are properly tuned. Numerical expreriments illustrate the tightness of our bounds and show advantages in two distinct scenarios: (i) solving a vector-valued regression problem using synthetic and large-scale neuroscience datasets, and (ii) regressing the Koopman operator of a nonlinear stochastic dynamical system.
翻訳日:2024-01-02 14:52:22 公開日:2023-12-28
# STanHop: メモリ拡張時系列予測のためのスパースタンデムホップフィールドモデル

STanHop: Sparse Tandem Hopfield Model for Memory-Enhanced Time Series Prediction ( http://arxiv.org/abs/2312.17346v1 )

ライセンス: Link先を確認
Dennis Wu, Jerry Yao-Chieh Hu, Weijian Li, Bo-Yu Chen, Han Liu(参考訳) メモリ強化機能付き多変量時系列予測のためのSTanHop-Net(Sparse Tandem Hopfield Network)を提案する。 私たちのアプローチの中心にあるのは、新しいホップフィールドベースのニューラルネットワークブロックであるstanhopです。 本質的に、スタンホップは2つのタンデムスパースホップフィールド層を用いて時間表現と直列表現を逐次学習する。 さらに、StanHopは2つの外部メモリモジュール、Plug-and-PlayモジュールとTune-and-Playモジュールをそれぞれ組み込んでいる。 これにより、StanHop-Netは突然の出来事に素早く対応できる。 提案手法では,StanHop-Netを階層的に積み重ねて構築し,高分解能な特徴抽出を実現する。 理論的には、現代のホップフィールドモデル(一般化スパース近代ホップフィールドモデル)のスパース拡張を導入し、メモリ容量を犠牲にすることなく高密度のホップフィールドモデルと比較して、より厳密なメモリ検索誤差を生じることを示す。 実環境と実環境の両方でフレームワークの有効性を実証的に検証した。

We present STanHop-Net (Sparse Tandem Hopfield Network) for multivariate time series prediction with memory-enhanced capabilities. At the heart of our approach is STanHop, a novel Hopfield-based neural network block, which sparsely learns and stores both temporal and cross-series representations in a data-dependent fashion. In essence, STanHop sequentially learn temporal representation and cross-series representation using two tandem sparse Hopfield layers. In addition, StanHop incorporates two additional external memory modules: a Plug-and-Play module and a Tune-and-Play module for train-less and task-aware memory-enhancements, respectively. They allow StanHop-Net to swiftly respond to certain sudden events. Methodologically, we construct the StanHop-Net by stacking STanHop blocks in a hierarchical fashion, enabling multi-resolution feature extraction with resolution-specific sparsity. Theoretically, we introduce a sparse extension of the modern Hopfield model (Generalized Sparse Modern Hopfield Model) and show that it endows a tighter memory retrieval error compared to the dense counterpart without sacrificing memory capacity. Empirically, we validate the efficacy of our framework on both synthetic and real-world settings.
翻訳日:2024-01-02 14:52:08 公開日:2023-12-28
# 3VL:木を使って視覚と言語モデルの構成概念を教える

3VL: using Trees to teach Vision & Language models compositional concepts ( http://arxiv.org/abs/2312.17345v1 )

ライセンス: Link先を確認
Nir Yellinek, Leonid Karlinsky and Raja Giryes(参考訳) 視覚言語モデル(vlms)は、画像とテキストの表現の調整に有効であり、多くの下流タスクに転送した場合に優れたゼロショット結果を生成する。 しかしながら、これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)の理解においていくつかの重要な欠点を負う。 さらに、VLMは一般的に解釈性に乏しいため、構成ミスのデバッグや軽減が難しい。 本稿では,木に表現された視覚言語(3vl)モデルアーキテクチャと学習手法を紹介し,提案するアンカー推論法とディファレンシャル・アソシエーション(dire)解釈ツールについて述べる。 任意の画像テキストペアのテキストを言語解析ツールを用いて階層木構造に拡張することにより、3VLは、モデルによって学習された視覚表現にこの構造を誘導し、解釈可能性と構成的推論を向上させる。 さらに,テキスト統一のための単純な手法であるAnchorを用いて,基本的なVL-Checklistベンチマークにおいて,CLC理解性能を高めながらニュアンス要素をフィルタする方法を示す。 また、VLM関連性マップの差分比較を行うDiReによって、モデルの成功や失敗の理由に関する説得力のある視覚化を生成できることを示す。

Vision-Language models (VLMs) have proved effective at aligning image and text representations, producing superior zero-shot results when transferred to many downstream tasks. However, these representations suffer some key shortcomings in Compositional Language Concepts (CLC) understanding such as recognizing objects' attributes, states, and relations between different objects. Moreover, VLMs typically have poor interpretability, making it challenging to debug and mitigate compositional-understanding failures. In this work, we introduce the Tree-augmented Vision-Language (3VL) model architecture and training technique accompanied by our proposed Anchor inference method and Differential Relevance (DiRe) interpretability tool. By expanding the text of an arbitrary image-text pair into a hierarchical tree structure using language analysis tools, 3VL allows inducing this structure into the visual representation learned by the model, enhancing its interpretability and compositional reasoning. Additionally, we show how Anchor, a simple technique for text unification, can be employed to filter nuisance factors while increasing CLC understanding performance, e.g., on the fundamental VL-Checklist benchmark. We also exhibit how DiRe, which performs a differential comparison between VLM relevancy maps, enables us to generate compelling visualizations of the reasons for a model's success or failure.
翻訳日:2024-01-02 14:51:44 公開日:2023-12-28
# AQUALLM:大規模言語モデルを用いた音声質問応答データ生成

AQUALLM: Audio Question Answering Data Generation Using Large Language Models ( http://arxiv.org/abs/2312.17343v1 )

ライセンス: Link先を確認
Swarup Ranjan Behera, Krishna Mohan Injeti, Jaya Sai Kiran Patibandla, Praveen Kumar Pokala, and Balakrishna Reddy Pailla(参考訳) 音声質問応答(aqa)は、機械が音声信号と自然言語質問の両方を分析し、正確な自然言語応答を生成する重要なタスクである。 高品質で多様で広範なAQAデータセットを持つことの重要性は、AQAシステムの精度を目指しても過大評価できない。 正確で効率的なAQAモデルの開発に注目が集まっているが、特定のタスクのための高品質で多様で広範なデータセットの作成は、大きな注目を集めていない。 この課題に対処するため、この研究にはいくつかの貢献がある。 本稿では,大規模言語モデル(LLM)に依存するAQUALLMフレームワークとして,スケーラブルなAQAデータ生成パイプラインを提案する。 このフレームワークは既存のオーディオキャプチャアノテーションを利用し、最先端のLCMを組み込んで、拡張可能な高品質のAQAデータセットを生成する。 さらに、AQA研究の進展に大きく貢献する、AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。 提案したデータセットに基づいてトレーニングされたAQAモデルは、既存の最先端モデルと比較して優れたベンチマークを設定した。 さらに、データセットでトレーニングされたモデルでは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、一般化性が向上した。 コードとデータセットはgithub~\footnote{\url{https://github.com/swarupbehera/aquallm}}でアクセスできる。

Audio Question Answering (AQA) constitutes a pivotal task in which machines analyze both audio signals and natural language questions to produce precise natural language answers. The significance of possessing high-quality, diverse, and extensive AQA datasets cannot be overstated when aiming for the precision of an AQA system. While there has been notable focus on developing accurate and efficient AQA models, the creation of high-quality, diverse, and extensive datasets for the specific task at hand has not garnered considerable attention. To address this challenge, this work makes several contributions. We introduce a scalable AQA data generation pipeline, denoted as the AQUALLM framework, which relies on Large Language Models (LLMs). This framework utilizes existing audio-caption annotations and incorporates state-of-the-art LLMs to generate expansive, high-quality AQA datasets. Additionally, we present three extensive and high-quality benchmark datasets for AQA, contributing significantly to the progression of AQA research. AQA models trained on the proposed datasets set superior benchmarks compared to the existing state-of-the-art. Moreover, models trained on our datasets demonstrate enhanced generalizability when compared to models trained using human-annotated AQA data. Code and datasets will be accessible on GitHub~\footnote{\url{https://github.com/swarupbehera/AQUALLM}}.
翻訳日:2024-01-02 14:51:20 公開日:2023-12-28
# SentinelLMs: プライベートおよびセキュア推論のための暗号化入力適応と言語モデルの微調整

SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language Models for Private and Secure Inference ( http://arxiv.org/abs/2312.17342v1 )

ライセンス: Link先を確認
Abhijit Mishra, Mingda Li, Soham Deo(参考訳) 本稿では、AIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能するディープニューラルネットワークモデルに関連する、プライバシとセキュリティの問題に対処する。 これらのモデルは、事前にトレーニングされ、特定のタスクのために微調整された後にしばしば使用される。 しかし、これは2つの基本的なリスクをもたらす。 (a)ネットワーク経由のサーバへのユーザ入力の送信は、インターセプションの脆弱性を生じさせ、 b) このようなモデルをデプロイする組織は、制限されたコンテキストでユーザーデータを格納する。 そこで本研究では,パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する手法を提案する。 元々の事前学習された言語モデルは、トークン化子とトークン埋め込みに適用される一連の不可逆変換を伴う素早い適応(さらなる事前学習なし)を行う。 これにより、モデルパラメータと中間出力からのテキストのリバースエンジニアリングを防止しつつ、暗号化された入力に対して推論を行うことができる。 適応後、モデルは既存のトレーニングデータセットの暗号化バージョンで微調整される。 有名なモデル(例えばBERT、RoBERTa)の適応版を使用した実験的な評価は、テキスト分類とシーケンスラベリングのために確立された英語と多言語データセット間で、暗号化されたモデルが元のモデルと同等のパフォーマンスを達成することを示している。 これはパフォーマンス、プライバシ、セキュリティの保護に役立ちます。

This paper addresses the privacy and security concerns associated with deep neural language models, which serve as crucial components in various modern AI-based applications. These models are often used after being pre-trained and fine-tuned for specific tasks, with deployment on servers accessed through the internet. However, this introduces two fundamental risks: (a) the transmission of user inputs to the server via the network gives rise to interception vulnerabilities, and (b) privacy concerns emerge as organizations that deploy such models store user data with restricted context. To address this, we propose a novel method to adapt and fine-tune transformer-based language models on passkey-encrypted user-specific text. The original pre-trained language model first undergoes a quick adaptation (without any further pre-training) with a series of irreversible transformations applied to the tokenizer and token embeddings. This enables the model to perform inference on encrypted inputs while preventing reverse engineering of text from model parameters and intermediate outputs. After adaptation, models are fine-tuned on encrypted versions of existing training datasets. Experimental evaluation employing adapted versions of renowned models (e.g., BERT, RoBERTa) across established benchmark English and multilingual datasets for text classification and sequence labeling shows that encrypted models achieve performance parity with their original counterparts. This serves to safeguard performance, privacy, and security cohesively.
翻訳日:2024-01-02 14:50:58 公開日:2023-12-28
# 自然を探索する:自然関連開示の分析のためのデータセットとモデル

Exploring Nature: Datasets and Models for Analyzing Nature-Related Disclosures ( http://arxiv.org/abs/2312.17337v1 )

ライセンス: Link先を確認
Tobias Schimanski, Chiara Colesanti Senni, Glen Gostlow, Jingwei Ni, Tingyu Yu, Markus Leippold(参考訳) 自然はアモルファスな概念である。 しかし、経済と経済の相互作用を理解することは、この惑星の幸福に欠かせない。 企業による自然情報開示の需要の増加に対応するため,企業による自然コミュニケーションを検出するためのデータセットと分類器を提供する。 我々は,自然関連財務開示タスクフォース(TNFD)のガイドラインにアプローチを定めている。 特に、水、森林、生物多様性の特定の次元に焦点を当てます。 各次元について、2200のテキストサンプルとトレーニング分類器モデルを備えたエキスパートアノテーション付きデータセットを作成します。 さらに, ホットスポット地域では自然コミュニケーションが普及しており, 農業や公益事業などの産業に直接影響を与えることを示した。 当社のアプローチは,企業自然コミュニケーションを大規模に評価するためのコールに対応する最初の方法です。

Nature is an amorphous concept. Yet, it is essential for the planet's well-being to understand how the economy interacts with it. To address the growing demand for information on corporate nature disclosure, we provide datasets and classifiers to detect nature communication by companies. We ground our approach in the guidelines of the Taskforce on Nature-related Financial Disclosures (TNFD). Particularly, we focus on the specific dimensions of water, forest, and biodiversity. For each dimension, we create an expert-annotated dataset with 2,200 text samples and train classifier models. Furthermore, we show that nature communication is more prevalent in hotspot areas and directly effected industries like agriculture and utilities. Our approach is the first to respond to calls to assess corporate nature communication on a large scale.
翻訳日:2024-01-02 14:50:34 公開日:2023-12-28
# パラメータ推定のためのliイオン電池モデルのピンサロゲート 第2部:擬似2Dモデルの正規化と応用

PINN surrogate of Li-ion battery models for parameter inference. Part II: Regularization and application of the pseudo-2D model ( http://arxiv.org/abs/2312.17336v1 )

ライセンス: Link先を確認
Malik Hassanaly, Peter J. Weddle, Ryan N. King, Subhayan De, Alireza Doostan, Corey R. Randall, Eric J. Dufek, Andrew M. Colclasure, Kandler Smith(参考訳) ベイズパラメータ推論はLiイオン電池の診断を改善するのに有用であり、電池老化モデルを定式化するのに役立つ。 しかし、計算集約性は高く、複数のサイクル、複数の動作条件、あるいは複数の複製細胞では簡単に繰り返されない。 ベイズキャリブレーションの計算コストを削減するため、物理学に基づくモデルの数値解法を高速なサロゲートに置き換えることができる。 擬似2D(P2D)バッテリモデルのキャリブレーションのサロゲートとして物理インフォームドニューラルネットワーク(PINN)を開発した。 P2Dサロゲートでは, PINN単粒子モデル (SPM) と比較して, パラメータ推定のためにPINN SPMとP2Dサロゲートモデルの両方を訓練し, 支配方程式の直接数値解から得られたデータと比較した。 パラメータ推論研究では、これらのPINNを使用してカソードLi拡散と陽極交換電流密度のスケーリングパラメータを校正する能力を強調している。 P2Dモデルの計算速度を標準積分法と比較して2250倍にすることで、PINNサロゲートは迅速な健康診断を可能にする。 低データの可用性シナリオでは、テスト誤差はSPMサロゲートで2mV、P2Dサロゲートで10mVと推定された。

Bayesian parameter inference is useful to improve Li-ion battery diagnostics and can help formulate battery aging models. However, it is computationally intensive and cannot be easily repeated for multiple cycles, multiple operating conditions, or multiple replicate cells. To reduce the computational cost of Bayesian calibration, numerical solvers for physics-based models can be replaced with faster surrogates. A physics-informed neural network (PINN) is developed as a surrogate for the pseudo-2D (P2D) battery model calibration. For the P2D surrogate, additional training regularization was needed as compared to the PINN single-particle model (SPM) developed in Part I. Both the PINN SPM and P2D surrogate models are exercised for parameter inference and compared to data obtained from a direct numerical solution of the governing equations. A parameter inference study highlights the ability to use these PINNs to calibrate scaling parameters for the cathode Li diffusion and the anode exchange current density. By realizing computational speed-ups of 2250x for the P2D model, as compared to using standard integrating methods, the PINN surrogates enable rapid state-of-health diagnostics. In the low-data availability scenario, the testing error was estimated to 2mV for the SPM surrogate and 10mV for the P2D surrogate which could be mitigated with additional data.
翻訳日:2024-01-02 14:50:21 公開日:2023-12-28
# テキスト表現の劣化除去による画像復元の改善

Improving Image Restoration through Removing Degradations in Textual Representations ( http://arxiv.org/abs/2312.17334v1 )

ライセンス: Link先を確認
Jingbo Lin, Zhilu Zhang, Yuxiang Wei, Dongwei Ren, Dongsheng Jiang, Wangmeng Zuo(参考訳) 本稿では,与えられた劣化画像のテクスト表現の劣化を除去し,画像復元を改善する新たな視点を提案する。 直感的には、復元は画像よりもテキストのモダリティがはるかに容易である。 例えば、内容認識語を維持しながら、劣化関連語を取り除き、容易に行うことができる。 したがって、画像の詳細な記述と劣化除去におけるテキストの利点を組み合わせて復元を行う。 クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングして劣化を除去し,復元したテキスト表現をガイダンス画像に変換し,画像復元を支援する。 特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んでガイダンスを生成する。 そこで本研究では,画像復元ネットワークへの誘導から動的にマルチスケール情報を注入する手法を提案する。 脱臭,脱臭,脱臭,脱鼻,オールインワン画像修復など,様々な画像修復作業について広範囲にわたる実験を行った。 その結果,本手法はすべてのタスクにおいて最先端の手法よりも優れていることがわかった。 コードとモデルは \url{https://github.com/mrluin/textualdegremoval} で利用可能である。

In this paper, we introduce a new perspective for improving image restoration by removing degradation in the textual representations of a given degraded image. Intuitively, restoration is much easier on text modality than image one. For example, it can be easily conducted by removing degradation-related words while keeping the content-aware words. Hence, we combine the advantages of images in detail description and ones of text in degradation removal to perform restoration. To address the cross-modal assistance, we propose to map the degraded images into textual representations for removing the degradations, and then convert the restored textual representations into a guidance image for assisting image restoration. In particular, We ingeniously embed an image-to-text mapper and text restoration module into CLIP-equipped text-to-image models to generate the guidance. Then, we adopt a simple coarse-to-fine approach to dynamically inject multi-scale information from guidance to image restoration networks. Extensive experiments are conducted on various image restoration tasks, including deblurring, dehazing, deraining, and denoising, and all-in-one image restoration. The results showcase that our method outperforms state-of-the-art ones across all these tasks. The codes and models are available at \url{https://github.com/mrluin/TextualDegRemoval}.
翻訳日:2024-01-02 14:49:56 公開日:2023-12-28
# 望みを数える: 野生における人間の行動の例示的識別と少数ショットカウント

Count What You Want: Exemplar Identification and Few-shot Counting of Human Actions in the Wild ( http://arxiv.org/abs/2312.17330v1 )

ライセンス: Link先を確認
Yifeng Huang, Duc Duy Nguyen, Lam Nguyen, Cuong Pham, Minh Hoai(参考訳) 本稿では,ウェアラブルデバイスからのセンサデータを用いて人的行動の計測を行う。 本稿では,既定の音「1」,「2」,「3」を発声することで,ユーザが目指す行動の模範を提示することのできる,新しい模範的枠組みを提案する。 本手法はまず,これらの発話の時間的位置を音声シーケンスから推定する。 これらのポジションは、関心の行動クラスを表す模範を識別する基盤となる。 そして、類似度マップを前駆者とセンサデータシーケンス全体の間で計算し、さらに密度推定モジュールに入力して推定密度値列を生成する。 これらの密度値の合計は最後のカウントを与える。 提案手法を開発,評価するために,センサデータと音声データの両方を含む37の被験者と50のアクションカテゴリからなる実世界のデータからなる多種多様な現実的データセットを導入した。 本データセットを用いた実験は,学習データに含まれない新しいクラスや被験者からのアクションの事例を数える上で,提案手法の有効性を示すものである。 平均して、予測カウントと基底真理値の差は7.47であり、周波数ベースおよび変圧器ベースの手法の誤差よりも著しく低い。 私たちのプロジェクト、コード、データセットはhttps://github.com/cvlab-stonybrook/ExRAC.comで確認できます。

This paper addresses the task of counting human actions of interest using sensor data from wearable devices. We propose a novel exemplar-based framework, allowing users to provide exemplars of the actions they want to count by vocalizing predefined sounds ''one'', ''two'', and ''three''. Our method first localizes temporal positions of these utterances from the audio sequence. These positions serve as the basis for identifying exemplars representing the action class of interest. A similarity map is then computed between the exemplars and the entire sensor data sequence, which is further fed into a density estimation module to generate a sequence of estimated density values. Summing these density values provides the final count. To develop and evaluate our approach, we introduce a diverse and realistic dataset consisting of real-world data from 37 subjects and 50 action categories, encompassing both sensor and audio data. The experiments on this dataset demonstrate the viability of the proposed method in counting instances of actions from new classes and subjects that were not part of the training data. On average, the discrepancy between the predicted count and the ground truth value is 7.47, significantly lower than the errors of the frequency-based and transformer-based methods. Our project, code and dataset can be found at https://github.com/cvlab-stonybrook/ExRAC.
翻訳日:2024-01-02 14:49:36 公開日:2023-12-28
# パラメータ推定のためのliイオン電池モデルのピンサロゲート 第一部:単一粒子モデルの実装と多要素階層

PINN surrogate of Li-ion battery models for parameter inference. Part I: Implementation and multi-fidelity hierarchies for the single-particle model ( http://arxiv.org/abs/2312.17329v1 )

ライセンス: Link先を確認
Malik Hassanaly, Peter J. Weddle, Ryan N. King, Subhayan De, Alireza Doostan, Corey R. Randall, Eric J. Dufek, Andrew M. Colclasure, Kandler Smith(参考訳) リチウムイオン電池の経年変化を考慮したエネルギー貯蔵要求を計画・最適化するには, 電池内部状態を正確にかつ迅速に診断する技術を開発する必要がある。 本研究では、単一粒子モデル(SPM)や擬似2Dモデル(P2D)といった物理ベースのLiイオン電池モデルを、物理インフォームドニューラルネットワーク(PINN)サロゲートに置き換えることで、電池の内部状態を決定するために必要な計算資源を削減することを目的とする。 サーロゲートモデルは、ベイズ校正などの高スループット技術を用いて、電圧応答からバッテリ内部パラメータを決定することができる。 この原稿は、パラメータ推論のためのLiイオン電池モデルのPINNサロゲートを導入した2部シリーズの最初のものである。 この第1部では、SPMのPINNサロゲートを構築するための方法が提示される。 複数のニューラルネットを複数の物理損失フィデリティでトレーニングする多要素階層的トレーニングは、支配方程式残差のトレーニングのみにおいて、サロゲート精度を著しく向上させることを示す。 実装はコンパニオンリポジトリ(https://github.com/NREL/pinnstripes)で利用可能である。 SPMのPINNサロゲートの開発に使用される技術は、P2DバッテリモデルのためのPINNサロゲートのパートIIで拡張され、両方のサロゲートのベイズ校正能力を探索する。

To plan and optimize energy storage demands that account for Li-ion battery aging dynamics, techniques need to be developed to diagnose battery internal states accurately and rapidly. This study seeks to reduce the computational resources needed to determine a battery's internal states by replacing physics-based Li-ion battery models -- such as the single-particle model (SPM) and the pseudo-2D (P2D) model -- with a physics-informed neural network (PINN) surrogate. The surrogate model makes high-throughput techniques, such as Bayesian calibration, tractable to determine battery internal parameters from voltage responses. This manuscript is the first of a two-part series that introduces PINN surrogates of Li-ion battery models for parameter inference (i.e., state-of-health diagnostics). In this first part, a method is presented for constructing a PINN surrogate of the SPM. A multi-fidelity hierarchical training, where several neural nets are trained with multiple physics-loss fidelities is shown to significantly improve the surrogate accuracy when only training on the governing equation residuals. The implementation is made available in a companion repository (https://github.com/NREL/pinnstripes). The techniques used to develop a PINN surrogate of the SPM are extended in Part II for the PINN surrogate for the P2D battery model, and explore the Bayesian calibration capabilities of both surrogates.
翻訳日:2024-01-02 14:49:11 公開日:2023-12-28
# 測定のみを用いた非ユニタリゲート

Nonunitary gates using measurements only ( http://arxiv.org/abs/2312.17325v1 )

ライセンス: Link先を確認
Daniel Azses, Jonathan Ruhman, Eran Sela(参考訳) 測定ベースの量子計算(MBQC)は、準備済みの絡み合ったリソース状態に作用する測定だけを使用して、ユニタリゲートを実現する普遍的なプラットフォームである。 測定ベースと資源状態の幾何を変形させることにより、mbqc回路は入力状態に対して常に送受信を行うが、一般には非ユニタリ論理ゲートを実現することを示す。 単項ゲートによく用いられる安定化器形式とは対照的に、ZX計算はこれらの非単項ゲートの理想的な計算方法である。 ユニタリゲートとは対照的に、量子測定のランダム性のため、非ユニタリゲートは確実に適用できない。 非ユニタリゲートを実現する成功確率を最大化し、ノイズの多い中間スケール量子デバイス上での想像上の時間発展を含む応用について論じる。

Measurement-based quantum computation (MBQC) is a universal platform to realize unitary gates, only using measurements which act on a pre-prepared entangled resource state. By deforming the measurement bases, as well as the geometry of the resource state, we show that MBQC circuits always transmit and act on the input state but generally realize nonunitary logical gates. In contrast to the stabilizer formalism which is often used for unitary gates, we find that ZX calculus is an ideal computation method of these nonunitary gates. As opposed to unitary gates, nonunitary gates can not be applied with certainty, due to the randomness of quantum measurements. We maximize the success probability of realizing nonunitary gates, and discuss applications including imaginary time evolution, which we demonstrate on a noisy intermediate scale quantum device.
翻訳日:2024-01-02 14:48:43 公開日:2023-12-28
# キュービットエントロピーからの真空エネルギー

Vacuum Energy from Qubit Entropy ( http://arxiv.org/abs/2312.17317v1 )

ライセンス: Link先を確認
Gon\c{c}alo M. Quinta, Antonino Flachi(参考訳) 量子エントロピーの観点から、量子論における真空エネルギーの非伝統的な記述を開発する。 正確には、ゼロ温度における任意の非相互作用量子場の真空エネルギーは、仮想揺らぎに付随するクビット自由度の量子エントロピーに比例することを示す。 まずフェルミオンに対してこれを証明し、それから任意のスピンの量子数への導出を延長する。 最後に、これらの結果を用いてゼロ温度での非相互作用量子真空に対する熱力学の最初の法則を得る。

We develop a non-conventional description of the vacuum energy in quantum field theory in terms of quantum entropy. Precisely, we show that the vacuum energy of any non-interacting quantum field at zero temperature is proportional to the quantum entropy of the qubit degrees of freedom associated with virtual fluctuations. We prove this for fermions first, and then extend the derivation to quanta of any spin. Finally, we use these results to obtain the first law of thermodynamics for a non-interacting quantum vacuum at zero temperature.
翻訳日:2024-01-02 14:48:29 公開日:2023-12-28
# ネットワーク履歴の新たな絡み合い

Emerging Entanglement on Network Histories ( http://arxiv.org/abs/2312.17313v1 )

ライセンス: Link先を確認
Cecilia Giavoni, Stefan Hofmann, Maximilian Koegler(参考訳) ミンコフスキー時空プローブにおける自由落下ネットワークのローレンツ的履歴に限定された量子場は、時空領域にまたがる制限のない真空揺らぎの絡み合い特性を示す。 瞬時場の配置は一次元のエッジにローカライズされるが、これらのネットワークの履歴に角運動量が現れ、エントロピーの有名な領域スケーリングを確立する。

We show that quantum fields confined to Lorentzian histories of freely falling networks in Minkowski spacetime probe entanglement properties of vacuum fluctuations that extend unrestricted across spacetime regions. Albeit instantaneous field configurations are localised on one-dimensional edges, angular momentum emerges on these network histories and establishes the celebrated area scaling of entanglement entropy.
翻訳日:2024-01-02 14:48:23 公開日:2023-12-28
# 駆動散逸型多体系における量子ジャンプ

Quantum jumps in driven-dissipative disordered many-body systems ( http://arxiv.org/abs/2312.17311v1 )

ライセンス: Link先を確認
Sparsh Gupta, Hari Kumar Yadalam, Manas Kulkarni, Camille Aron(参考訳) 量子ジャンプが局所化遷移を特徴とする駆動散逸乱多体系における局所化状態にどう影響するかを論じる。 開量子系の標準リンドブラッドと非ジャンプ非ヘルミット力学との間を補間するリンドブラッドマスター方程式の変形を導入する。 プラットフォームとして、最も近い隣同士の相互作用とコヒーレントな駆動と消散を交互に行うハードコアボソンの無秩序な連鎖を用いる。 変形したリウビリアンの複素固有値の統計と、物理的関連性の動的可観測性の両方を調べる。 その結果, 量子ジャンプ数の減少は, リアルなポスト選択プロトコルによって実現可能であり, 局所化相の出現を促進できることがわかった。 本研究は, 正確な対角化および時間依存行列生成状態技術に基づく。

We discuss how quantum jumps affect localized regimes in driven-dissipative disordered many-body systems featuring a localization transition. We introduce a deformation of the Lindblad master equation that interpolates between the standard Lindblad and the no-jump non-Hermitian dynamics of open quantum systems. As a platform, we use a disordered chain of hard-core bosons with nearest-neighbor interactions and subject to coherent drive and dissipation at alternate sites. We probe both the statistics of complex eigenvalues of the deformed Liouvillian and dynamical observables of physical relevance. We show that reducing the number of quantum jumps, achievable through realistic post-selection protocols, can promote the emergence of the localized phase. Our findings are based on exact diagonalization and time-dependent matrix-product states techniques.
翻訳日:2024-01-02 14:48:15 公開日:2023-12-28
# 分子特性ターゲティングのための分類子フリーグラフ拡散

Classifier-free graph diffusion for molecular property targeting ( http://arxiv.org/abs/2312.17397v1 )

ライセンス: Link先を確認
Matteo Ninniri and Marco Podda and Davide Bacciu(参考訳) 本研究は, 新規医薬品および材料開発のための候補スクリーニングを迅速化するために, 標的化学特性に条件付けられた分子を生成するという, プロパティターゲティングの課題に焦点をあてる。 DiGressは分子グラフの最近の拡散モデルであり、その特徴は分類器ベース(CB)誘導による特性ターゲティングを可能にすることである。 cbガイダンスは分子状グラフを生成するのに有効であるかもしれないが、その仮定が化学領域にはあまり当てはまらないという事実を示唆する。 この知見に基づいて、条件情報を直接トレーニングプロセスに注入することで機能する分類子フリーのDiGress(FreeGress)を提案する。 CFガイダンスは、制約の少ない仮定で便利であり、補助的なプロパティ回帰器を訓練する必要がないので、モデルのトレーニング可能なパラメータの数が半減する。 QM9およびZINC-250kベンチマークのプロパティターゲティングタスクにおけるDiGressに対する平均絶対誤差の最大79%の改善が得られたことを実証的に示す。 さらに, 分子量などの化学的性質が分子中の原子数と相関していることから, 生成試料の化学的妥当性を向上させるための, 単純かつ強力な手法を提案する。

This work focuses on the task of property targeting: that is, generating molecules conditioned on target chemical properties to expedite candidate screening for novel drug and materials development. DiGress is a recent diffusion model for molecular graphs whose distinctive feature is allowing property targeting through classifier-based (CB) guidance. While CB guidance may work to generate molecular-like graphs, we hint at the fact that its assumptions apply poorly to the chemical domain. Based on this insight we propose a classifier-free DiGress (FreeGress), which works by directly injecting the conditioning information into the training process. CF guidance is convenient given its less stringent assumptions and since it does not require to train an auxiliary property regressor, thus halving the number of trainable parameters in the model. We empirically show that our model yields up to 79% improvement in Mean Absolute Error with respect to DiGress on property targeting tasks on QM9 and ZINC-250k benchmarks. As an additional contribution, we propose a simple yet powerful approach to improve chemical validity of generated samples, based on the observation that certain chemical properties such as molecular weight correlate with the number of atoms in molecules.
翻訳日:2024-01-02 14:31:56 公開日:2023-12-28
# アンロール最適化の後方パス収束の解析と改善

Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization ( http://arxiv.org/abs/2312.17394v1 )

ライセンス: Link先を確認
James Kotary and Jacob Christopher and My H Dinh and Ferdinando Fioretto(参考訳) ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。 この設定における中心的な課題は、しばしば閉じた形式を欠く最適化問題の解によるバックプロパゲーションである。 アルゴリズムアンローリング(英: algorithm unrolling)は、反復最適化解法によって実行される演算チェーン全体の自動微分に依存するアルゴリズムである。 本稿では, 線形系の解と漸近的に等価であることを示すため, 非線形最適化の後方通過に関する理論的知見を提供する。 これらの知見を踏まえて,アンロールの実用的落とし穴がいくつか示されており,unrolledsolvrの実装からより効率的なバックプロパゲーションルールを構築するためにfoldd optimizationと呼ばれるシステムが提案されている。 様々なエンドツーエンド最適化および学習タスクに対する実験は、このシステムの利点を計算的にも、様々な最適化問題形式に対する柔軟性の観点からも示している。

The integration of constrained optimization models as components in deep networks has led to promising advances on many specialized learning tasks. A central challenge in this setting is backpropagation through the solution of an optimization problem, which often lacks a closed form. One typical strategy is algorithm unrolling, which relies on automatic differentiation through the entire chain of operations executed by an iterative optimization solver. This paper provides theoretical insights into the backward pass of unrolled optimization, showing that it is asymptotically equivalent to the solution of a linear system by a particular iterative method. Several practical pitfalls of unrolling are demonstrated in light of these insights, and a system called Folded Optimization is proposed to construct more efficient backpropagation rules from unrolled solver implementations. Experiments over various end-to-end optimization and learning tasks demonstrate the advantages of this system both computationally, and in terms of flexibility over various optimization problem forms.
翻訳日:2024-01-02 14:31:36 公開日:2023-12-28
# Fermi-Hubbardモデルに対する量子ハミルトン学習

Quantum Hamiltonian Learning for the Fermi-Hubbard Model ( http://arxiv.org/abs/2312.17390v1 )

ライセンス: Link先を確認
Hongkang Ni, Haoya Li, Lexing Ying(参考訳) 本研究はフェルミオンハミルトン学習のためのプロトコルを提案する。 有界グラフ上で定義されたハバードモデルに対して、ハイゼンベルク制限スケーリングは状態準備と測定誤差を許容しながら達成される。 すべてのパラメータに対する$\epsilon$-accurate推定を達成するには、$\tilde{\mathcal{o}}(\epsilon^{-1})$全進化時間が必要であり、定数係数はシステムサイズに依存しない。 さらに,本手法は,実験実施に望ましい1~2箇所の簡単なフェルミオン操作のみを含む。

This work proposes a protocol for Fermionic Hamiltonian learning. For the Hubbard model defined on a bounded-degree graph, the Heisenberg-limited scaling is achieved while allowing for state preparation and measurement errors. To achieve $\epsilon$-accurate estimation for all parameters, only $\tilde{\mathcal{O}}(\epsilon^{-1})$ total evolution time is needed, and the constant factor is independent of the system size. Moreover, our method only involves simple one or two-site Fermionic manipulations, which is desirable for experiment implementation.
翻訳日:2024-01-02 14:31:20 公開日:2023-12-28
# PT対称量子力学

PT-symmetric quantum mechanics ( http://arxiv.org/abs/2312.17386v1 )

ライセンス: Link先を確認
Carl M. Bender and Daniel W. Hook(参考訳) 一般に、物理的に許容される量子系のハミルトニアン(正定スペクトルを持ち、ユニタリティの要求に従うもの)はエルミートであることが仮定される。 しかし、pt対称ハミルトニアンは、たとえハミルトニアンがエルミート系でなくても、物理的に許容される量子力学系を定義することもできる。 PT対称量子系の研究は、理論物理学と実験物理学の両方において、若く非常に活発な研究領域である。 このレビューの目的は、確立した科学者と大学院生に、より高度な出版物を理解するためのコンパクトで読みやすい紹介を提供し、理論的または実験的な研究活動を開始することである。 PT対称性のアイデアと技法は、物理学の多くの異なる分野の文脈に応用されている。 本論では,1次元pt対称量子力学と古典力学に注目してpt対称性の概念を紹介し,特に振動子モデルを用いてpt対称量子論の基本的な性質を説明する。

It is generally assumed that a Hamiltonian for a physically acceptable quantum system (one that has a positive-definite spectrum and obeys the requirement of unitarity) must be Hermitian. However, a PT-symmetric Hamiltonian can also define a physically acceptable quantum-mechanical system even if the Hamiltonian is not Hermitian. The study of PT-symmetric quantum systems is a young and extremely active research area in both theoretical and experimental physics. The purpose of this Review is to provide established scientists as well as graduate students with a compact, easy-to-read introduction to this field that will enable them to understand more advanced publications and to begin their own theoretical or experimental research activity. The ideas and techniques of PT symmetry have been applied in the context of many different branches of physics. This Review introduces the concepts of PT symmetry by focusing on elementary one-dimensional PT-symmetric quantum and classical mechanics and relies in particular on oscillator models to illustrate and explain the basic properties of PT-symmetric quantum theory.
翻訳日:2024-01-02 14:31:08 公開日:2023-12-28
# キャビティ場に結合したRydberg-Atomアレイにおける中間子励起

Confined Meson Excitations in Rydberg-Atom Arrays Coupled to a Cavity Field ( http://arxiv.org/abs/2312.17385v1 )

ライセンス: Link先を確認
Tharnier O. Puel and Tommaso Macr\`i(参考訳) 閉じ込めは高エネルギーおよび統計物理学の多くのモデルにおいて重要な現象である。 本研究では, rydberg-dressed atoms をキャビティ場に閉じ込めて結合した1次元系において, 閉じ込められた中間子励起の出現について検討した。 このシステムは、Ising-Dicke Hamiltonianモデルによって効果的に表現できる。 観測された基底状態相図は、強磁性下地相から常磁性上地相への1次遷移を示す。 特に強磁性-サブラジアント相の遷移点付近のクエンチはスピン中の中間子振動を誘導し、圧縮真空状態を生成する。 本研究では,ホモダイン検出法と単一サイトイメージング法を用いて局所粒子の観察を行い,閉じ込められた励起のフォトニックキャラクタリゼーション法を提案する。 本論文で詳述した方法論と結果は, rydberg-atomアレイを深い光学格子や光学ツイーザーに用いた既存のキャビティqedプラットフォームの実装に応用可能である。

Confinement is a pivotal phenomenon in numerous models of high-energy and statistical physics. In this study, we investigate the emergence of confined meson excitations within a one-dimensional system, comprising Rydberg-dressed atoms trapped and coupled to a cavity field. This system can be effectively represented by an Ising-Dicke Hamiltonian model. The observed ground-state phase diagram reveals a first-order transition from a ferromagnetic-subradiant phase to a paramagnetic-superradiant phase. Notably, a quench near the transition point within the ferromagnetic-subradiant phase induces meson oscillations in the spins and leads to the creation of squeezed-vacuum light states. We suggest a method for the photonic characterization of these confined excitations, utilizing homodyne detection and single-site imaging techniques to observe the localized particles. The methodologies and results detailed in this paper are feasible for implementation on existing cavity-QED platforms, employing Rydberg-atom arrays in deep optical lattices or optical tweezers.
翻訳日:2024-01-02 14:30:52 公開日:2023-12-28
# ブラジル連邦地区における重大交通事故のホットスポット予測

Hotspot Prediction of Severe Traffic Accidents in the Federal District of Brazil ( http://arxiv.org/abs/2312.17383v1 )

ライセンス: Link先を確認
Vinicius Lima, Vetria Byrd(参考訳) 交通事故は通勤がとても重要である社会における最大の課題の1つである。 事故を引き起こすものは、いくつかの主観的パラメータに依存し、地域、都市、国によって異なる。 同様に、将来の事件防止に関する意思決定を支援する知識基盤を提供するためには、これらのパラメータを理解することが重要である。 この論文は、機械学習アルゴリズムが事故の予測や事故の深刻度に使用されるいくつかの著作を提示し、都市レベルのデータセットを評価研究に用いた。 この研究は、主に事故の集中度と、ホットスポットの予測に機械学習をどのように使用できるかに焦点を当て、研究の多様性を増す試みである。 このアプローチは,事故集中行動のニュアンスを理解する上で,当局にとって有用な手法であった。 法医学的な交通事故のアナリストから収集されたブラジル連邦地区のデータを初めて使用し、現地の気象条件のデータと組み合わせて衝突のホットスポットを予測した。 私たちが検討した5つのアルゴリズムのうち、2つのパフォーマンスは、多層パーセプトロンとランダムフォレストで、後者が98%の精度でベストである。 その結果, 気象パラメーターが事故発生地ほど重要でないことが判明し, 事故発生回数を減らすために, 局所的な介入が重要であることを示す。

Traffic accidents are one of the biggest challenges in a society where commuting is so important. What triggers an accident can be dependent on several subjective parameters and varies within each region, city, or country. In the same way, it is important to understand those parameters in order to provide a knowledge basis to support decisions regarding future cases prevention. The literature presents several works where machine learning algorithms are used for prediction of accidents or severity of accidents, in which city-level datasets were used as evaluation studies. This work attempts to add to the diversity of research, by focusing mainly on concentration of accidents and how machine learning can be used to predict hotspots. This approach demonstrated to be a useful technique for authorities to understand nuances of accident concentration behavior. For the first time, data from the Federal District of Brazil collected from forensic traffic accident analysts were used and combined with data from local weather conditions to predict hotspots of collisions. Out of the five algorithms we considered, two had good performance: Multi-layer Perceptron and Random Forest, with the latter being the best one at 98% accuracy. As a result, we identify that weather parameters are not as important as the accident location, demonstrating that local intervention is important to reduce the number of accidents.
翻訳日:2024-01-02 14:30:33 公開日:2023-12-28
# gpu位相折り畳み法と深層学習検出システムを用いたケプラー探査による超短周期小惑星の発見

Discovery of Small Ultra-short-period Planets Orbiting KG Dwarfs in Kepler Survey Using GPU Phase Folding and Deep Learning Detection System ( http://arxiv.org/abs/2312.17382v1 )

ライセンス: Link先を確認
Kaitlyn Wang, Jian Ge, Kevin Willis, Kevin Wang, Yinan Zhao(参考訳) 1995年に太陽型恒星51ペグを公転する最初のホットジュピターが発見されて以来、4000個以上の太陽系外惑星が様々な観測手法で発見されている。 これらのサブアースの形成過程はいまだに解明されておらず、この特異な個体群を調査するには追加のサンプルを得ることが不可欠である。 本研究では,ケプラー測光データに対して,GPFC法と呼ばれる畳み込みニューラルネットワークを併用した新しいGPU位相Foldingアルゴリズムを提案する。 この手法は、従来のBox-fitting Least Squares法よりもトランジット検索速度を大幅に向上させ、商用GPUカードを用いて、既知のKOI測光データを数時間以内に完全に検索できるようにする。 k00446.c、k01821.b、k01522.c、k03404.b、k04978.bである。 K00446.cは0.645091日周期でK小星を公転している。 半径0.461R_\oplus$は、これまでに発見された2番目に小さいUSPである。 K01821.bは、半径が0.648R_\oplus$の小惑星である。 これは、NASAアーカイブでG小星を公転する確認されたUSPの中では2番目に小さい。 K01522.cの半径は0.704 R_\oplus$で、太陽のようなG小星の周りを0.64672日で公転し、K03404.bの半径は0.738 R_\oplus$、K04978.bの半径は0.912 R_\oplus$で、G小星を公転し0.94197日ごとに軌道を公転する。 k01821.b、k01522.c、k03404.bの3つの発見は、ケプラーデータセットでg小星の周りを公転しているuspsの中で最小の惑星である。 これらの小さな太陽系外惑星の発見は、ケプラー、テッサ、将来の宇宙輸送ミッションの測光データから、小型で新しい太陽系外惑星を探索するGPFC法の有望な能力を示している。

Since the discovery of the first hot Jupiter orbiting a solar-type star, 51 Peg, in 1995, more than 4000 exoplanets have been identified using various observational techniques. The formation process of these sub-Earths remains elusive, and acquiring additional samples is essential for investigating this unique population. In our study, we employ a novel GPU Phase Folding algorithm combined with a Convolutional Neural Network, termed the GPFC method, on Kepler photometry data. This method enhances the transit search speed significantly over the traditional Box-fitting Least Squares method, allowing a complete search of the known KOI photometry data within hours using a commercial GPU card. To date, we have identified five promising sub-Earth short-period candidates: K00446.c, K01821.b, K01522.c, K03404.b, and K04978.b. A closer analysis reveals the following characteristics: K00446.c orbits a K dwarf on a 0.645091-day period. With a radius of $0.461R_\oplus$, it ranks as the second smallest USP discovered to date. K01821.b is a sub-Earth with a radius of $0.648R_\oplus$, orbiting a G dwarf over a 0.91978-day period. It is the second smallest USP among all confirmed USPs orbiting G dwarfs in the NASA Archive. K01522.c has a radius of $0.704 R_\oplus$ and completes an orbit around a Sun-like G dwarf in 0.64672 days; K03404.b, with a radius of $0.738 R_\oplus$, orbits a G dwarf on a 0.68074-day period; and K04978.b, with its planetary radius of $0.912 R_\oplus$, orbits a G dwarf, completing an orbit every 0.94197 days. Three of our finds, K01821.b, K01522.c and K03404.b, rank as the smallest planets among all confirmed USPs orbiting G dwarfs in the Kepler dataset. The discovery of these small exoplanets underscores the promising capability of the GPFC method for searching for small, new transiting exoplanets in photometry data from Kepler, TESS, and future space transit missions.
翻訳日:2024-01-02 14:30:12 公開日:2023-12-28
# キャビティにおける量子光物質相互作用の理論:拡張系と長波長近似

Theory of Quantum Light-Matter Interaction in Cavities: Extended Systems and the Long Wavelength Approximation ( http://arxiv.org/abs/2312.17374v1 )

ライセンス: Link先を確認
Mark Kamper Svendsen, Michael Ruggenthaler, Hannes H\"ubener, Christian Sch\"afer, Martin Eckstein, Angel Rubio and Simone Latini(参考訳) 光と物質が強く相互作用すると、結合系は両方の成分から性質を継承する。 従って、どちらの特性もエンジニアリングによって変更することが可能である。 この興味深い可能性は、暗い電磁環境のゆらぎをエンジニアリングすることで材料特性を調整しようとするキャビティ・マテリアル・エンジニアリングパラダイムの出現につながった。 ハイブリッド光物質系の理論的記述は、拡張された電子場と量子電磁場の現実的な記述の複雑さによって複雑になる。 ここでは、長波長極限におけるパラダイム的ファブリ・ペロト共振器に埋め込まれた低次元結晶の効果的な非摂動理論を導出する。 この理論は、電磁場の多重モードの性質を効果的な単一モードスキームにエンコードし、フォトニック系から物質への無視可能な運動量移動を要求することから自然に従う。 有効理論において、単一光モードはバルクキャビティ・マッター系の限界においても有限有効モード体積によって特徴づけられ、現実的なキャビティパラメータによって直接決定することができる。 その結果、物質への有効モードのカップリングはバルク材料では有限である。 空洞系の現実的な記述を利用することで,物質結合の二重計数から自由空間の電磁真空揺らぎまで,有効理論を自由化する。 その結果、電磁環境を効果的に含み、完璧なミラー近似を超えることで、基本ハミルトニアンのレベルでの相互作用キャビティ・マター系の現実的な記述に向けた実質的なステップが得られた。

When light and matter interact strongly, the coupled system inherits properties from both constituents. It is consequently possible to alter the properties of either by engineering the other. This intriguing possibility has lead to the emergence of the cavity-materials-engineering paradigm which seeks to tailor material properties by engineering the fluctuations of a dark electromagnetic environment. The theoretical description of hybrid light-matter systems is complicated by the combined complexity of a realistic description of the extended electronic and quantum electromagnetic fields. Here we derive an effective, non-perturbative theory for low dimensional crystals embedded in a paradigmatic Fabry-P\'erot resonator in the long-wavelength limit. The theory encodes the multi-mode nature of the electromagnetic field into an effective single-mode scheme and it naturally follows from requiring a negligible momentum transfer from the photonic system to the matter. Crucially, in the effective theory the single light mode is characterized by a finite effective mode volume even in the limit of bulk cavity-matter systems and can be directly determined by realistic cavity parameters. As a consequence, the coupling of the effective mode to matter remains finite for bulk materials. By leveraging on the realistic description of the cavity system we make our effective theory free from the double counting of the coupling of matter to the electromagnetic vacuum fluctuations of free space. Our results provide a substantial step towards the realistic description of interacting cavity-matter systems at the level of the fundamental Hamiltonian, by effectively including the electromagnetic environment and going beyond the perfect mirrors approximation.
翻訳日:2024-01-02 14:29:26 公開日:2023-12-28
# PIDコントローラを超えたPPO: Mu2e における陽子ビーム強度制御のためのニューラルネットワーク PID ポリシ

Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e ( http://arxiv.org/abs/2312.17372v1 )

ライセンス: Link先を確認
Chenwei Xu, Jerry Yao-Chieh Hu, Aakaash Narayanan, Mattson Thieme, Vladimir Nagaslaev, Mark Austin, Jeremy Arnold, Jose Berlioz, Pierrick Hanlet, Aisha Ibrahim, Dennis Nicklaus, Jovan Mitrevski, Jason Michael St.John, Gauri Pradhan, Andrea Saewert, Kiyomi Seiya, Brian Schupbach, Randy Thurman-Keup, Nhan Tran, Rui Shi, Seda Ogrenci, Alexis Maya-Isabelle Shuping, Kyle Hazelwood and Han Liu(参考訳) 本稿では,Fermi National Accelerator Laboratory (Fermilab) の Muon to Electron Conversion Experiment (Mu2e) において,均一な陽子ビーム強度の供給を維持するための新しいPPOアルゴリズムを提案する。 我々の主な目的は、一貫した強度プロファイルを確保するために流出過程を規制することであり、最終目標は、ミリ秒のタイムスケールでスパイル制御系(SRS)パラメータのリアルタイムフィードバックとキャリブレーションを提供する自動制御装置を作ることである。 我々は,Mu2eアクセラレータシステムを強化学習(RL)に適したマルコフ決定プロセスとして扱い,PPOを利用してバイアスを低減し,トレーニング安定性を向上させる。 我々のアプローチにおける重要な革新は、ニューラルネットワークされたPIDコントローラをポリシー機能に統合することであり、その結果、現在のPIDコントローラベースラインのパフォーマンスを1.6%上回る13.6%のスパイルデューティファクタ(SDF)が大幅に向上した。 本稿では, Mu2e 加速器の微分可能シミュレータに基づいて, 予備的なオフライン結果を示す。 これは、Mu2e実験における自動陽子ビーム強度制御への重要なステップであるリアルタイム実装と応用の基盤となる。

We introduce a novel Proximal Policy Optimization (PPO) algorithm aimed at addressing the challenge of maintaining a uniform proton beam intensity delivery in the Muon to Electron Conversion Experiment (Mu2e) at Fermi National Accelerator Laboratory (Fermilab). Our primary objective is to regulate the spill process to ensure a consistent intensity profile, with the ultimate goal of creating an automated controller capable of providing real-time feedback and calibration of the Spill Regulation System (SRS) parameters on a millisecond timescale. We treat the Mu2e accelerator system as a Markov Decision Process suitable for Reinforcement Learning (RL), utilizing PPO to reduce bias and enhance training stability. A key innovation in our approach is the integration of a neuralized Proportional-Integral-Derivative (PID) controller into the policy function, resulting in a significant improvement in the Spill Duty Factor (SDF) by 13.6%, surpassing the performance of the current PID controller baseline by an additional 1.6%. This paper presents the preliminary offline results based on a differentiable simulator of the Mu2e accelerator. It paves the groundwork for real-time implementations and applications, representing a crucial step towards automated proton beam intensity control for the Mu2e experiment.
翻訳日:2024-01-02 14:29:00 公開日:2023-12-28
# SANIA: Polyak型最適化フレームワークは不変確率アルゴリズムをスケールする

SANIA: Polyak-type Optimization Framework Leads to Scale Invariant Stochastic Algorithms ( http://arxiv.org/abs/2312.17369v1 )

ライセンス: Link先を確認
Farshed Abdukhakimov, Chulu Xiang, Dmitry Kamzolov, Robert Gower, Martin Tak\'a\v{c}(参考訳) 適応最適化手法はディープニューラルネットワーク(DNN)を訓練する最も一般的な手法として広く認識されている。 Adam、AdaGrad、AdaHessianといった技術は、対象関数の曲率に関する情報を組み込んで探索方向を変更するプリコンディショナーを使用している。 しかし, 適応特性にもかかわらず, ステップサイズを手作業で微調整する必要がある。 これは、特定の問題を解決するのに必要な時間に影響を与える。 本稿では,これらの課題に対処するため,SANIAという最適化フレームワークを提案する。 手動のステップサイズハイパーパラメータ設定の必要をなくすだけでなく、SANIAはスケールの悪い問題や条件の悪い問題に対処するテクニックを取り入れている。 損失関数のヘッセン対角線を近似するハッチンソン法など,いくつかの事前条件付き手法についても検討する。 結論として,提案手法を分類タスクに適用し,凸と非凸の両方の文脈をカバーする実験を行った。

Adaptive optimization methods are widely recognized as among the most popular approaches for training Deep Neural Networks (DNNs). Techniques such as Adam, AdaGrad, and AdaHessian utilize a preconditioner that modifies the search direction by incorporating information about the curvature of the objective function. However, despite their adaptive characteristics, these methods still require manual fine-tuning of the step-size. This, in turn, impacts the time required to solve a particular problem. This paper presents an optimization framework named SANIA to tackle these challenges. Beyond eliminating the need for manual step-size hyperparameter settings, SANIA incorporates techniques to address poorly scaled or ill-conditioned problems. We also explore several preconditioning methods, including Hutchinson's method, which approximates the Hessian diagonal of the loss function. We conclude with an extensive empirical examination of the proposed techniques across classification tasks, covering both convex and non-convex contexts.
翻訳日:2024-01-02 14:28:38 公開日:2023-12-28
# 4次元グラフ学習 : スペクトルgcnを増強する四元数値ラプラシアン

Graph Learning in 4D: a Quaternion-valued Laplacian to Enhance Spectral GCNs ( http://arxiv.org/abs/2312.17361v1 )

ライセンス: Link先を確認
Stefano Fiorini, Stefano Coniglio, Michele Ciavotta, Enza Messina(参考訳) スペクトルグラフ畳み込みネットワーク (gcn) において,四元数値の重みを持つスペクトルグラフ畳み込みネットワーク (gcn) を導入し,四元数値のラプラチアン行列,四元数値のラプラチアン行列,古典ラプラチアン行列 (非有向グラフに対して定義される) と複素値の符号磁気ラプラチアン (任意の符号の重み付きディグラフを扱うために提案される) を一般化する。 一般性に加えて、我々の四元数ラプラシアンはグラフの位相を完全に保存する唯一のラプラシアンであり、他のラプラシアンと同様に、異なる重みの反平行対のエッジ(ダイトン)を含むグラフやグラフを1つの(方向付けまたは無方向の)エッジに減らさずに扱える。 実験結果から,手作業の処理を成功させるためには,特にグルーオンが持つ情報が不可欠である場合において,QuanterGCNが他の最先端GCNと比較して優れた性能を示した。

We introduce QuaterGCN, a spectral Graph Convolutional Network (GCN) with quaternion-valued weights at whose core lies the Quaternionic Laplacian, a quaternion-valued Laplacian matrix by whose proposal we generalize two widely-used Laplacian matrices: the classical Laplacian (defined for undirected graphs) and the complex-valued Sign-Magnetic Laplacian (proposed to handle digraphs with weights of arbitrary sign). In addition to its generality, our Quaternionic Laplacian is the only Laplacian to completely preserve the topology of a digraph, as it can handle graphs and digraphs containing antiparallel pairs of edges (digons) of different weights without reducing them to a single (directed or undirected) edge as done with other Laplacians. Experimental results show the superior performance of QuaterGCN compared to other state-of-the-art GCNs, particularly in scenarios where the information the digons carry is crucial to successfully address the task at hand.
翻訳日:2024-01-02 14:28:21 公開日:2023-12-28
# 適応型ソフトウェアセキュリティ入門

An Introduction to Adaptive Software Security ( http://arxiv.org/abs/2312.17358v1 )

ライセンス: Link先を確認
Mehran Alidoost Nia(参考訳) 本稿では,MAPE-Kループとソフトウェア開発ライフサイクル(SDLC)を統合した適応型ソフトウェアセキュリティモデルを提案する。 開発を通じてセキュリティポリシを積極的に組み込んで,さまざまなレベルのソフトウェアエンジニアリングの脆弱性を低減します。 MAPE-K統合、SDLC埋め込み、分析的洞察収束という3つの主要なコントリビューションは、セキュリティ上の脅威に対してソフトウェアシステムを強化するための包括的なアプローチを作成する。 この研究はパラダイムシフトを表し、アジャイルソフトウェア開発にセキュリティ対策を適用し、進化する脅威に直面した継続的改善を保証する。 このモデルは堅牢なソリューションとして登場し、現代のソフトウェア開発における適応型ソフトウェアセキュリティ戦略の重要なニーズに対処する。 提案モデルの利点を解析的に考察する。

This paper presents the adaptive software security model, an innovative approach integrating the MAPE-K loop and the Software Development Life Cycle (SDLC). It proactively embeds security policies throughout development, reducing vulnerabilities from different levels of software engineering. Three primary contributions-MAPE-K integration, SDLC embedding, and analytical insights-converge to create a comprehensive approach for strengthening software systems against security threats. This research represents a paradigm shift, adapting security measures with agile software development and ensuring continuous improvement in the face of evolving threats. The model emerges as a robust solution, addressing the crucial need for adaptive software security strategies in modern software development. We analytically discuss the advantages of the proposed model.
翻訳日:2024-01-02 14:27:53 公開日:2023-12-28
# 無質量ジラックフェルミオンにおける励起エネルギー準位の縮退に関する一考察

A note on degeneracy of excited energy levels in massless Dirac fermions ( http://arxiv.org/abs/2312.17357v1 )

ライセンス: Link先を確認
Lucas Sourrouille(参考訳) 平面の制限領域に局在した磁束$\Phi$の存在下で、質量を持たないディラック・ワイル方程式の固有値と固有関数を構築するメカニズムを提案する。 この機構を用いて既存のエネルギーレベルの縮退を解析する。 0 と 1 のエネルギー準位は同じ$N+1$ の縮退性を持ち、$N$ は $\frac{\Phi}{2\pi}$ の整数部分である。 最後に、より高いエネルギー準位がN+m$縮退し、エネルギー準位が$m$となることを示す。

We propose a mechanism to construct the eigenvalues and eigenfunctions of the massless Dirac-Weyl equation in the presences of magnetic flux $\Phi$ localized in a restricted region of the plane. Using this mechanism we analyze the degeneracy of the existed energy levels. We find that the zero and first energy level has the same $N+1$ degeneracy, where $N$ is the integer part of $\frac{\Phi}{2\pi}$. Finally, we show that higher energy levels are $N+m$ degenrate, beign $m$ the level of energy.
翻訳日:2024-01-02 14:27:40 公開日:2023-12-28
# duck's brain: 現代のデータベースエンジンにおけるニューラルネットワークのトレーニングと推論

The Duck's Brain: Training and Inference of Neural Networks in Modern Database Engines ( http://arxiv.org/abs/2312.17355v1 )

ライセンス: Link先を確認
Maximilian E. Sch\"ule and Thomas Neumann and Alfons Kemper(参考訳) データベースシステムはデータアクセスと操作でうまく機能するが、リレーショナルモデルはデータサイエンティストがsqlで機械学習アルゴリズムを作成するのを妨げている。 それにもかかわらず、現代のデータベースシステムは関係代数学で表現された機械学習アルゴリズムでうまく機能していると主張する。 本稿では,SQL-92におけるデータ変換,モデルトレーニング,推論のためのビルディングブロックを,拡張配列データ型を用いて記述する。 次に、配列データ型を用いたモデルトレーニングと推論の実装を、sql-92のみのリレーショナル表現を用いた実装と比較する。 実行時およびメモリ消費の観点から評価すると、行列代数に対する現代のデータベースシステムの適合性が証明されるが、特殊化された配列データ型は関係表現の行列よりも優れている。

Although database systems perform well in data access and manipulation, their relational model hinders data scientists from formulating machine learning algorithms in SQL. Nevertheless, we argue that modern database systems perform well for machine learning algorithms expressed in relational algebra. To overcome the barrier of the relational model, this paper shows how to transform data into a relational representation for training neural networks in SQL: We first describe building blocks for data transformation, model training and inference in SQL-92 and their counterparts using an extended array data type. Then, we compare the implementation for model training and inference using array data types to the one using a relational representation in SQL-92 only. The evaluation in terms of runtime and memory consumption proves the suitability of modern database systems for matrix algebra, although specialised array data types perform better than matrices in relational representation.
翻訳日:2024-01-02 14:27:30 公開日:2023-12-28
# NextGプロトコルの形式検証の自動モデル化に向けて:多モード横断型および自己注意型大規模言語モデルアプローチ

Towards Auto-Modeling of Formal Verification for NextG Protocols: A Multimodal cross- and self-attention Large Language Model Approach ( http://arxiv.org/abs/2312.17353v1 )

ライセンス: Link先を確認
Jingda Yang and Ying Wang(参考訳) 本稿では,次世代通信プロトコル(nextg)の形式的検証のために設計された新システムであるavre(real-world prompting for 5g and nextg protocols)による形式的検証の自動モデリングについて紹介する。 大規模言語モデル(LLM)を利用することで、AVREはプロトコル記述を依存グラフや形式モデルに変換する。 このシステムはトランスモデルをLSMと統合し、クロスアテンション機構と自己アテンション機構を通じて、定量的依存関係関係を自律的に確立する。 HyFuzz実験プラットフォームからの反復的なフィードバックにより、AVREは複雑な通信プロトコルにおける形式検証の精度と妥当性を大幅に向上させ、高度な通信システムを検証するための画期的なアプローチを提供する。 我々はCALの性能を最先端のLCMモデルと従来の時系列モデルと比較し、精度とロバスト性において優位性を示し、95.94\%の精度と0.98のAUCを実現する。 このNLPベースのアプローチは、初めて設計文書から直接エクスプロイトを作成することができ、スケーラブルなシステム検証と検証において顕著な進歩をもたらす。

This paper introduces Auto-modeling of Formal Verification with Real-world Prompting for 5G and NextG protocols (AVRE), a novel system designed for the formal verification of Next Generation (NextG) communication protocols, addressing the increasing complexity and scalability challenges in network protocol design and verification. Utilizing Large Language Models (LLMs), AVRE transforms protocol descriptions into dependency graphs and formal models, efficiently resolving ambiguities and capturing design intent. The system integrates a transformer model with LLMs to autonomously establish quantifiable dependency relationships through cross- and self-attention mechanisms. Enhanced by iterative feedback from the HyFuzz experimental platform, AVRE significantly advances the accuracy and relevance of formal verification in complex communication protocols, offering a groundbreaking approach to validating sophisticated communication systems. We compare CAL's performance with state-of-the-art LLM-based models and traditional time sequence models, demonstrating its superiority in accuracy and robustness, achieving an accuracy of 95.94\% and an AUC of 0.98. This NLP-based approach enables, for the first time, the creation of exploits directly from design documents, making remarkable progress in scalable system verification and validation.
翻訳日:2024-01-02 14:27:16 公開日:2023-12-28
# データからビジョンを学ぶモデルからビジョンを学ぶ

Learning Vision from Models Rivals Learning Vision from Data ( http://arxiv.org/abs/2312.17742v1 )

ライセンス: Link先を確認
Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola(参考訳) 合成画像と合成キャプションからのみ視覚表現を学習する新しい手法であるSynCLRを実データなしで導入する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。 コントラスト学習により合成画像上で視覚的表現学習を行い,同じキャプションを共有する画像を正のペアとして扱う。 結果として得られる表現は多くの下流タスクにうまく移行し、画像分類タスクにおいてCLIPやDINO v2といった他の汎用視覚表現学習者と競合する。 さらに、セマンティックセグメンテーションのような密集した予測タスクでは、SynCLRは従来の自己監督手法よりも、例えばViT-B/16のADE20k上でMAEとiBOTを6.2mIoUで改善している。

We introduce SynCLR, a novel approach for learning visual representations exclusively from synthetic images and synthetic captions, without any real data. We synthesize a large dataset of image captions using LLMs, then use an off-the-shelf text-to-image model to generate multiple images corresponding to each synthetic caption. We perform visual representation learning on these synthetic images via contrastive learning, treating images sharing the same caption as positive pairs. The resulting representations transfer well to many downstream tasks, competing favorably with other general-purpose visual representation learners such as CLIP and DINO v2 in image classification tasks. Furthermore, in dense prediction tasks such as semantic segmentation, SynCLR outperforms previous self-supervised methods by a significant margin, e.g., improving over MAE and iBOT by 6.2 and 4.3 mIoU on ADE20k for ViT-B/16.
翻訳日:2024-01-02 08:54:24 公開日:2023-12-28
# 特徴再利用の実用性:データ入力レジームにおける伝達学習

The Utility of Feature Reuse: Transfer Learning in Data-Starved Regimes ( http://arxiv.org/abs/2003.04117v2 )

ライセンス: Link先を確認
Rashik Shadman, M.G. Sarwar Murshed, Edward Verenich, Alvaro Velasquez, Faraz Hussain(参考訳) ディープニューラルネットワークによるトランスファーラーニングの利用は、よくテストされたコンピュータビジョンシステムを新しいドメイン、特に限られたデータセットにデプロイする上で、ますます普及している。 本稿では,100以上のラベル付きターゲットサンプルを持つデータ格納型ドメインのトランスファー学習ユースケースについて述べる。 本研究では,対象訓練データのサイズに対する過パラメータモデルの畳み込み特徴抽出と微調整の有効性と,共変量シフトデータ,あるいはout-of-distribution(ood)データに対する一般化性能を評価する。 本実験は, 過パラメータ化と特徴再利用が, データスターベドシステムにおける画像分類器の訓練における伝達学習の成功に寄与することを示した。 我々は,この結果を支える視覚的説明を提供し,データスターベッドシステムにおけるCNNアーキテクチャの性能向上を結論づける。

The use of transfer learning with deep neural networks has increasingly become widespread for deploying well-tested computer vision systems to newer domains, especially those with limited datasets. We describe a transfer learning use case for a domain with a data-starved regime, having fewer than 100 labeled target samples. We evaluate the effectiveness of convolutional feature extraction and fine-tuning of overparameterized models with respect to the size of target training data, as well as their generalization performance on data with covariate shift, or out-of-distribution (OOD) data. Our experiments demonstrate that both overparameterization and feature reuse contribute to the successful application of transfer learning in training image classifiers in data-starved regimes. We provide visual explanations to support our findings and conclude that transfer learning enhances the performance of CNN architectures in data-starved regimes.
翻訳日:2023-12-31 16:47:13 公開日:2023-12-28
# 超高速電子回折によるMoS2の間接励起子-フォノンダイナミクス

Indirect exciton-phonon dynamics in MoS2 revealed by ultrafast electron diffraction ( http://arxiv.org/abs/2112.15240v2 )

ライセンス: Link先を確認
Jianbo Hu, Yang Xiang, Beatrice Matilde Ferrari, Emilio Scalise, and Giovanni Maria Vanacore(参考訳) 遷移金属ジアルコゲナイド層状ナノ結晶は、次世代の光電子・量子デバイス候補として期待されている。 このような系では、励起状態と原子振動の相互作用はキャリアの運動量、量子コヒーレンス損失、熱散逸など多くの基本的な性質にとって重要である。 特に、谷選択励起を完全に活用するには、ゾーンエッジ状態の多体励起子物理学を理解する必要がある。 これまでの理論的、実験的研究は主にゾーン中心フォノンを含む高エネルギー直接励起子の励起子-フォノンダイナミクスに焦点を当ててきた。 本研究では、超高速電子回折とab initio計算を用いて、mos2中の低エネルギー間接励起子をほぼ共鳴励起した後の多体構造ダイナミクスの研究を行う。 散乱電子によってもたらされる大きな運動量を利用して、E^'対称性の面内K-およびQ-フォノンモードの励起を1.55eVで近赤外光によって生じる間接励起子の安定化の鍵として同定し、フォノン不調和性の役割とその後のMoS2結晶格子の構造進化に光を当てた。 本研究は,システム内で引き起こされる波長依存性電子遷移の特定の間接励起特性に直接関連するフォノニック励起の強い選択性に注目した。

Transition metal dichalcogenides layered nano-crystals are emerging as promising candidates for next-generation optoelectronic and quantum devices. In such systems, the interaction between excitonic states and atomic vibrations is crucial for many fundamental properties, such as carrier mobilities, quantum coherence loss, and heat dissipation. In particular, to fully exploit their valley-selective excitations, one has to understand the many-body exciton physics of zone-edge states. So far, theoretical and experimental studies have mainly focused on the exciton-phonon dynamics in high-energy direct excitons involving zone-center phonons. Here, we use ultrafast electron diffraction and ab initio calculations to investigate the many-body structural dynamics following nearly-resonant excitation of low-energy indirect excitons in MoS2. By exploiting the large momentum carried by scattered electrons, we identify the excitation of in-plane K- and Q-phonon modes with E^' symmetry as key for the stabilization of indirect excitons generated via near-infrared light at 1.55 eV, and we shed light on the role of phonon anharmonicity and the ensuing structural evolution of the MoS2 crystal lattice. Our results highlight the strong selectivity of phononic excitations directly associated with the specific indirect-exciton nature of the wavelength-dependent electronic transitions triggered in the system.
翻訳日:2023-12-30 00:07:24 公開日:2023-12-28
# 2次元フェルミオン系における非キラル位相の完全分類に向けて

Towards a complete classification of non-chiral topological phases in 2D fermion systems ( http://arxiv.org/abs/2112.06124v2 )

ライセンス: Link先を確認
Jing-Ren Zhou and Qing-Rui Wang and Zheng-Cheng Gu(参考訳) 近年、量子物質のフェルミオン位相相は多くの注目を集めている。 Gu, Wang, Wenの先駆的な研究で、2次元フェルミオン系の非キラル位相を体系的に理解するためにフェルミオン局所ユニタリ変換(FLU)の同値類の概念が提案され、不完全分類が得られた。 一方、フェルミオン凝縮の物理像とその対応する超ピボット圏は、量子物質のフェルミオントポロジカル位相を記述するための一般的な数学的枠組みをもたらす。 特に、ある種のフェルミオン位相相において、ボソニック理論に類似性を持たないいわゆるq型エノン励起が存在することが指摘されている。 本稿では,Gu, Wang, Wenの構造を一般化し,これらフェルミオントポロジカル位相をq型エノン励起で包含する。 2+1D のすべての非キラルフェルミオン位相は、位相因子 $(N^{ij}_{k},F^{ij}_{k},F^{ijm,\alpha\beta}_{kln,\chi\delta},n_{i},d_{i})$, $\Xi^{ijm,\alpha\beta}_{kl}$, $\Xi^{ij}_{kln,\chi\delta}$, $\Omega^{kim,\alpha\beta}_{jl}$, $\Omega^{kim,\alpha\beta}_{jl}$,\chi\delta}$のテンソルによって特徴づけられる。 さらに、代数方程式間の整合条件は、これらの位相因子にさらなる制約をもたらし、3次元スピン多様体の任意の三角形に対する位相不変分割を構築することができる。 最後に、iing fermionic topological phaseの$\mathbb{z}_{2n}$パラフェルミオン一般化と見なすことのできる、丹波-山上圏のフェルミオン位相相を$\mathbb{z}_{2n}$とするいくつかの例について論じる。

In recent years, fermionic topological phases of quantum matter has attracted a lot of attention. In a pioneer work by Gu, Wang and Wen, the concept of equivalence classes of fermionic local unitary(FLU) transformations was proposed to systematically understand non-chiral topological phases in 2D fermion systems and an incomplete classification was obtained. On the other hand, the physical picture of fermion condensation and its corresponding super pivotal categories give rise to a generic mathematical framework to describe fermionic topological phases of quantum matter. In particular, it has been pointed out that in certain fermionic topological phases, there exists the so-called q-type anyon excitations, which have no analogues in bosonic theories. In this paper, we generalize the Gu, Wang and Wen construction to include those fermionic topological phases with q-type anyon excitations. We argue that all non-chiral fermionic topological phases in 2+1D are characterized by a set of tensors $(N^{ij}_{k},F^{ij}_{k},F^{ijm,\alpha\beta}_{kln,\chi\delta},n_{i},d_{i})$, which satisfy a set of nonlinear algebraic equations parameterized by phase factors $\Xi^{ijm,\alpha\beta}_{kl}$, $\Xi^{ij}_{kln,\chi\delta}$, $\Omega^{kim,\alpha\beta}_{jl}$ and $\Omega^{ki}_{jln,\chi\delta}$. Moreover, consistency conditions among algebraic equations give rise to additional constraints on these phase factors which allow us to construct a topological invariant partition for an arbitrary triangulation of 3D spin manifold. Finally, several examples with q-type anyon excitations are discussed, including the Fermionic topological phase from Tambara-Yamagami category for $\mathbb{Z}_{2N}$, which can be regarded as the $\mathbb{Z}_{2N}$ parafermion generalization of Ising fermionic topological phase.
翻訳日:2023-12-30 00:07:03 公開日:2023-12-28
# Piyavskii-Shubertアルゴリズムの累積回帰解析と大域最適化のための変数

Cumulative Regret Analysis of the Piyavskii--Shubert Algorithm and Its Variants for Global Optimization ( http://arxiv.org/abs/2108.10859v2 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では,piyavskii-shubertアルゴリズムとその変種の性能を解析し,大域的最適化の問題について検討する。 与えられた期間の任意の$T$に対して、広範囲に研究された単純な後悔(これは、最良の見積もりとグローバルな最小値の間の損失の差である)の代わりに、累積的後悔を時間$T$まで調べる。 L$-Lipschitz連続函数に対して、累積後悔は$O(L\log T)$であることを示す。 H$-Lipschitz の滑らかな函数に対して、累積後悔は$O(H)$であることを示す。 リプシッツ連続関数とリプシッツ滑らか関数の両方をカバーするホルダー連続微分関数について解析的に結果を拡張した。 さらに,piyavskii-shubertアルゴリズムの単純変種は,従来のリプシッツ連続関数やリプシッツ滑らか関数の変種と同様に動作することを示した。 我々はさらに,より広い関数のクラスに結果を拡張し,そのクエリを効率的に決定し,目的の極端(前述した多くの正規性を含む)上の一般凸あるいは凹凸正規性条件に対して,最小の最適(ログ係数まで)累積的後悔を達成することを示す。 我々は,未知の規則性,雑音評価,多変量領域におけるpiyavskii-shubert変種の性能について検討することで,さらなる拡張を検討する。

We study the problem of global optimization, where we analyze the performance of the Piyavskii--Shubert algorithm and its variants. For any given time duration $T$, instead of the extensively studied simple regret (which is the difference of the losses between the best estimate up to $T$ and the global minimum), we study the cumulative regret up to time $T$. For $L$-Lipschitz continuous functions, we show that the cumulative regret is $O(L\log T)$. For $H$-Lipschitz smooth functions, we show that the cumulative regret is $O(H)$. We analytically extend our results for functions with Holder continuous derivatives, which cover both the Lipschitz continuous and the Lipschitz smooth functions, individually. We further show that a simpler variant of the Piyavskii-Shubert algorithm performs just as well as the traditional variants for the Lipschitz continuous or the Lipschitz smooth functions. We further extend our results to broader classes of functions, and show that, our algorithm efficiently determines its queries; and achieves nearly minimax optimal (up to log factors) cumulative regret, for general convex or even concave regularity conditions on the extrema of the objective (which encompasses many preceding regularities). We consider further extensions by investigating the performance of the Piyavskii-Shubert variants in the scenarios with unknown regularity, noisy evaluation and multivariate domain.
翻訳日:2023-12-30 00:06:01 公開日:2023-12-28
# SGDの極限ダイナミクス:修正損失、位相空間振動、異常拡散

The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations, and Anomalous Diffusion ( http://arxiv.org/abs/2107.09133v4 )

ライセンス: Link先を確認
Daniel Kunin, Javier Sagastuy-Brena, Lauren Gillespie, Eshed Margalit, Hidenori Tanaka, Surya Ganguli, Daniel L. K. Yamins(参考訳) 本研究では,確率勾配勾配(SGD)を用いて学習したディープニューラルネットワークの限界ダイナミクスについて検討する。 前述したように、性能が収束した後も、ネットワークはパラメータ空間を移動し続け、非自明な指数を持つ勾配更新数において、距離移動が電力法則として増加する異常拡散の過程を経た。 この異常拡散を説明するトレーニングの最後に,最適化のハイパーパラメータ,勾配雑音の構造,およびヘッセン行列の間の複雑な相互作用を明らかにする。 そこで我々はまず,有限学習率とバッチサイズを持つSGDの連続時間モデルをアンダーダム化ランゲヴィン方程式として導出した。 パラメータの位相空間ダイナミクスとその初期化から定常性に至るまでの瞬時速度について、厳密な解析式を導出できる線形回帰(英語版)の設定において、この方程式を考察する。 Fokker-Planck方程式を用いて、これらのダイナミクスを駆動する重要な要素は、もともとのトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。 我々は、ImageNetで訓練されたResNet-18モデルの力学において、この理論の質的かつ定量的な予測を同定する。 統計物理学のレンズを通して、sgdで訓練された深層ニューラルネットワークの異常制限ダイナミクスのメカニックな起源を明らかにする。

In this work we explore the limiting dynamics of deep neural networks trained with stochastic gradient descent (SGD). As observed previously, long after performance has converged, networks continue to move through parameter space by a process of anomalous diffusion in which distance travelled grows as a power law in the number of gradient updates with a nontrivial exponent. We reveal an intricate interaction between the hyperparameters of optimization, the structure in the gradient noise, and the Hessian matrix at the end of training that explains this anomalous diffusion. To build this understanding, we first derive a continuous-time model for SGD with finite learning rates and batch sizes as an underdamped Langevin equation. We study this equation in the setting of linear regression, where we can derive exact, analytic expressions for the phase space dynamics of the parameters and their instantaneous velocities from initialization to stationarity. Using the Fokker-Planck equation, we show that the key ingredient driving these dynamics is not the original training loss, but rather the combination of a modified loss, which implicitly regularizes the velocity, and probability currents, which cause oscillations in phase space. We identify qualitative and quantitative predictions of this theory in the dynamics of a ResNet-18 model trained on ImageNet. Through the lens of statistical physics, we uncover a mechanistic origin for the anomalous limiting dynamics of deep neural networks trained with SGD.
翻訳日:2023-12-30 00:05:36 公開日:2023-12-28
# 対称テンソル分解における対称性破壊

Symmetry Breaking in Symmetric Tensor Decomposition ( http://arxiv.org/abs/2103.06234v2 )

ライセンス: Link先を確認
Yossi Arjevani, Joan Bruna, Michael Field, Joe Kileel, Matthew Trager, Francis Williams(参考訳) 本稿では,対称テンソルのランク分解の計算に関連する非凸最適化問題を考える。 損失関数の不変性特性を定式化し、標準勾配法で検出される臨界点が対象テンソルに対して \emph{symmetry breaking} であることを示す。 対象テンソルとノルムの異なる選択のために見られるこの現象は、最近開発された解析的および代数的ツールを用いて、類似した性質の対称性の破れ現象を示す非凸最適化風景を研究することができる。

In this note, we consider the highly nonconvex optimization problem associated with computing the rank decomposition of symmetric tensors. We formulate the invariance properties of the loss function and show that critical points detected by standard gradient based methods are \emph{symmetry breaking} with respect to the target tensor. The phenomena, seen for different choices of target tensors and norms, make possible the use of recently developed analytic and algebraic tools for studying nonconvex optimization landscapes exhibiting symmetry breaking phenomena of similar nature.
翻訳日:2023-12-30 00:05:14 公開日:2023-12-28
# 未知干渉実験における政策設計

Policy design in experiments with unknown interference ( http://arxiv.org/abs/2011.08174v8 )

ライセンス: Link先を確認
Davide Viviano, Jess Rudder(参考訳) 本稿では, 流出効果を考慮した政策の推定と推測に関する実験設計について検討する。 単位は有限個の大きなクラスタに編成され、各クラスタ内で未知の方法で相互作用する。 まず,クラスタペア間のランダム化を変動させることで,治療確率の変化による限界効果を推定し,余剰効果を考慮した単一波実験を提案する。 限界効果を用いて,政策最適性テストを提案する。 第2に、福祉最大化処理ルールを推定するための多重波実験を設計する。 大規模フィールド実験において,強い理論的保証と実装を提供する。

This paper studies experimental designs for estimation and inference on policies with spillover effects. Units are organized into a finite number of large clusters and interact in unknown ways within each cluster. First, we introduce a single-wave experiment that, by varying the randomization across cluster pairs, estimates the marginal effect of a change in treatment probabilities, taking spillover effects into account. Using the marginal effect, we propose a test for policy optimality. Second, we design a multiple-wave experiment to estimate welfare-maximizing treatment rules. We provide strong theoretical guarantees and an implementation in a large-scale field experiment.
翻訳日:2023-12-30 00:05:05 公開日:2023-12-28
# ガスパー:GrAph信号のRでのプロセシング

Gasper: GrAph Signal ProcEssing in R ( http://arxiv.org/abs/2007.10642v5 )

ライセンス: Link先を確認
Basile de Loynes, Fabien Navarro, Baptiste Olivier(参考訳) 本稿ではr gasperパッケージの使用に関する簡単なチュートリアルを紹介する。 Gasperはグラフ上の信号処理専用のパッケージである。 SuiteSparse Matrix Collectionへのインターフェースも提供する。

We present a short tutorial on to the use of the R gasper package. Gasper is a package dedicated to signal processing on graphs. It also provides an interface to the SuiteSparse Matrix Collection.
翻訳日:2023-12-30 00:04:57 公開日:2023-12-28
# 問題固有パラメータ化量子回路を用いた最適化問題に対するVQE収束の強化

Enhancing VQE Convergence for Optimization Problems with Problem-specific Parameterized Quantum Circuits ( http://arxiv.org/abs/2006.05643v3 )

ライセンス: Link先を確認
Atsushi Matsuo, Yudai Suzuki, Ikko Hamamura, Shigeru Yamashita(参考訳) 変分量子固有解法(VQE)アルゴリズムは、短期量子デバイスでの可能性に関心を寄せている。 vqeアルゴリズムでは、パラメータ化された量子回路(pqcs)を用いて量子状態を作成し、与えられたハミルトニアンの期待値を計算する。 効率的なPQCの設計は収束速度の向上に不可欠である。 本研究では,問題制約を含むPQCを動的に生成することにより,最適化問題に適したPQCを提案する。 このアプローチは、VQEアルゴリズムの恩恵を受けるユニタリ変換に着目し、収束を加速することによって、探索空間を縮小する。 実験の結果,提案したPQCの収束速度は最先端のPQCよりも優れており,最適化問題における問題固有のPQCの可能性が示された。

The Variational Quantum Eigensolver (VQE) algorithm is gaining interest for its potential use in near-term quantum devices. In the VQE algorithm, parameterized quantum circuits (PQCs) are employed to prepare quantum states, which are then utilized to compute the expectation value of a given Hamiltonian. Designing efficient PQCs is crucial for improving convergence speed. In this study, we introduce problem-specific PQCs tailored for optimization problems by dynamically generating PQCs that incorporate problem constraints. This approach reduces a search space by focusing on unitary transformations that benefit the VQE algorithm, and accelerate convergence. Our experimental results demonstrate that the convergence speed of our proposed PQCs outperforms state-of-the-art PQCs, highlighting the potential of problem-specific PQCs in optimization problems.
翻訳日:2023-12-30 00:04:55 公開日:2023-12-28
# 浅reluモデルにおける最小対称性の破れ原理について

On the Principle of Least Symmetry Breaking in Shallow ReLU Models ( http://arxiv.org/abs/1912.11939v3 )

ライセンス: Link先を確認
Yossi Arjevani, Michael Field(参考訳) 本研究では,2層reluネットワークを対象ネットワークで生成するラベルを仮定した2層損失に対して適合させる最適化問題を考える。 まず, 標準ガウス入力に着目し, 確率勾配降下 (sgd) によって検出されるスプリアス局所極小の構造は, 十分に定義された意味では, 対象の重みに対して, \emph{least loss of symmetry} であることを示した。 この分析をよく見ると、この最小対称性の破れの原理がより広い範囲の設定に適用できることを示している。 そこで本研究では,非等方性非生成物分布の異なるクラス,滑らかな活性化関数,いくつかの層を有するネットワークについて,この仮説を裏付ける一連の実験を行った。

We consider the optimization problem associated with fitting two-layer ReLU networks with respect to the squared loss, where labels are assumed to be generated by a target network. Focusing first on standard Gaussian inputs, we show that the structure of spurious local minima detected by stochastic gradient descent (SGD) is, in a well-defined sense, the \emph{least loss of symmetry} with respect to the target weights. A closer look at the analysis indicates that this principle of least symmetry breaking may apply to a broader range of settings. Motivated by this, we conduct a series of experiments which corroborate this hypothesis for different classes of non-isotropic non-product distributions, smooth activation functions and networks with a few layers.
翻訳日:2023-12-30 00:04:36 公開日:2023-12-28
# メモリ有界開ループ計画のための適応トンプソンサンプリングスタック

Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning ( http://arxiv.org/abs/1907.05861v2 )

ライセンス: Link先を確認
Thomy Phan, Thomas Gabor, Robert M\"uller, Christoph Roch, Claudia Linnhoff-Popien(参考訳) 我々は,部分的に観測可能なオープンループ計画のための一般的なメモリバウンドアプローチである,安定でメモリバウンドなオープンループ計画(symbol planning)を提案する。 SYMBOLはトンプソンサンプリングバンディットの適応的なスタックを維持しており、そのサイズは計画的地平線によって制限され、生成モデルを超えた事前のドメイン知識なしに、基礎領域に従って自動的に適応することができる。 我々は、SYMBOLを4つの大きなPMDPベンチマーク問題で実証的にテストし、ハイパーパラメータの選択の有効性とロバスト性を実証し、適応メモリ消費を評価した。 また、その性能を他のオープンループ計画アルゴリズムやPOMCPと比較する。

We propose Stable Yet Memory Bounded Open-Loop (SYMBOL) planning, a general memory bounded approach to partially observable open-loop planning. SYMBOL maintains an adaptive stack of Thompson Sampling bandits, whose size is bounded by the planning horizon and can be automatically adapted according to the underlying domain without any prior domain knowledge beyond a generative model. We empirically test SYMBOL in four large POMDP benchmark problems to demonstrate its effectiveness and robustness w.r.t. the choice of hyperparameters and evaluate its adaptive memory consumption. We also compare its performance with other open-loop planning algorithms and POMCP.
翻訳日:2023-12-30 00:04:19 公開日:2023-12-28
# 深層学習におけるオッカムラザーの幾何学的モデリング

A Geometric Modeling of Occam's Razor in Deep Learning ( http://arxiv.org/abs/1905.11027v5 )

ライセンス: Link先を確認
Ke Sun and Frank Nielsen(参考訳) なぜディープニューラルネットワーク(DNN)は高次元パラメータ空間の恩恵を受けるのか? それらの巨大なパラメータの複雑さと、実際に素晴らしいパフォーマンスは、より興味深く、正規モデルの標準理論を使って説明できない。 本研究では,この現象を研究するための幾何学的フレーバー情報理論手法を提案する。 具体的には,フィッシャー情報行列の重要次元数を考慮し,ニューラルネットワークモデルのパラメータ空間の局所変化次元性を導入し,特異半リーマン幾何学の枠組みを用いてパラメータ空間を多様体としてモデル化する。 我々は,DNNのパラメータの多さにもかかわらず,その特異性解析に基づいて,深部ニューラルネットワークモデルの短い記述長を求めるモデル複雑性尺度を導出する。

Why do deep neural networks (DNNs) benefit from very high dimensional parameter spaces? Their huge parameter complexities vs. stunning performances in practice is all the more intriguing and not explainable using the standard theory of regular models. In this work, we propose a geometrically flavored information-theoretic approach to study this phenomenon. Namely, we introduce the locally varying dimensionality of the parameter space of neural network models by considering the number of significant dimensions of the Fisher information matrix, and model the parameter space as a manifold using the framework of singular semi-Riemannian geometry. We derive model complexity measures which yield short description lengths for deep neural network models based on their singularity analysis thus explaining the good performance of DNNs despite their large number of parameters.
翻訳日:2023-12-30 00:04:07 公開日:2023-12-28
# 圧縮勾配差を用いた分散学習

Distributed Learning with Compressed Gradient Differences ( http://arxiv.org/abs/1901.09269v3 )

ライセンス: Link先を確認
Konstantin Mishchenko and Eduard Gorbunov and Martin Tak\'a\v{c} and Peter Richt\'arik(参考訳) 大規模機械学習モデルのトレーニングには、モデル更新の通信がボトルネックとなる分散コンピューティングアプローチが必要である。 このため、最近、qsgd (alistarh et al., 2017), terngrad (wen et al., 2017), signgd (bernstein et al., 2018), dqgd (khirirat et al., 2018) など、更新の圧縮 (sparsification and/or quantization) に基づくいくつかの方法が提案された。 しかし、これらの手法はいずれも勾配を学習することができず、バッチモードの真の最適値に収束することができない。 本研究では,勾配差の圧縮によりこの問題を解決する分散学習手法であるDIANAを提案する。 強凸および非凸設定において理論的解析を行い、我々の速度が既存の速度よりも優れていることを示す。 また、量子化スキームの違いを研究する非スムース正則化子をサポートする理論を提供する。 ブロック量子化と$\ell_2$と$\ell_{\infty}$の差の分析は、理論と実践のギャップを埋める。 最後に,解析手法を TernGrad に適用することにより,本手法の最初の収束率を確立する。

Training large machine learning models requires a distributed computing approach, with communication of the model updates being the bottleneck. For this reason, several methods based on the compression (e.g., sparsification and/or quantization) of updates were recently proposed, including QSGD (Alistarh et al., 2017), TernGrad (Wen et al., 2017), SignSGD (Bernstein et al., 2018), and DQGD (Khirirat et al., 2018). However, none of these methods are able to learn the gradients, which renders them incapable of converging to the true optimum in the batch mode. In this work we propose a new distributed learning method -- DIANA -- which resolves this issue via compression of gradient differences. We perform a theoretical analysis in the strongly convex and nonconvex settings and show that our rates are superior to existing rates. We also provide theory to support non-smooth regularizers study the difference between quantization schemes. Our analysis of block-quantization and differences between $\ell_2$ and $\ell_{\infty}$ quantization closes the gaps in theory and practice. Finally, by applying our analysis technique to TernGrad, we establish the first convergence rate for this method.
翻訳日:2023-12-30 00:03:56 公開日:2023-12-28
# クロスリンガル・トランスファーによるニュースレコメンデーション

Few-shot News Recommendation via Cross-lingual Transfer ( http://arxiv.org/abs/2207.14370v2 )

ライセンス: Link先を確認
Taicheng Guo, Lu Yu, Basem Shihada, Xiangliang Zhang(参考訳) コールドスタート問題は,温かいユーザのインタラクション記録を多用して,寒冷なユーザの嗜好を推測する一般的な考え方に従えば,レコメンデーションシステムにおいて広く認識され,研究されている。 しかし、これらのソリューションのパフォーマンスは、温かいユーザから利用できるレコードの量によって制限される。 したがって、少数のユーザによるインタラクションレコードに基づくレコメンデーションシステムを構築することは、不人気あるいは初期段階のレコメンデーションプラットフォームにとって依然として難しい問題である。 本稿は,ニュースレコメンデーションにおける2つの観察に基づく限定的レコメンデーション問題を解決することに焦点を当てる。 まず、異なるプラットフォーム(異なる言語でも)でのニュースは、同様のトピックを共有する可能性がある。 第二に、これらのトピックに対するユーザの好みは、異なるプラットフォーム間で転送可能である。 そこで本研究では,複数発のソースドメインから数発のターゲットドメインにユーザニュースの好みを移すことで,ニュースレコメンデーションの少ない課題を解決することを提案する。 異なる言語と重複するユーザやニュースのない2つのドメインを橋渡しするために,2つのドメインで意味的に類似したニュースを整合するニュースエンコーダとして,教師なし言語間転送モデルを提案する。 ユーザエンコーダは、アライメントされたニュースエンコーディングの上に構築され、ソースからターゲットドメインにユーザ好みを転送する。 2つの実世界のニュースレコメンデーションデータセットにおける実験結果は,提案手法がベースラインと比較して,少ないニュースレコメンデーションに対して優れた性能を示す。

The cold-start problem has been commonly recognized in recommendation systems and studied by following a general idea to leverage the abundant interaction records of warm users to infer the preference of cold users. However, the performance of these solutions is limited by the amount of records available from warm users to use. Thus, building a recommendation system based on few interaction records from a few users still remains a challenging problem for unpopular or early-stage recommendation platforms. This paper focuses on solving the few-shot recommendation problem for news recommendation based on two observations. First, news at different platforms (even in different languages) may share similar topics. Second, the user preference over these topics is transferable across different platforms. Therefore, we propose to solve the few-shot news recommendation problem by transferring the user-news preference from a many-shot source domain to a few-shot target domain. To bridge two domains that are even in different languages and without any overlapping users and news, we propose a novel unsupervised cross-lingual transfer model as the news encoder that aligns semantically similar news in two domains. A user encoder is constructed on top of the aligned news encoding and transfers the user preference from the source to target domain. Experimental results on two real-world news recommendation datasets show the superior performance of our proposed method on addressing few-shot news recommendation, comparing to the baselines.
翻訳日:2023-12-29 23:56:50 公開日:2023-12-28
# 多体局在隠蔽生成モデル

Many-body localized hidden generative models ( http://arxiv.org/abs/2207.02346v3 )

ライセンス: Link先を確認
Weishun Zhong, Xun Gao, Susanne F. Yelin, Khadijeh Najafi(参考訳) ボルンマシンは量子状態の確率論的性質を利用する量子に触発された生成モデルである。 本稿では,MBLダイナミックスと隠れユニットの両方を学習資源として利用する多体ローカライズドマシン(MBL)という新しいアーキテクチャを提案する。 隠れたユニットは、システムのトレーニング性を高める効果的な熱浴として機能し、MBLダイナミックスはトレーニング軌道を安定させる。 我々は,mnist手書き文字のおもちゃ版,量子多体状態から得られた量子データ,非局所パリティデータなど,mbl隠れボルンマシンが様々なタスクを学習できることを数値的に示す。 本手法は,量子多体系を学習資源として利用する新しい手法を提供し,量子多体系における障害,相互作用,学習の強力な関連を明らかにする。

Born machines are quantum-inspired generative models that leverage the probabilistic nature of quantum states. Here, we present a new architecture called many-body localized (MBL) hidden Born machine that utilizes both MBL dynamics and hidden units as learning resources. We show that the hidden units act as an effective thermal bath that enhances the trainability of the system, while the MBL dynamics stabilize the training trajectories. We numerically demonstrate that the MBL hidden Born machine is capable of learning a variety of tasks, including a toy version of MNIST handwritten digits, quantum data obtained from quantum many-body states, and non-local parity data. Our architecture and algorithm provide novel strategies of utilizing quantum many-body systems as learning resources, and reveal a powerful connection between disorder, interaction, and learning in quantum many-body systems.
翻訳日:2023-12-29 23:56:02 公開日:2023-12-28
# データ効率ganトレーニングのための拡張認識自己スーパービジョン

Augmentation-Aware Self-Supervision for Data-Efficient GAN Training ( http://arxiv.org/abs/2205.15677v5 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Yige Yuan, Songtao Zhao, Chongyang Ma, Siyuan Pan, Pengfei Wan, Zhongyuan Wang, Huawei Shen, Xueqi Cheng(参考訳) 限定されたデータを持つgans(generative adversarial networks)のトレーニングは、判別器が過剰に適合し易いため難しい。 従来提案された差別化可能拡張は、訓練用GANのデータ効率の改善を示す。 しかし、データ変換によるラベル空間のセマンティクスの変化を無視し、識別器の表現学習能力を制限し、最終的にジェネレータの生成モデル性能に影響を及ぼすため、識別器の増大に対する望ましくない不変性を暗黙的に導入する。 データ拡張の利点を継承しながら、不変性の悪影響を軽減するために、拡張データの拡張パラメータを予測する新しい強化対応自己教師付き判別器を提案する。 特に、実際のデータと生成されたデータの予測対象は、トレーニング中に異なるため、区別する必要がある。 さらに,自己監督型判別器から,偽データではなく拡張予測可能な実データを生成することで,逆向きに学習することを推奨する。 この定式化は、ある仮定の下で生成元の学習目標と算術 $-$ harmonic mean divergence を結びつける。 我々は,データ制限付きCIFAR-10, CIFAR-100, FFHQ, LSUN-Catおよび5つの低ショットデータセット上で, クラス条件のBigGANおよび非条件のStyleGAN2アーキテクチャを用いたSOTA手法との比較を行った。 実験により,データ効率のよいGANの訓練において,SOTA法よりも優れた手法が得られた。

Training generative adversarial networks (GANs) with limited data is challenging because the discriminator is prone to overfitting. Previously proposed differentiable augmentation demonstrates improved data efficiency of training GANs. However, the augmentation implicitly introduces undesired invariance to augmentation for the discriminator since it ignores the change of semantics in the label space caused by data transformation, which may limit the representation learning ability of the discriminator and ultimately affect the generative modeling performance of the generator. To mitigate the negative impact of invariance while inheriting the benefits of data augmentation, we propose a novel augmentation-aware self-supervised discriminator that predicts the augmentation parameter of the augmented data. Particularly, the prediction targets of real data and generated data are required to be distinguished since they are different during training. We further encourage the generator to adversarially learn from the self-supervised discriminator by generating augmentation-predictable real and not fake data. This formulation connects the learning objective of the generator and the arithmetic $-$ harmonic mean divergence under certain assumptions. We compare our method with state-of-the-art (SOTA) methods using the class-conditional BigGAN and unconditional StyleGAN2 architectures on data-limited CIFAR-10, CIFAR-100, FFHQ, LSUN-Cat, and five low-shot datasets. Experimental results demonstrate significant improvements of our method over SOTA methods in training data-efficient GANs.
翻訳日:2023-12-29 23:54:52 公開日:2023-12-28
# 点ギャップ位相相におけるバルク境界対応

Bulk-boundary correspondence in point-gap topological phases ( http://arxiv.org/abs/2205.15635v3 )

ライセンス: Link先を確認
Daichi Nakamura, Takumi Bessho, Masatoshi Sato(参考訳) 非エルミート系の注目すべき特徴は、2つの異なるタイプの位相の存在である。 1つはエルミート位相を一般化し、もう1つはラインギャップ位相とポイントギャップ位相と呼ばれる非エルミート系に固有のものである。 バルク境界対応は以前のトポロジーの基本的な原理であるが、後者におけるその役割はまだ明らかになっていない。 本稿では,非エルミート系における点ギャップ位相におけるバルク境界対応を確立する。 開境界条件における点ギャップトポロジーの要件を明らかにした後、開境界条件におけるバルク点ギャップトポロジーと周期境界条件との関係を明らかにする。 対称性を持つ開境界点ギャップ位相の完全な分類を与え、非自明な開境界位相がロバストかつエキゾチックな曲面状態をもたらすことを示す。

A striking feature of non-Hermitian systems is the presence of two different types of topology. One generalizes Hermitian topological phases, and the other is intrinsic to non-Hermitian systems, which are called line-gap topology and point-gap topology, respectively. Whereas the bulk-boundary correspondence is a fundamental principle in the former topology, its role in the latter has not been clear yet. This paper establishes the bulk-boundary correspondence in the point-gap topology in non-Hermitian systems. After revealing the requirement for point-gap topology in the open boundary conditions, we clarify that the bulk point-gap topology in open boundary conditions can be different from that in periodic boundary conditions. We give a complete classification of the open boundary point-gap topology with symmetry and show that the non-trivial open boundary topology results in robust and exotic surface states.
翻訳日:2023-12-29 23:53:57 公開日:2023-12-28
# 占有率情報比:無限ホリゾン、情報指向、パラメータ化ポリシー検索

Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search ( http://arxiv.org/abs/2201.08832v2 )

ライセンス: Link先を確認
Wesley A. Suttle, Alec Koppel, Ji Liu(参考訳) 本研究では,マルチアームドバンディットとマルコフ決定過程における従来の情報指向サンプリング方式における情報比目標と,汎用rlの最近の進歩に触発されて,無限ホリゾン強化学習(rl)のための情報指向目標であるoccupancy information ratio(oir)を提案する。 OIRは、政策の平均コストと誘導状態占有率のエントロピーの比率からなり、豊富な基盤構造を享受し、スケーラブルでモデルフリーな政策探索手法を自然に適用する目的を提示する。 具体的には,擬似コンケーブ最適化とマルコフ決定過程の線形プログラミング理論の接続を利用して,基礎となるモデルが知られている場合,OIR問題をコンケーブプログラミング手法で変換・解けることを示す。 モデル知識は実際には欠如しているため、対応する方針勾配定理を定め、モデルフリーなoirポリシー探索法の基礎を定めている。 この結果に基づいて、ポリシーパラメータ空間におけるOIR問題を解決するためのREINFORCEおよびアクター批判型アルゴリズムを導出する。 そこで,oir問題の凹型プログラミング変換に含意される,強力な隠れた準空洞特性を活用し,大域的最適性に対する強化型スキームの有限時間収束とアクタ-クリティック型スキームの漸近的収束を,適切な条件下で(ほぼ)大域的最適性に確立する。 最後に, スパース・リワード設定におけるバニラ法に対するOIR法の有用性を実験的に説明し, 既存のRL目的の代替としてOIRをサポートする。

In this work, we propose an information-directed objective for infinite-horizon reinforcement learning (RL), called the occupancy information ratio (OIR), inspired by the information ratio objectives used in previous information-directed sampling schemes for multi-armed bandits and Markov decision processes as well as recent advances in general utility RL. The OIR, comprised of a ratio between the average cost of a policy and the entropy of its induced state occupancy measure, enjoys rich underlying structure and presents an objective to which scalable, model-free policy search methods naturally apply. Specifically, we show by leveraging connections between quasiconcave optimization and the linear programming theory for Markov decision processes that the OIR problem can be transformed and solved via concave programming methods when the underlying model is known. Since model knowledge is typically lacking in practice, we lay the foundations for model-free OIR policy search methods by establishing a corresponding policy gradient theorem. Building on this result, we subsequently derive REINFORCE- and actor-critic-style algorithms for solving the OIR problem in policy parameter space. Crucially, exploiting the powerful hidden quasiconcavity property implied by the concave programming transformation of the OIR problem, we establish finite-time convergence of the REINFORCE-style scheme to global optimality and asymptotic convergence of the actor-critic-style scheme to (near) global optimality under suitable conditions. Finally, we experimentally illustrate the utility of OIR-based methods over vanilla methods in sparse-reward settings, supporting the OIR as an alternative to existing RL objectives.
翻訳日:2023-12-29 23:51:32 公開日:2023-12-28
# マトリックス分解とその応用

Matrix Decomposition and Applications ( http://arxiv.org/abs/2201.00145v3 )

ライセンス: Link先を確認
Jun Lu(参考訳) 1954年、alston s. householder は行列分解に関する最初の現代的な処理の一つである数値解析の原理を出版し、(ブロック)lu分解を好んだ。 そして今、行列分解は機械学習のコア技術となり、主にニューラルネットワークに適合するバック伝搬アルゴリズムの開発が原因となっている。 本研究の目的は,数値線形代数と行列解析における概念と数学的ツールの自己完結的な紹介を提供することであり,行列分解法とその応用を次の節でシームレスに導入することである。 しかし、行列分解に関する有用で興味深い結果をすべてカバーできないことは明らかであり、ユークリッド空間、エルミート空間、ヒルベルト空間、および複素領域の物事の分離解析など、この議論を示すためのスコープの空白が与えられた。 線形代数の分野における文献の読み手を参照し、関連する分野のより詳細な紹介を行う。

In 1954, Alston S. Householder published Principles of Numerical Analysis, one of the first modern treatments on matrix decomposition that favored a (block) LU decomposition-the factorization of a matrix into the product of lower and upper triangular matrices. And now, matrix decomposition has become a core technology in machine learning, largely due to the development of the back propagation algorithm in fitting a neural network. The sole aim of this survey is to give a self-contained introduction to concepts and mathematical tools in numerical linear algebra and matrix analysis in order to seamlessly introduce matrix decomposition techniques and their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning matrix decomposition and given the paucity of scope to present this discussion, e.g., the separated analysis of the Euclidean space, Hermitian space, Hilbert space, and things in the complex domain. We refer the reader to literature in the field of linear algebra for a more detailed introduction to the related fields.
翻訳日:2023-12-29 23:50:45 公開日:2023-12-28
# gRoMA: ディープニューラルネットワークのグローバルロバスト性を測定するツール

gRoMA: a Tool for Measuring the Global Robustness of Deep Neural Networks ( http://arxiv.org/abs/2301.02288v3 )

ライセンス: Link先を確認
Natan Levy and Raz Yerushalmi and Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は最先端技術の最前線にあり、さまざまな複雑なタスクにおいて顕著なパフォーマンスを実現している。 それでも、航空宇宙分野や自動車分野のような安全クリティカルなシステムへの統合は、敵の入力の脅威(DNNが重大な誤りを犯す可能性のある入力の摂動)のために大きな課題を生んでいる。 複数の研究が、現代のDNNでさえ敵の入力に影響を受けやすいことを示しており、このリスクを測定・緩和し、重要な環境でのDNNの展開を可能にする必要がある。 本稿では,dnnのグローバルカテゴリロバスト性を測定するための確率的手法を実装した,革新的でスケーラブルなツールであるgroma(global robustness measurement and assessment)を提案する。 具体的には、gRoMAは特定の出力カテゴリに対して逆入力に遭遇する確率を測定する。 本ツールは,事前学習したブラックボックス分類DNNで動作し,興味のある出力カテゴリに属する入力サンプルを生成する。 これは、DNNがこれらの入力の周囲の敵対的な入力に対する感受性を計測し、結果を集約し、DNNの全体的カテゴリー的ロバスト性を小さな境界統計誤差まで推測する。 我々は,CIFAR10データセット上で人気のDensenet DNNモデルを用いてツールの評価を行った。 結果から, 出力カテゴリーの頑健さに有意な差が認められた。 この実験は、我々のアプローチの有用性とスケーラビリティ、およびDNNを重要なシステムに展開できる可能性を示す。

Deep neural networks (DNNs) are at the forefront of cutting-edge technology, and have been achieving remarkable performance in a variety of complex tasks. Nevertheless, their integration into safety-critical systems, such as in the aerospace or automotive domains, poses a significant challenge due to the threat of adversarial inputs: perturbations in inputs that might cause the DNN to make grievous mistakes. Multiple studies have demonstrated that even modern DNNs are susceptible to adversarial inputs, and this risk must thus be measured and mitigated to allow the deployment of DNNs in critical settings. Here, we present gRoMA (global Robustness Measurement and Assessment), an innovative and scalable tool that implements a probabilistic approach to measure the global categorial robustness of a DNN. Specifically, gRoMA measures the probability of encountering adversarial inputs for a specific output category. Our tool operates on pre-trained, black-box classification DNNs, and generates input samples belonging to an output category of interest. It measures the DNN's susceptibility to adversarial inputs around these inputs, and aggregates the results to infer the overall global categorial robustness of the DNN up to some small bounded statistical error. We evaluate our tool on the popular Densenet DNN model over the CIFAR10 dataset. Our results reveal significant gaps in the robustness of the different output categories. This experiment demonstrates the usefulness and scalability of our approach and its potential for allowing DNNs to be deployed within critical systems of interest.
翻訳日:2023-12-29 23:43:43 公開日:2023-12-28
# スキューデータにおける異常検出のための遅延空間相関対応オートエンコーダ

A Latent Space Correlation-Aware Autoencoder for Anomaly Detection in Skewed Data ( http://arxiv.org/abs/2301.00462v2 )

ライセンス: Link先を確認
Padmaksha Roy(参考訳) 潜在空間における教師なし学習に基づく異常検出は、正規データからの異常の判別が高次元空間では困難になるため、重要になっている。 潜在空間における異常を検出するための密度推定法と距離法の両方が過去に研究されてきた。 これらの手法は、入力データの貴重な特性を潜在空間に保持することが、テストデータのより良い再構築に役立つことを証明している。 さらに、現実のセンサーデータは自然界において歪んで非ガウス的であり、平均に基づく推定器は歪んだデータには信頼できない。 また、再構成誤差に基づく異常検出手法は、特徴空間における有用な相関情報を考慮せず、トレーニング分布から逸脱した場合に正確にデータを再構成することができないユークリッド距離に依存する。 本研究では,レコンストラクション誤りに基づくオートエンコーダの限界に対処し,マハラノビス距離(md)の頑健な形式を利用して潜在次元相関を計測し,近値と遠値の両方の異常を効果的に検出するカーネル化オートエンコーダを提案する。 このハイブリッド損失は、低次元潜在空間における原データの有用な相関情報を保持しつつ、潜伏空間のエントロピーを最大化することにより、潜伏次元と高次元先行データ空間との間の相互情報ゲインを最大化する原理によって支援される。 多目的関数は2つの目標を持つ - 頑健なMD距離の形で潜在特徴空間内の相関情報を計測し、先行空間と潜時空間間の相互情報を最大化することにより、潜時空間内の原データ空間からの有用な相関情報を同時に保持しようとする。

Unsupervised learning-based anomaly detection in latent space has gained importance since discriminating anomalies from normal data becomes difficult in high-dimensional space. Both density estimation and distance-based methods to detect anomalies in latent space have been explored in the past. These methods prove that retaining valuable properties of input data in latent space helps in the better reconstruction of test data. Moreover, real-world sensor data is skewed and non-Gaussian in nature, making mean-based estimators unreliable for skewed data. Again, anomaly detection methods based on reconstruction error rely on Euclidean distance, which does not consider useful correlation information in the feature space and also fails to accurately reconstruct the data when it deviates from the training distribution. In this work, we address the limitations of reconstruction error-based autoencoders and propose a kernelized autoencoder that leverages a robust form of Mahalanobis distance (MD) to measure latent dimension correlation to effectively detect both near and far anomalies. This hybrid loss is aided by the principle of maximizing the mutual information gain between the latent dimension and the high-dimensional prior data space by maximizing the entropy of the latent space while preserving useful correlation information of the original data in the low-dimensional latent space. The multi-objective function has two goals -- it measures correlation information in the latent feature space in the form of robust MD distance and simultaneously tries to preserve useful correlation information from the original data space in the latent space by maximizing mutual information between the prior and latent space.
翻訳日:2023-12-29 23:43:00 公開日:2023-12-28
# 量子置換パッドを用いたFIPS互換量子セキュア通信

FIPS Compliant Quantum Secure Communication using Quantum Permutation Pad ( http://arxiv.org/abs/2301.00062v2 )

ライセンス: Link先を確認
Alex He and Dafu Lou and Eric She and Shangjie Guo and Hareesh Watson and Sibyl Weng and Maria Perepechaenko and Rand Kuang(参考訳) 量子コンピューティングは、ショアのアルゴリズムが1994年に提案されて以来、急速に発展してきた。 量子コンピューティングファームのマルチクラウドサービスは現在利用可能である。 そのうちの1つはIBMの量子コンピューティングで、2025年に4158キュービットを超えるKookaburraシステムを示すロードマップを公開している。 post-quantum cryptography(pqc)の標準化のために、national institute of standards and technology(nist)は先頃、キーカプセル化機構(kem)、kyber、デジタル署名のための3つのアルゴリズムによる標準化の最初の候補を発表した。 NISTはまた、量子セーフなデジタル署名アルゴリズムを2023年6月1日に発表した。 このタイムラインはfips認証の量子セーフtlsプロトコルが予測に時間がかかることを示している。 しかし、"steal now, crack later"戦術は、今日では将来の量子脅威アクターからデータを保護する必要がある。 nistはpqcをサポートするためにtls 1.3のハイブリッドモードの使用を推奨した。 ハイブリッドモードは特定のケースで機能するが、ハイブリッド化暗号モジュールに対するFIPS認証は依然として必要かもしれない。 本稿では,量子セーフデータを用いたTLS 1.3プロトコルを実現するネストモードを提案する。 ネストしたTLS 1.3のハンドシェイキングフェーズとPQCと対称暗号化フェーズのパフォーマンスへの影響について検討した。 ネストモードを使用したパフォーマンスに対する大きな影響は、AESによるデータ対称暗号化にある。 この性能低下を克服するために,データ暗号化に量子置換パッドを用いた量子暗号を用いることを提案する。

Quantum computing has entered fast development track since Shor's algorithm was proposed in 1994. Multi-cloud services of quantum computing farms are currently available. One of which, IBM quantum computing, presented a road map showing their Kookaburra system with over 4158 qubits will be available in 2025. For the standardization of Post-Quantum Cryptography or PQC, the National Institute of Standards and Technology or NIST recently announced the first candidates for standardization with one algorithm for key encapsulation mechanism (KEM), Kyber, and three algorithms for digital signatures. NIST has also issued a new call for quantum-safe digital signature algorithms due June 1, 2023. This timeline shows that FIPS-certified quantum-safe TLS protocol would take a predictably long time. However, "steal now, crack later" tactic requires protecting data against future quantum threat actors today. NIST recommended the use of a hybrid mode of TLS 1.3 with its extensions to support PQC. The hybrid mode works for certain cases but FIPS certification for the hybridized cryptomodule might still be required. This paper proposes to take a nested mode to enable TLS 1.3 protocol with quantum-safe data, which can be made available today and is FIPS compliant. We discussed the performance impacts of the handshaking phase of the nested TLS 1.3 with PQC and the symmetric encryption phase. The major impact on performance using the nested mode is in the data symmetric encryption with AES. To overcome this performance reduction, we suggest using quantum encryption with a quantum permutation pad for the data encryption with a minor performance reduction of less than 10 percent.
翻訳日:2023-12-29 23:42:32 公開日:2023-12-28
# 一般化ラベル付きマルチベルヌーリフィルタのための線形複雑gibbsサンプリング

Linear Complexity Gibbs Sampling for Generalized Labeled Multi-Bernoulli Filtering ( http://arxiv.org/abs/2211.16041v2 )

ライセンス: Link先を確認
Changbeom Shim, Ba-Tuong Vo, Ba-Ngu Vo, Jonah Ong, Diluka Moratuwage(参考訳) GLMB(Generalized Labeled Multi-Bernoulli)の密度は、単一対象フィルタリングにおいてガウスに類似した多対象系アプリケーションのホストに現れる。 しかし、GLMBフィルタリング密度の計算にはNPハード問題を解く必要がある。 この計算ボトルネックを緩和するために,glmb密度計算のための線形複雑gibbsサンプリングフレームワークを開発した。 具体的には、glmbフィルタリング密度の構造を利用して$\mathcal{o}(t(p+m))$ の複雑性を達成する、温和なギブス・サンプラーを提案し、ここで$t$はアルゴリズムの反復数、$p$と$m$は仮説のオブジェクトと測定値である。 この革新により、GLMBフィルタの実装は$\mathcal{O}(TP^{2}M)$複雑さから$\mathcal{O}(T(P+M+\log T)+PM)$に削減できる。 さらに,提案フレームワークは,性能追跡と計算負荷のトレードオフに対する柔軟性を提供する。 提案したGibsサンプルの収束性を確立し,提案したGLMBフィルタの実装を検証するために数値解析を行った。

Generalized Labeled Multi-Bernoulli (GLMB) densities arise in a host of multi-object system applications analogous to Gaussians in single-object filtering. However, computing the GLMB filtering density requires solving NP-hard problems. To alleviate this computational bottleneck, we develop a linear complexity Gibbs sampling framework for GLMB density computation. Specifically, we propose a tempered Gibbs sampler that exploits the structure of the GLMB filtering density to achieve an $\mathcal{O}(T(P+M))$ complexity, where $T$ is the number of iterations of the algorithm, $P$ and $M$ are the number hypothesized objects and measurements. This innovation enables the GLMB filter implementation to be reduced from an $\mathcal{O}(TP^{2}M)$ complexity to $\mathcal{O}(T(P+M+\log T)+PM)$. Moreover, the proposed framework provides the flexibility for trade-offs between tracking performance and computational load. Convergence of the proposed Gibbs sampler is established, and numerical studies are presented to validate the proposed GLMB filter implementation.
翻訳日:2023-12-29 23:42:05 公開日:2023-12-28
# 教師なし発話スタイル転送による音声感情認識の改善

Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer ( http://arxiv.org/abs/2211.08843v3 )

ライセンス: Link先を確認
Leyuan Qu, Wei Wang, Cornelius Weber, Pengcheng Yue, Taihao Li and Stefan Wermter(参考訳) 人間はストレスの配置や感情の強さといった様々な韻律的属性を無力に修正し、一貫した言語的内容を維持しながら特定の感情を伝達することができる。 そこで本研究では,感情表現の向上と音声感情認識タスクにおけるデータ不足問題への対処を目的とした,新しいスタイル伝達モデルであるEmoAugを提案する。 EmoAugは意味エンコーダとパラ言語エンコーダで構成され、それぞれ言語情報と非言語情報を表す。 さらに、デコーダは、前述の2つの情報の流れを教師なしで条件付けして音声信号を再構成する。 訓練が完了すると、エモーグはパラ言語エンコーダに異なるスタイルを与えることで、ストレス、リズム、強度といった異なる韻律的特徴を持つ感情的なスピーチの表現を豊かにする。 EmoAugを使うことで、各クラスに対して同様の数のサンプルを生成して、データ不均衡の問題にも対処できます。 IEMOCAPデータセットの実験結果は、EmoAugが話者のアイデンティティとセマンティックコンテンツを保持しながら、異なる話しスタイルを転送できることを示した。 さらに,emoaugによって拡張されたデータを用いてserモデルを訓練し,その拡張モデルが最先端の教師あり・自己教師あり手法を超えるだけでなく,データ不均衡に起因する過剰フィット問題を克服することを示す。 いくつかのオーディオサンプルは、私たちのデモwebサイトにある。

Humans can effortlessly modify various prosodic attributes, such as the placement of stress and the intensity of sentiment, to convey a specific emotion while maintaining consistent linguistic content. Motivated by this capability, we propose EmoAug, a novel style transfer model designed to enhance emotional expression and tackle the data scarcity issue in speech emotion recognition tasks. EmoAug consists of a semantic encoder and a paralinguistic encoder that represent verbal and non-verbal information respectively. Additionally, a decoder reconstructs speech signals by conditioning on the aforementioned two information flows in an unsupervised fashion. Once training is completed, EmoAug enriches expressions of emotional speech with different prosodic attributes, such as stress, rhythm and intensity, by feeding different styles into the paralinguistic encoder. EmoAug enables us to generate similar numbers of samples for each class to tackle the data imbalance issue as well. Experimental results on the IEMOCAP dataset demonstrate that EmoAug can successfully transfer different speaking styles while retaining the speaker identity and semantic content. Furthermore, we train a SER model with data augmented by EmoAug and show that the augmented model not only surpasses the state-of-the-art supervised and self-supervised methods but also overcomes overfitting problems caused by data imbalance. Some audio samples can be found on our demo website.
翻訳日:2023-12-29 23:41:48 公開日:2023-12-28
# 集合被覆を用いた総合的ステグアナリシスのためのデータベース作成

Using Set Covering to Generate Databases for Holistic Steganalysis ( http://arxiv.org/abs/2211.03447v2 )

ライセンス: Link先を確認
Rony Abecidan (CRIStAL, CNRS), Vincent Itier (CRIStAL, IMT Nord Europe, CNRS), J\'er\'emie Boulanger (CRIStAL, CNRS), Patrick Bas (CRIStAL, CNRS), Tom\'a\v{s} Pevn\'y (CTU)(参考訳) 運用フレームワーク内では、ステガノグラフィーが使用するカバーは、研究者がステガナリシスモデルをトレーニングするために使用するものと異なるセンサーと異なる処理パイプラインから来る可能性が高い。 したがって、アウト・オブ・ディストリビューションに関してはパフォーマンスギャップは避けられない。CSM(Cover Source Mismatch)と呼ばれる非常に頻繁に発生するシナリオだ。 ここでは,csmの起源を研究するための処理パイプラインのグリッドを調査し,その理解を深め,それに取り組む。 集合被覆グリードアルゴリズムを用いて、集合内の代表とパイプライン間の最大の後悔を最小限に抑える代表パイプラインを選択する。 私たちの主な貢献は、運用上のcsmに取り組むことのできる関連するベースを生成するための方法論です。 実験的な検証では、特定の数のトレーニングサンプルに対して、ランダムなパイプラインの選択や利用可能なパイプラインをすべて使用するよりも、選択をカバーする方が優れた戦略であることを強調しています。 分析の結果,脱音,シャープ化,ダウンサンプリングといったパラメータが多様性を育む上で非常に重要であることが明らかとなった。 最後に、古典データベースと野生データベースのベンチマークは、抽出したデータベースの優れた一般化特性を示している。 追加のリソースはgithub.com/ronyabecidan/holisticsteg analysiswithsetcoveringで入手できる。

Within an operational framework, covers used by a steganographer are likely to come from different sensors and different processing pipelines than the ones used by researchers for training their steganalysis models. Thus, a performance gap is unavoidable when it comes to out-of-distributions covers, an extremely frequent scenario called Cover Source Mismatch (CSM). Here, we explore a grid of processing pipelines to study the origins of CSM, to better understand it, and to better tackle it. A set-covering greedy algorithm is used to select representative pipelines minimizing the maximum regret between the representative and the pipelines within the set. Our main contribution is a methodology for generating relevant bases able to tackle operational CSM. Experimental validation highlights that, for a given number of training samples, our set covering selection is a better strategy than selecting random pipelines or using all the available pipelines. Our analysis also shows that parameters as denoising, sharpening, and downsampling are very important to foster diversity. Finally, different benchmarks for classical and wild databases show the good generalization property of the extracted databases. Additional resources are available at github.com/RonyAbecidan/HolisticSteganalysisWithSetCovering.
翻訳日:2023-12-29 23:41:23 公開日:2023-12-28
# 運動量空間におけるヒルベルト空間の断片化から生じる永続電流状態

Persistent-current states originating from the Hilbert space fragmentation in momentum space ( http://arxiv.org/abs/2211.00785v5 )

ライセンス: Link先を確認
Masaya Kunimi and Ippei Danshita(参考訳) ヒルベルト空間フラグメンテーション (Hilbert space fragmentation, HSF) は、孤立量子系のヒルベルト空間が指数的に多くの非連結部分集合に分裂する現象である。 分裂した系は、ダイナミクスが小さなサブセクタに制限されるため、長期間の進化の後に熱化することはない。 HSFの最近の発展に触発されて、運動量空間において HSF を示すハミルトニアンを構成する。 運動量空間のHSFにより、持続電流(PC)状態が出現することを示す。 また,hsfの構造を破る確率ポテンシャルに対するpc状態の安定性についても検討し,pcの減衰速度が電流速度にほぼ依存していることを見いだした。

Hilbert space fragmentation (HSF) is a phenomenon that the Hilbert space of an isolated quantum system splits into exponentially many disconnected subsectors. The fragmented systems do not thermalize after long-time evolution because the dynamics are restricted to a small subsector. Inspired by recent developments of the HSF, we construct the Hamiltonian that exhibits the HSF in the momentum space. We show that persistent-current (PC) states emerge due to the HSF in the momentum space. We also investigate the stability of the PC states against the random potential, which breaks the structure of the HSF, and find that the decay rate of the PC is almost independent of the current velocity.
翻訳日:2023-12-29 23:41:06 公開日:2023-12-28
# ガウス混合モデル上のロバスト非教師なしマルチタスクおよび転送学習

Robust Unsupervised Multi-task and Transfer Learning on Gaussian Mixture Models ( http://arxiv.org/abs/2209.15224v2 )

ライセンス: Link先を確認
Ye Tian, Haolei Weng, Yang Feng(参考訳) 教師なし学習は多くの現実世界のアプリケーションで広く使われている。 最も単純かつ重要な教師なし学習モデルの1つはガウス混合モデル(GMM)である。 本研究では,GMMにおけるマルチタスク学習問題について検討し,タスク間の類似したGMMパラメータ構造を活用し,シングルタスク学習と比較して学習性能の向上を図る。 本稿では,EMアルゴリズムに基づくマルチタスクGMM学習手法を提案する。これは,関連するタスク間の未知の類似性を効果的に活用できるだけでなく,任意の分布から外れたタスクに対して頑健である。 提案手法は,パラメータ推定誤差と過剰な誤クラスタリング誤差の両方に対して,幅広い状況下で最小収束率を達成する。 さらに,同様の理論的結果が導出されるGMMにおける移動学習問題へのアプローチを一般化する。 最後に,シミュレーションと実データ例を用いて本手法の有効性を示す。 我々の知る限りでは、理論的保証のあるGMM上でマルチタスクとトランスファー学習を研究する最初の研究である。

Unsupervised learning has been widely used in many real-world applications. One of the simplest and most important unsupervised learning models is the Gaussian mixture model (GMM). In this work, we study the multi-task learning problem on GMMs, which aims to leverage potentially similar GMM parameter structures among tasks to obtain improved learning performance compared to single-task learning. We propose a multi-task GMM learning procedure based on the EM algorithm that not only can effectively utilize unknown similarity between related tasks but is also robust against a fraction of outlier tasks from arbitrary distributions. The proposed procedure is shown to achieve minimax optimal rate of convergence for both parameter estimation error and the excess mis-clustering error, in a wide range of regimes. Moreover, we generalize our approach to tackle the problem of transfer learning for GMMs, where similar theoretical results are derived. Finally, we demonstrate the effectiveness of our methods through simulations and real data examples. To the best of our knowledge, this is the first work studying multi-task and transfer learning on GMMs with theoretical guarantees.
翻訳日:2023-12-29 23:40:05 公開日:2023-12-28
# コラボレーションAIの根と要件

Roots and Requirements for Collaborative AIs ( http://arxiv.org/abs/2303.12040v6 )

ライセンス: Link先を確認
Mark Stefik(参考訳) AI協力者のビジョンは神話とSFの基礎であり、特別な才能を持つ人工エージェントが人間のパートナーやチームを支援する。 この夢では、高度なAIはコラボレーションと人間のコミュニケーションのニュアンスを理解する。 コラボレーションの夢としてのAIは、人間の知性(IA)を増強するコンピュータツールや、中間的な人間のコラボレーションとは異なる。 このようなツールは1960年代に起源を持ち、情報技術革命の推進に寄与した。 役に立ちますが、知的ではなく、熟練した人々ほど効果的に協力しません。 新型コロナウイルス(COVID-19)のパンデミック以降のハイブリッドワークとリモートワークの増加に伴い、より良いコーディネーション、コラボレーション、コミュニケーションのためのメリットと要件が職場でホットな話題になりつつある。 雇用主と労働者は、在宅勤務とオフィス勤務の選択肢を交渉するときに、選択とトレードオフに直面します。 雇用主の近くの住宅の高コストなど多くの要因がオフィスへの大量復帰を妨げている。 AIの政府諮問グループとリーダーは、AIは透明で効果的な協力者であるべきだと長年主張してきた。 それでも、才能のある人たちのように協力する堅牢なAIは、まだ手の届かないままだ。 AIチームメイトはソリューションの一部か? 人工的な知性(AI)はどの程度あるべきか? このポジションペーパーは、人間と機械のチームづくりのための技術と公共の要求の弧を概観する。 心理学や社会科学において、人間のようなコラボレーションが必要とするものについて研究している。 本稿では、レジリエンス、インテリジェント、および人間と互換性のあるAIを作成するための技術と方法論の急激なシフトを提唱する第2の科学主導の論文(Stefik & Price, 2023)のコンテキストを設定する。 願望的な目標は、そのようなAIが学び、学んだことを共有し、高い能力を達成するために協力することだ。

The vision of AI collaborators is a staple of mythology and science fiction, where artificial agents with special talents assist human partners and teams. In this dream, sophisticated AIs understand nuances of collaboration and human communication. The AI as collaborator dream is different from computer tools that augment human intelligence (IA) or intermediate human collaboration. Such tools have their roots in the 1960s and helped to drive an information technology revolution. They can be useful but they are not intelligent and do not collaborate as effectively as skilled people. With the increase of hybrid and remote work since the COVID pandemic, the benefits and requirements for better coordination, collaboration, and communication are becoming a hot topic in the workplace. Employers and workers face choices and trade-offs as they negotiate the options for working from home versus working at the office. Many factors such as the high costs of homes near employers are impeding a mass return to the office. Government advisory groups and leaders in AI have advocated for years that AIs should be transparent and effective collaborators. Nonetheless, robust AIs that collaborate like talented people remain out of reach. Are AI teammates part of a solution? How artificially intelligent (AI) could and should they be? This position paper reviews the arc of technology and public calls for human-machine teaming. It draws on earlier research in psychology and the social sciences about what human-like collaboration requires. This paper sets a context for a second science-driven paper that advocates a radical shift in technology and methodology for creating resilient, intelligent, and human-compatible AIs (Stefik & Price, 2023). The aspirational goal is that such AIs would learn, share what they learn, and collaborate to achieve high capabilities.
翻訳日:2023-12-29 23:33:52 公開日:2023-12-28
# 非零温度における量子非調和鎖のR'enyiエントロピー

R\'enyi entropy of quantum anharmonic chain at non-zero temperature ( http://arxiv.org/abs/2303.04768v2 )

ライセンス: Link先を確認
Miha Srdin\v{s}ek, Michele Casula, and Rodolphe Vuilleumier(参考訳) 量子臨界点(QCP)近傍における量子的および古典的ゆらぎの相互作用は、異なる量子的特徴を持つ様々な状態や位相を引き起こす。 本研究では, r\'enyiエントロピーが, 有限温度での局所秩序の出現を検知する能力により, qcpの周辺だけでなく, そこから離れた臨界系の位相図を特徴付ける貴重なツールであることを示す。 r\'enyiエントロピーの効率的な評価のために、経路積分ランジュバンダイナミクスに基づく新しいアルゴリズムと、以前に提案された正規化経路に基づく熱力学積分法を提案する。 この枠組みを用いて、非調和振動子の線形鎖の臨界挙動、特に$\phi^4$モデルの実現について研究する。 温度と相互作用強度の両方の関数として,その相図を完全に解決した。 有限温度では、相互作用が増加するにつれて、パラ、不規則、準長距離秩序の3つのレジームの列を見つける。 R'enyiエントロピーの発散は、常温と乱れた状態の交叉と一致し、温度依存は見られない。 一方、準長距離秩序の発生は温度に依存する。 2つの交差線は、r\'enyiエントロピーが鋭くピークとなるゼロ温度でqcpに近接して合流する。 サブシステムサイズのスケーリングにより、遷移は2次元のイジング普遍性クラスに属することを確認できる。 この現象学は、すべての$\phi^4$-like系や、第VII相、第VIII相、第X相の溶存水の氷転移で起こることが期待されている。

The interplay of quantum and classical fluctuations in the vicinity of a quantum critical point (QCP) gives rise to various regimes or phases with distinct quantum character. In this work, we show that the R\'enyi entropy is a precious tool to characterize the phase diagram of critical systems not only around the QCP but also away from it, thanks to its capability to detect the emergence of local order at finite temperature. For an efficient evaluation of the R\'enyi entropy, we introduce a new algorithm based on a path integral Langevin dynamics combined with a previously proposed thermodynamic integration method built on regularized paths. We apply this framework to study the critical behavior of a linear chain of anharmonic oscillators, a particular realization of the $\phi^4$ model. We fully resolved its phase diagram, as a function of both temperature and interaction strength. At finite temperature, we find a sequence of three regimes - para, disordered and quasi long-range ordered -, met as the interaction is increased. The R\'enyi entropy divergence coincides with the crossover between the para and disordered regime, which shows no temperature dependence. The occurrence of quasi long-range order, on the other hand, is temperature dependent. The two crossover lines merge in proximity of the QCP, at zero temperature, where the R\'enyi entropy is sharply peaked. Via its subsystem-size scaling, we confirm that the transition belongs to the two-dimensional Ising universality class. This phenomenology is expected to happen in all $\phi^4$-like systems, as well as in the elusive water ice transition across phases VII, VIII and X.
翻訳日:2023-12-29 23:33:24 公開日:2023-12-28
# 大規模機械学習モデルのための証明可能な量子アルゴリズムを目指して

Towards provably efficient quantum algorithms for large-scale machine-learning models ( http://arxiv.org/abs/2303.03428v5 )

ライセンス: Link先を確認
Junyu Liu, Minzhao Liu, Jin-Peng Liu, Ziyu Ye, Yunfei Wang, Yuri Alexeev, Jens Eisert, Liang Jiang(参考訳) 大規模な機械学習モデルは人工知能の革命的な技術であり、そのボトルネックには、事前学習と微調整の両方で使用される膨大な計算コスト、パワー、時間が含まれる。 本研究では,nはモデルのサイズであり,tはモデルのサイズであり,tはモデルが十分に散逸的かつスパースであり,学習率が低い限り,モデルがモデルの反復数であるo(t^2 polylog(n))としてスケールすることで,フォールトトレラントな量子コンピューティングが汎用的(確率的)勾配降下アルゴリズムに対して確実に効率的な分解能を提供できることを示す。 散逸微分方程式に対するより効率的な量子アルゴリズムに基づいて、類似のアルゴリズムが機械学習の主要なアルゴリズムである(確率的な)勾配降下のために機能することを発見し、証明する。 実際には、700万から1億300万のパラメータを持つ大規模機械学習モデルのインスタンスをベンチマークします。 スパーストレーニングの文脈では、モデルプルーニング後の学習の初期段階で量子拡張が可能であり、スパースパラメータのダウンロードと再アップロードのスキームを動機付けている。 我々の研究は、フォールトトレラントな量子アルゴリズムが、最先端の大規模機械学習問題の多くに寄与する可能性を確証している。

Large machine learning models are revolutionary technologies of artificial intelligence whose bottlenecks include huge computational expenses, power, and time used both in the pre-training and fine-tuning process. In this work, we show that fault-tolerant quantum computing could possibly provide provably efficient resolutions for generic (stochastic) gradient descent algorithms, scaling as O(T^2 polylog(n)), where n is the size of the models and T is the number of iterations in the training, as long as the models are both sufficiently dissipative and sparse, with small learning rates. Based on earlier efficient quantum algorithms for dissipative differential equations, we find and prove that similar algorithms work for (stochastic) gradient descent, the primary algorithm for machine learning. In practice, we benchmark instances of large machine learning models from 7 million to 103 million parameters. We find that, in the context of sparse training, a quantum enhancement is possible at the early stage of learning after model pruning, motivating a sparse parameter download and re-upload scheme. Our work shows solidly that fault-tolerant quantum algorithms could potentially contribute to most state-of-the-art, large-scale machine-learning problems.
翻訳日:2023-12-29 23:32:58 公開日:2023-12-28
# EvHandPose:スパーススーパービジョンによるイベントベースの3Dハンドポース推定

EvHandPose: Event-based 3D Hand Pose Estimation with Sparse Supervision ( http://arxiv.org/abs/2303.02862v3 )

ライセンス: Link先を確認
Jianping Jiang, Jiahe Li, Baowen Zhang, Xiaoming Deng, Boxin Shi(参考訳) イベントカメラは3次元ポーズ推定において大きな可能性を示し、特に低消費電力で高速な動きと高ダイナミックレンジの課題に対処する。 しかし, 非同期差動イメージング機構により, 手の動きが不明瞭である場合に手の動き情報を符号化するイベント表現を設計することは困難であり, 時間的に密接なイベントストリームを完全にアノテートすることは不可能である。 本稿では,手動ポーズの正確な推定と動作のあいまいさの軽減のために,イベント・ツー・Poseモジュールに新しい手動フロー表現を備えたEvHandPoseを提案する。 スパースアノテーションの下でこの問題を解決するため,Pose-to-IWEモジュールのコントラスト最大化と手辺制約を設計し,EvHandPoseを弱スーパービジョンフレームワークで定式化する。 evrealhandsは、現実世界のドメインギャップを埋めるため、いくつかの困難なシーンで、最初の大規模なイベントベースのハンドポーズデータセットです。 EvRealHandsの実験では、EvHandPoseはすべての評価シーンにおいて過去のイベントベースの手法より優れており、RGBベースの手法と比較して、高速動作や強い光シーンにおいて時間分解能の高い手ポーズ推定を正確かつ安定に達成し、屋外シーンや他の種類のイベントカメラによく適応し、手振り認識タスクの可能性を示している。

Event camera shows great potential in 3D hand pose estimation, especially addressing the challenges of fast motion and high dynamic range in a low-power way. However, due to the asynchronous differential imaging mechanism, it is challenging to design event representation to encode hand motion information especially when the hands are not moving (causing motion ambiguity), and it is infeasible to fully annotate the temporally dense event stream. In this paper, we propose EvHandPose with novel hand flow representations in Event-to-Pose module for accurate hand pose estimation and alleviating the motion ambiguity issue. To solve the problem under sparse annotation, we design contrast maximization and hand-edge constraints in Pose-to-IWE (Image with Warped Events) module and formulate EvHandPose in a weakly-supervision framework. We further build EvRealHands, the first large-scale real-world event-based hand pose dataset on several challenging scenes to bridge the real-synthetic domain gap. Experiments on EvRealHands demonstrate that EvHandPose outperforms previous event-based methods under all evaluation scenes, achieves accurate and stable hand pose estimation with high temporal resolution in fast motion and strong light scenes compared with RGB-based methods, generalizes well to outdoor scenes and another type of event camera, and shows the potential for the hand gesture recognition task.
翻訳日:2023-12-29 23:32:08 公開日:2023-12-28
# タンパク複合体不変組込みを有するクロスゲートmlpはワンショット抗体デザイナーである

Cross-Gate MLP with Protein Complex Invariant Embedding is A One-Shot Antibody Designer ( http://arxiv.org/abs/2305.09480v4 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Lirong Wu, Jun Xia, Jiangbin Zheng, Xihong Yang, Yue Liu, Bozhen Hu, Stan Z. Li(参考訳) 抗体は異物や抗原に反応して免疫系によって産生される重要なタンパク質である。 抗体の特異性は、抗体鎖の可変領域に位置し、抗原結合部位を形成する相補性決定領域(cdr)によって決定される。 従来の研究では、複雑な技術を使ってCDRを生成するが、不適切な幾何学的モデリングに悩まされている。 さらに、反復的な洗練戦略は非効率な推論につながる。 本稿では,CDRの1次元配列と3次元構造を1ショットで共設計できる「textit{simple yet effective}」モデルを提案する。 これを実現するために、抗体CDR設計問題を2段階に分離する。 (i)タンパク質複合体構造の幾何学的モデリング及び (ii)シーケンス構造共学習。 我々は、C$\alpha$,N,C,O原子を含むバックボーン原子間の成分間相互作用を捕捉し、包括的幾何学的モデリングを実現する、タンパク質複合体のための新しいマクロ分子構造不変埋め込みを開発する。 そして、シーケンス構造コラーニングのための単純なクロスゲートMLPを導入し、シーケンスと構造表現を暗黙的に洗練させる。 これにより、モデルが所望のシーケンスと構造をワンショットで設計できる。 その結果,本モデルが最先端の抗体CDR設計法よりも優れた性能を示した。

Antibodies are crucial proteins produced by the immune system in response to foreign substances or antigens. The specificity of an antibody is determined by its complementarity-determining regions (CDRs), which are located in the variable domains of the antibody chains and form the antigen-binding site. Previous studies have utilized complex techniques to generate CDRs, but they suffer from inadequate geometric modeling. Moreover, the common iterative refinement strategies lead to an inefficient inference. In this paper, we propose a \textit{simple yet effective} model that can co-design 1D sequences and 3D structures of CDRs in a one-shot manner. To achieve this, we decouple the antibody CDR design problem into two stages: (i) geometric modeling of protein complex structures and (ii) sequence-structure co-learning. We develop a novel macromolecular structure invariant embedding, typically for protein complexes, that captures both intra- and inter-component interactions among the backbone atoms, including C$\alpha$, N, C, and O atoms, to achieve comprehensive geometric modeling. Then, we introduce a simple cross-gate MLP for sequence-structure co-learning, allowing sequence and structure representations to implicitly refine each other. This enables our model to design desired sequences and structures in a one-shot manner. Extensive experiments are conducted to evaluate our results at both the sequence and structure levels, which demonstrate that our model achieves superior performance compared to the state-of-the-art antibody CDR design methods.
翻訳日:2023-12-29 23:17:37 公開日:2023-12-28
# 臨床ノートから注射薬使用に関する情報を抽出する質問応答システム

Question-Answering System Extracts Information on Injection Drug Use from Clinical Notes ( http://arxiv.org/abs/2305.08777v2 )

ライセンス: Link先を確認
Maria Mahbub, Ian Goethert, Ioana Danciu, Kathryn Knight, Sudarshan Srinivasan, Suzanne Tamang, Karine Rozenberg-Ben-Dror, Hugo Solares, Susana Martins, Jodie Trafton, Edmon Begoli, Gregory Peterson(参考訳) 背景:注射薬の使用(IDU)は死亡率と死亡率を高める危険な健康行動である。 iduを早期に特定し、リスク軽減介入を開始することは、リスクのある個人に利益をもたらす。 しかし, 患者の電子健康記録 (EHR) からIDUの行動の抽出は, 国際疾患分類 (ICD) コードがないため困難であり, IDUの情報を提示できる場所は自由テキスト臨床ノートのみである。 自然言語処理は、この情報を非構造化データから効率的に抽出することができるが、検証されたツールはない。 方法: 臨床情報におけるこのギャップに対処するため, 臨床ノートからIDUに関する情報を抽出する質問応答(QA)フレームワークを設計, 実証する。 本フレームワークは,(1)金本位QAデータセットの生成,(2)QAモデルの開発とテストの2段階を含む。 VAコーポレート・データウェアハウスの患者1145名を対象に,QAモデルの開発と評価のための金標準データセットを構築した。 また, 時間外分布データからIDU関連情報を抽出するQAモデルの有用性を示す。 結果: 金標準値と予測値の厳密な一致に対して,qaモデルは51.65%のf1スコアを達成した。 金標準値と予測値との緩和された一致では、QAモデルは78.03%のF1スコア、85.38%の精度と79.02%のリコールスコアを得る。 さらに、QAモデルは、時間外分布データに基づく場合、一貫した性能を示す。 結論:本研究はIDU情報を臨床ノートから抽出するQAフレームワークを導入し,薬剤を注射し,関連情報を抽出し,最終的には患者への情報提供を促進することを目的とした。

Background: Injection drug use (IDU) is a dangerous health behavior that increases mortality and morbidity. Identifying IDU early and initiating harm reduction interventions can benefit individuals at risk. However, extracting IDU behaviors from patients' electronic health records (EHR) is difficult because there is no International Classification of Disease (ICD) code and the only place IDU information can be indicated is unstructured free-text clinical notes. Although natural language processing can efficiently extract this information from unstructured data, there are no validated tools. Methods: To address this gap in clinical information, we design and demonstrate a question-answering (QA) framework to extract information on IDU from clinical notes. Our framework involves two main steps: (1) generating a gold-standard QA dataset and (2) developing and testing the QA model. We utilize 2323 clinical notes of 1145 patients sourced from the VA Corporate Data Warehouse to construct the gold-standard dataset for developing and evaluating the QA model. We also demonstrate the QA model's ability to extract IDU-related information on temporally out-of-distribution data. Results: Here we show that for a strict match between gold-standard and predicted answers, the QA model achieves 51.65% F1 score. For a relaxed match between the gold-standard and predicted answers, the QA model obtains 78.03% F1 score, along with 85.38% Precision and 79.02% Recall scores. Moreover, the QA model demonstrates consistent performance when subjected to temporally out-of-distribution data. Conclusions: Our study introduces a QA framework designed to extract IDU information from clinical notes, aiming to enhance the accurate and efficient detection of people who inject drugs, extract relevant information, and ultimately facilitate informed patient care.
翻訳日:2023-12-29 23:17:11 公開日:2023-12-28
# 不連続性の設計

Designing Discontinuities ( http://arxiv.org/abs/2305.08559v3 )

ライセンス: Link先を確認
Ibtihal Ferwana, Suyoung Park, Ting-Yi Wu, and Lav R. Varshney(参考訳) 不連続性はかなり任意であるが、より大きなシステムの結果に重大な影響を与える。 実際、それらの任意性は、多くの設定で変数間の因果関係を推測するために使われてきた理由である。 エコノメトリーからの回帰不連続性は、与えられた現象の因果効果を推定するために、集団を別々に分割する不連続変数の存在を仮定する。 ここでは、ある不連続変数に対する分割の設計について検討し、回帰不連続性を用いて以前に研究されたある効果を最適化する。 そこで本研究では,不連続変数の因果効果の大きさを学習し,その効果の大きさの利得と損失のバランスをとるために不連続性の最適量子化設計に動的計画を適用することを目的とした量子化理論的手法を提案する。 また,最適量子化の動的計画定式化のための計算効率の高い強化学習アルゴリズムを開発した。 我々は,ソーシャル・キャピタル,ソーシャル・モビリティ,健康の両立のために最適なタイムゾーン境界を設計することにより,このアプローチを実証する。 これは、新しいデータに基づいて行う回帰不連続性分析に基づいており、これは独立した経験的関心事であるかもしれない。

Discontinuities can be fairly arbitrary but also cause a significant impact on outcomes in larger systems. Indeed, their arbitrariness is why they have been used to infer causal relationships among variables in numerous settings. Regression discontinuity from econometrics assumes the existence of a discontinuous variable that splits the population into distinct partitions to estimate the causal effects of a given phenomenon. Here we consider the design of partitions for a given discontinuous variable to optimize a certain effect previously studied using regression discontinuity. To do so, we propose a quantization-theoretic approach to optimize the effect of interest, first learning the causal effect size of a given discontinuous variable and then applying dynamic programming for optimal quantization design of discontinuities to balance the gain and loss in that effect size. We also develop a computationally-efficient reinforcement learning algorithm for the dynamic programming formulation of optimal quantization. We demonstrate our approach by designing optimal time zone borders for counterfactuals of social capital, social mobility, and health. This is based on regression discontinuity analyses we perform on novel data, which may be of independent empirical interest.
翻訳日:2023-12-29 23:16:39 公開日:2023-12-28
# 消滅過程の量子反応制限反応拡散ダイナミクス

Quantum reaction-limited reaction-diffusion dynamics of annihilation processes ( http://arxiv.org/abs/2305.06944v2 )

ライセンス: Link先を確認
Gabriele Perfetto, Federico Carollo, Juan P. Garrahan, Igor Lesanovsky(参考訳) 本研究では, 一次元格子に連続的にホップし, 消滅反応を行うフェルミオン粒子の量子反応拡散ダイナミクスについて検討する。 後者は、ペア2A \to \emptyset$、三重項3A \to \emptyset$、四重項4A \to \emptyset$の損失を含む散逸過程としてモデル化される。 古典的粒子を考えると、それらの密度の時間的減衰は漸近的パワーロー挙動に従う。 1次元における関連する指数は、拡散混合が強すぎて空間相関が関係しない場合の平均場予測とは異なる。 これは特に$a\to \emptyset$に当てはまるが、平均場パワーロー予測は$3a \to \emptyset$の対数補正を取得し、$4a \to \emptyset$に正確である。 平均場アプローチは、拡散混合が強い場合、いわゆる反応制限レジームにおいて、すべての3つの過程において有効である。 ここでは、量子系では図が違うことを示します。 我々は, 量子反応制限理論を考察し, 平均場を超えた3つの過程すべてにおいて, 空間次元とは無関係な量子コヒーレンスの結果としてパワーロー挙動が存在することを示した。 3A\to \emptyset$ の崩壊はさらに複雑であり、これはパワー・ローの振る舞いが中間の時間窓にしか現れないのに対して、密度の減衰はパワー・ローではないからである。 量子力学における創発的臨界挙動は、量子コヒーレンスに基づいて明らかに異なる起源を持ち、古典的臨界現象に適用することは、空間的相関の関連性によってのみ決定される。

We investigate the quantum reaction-diffusion dynamics of fermionic particles which coherently hop in a one-dimensional lattice and undergo annihilation reactions. The latter are modelled as dissipative processes which involve losses of pairs $2A \to \emptyset$, triplets $3A \to \emptyset$, and quadruplets $4A \to \emptyset$ of neighbouring particles. When considering classical particles, the corresponding decay of their density in time follows an asymptotic power-law behavior. The associated exponent in one dimension is different from the mean-field prediction whenever diffusive mixing is not too strong and spatial correlations are relevant. This specifically applies to $2A\to \emptyset$, while the mean-field power-law prediction just acquires a logarithmic correction for $3A \to \emptyset$ and is exact for $4A \to \emptyset$. A mean-field approach is also valid, for all the three processes, when the diffusive mixing is strong, i.e., in the so-called reaction-limited regime. Here, we show that the picture is different for quantum systems. We consider the quantum reaction-limited regime and we show that for all the three processes power-law behavior beyond mean field is present as a consequence of quantum coherences, which are not related to space dimensionality. The decay in $3A\to \emptyset$ is further, highly intricate, since the power-law behavior therein only appears within an intermediate time window, while at long times the density decay is not power-law. Our results show that emergent critical behavior in quantum dynamics has a markedly different origin, based on quantum coherences, to that applying to classical critical phenomena, which is, instead, solely determined by the relevance of spatial correlations.
翻訳日:2023-12-29 23:16:20 公開日:2023-12-28
# 2共振器結合器を用いた超伝導回路における量子ビット結合制御

Control the qubit-qubit coupling in the superconducting circuit with double-resonator couplers ( http://arxiv.org/abs/2304.10047v2 )

ライセンス: Link先を確認
Hui Wang, Yan-Jun Zhao, Hui-Chen Sun, Xun-Wei Xu, Yong Li, Yarui Zheng, Qiang Liu, Rengang Li(参考訳) 2つの固定周波数共振器カプラを用いて2つのxmon量子ビット間の結合強度をチューニングする方式を提案する。 2つの共振器による間接的量子ビット相互作用は互いにオフセットすることができ、2つの量子ビット間の直接結合は必ずしもオフにするためのものではない。 直接クビット・クイブト結合は、スイッチオフとスイッチオンの間の周波数間隔を効果的に抑制し、2階および3階の静的ZZ結合をグローバルに抑制することができる。 共振器カプラとqubits読み出し共振器の周波数差は非常に大きいため、qubits読み出し誤差を抑制するのに有用である。 クビットと2つの共振器の間のクロスカー共鳴過程は、極を誘導し、クビット間のクロストークに影響を与える可能性がある。 二重共振器結合器は超伝導回路の容量と結合強度の制限を解凍することができ、フラックスノイズを低減し、クロストークを世界規模で抑制することができる。

We propose a scheme of using two fixed frequency resonator couplers to tune the coupling strength between two Xmon qubits. The induced indirect qubit-qubit interactions by two resonators could offset with each other, and the direct coupling between two qubits are not necessarily for switching off. The small direct qubit-quibt coupling could effectively suppress the frequency interval between switching off and switching on, and globally suppress the second and third-order static ZZ couplings. The frequencies differences between resonator couplers and qubits readout resonators are very large, this might be helpful for suppressing the qubits readout errors. The cross-kerr resonant processes between a qubit and two resonators might induce pole and affect the crosstalks between qubits. The double resonator couplers could unfreeze the restrictions on capacitances and coupling strengths in the superconducting circuit, and it can also reduce the flux noises and globally suppress the crosstalks.
翻訳日:2023-12-29 23:14:44 公開日:2023-12-28
# 不均一エージェント強化学習

Heterogeneous-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.09870v2 )

ライセンス: Link先を確認
Yifan Zhong, Jakub Grudzien Kuba, Xidong Feng, Siyi Hu, Jiaming Ji, and Yaodong Yang(参考訳) インテリジェントマシン間の協調の必要性は、AI研究において協調型マルチエージェント強化学習(MARL)を普及させた。 しかし、多くの研究はエージェント間のパラメータ共有に大きく依存しており、それらは均質なエージェントの設定のみに限定し、トレーニング不安定性と収束保証の欠如につながる。 一般ヘテロジニアスエージェント設定における効果的な協調を実現するために,上記の課題を解決するヘテロジニアスエージェント強化学習(harl)アルゴリズムを提案する。 本研究の中心は,マルチエージェント・アドバンテージ分解補題と逐次更新方式である。 そこで本研究では,HATRL(Heterogeneous-Agent Trust Region Learning)を開発し,HATRPOとHAPPOを抽出可能な近似法により導出する。 さらに、HATRPOとHAPPOの理論的保証を強化し、協調的なMARLアルゴリズム設計のための一般的なテンプレートを提供するHAML(Heterogeneous-Agent Mirror Learning)という新しいフレームワークを発見した。 HAMLから派生した全てのアルゴリズムは本質的に、Nash Equilibriumへのジョイントリターンと収束の単調な改善を享受している。 自然な結果として、HAMLはHATRPOとHAPPOに加えて、HATRPO、HADDPG、HATD3などの新しいアルゴリズムを検証している。 我々は,HARLアルゴリズムを6つの挑戦的ベンチマークで総合的にテストし,MAPPOやQMIXのような強力なベースラインと比較して,異種エージェントのコーディネートに優れた効率と安定性を示す。

The necessity for cooperation among intelligent machines has popularised cooperative multi-agent reinforcement learning (MARL) in AI research. However, many research endeavours heavily rely on parameter sharing among agents, which confines them to only homogeneous-agent setting and leads to training instability and lack of convergence guarantees. To achieve effective cooperation in the general heterogeneous-agent setting, we propose Heterogeneous-Agent Reinforcement Learning (HARL) algorithms that resolve the aforementioned issues. Central to our findings are the multi-agent advantage decomposition lemma and the sequential update scheme. Based on these, we develop the provably correct Heterogeneous-Agent Trust Region Learning (HATRL), and derive HATRPO and HAPPO by tractable approximations. Furthermore, we discover a novel framework named Heterogeneous-Agent Mirror Learning (HAML), which strengthens theoretical guarantees for HATRPO and HAPPO and provides a general template for cooperative MARL algorithmic designs. We prove that all algorithms derived from HAML inherently enjoy monotonic improvement of joint return and convergence to Nash Equilibrium. As its natural outcome, HAML validates more novel algorithms in addition to HATRPO and HAPPO, including HAA2C, HADDPG, and HATD3, which generally outperform their existing MA-counterparts. We comprehensively test HARL algorithms on six challenging benchmarks and demonstrate their superior effectiveness and stability for coordinating heterogeneous agents compared to strong baselines such as MAPPO and QMIX.
翻訳日:2023-12-29 23:14:15 公開日:2023-12-28
# 潜在性拡散モデルを用いた高分解能ビデオ合成

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models ( http://arxiv.org/abs/2304.08818v2 )

ライセンス: Link先を確認
Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis(参考訳) 潜時拡散モデル(ldms)は圧縮された低次元潜時空間における拡散モデルを訓練することにより、過剰な計算要求を回避しつつ高品質な画像合成を可能にする。 本稿では、特に資源集約的な課題である高解像度ビデオ生成にLDMパラダイムを適用した。 まず、画像のみにLDMを事前訓練し、次に、潜時空間拡散モデルに時間次元を導入し、符号化された画像シーケンス、すなわちビデオの微調整を行うことにより、画像生成装置をビデオ生成装置に変換する。 同様に、拡散モデルアップサンプラーを時間的に調整し、時間的に一貫したビデオスーパー解像度モデルに変換する。 本研究は,実世界の運転データシミュレーションと,テキストからビデオへのモデリングによる創造的コンテンツ作成の2つの応用に焦点を当てた。 特に,解像度512×1024の実動ビデオに対して,ビデオLDMの有効性を検証し,最先端の性能を実現する。 さらに,本手法では,時間的アライメントモデルのみをトレーニングする必要があるため,市販の事前学習画像 LDM の活用も容易である。 そうすることで、公開されている最先端のテキスト対画像のldmの安定拡散を、最大1280 x 2048までの解像度を持つ効率的で表現力のあるテキスト対ビデオモデルに転換します。 この方法で訓練された時間層は、異なる微調整されたテキスト-画像 LDM に一般化される。 この特性を利用して、テキストからビデオへのパーソナライズされた生成のための最初の結果を示し、将来のコンテンツ作成のためのエキサイティングな方向を示す。 プロジェクトページ: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

Latent Diffusion Models (LDMs) enable high-quality image synthesis while avoiding excessive compute demands by training a diffusion model in a compressed lower-dimensional latent space. Here, we apply the LDM paradigm to high-resolution video generation, a particularly resource-intensive task. We first pre-train an LDM on images only; then, we turn the image generator into a video generator by introducing a temporal dimension to the latent space diffusion model and fine-tuning on encoded image sequences, i.e., videos. Similarly, we temporally align diffusion model upsamplers, turning them into temporally consistent video super resolution models. We focus on two relevant real-world applications: Simulation of in-the-wild driving data and creative content creation with text-to-video modeling. In particular, we validate our Video LDM on real driving videos of resolution 512 x 1024, achieving state-of-the-art performance. Furthermore, our approach can easily leverage off-the-shelf pre-trained image LDMs, as we only need to train a temporal alignment model in that case. Doing so, we turn the publicly available, state-of-the-art text-to-image LDM Stable Diffusion into an efficient and expressive text-to-video model with resolution up to 1280 x 2048. We show that the temporal layers trained in this way generalize to different fine-tuned text-to-image LDMs. Utilizing this property, we show the first results for personalized text-to-video generation, opening exciting directions for future content creation. Project page: https://research.nvidia.com/labs/toronto-ai/VideoLDM/
翻訳日:2023-12-29 23:13:48 公開日:2023-12-28
# imagereward: テキストから画像への生成のための人間好みの学習と評価

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation ( http://arxiv.org/abs/2304.05977v4 )

ライセンス: Link先を確認
Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong(参考訳) 人間の嗜好フィードバックからテキスト・ツー・イメージモデルを学び改善するための総合的なソリューションを提案する。 まず、imagereward -- 人間の好みを効果的にエンコードするために、最初の汎用テキストから画像への優先報酬モデル -- を構築します。 そのトレーニングは、評価やランキングを含む体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較を収集しています。 人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れており、テキストと画像の合成を評価するための有望な自動測定基準となっている。 その上で,スコアに対する拡散モデルを最適化する直接チューニングアルゴリズムであるReward Feedback Learning (ReFL)を提案する。 自動評価と人的評価は、比較手法よりもReFLの利点をサポートする。 すべてのコードとデータセットは \url{https://github.com/thudm/imagereward} で提供される。

We present a comprehensive solution to learn and improve text-to-image models from human preference feedback. To begin with, we build ImageReward -- the first general-purpose text-to-image human preference reward model -- to effectively encode human preferences. Its training is based on our systematic annotation pipeline including rating and ranking, which collects 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring models and metrics, making it a promising automatic metric for evaluating text-to-image synthesis. On top of it, we propose Reward Feedback Learning (ReFL), a direct tuning algorithm to optimize diffusion models against a scorer. Both automatic and human evaluation support ReFL's advantages over compared methods. All code and datasets are provided at \url{https://github.com/THUDM/ImageReward}.
翻訳日:2023-12-29 23:13:19 公開日:2023-12-28
# visio-linguistic compositional understandingの強化を目的としたモーダル内およびランキングクロスモーダルハードネガティブの対比

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding ( http://arxiv.org/abs/2306.08832v3 )

ライセンス: Link先を確認
Le Zhang, Rabiul Awal, Aishwarya Agrawal(参考訳) クリップなどの視覚言語モデル(vlms)は、強い画像テキスト理解能力を示し、ゼロショット画像分類、画像テキスト検索、テキスト対画像生成などの下流タスクの進歩を促進する。 しかし、既存のVLMの組成推論能力は依然として低い。 この制限の根源は、事前訓練データセットのイメージとキャプション間の不適切なアライメントにある。 さらに、現在の対照的な学習目的は、関係、行動、属性のようなきめ細かい基礎的なコンポーネントに焦点を合わせず、結果として"言葉のバグ"表現をもたらす。 VLMにおける合成推論を改善するための簡易かつ効果的な手法を提案する。 本手法は,標準画像テキストコントラスト学習フレームワークの改良と拡張により,利用可能なデータセットをより活用する。 私たちのアプローチは特定のアノテーションを必要とせず、余分なパラメータを発生させません。 CLIPと統合すると、5つの視覚言語構成ベンチマークで最先端のベースラインよりも顕著に改善される。 ソースコードはhttps://github.com/lezhang7/Enhance-FineGrainedで公開しています。

Vision-Language Models (VLMs), such as CLIP, exhibit strong image-text comprehension abilities, facilitating advances in several downstream tasks such as zero-shot image classification, image-text retrieval, and text-to-image generation. However, the compositional reasoning abilities of existing VLMs remains subpar. The root of this limitation lies in the inadequate alignment between the images and captions in the pretraining datasets. Additionally, the current contrastive learning objective fails to focus on fine-grained grounding components like relations, actions, and attributes, resulting in "bag-of-words" representations. We introduce a simple and effective method to improve compositional reasoning in VLMs. Our method better leverages available datasets by refining and expanding the standard image-text contrastive learning framework. Our approach does not require specific annotations and does not incur extra parameters. When integrated with CLIP, our technique yields notable improvement over state-of-the-art baselines across five vision-language compositional benchmarks. We open-source our code at https://github.com/lezhang7/Enhance-FineGrained.
翻訳日:2023-12-29 23:06:10 公開日:2023-12-28
# メッシュ分類と意味部分セグメンテーションのためのタスク駆動ネットワーク

A Task-driven Network for Mesh Classification and Semantic Part Segmentation ( http://arxiv.org/abs/2306.05246v3 )

ライセンス: Link先を確認
Qiujie Dong, Xiaoran Gong, Rui Xu, Zixiong Wang, Shuangmin Chen, Shiqing Xin, Changhe Tu, Wenping Wang(参考訳) 幾何学的深層学習技術の急速な発展に伴い、不規則なメッシュ構造や一般的なバックボーンネットワークを橋渡しするメッシュベースの畳み込み演算子が多数提案されている。 本稿では、畳み込みは有用であるが、マルチ層パーセプトロン(MLP)のみに基づく単純なアーキテクチャは、メッシュ分類とセマンティックセグメンテーションを扱うのに十分であることを示す。 新しいネットワークアーキテクチャである mesh-mlp では,熱核シグネチャ (hks) と二面体角 (dihedral angles) を備えたメッシュ頂点を入力とし,resnet の畳み込みモジュールを多層パーセプトロン (mlp) に置き換え,層正規化 (ln) をレイヤの正規化に利用する。 オールMLPアーキテクチャはエンドツーエンドで動作し、プールモジュールは含まない。 メッシュ分類/セグメンテーションタスクに関する大規模な実験結果により、全MLPアーキテクチャの有効性が検証された。

With the rapid development of geometric deep learning techniques, many mesh-based convolutional operators have been proposed to bridge irregular mesh structures and popular backbone networks. In this paper, we show that while convolutions are helpful, a simple architecture based exclusively on multi-layer perceptrons (MLPs) is competent enough to deal with mesh classification and semantic segmentation. Our new network architecture, named Mesh-MLP, takes mesh vertices equipped with the heat kernel signature (HKS) and dihedral angles as the input, replaces the convolution module of a ResNet with Multi-layer Perceptron (MLP), and utilizes layer normalization (LN) to perform the normalization of the layers. The all-MLP architecture operates in an end-to-end fashion and does not include a pooling module. Extensive experimental results on the mesh classification/segmentation tasks validate the effectiveness of the all-MLP architecture.
翻訳日:2023-12-29 23:05:33 公開日:2023-12-28
# GeoDiffusion:オブジェクト検出データ生成のためのテキストプロンプト幾何制御

GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation ( http://arxiv.org/abs/2306.04607v6 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Yibo Wang, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツを作成し、画像分類のようなタスクのためにデータを生成する素晴らしい能力のために、大きな注目を集めている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚的品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件も必要不可欠な領域である。 これまでの研究では、コピー・ペースト合成またはレイアウト・ツー・イメージ(l2i)生成を使い、セマンティックレイアウトを符号化するために特別に設計されたモジュールを使用してきた。 本稿では,様々な幾何学的条件をテキストプロンプトに柔軟に翻訳し,高品質な検出データ生成のための事前学習されたテキスト・ツー・イメージ(t2i)拡散モデルを可能にするシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to the remarkable ability to create content and generate data for tasks like image classification. However, the usage of diffusion models to generate the high-quality object detection data remains an underexplored area, where not only image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode the semantic layouts. In this paper, we propose the GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only the bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2023-12-29 23:03:56 公開日:2023-12-28
# 低リソース音声翻訳のための言語間伝達学習

Cross-Lingual Transfer Learning for Low-Resource Speech Translation ( http://arxiv.org/abs/2306.00789v2 )

ライセンス: Link先を確認
Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente, Pablo Gimeno, Victoria Mingote, Jonathan Le Roux, James Glass(参考訳) 本稿では,自動音声翻訳のダウンストリーム適用において,ハイソース言語から低リソース言語への言語間移動を促進させる3段階間移動学習フレームワークを提案する。 このアプローチは、既存の2段階の言語間移動学習フレームワークXLS-Rに意味的な知識蒸留ステップを統合する。 この追加ステップは、ラベルなし音声を用いた自己教師付き学習を通じて事前学習された多言語音声エンコーダに意味知識をエンコードすることを目的としている。 提案する3段階の言語間移動学習フレームワークは,高リソース言語と低リソース言語の間のXLS-Rフレームワークで観測される大きな言語間移動ギャップ(TRFGap)に対処する。 covost-2ベンチマークの広範な実験と比較を行い,特に低リソース言語における翻訳性能の大幅な向上と,trfgapの大幅な削減について検証した。

The paper presents a novel three-step transfer learning framework for enhancing cross-lingual transfer from high- to low-resource languages in the downstream application of Automatic Speech Translation. The approach integrates a semantic knowledge-distillation step into the existing two-step cross-lingual transfer learning framework XLS-R. This extra step aims to encode semantic knowledge in the multilingual speech encoder pre-trained via Self-Supervised Learning using unlabeled speech. Our proposed three-step cross-lingual transfer learning framework addresses the large cross-lingual transfer gap (TRFGap) observed in the XLS-R framework between high-resource and low-resource languages. We validate our proposal through extensive experiments and comparisons on the CoVoST-2 benchmark, showing significant improvements in translation performance, especially for low-resource languages, and a notable reduction in the TRFGap.
翻訳日:2023-12-29 23:02:45 公開日:2023-12-28
# 大規模言語モデルにおける心理的尺度の信頼性の再検討

Revisiting the Reliability of Psychological Scales on Large Language Models ( http://arxiv.org/abs/2305.19926v3 )

ライセンス: Link先を確認
Jen-tse Huang, Wenxuan Wang, Man Ho Lam, Eric John Li, Wenxiang Jiao, Michael R. Lyu(参考訳) 最近の研究は、大規模言語モデル(LLM)の性能を評価することを超えて、心理学的観点からそれらの特性を検証し、その行動特性を理解する必要性を認識している。 LLMに対するパーソナリティテストの管理は、この文脈で注目に値する分野となっている。 しかしながら、当初人間のために考案された心理学的尺度をLSMに採用する適性は、現在進行中の議論である。 本研究の目的は, LLM が一貫した性格特性を示すか否かを, LLM にパーソナリティアセスメントを適用することの信頼性を判断することである。 gpt-3.5-turboは,大きな5つのインベントリに対する応答の一貫性を示し,高い信頼性を示す。 さらに,gpt-3.5-turboが多様な人格をエミュレートし,様々なグループを表現できる可能性についても検討した。 以上の結果から,LSMは特定の指示で異なる個人性を表現できる可能性が示唆された。 LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。 実験結果と対応するコードはhttps://github.com/CUHK-ARISE/LLMPersonality.comで公開しています。

Recent research has extended beyond assessing the performance of Large Language Models (LLMs) to examining their characteristics from a psychological standpoint, acknowledging the necessity of understanding their behavioral characteristics. The administration of personality tests to LLMs has emerged as a noteworthy area in this context. However, the suitability of employing psychological scales, initially devised for humans, on LLMs is a matter of ongoing debate. Our study aims to determine the reliability of applying personality assessments to LLMs, explicitly investigating whether LLMs demonstrate consistent personality traits. Analyzing responses under 2,500 settings reveals that gpt-3.5-turbo shows consistency in responses to the Big Five Inventory, indicating a high degree of reliability. Furthermore, our research explores the potential of gpt-3.5-turbo to emulate diverse personalities and represent various groups, which is a capability increasingly sought after in social sciences for substituting human participants with LLMs to reduce costs. Our findings reveal that LLMs have the potential to represent different personalities with specific prompt instructions. By shedding light on the personalization of LLMs, our study endeavors to pave the way for future explorations in this field. We have made our experimental results and the corresponding code openly accessible via https://github.com/CUHK-ARISE/LLMPersonality.
翻訳日:2023-12-29 23:02:32 公開日:2023-12-28
# 大規模言語モデルは化学で何ができるか? 8つのタスクに関する包括的なベンチマーク

What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks ( http://arxiv.org/abs/2305.18365v3 )

ライセンス: Link先を確認
Taicheng Guo, Kehan Guo, Bozhao Nan, Zhenwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang(参考訳) 自然言語処理タスクにおいて強力な能力を持つ大規模言語モデル(LLM)が登場し、科学、金融、ソフトウェア工学など様々な分野に適用されてきた。 しかし、LSMが化学分野を前進させる能力は未だ不明である。 本稿では, 最先端性能を追求する代わりに, 化学領域にまたがる幅広いタスクにおいて, LLMの能力を評価することを目的とする。 LLMの理解、推論、説明を含む3つの重要な化学関連機能を同定し、8つの化学タスクを含むベンチマークを確立する。 本分析は, 実用化学の文脈におけるllmの容量の広範な探索を容易にする, 広く認識されたデータセットを取り上げている。 5つのLCM(GPT-4, GPT-3.5, Davinci-003, Llama, Galactica)をゼロショットおよび少数ショットのインコンテクスト学習環境において, 慎重に選択した実演例と特別なプロンプトを用いて評価した。 我々は, GPT-4が他のモデルより優れており, LLMは8つの化学タスクにおいて異なる競合レベルを示すことを示した。 総合的なベンチマーク分析から得られた重要な知見に加えて、我々の研究は、現在のLLMの制限と、様々な化学タスクにおけるLLMのパフォーマンスに対する文脈内学習設定の影響に関する洞察を提供する。 この研究で使用されたコードとデータセットはhttps://github.com/ChemFoundationModels/ChemLLMBench.comで公開されている。

Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper, rather than pursuing state-of-the-art performance, we aim to evaluate capabilities of LLMs in a wide range of tasks across the chemistry domain. We identify three key chemistry-related capabilities including understanding, reasoning and explaining to explore in LLMs and establish a benchmark containing eight chemistry tasks. Our analysis draws on widely recognized datasets facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Five LLMs (GPT-4, GPT-3.5, Davinci-003, Llama and Galactica) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. Our investigation found that GPT-4 outperformed other models and LLMs exhibit different competitive levels in eight chemistry tasks. In addition to the key findings from the comprehensive benchmark analysis, our work provides insights into the limitation of current LLMs and the impact of in-context learning settings on LLMs' performance across various chemistry tasks. The code and datasets used in this study are available at https://github.com/ChemFoundationModels/ChemLLMBench.
翻訳日:2023-12-29 23:01:08 公開日:2023-12-28
# 低位励振抑制スパイクネットワークにおける潜在境界を持つ非線形関数の近似

Approximating nonlinear functions with latent boundaries in low-rank excitatory-inhibitory spiking networks ( http://arxiv.org/abs/2307.09334v3 )

ライセンス: Link先を確認
William F. Podlaski, Christian K. Machens(参考訳) ディープフィードフォワードとリカレントレートに基づくニューラルネットワークは脳の機能モデルとして成功しているが、スパイクやデールの法則のような明確な生物学的詳細は無視されている。 ここでは、実際の神経回路の動作を理解するために、これらの詳細が重要であると論じる。 この目的に向けて, スパイクベース計算のための新しいフレームワークを低ランク励振抑制スパイクネットワークに導入した。 ランク1接続性を持つ個体群を考慮し、低次元入力出力空間における各ニューロンのスパイク閾値を境界とした。 次に, この空間において抑制ニューロン集団の閾値が安定な境界を形成し, 興奮ニューロン集団の閾値が不安定な境界を形成することを示す。 2つの境界を組み合わせれば、2つの境界の交点における抑制安定化力学を持つランク2励起阻止(EI)ネットワークが得られる。 得られたネットワークの計算は、2つの凸関数の差分として理解することができ、任意の非線形入力出力マッピングを近似することができる。 ノイズ抑制と増幅,不規則な活動とシナプスバランス,境界がソフトになる限界におけるレートネットワークのダイナミクスとの関連など,これらのネットワークのいくつかの特性を実証する。 最後に、我々の研究は、小さなネットワーク(5-50ニューロン)に焦点を当てていますが、もっと大きなネットワークにスケールアップするための潜在的な方法について議論します。 全体として,生体スパイクに基づく計算を機械的に理解するための出発点となるスパイクネットワークに対する新たな視点を提案する。

Deep feedforward and recurrent rate-based neural networks have become successful functional models of the brain, but they neglect obvious biological details such as spikes and Dale's law. Here we argue that these details are crucial in order to understand how real neural circuits operate. Towards this aim, we put forth a new framework for spike-based computation in low-rank excitatory-inhibitory spiking networks. By considering populations with rank-1 connectivity, we cast each neuron's spiking threshold as a boundary in a low-dimensional input-output space. We then show how the combined thresholds of a population of inhibitory neurons form a stable boundary in this space, and those of a population of excitatory neurons form an unstable boundary. Combining the two boundaries results in a rank-2 excitatory-inhibitory (EI) network with inhibition-stabilized dynamics at the intersection of the two boundaries. The computation of the resulting networks can be understood as the difference of two convex functions and is thereby capable of approximating arbitrary non-linear input-output mappings. We demonstrate several properties of these networks, including noise suppression and amplification, irregular activity and synaptic balance, as well as how they relate to rate network dynamics in the limit that the boundary becomes soft. Finally, while our work focuses on small networks (5-50 neurons), we discuss potential avenues for scaling up to much larger networks. Overall, our work proposes a new perspective on spiking networks that may serve as a starting point for a mechanistic understanding of biological spike-based computation.
翻訳日:2023-12-29 22:52:59 公開日:2023-12-28
# SVIT: Visual Instruction Tuningのスケールアップ

SVIT: Scaling up Visual Instruction Tuning ( http://arxiv.org/abs/2307.04087v3 )

ライセンス: Link先を確認
Bo Zhao, Boya Wu, Muyang He, Tiejun Huang(参考訳) 基礎モデルの出現により、大きな言語とビジョンモデルは統合され、視覚的キャプションや質問応答などのマルチモーダル機能を取得する。 既存のマルチモーダルモデルは、視覚的理解と推論の印象的な性能を示すが、高品質な命令チューニングデータの不足のため、その限界は依然としてほとんど未熟である。 マルチモーダル能力の限界を推し進めるため,対話質問応答(QA)ペア1.6M,複雑な推論QAペア1.6M,QAペア1.0M,詳細な画像記述106Kを含む420万の視覚命令チューニングデータを構築し,SVITをスケールアップした。 ボリュームに加えて,画像の豊富な手動アノテーションでGPT-4を誘導することにより,高品質で豊富な多様性を特徴付けるデータセットも提案されている。 また,多様性とバランスが向上したサブセットを選択するための新しいデータレシピを提案する。 広範な実験により、svit-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回ることを検証した。 データとコードはhttps://github.com/BAAI-DCAI/Visual-Instruction-Tuning.comで公開されている。

Thanks to the emerging of foundation models, the large language and vision models are integrated to acquire the multimodal ability of visual captioning, question answering, etc. Although existing multimodal models present impressive performance of visual understanding and reasoning, their limits are still largely under-explored due to the scarcity of high-quality instruction tuning data. To push the limits of multimodal capability, we Scale up Visual Instruction Tuning (SVIT) by constructing a dataset of 4.2 million visual instruction tuning data including 1.6M conversation question-answer (QA) pairs, 1.6M complex reasoning QA pairs, 1.0M referring QA pairs and 106K detailed image descriptions. Besides the volume, the proposed dataset is also featured by the high quality and rich diversity, which is generated by prompting GPT-4 with the abundant manual annotations of images. We also propose a new data recipe to select subset with better diversity and balance, which evokes model's superior capabilities. Extensive experiments verify that SVIT-v1.5, trained on the proposed dataset, outperforms state-of-the-art Multimodal Large Language Models on popular benchmarks. The data and code are publicly available at https://github.com/BAAI-DCAI/Visual-Instruction-Tuning.
翻訳日:2023-12-29 22:51:22 公開日:2023-12-28
# ChatGPTは人格認識に優れているか? 予備的研究

Is ChatGPT a Good Personality Recognizer? A Preliminary Study ( http://arxiv.org/abs/2307.03952v3 )

ライセンス: Link先を確認
Yu Ji, Wen Wu, Hong Zheng, Yi Hu, Xi Chen, Liang He(参考訳) 近年、パーソナリティは感情分析や製品のレコメンデーションといった多くのタスクに組み込まれている価値ある個人的要因とみなされている。 これは、与えられたテキストに基づいて個人のパーソナリティを識別することを目的とした、テキストベースのパーソナリティ認識タスクに広く注目されている。 近年,ChatGPTが様々な自然言語処理タスクにおいて顕著な能力を発揮していることを考慮し,テキストに基づく人格認識タスクにおけるChatGPTの予備評価を行い,効果的な人格データを生成する。 具体的には,ChatGPTが与えられたテキストから人格を認識する能力,特に所定レベルでの分析においてChatGPTを導くために設計されたレベル指向のプロンプト戦略を探索する。 2つの代表的な実世界のデータセットにおける実験結果から,ゼロショット・チェーン・オブ・マインド・プロンプトのchatgptは印象的なパーソナリティ認識能力を示し,テキストに基づく論理推論を通じて自然言語説明を提供できることが明らかとなった。 さらに、ゼロショットチェーン・オブ・シークレット・プロンプトを最適化するためのレベル指向プロンプト戦略を利用することで、ChatGPTとそれに対応する最先端モデルのパフォーマンスギャップをさらに狭めている。 しかし、ChatGPTは、性別や年齢などの特定のセンシティブな属性に対して不公平である。 また,チャットgptのパーソナリティ認識能力の解明は,感情分類やストレス予測などのパーソナリティ関連下流タスクにおけるパフォーマンスの向上に寄与することがわかった。

In recent years, personality has been regarded as a valuable personal factor being incorporated into numerous tasks such as sentiment analysis and product recommendation. This has led to widespread attention to text-based personality recognition task, which aims to identify an individual's personality based on given text. Considering that ChatGPT has recently exhibited remarkable abilities on various natural language processing tasks, we provide a preliminary evaluation of ChatGPT on text-based personality recognition task for generating effective personality data. Concretely, we employ a variety of prompting strategies to explore ChatGPT's ability in recognizing personality from given text, especially the level-oriented prompting strategy we designed for guiding ChatGPT in analyzing given text at a specified level. The experimental results on two representative real-world datasets reveal that ChatGPT with zero-shot chain-of-thought prompting exhibits impressive personality recognition ability and is capable to provide natural language explanations through text-based logical reasoning. Furthermore, by employing the level-oriented prompting strategy to optimize zero-shot chain-of-thought prompting, the performance gap between ChatGPT and corresponding state-of-the-art model has been narrowed even more. However, we observe that ChatGPT shows unfairness towards certain sensitive demographic attributes such as gender and age. Additionally, we discover that eliciting the personality recognition ability of ChatGPT helps improve its performance on personality-related downstream tasks such as sentiment classification and stress prediction.
翻訳日:2023-12-29 22:50:58 公開日:2023-12-28
# Look, Remember and Reason: 言語モデルによるビデオの根拠的推論

Look, Remember and Reason: Grounded reasoning in videos with language models ( http://arxiv.org/abs/2306.17778v2 )

ライセンス: Link先を確認
Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Reza Pourreza, Pulkit Madan, Roland Memisevic(参考訳) マルチモーダル言語モデル(lm)は最近、ビデオ上の高レベル推論タスクで有望なパフォーマンスを示している。 しかし、既存の手法は、動作に対する因果的あるいは構成時空間的推論のようなタスクでは依然として不足しており、モデル予測は、オブジェクトの動きやオブジェクトの相互作用のような、きめ細かい低レベルの詳細に基礎を置く必要がある。 本研究では,オブジェクト検出,再識別,追跡などの低レベルのサロゲートタスクをlmエンドツーエンドで訓練し,必要となる低レベルの視覚能力をモデルに付与することを提案する。 時空間に注意を向けた2ストリームビデオエンコーダは,映像中の静的および動きに基づく手がかりを捉えるのに有効であることを示す。 低レベルのサロゲートタスクを実行するLMの能力を活用することで、低レベルのビジュアルスキルを用いて視覚情報を抽出し、最終回答に到達するための3ステップのプロセスとして、ビデオに推論をキャストすることができる。 我々は,ACRE,CATER,Some-Elseデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を示す。 我々のアプローチは訓練可能なエンドツーエンドであり、これらのタスクにまたがる最先端のタスク固有メソッドを大きく超えています。

Multi-modal language models (LM) have recently shown promising performance in high-level reasoning tasks on videos. However, existing methods still fall short in tasks like causal or compositional spatiotemporal reasoning over actions, in which model predictions need to be grounded in fine-grained low-level details, such as object motions and object interactions. In this work, we propose training an LM end-to-end on low-level surrogate tasks, including object detection, re-identification, and tracking, to endow the model with the required low-level visual capabilities. We show that a two-stream video encoder with spatiotemporal attention is effective at capturing the required static and motion-based cues in the video. By leveraging the LM's ability to perform the low-level surrogate tasks, we can cast reasoning in videos as the three-step process of Look, Remember, Reason wherein visual information is extracted using low-level visual skills step-by-step and then integrated to arrive at a final answer. We demonstrate the effectiveness of our framework on diverse visual reasoning tasks from the ACRE, CATER, and Something-Else datasets. Our approach is trainable end-to-end and surpasses state-of-the-art task-specific methods across these tasks by a large margin.
翻訳日:2023-12-29 22:49:48 公開日:2023-12-28
# 領域分割に基づくプレコンディショニング戦略を用いた物理情報ニューラルネットワークのトレーニング強化

Enhancing training of physics-informed neural networks using domain-decomposition based preconditioning strategies ( http://arxiv.org/abs/2306.17648v2 )

ライセンス: Link先を確認
Alena Kopani\v{c}\'akov\'a and Hardik Kothari and George Em Karniadakis and Rolf Krause(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)のトレーニングを強化することを提案する。 そこで本研究では,L-BFGSオプティマイザの非線形加法および乗算プリコンディショニング手法を提案する。 非線形プレコンディショナーは、ネットワークのパラメータを階層的に分解するSchwarzドメイン分解フレームワークを利用して構成される。 一連の数値実験により、加法と乗法の両方のプリコンディショナーが標準のl-bfgsオプティマイザの収束を大幅に改善し、基礎となる偏微分方程式のより正確な解を提供することを示した。 さらに、加法プレコンディショナーは本質的に並列であるため、モデル並列化に対する新しいアプローチがもたらされる。

We propose to enhance the training of physics-informed neural networks (PINNs). To this aim, we introduce nonlinear additive and multiplicative preconditioning strategies for the widely used L-BFGS optimizer. The nonlinear preconditioners are constructed by utilizing the Schwarz domain-decomposition framework, where the parameters of the network are decomposed in a layer-wise manner. Through a series of numerical experiments, we demonstrate that both, additive and multiplicative preconditioners significantly improve the convergence of the standard L-BFGS optimizer, while providing more accurate solutions of the underlying partial differential equations. Moreover, the additive preconditioner is inherently parallel, thus giving rise to a novel approach to model parallelism.
翻訳日:2023-12-29 22:49:27 公開日:2023-12-28
# 量子センサネットワークにおける検出器センサの初期状態の最適化

Optimizing Initial State of Detector Sensors in Quantum Sensor Networks ( http://arxiv.org/abs/2306.17401v3 )

ライセンス: Link先を確認
Caitao Zhan, Himanshu Gupta, Mark Hillery(参考訳) 本稿では、各センサが「発火」する量子ビット検出器である量子センサのネットワークを考える。 検出器の点火による状態の変化は、ネットワーク内のすべてのセンサーで同じユニタリ演算子によって与えられる。 このような検出器のネットワークは、イベントに最も近いものと思われる発射センサを決定するプロトコルを使用して、イベントのローカライズに使用することができる。 点火センサの判定は、初期状態および使用した測定演算子に応じて誤差の確率を発生させる量子状態判別問題として設定することができる。 本稿では, 火災センサの判定において, 誤差の最小化につながる検出器のネットワークの最適初期大域状態を決定する問題に対処する。 この問題に対して、完全判別が可能な初期状態の存在、すなわちエラーの確率をゼロにするための必要かつ十分な条件を導出する。 この結果から, 初期状態に対する推定最適解を導出し, 予想を証明する経路を提供し, ほぼ最適であると思われる複数の探索ヒューリスティックを用いて, 予測を実証的に検証する。

In this paper, we consider a network of quantum sensors, where each sensor is a qubit detector that "fires," i.e., its state changes when an event occurs close by. The change in state due to the firing of a detector is given by a unitary operator which is the same for all sensors in the network. Such a network of detectors can be used to localize an event, using a protocol to determine the firing sensor which is presumably the one closest to the event. The determination of the firing sensor can be posed as a Quantum State Discrimination problem which incurs a probability of error depending on the initial state and the measurement operator used. In this paper, we address the problem of determining the optimal initial global state of a network of detectors that incur a minimum probability of error in determining the firing sensor. For this problem, we derive necessary and sufficient conditions for the existence of an initial state that allows for perfect discrimination, i.e., zero probability of error. Using insights from this result, we derive a conjectured optimal solution for the initial state, provide a pathway to prove the conjecture, and validate the conjecture empirically using multiple search heuristics that seem to perform near-optimally.
翻訳日:2023-12-29 22:49:13 公開日:2023-12-28
# 安全モデルに基づくマルチエージェント平均場強化学習

Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning ( http://arxiv.org/abs/2306.17052v2 )

ライセンス: Link先を確認
Matej Jusup, Barna P\'asztor, Tadeusz Janik, Kenan Zhang, Francesco Corman, Andreas Krause and Ilija Bogunovic(参考訳) 多くのアプリケーション、例えば共有モビリティでは、多数のエージェントをコーディネートする必要がある。 平均場強化学習は、個々のペアワイズ相互作用を考慮せず、同一エージェントの無限集団と相互作用する代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処する。 本稿では,エージェントの分布に世界的な制約(キャパシティ制約や最小カバレッジ要件など)が存在する場合の,重要な一般化について述べる。 提案手法は,未知の遷移においても安全なポリシを実現する最初のモデルベース平均場強化学習アルゴリズムであるsafe-m$^3$-ucrlを提案する。 鍵となる要素として、ログバリアアプローチにおける遷移モデルにおけるエピステミック不確実性を利用して、高い確率で悲観的制約の満足度を保証する。 合成Swarmモーションベンチマークの他に、多くの共有モビリティオペレーターが直面している車両再配置問題にSafe-M$^3$-UCRLを示し、深センのサービスプロバイダによる車両軌道データに基づくシミュレーションによりその性能を評価する。 本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。

Many applications, e.g., in shared mobility, require coordinating a large number of agents. Mean-field reinforcement learning addresses the resulting scalability challenge by optimizing the policy of a representative agent interacting with the infinite population of identical agents instead of considering individual pairwise interactions. In this paper, we address an important generalization where there exist global constraints on the distribution of agents (e.g., requiring capacity constraints or minimum coverage requirements to be met). We propose Safe-M$^3$-UCRL, the first model-based mean-field reinforcement learning algorithm that attains safe policies even in the case of unknown transitions. As a key ingredient, it uses epistemic uncertainty in the transition model within a log-barrier approach to ensure pessimistic constraints satisfaction with high probability. Beyond the synthetic swarm motion benchmark, we showcase Safe-M$^3$-UCRL on the vehicle repositioning problem faced by many shared mobility operators and evaluate its performance through simulations built on vehicle trajectory data from a service provider in Shenzhen. Our algorithm effectively meets the demand in critical areas while ensuring service accessibility in regions with low demand.
翻訳日:2023-12-29 22:48:52 公開日:2023-12-28
# ニューラルネットワークの適応的タンジェント特徴視点

An Adaptive Tangent Feature Perspective of Neural Networks ( http://arxiv.org/abs/2308.15478v2 )

ライセンス: Link先を確認
Daniel LeJeune, Sina Alemohammad(参考訳) ニューラルネットワークにおける特徴学習をよりよく理解するために、訓練中に特徴を変換できる接する特徴空間における線形モデルを理解するためのフレームワークを提案する。 特徴量の線形変換を考慮し、双線型補間制約によるパラメータと変換を共同で最適化する。 この最適化問題は, ほぼ低ランク解を奨励する構造的正則化と等価な線形制約付き最適化を持つことを示す。 ニューラルネットワーク構造に特化して,特徴がどのようにカーネル関数が変化するかの洞察を得るとともに,ターゲット関数がタンジェント特徴を用いて表現されにくい場合に,カーネルアライメント現象に付加的なニュアンスを与える。 単純な回帰問題による実ニューラルネットワークにおける理論的観察の検証に加えて,接点分類の適応的特徴実装は,mnistやcifar-10の固定接点特徴モデルよりも1桁低いサンプル複雑性を持つことを示す。

In order to better understand feature learning in neural networks, we propose a framework for understanding linear models in tangent feature space where the features are allowed to be transformed during training. We consider linear transformations of features, resulting in a joint optimization over parameters and transformations with a bilinear interpolation constraint. We show that this optimization problem has an equivalent linearly constrained optimization with structured regularization that encourages approximately low rank solutions. Specializing to neural network structure, we gain insights into how the features and thus the kernel function change, providing additional nuance to the phenomenon of kernel alignment when the target function is poorly represented using tangent features. In addition to verifying our theoretical observations in real neural networks on a simple regression problem, we empirically show that an adaptive feature implementation of tangent feature classification has an order of magnitude lower sample complexity than the fixed tangent feature model on MNIST and CIFAR-10.
翻訳日:2023-12-29 22:42:17 公開日:2023-12-28
# 異常GPT:大規模視線モデルを用いた産業異常の検出

AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models ( http://arxiv.org/abs/2308.15366v4 )

ライセンス: Link先を確認
Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang(参考訳) MiniGPT-4やLLaVAのようなLVLM(Large Vision-Language Model)は、画像の理解能力を示し、様々な視覚タスクにおいて優れたパフォーマンスを実現している。 広範なトレーニングデータセットによる共通オブジェクトの認識能力は高いが、特定のドメイン知識が欠如しており、オブジェクト内のローカライズされた詳細の理解が弱く、産業的異常検出(iad)タスクの有効性を阻害している。 一方,既存のIAD法では,通常の検体と異常検体を区別するために,異常スコアのみを提供し,しきい値のマニュアル設定が必要である。 本稿では,iad問題に対するlvlmの活用について検討し,lvlmに基づく新しいiadアプローチであるanomalygptを提案する。 異常画像をシミュレートし、画像毎に対応するテキスト記述を生成してトレーニングデータを生成する。 また,画像デコーダを用いて微細なセマンティクスを提供し,迅速な埋め込みによるLVLMの微調整を行う。 我々のAnomalyGPTは手動しきい値調整の必要性を排除し、異常の有無を直接評価する。 さらに、AnomalyGPTはマルチターンダイアログをサポートし、印象的なインコンテキスト学習機能を提供する。 通常のショットは1枚のみで、AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成した。 コードはhttps://github.com/CASIA-IVA-Lab/AnomalyGPTで入手できる。

Large Vision-Language Models (LVLMs) such as MiniGPT-4 and LLaVA have demonstrated the capability of understanding images and achieved remarkable performance in various visual tasks. Despite their strong abilities in recognizing common objects due to extensive training datasets, they lack specific domain knowledge and have a weaker understanding of localized details within objects, which hinders their effectiveness in the Industrial Anomaly Detection (IAD) task. On the other hand, most existing IAD methods only provide anomaly scores and necessitate the manual setting of thresholds to distinguish between normal and abnormal samples, which restricts their practical implementation. In this paper, we explore the utilization of LVLM to address the IAD problem and propose AnomalyGPT, a novel IAD approach based on LVLM. We generate training data by simulating anomalous images and producing corresponding textual descriptions for each image. We also employ an image decoder to provide fine-grained semantic and design a prompt learner to fine-tune the LVLM using prompt embeddings. Our AnomalyGPT eliminates the need for manual threshold adjustments, thus directly assesses the presence and locations of anomalies. Additionally, AnomalyGPT supports multi-turn dialogues and exhibits impressive few-shot in-context learning capabilities. With only one normal shot, AnomalyGPT achieves the state-of-the-art performance with an accuracy of 86.1%, an image-level AUC of 94.1%, and a pixel-level AUC of 95.3% on the MVTec-AD dataset. Code is available at https://github.com/CASIA-IVA-Lab/AnomalyGPT.
翻訳日:2023-12-29 22:41:59 公開日:2023-12-28
# SwapMoE: ダイナミックエキスパートプルーニングとスワッピングによる大規模なMoEモデルの効率的なメモリ制約実行

SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models via Dynamic Expert Pruning and Swapping ( http://arxiv.org/abs/2308.15030v2 )

ライセンス: Link先を確認
Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Linghe Kong, Yunxin Liu(参考訳) エキスパートの混合(MoE)は、条件付きアクティベートされた並列ニューラルネットワークモジュール(エキスパート)を備えた大規模モデルの容量を改善する一般的なテクニックである。 分散計算による驚くべきスケーリング性能のため、現代の大規模言語モデル(llms)や大規模ビジョンモデル(lvms)で広く使われている。 しかし、エッジデバイスにそのような大きなモデルを提供するのは、メモリ制約のため難しい。 メモリスワップや重み付けといった典型的なソリューションは、レイテンシーが著しく高くなり、精度が大幅に低下する可能性がある。 本稿では, チューナブルメモリの予算に対応する, 効率的な連続型MoEベース大規模モデルのフレームワークであるSwapMoEを紹介する。 SwapMoEの主な考え方は、仮想専門家の小さなダイナミックなセット、すなわち仮想専門家を推論のメインメモリに置き、仮想専門家が実際の専門家にどのようにマップするかをシームレスに維持することだ。 我々は,メモリ予算と帯域幅を十分に活用可能なswapmoeのリソースを割り当てるプロファイリングガイドプランナーと,仮想専門家を効率的に識別し,更新し,正確な推論に利用する重要認識スケジューラを用いた。 SwapMoEを評価するために、我々は最先端のMoEベースのLarge Language ModelsとLarge Vision Modelsを用いて複数のエッジデバイス上で実験を行う。 その結果,様々なメモリ制約下でのSwapMoEの性能が顕著であった。 特にSwapMoEは、プルーニングされたコンパクトモデルと同じようなレイテンシで、メモリ予算の厳しい状態で大きなMoEモデルを実行できるが、精度はかなり高い。

Mixture of experts (MoE) is a popular technique to improve capacity of large models with conditionally-activated parallel neural network modules (experts). Due to its remarkable scaling performance with sparse computation, it is widely used in modern Large Language Models (LLMs) and Large Vision Models (LVMs). However, serving such large models on edge devices is challenging due to memory constraints. Typical solutions like memory swapping or weight pruning may lead to significantly higher latency or severe accuracy loss. In this paper, we introduce SwapMoE, a framework for efficient continuous MoE-based large models serving with tunable memory budgets. The main idea of SwapMoE is to keep a small dynamic set of important experts, namely Virtual Experts, in the main memory for inference, while seamlessly maintaining how the Virtual Experts map to the actual experts. We use a profiling-guided planner to allocate the resources for SwapMoE that can fully utilize the memory budgets and bandwidth, and an importance-aware scheduler to efficiently identify, update, and use the Virtual Experts for accurate inference. To evaluate SwapMoE, we conduct experiments on multiple edge devices with state-of-the-art MoE-based Large Language Models and Large Vision Models. The results demonstrate remarkable performance of SwapMoE under various memory constraints. Specifically, SwapMoE can enable running large MoE models under tight memory budgets with similar latency to pruned compact models, while with significantly higher accuracy.
翻訳日:2023-12-29 22:41:31 公開日:2023-12-28
# スレートレコメンデーションのための分布的オフポリシー評価

Distributional Off-Policy Evaluation for Slate Recommendations ( http://arxiv.org/abs/2308.14165v2 )

ライセンス: Link先を確認
Shreyas Chaudhari, David Arbour, Georgios Theocharous, Nikos Vlassis(参考訳) 勧告戦略は、通常、事前に記録されたデータを用いて評価され、期待されるパフォーマンスを見積もるために、政外評価手法を用いる。 しかし、複数の項目のスレートをユーザに提供する戦略では、結果として生じる組合せアクション空間は、これらの手法の多くを実用的でないものにしている。 以前の研究では、スレートの構造を利用して期待外のパフォーマンスを推定する推定器を開発したが、全体のパフォーマンス分布の推定はいまだに解明されていない。 完全な分布の推定は、特に分布から計算可能なメトリクスを使用するリスクと公平の軸に沿って、推奨戦略をより包括的に評価することができる。 本稿では,スレートの完全なオフポリシー性能分布に対する推定器を提案し,推定器が偏りなく一貫性のない条件を定式化する。 これは強化学習におけるスレートのオフポリシー評価とオフポリシー分布推定の先行研究に基づいている。 実世界のデータから構築したスレートレコメンデーションシミュレータ(MovieLens-20M)において,本手法の有効性を実証的に検証した。 その結果,スレート構造にまたがる先行作業よりも,推定ばらつきが著しく低減し,試料効率が向上した。

Recommendation strategies are typically evaluated by using previously logged data, employing off-policy evaluation methods to estimate their expected performance. However, for strategies that present users with slates of multiple items, the resulting combinatorial action space renders many of these methods impractical. Prior work has developed estimators that leverage the structure in slates to estimate the expected off-policy performance, but the estimation of the entire performance distribution remains elusive. Estimating the complete distribution allows for a more comprehensive evaluation of recommendation strategies, particularly along the axes of risk and fairness that employ metrics computable from the distribution. In this paper, we propose an estimator for the complete off-policy performance distribution for slates and establish conditions under which the estimator is unbiased and consistent. This builds upon prior work on off-policy evaluation for slates and off-policy distribution estimation in reinforcement learning. We validate the efficacy of our method empirically on synthetic data as well as on a slate recommendation simulator constructed from real-world data (MovieLens-20M). Our results show a significant reduction in estimation variance and improved sample efficiency over prior work across a range of slate structures.
翻訳日:2023-12-29 22:41:02 公開日:2023-12-28
# 高忠実PPG-ECG翻訳のための領域距離拡散モデル

Region-Disentangled Diffusion Model for High-Fidelity PPG-to-ECG Translation ( http://arxiv.org/abs/2308.13568v2 )

ライセンス: Link先を確認
Debaditya Shome, Pritam Sarkar, Ali Etemad(参考訳) 心血管疾患(CVD)の高頻度では、アクセス可能で費用対効果の高い連続心臓モニタリングツールが求められている。 心電図(ECG)がゴールドスタンダードであるにもかかわらず、継続的なモニタリングは依然として課題であり、消費者ウェアラブルで利用できる有望だがよりベーシックな代替手段であるフォトプレチスモグラフィー(PPG)の探索に繋がる。 この概念は近年、PSGをECG信号に変換することに関心を向けている。 本研究では,ecgの複雑な時間的ダイナミクスを捉えた新しい拡散モデルである領域不等角拡散モデル(rddm)を提案する。 Denoising Diffusion Probabilistic Models (DDPM)のような従来の拡散モデルは、信号全体にわたる不特定ノイズ付加プロセスのために、そのようなニュアンスを捕捉する上で困難である。 提案するRDDMは,ECG信号におけるQRSコンプレックスなどの特定の利害領域(ROI)にノイズを選択的に付加する新しいフォワードプロセスと,ROIおよび非ROI領域のデノナイジングを阻害する逆プロセスを導入することで,そのような制限を克服する。 定量的実験により、RDDMはPPGから10段階の拡散ステップで高忠実なECGを生成できることが示され、高い効率と計算効率が得られた。 また、生成した心電図信号の有用性を厳密に検証するために、心拍数や血圧推定、ストレス分類、心房細動や糖尿病の検出など、様々な心臓関連タスクの包括的な評価ベンチマークであるcardicardbenchを導入する。 RDDMはCardioBench上での最先端性能を実現する。 我々の知る限り、RDDMは生体信号領域におけるクロスモーダル信号-信号間変換のための最初の拡散モデルである。

The high prevalence of cardiovascular diseases (CVDs) calls for accessible and cost-effective continuous cardiac monitoring tools. Despite Electrocardiography (ECG) being the gold standard, continuous monitoring remains a challenge, leading to the exploration of Photoplethysmography (PPG), a promising but more basic alternative available in consumer wearables. This notion has recently spurred interest in translating PPG to ECG signals. In this work, we introduce Region-Disentangled Diffusion Model (RDDM), a novel diffusion model designed to capture the complex temporal dynamics of ECG. Traditional Diffusion models like Denoising Diffusion Probabilistic Models (DDPM) face challenges in capturing such nuances due to the indiscriminate noise addition process across the entire signal. Our proposed RDDM overcomes such limitations by incorporating a novel forward process that selectively adds noise to specific regions of interest (ROI) such as QRS complex in ECG signals, and a reverse process that disentangles the denoising of ROI and non-ROI regions. Quantitative experiments demonstrate that RDDM can generate high-fidelity ECG from PPG in as few as 10 diffusion steps, making it highly effective and computationally efficient. Additionally, to rigorously validate the usefulness of the generated ECG signals, we introduce CardioBench, a comprehensive evaluation benchmark for a variety of cardiac-related tasks including heart rate and blood pressure estimation, stress classification, and the detection of atrial fibrillation and diabetes. Our thorough experiments show that RDDM achieves state-of-the-art performance on CardioBench. To the best of our knowledge, RDDM is the first diffusion model for cross-modal signal-to-signal translation in the bio-signal domain.
翻訳日:2023-12-29 22:39:24 公開日:2023-12-28
# 複数条件拡散モデルによる音声生成

Audio Generation with Multiple Conditional Diffusion Model ( http://arxiv.org/abs/2308.11940v4 )

ライセンス: Link先を確認
Zhifang Guo, Jianguo Mao, Rui Tao, Long Yan, Kazushige Ouchi, Hong Liu, Xiangdong Wang(参考訳) テキストベースの音声生成モデルは、音声中のすべての情報を包含できないため制限があり、テキストのみに依存する場合の制御性を制限する。 そこで本研究では,テキストの補足として,コンテンツ(タイムスタンプ)やスタイル(ピッチ輪郭,エネルギー輪郭)などの追加条件を組み込むことで,既存の事前学習テキスト・オーディオモデルの制御性を向上する新しいモデルを提案する。 このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。 生成の多様性を維持するため,大規模な言語モデルとFusion-Netによって強化された訓練可能な制御条件エンコーダを用いて,事前学習されたテキスト・オーディオモデルの重みを凍結させながら追加条件を符号化・融合する。 適切なデータセットと評価指標が欠如しているため、既存のデータセットを音声および対応する条件を含む新しいデータセットに統合し、一連の評価指標を用いて制御性の評価を行う。 実験結果から,制御可能な音声生成を実現するための粒度制御が得られた。 オーディオサンプルとデータセットはhttps://conditionaudiogen.github.io/conditionaudiogen/で公開されています。

Text-based audio generation models have limitations as they cannot encompass all the information in audio, leading to restricted controllability when relying solely on text. To address this issue, we propose a novel model that enhances the controllability of existing pre-trained text-to-audio models by incorporating additional conditions including content (timestamp) and style (pitch contour and energy contour) as supplements to the text. This approach achieves fine-grained control over the temporal order, pitch, and energy of generated audio. To preserve the diversity of generation, we employ a trainable control condition encoder that is enhanced by a large language model and a trainable Fusion-Net to encode and fuse the additional conditions while keeping the weights of the pre-trained text-to-audio model frozen. Due to the lack of suitable datasets and evaluation metrics, we consolidate existing datasets into a new dataset comprising the audio and corresponding conditions and use a series of evaluation metrics to evaluate the controllability performance. Experimental results demonstrate that our model successfully achieves fine-grained control to accomplish controllable audio generation. Audio samples and our dataset are publicly available at https://conditionaudiogen.github.io/conditionaudiogen/
翻訳日:2023-12-29 22:38:51 公開日:2023-12-28
# StableLLaVA: 合成画像ダイアログデータによるビジュアルインストラクションチューニングの強化

StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data ( http://arxiv.org/abs/2308.10253v2 )

ライセンス: Link先を確認
Yanda Li, Chi Zhang, Gang Yu, Zhibin Wang, Bin Fu, Guosheng Lin, Chunhua Shen, Ling Chen, Yunchao Wei(参考訳) OpenAIのGPT-4で実証された顕著なマルチモーダル機能は、マルチモーダルなLarge Language Models (LLM) の開発に大きな関心を呼んだ。 このようなモデルの主な研究目的は、人間の指示を解釈しながら視覚とテキストのモダリティを効果的に整列させることである。 現在の方法論は、LLMのインストラクションチューニングと同様に、トレーニング目的のために画像対話データセットを構築するために、ベンチマークデータセットから派生したアノテーションに依存していることが多い。 しかし、これらのデータセットはしばしばドメインバイアスを示し、モデルの生成能力を制限する可能性がある。 これらの制約を緩和するために,視覚インストラクションチューニングのために画像と対話を同期的に合成する新しいデータ収集手法を提案する。 このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力を組み合わせることで、さまざまな画像コンテンツを持つ多種多様な制御可能なデータセットを生成する。 さらに、データセットを任意にスケールできる。 これは既存の方法論よりも柔軟性が向上するだけでなく、いくつかのモデル能力を大幅に向上させる。 本研究は,各種データセットを対象とした総合的な実験を含む。 その結果、一般的に評価される10以上の能力の大幅な向上が強調された。 さらに,複数のマルチモーダルベンチマークで最新の結果を得ることができた。

The remarkable multimodal capabilities demonstrated by OpenAI's GPT-4 have sparked significant interest in the development of multimodal Large Language Models (LLMs). A primary research objective of such models is to align visual and textual modalities effectively while comprehending human instructions. Current methodologies often rely on annotations derived from benchmark datasets to construct image-dialogue datasets for training purposes, akin to instruction tuning in LLMs. However, these datasets often exhibit domain bias, potentially constraining the generative capabilities of the models. In an effort to mitigate these limitations, we propose a novel data collection methodology that synchronously synthesizes images and dialogues for visual instruction tuning. This approach harnesses the power of generative models, marrying the abilities of ChatGPT and text-to-image generative models to yield a diverse and controllable dataset with varied image content. Additionally, datasets can be arbitrarily scaled. This not only provides greater flexibility compared to existing methodologies but also significantly enhances several model capabilities. Our research includes comprehensive experiments conducted on various datasets. The results emphasize substantial enhancements in more than ten commonly assessed capabilities. Additionally, our model achieves state-of-the-art results across multiple widely recognized multimodal benchmarks.
翻訳日:2023-12-29 22:38:26 公開日:2023-12-28
# zhongjing: エキスパートフィードバックと現実世界のマルチターン対話による大規模言語モデルの中国の医療能力の向上

Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue ( http://arxiv.org/abs/2308.03549v3 )

ライセンス: Link先を確認
Songhua Yang, Hanjie Zhao, Senbin Zhu, Guangyu Zhou, Hongfei Xu, Yuxiang Jia, Hongying Zan(参考訳) 近年のLLM(Large Language Models)の進歩は,ユーザの意図を理解し,応答する上で画期的な成果を上げている。 しかし、その性能は中国医学などいくつかの専門分野の一般的なユースケースに及ばない。 LLMに漢方薬を組み込む既存の取り組みは、シングルターンおよび蒸留ダイアログデータを備えたスーパービジョンファインチューニング(SFT)に依存している。 これらのモデルには、医師のような積極的調査やマルチターン理解能力がなく、専門家の意図と対応できない。 本研究では,中国初の医療用LLaMAをベースとしたLLMであるZhongjingを,継続的事前学習(SFT)から人間フィードバックからの強化学習(RLHF)まで,トレーニングパイプライン全体を実装した。 さらに,中国における7万件の医師-患者対話のマルチターン医療対話データセットであるCMtMedQAを構築し,複雑な対話能力と積極的な調査開始能力を大幅に向上させた。 また, バイオメディカルドメインの特徴を考慮し, 洗練されたアノテーションルールと評価基準を定式化する。 広汎な実験結果から,Zhongjingは様々な能力でベースラインを上回り,ChatGPTの性能は100倍のパラメータにもかかわらずある程度の能力で一致した。 プレトレーニングは医学的知識を高め、RLHFは指示追従能力と安全性をさらに向上させる。 私たちのコード、データセット、モデルはhttps://github.com/suprityoung/zhongjing.com/で利用可能です。

Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot align responses with experts' intentions. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from continuous pre-training, SFT, to Reinforcement Learning from Human Feedback (RLHF). Additionally, we construct a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model's capability for complex dialogue and proactive inquiry initiation. We also define a refined annotation rule and evaluation criteria given the unique characteristics of the biomedical domain. Extensive experimental results show that Zhongjing outperforms baselines in various capacities and matches the performance of ChatGPT in some abilities, despite the 100x parameters. Ablation studies also demonstrate the contributions of each component: pre-training enhances medical knowledge, and RLHF further improves instruction-following ability and safety. Our code, datasets, and models are available at https://github.com/SupritYoung/Zhongjing.
翻訳日:2023-12-29 22:38:07 公開日:2023-12-28
# パラメトリックプログラミングに基づく選択推論における境界P値

Bounded P-values in Parametric Programming-based Selective Inference ( http://arxiv.org/abs/2307.11351v2 )

ライセンス: Link先を確認
Tomohiro Shiraishi, Daiki Miwa, Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 選択的推論(si)は、データ駆動仮説に対する統計的仮説検証の有望な枠組みとして積極的に研究されてきた。 SIの基本的な考え方は、仮説が選択された事象に推論を条件付けることである。 SIを実行するには、このイベントをトレース可能な形で特徴付ける必要がある。 選択イベントの特徴付けが難しい場合には、トラクタビリティのために追加条件を導入する。 この追加条件はしばしば電力損失を引き起こし、この問題は[Fithian et al., 2014]においてオーバーコンディショニング(over-conditioning)と呼ばれる。 オーバーコンディショニング問題に対処する手段として、パラメトリックプログラミングベースのSI(PPベースのSI)が提案されている。 PPベースのSIの主な問題は、データ空間を徹底的に探索する必要があるため、計算コストが高いことである。 本研究では, p値の下限と上限を計算する手法を提案することにより, 所望の精度を確保しつつ計算コストを削減する手法を提案する。 また,これらの境界を効率的に改善する3種類の探索戦略も提案した。 本稿では,線形モデルにおける特徴選択問題と深層ニューラルネットワークにおける注意領域同定における提案手法の有効性を示す。

Selective inference (SI) has been actively studied as a promising framework for statistical hypothesis testing for data-driven hypotheses. The basic idea of SI is to make inferences conditional on an event that a hypothesis is selected. In order to perform SI, this event must be characterized in a traceable form. When selection event is too difficult to characterize, additional conditions are introduced for tractability. This additional conditions often causes the loss of power, and this issue is referred to as over-conditioning in [Fithian et al., 2014]. Parametric programming-based SI (PP-based SI) has been proposed as one way to address the over-conditioning issue. The main problem of PP-based SI is its high computational cost due to the need to exhaustively explore the data space. In this study, we introduce a procedure to reduce the computational cost while guaranteeing the desired precision, by proposing a method to compute the lower and upper bounds of p-values. We also proposed three types of search strategies that efficiently improve these bounds. We demonstrate the effectiveness of the proposed method in hypothesis testing problems for feature selection in linear models and attention region identification in deep neural networks.
翻訳日:2023-12-29 22:36:10 公開日:2023-12-28
# PreDiff: 潜在拡散モデルによる降水開始

PreDiff: Precipitation Nowcasting with Latent Diffusion Models ( http://arxiv.org/abs/2307.10422v2 )

ライセンス: Link先を確認
Zhihan Gao, Xingjian Shi, Boran Han, Hao Wang, Xiaoyong Jin, Danielle Maddix, Yi Zhu, Mu Li, Yuyang Wang(参考訳) 地球系の予測は伝統的に計算コストが高く、重要な分野の専門知識を必要とする複雑な物理モデルに依存してきた。 過去10年間で、時空間観測データの増加は、深層学習技術を用いたデータ駆動予測モデルを可能にした。 これらのモデルは、多様な地球系の予測タスクを約束するが、不確実性を扱うか、ドメイン固有の事前知識を無視するかのいずれかに苦慮している。 これらの制約に対処するため,確率的時空間予測のための2段階パイプラインを提案する。 1)確率予測が可能な条件付き潜在拡散モデルprediffを開発した。 2)予測をドメイン固有の物理的制約に合わせるための明示的な知識アライメント機構が組み込まれている。 これにより、各消音段で課された制約からの逸脱を推定し、それに応じて遷移分布を調整できる。 カオス的な振る舞いを持つ合成データセットであるN-body MNISTと、実際の降水量予測データセットであるSEVIRの2つのデータセットに関する実証的研究を行った。 具体的には、N体MNISTにおけるエネルギーの保存則と、SEVIRにおける降水強度を予想する。 実験は、不確実性処理、ドメイン固有の事前知識の導入、高い運用効率を示す予測生成におけるprediffの有効性を実証する。

Earth system forecasting has traditionally relied on complex physical models that are computationally expensive and require significant domain expertise. In the past decade, the unprecedented increase in spatiotemporal Earth observation data has enabled data-driven forecasting models using deep learning techniques. These models have shown promise for diverse Earth system forecasting tasks but either struggle with handling uncertainty or neglect domain-specific prior knowledge, resulting in averaging possible futures to blurred forecasts or generating physically implausible predictions. To address these limitations, we propose a two-stage pipeline for probabilistic spatiotemporal forecasting: 1) We develop PreDiff, a conditional latent diffusion model capable of probabilistic forecasts. 2) We incorporate an explicit knowledge alignment mechanism to align forecasts with domain-specific physical constraints. This is achieved by estimating the deviation from imposed constraints at each denoising step and adjusting the transition distribution accordingly. We conduct empirical studies on two datasets: N-body MNIST, a synthetic dataset with chaotic behavior, and SEVIR, a real-world precipitation nowcasting dataset. Specifically, we impose the law of conservation of energy in N-body MNIST and anticipated precipitation intensity in SEVIR. Experiments demonstrate the effectiveness of PreDiff in handling uncertainty, incorporating domain-specific prior knowledge, and generating forecasts that exhibit high operational utility.
翻訳日:2023-12-29 22:35:54 公開日:2023-12-28
# 限られたデータを用いた超音波自動位置認識

Automatic Endoscopic Ultrasound Station Recognition with Limited Data ( http://arxiv.org/abs/2309.11820v3 )

ライセンス: Link先を確認
Abhijit Ramesh, Anantha Nandanan, Nikhil Boggavarapu, Priya Nair MD, Gilad Gressel(参考訳) 膵がんは致命的ながん形態であり、世界中のがん関連死亡に大きく貢献する。 早期発見は患者の予後と生存率を改善するために不可欠である。 医療画像技術の進歩にもかかわらず、膵癌は検出が困難な疾患である。 内視鏡的超音波検査(eus)は膵癌の診断に最も有効な診断ツールである。 しかし、信頼できる患者スキャンを完了させるためには、複雑な超音波画像の専門的な解釈が必要である。 膵の完全な画像を得るには、内視鏡を複数の「EUSステーション」(解剖学的位置)に誘導し、膵の異なるビューを提供する必要がある。 これは学ぶのが難しいスキルであり、経験豊富な医師の助けを借りて225以上のプロクターの手順が関与している。 我々は、深層学習技術を利用して、EUS手順中の胃のこれらのステーションをリアルタイムで識別するAI支援ツールを構築した。 このコンピュータ支援診断(CAD)は医師の訓練を効率化する。 歴史的に、そのようなツールを開発する上で直面する課題は、訓練された臨床医が必要とするレトロスペクティブのラベル付けの量である。 そこで我々は,EUSプロシージャにおけるアノテート処理のプロセスを,臨床医の最小限の努力で効率化する,オープンソースのユーザフレンドリーなラベリングWebアプリを開発した。 本研究は, ハイパーパラメータの微調整を伴わない43の手順のみを用いることで, 89%のバランス精度が得られたことを示す。 また,臨床医に解釈可能かつ説明可能な可視化を提供する可視化技術であるGrad-CAMを採用している。

Pancreatic cancer is a lethal form of cancer that significantly contributes to cancer-related deaths worldwide. Early detection is essential to improve patient prognosis and survival rates. Despite advances in medical imaging techniques, pancreatic cancer remains a challenging disease to detect. Endoscopic ultrasound (EUS) is the most effective diagnostic tool for detecting pancreatic cancer. However, it requires expert interpretation of complex ultrasound images to complete a reliable patient scan. To obtain complete imaging of the pancreas, practitioners must learn to guide the endoscope into multiple "EUS stations" (anatomical locations), which provide different views of the pancreas. This is a difficult skill to learn, involving over 225 proctored procedures with the support of an experienced doctor. We build an AI-assisted tool that utilizes deep learning techniques to identify these stations of the stomach in real time during EUS procedures. This computer-assisted diagnostic (CAD) will help train doctors more efficiently. Historically, the challenge faced in developing such a tool has been the amount of retrospective labeling required by trained clinicians. To solve this, we developed an open-source user-friendly labeling web app that streamlines the process of annotating stations during the EUS procedure with minimal effort from the clinicians. Our research shows that employing only 43 procedures with no hyperparameter fine-tuning obtained a balanced accuracy of 89%, comparable to the current state of the art. In addition, we employ Grad-CAM, a visualization technology that provides clinicians with interpretable and explainable visualizations.
翻訳日:2023-12-29 22:25:50 公開日:2023-12-28
# 自閉症スペクトラム障害早期診断のための機械学習手法の評価

An Evaluation of Machine Learning Approaches for Early Diagnosis of Autism Spectrum Disorder ( http://arxiv.org/abs/2309.11646v2 )

ライセンス: Link先を確認
Rownak Ara Rasul, Promy Saha, Diponkor Bala, S M Rakib Ul Karim, Md. Ibrahim Abdullah and Bishwajit Saha(参考訳) 自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。 その起源は遺伝学にあるが、早期発見は不可欠であり、機械学習を活用することで、より高速でコスト効率の高い診断の道が開かれる。 本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。 本研究では,8つの最先端分類モデルを用いて,ASD検出の有効性を検証した。 精度、精度、リコール、特異性、F1スコア、曲線下面積(AUC)、カッパ、ログ損失測定値を用いてモデルを評価し、これらのバイナリデータセットに最適な分類器を求める。 全ての分類モデルの中で、SVMおよびLRモデルは100%の最高精度を達成し、成人データセットでは、LRモデルは97.14%の最高精度を達成している。 提案モデルでは,各モデルに対してハイパーパラメータを正確に調整した場合に,新しい組み合わせデータセットに対して94.24%の精度を提供する。 ほぼすべての分類モデルが真のラベルを利用する高い精度を達成するため、我々は、真のラベルのないシナリオにおけるモデルの振る舞いを理解するために、5つの人気のあるクラスタリングアルゴリズムを掘り下げることに興味を持つ。 我々は、最適なクラスタリングモデルを選択するために、正規化相互情報(NMI)、調整ランダム指数(ARI)、シルエット係数(SC)のメトリクスを計算する。 評価の結果、スペクトルクラスタリングは他のベンチマーククラスタリングモデルよりもNMIとARIの指標で優れており、k-meansで達成した最適SCとの互換性を示している。 実装されたコードはgithubで入手できる。

Autistic Spectrum Disorder (ASD) is a neurological disease characterized by difficulties with social interaction, communication, and repetitive activities. While its primary origin lies in genetics, early detection is crucial, and leveraging machine learning offers a promising avenue for a faster and more cost-effective diagnosis. This study employs diverse machine learning methods to identify crucial ASD traits, aiming to enhance and automate the diagnostic process. We study eight state-of-the-art classification models to determine their effectiveness in ASD detection. We evaluate the models using accuracy, precision, recall, specificity, F1-score, area under the curve (AUC), kappa, and log loss metrics to find the best classifier for these binary datasets. Among all the classification models, for the children dataset, the SVM and LR models achieve the highest accuracy of 100% and for the adult dataset, the LR model produces the highest accuracy of 97.14%. Our proposed ANN model provides the highest accuracy of 94.24% for the new combined dataset when hyperparameters are precisely tuned for each model. As almost all classification models achieve high accuracy which utilize true labels, we become interested in delving into five popular clustering algorithms to understand model behavior in scenarios without true labels. We calculate Normalized Mutual Information (NMI), Adjusted Rand Index (ARI), and Silhouette Coefficient (SC) metrics to select the best clustering models. Our evaluation finds that spectral clustering outperforms all other benchmarking clustering models in terms of NMI and ARI metrics while demonstrating comparability to the optimal SC achieved by k-means. The implemented code is available at GitHub.
翻訳日:2023-12-29 22:25:28 公開日:2023-12-28
# HITA: ヘルスケアIoTアプリケーションのシステムレベルのテストのためのアーキテクチャ

HITA: An Architecture for System-level Testing of Healthcare IoT Applications ( http://arxiv.org/abs/2309.04223v2 )

ライセンス: Link先を確認
Hassan Sartaj, Shaukat Ali, Tao Yue, and Julie Marie Gj{\o}by(参考訳) 医療用IoT(Internet of Things)アプリケーションのシステムレベルのテストには、統合医療機器とサードパーティアプリケーションによるテストインフラストラクチャの作成が必要である。 このようなテストインフラストラクチャを構築する上で重要な課題は、異なるベンダの新たな医療機器と、異なるアーキテクチャに従う異なるサードパーティ組織が提供する新しいサービスを追加して、医療用IoTアプリケーションが継続的に進化することです。 さらに、さまざまな種類の医療機器でテストインフラストラクチャを作成するのは、時間がかかり、費用がかかり、事実上不可能である。 Oslo Cityのヘルスケア部門は、さまざまな医療用IoTアプリケーションで作業しながら、これらの課題に直面した。 これらの課題に対処するために,医療用IoTアプリケーション用に設計された実世界のテストインフラストラクチャソフトウェアアーキテクチャ(HITA)を提案する。 モデルベースおよび機械学習(ML)アプローチを用いて実装したHITAのディジタルツイン(DT)生成コンポーネントを,DTの忠実度,スケーラビリティ,時間的コストの観点から評価した。 その結果,モデルベースアプローチとMLアプローチによるDTの忠実度はそれぞれ94%,95%に達した。 100個のDTを同時に操作した結果、DT生成コンポーネントはスケーラブルであり、MLベースのDTはよりコストがかかることが示された。

System-level testing of healthcare Internet of Things (IoT) applications requires creating a test infrastructure with integrated medical devices and third-party applications. A significant challenge in creating such test infrastructure is that healthcare IoT applications evolve continuously with the addition of new medical devices from different vendors and new services offered by different third-party organizations following different architectures. Moreover, creating test infrastructure with a large number of different types of medical devices is time-consuming, financially expensive, and practically infeasible. Oslo City's healthcare department faced these challenges while working with various healthcare IoT applications. To address these challenges, this paper presents a real-world test infrastructure software architecture (HITA) designed for healthcare IoT applications. We evaluated HITA's digital twin (DT) generation component implemented using model-based and machine learning (ML) approaches in terms of DT fidelity, scalability, and time cost of generating DTs. Results show that the fidelity of DTs created using model-based and ML approaches reach 94% and 95%, respectively. Results from operating 100 DTs concurrently show that the DT generation component is scalable and ML-based DTs have a higher time cost.
翻訳日:2023-12-29 22:23:34 公開日:2023-12-28
# 多電子系の基底状態と最適核配置に対する第一量子化断熱時間発展

First-quantized adiabatic time evolution for the ground state of a many-electron system and the optimal nuclear configuration ( http://arxiv.org/abs/2309.03529v2 )

ライセンス: Link先を確認
Yusuke Nishiya, Hirofumi Nishi, Yannick Couzini\'e, Taichi Kosugi, Yu-ichiro Matsushita(参考訳) 本稿では,量子回路上で量子多電子系の基底状態を得るための新しいAdiabatic Time Evolution (ATE)法を提案する。 ATE法の顕著な特徴として、これはリアルタイム進化を表すユニタリ演算のみで構成されており、すなわち、補助量子ビットや制御されたリアルタイム進化演算子を必要としないことを意味する。 特に, 量子回路上での第一量子化実時間発展の実装は効率的であることが知られているため, ate法の最初の量子化形式について検討した。 しかし、一量子化フォーマリズムにおいてATE量子回路を実現するとき、障害は断熱的ハミルトニアンの設定方法と対応する初期基底状態の準備方法である。 我々は、ate回路への入力として好適な反対称性および非退化初期基底状態を作成し、任意の数の電子を持つ系にate法を適用する方法を提案する。 さらに、量子力学電子系および古典核系に対する第一量子化ハミルトニアンを考えることにより、ATEに基づく最適構造探索のための量子回路を設計する。 簡単なシステムに対して数値シミュレーションを行い,電子系の基底状態と最適構造を本手法で求めることができることを確認した。

We propose a novel adiabatic time evolution (ATE) method for obtaining the ground state of a quantum many-electron system on a quantum circuit based on first quantization. As a striking feature of the ATE method, it consists of only unitary operations representing real-time evolution, which means that it does not require any ancillary qubits, nor controlled real-time evolution operators. Especially, we explored the first-quantized formalism of ATE method in this study, since the implementation of first-quantized real-time evolution on quantum circuits is known to be efficient. However, when realizing the ATE quantum circuit in first-quantization formalism, obstacles are how to set the adiabatic Hamiltonian and how to prepare the corresponding initial ground state. We provide a way to prepare an antisymmetrized and non-degenerate initial ground state that is suitable as an input to an ATE circuit, which allows our ATE method to be applied to systems with any number of electrons. In addition, by considering a first-quantized Hamiltonian for quantum-mechanical electron system and classical nuclear system, we design a quantum circuit for optimal structure search based on ATE. Numerical simulations are demonstrated for simple systems, and it is confirmed that the ground state of the electronic system and optimal structure can be obtained by our method.
翻訳日:2023-12-29 22:23:15 公開日:2023-12-28
# 組合せベイズ最適化のためのランダム後処理

Random Postprocessing for Combinatorial Bayesian Optimization ( http://arxiv.org/abs/2309.02842v2 )

ライセンス: Link先を確認
Keisuke Morita, Yoshihiko Nishikawa, Masayuki Ohzeki(参考訳) ベイズ最適化を含む離散的「ブラックボックス」最適化に対するモデルベースシーケンシャルなアプローチは、しばしば対象関数に対して同じ点を複数回アクセスし、その結果、グローバル最適化を見つけるための多くのステップをもたらす。 本稿では,データセットの重複サンプルを厳格に禁止するベイズ最適化に対するポストプロセッシング手法の効果を数値的に検討する。 本手法は, 取得関数が最大後方推定値である場合には, 逐次ステップ数を大幅に削減し, グローバル最適度を求める。 この結果は,高次元問題に対するベイズ最適化の緩やかな収束を解決するための単純だが一般的な戦略である。

Model-based sequential approaches to discrete "black-box" optimization, including Bayesian optimization techniques, often access the same points multiple times for a given objective function in interest, resulting in many steps to find the global optimum. Here, we numerically study the effect of a postprocessing method on Bayesian optimization that strictly prohibits duplicated samples in the dataset. We find the postprocessing method significantly reduces the number of sequential steps to find the global optimum, especially when the acquisition function is of maximum a posterior estimation. Our results provide a simple but general strategy to solve the slow convergence of Bayesian optimization for high-dimensional problems.
翻訳日:2023-12-29 22:22:53 公開日:2023-12-28
# ホットかコールドか? 大規模言語モデルを用いたコード生成のための適応温度サンプリング

Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models ( http://arxiv.org/abs/2309.02772v3 )

ライセンス: Link先を確認
Yuqi Zhu, Jia Li, Ge Li, YunFei Zhao, Jia Li, Zhi Jin, Hong Mei(参考訳) 近年、大規模言語モデル(llm)は、コード生成に素晴らしい能力を示している。 しかし、既存のLLMの復号化戦略は自然言語(NL)生成のために設計されており、NLとプログラミング言語(PL)の違いを見越している。 この見落としのため、コード生成のためのより良いデコーディング戦略は、まだ未解決の問題である。 本稿では,コード生成に特化した復号化戦略を探求する最初の体系的研究を行う。 コードトークンの損失分布を分析することで、コードトークンを2つのカテゴリに分類できることが分かりました。 その中でも、難易度の高いトークンは、主にコードブロックの先頭に現れる。 この結果に触発されて,適応温度サンプリング(adapted temperature (adapt) sampling)という簡易かつ効果的な手法を提案し,異なるトークンの復号時に温度係数を動的に調整する手法を提案する。 難解なトークンをサンプリングする際には, LLMが多様な選択を探索できるように, より大きな温度を適用する。 我々は、テールランダムネスノイズの影響を避けるため、信頼性トークンに対してより小さい温度を用いる。 異なるサイズのllmに適応サンプリングを適用し,2つの人気のあるデータセット上で評価を行う。 その結果,適応サンプリングは最先端のデコーディング戦略を大きく上回ることがわかった。

Recently, Large Language Models (LLMs) have shown impressive abilities in code generation. However, existing LLMs' decoding strategies are designed for Natural Language (NL) generation, overlooking the differences between NL and programming languages (PL). Due to this oversight, a better decoding strategy for code generation remains an open question. In this paper, we conduct the first systematic study to explore a decoding strategy specialized in code generation. With an analysis of loss distributions of code tokens, we find that code tokens can be divided into two categories: challenging tokens that are difficult to predict and confident tokens that can be easily inferred. Among them, the challenging tokens mainly appear at the beginning of a code block. Inspired by the above findings, we propose a simple yet effective method: Adaptive Temperature (AdapT) sampling, which dynamically adjusts the temperature coefficient when decoding different tokens. We apply a larger temperature when sampling for challenging tokens, allowing LLMs to explore diverse choices. We employ a smaller temperature for confident tokens avoiding the influence of tail randomness noises. We apply AdapT sampling to LLMs with different sizes and conduct evaluations on two popular datasets. Results show that AdapT sampling significantly outperforms state-of-the-art decoding strategy.
翻訳日:2023-12-29 22:22:42 公開日:2023-12-28
# 情報チャネルの遷移としてのページタイム:ブラックホール放射のための高忠実度情報検索

Page Time as a Transition of Information Channels: High-fidelity Information Retrieval for Radiating Black Holes ( http://arxiv.org/abs/2309.01917v2 )

ライセンス: Link先を確認
Ran Li, Xuanhua Wang, Kun Zhang, Jin Wang(参考訳) 放射するブラックホールの有効場理論の記述は、エントロピーを保存するためにこれらのモードの消滅を必要とする冗長な自由度をもたらす。 一般的な見方では、そのような効果的なプロセスは、冗長な状態が量子テレポーテーションに似た最大絡み合ったペアで消滅しない限り、情報損失をもたらす。 このレターでは、新しいポストセレクションモデルでこのビューを緩和できることを実証する。 我々は、ランダムに選択されたモードをスクランブル・ユニタリから投影する非ユニタリダイナミクスを用いて、放射するブラックホールの情報回復可能性を調べる。 このモデルは、島式計算と整合したブラックホールのフォン・ノイマンエントロピーを生成する利点があり、ブラックホール内部の情報は、ページ時間後に失われることなくホーキング放射から復号できることを示す。 さらに、このモデルでは、十分な量の有効モードが地平線内で消滅した場合、2つの情報伝達チャネル間の遷移点としてページタイムが新たな解釈を得る。 量子回路の実現とともに,2つのデコード戦略を提案する。 戦略の実験的検証は、7量子ビットibm量子プロセッサを使用し、これらの戦略の実行可能性と量子プロセッサがブラックホールの内部を探索する可能性を示している。

The effective field theory description of a radiating black hole introduces redundant degrees of freedom that necessitate annihilation of those modes at late stages to conserve entropy. The prevailing view is that such effective process can result in information loss unless the redundant states are annihilated in maximally entangled pairs, resembling quantum teleportation. In this Letter, we demonstrate that this view can be relaxed in a new postselection model. We investigate information recoverability in a radiating black hole through the non-unitary dynamics that projects the randomly-selected modes from a scrambling unitary. We show that the model has the merit of producing the von Neumann entropy of black holes consistent with the island formula calculation and that information in the black hole interior can be decoded from the Hawking radiation without loss after the Page time. Moreover, in this model the Page time gains a new interpretation as the transition point between two channels of information transmission when sufficient amounts of effective modes are annihilated inside the horizon. We present two decoding strategies along with their quantum circuit realizations. The experimental verification of the strategies employs 7-qubit IBM quantum processors, demonstrating the viability of these strategies and the potential for quantum processors to probe the black hole interior.
翻訳日:2023-12-29 22:22:06 公開日:2023-12-28
# ツール支援生成戦略の包括的評価

A Comprehensive Evaluation of Tool-Assisted Generation Strategies ( http://arxiv.org/abs/2310.10062v2 )

ライセンス: Link先を確認
Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd Bohnet, Mor Geva(参考訳) 研究領域の増大は、ツール(検索エンジン、電卓など)で言語モデルを強化し、その欠点(例えば、誤った知識、誤った論理的推論)を克服する。 様々なツール利用戦略が提案されている。 しかし、異なる戦略、あるいはこれらの戦略とツールを使わない強力なベースラインの間に、体系的かつ公平な比較は存在しない。 We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -which does not translate into significant improvement in performance. 全体としては、少額のツール統合は依然としてオープンな課題であり、彼らの*便益*と*コスト*を正確に評価する今後の戦略の包括的な評価の必要性を強調しています。

A growing area of research investigates augmenting language models with tools (e.g., search engines, calculators) to overcome their shortcomings (e.g., missing or incorrect knowledge, incorrect logical inferences). Various few-shot tool-usage strategies have been proposed. However, there is no systematic and fair comparison across different strategies, or between these strategies and strong baselines that do not leverage tools. We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -- which does not translate into significant improvement in performance. Overall, our findings suggest that few-shot tool integration is still an open challenge, emphasizing the need for comprehensive evaluations of future strategies to accurately assess their *benefits* and *costs*.
翻訳日:2023-12-29 22:13:46 公開日:2023-12-28
# グラフ意味表現を用いた関係分類の再考

Rethinking Relation Classification with Graph Meaning Representations ( http://arxiv.org/abs/2310.09772v2 )

ライセンス: Link先を確認
Li Zhou, Wenyu Chen, Dingyi Zeng, Malu Zhang, Daniel Hershcovich(参考訳) 自然言語理解の分野では、ニューラルモデルとグラフの意味表現(GMR)の交わりは、依然として魅力的な研究分野である。 関心の高まりにもかかわらず、GMRの正確な影響、特に関係抽出タスクの理解において重要なギャップが持続する。 そこで本研究では,文脈表現学習と構造情報伝達を分離した,シンプルでパラメータ効率のよいニューラルネットワークdagnn-plusを提案する。 様々なシーケンスエンコーダとGMRを組み合わせることで、このアーキテクチャは2つの英語と2つの中国語データセットの体系的な実験の基礎を提供する。 実験分析では4つの異なるグラフ形式と9つのパーサを用いる。 その結果、GMRの微妙な理解が得られ、4つのデータセットのうち3つの改善が示されている。 興味深いことに、GMRは汎用ドメインデータセットに比べて文学ドメインデータセットでは効果が低いように見える。 これらの知見は、自然言語理解研究の今後の軌道に接するであろう関係分類を改善するためのgmrとパーサーのより良いインフォームド設計の土台となる。

In the field of natural language understanding, the intersection of neural models and graph meaning representations (GMRs) remains a compelling area of research. Despite the growing interest, a critical gap persists in understanding the exact influence of GMRs, particularly concerning relation extraction tasks. Addressing this, we introduce DAGNN-plus, a simple and parameter-efficient neural architecture designed to decouple contextual representation learning from structural information propagation. Coupled with various sequence encoders and GMRs, this architecture provides a foundation for systematic experimentation on two English and two Chinese datasets. Our empirical analysis utilizes four different graph formalisms and nine parsers. The results yield a nuanced understanding of GMRs, showing improvements in three out of the four datasets, particularly favoring English over Chinese due to highly accurate parsers. Interestingly, GMRs appear less effective in literary-domain datasets compared to general-domain datasets. These findings lay the groundwork for better-informed design of GMRs and parsers to improve relation classification, which is expected to tangibly impact the future trajectory of natural language understanding research.
翻訳日:2023-12-29 22:13:08 公開日:2023-12-28
# DSAC-T:3つのリファインメントを持つ分布型ソフトアクター臨界

DSAC-T: Distributional Soft Actor-Critic with Three Refinements ( http://arxiv.org/abs/2310.05858v4 )

ライセンス: Link先を確認
Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, and Shengbo Eben Li(参考訳) 強化学習(rl)は複雑な意思決定と制御タスクに取り組むのに非常に効果的であることが証明されている。 しかし、一般的なモデルなしRL法は、よく知られた過大評価問題のために、しばしば深刻な性能劣化に直面している。 そこで,我々は最近,分散型ソフトアクタ-クリティック(dsac,dsac-v1)と呼ばれるオフポリシーrlアルゴリズムを導入し,連続ガウス値分布を学習することにより,値推定精度を効果的に向上させた。 それにもかかわらず、標準的なDSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。 本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。 これらの改善は、期待値置換、双対値分布学習、分散に基づく批判勾配調整からなる。 改良された RL アルゴリズムは 3 つの改良 (DSAC-T または DSAC-v2) を持つ DSAC と命名され、その性能は様々なベンチマークタスクで体系的に評価される。 タスク固有のハイパーパラメータチューニングがなければ、DSAC-Tはテスト対象のすべての環境で、SAC、TD3、DDPG、TRPO、PPOを含む多くの主流モデルなしRLアルゴリズムに匹敵する。 さらに、DSAC-Tは標準的なバージョンとは異なり、高度に安定した学習プロセスを確保し、様々な報酬スケールで同様のパフォーマンスを提供する。

Reinforcement learning (RL) has proven to be highly effective in tackling complex decision-making and control tasks. However, prevalent model-free RL methods often face severe performance degradation due to the well-known overestimation issue. In response to this problem, we recently introduced an off-policy RL algorithm, called distributional soft actor-critic (DSAC or DSAC-v1), which can effectively improve the value estimation accuracy by learning a continuous Gaussian value distribution. Nonetheless, standard DSAC has its own shortcomings, including occasionally unstable learning processes and the necessity for task-specific reward scaling, which may hinder its overall performance and adaptability in some special tasks. This paper further introduces three important refinements to standard DSAC in order to address these shortcomings. These refinements consist of expected value substituting, twin value distribution learning, and variance-based critic gradient adjusting. The modified RL algorithm is named as DSAC with three refinements (DSAC-T or DSAC-v2), and its performances are systematically evaluated on a diverse set of benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T surpasses or matches a lot of mainstream model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T, unlike its standard version, ensures a highly stable learning process and delivers similar performance across varying reward scales.
翻訳日:2023-12-29 22:12:39 公開日:2023-12-28
# 低温基板上の浮遊電子を用いた量子コンピューティングの可能性と課題

Quantum computing using floating electrons on cryogenic substrates: Potential And Challenges ( http://arxiv.org/abs/2310.04119v3 )

ライセンス: Link先を確認
Ash Jennings, Xianjing Zhou, Ivan Grytsenko, and Erika Kawakami(参考訳) 本稿では,フローティング電子ベースの量子ビットプラットフォームの開発について紹介する。 液体ヘリウムや固体ネオンの表面の上の真空中に浮遊する電子は、特に長いコヒーレンス時間のために量子ビットの有望な候補として現れる。 初期段階にあるにもかかわらず、様々なグループによる最近の実験は、この役割にかなりの可能性を示している。 スピン状態と電荷状態がハイブリダイゼーションされている量子状態としてスピン状態を使うことに主眼を置き,理論的な提案と最近の実験について検討した。 これらの提案と実験を通じて、電荷状態はLC共振器に結合され、人工的に導入されたスピンチャージカップリングによってスピン状態の制御と読み出しの機構が促進される。

In this review, we introduce a developing qubit platform: floating-electron-based qubits. Electrons floating in a vacuum above the surface of liquid helium or solid neon emerge as promising candidates for qubits, especially due to their expected long coherence times. Despite being in the early stages, a variety of recent experiments from different groups have shown substantial potential in this role. We survey a range of theoretical proposals and recent experiments, primarily focusing on the use of the spin state as the qubit state, wherein the spin and charge states are hybridized. Throughout these proposals and experiments, the charge state is coupled to an LC resonator, which facilitates both the control and readout mechanisms for the spin state via an artificially introduced spin-charge coupling.
翻訳日:2023-12-29 22:11:28 公開日:2023-12-28
# ニューラルネットワークにおける学習概念の学習データへの寄与

Attributing Learned Concepts in Neural Networks to Training Data ( http://arxiv.org/abs/2310.03149v4 )

ライセンス: Link先を確認
Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry Kvinge, Davis Brown(参考訳) 現在までに、深層学習モデルは、データの内部表現の一部として、特定の人間解釈可能な特徴を学習する証拠がかなりある。 正しい(あるいは間違った)概念を持つことは、信頼できる機械学習システムにとって重要であるため、モデルの元々のトレーニングセットからのインプットが、与えられたレイヤで概念を学ぶ上で最も重要であったかを尋ねるのは当然です。 そこで本研究では,データ帰属法とモデルで学習した概念を探索する手法を組み合わせる。 ネットワーク層における2つの概念データセットに対するネットワークとプローブアンサンブルの訓練を行い,大規模データ帰属のためのTRAK法を開発した。 コンバージェンス(収束)の証拠として,概念の上位1万個の画像を取り除き,モデルの再訓練を行うことで,ネットワーク内の概念の位置や概念の空間性が変化しないことがある。 これは、いくつかの特定の例に強く依存するのではなく、概念の発展を知らせる特徴が、その例全体により広範に広がり、概念形成における堅牢性が示唆されることを示唆している。

By now there is substantial evidence that deep learning models learn certain human-interpretable features as part of their internal representations of data. As having the right (or wrong) concepts is critical to trustworthy machine learning systems, it is natural to ask which inputs from the model's original training set were most important for learning a concept at a given layer. To answer this, we combine data attribution methods with methods for probing the concepts learned by a model. Training network and probe ensembles for two concept datasets on a range of network layers, we use the recently developed TRAK method for large-scale data attribution. We find some evidence for convergence, where removing the 10,000 top attributing images for a concept and retraining the model does not change the location of the concept in the network nor the probing sparsity of the concept. This suggests that rather than being highly dependent on a few specific examples, the features that inform the development of a concept are spread in a more diffuse manner across its exemplars, implying robustness in concept formation.
翻訳日:2023-12-29 22:10:49 公開日:2023-12-28
# 頻繁な逐次学習のためのベイズ設計原理

Bayesian Design Principles for Frequentist Sequential Learning ( http://arxiv.org/abs/2310.00806v4 )

ライセンス: Link先を確認
Yunbei Xu, Assaf Zeevi(参考訳) 逐次学習問題に対する頻繁な後悔を最適化する一般的な理論を開発し,ベイズ主義の原理から効率的な帯域幅と強化学習アルゴリズムを導出する。 各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案し、ベイズ的後続法を用いて意思決定を行う。 アルゴリズムの頻繁な後悔を効果的に特徴づける本質的な複雑性尺度を「アルゴリズム情報比」と呼ぶ「アルゴリズム的信念」を作成するための最適化目標とする。 我々の知る限りでは、これはベイズ型アルゴリズムを事前自由化し、汎用的で最適な方法で敵の設定に適用する最初の体系的なアプローチである。 さらに、アルゴリズムは、実装がシンプルで、しばしば効率的である。 そこで本研究では, 確率的, 敵対的, 非定常環境において, 経験的性能を実現するマルチアームバンディットのための新しいアルゴリズムを提案する。 そして,これらの原理が線形包帯,包帯凸最適化,強化学習にどのように利用できるかを説明する。

We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate "algorithmic beliefs" at each round, and use Bayesian posteriors to make decisions. The optimization objective to create "algorithmic beliefs," which we term "Algorithmic Information Ratio," represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the "best-of-all-worlds" empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning.
翻訳日:2023-12-29 22:09:33 公開日:2023-12-28
# ホログラムの弱い測定

Holographic Weak Measurement ( http://arxiv.org/abs/2309.15896v3 )

ライセンス: Link先を確認
Xinyu Sun, Shao-Kai Jian(参考訳) 本稿では,共形場理論(CFT)における弱測定のホログラフィック記述について述べる。 弱測定は、恒等作用素と射影作用素を補間するソフトプロジェクションと見なすことができ、測定されていないCFTとは異なる効果的な中心電荷を誘導することができる。 界面ブレーンによる弱測定をモデル化し、測定後の状態と測定されていないcftとで異なるジオメトリを分離する。 無限系では、弱い測定は時空回転によってICFTと関連付けられる。 欠陥点に位置するツイスト演算子によるホログラフィックエンタングルメントエントロピーは,ICFTの計算と弱い測定の両方において一致していることがわかった。 さらに, 境界エントロピーをホログラフィックの絡み合いと分割関数によって計算する。 有限系では、弱い測定は豊富な位相図に導かれる: 限界測定では、創発的ブレーンは2つのAdS測度を分離するが、無関係な測定では、後測度幾何学は、ブレーンによって分離されるAdS時空とブラックホール時空を特徴とする。 後の段階では測定は無関係であるが、測定後の幾何はPythonのランチを実現することができる。

In this paper, we study a holographic description of weak measurements in conformal field theories (CFTs). Weak measurements can be viewed as a soft projection that interpolates between an identity operator and a projection operator, and can induce an effective central charge distinct from the unmeasured CFT. We model the weak measurement by an interface brane, separating different geometries dual to the post-measurement state and the unmeasured CFT, respectively. In an infinite system, the weak measurement is related to ICFT via a spacetime rotation. We find that the holographic entanglement entropy with twist operators located on the defect is consistent in both calculations for ICFT and weak measurements. We additionally calculate the boundary entropy via holographic entanglement as well as partition function. In a finite system, the weak measurement can lead to a rich phase diagram: for marginal measurements the emergent brane separates two AdS geometries, while for irrelevant measurements the post-measurement geometry features an AdS spacetime and a black hole spacetime that are separated by the brane. Although the measurement is irrelevant in the later phase, the post-measurement geometry can realize a Python's lunch.
翻訳日:2023-12-29 22:09:17 公開日:2023-12-28
# scbeacon: 対照的なシアムネットワークを用いた生物条件にまたがる対細胞クラスターの同定による単細胞バイオマーカーの抽出

scBeacon: single-cell biomarker extraction via identifying paired cell clusters across biological conditions with contrastive siamese networks ( http://arxiv.org/abs/2311.02594v2 )

ライセンス: Link先を確認
Chenyu Liu, Yong Jin Kweon and Jun Ding(参考訳) 微分遺伝子解析によるバイオマーカーの発見のブレークスルーにもかかわらず、特に単細胞レベルでの課題は残る。 従来の手法では、個々の表現されたデータに注目し、健康状態と病気状態のような生物学的状態の間の重要な相互作用を無視する。 これに応えて、ScBeaconを紹介します。これは、深いコントラストのあるシアムネットワーク上に構築された革新的なフレームワークです。 scBeaconは、様々な条件で一致した細胞集団を十分に同定し、洗練された差分遺伝子解析を可能にする、教師なしのアプローチを開拓した。 VQ-VAEフレームワーク、対照的なシアムネットワーク、および欲求反復戦略を利用することで、skBeaconは、ポテンシャルをキーバイオマーカーとして持つ差分遺伝子を効果的に特定する。 多様なデータセットの包括的な評価は、既存の単細胞差分遺伝子解析ツールよりも scBeacon が優れていることを検証する。 その精度と適応性は、バイオマーカー発見の診断精度を高める上で重要な役割を担っている。 診断におけるバイオマーカーの重要性を強調して、 scBeaconはパーソナライズされた医療と標的治療の進化において重要な要素である。

Despite the breakthroughs in biomarker discovery facilitated by differential gene analysis, challenges remain, particularly at the single-cell level. Traditional methodologies heavily rely on user-supplied cell annotations, focusing on individually expressed data, often neglecting the critical interactions between biological conditions, such as healthy versus diseased states. In response, here we introduce scBeacon, an innovative framework built upon a deep contrastive siamese network. scBeacon pioneers an unsupervised approach, adeptly identifying matched cell populations across varied conditions, enabling a refined differential gene analysis. By utilizing a VQ-VAE framework, a contrastive siamese network, and a greedy iterative strategy, scBeacon effectively pinpoints differential genes that hold potential as key biomarkers. Comprehensive evaluations on a diverse array of datasets validate scBeacon's superiority over existing single-cell differential gene analysis tools. Its precision and adaptability underscore its significant role in enhancing diagnostic accuracy in biomarker discovery. With the emphasis on the importance of biomarkers in diagnosis, scBeacon is positioned to be a pivotal asset in the evolution of personalized medicine and targeted treatments.
翻訳日:2023-12-29 22:02:22 公開日:2023-12-28
# グラフニューラルネットワークはランダウ減衰を夢見るか? プラズマシートモデルの動力学シミュレーションからの洞察

Do Graph Neural Networks Dream of Landau Damping? Insights from Kinetic Simulations of a Plasma Sheet Model ( http://arxiv.org/abs/2310.17646v2 )

ライセンス: Link先を確認
Diogo D Carvalho, Diogo R Ferreira, Luis O Silva(参考訳) 本稿では,プラズマ物理動力学シミュレータをグラフニューラルネットワークを用いたシミュレータで完全に置き換える可能性を検討する。 我々は、メッセージパス更新機構と従来の物理ソルバ更新の類似性、および、既知の物理プリエントをグラフ構築と更新に強制する可能性を考慮して、このクラスのサロゲートモデルに焦点を当てる。 本モデルでは,同時代のプラズマシミュレーションコードの前身である1次元プラズマモデルの運動プラズマダイナミクスを学習し,プラズマの熱化,熱平衡に関する静電揺らぎ,高速シートとランドーダンピングの抵抗など,広く知られている運動プラズマ過程を回復する。 本研究は, 実時間, 保存則, キー物理量の時間的変化の観点から, 元のプラズマモデルと比較した。 模型の限界を提示し, 運動プラズマの高次元サーロゲートモデルの可能性について考察した。

We explore the possibility of fully replacing a plasma physics kinetic simulator with a graph neural network-based simulator. We focus on this class of surrogate models given the similarity between their message-passing update mechanism and the traditional physics solver update, and the possibility of enforcing known physical priors into the graph construction and update. We show that our model learns the kinetic plasma dynamics of the one-dimensional plasma model, a predecessor of contemporary kinetic plasma simulation codes, and recovers a wide range of well-known kinetic plasma processes, including plasma thermalization, electrostatic fluctuations about thermal equilibrium, and the drag on a fast sheet and Landau damping. We compare the performance against the original plasma model in terms of run-time, conservation laws, and temporal evolution of key physical quantities. The limitations of the model are presented and possible directions for higher-dimensional surrogate models for kinetic plasmas are discussed.
翻訳日:2023-12-29 22:01:11 公開日:2023-12-28
# 非凸最適化のための符号ベースランダムリシャッフルアルゴリズムの収束

Convergence of Sign-based Random Reshuffling Algorithms for Nonconvex Optimization ( http://arxiv.org/abs/2310.15976v2 )

ライセンス: Link先を確認
Zhen Qin, Zhishuai Liu, Pan Xu(参考訳) signSGDは通信効率のために非凸最適化で人気がある。 しかし、既存のSignSGDの分析では、データが各反復でサンプル化され、ランダムにリシャッフルされ、アルゴリズムにシーケンシャルに供給される実践的な実装と矛盾する、と仮定している。 非凸最適化のためのランダムリシャッフル(SignRR)を用いたSignSGDの最初の収束結果を証明することにより、このギャップを埋める。 データセットのサイズが$n$、データのエポック数が$t$、確率勾配 $\sigma^2$ の分散境界が与えられると、signgd \citep{bernstein2018signsgd} と同じ収束率 $o(\log(nt)/\sqrt{nt} + \|\sigma\|_1$ が signgd と同じであることが分かる。 次に SignRVR と SignRVM をそれぞれ、分散還元勾配と運動量更新を利用して、$O(\log (nT)/\sqrt{nT} + \log (nT)\sqrt{n}/\sqrt{T})$ で収束させる。 signgdの分析とは対照的に、各イテレーションで非常に大きなバッチサイズが必要はなく、イテレーションの総数である \citep{bernstein2018signsgd} や、確率的かつ真の勾配の符号は、要素ごとに最小確率1/2 \citep{safaryan2021stochastic} で一致している。 また、アルゴリズムは異なるマシンに分散してdist-SignRVRとdist-SignRVMを生成します。どちらも$O(\log (n_0T)/\sqrt{n_0T} + \log (n_0T)\sqrt{n_0}/\sqrt{T})$で収束します。 シミュレーションおよび実世界の問題に関する実験を通じて理論的知見をバックアップし、ランダムにリシャッフルされた手話法が既存のベースラインに一致するか、あるいは超えるかを検証する。

signSGD is popular in nonconvex optimization due to its communication efficiency. Yet, existing analyses of signSGD rely on assuming that data are sampled with replacement in each iteration, contradicting the practical implementation where data are randomly reshuffled and sequentially fed into the algorithm. We bridge this gap by proving the first convergence result of signSGD with random reshuffling (SignRR) for nonconvex optimization. Given the dataset size $n$, the number of epochs of data passes $T$, and the variance bound of a stochastic gradient $\sigma^2$, we show that SignRR has the same convergence rate $O(\log(nT)/\sqrt{nT} + \|\sigma\|_1)$ as signSGD \citep{bernstein2018signsgd}. We then present SignRVR and SignRVM, which leverage variance-reduced gradients and momentum updates respectively, both converging at $O(\log (nT)/\sqrt{nT} + \log (nT)\sqrt{n}/\sqrt{T})$. In contrast with the analysis of signSGD, our results do not require an extremely large batch size in each iteration to be of the same order as the total number of iterations \citep{bernstein2018signsgd} or the signs of stochastic and true gradients match element-wise with a minimum probability of 1/2 \citep{safaryan2021stochastic}. We also extend our algorithms to cases where data are distributed across different machines, yielding dist-SignRVR and dist-SignRVM, both converging at $O(\log (n_0T)/\sqrt{n_0T} + \log (n_0T)\sqrt{n_0}/\sqrt{T})$, where $n_0$ is the dataset size of a single machine. We back up our theoretical findings through experiments on simulated and real-world problems, verifying that randomly reshuffled sign methods match or surpass existing baselines.
翻訳日:2023-12-29 22:00:31 公開日:2023-12-28
# Transformer-based Capsule Network を用いた転写因子結合サイトの予測

Predicting Transcription Factor Binding Sites using Transformer based Capsule Network ( http://arxiv.org/abs/2310.15202v2 )

ライセンス: Link先を確認
Nimisha Ghosh and Daniele Santoni and Indrajit Saha and Giovanni Felici(参考訳) 転写因子の結合部位の予測は、遺伝子発現の制御方法と、この調節がどのように治療目的に調節されるかを理解するために重要である。 過去数年間、この問題には大きな取り組みがあったが、改善の余地はまだ残っている。 この場合、トランスベースのカプセルネットワークvizである。 DNABERT-Capは、ChIP-seqデータセットをマイニングする転写因子結合部位を予測するために提案されている。 DNABERT-Capは、多数のゲノムDNA配列が事前訓練された双方向エンコーダであり、最終予測にカプセル層が関与する。 提案モデルは,双方向エンコーダとカプセル層を包含する特徴と,畳み込みおよび双方向の長期記憶層との協調最適化を用いて,転写因子結合部位の予測器を構築する。 提案手法の有効性を評価するために,5つのセルラインvizのベンチマークChIP-seqデータセットを用いる。 A549, GM12878, Hep-G2, H1-hESC, Hela – ENCODEリポジトリで利用できる。 その結果、受信機動作特性曲線スコアの下の平均面積は、これら5つのセルラインすべてで 0.91 を超えることがわかった。 DNABERT-Capは、最先端のディープラーニングベースの予測器vizと比較される。 DeepARC、DeepTF、CNN-Zeng、DeepBindはそれらを上回っている。

Prediction of binding sites for transcription factors is important to understand how they regulate gene expression and how this regulation can be modulated for therapeutic purposes. Although in the past few years there are significant works addressing this issue, there is still space for improvement. In this regard, a transformer based capsule network viz. DNABERT-Cap is proposed in this work to predict transcription factor binding sites mining ChIP-seq datasets. DNABERT-Cap is a bidirectional encoder pre-trained with large number of genomic DNA sequences, empowered with a capsule layer responsible for the final prediction. The proposed model builds a predictor for transcription factor binding sites using the joint optimisation of features encompassing both bidirectional encoder and capsule layer, along with convolutional and bidirectional long-short term memory layers. To evaluate the efficiency of the proposed approach, we use a benchmark ChIP-seq datasets of five cell lines viz. A549, GM12878, Hep-G2, H1-hESC and Hela, available in the ENCODE repository. The results show that the average area under the receiver operating characteristic curve score exceeds 0.91 for all such five cell lines. DNABERT-Cap is also compared with existing state-of-the-art deep learning based predictors viz. DeepARC, DeepTF, CNN-Zeng and DeepBind, and is seen to outperform them.
翻訳日:2023-12-29 21:59:39 公開日:2023-12-28
# 忘れられた知識の再学習:DNNの蓄積, オーバーフィット, トレーニング不要なアンサンブルについて

Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free Ensembles of DNNs ( http://arxiv.org/abs/2310.11094v2 )

ライセンス: Link先を確認
Uri Stern, Daphna Weinshall(参考訳) ディープニューラルネットワークにおける過剰適合の頻繁な発生は複雑である。 一方、理論はモデルが大きくなるにつれて、一般化の減少とともに、最終的には特定のトレーニングセットに特化しすぎると予測する。 対照的に、画像分類における経験的結果は、深層モデルのトレーニング時間の増加やより大きなモデルの使用が一般化をほとんど損なわないことを示している。 オーバーフィットの計測方法が制限されすぎているからでしょうか? 本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。 このスコアは、一般化が全体として改善したとしても、データ空間の特定の領域が劣化していることを示している。 以上の結果から,検証精度を低下させることなくオーバーフィットが発生し,従来よりも一般的である可能性が示唆された。 この観察は、前述の紛らわしい絵を明確にするのに役立ちます。 我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に余分なコストを伴わずに大幅な性能向上を実現する。 最新の深層モデルによる広範な経験的評価は、スクラッチからトレーニングする場合と、トランスファーラーニングでトレーニング済みのネットワークを使用する場合の両方において、複数のデータセット、ニューラルネットワークアーキテクチャ、トレーニングスキームにおける我々の方法の有用性を示している。 特に,提案手法は実装や使用が容易で,画像ネット上での競合ネットワークの性能を1%向上させる。

The infrequent occurrence of overfit in deep neural networks is perplexing. On the one hand, theory predicts that as models get larger they should eventually become too specialized for a specific training set, with ensuing decrease in generalization. In contrast, empirical results in image classification indicate that increasing the training time of deep models or using bigger models almost never hurts generalization. Is it because the way we measure overfit is too limited? Here, we introduce a novel score for quantifying overfit, which monitors the forgetting rate of deep models on validation data. Presumably, this score indicates that even while generalization improves overall, there are certain regions of the data space where it deteriorates. When thus measured, we show that overfit can occur with and without a decrease in validation accuracy, and may be more common than previously appreciated. This observation may help to clarify the aforementioned confusing picture. We use our observations to construct a new ensemble method, based solely on the training history of a single network, which provides significant improvement in performance without any additional cost in training time. An extensive empirical evaluation with modern deep models shows our method's utility on multiple datasets, neural networks architectures and training schemes, both when training from scratch and when using pre-trained networks in transfer learning. Notably, our method outperforms comparable methods while being easier to implement and use, and further improves the performance of competitive networks on Imagenet by 1%.
翻訳日:2023-12-29 21:57:56 公開日:2023-12-28
# united we stand: オーバーフィットと戦うためのアンサンブルの画期的な合意

United We Stand: Using Epoch-wise Agreement of Ensembles to Combat Overfit ( http://arxiv.org/abs/2310.11077v2 )

ライセンス: Link先を確認
Uri Stern, Daniel Shwartz, Daphna Weinshall(参考訳) ディープニューラルネットワークは、生データ上で定義された非常に複雑な関数に適合するため、多くの分類タスクを解決するための選択方法となっている。 そのような強力な学習者の欠点は過度に適合する危険性である。 本稿では,訓練中の特定の中間時間に生成されたモデルを組み合わせて,過剰フィッティングを効果的に克服する深層ネットワークのための新しいアンサンブル分類器を提案する。 本手法は, 汎用性能の低下を伴わずに, モデルによって得られる有用な知識を, 早期停止時に欠落させることなく組み込むことができる。 このアプローチを動機づけるために、我々は、オーバーフィットが発生すると分類器間のばらつきが増加するという予測が、よく使われるディープネットワークで実証的に示される回帰モデルの理論的解析から始める。 これらの結果から,学習期間を通して最もコンセンサスな予測を行うクラスによって予測を決定する,新しいアンサンブルに基づく予測手法を構築した。 複数の画像およびテキスト分類データセットを用いて、正規アンサンブルが過剰適合に苦しむ場合、過剰適合による一般化の有害な低減を排除し、早期停止によって得られる性能を超越することを示す。 本手法は実装が容易で,トレーニングセット以上の事前知識を必要とせず,任意のトレーニングスキームやアーキテクチャに統合することができる。 したがって、オーバーフィットを克服する実用的かつ有用なツールである。 コードはhttps://github.com/uristern123/United-We-Stand-Using-Epoch-wise-Agreement-of-Ensembles-to-Combat-Ove rfitで公開されている。

Deep neural networks have become the method of choice for solving many classification tasks, largely because they can fit very complex functions defined over raw data. The downside of such powerful learners is the danger of overfit. In this paper, we introduce a novel ensemble classifier for deep networks that effectively overcomes overfitting by combining models generated at specific intermediate epochs during training. Our method allows for the incorporation of useful knowledge obtained by the models during the overfitting phase without deterioration of the general performance, which is usually missed when early stopping is used. To motivate this approach, we begin with the theoretical analysis of a regression model, whose prediction -- that the variance among classifiers increases when overfit occurs -- is demonstrated empirically in deep networks in common use. Guided by these results, we construct a new ensemble-based prediction method, where the prediction is determined by the class that attains the most consensual prediction throughout the training epochs. Using multiple image and text classification datasets, we show that when regular ensembles suffer from overfit, our method eliminates the harmful reduction in generalization due to overfit, and often even surpasses the performance obtained by early stopping. Our method is easy to implement and can be integrated with any training scheme and architecture, without additional prior knowledge beyond the training set. It is thus a practical and useful tool to overcome overfit. Code is available at https://github.com/uristern123/United-We-Stand-Using-Epoch-wise-Agreement-of-Ensembles-to-Combat-Ove rfit.
翻訳日:2023-12-29 21:57:29 公開日:2023-12-28
# チェーンワイド刺激ラマンショートカット-アディバティックパスによる超低温深層分子の高効率創製と検出

Highly Efficient Creation and Detection of Ultracold Deeply-Bound Molecules via Chainwise Stimulated Raman Shortcut-to-Adiabatic Passage ( http://arxiv.org/abs/2310.11071v2 )

ライセンス: Link先を確認
Jiahui Zhang, Li Deng, Yueping Niu, Shangqing Gong(参考訳) M型分子系における連鎖的に刺激されたラマン断熱通路(C-STIRAP)は、状態間のフランク・コンドン因子の弱さにより典型的なSTIRAPが機能しない場合、超低温のディープバウンド分子を生成する良い方法である。 しかし、スムーズな進化の過程における生成効率は概して低い。 この過程の間、中間状態の個体群は急速に崩壊し、強いレーザーパルスは多光子過程を誘導する。 本稿では,C-STIRAPの性能向上に,ショートカット・トゥ・アディバティック(STA)パスが適していることを示す。 現在、連鎖的に刺激されたラマン短絡-断熱通路(C-STIRSAP)に関する関連する議論は稀である。 ここでは、このトピックを断熱的除去の下で検討する。 4つの入射パルスの関係を考えると、m型系が最も単純な共振結合を持つ効果的な {\lambda} 型構造に一般化できることは非常に興味深い。 したがって、三状態系に対するstaの可能な全ての方法が借用できる。 分子システム上での処理を実証するために, 反断熱駆動法と "chosen path" 法を例に挙げた。 本手法は, 励起状態が強い場合, 実3状態系ではうまく動作しないが, 両方式のC-STIRSAPプロトコルは, M型系では高効率で極低温の深い分子を生成できる。 強度レーザーパルスを使わずに進化時間を短縮し、STAのロバスト性は良好に保存される。 最後に,超低温深層分子の検出について論じる。

Chainwise stimulated Raman adiabatic passage (C-STIRAP) in M-type molecular system is a good alternative in creating ultracold deeply-bound molecules when the typical STIRAP in {\Lambda}-type system does not work due to weak Frank-Condon factors between states. However, its creation efficiency under the smooth evolution is generally low. During the process, the population in the intermediate states may decay out quickly and the strong laser pulses may induce multi-photon processes. In this paper, we find that shortcut-to-adiabatic (STA) passage fits very well in improving the performance of the C-STIRAP. Currently, related discussions on the so-called chainwise stimulated Raman shortcut-to-adiabatic passage (C-STIRSAP) are rare. Here, we investigate this topic under the adiabatic elimination. Given a relation among the four incident pulses, it is quite interesting that the M-type system can be generalized into an effective {\Lambda}-type structure with the simplest resonant coupling. Consequently, all possible methods of STA for three-state system can be borrowed. We take the counter-diabatic driving and "chosen path" method as instances to demonstrate our treatment on the molecular system. Although the "chosen path" method does not work well in real three-state system if there is strong decay in the excited state, our C-STIRSAP protocol under both the two methods can create ultracold deeply-bound molecules with high efficiency in the M-type system. The evolution time is shortened without strong laser pulses and the robustness of STA is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed.
翻訳日:2023-12-29 21:56:58 公開日:2023-12-28
# セットバックから知恵を得る - ミス分析による大規模言語モデルの整合

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis ( http://arxiv.org/abs/2310.10477v3 )

ライセンス: Link先を確認
Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大規模言語モデル(llm)の急速な発展は、多くの機会をもたらしただけでなく、大きな課題ももたらした。 LLMが意図しないもしくは意図的な誘導によって有害または有害な物質を不注意に生成すると、これは特に明らかになる。 既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果へと誘導する。 逆に, 誤りの原因や回避方法を学習するために, LLMを誤った内容に意図的に公開する, 誤り解析に基づく新しいアライメント手法を提案する。 この場合、ミスはアライメントのために貴重なデータに再利用され、誤応答の発生を効果的に回避する。 外部モデルや人的アノテーションがなければ,本手法は,望ましくない誤りを識別し,生成した応答の安全性を向上させるモデル固有の能力を利用する。 実験結果から,本手法はモデル安全性を向上させるために既存のアライメント手法よりも優れていることがわかった。

The rapid development of large language models (LLMs) has not only provided numerous opportunities but also presented significant challenges. This becomes particularly evident when LLMs inadvertently generate harmful or toxic content, either unintentionally or because of intentional inducement. Existing alignment methods usually direct LLMs toward favorable outcomes by utilizing human-annotated, flawless instruction-response pairs. Conversely, this study proposes a novel alignment technique based on mistake analysis, which deliberately exposes LLMs to erroneous content to learn the reasons for mistakes and how to avoid them. In this case, mistakes are repurposed into valuable data for alignment, effectively helping to avoid the production of erroneous responses. Without external models or human annotations, our method leverages a model's intrinsic ability to discern undesirable mistakes and improves the safety of its generated responses. Experimental results reveal that our method outperforms existing alignment approaches in enhancing model safety while maintaining the overall utility.
翻訳日:2023-12-29 21:56:29 公開日:2023-12-28
# DAP:視覚・言語ナビゲーションのためのドメイン認識型プロンプト学習

DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2311.17812v3 )

ライセンス: Link先を確認
Ting Liu, Yue Hu, Wansen Wu, Youkai Wang, Kai Xu, Quanjun Yin(参考訳) 未知の環境をナビゲートするための言語指示に従うことは、自律型実施エージェントにとって困難なタスクである。 強力な表現能力により、事前訓練された視覚・言語モデルはVLNで広く使われている。 しかし、そのほとんどはWebcrawledの汎用データセットでトレーニングされており、VLNタスクで使用する場合、かなりのドメインギャップが生じる。 そこで本研究では,新しいモデルに依存しないdap(domain-aware prompt learning)フレームワークを提案する。 VLNタスクにおいて、事前訓練されたモデルに特定のオブジェクトレベルとシーンレベルのクロスモーダルアライメントを持たせるために、DAPは低コストのプロンプトチューニングパラダイムを適用し、ドメイン内の画像セマンティクスを抽出するためのソフトな視覚的プロンプトを学習する。 具体的には、CLIPモデルの助けを借りて、まずドメイン内の画像とテキストのペアを生成する。 次に,事前学習モデルにおいて,視覚エンコーダの入力空間にソフトビジュアルプロンプトを導入する。 DAPは、訓練済みモデルの視覚エンコーダにドメイン内の視覚知識を効率的に注入する。 R2RとREVERIEの両方の実験結果は、既存の最先端手法と比較してDAPの優位性を示している。

Following language instructions to navigate in unseen environments is a challenging task for autonomous embodied agents. With strong representation capabilities, pretrained vision-and-language models are widely used in VLN. However, most of them are trained on web-crawled general-purpose datasets, which incurs a considerable domain gap when used for VLN tasks. To address the problem, we propose a novel and model-agnostic domain-aware prompt learning (DAP) framework. For equipping the pretrained models with specific object-level and scene-level cross-modal alignment in VLN tasks, DAP applies a low-cost prompt tuning paradigm to learn soft visual prompts for extracting in-domain image semantics. Specifically, we first generate a set of in-domain image-text pairs with the help of the CLIP model. Then we introduce soft visual prompts in the input space of the visual encoder in a pretrained model. DAP injects in-domain visual knowledge into the visual encoder of the pretrained model in an efficient way. Experimental results on both R2R and REVERIE show the superiority of DAP compared to existing state-of-the-art methods.
翻訳日:2023-12-29 21:49:21 公開日:2023-12-28
# フェデレーション・トランスファー・ラーニングによる基礎モデル:汎用フレームワーク

Grounding Foundation Models through Federated Transfer Learning: A General Framework ( http://arxiv.org/abs/2311.17431v6 )

ライセンス: Link先を確認
Yan Kang, Tao Fan, Hanlin Gu, Xiaojin Zhang, Lixin Fan, Qiang Yang(参考訳) 膨大な知識と強力な創発能力を備えたGPT-4のような基礎モデル(FM)は、様々な自然言語処理やコンピュータビジョンタスクにおいて大きな成功を収めている。 FMをドメイン固有のタスクに適応させたり、ドメイン固有の知識で拡張することで、FMの潜在能力を最大限活用することができる。 しかし、基盤となるFMは、主に制約のあるコンピューティングリソース、データプライバシ、モデルの不均一性、モデルオーナシップなど、いくつかの課題に直面している。 フェデレーション・トランスファー・ラーニング(FTL)は、フェデレーション・ラーニングとトランスファー・ラーニングを組み合わせたもので、これらの課題に対処するための有望なソリューションを提供する。 近年、FTL-FMと呼ばれるFTLを利用したFMの接地の必要性が、学術と産業の両方で強く現れている。 本研究では,FTL-FM研究の高度化とFTL-FMの産業的応用への影響を背景として,FTL-FMフレームワークの構築,FTL-FMフレームワークに基づく詳細な分類法の構築,最先端のFTL-FM作品の分類,提案した分類法に基づくFTL-FM作品の包括的概要について述べる。 また、FTL-FMと従来のFM適応フェーズの対応性を確立し、FM実践者がFTL-FMと研究作業を整合させることができるようにした。 さらに、FTL-FMにおいて効率とプライバシーが重要となるため、高度な効率改善とプライバシー保護技術の概要を述べる。 最後に,FTL-FMの今後の研究の方向性について述べる。

Foundation Models (FMs) such as GPT-4 encoded with vast knowledge and powerful emergent abilities have achieved remarkable success in various natural language processing and computer vision tasks. Grounding FMs by adapting them to domain-specific tasks or augmenting them with domain-specific knowledge enables us to exploit the full potential of FMs. However, grounding FMs faces several challenges, stemming primarily from constrained computing resources, data privacy, model heterogeneity, and model ownership. Federated Transfer Learning (FTL), the combination of federated learning and transfer learning, provides promising solutions to address these challenges. In recent years, the need for grounding FMs leveraging FTL, coined FTL-FM, has arisen strongly in both academia and industry. Motivated by the strong growth in FTL-FM research and the potential impact of FTL-FM on industrial applications, we propose an FTL-FM framework that formulates problems of grounding FMs in the federated learning setting, construct a detailed taxonomy based on the FTL-FM framework to categorize state-of-the-art FTL-FM works, and comprehensively overview FTL-FM works based on the proposed taxonomy. We also establish correspondences between FTL-FM and conventional phases of adapting FM so that FM practitioners can align their research works with FTL-FM. In addition, we overview advanced efficiency-improving and privacy-preserving techniques because efficiency and privacy are critical concerns in FTL-FM. Last, we discuss opportunities and future research directions of FTL-FM.
翻訳日:2023-12-29 21:48:36 公開日:2023-12-28
# 意思決定型学習のロバスト性について

On the Robustness of Decision-Focused Learning ( http://arxiv.org/abs/2311.16487v3 )

ライセンス: Link先を確認
Yehya Farhat(参考訳) 決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。 DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。 DFLは多くの約束を示し、多くの現実世界のアプリケーションで意思決定に革命をもたらす能力を持っている。 しかし、これらのモデルの敵攻撃時の性能についてはほとんど分かっていない。 我々は,10種類のDFL手法を採用し,その性能を予測列最適化問題に適応した2つの明確な攻撃条件下でベンチマークする。 本研究は,モデルのロバスト性が,接地ラベルから逸脱することなく最適な決定につながる予測を見つける能力と高い相関関係にあるという仮説を提案する。 さらに、この条件に違反するモデルをターゲットにする方法を考察し、トレーニングサイクルの最後に達成された最適性に応じてこれらのモデルがどのように反応するかを示す。

Decision-Focused Learning (DFL) is an emerging learning paradigm that tackles the task of training a machine learning (ML) model to predict missing parameters of an incomplete optimization problem, where the missing parameters are predicted. DFL trains an ML model in an end-to-end system, by integrating the prediction and optimization tasks, providing better alignment of the training and testing objectives. DFL has shown a lot of promise and holds the capacity to revolutionize decision-making in many real-world applications. However, very little is known about the performance of these models under adversarial attacks. We adopt ten unique DFL methods and benchmark their performance under two distinctly focused attacks adapted towards the Predict-then-Optimize problem setting. Our study proposes the hypothesis that the robustness of a model is highly correlated with its ability to find predictions that lead to optimal decisions without deviating from the ground-truth label. Furthermore, we provide insight into how to target the models that violate this condition and show how these models respond differently depending on the achieved optimality at the end of their training cycles.
翻訳日:2023-12-29 21:47:44 公開日:2023-12-28
# 金融時系列のモデルフリー制御のためのカリキュラム学習と模倣学習

Curriculum Learning and Imitation Learning for Model-free Control on Financial Time-series ( http://arxiv.org/abs/2311.13326v2 )

ライセンス: Link先を確認
Woosung Koh, Insu Choi, Yuntae Jang, Gimin Kang, Woo Chang Kim(参考訳) カリキュラム学習と模倣学習はロボティクスの分野で広く活用されている。 しかし、これらの概念を高度に確率的な時系列データ上の制御タスクに活用する研究は最小限である。 本稿では,複雑な時系列データに対する代表制御タスクにおいて,これらのアプローチを理論的かつ実証的に検討する。 データ拡張によるカリキュラム学習の基本的な考え方を実装し、一方、模倣学習はオラクルからのポリシー蒸留を通じて実施する。 この結果から,カリキュラム学習は複雑な時系列よりも制御タスク性能を向上させるための新しい方向性であると考えられた。 我々の無作為なアウトサンプル経験とアブレーション研究は、時系列制御のためのカリキュラム学習を強く奨励している。 これらの発見は特に、ベースライン上で重なり合うハイパーパラメータをすべてチューニングすることで、ベースラインの利点を生かしている。 一方,模倣学習には注意が必要である。

Curriculum learning and imitation learning have been leveraged extensively in the robotics domain. However, minimal research has been done on leveraging these ideas on control tasks over highly stochastic time-series data. Here, we theoretically and empirically explore these approaches in a representative control task over complex time-series data. We implement the fundamental ideas of curriculum learning via data augmentation, while imitation learning is implemented via policy distillation from an oracle. Our findings reveal that curriculum learning should be considered a novel direction in improving control-task performance over complex time-series. Our ample random-seed out-sample empirics and ablation studies are highly encouraging for curriculum learning for time-series control. These findings are especially encouraging as we tune all overlapping hyperparameters on the baseline -- giving an advantage to the baseline. On the other hand, we find that imitation learning should be used with caution.
翻訳日:2023-12-29 21:47:09 公開日:2023-12-28
# なぜ確率的臨床モデルはサイト間を移動できないのか?

Why Do Probabilistic Clinical Models Fail To Transport Between Sites? ( http://arxiv.org/abs/2311.04787v2 )

ライセンス: Link先を確認
Thomas A. Lasko, Eric V. Strobl, William W. Stead(参考訳) 医療における人工知能の人気の高まりは、トレーニングサイトでの超人的な臨床パフォーマンスを達成する計算モデルが、新しいサイトでは大幅に悪化する可能性があるという問題を浮き彫りにしている。 そこで本研究では,このトランスポートの失敗の原因を,臨床データ生成プロセスに固有の実験者の制御下にあるソースとソースに分けて提示する。 内在的な情報源のうち、我々は、データ分布に影響を与える可能性のあるサイト固有の臨床プラクティスに少し深く目を向け、それらのプラクティスのインプリントを、一般的な確率的臨床モデルのターゲットである疾患の原因と効果のパターンから分離することを目的とした潜在的なソリューションを提案する。

The rising popularity of artificial intelligence in healthcare is highlighting the problem that a computational model achieving super-human clinical performance at its training sites may perform substantially worse at new sites. In this perspective, we present common sources for this failure to transport, which we divide into sources under the control of the experimenter and sources inherent to the clinical data-generating process. Of the inherent sources we look a little deeper into site-specific clinical practices that can affect the data distribution, and propose a potential solution intended to isolate the imprint of those practices on the data from the patterns of disease cause and effect that are the usual target of probabilistic clinical models.
翻訳日:2023-12-29 21:44:39 公開日:2023-12-28
# 医用画像解析のための汎用視覚基盤モデルに向けて--ラジオロジーベンチマークによるdinov2の実験的検討

Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks ( http://arxiv.org/abs/2312.02366v3 )

ライセンス: Link先を確認
Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Abdulrhman Aljouie, Wei Peng(参考訳) 深層学習システムの医療への統合は、データアノテーションのリソース集約的なプロセスと、異なるデータ分布に一般化できないことで妨げられている。 大規模なデータセットで事前トレーニングされたモデルである基盤モデルは、注釈付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。 DINOv2はオープンソースのファウンデーションモデルで、1億4200万のキュレーションされた自然画像を自己教師付きで学習し、様々なビジョンタスクで有望な能力を示す。 しかしながら、DINOv2の放射線画像への適応性や、その特徴が放射線画像解析に有用であるかどうかについては、重要な疑問が残る。 そこで本研究では,放射線学におけるDINOv2を総合的に評価し,X線,CT,MRIなど多種多様な実験を100以上行った。 DINOv2の特徴表現の有効性と一般化性を評価するため, 2次元画像と3次元画像の両方における疾患分類と臓器セグメント化を含む医用画像解析作業, kNN, 少数ショット学習, 線形プロブリング, エンドツーエンドファインチューニング, パラメータ効率の微調整などの異なる設定下でのモデル解析を行った。 確立された教師付き、自己監督型、弱教師付きモデルとの比較分析により、DINOv2の優れた性能とクロスタスクの一般化性が示された。 本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割について,医療画像のトレーニング前戦略を最適化し,より広範に理解するための潜在的手段への洞察に寄与する。 私たちのコードはhttps://github.com/MohammedSB/DINOv2ForRadiologyで利用可能です。

The integration of deep learning systems into healthcare has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2 is an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images that exhibits promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2's adaptability to radiological imaging, and whether its features are sufficiently general to benefit radiology image analysis. Therefore, this study comprehensively evaluates DINOv2 for radiology, conducting over 100 experiments across diverse modalities (X-ray, CT, and MRI). To measure the effectiveness and generalizability of DINOv2's feature representations, we analyze the model across medical image analysis tasks including disease classification and organ segmentation on both 2D and 3D images, and under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning. Comparative analyses with established supervised, self-supervised, and weakly-supervised models reveal DINOv2's superior performance and cross-task generalizability. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2's role in bridging the gap between natural and radiological image analysis. Our code is available at https://github.com/MohammedSB/DINOv2ForRadiology
翻訳日:2023-12-29 21:36:17 公開日:2023-12-28
# グラフニューラルネットワークを用いたデジタル病理 : 臨床医のための概念と解説

Digital Histopathology with Graph Neural Networks: Concepts and Explanations for Clinicians ( http://arxiv.org/abs/2312.02225v2 )

ライセンス: Link先を確認
Alessandro Farace di Villaforesta, Lucie Charlotte Magister, Pietro Barbiero, Pietro Li\`o(参考訳) 医療環境でのディープラーニングの‘ブラックボックス’という性質の課題に対処するために、自動概念発見ソリューションであるgcexplainerと、ロジック説明ネットワークを組み合わせることで、グラフニューラルネットワークのグローバルな説明を提供する。 我々は,ホバーネットを用いた汎視分節化と,グラフ畳み込みネットワークを用いた癌予測を含む,汎用的なグラフ構築と分類パイプラインを用いてこれを実証する。 乳がんのH&Eスライドのトレーニングにより、臨床医に説明可能な信頼できるAIツールを提供することで、有望な結果を示す。

To address the challenge of the ``black-box" nature of deep learning in medical settings, we combine GCExplainer - an automated concept discovery solution - along with Logic Explained Networks to provide global explanations for Graph Neural Networks. We demonstrate this using a generally applicable graph construction and classification pipeline, involving panoptic segmentation with HoVer-Net and cancer prediction with Graph Convolution Networks. By training on H&E slides of breast cancer, we show promising results in offering explainable and trustworthy AI tools for clinicians.
翻訳日:2023-12-29 21:35:46 公開日:2023-12-28
# gaussianhead: 学習可能なgaussian diffusionを持つ印象的な頭部アバター

GaussianHead: Impressive Head Avatars with Learnable Gaussian Diffusion ( http://arxiv.org/abs/2312.01632v2 )

ライセンス: Link先を確認
Jie Wang, Jiu-Cheng Xie, Xianyan Li, Feng Xu, Chi-Man Pun, Hao Gao(参考訳) 以前の頭部アバター法は主に固定形状のシーンプリミティブに依存しており、幾何学的トポロジー、テクスチャの詳細、計算効率のバランスが欠如している。 いくつかのハイブリッドニューラルネットワーク(平面やボクセルなど)は高速レンダリングの利点を享受したが、いずれも軸方向のマッピングを使用して特徴を明示的に抽出し、軸方向のバイアスや特徴の希釈の問題を引き起こした。 本稿では,変形可能な3次元ガウスを頭部アバターの構成要素として利用するガウスヘッドを提案する。 そこで本研究では,動的拡散を受けるために指定されたコアガウスを因子面にマッピングし,正規部分因子を取得する手法を提案する。 われわれの因子ブレンディング戦略により,レンダリングに使用されるガウスコアの標準的特徴が得られた。 このアプローチは、特に歯、しわ、髪、さらには顔の毛穴のような微妙な構造の表現能力を向上させるために、軸方向のマッピングを利用する以前の慣習から逸脱している。 最先端のメソッドと比較して、gaussianheadのユニークなプリミティブ選択とファクタ分解は、レンダリングパフォーマンスを維持しながら優れたビジュアル結果をもたらします(1フレームあたり0.1秒)。 コードは研究のためにリリースされる。

Previous head avatar methods have primarily relied on fixed-shape scene primitives, lacking a balance between geometric topology, texture details, and computational efficiency. Some hybrid neural network methods (e.g., planes and voxels) gained advantages in fast rendering, but they all used axis-aligned mappings to extract features explicitly, leading to issues of axis-aligned bias and feature dilution. We present GaussianHead, which utilizes deformable 3D Gaussians as building blocks for the head avatars. We propose a novel methodology where the core Gaussians designated for rendering undergo dynamic diffusion before being mapped onto a factor plane to acquire canonical sub-factors. Through our factor blending strategy, the canonical features for the core Gaussians used in rendering are obtained. This approach deviates from the previous practice of utilizing axis-aligned mappings, especially improving the representation capability of subtle structures such as teeth, wrinkles, hair, and even facial pores. In comparison to state-of-the-art methods, our unique primitive selection and factor decomposition in GaussianHead deliver superior visual results while maintaining rendering performance (0.1 seconds per frame). Code will released for research.
翻訳日:2023-12-29 21:34:49 公開日:2023-12-28
# 翻訳不変系に対するサブシステム固有状態熱化仮説

Subsystem eigenstate thermalization hypothesis for translation invariant systems ( http://arxiv.org/abs/2312.00410v2 )

ライセンス: Link先を確認
Zhiqiang Huang and Xiao-Kan Guo(参考訳) 翻訳不変量子スピン系の固有状態熱化仮説は、最近ランダム行列を用いて証明されている。 本稿では, ランダム行列を使わずに, 変換不変量子系に対する固有状態熱化仮説のサブシステムバージョンについて検討する。 量子分散あるいはBelavkin-Staszewski相対エントロピー上の小さな上界を示すことによって、基本的方法で代数的な収束速度を持つ変換不変量子系に対するサブシステム固有状態熱化仮説を証明できる。

The eigenstate thermalization hypothesis for translation invariant quantum spin systems has been proved recently by using random matrices. In this paper, we study the subsystem version of eigenstate thermalization hypothesis for translation invariant quantum systems without referring to random matrices. By showing the small upper bounds on the quantum variance or the Belavkin-Staszewski relative entropy, we prove the subsystem eigenstate thermalization hypothesis for translation invariant quantum systems with an algebraic speed of convergence in an elementary way.
翻訳日:2023-12-29 21:33:55 公開日:2023-12-28
# 自動講義スタイル評価システムの開発と評価のための統合フレームワーク

An integrated framework for developing and evaluating an automated lecture style assessment system ( http://arxiv.org/abs/2312.00201v2 )

ライセンス: Link先を確認
Eleni Dimitriadou and Andreas Lanitis(参考訳) 本研究の目的は,教師が学習スタイルの良さに関するフィードバックを瞬時に得られるように,自動講義スタイル評価を提供する統合システムを開発し,評価することである。 提案システムは,学生の学習体験を改善できる講義品質の向上を目的としている。 提案アプリケーションは, 講演者の視点から見た映像から抽出した, 表情, 身体活動, 発話速度とイントネーション, 手の動き, 顔のポーズなどの, 特定の計測可能な生体特性を利用する。 講義中に抽出された測定可能な生体情報を組み合わせて、講義全体の品質指標を提供することにより、講義スタイル品質をフレームレートで反映するスコアを提供する。 提案する講義スタイルの評価システムの受容は, 教育責任者, 教員, 学生によって, 機能, 応用の有用性, 改善の可能性について評価された。 その結果,参加者は授業品質に関するフィードバックを自動提供するために,新規で有用なアプリケーションを見出した。 さらに,提案システムの性能評価を,講義スタイルの評価作業における人間のパフォーマンスと比較した。 以上の結果から,提案システムは人間の観察者と同様の性能を発揮するだけでなく,その性能に優れる場合もある。

The aim of the work presented in this paper is to develop and evaluate an integrated system that provides automated lecture style evaluation, allowing teachers to get instant feedback related to the goodness of their lecturing style. The proposed system aims to promote improvement of lecture quality, that could upgrade the overall student learning experience. The proposed application utilizes specific measurable biometric characteristics, such as facial expressions, body activity, speech rate and intonation, hand movement, and facial pose, extracted from a video showing the lecturer from the audience point of view. Measurable biometric features extracted during a lecture are combined to provide teachers with a score reflecting lecture style quality both at frame rate and by providing lecture quality metrics for the whole lecture. The acceptance of the proposed lecture style evaluation system was evaluated by chief education officers, teachers and students regarding the functionality, usefulness of the application, and possible improvements. The results indicate that participants found the application novel and useful in providing automated feedback regarding lecture quality. Furthermore, the performance evaluation of the proposed system was compared with the performance of humans in the task of lecture style evaluation. Results indicate that the proposed system not only achieves similar performance to human observers, but in some cases, it outperforms them.
翻訳日:2023-12-29 21:33:47 公開日:2023-12-28
# RJUA-QA: 尿路学のための総合的なQAデータセット

RJUA-QA: A Comprehensive QA Dataset for Urology ( http://arxiv.org/abs/2312.09785v2 )

ライセンス: Link先を確認
Shiwei Lyu and Chenfei Chi and Hongbo Cai and Lei Shi and Xiaoyan Yang and Lei Liu and Xiang Chen and Deng Zhao and Zhiqiang Zhang and Xianguo Lyu and Ming Zhang and Fangzhou Li and Xiaowei Ma and Yue Shen and Jinjie Gu and Wei Xue and Yiran Huang(参考訳) RJUA-QAは質問応答(QA)と臨床証拠の推論のための新しい医療データセットであり、一般的な大言語モデル(LLM)と医学固有のLLMアプリケーションとのギャップを埋めるのに寄与する。 RJUA-QAは、現実的な臨床シナリオから派生したもので、信頼性の高い診断とアドバイスを生成する上でLLMを促進することを目的としている。 データセットには2,132の質問-文脈-回答ペアが含まれており、およそ25,000の診断記録と臨床事例に対応している。 このデータセットは67の一般的な尿器科疾患カテゴリをカバーしており、尿器科の医療サービスを求める人口の97.6\%を超える。 RJUA-QAの各データインスタンスは、(1)臨床症状や医療状況に関する質問を実際の患者に反映し、(2)総合的な専門知識を含む文脈、(3)診断結論と推奨検査指針を提供する医師の回答、(4)診断された臨床疾患を推奨診断結果とする医師のアドバイス、(5)医学検査のための勧告を提供する臨床アドバイスを含む。 RJUA-QAは、患者に対する臨床推論のための最初の医学的QAデータセットであり、診断結論と医学的検査アドバイスを得るためには、専門家レベルの知識と経験が必要である。 RJUA-QAデータセットを用いて,医療用および一般用両方のLCMの性能評価を行う。 我々のデータは \url{https://github.com/alipay/RJU_Ant_QA} で公開されています。

We introduce RJUA-QA, a novel medical dataset for question answering (QA) and reasoning with clinical evidence, contributing to bridge the gap between general large language models (LLMs) and medical-specific LLM applications. RJUA-QA is derived from realistic clinical scenarios and aims to facilitate LLMs in generating reliable diagnostic and advice. The dataset contains 2,132 curated Question-Context-Answer pairs, corresponding about 25,000 diagnostic records and clinical cases. The dataset covers 67 common urological disease categories, where the disease coverage exceeds 97.6\% of the population seeking medical services in urology. Each data instance in RJUA-QA comprises: (1) a question mirroring real patient to inquiry about clinical symptoms and medical conditions, (2) a context including comprehensive expert knowledge, serving as a reference for medical examination and diagnosis, (3) a doctor response offering the diagnostic conclusion and suggested examination guidance, (4) a diagnosed clinical disease as the recommended diagnostic outcome, and (5) clinical advice providing recommendations for medical examination. RJUA-QA is the first medical QA dataset for clinical reasoning over the patient inquiries, where expert-level knowledge and experience are required for yielding diagnostic conclusions and medical examination advice. A comprehensive evaluation is conducted to evaluate the performance of both medical-specific and general LLMs on the RJUA-QA dataset. Our data is are publicly available at \url{https://github.com/alipay/RJU_Ant_QA}.
翻訳日:2023-12-29 21:24:51 公開日:2023-12-28
# Math-Shepherd: LLMを人間アノテーションなしで段階的に検証し強化する

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations ( http://arxiv.org/abs/2312.08935v2 )

ライセンス: Link先を確認
Peiyi Wang and Lei Li and Zhihong Shao and R.X. Xu and Damai Dai and Yifei Li and Deli Chen and Y.Wu and Zhifang Sui(参考訳) 本稿では,数学問題解の各ステップに報酬のスコアを割り当てる「textbf{Math-Shepherd}」という,革新的なプロセス指向の数学プロセス報酬モデルを提案する。 自動構築されたプロセス単位での監督データを用いて数学シェファードの訓練を行い、既存の作業における手動アノテーションに重きを置くボトルネックを打ち破る。 数学シェファードの有効性を2つのシナリオで検討する。 1) \textit{Verification}: Math-Shepherd は、Large Language Models (LLMs) によって生成される複数の出力のランク付けに使用される。 2) <textit{Reinforcement Learning}: Math-Shepherd は PPO (Proximal Policy Optimization) をステップバイステップで強化するために用いられる。 Math-Shepherdでは、オープンソースのLCMシリーズが例外的なパフォーマンスを示している。 例えば、Math-ShepherdのステップバイステップのPPOはMistral-7Bの精度を大幅に向上させる(GSM8Kでは77.9\%$\to$84.1\%、MATHでは28.6\%$\to$33.0\%)。 精度は、それぞれMath-Shepherdを検証した GSM8K と MATH で 89.1\% と 43.5\% に向上することができる。 我々は,LLMの今後の発展に,自動プロセス監視が大きな可能性を秘めていると考えている。

In this paper, we present an innovative process-oriented math process reward model called \textbf{Math-Shepherd}, which assigns a reward score to each step of math problem solutions. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. We explore the effectiveness of Math-Shepherd in two scenarios: 1) \textit{Verification}: Math-Shepherd is utilized for reranking multiple outputs generated by Large Language Models (LLMs); 2) \textit{Reinforcement Learning}: Math-Shepherd is employed to reinforce LLMs with step-by-step Proximal Policy Optimization (PPO). With Math-Shepherd, a series of open-source LLMs demonstrates exceptional performance. For instance, the step-by-step PPO with Math-Shepherd significantly improves the accuracy of Mistral-7B (77.9\%$\to$84.1\% on GSM8K and 28.6\%$\to$33.0\% on MATH). The accuracy can be further enhanced to 89.1\% and 43.5\% on GSM8K and MATH with the verification of Math-Shepherd, respectively. We believe that automatic process supervision holds significant potential for the future evolution of LLMs.
翻訳日:2023-12-29 21:24:01 公開日:2023-12-28
# LLM4VG:ビデオグラウンドのための大規模言語モデルの評価

LLM4VG: Large Language Models Evaluation for Video Grounding ( http://arxiv.org/abs/2312.14206v2 )

ライセンス: Link先を確認
Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu(参考訳) 近年,ビデオ処理におけるLLMの有効性について検討し,いくつかのビデオLLMモデルを提案する。 しかし、llmがビデオグラウンド(vg)を処理する能力は、与えられたテキストクエリにマッチするビデオの時間的モーメントの開始と終了のタイムスタンプを正確に特定するモデルを必要とする重要な時間関連のビデオタスクであり、文献にはまだ不明で未調査のままである。 このギャップを埋めるために,ビデオグラウンド処理における異なるLLMの性能を体系的に評価するLLM4VGベンチマークを提案する。 提案したLLM4VGに基づいて,ビデオグラウンド上でのビデオLLMモデルの2つのグループを調べるための広範な実験を設計する。 (i)テキストとビデオのペア(vidllmと表記)で訓練されたビデオllmと (ii)llmはビデオ・画像キャプションモデルなどの事前学習された視覚記述モデルと組み合わせる。 本稿では,視覚的直接記述のためのキャプションベースジェネレータや情報強調のためのVQAベースのジェネレータなど,さまざまな種類のジェネレータからのVG命令と記述を統合する手法を提案する。 また、様々なVidLLMの総合的な比較を行い、視覚モデル、LLM、プロンプトデザインなど様々な選択の影響についても検討する。 実験結果から2つの結論が得られた。 (i)既存のVidLLMは、まだ満足のいくビデオグラウンドのパフォーマンスには程遠いので、これらのモデルをさらに微調整するためには、もっと時間関連のビデオタスクを含めるべきです。 (ii)llmと視覚モデルの組み合わせは,より信頼性の高いモデルに頼り,さらに手軽な指示の指導を行うことにより,映像グラウンディングの予備的能力を示す。

Recently, researchers have attempted to investigate the capability of LLMs in handling videos and proposed several video LLM models. However, the ability of LLMs to handle video grounding (VG), which is an important time-related video task requiring the model to precisely locate the start and end timestamps of temporal moments in videos that match the given textual queries, still remains unclear and unexplored in literature. To fill the gap, in this paper, we propose the LLM4VG benchmark, which systematically evaluates the performance of different LLMs on video grounding tasks. Based on our proposed LLM4VG, we design extensive experiments to examine two groups of video LLM models on video grounding: (i) the video LLMs trained on the text-video pairs (denoted as VidLLM), and (ii) the LLMs combined with pretrained visual description models such as the video/image captioning model. We propose prompt methods to integrate the instruction of VG and description from different kinds of generators, including caption-based generators for direct visual description and VQA-based generators for information enhancement. We also provide comprehensive comparisons of various VidLLMs and explore the influence of different choices of visual models, LLMs, prompt designs, etc, as well. Our experimental evaluations lead to two conclusions: (i) the existing VidLLMs are still far away from achieving satisfactory video grounding performance, and more time-related video tasks should be included to further fine-tune these models, and (ii) the combination of LLMs and visual models shows preliminary abilities for video grounding with considerable potential for improvement by resorting to more reliable models and further guidance of prompt instructions.
翻訳日:2023-12-29 21:13:19 公開日:2023-12-28
# 事故GPT:マルチモーダル大モデルによるV2X環境認識の事故解析と防止

AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model ( http://arxiv.org/abs/2312.13156v2 )

ライセンス: Link先を確認
Lening Wang, Han Jiang, Pinlong Cai, Daocheng Fu, Tianqi Wang, Zhiyong Cui, Yilong Ren, Haiyang Yu, Xuesong Wang, Hanchu Zhou, Helai Huang, Yinhai Wang(参考訳) 交通事故は、人的被害と財産の被害の両方に重要な貢献をするものであり、交通安全の分野で多くの研究者が研究の焦点となっている。 しかし、従来の研究では、静的環境アセスメントや動的運転分析、事故前予測や事故後ルール分析に焦点をあてた研究は、通常は孤立して行われている。 交通安全の包括的な理解と応用を開発するための効果的な枠組みが欠如している。 このギャップに対処するために,本研究では,総合的な事故解析とマルチモーダル大モデルであるAccidentGPTを紹介する。 事故GPTは,交通安全分野における事故解析と防止に対する総合的なアプローチを可能にする,マルチセンサ認識に基づくマルチモーダル情報インタラクションフレームワークを確立する。 具体的には, 自律走行車では, 総合的な環境認識と, 車両の制御と衝突回避のための理解を提供する。 人間の運転する車両では、プロアクティブな長距離安全警告と盲点警報を提供すると同時に、人間と機械の対話と対話を通じて安全運転の推奨と行動規範を提供する。 さらに,交通警察や交通管理機関では,歩行者,車両,道路,環境などを含む交通安全のインテリジェントかつリアルタイムな分析を,複数の車両や道路試験装置からの協調的な認識を通じて支援している。 このシステムはまた、車両衝突後の事故原因と責任を徹底的に分析することができる。 我々のフレームワークは交通安全研究に総合的なシーン理解を統合する最初の大規模モデルである。 プロジェクトページ: https://accidentgpt.github.io

Traffic accidents, being a significant contributor to both human casualties and property damage, have long been a focal point of research for many scholars in the field of traffic safety. However, previous studies, whether focusing on static environmental assessments or dynamic driving analyses, as well as pre-accident predictions or post-accident rule analyses, have typically been conducted in isolation. There has been a lack of an effective framework for developing a comprehensive understanding and application of traffic safety. To address this gap, this paper introduces AccidentGPT, a comprehensive accident analysis and prevention multi-modal large model. AccidentGPT establishes a multi-modal information interaction framework grounded in multi-sensor perception, thereby enabling a holistic approach to accident analysis and prevention in the field of traffic safety. Specifically, our capabilities can be categorized as follows: for autonomous driving vehicles, we provide comprehensive environmental perception and understanding to control the vehicle and avoid collisions. For human-driven vehicles, we offer proactive long-range safety warnings and blind-spot alerts while also providing safety driving recommendations and behavioral norms through human-machine dialogue and interaction. Additionally, for traffic police and management agencies, our framework supports intelligent and real-time analysis of traffic safety, encompassing pedestrian, vehicles, roads, and the environment through collaborative perception from multiple vehicles and road testing devices. The system is also capable of providing a thorough analysis of accident causes and liability after vehicle collisions. Our framework stands as the first large model to integrate comprehensive scene understanding into traffic safety studies. Project page: https://accidentgpt.github.io
翻訳日:2023-12-29 21:11:50 公開日:2023-12-28
# adv-diffusion:潜在拡散モデルによる不可避な顔同一性攻撃

Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent Diffusion Model ( http://arxiv.org/abs/2312.11285v2 )

ライセンス: Link先を確認
Decheng Liu, Xijun Wang, Chunlei Peng, Nannan Wang, Ruiming Hu, Xinbo Gao(参考訳) 敵対的攻撃は、ターゲットモデルによる誤分類を引き起こすためにソースイメージに摂動を加えることを含み、顔認識モデルを攻撃する可能性を示す。 既存の対向顔画像生成法は, 転送性が低く, 検出性が高いため, 良好な性能が得られない。 本稿では,潜在拡散モデルの強いインパインティング機能を利用して現実の逆画像を生成する,潜在空間における非受容的な逆向きの同一性摂動を生のピクセル空間で生成できる統一フレームワークadv-diffusionを提案する。 具体的には、周囲のセマンティックな摂動を生成するために、識別に敏感な条件付き拡散生成モデルを提案する。 適応強度に基づく逆摂動アルゴリズムは、攻撃伝達性とステルス性の両方を保証することができる。 公開FFHQおよびCelebA-HQデータセットの大規模定性的および定量的実験により、この提案手法は、余分な生成モデルトレーニングプロセスを持たない最先端の手法と比較して、優れた性能を示す。 ソースコードはhttps://github.com/kopper-xdu/adv-diffusionで入手できる。

Adversarial attacks involve adding perturbations to the source image to cause misclassification by the target model, which demonstrates the potential of attacking face recognition models. Existing adversarial face image generation methods still can't achieve satisfactory performance because of low transferability and high detectability. In this paper, we propose a unified framework Adv-Diffusion that can generate imperceptible adversarial identity perturbations in the latent space but not the raw pixel space, which utilizes strong inpainting capabilities of the latent diffusion model to generate realistic adversarial images. Specifically, we propose the identity-sensitive conditioned diffusion generative model to generate semantic perturbations in the surroundings. The designed adaptive strength-based adversarial perturbation algorithm can ensure both attack transferability and stealthiness. Extensive qualitative and quantitative experiments on the public FFHQ and CelebA-HQ datasets prove the proposed method achieves superior performance compared with the state-of-the-art methods without an extra generative model training process. The source code is available at https://github.com/kopper-xdu/Adv-Diffusion.
翻訳日:2023-12-29 21:10:33 公開日:2023-12-28
# 原文のパラフレーズ化」による高精度長文QA

"Paraphrasing The Original Text" Makes High Accuracy Long-Context QA ( http://arxiv.org/abs/2312.11193v5 )

ライセンス: Link先を確認
Yijiong Yu(参考訳) ほとんどのオープンソースLLMは、コンテキストウィンドウが4k未満で、長いコンテキスト問題を扱う能力が制限されている。 一方、長いコンテキストウィンドウを持つ人々でさえ、まだ十分な精度を欠いている。 この問題に対処するために、トレーニングデータの観点から検討し、長いコンテキストを扱う能力が“長い”データではなく“有効”を必要とすることを理論的に証明する。 そこで本研究では,「原文パラフレーズ」タスクを用いて,既存のモデルのコンテキストウインドウを,低コストかつ効果的な方法で32kに拡張し,同一規模のモデル間でのマルチドキュメントqaにおけるsoma精度を実現することを提案する。 モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)とWiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k)でオープンソース化された。

Most open-source LLMs still have a context window of no more than 4k, limiting their ability to handle long-context problems. Meanwhile, even those with a long context window still lack satisfactory accuracy. To address this issue, we explore from the perspective of training data and theoretically prove training the capability to handle long contexts requires "effective" rather than "long" data. Based on this, we propose using the "original text paraphrase" task, and successfully extend the context window of the existing model to 32k by a low-cost and effective method, achieving the SOTA accuracy in multi-document-QA among models of the same scale. The model and training data have been open-sourced on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).
翻訳日:2023-12-29 21:10:16 公開日:2023-12-28
# あなたの学生は予想以上に良い: テキスト・コンディション・拡散モデルのための適応型教師・学生協調

Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models ( http://arxiv.org/abs/2312.10835v2 )

ライセンス: Link先を確認
Nikita Starodubcev, Artem Fedorov, Artem Babenko and Dmitry Baranchuk(参考訳) 近年, 知識蒸留法は, 少数の推論ステップを必要とせず, 大規模拡散モデルの高速化に寄与している。 近年, 強力な蒸留法が提案されているが, 学生試料の総合的品質は, 教師のものに比べて低く, 実用性に支障をきたす。 本研究では,教師のテキスト・画像拡散モデルによるサンプルの相対的品質とその蒸留された学生版について検討する。 実験結果から, 生徒の「おおよその」性格にもかかわらず, 生徒のサンプルの目に見える部分が教師のものに比して優れた忠実性を示すことが判明した。 そこで本研究では,学生と教師の拡散モデルを用いた効果的なテキスト・画像合成手法を提案する。 具体的には、蒸留したモデルが初期サンプルを生成し、その後、オラクルが遅い教師モデルでさらなる改善が必要であるかどうかを判断する。 広範な実験により、設計されたパイプラインは、人間の好みの観点から様々な推論予算のための最先端のテキストから画像への代替案を上回ることが示されている。 さらに,提案手法はテキストガイド画像編集や制御可能な生成といった一般的なアプリケーションで自然に使用できる。

Knowledge distillation methods have recently shown to be a promising direction to speedup the synthesis of large-scale diffusion models by requiring only a few inference steps. While several powerful distillation methods were recently proposed, the overall quality of student samples is typically lower compared to the teacher ones, which hinders their practical usage. In this work, we investigate the relative quality of samples produced by the teacher text-to-image diffusion model and its distilled student version. As our main empirical finding, we discover that a noticeable portion of student samples exhibit superior fidelity compared to the teacher ones, despite the ``approximate'' nature of the student. Based on this finding, we propose an adaptive collaboration between student and teacher diffusion models for effective text-to-image synthesis. Specifically, the distilled model produces the initial sample, and then an oracle decides whether it needs further improvements with a slow teacher model. Extensive experiments demonstrate that the designed pipeline surpasses state-of-the-art text-to-image alternatives for various inference budgets in terms of human preference. Furthermore, the proposed approach can be naturally used in popular applications such as text-guided image editing and controllable generation.
翻訳日:2023-12-29 21:09:12 公開日:2023-12-28
# 重力波メモリと量子マイケルソン干渉計

Gravitational wave memory and quantum Michelson interferometer ( http://arxiv.org/abs/2312.10454v2 )

ライセンス: Link先を確認
Zhong-Kai Guo and Xiao-Yong Wang(参考訳) 非線形光学相互作用と時間変動重力場を組み合わせた量子マイケルソン干渉計の出力について検討した。 以上の結果から,干渉計出力の位相シフトと重力波の振幅との標準関係からのずれが示唆された。 この偏差は直接比例率のわずかなオフセットであり、重力波の速度記憶効果と関連している。 さらに,連続的な重力波記憶,あるいは確率的重力波記憶背景は,従来の変位誘起赤色雑音スペクトルだけでなく,速度記憶背景に関連する新しいメカニズムによる量子ノイズスペクトルにも寄与することが示唆された。 これは干渉計に対する新しい量子ノイズ制限につながり、より高精度な検出システムにとって不可欠である。 我々の分析は、重力波に応答する量子干渉計をより正確に記述し、時変重力場を含む他のシナリオに適用する可能性がある。 また、マクロな物体と重力の量子効果を統合するための洞察と実験的なアプローチも提供する。

We examined the output of a quantum Michelson interferometer incorporating the combined effects of nonlinear optomechanical interaction and time-varying gravitational fields. Our findings indicate a deviation from the standard relationship between the phase shift of the interferometer's output and the amplitude of gravitational waves. This deviation, a slight offset in direct proportionality, is associated with the velocity memory effect of gravitational waves. Furthermore, the results suggest that consecutive gravitational wave memory, or the stochastic gravitational wave memory background, contributes not only to the classical displacement-induced red noise spectrum but also to a quantum noise spectrum through a new mechanism associated with velocity memory background. This leads to a novel quantum noise limit for interferometers, which may be crucial for higher precision detection system. Our analysis potentially offers a more accurate description of quantum interferometers responding to gravitational waves and applies to other scenarios involving time-varying gravitational fields. It also provides insights and experimental approaches for exploring how to unify the quantum effects of macroscopic objects and gravitation.
翻訳日:2023-12-29 21:08:30 公開日:2023-12-28
# DOE/NSF Workshop on correctness in Scientific Computing, June 2023, Orlando, FL参加報告

Report of the DOE/NSF Workshop on Correctness in Scientific Computing, June 2023, Orlando, FL ( http://arxiv.org/abs/2312.15640v2 )

ライセンス: Link先を確認
Maya Gokhale, Ganesh Gopalakrishnan, Jackson Mayo, Santosh Nagarakatte, Cindy Rubio-Gonz\'alez, Stephen F. Siegel(参考訳) 本報告は,federated computing research conference (fcrc) 2023の一環として2023年6月17日に開催された doe/nsf workshop on correctness in scientific computing (csc'23) のダイジェストである。 CSC は DOE と NSF によって考案され,大規模科学的シミュレーションを行うために計算手法を使用している人々の間で,正当性に関する懸念が高まっている。 これらの懸念は、今日のHPCソフトウェアとハードウェアの複雑さ、スケール、および不均一性を考えると、エスカレートしている。 正しさが積極的に取り組まなければ、計算科学者やエンジニアが直面する許容できない生産性の損失に加えて、欠陥のある科学を生み出すリスクがある。 hpcシステムには、機械学習やサロゲートモデルを含むデータ駆動手法が含まれ始めており、その全体的なhpcシステムの正確性への影響についても議論が急務と感じられた。 この領域の正しさの保持者は、高エネルギー効率を提供する特別な目的のハードウェアを設計するコンピュータアーキテクチャ研究者、精度の低下とデータ移動の低減に基づく効率的な計算スキームを開発する数値アルゴリズム設計者、プログラミング言語の研究者や正しいコンパイルと検証の方法論を求める形式的方法など、コンピュータ科学のいくつかのサブ分野に属すると同定された。 このような多様なバックグラウンドを持つ参加者を巻き込むため、CSCは2023年のFCRC(Federated Computing Research Conference)で開催された。

This report is a digest of the DOE/NSF Workshop on Correctness in Scientific Computing (CSC'23) held on June 17, 2023, as part of the Federated Computing Research Conference (FCRC) 2023. CSC was conceived by DOE and NSF to address the growing concerns about correctness among those who employ computational methods to perform large-scale scientific simulations. These concerns have escalated, given the complexity, scale, and heterogeneity of today's HPC software and hardware. If correctness is not proactively addressed, there is the risk of producing flawed science on top of unacceptable productivity losses faced by computational scientists and engineers. HPC systems are beginning to include data-driven methods, including machine learning and surrogate models, and their impact on overall HPC system correctness was also felt urgent to discuss. Stakeholders of correctness in this space were identified to belong to several sub-disciplines of computer science; from computer architecture researchers who design special-purpose hardware that offers high energy efficiencies; numerical algorithm designers who develop efficient computational schemes based on reduced precision as well as reduced data movement; all the way to researchers in programming language and formal methods who seek methodologies for correct compilation and verification. To include attendees with such a diverse set of backgrounds, CSC was held during the Federated Computing Research Conference (FCRC) 2023.
翻訳日:2023-12-29 21:00:38 公開日:2023-12-28
# 合成画像は人造アート偽造者の認識を助ける

Synthetic images aid the recognition of human-made art forgeries ( http://arxiv.org/abs/2312.14998v2 )

ライセンス: Link先を確認
Johann Ostmeyer, Ludovica Schaerf, Pavel Buividovich, Tessa Charles, Eric Postma, Carina Popovici(参考訳) これまでの研究によると、人工知能は特定のアーティストによる本物の絵画と、驚くほどの精度で人造の偽造品を区別できるという。 しかし, 既知偽造の数が限られているため, 偽造検出のための増補法が望まれる。 本研究では, 合成アートワークをトレーニングデータセットに組み込むことにより, 偽造検出性能を向上させる可能性を検討する。 我々はVincent van Gogh氏による絵画に焦点を当て、偽造検出に特化した最初のデータセットをリリースしました。 結果を強化するため、Amedeo Modigliani と Raphael で同様の分析を行った。 原画と偽物とを区別するために分類器を訓練する。 このために、有名なアーティストのスタイルで人造の偽造品や模倣品を使用し、Stable DiffusionとStyleGANが生成した同様のスタイルのイメージでトレーニングセットを拡張する。 追加の合成偽造物は、一貫して人造偽造物の検出を改善している。 さらに, 従来の研究と並行して, トレーニングに合成偽造物を含めることで, 特に類似の発電機を用いて生成したAI生成偽造物の検出が可能となった。

Previous research has shown that Artificial Intelligence is capable of distinguishing between authentic paintings by a given artist and human-made forgeries with remarkable accuracy, provided sufficient training. However, with the limited amount of existing known forgeries, augmentation methods for forgery detection are highly desirable. In this work, we examine the potential of incorporating synthetic artworks into training datasets to enhance the performance of forgery detection. Our investigation focuses on paintings by Vincent van Gogh, for which we release the first dataset specialized for forgery detection. To reinforce our results, we conduct the same analyses on the artists Amedeo Modigliani and Raphael. We train a classifier to distinguish original artworks from forgeries. For this, we use human-made forgeries and imitations in the style of well-known artists and augment our training sets with images in a similar style generated by Stable Diffusion and StyleGAN. We find that the additional synthetic forgeries consistently improve the detection of human-made forgeries. In addition, we find that, in line with previous research, the inclusion of synthetic forgeries in the training also enables the detection of AI-generated forgeries, especially if created using a similar generator.
翻訳日:2023-12-29 20:57:50 公開日:2023-12-28
# 任意次元上の任意の順序のディープニューラルネットワークと有限要素

Deep Neural Networks and Finite Elements of Any Order on Arbitrary Dimensions ( http://arxiv.org/abs/2312.14276v2 )

ライセンス: Link先を確認
Juncai He, Jinchao Xu(参考訳) 本研究では,reluおよびrelu$^2$アクティベーション関数を用いた深層ニューラルネットワークが,任意の次元にまたがる単純メッシュ上の任意の順序のラグランジュ有限要素関数を表現できることを示す。 これらの要素の幾何学的分解に基礎を置き、高次元のsimplicial mesh とbarycentric coordinate function の2つの本質的な性質を利用する、ラグランジュ要素の基底関数の新たなグローバルな定式化を導入する。 この表現理論は、そのようなディープニューラルネットワークの自然な近似結果を促進する。 本研究は,ディープニューラルネットワークが一般連続分節多項式関数を体系的に生成できることを示す最初の例である。

In this study, we establish that deep neural networks employing ReLU and ReLU$^2$ activation functions are capable of representing Lagrange finite element functions of any order on simplicial meshes across arbitrary dimensions. We introduce a novel global formulation of the basis functions for Lagrange elements, grounded in a geometric decomposition of these elements and leveraging two essential properties of high-dimensional simplicial meshes and barycentric coordinate functions. This representation theory facilitates a natural approximation result for such deep neural networks. Our findings present the first demonstration of how deep neural networks can systematically generate general continuous piecewise polynomial functions.
翻訳日:2023-12-29 20:56:42 公開日:2023-12-28
# テキストにCLIPを教えるParrot Caption

Parrot Captions Teach CLIP to Spot Text ( http://arxiv.org/abs/2312.14232v2 )

ライセンス: Link先を確認
Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou(参考訳) CLIPは多くのビジョン言語アプリケーションの基礎モデルであるにもかかわらず、CLIPは厳しいテキストスポッティングバイアスに悩まされている。 このようなバイアスにより、CLIPモデルは、真の視覚意味論を無視しながら、画像内に埋め込まれた視覚テキストを「パロット」する。 我々は、最も人気のある画像テキストデータセットLAION-2Bで、キャプションが画像に埋め込まれたテキストを密にパロット(スペル)することを発見した。 分析の結果、画像の約50%がビジュアルテキストコンテンツに埋め込まれており、字幕の90%がビジュアルテキストを包み込んでいることがわかった。 このような観察に基づいて、CLIPモデルの異なるバージョンを徹底的に検証し、これらのモデルに対するLAIONスタイルの画像テキスト類似度を測定する上で、視覚テキストが重要な要素であることを検証した。 これらのキャプションがテキストスポッティングバイアスを形成するかどうかを調べるため、異なるparrot-caption指向の基準でキュレートされたlaionサブセットを持つ一連のクリップモデルをトレーニングする。 パロットキャプションによる訓練は、このようなバイアスを生じやすいが、クリップモデルで期待される視覚言語表現学習を損なう。 これは、CLIPライクなモデルの設計か、CLIPスコアフィルタリング上に構築された既存のイメージテキストデータセットキュレーションパイプラインを再検討することが緊急であることを示している。

Despite CLIP being the foundation model in numerous vision-language applications, the CLIP suffers from a severe text spotting bias. Such bias causes CLIP models to 'Parrot' the visual text embedded within images while disregarding the authentic visual semantics. We uncover that in the most popular image-text dataset LAION-2B, the captions also densely parrot (spell) the text embedded in images. Our analysis shows that around 50% of images are embedded with visual text content, and 90% of their captions more or less parrot the visual text. Based on such observation, we thoroughly inspect the different released versions of CLIP models and verify that the visual text is the dominant factor in measuring the LAION-style image-text similarity for these models. To examine whether these parrot captions shape the text spotting bias, we train a series of CLIP models with LAION subsets curated by different parrot-caption-oriented criteria. We show that training with parrot captions easily shapes such bias but harms the expected visual-language representation learning in CLIP models. This suggests that it is urgent to revisit either the design of CLIP-like models or the existing image-text dataset curation pipeline built on CLIP score filtering.
翻訳日:2023-12-29 20:56:07 公開日:2023-12-28
# 放射線画像を用いた大規模長尾疾患診断

Large-scale Long-tailed Disease Diagnosis on Radiology Images ( http://arxiv.org/abs/2312.16151v2 )

ライセンス: Link先を確認
Qiaoyu Zheng, Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本研究では, マルチモーダル, マルチ解剖学, マルチラベル, ロングテール分類として定式化できる, 放射線画像の大規模大語彙分類の問題について検討する。 主な貢献は3つあります i) データセット構築において,930個のICD-10-CMコードに関連付けられた5568個の障害を含む学術的にアクセス可能な大規模診断データセットを構築し,39,026ケース(192,675スキャン)を含む。 (ii)モデル設計において,様々な画像モダリティから任意の数の入力スキャンを処理可能な新しいアーキテクチャを提案する。 (iii) 評価において, マルチモーダルマルチ解剖学的長期診断のための新しいベンチマークを初期化する。 本手法は優れた結果を示す。 さらに、最終モデルは事前訓練されたモデルとして機能し、様々な外部データセットの診断に役立てることができる。

In this study, we aim to investigate the problem of large-scale, large-vocabulary disease classification for radiologic images, which can be formulated as a multi-modal, multi-anatomy, multi-label, long-tailed classification. Our main contributions are three folds: (i), on dataset construction, we build up an academically accessible, large-scale diagnostic dataset that encompasses 5568 disorders linked with 930 unique ICD-10-CM codes, containing 39,026 cases (192,675 scans). (ii), on model design, we present a novel architecture that enables to process arbitrary number of input scans, from various imaging modalities, which is trained with knowledge enhancement to leverage the rich domain knowledge; (iii), on evaluation, we initialize a new benchmark for multi-modal multi-anatomy long-tailed diagnosis. Our method shows superior results on it. Additionally, our final model serves as a pre-trained model, and can be finetuned to benefit diagnosis on various external datasets.
翻訳日:2023-12-29 20:43:35 公開日:2023-12-28
# 離散メッセージによる知的エージェント間の通信効率の向上

Discrete Messages Improve Communication Efficiency among Isolated Intelligent Agents ( http://arxiv.org/abs/2312.15985v2 )

ライセンス: Link先を確認
Hang Chen, Yuchuan Jang, Weijie Zhou, Cristian Meo, Ziwei Chen and Dianbo Liu(参考訳) 個人は様々な生活経験と学習過程を持っているにもかかわらず、言語を通して効果的にコミュニケーションすることができる。 本研究の目的は,コミュニケーションメディアとしての言語の有効性を検討することである。 まず、エージェントが多様な個人的な経験を持つ場合、個別のメッセージは連続メッセージよりも効果的である。 第二に、複数の離散トークンを用いた通信は単一のトークンを使用する通信よりも有利である。 これらの仮説を検証すべく,話者と聞き手間の各種情報伝達手法を用いてコミュニケーション効率を評価するマルチエージェント機械学習実験を考案した。 実験結果から,エージェントが異なるデータに晒される場合,離散トークンからなる文によるコミュニケーションが最適なエージェント間通信効率をもたらすことが示唆された。 我々の発見の限界は、変分オートエンコーダのようなより洗練されたエンコーダ・デコーダモデルに対する体系的なアドバンテージの欠如と、非画像データセットへのエクルージョンの欠如である。

Individuals, despite having varied life experiences and learning processes, can communicate effectively through languages. This study aims to explore the efficiency of language as a communication medium. We put forth two specific hypotheses: First, discrete messages are more effective than continuous ones when agents have diverse personal experiences. Second, communications using multiple discrete tokens are more advantageous than those using a single token. To valdate these hypotheses, we designed multi-agent machine learning experiments to assess communication efficiency using various information transmission methods between speakers and listeners. Our empirical findings indicate that, in scenarios where agents are exposed to different data, communicating through sentences composed of discrete tokens offers the best inter-agent communication efficiency. The limitations of our finding include lack of systematic advantages over other more sophisticated encoder-decoder model such as variational autoencoder and lack of evluation on non-image dataset, which we will leave for future studies.
翻訳日:2023-12-29 20:42:37 公開日:2023-12-28
# Few-Shot Bird Sound 分類のための自己教師付き学習

Self-Supervised Learning for Few-Shot Bird Sound Classification ( http://arxiv.org/abs/2312.15824v2 )

ライセンス: Link先を確認
Ilyass Moummad and Romain Serizel and Nicolas Farrugia(参考訳) オーディオにおける自己教師付き学習(SSL)は、特に、豊富なラベルのないデータが無償で容易に利用できる状況において、様々な領域において大きな可能性を秘めている。 これは生物音響学において特に重要であり、生物学者は自然環境から広範囲の音響データセットを定期的に収集する。 本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。 実験の結果,これらの学習表現は,数発学習(FSL)シナリオで新しい鳥類に一般化する能力を示すことが示された。 さらに,事前学習した音声ニューラルネットワークを用いて,鳥の活性化度の高いウィンドウを選択することで,学習表現の質が著しく向上することを示す。

Self-supervised learning (SSL) in audio holds significant potential across various domains, particularly in situations where abundant, unlabeled data is readily available at no cost. This is particularly pertinent in bioacoustics, where biologists routinely collect extensive sound datasets from the natural environment. In this study, we demonstrate that SSL is capable of acquiring meaningful representations of bird sounds from audio recordings without the need for annotations. Our experiments showcase that these learned representations exhibit the capacity to generalize to new bird species in few-shot learning (FSL) scenarios. Additionally, we show that selecting windows with high bird activation for self-supervised learning, using a pretrained audio neural network, significantly enhances the quality of the learned representations.
翻訳日:2023-12-29 20:41:18 公開日:2023-12-28
# Adaptive FSS: プロトタイプ拡張による新しいFew-Shotセグメンテーションフレームワーク

Adaptive FSS: A Novel Few-Shot Segmentation Framework via Prototype Enhancement ( http://arxiv.org/abs/2312.15731v2 )

ライセンス: Link先を確認
Jing Wang, Jinagyun Li, Chen Chen, Yisi Zhang, Haoran Shen, Tianxiang Zhang(参考訳) Few-Shot Segmentation (FSS)は、いくつかの注釈付き画像を用いて、新しいクラスセグメンテーションタスクを達成することを目的としている。 メタラーニングに基づく最近のFSS研究は、クエリとサポート機能の間の複雑な相互作用機構の設計に焦点を当てている。 しかし、限られたサンプルから新しいことを素早く学習できる人間とは異なり、既存のアプローチは、新しいタスクに取り組むための固定された特徴マッチングにのみ依存し、適応性に欠ける。 本稿では,既存のFSSモデルを新しいクラスに効率的に適応できるアダプタ機構,すなわちAdaptive FSSに基づく新しいフレームワークを提案する。 具体的には、クラスプロトタイプを導出するためのサポートセットが提供する正確なカテゴリ情報を利用して、多段階表現におけるクラス固有情報を強化するプロトタイプ適応モジュール(pam)を設計する。 さらに,本手法は,エンコーダの層間にPAMを挿入するだけで,異なるバックボーンを持つ多様なFSS手法と互換性がある。 MSANet, HDMNet, FPTrans, DCAMAなどのFSSモデルの性能を効果的に向上し, PASCAL-5$^i$1ショットおよび5ショット設定で72.4\%, 79.1\% mIoU, COCO-20$^i$1ショットおよび5ショット設定で52.7\% mIoU, 60.0\% mIoU) を新たに達成した。 私たちのコードはhttps://github.com/jingw193/AdaptiveFSSで利用可能です。

The Few-Shot Segmentation (FSS) aims to accomplish the novel class segmentation task with a few annotated images. Current FSS research based on meta-learning focus on designing a complex interaction mechanism between the query and support feature. However, unlike humans who can rapidly learn new things from limited samples, the existing approach relies solely on fixed feature matching to tackle new tasks, lacking adaptability. In this paper, we propose a novel framework based on the adapter mechanism, namely Adaptive FSS, which can efficiently adapt the existing FSS model to the novel classes. In detail, we design the Prototype Adaptive Module (PAM), which utilizes accurate category information provided by the support set to derive class prototypes, enhancing class-specific information in the multi-stage representation. In addition, our approach is compatible with in diverse FSS methods with different backbones by simply inserting PAM between the layers of the encoder. Experiments demonstrate that our method effectively improves the performance of the FSS models (e.g., MSANet, HDMNet, FPTrans, and DCAMA) and achieve new state-of-the-art (SOTA) results (i.e., 72.4\% and 79.1\% mIoU on PASCAL-5$^i$ 1-shot and 5-shot settings, 52.7\% and 60.0\% mIoU on COCO-20$^i$ 1-shot and 5-shot settings). Our code can be available at https://github.com/jingw193/AdaptiveFSS.
翻訳日:2023-12-29 20:41:04 公開日:2023-12-28
# 高忠実拡散に基づく画像編集

High-Fidelity Diffusion-based Image Editing ( http://arxiv.org/abs/2312.15707v2 )

ライセンス: Link先を確認
Chen Hou, Guoqiang Wei, Zhibo Chen(参考訳) 拡散モデルは画像生成と編集の分野で顕著な成功を収めている。 拡散モデルにおけるインバージョンとデノナイジングのステップを大きくすることで、画像再構成の品質が向上することが広く認識されている。 しかし,拡散モデルの編集性能は,デノナイジングステップが増加しても満足できない傾向にある。 編集の不足は、編集過程の条件付きマルコフ的性質に起因する可能性がある。 この課題に取り組むため,まず整流器モジュールを組み込んで拡散モデル重みを残差で変調し,忠実度ギャップを橋渡しするための補償情報を提供する革新的な枠組みを提案する。 さらに,編集過程における誤り伝播を最小限に抑えることを目的とした新しい学習パラダイムを提案する。 提案するフレームワークとトレーニング戦略は,様々な段階の認知段階における高忠実度再構築と編集を達成し,定量的評価と定性評価の両面において優れた性能を示した。 さらに,画像から画像への変換や領域外画像編集などの応用を通して,モデルの一般化について検討する。

Diffusion models have attained remarkable success in the domains of image generation and editing. It is widely recognized that employing larger inversion and denoising steps in diffusion model leads to improved image reconstruction quality. However, the editing performance of diffusion models tends to be no more satisfactory even with increasing denoising steps. The deficiency in editing could be attributed to the conditional Markovian property of the editing process, where errors accumulate throughout denoising steps. To tackle this challenge, we first propose an innovative framework where a rectifier module is incorporated to modulate diffusion model weights with residual features, thereby providing compensatory information to bridge the fidelity gap. Furthermore, we introduce a novel learning paradigm aimed at minimizing error propagation during the editing process, which trains the editing procedure in a manner similar to denoising score-matching. Extensive experiments demonstrate that our proposed framework and training strategy achieve high-fidelity reconstruction and editing results across various levels of denoising steps, meanwhile exhibits exceptional performance in terms of both quantitative metric and qualitative assessments. Moreover, we explore our model's generalization through several applications like image-to-image translation and out-of-domain image editing.
翻訳日:2023-12-29 20:40:30 公開日:2023-12-28
# ブルーム信号を用いたリンク予測のためのスケーラブルな構造表現の学習

Learning Scalable Structural Representations for Link Prediction with Bloom Signatures ( http://arxiv.org/abs/2312.16784v1 )

ライセンス: Link先を確認
Tianyi Zhang, Haoteng Yin, Rongzhe Wei, Pan Li, Anshumali Shrivastava(参考訳) グラフニューラルネットワーク(GNN)はグラフの学習において大きな可能性を示しているが、リンク予測タスクで準最適に実行することが知られている。 既存のGNNは主にノードワイズ表現を学習するために設計されており、通常はターゲットノード間のペアワイズ関係をキャプチャできない。 最近の研究は、バニラGNNをラベリングトリックやリンク予測ヒューリスティックスといった構造的特徴で拡張することで、より表現力のあるエッジワイド表現を学習している。 本稿では,GNNのメッセージパッシングフレームワークをブルームシグネチャで拡張することにより,構造的リンク表現の学習を提案する。 ブルームシグネチャはハッシュベースのノード近傍のコンパクトエンコーディングであり、効率よくマージして様々なエッジワイドな特徴を復元することができる。 さらに,ブルームシグネチャを入力とするニューラルネットワークによって,任意の近傍重なりに基づくヒューリスティックを推定できることを示した。 Bloomシグネチャを持つGNNは、バニラGNNよりも明らかに表現力があり、既存のエッジワイドモデルよりもスケーラブルである。 5つの標準リンク予測ベンチマークによる実験結果から,提案モデルが既存のエッジワイドGNNモデルと同等あるいは優れた性能を達成できる一方で,オンライン推論では3,200$\times$高速でメモリ効率が高いことがわかった。

Graph neural networks (GNNs) have shown great potential in learning on graphs, but they are known to perform sub-optimally on link prediction tasks. Existing GNNs are primarily designed to learn node-wise representations and usually fail to capture pairwise relations between target nodes, which proves to be crucial for link prediction. Recent works resort to learning more expressive edge-wise representations by enhancing vanilla GNNs with structural features such as labeling tricks and link prediction heuristics, but they suffer from high computational overhead and limited scalability. To tackle this issue, we propose to learn structural link representations by augmenting the message-passing framework of GNNs with Bloom signatures. Bloom signatures are hashing-based compact encodings of node neighborhoods, which can be efficiently merged to recover various types of edge-wise structural features. We further show that any type of neighborhood overlap-based heuristic can be estimated by a neural network that takes Bloom signatures as input. GNNs with Bloom signatures are provably more expressive than vanilla GNNs and also more scalable than existing edge-wise models. Experimental results on five standard link prediction benchmarks show that our proposed model achieves comparable or better performance than existing edge-wise GNN models while being 3-200 $\times$ faster and more memory-efficient for online inference.
翻訳日:2023-12-29 18:05:48 公開日:2023-12-28
# マルチモーダル感情認識のためのモーダル内およびモーダル間グラフコントラスト学習による敵意表現

Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition ( http://arxiv.org/abs/2312.16778v1 )

ライセンス: Link先を確認
Yuntao Shou, Tao Meng, Wei Ai and Keqin Li(参考訳) ソーシャルメディアプラットフォームにおけるオープンソースの感情認識データセットの増加と、コンピューティングリソースの急速な発展により、マルチモーダル感情認識タスク(mer)が広く研究の注目を集めている。 merタスクは、異なるモダリティから補完的な意味情報を抽出し、融合し、話者の感情を分類する。 しかし、既存の特徴融合法は通常、異なるモダリティの特徴を情報融合のための同じ特徴空間にマッピングしており、異なるモダリティ間の不均一性を排除することはできない。 したがって、その後の感情クラス境界学習を行うことは困難である。 そこで本研究では,マルチモーダル感情認識(AR-IIGCN)法に対して,モーダル内およびモーダル間グラフを用いた適応表現を提案する。 まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。 第2に,モーダル間の情報相互作用を実現し,モーダル間の不均一性を排除できる3つのモーダル特徴のジェネレータと判別器を構築する。 第3に,モーダル内およびモーダル間補完的意味情報を取り込んで感情カテゴリーのクラス内およびクラス間境界情報を学ぶために,コントラストグラフ表現学習を導入する。 具体的には,3つのモーダル特徴のグラフ構造を構築し,同じモーダル性において異なる感情と異なるモーダル性で同じ感情を持つノード上での対比表現学習を行い,ノードの特徴表現能力を向上させる。 大規模な実験により、ARL-IIGCN法はIEMOCAPおよびMELDデータセット上での感情認識精度を大幅に向上できることが示された。

With the release of increasing open-source emotion recognition datasets on social media platforms and the rapid development of computing resources, multimodal emotion recognition tasks (MER) have begun to receive widespread research attention. The MER task extracts and fuses complementary semantic information from different modalities, which can classify the speaker's emotions. However, the existing feature fusion methods have usually mapped the features of different modalities into the same feature space for information fusion, which can not eliminate the heterogeneity between different modalities. Therefore, it is challenging to make the subsequent emotion class boundary learning. To tackle the above problems, we have proposed a novel Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive for Multimodal Emotion Recognition (AR-IIGCN) method. Firstly, we input video, audio, and text features into a multi-layer perceptron (MLP) to map them into separate feature spaces. Secondly, we build a generator and a discriminator for the three modal features through adversarial representation, which can achieve information interaction between modalities and eliminate heterogeneity among modalities. Thirdly, we introduce contrastive graph representation learning to capture intra-modal and inter-modal complementary semantic information and learn intra-class and inter-class boundary information of emotion categories. Specifically, we construct a graph structure for three modal features and perform contrastive representation learning on nodes with different emotions in the same modality and the same emotion in different modalities, which can improve the feature representation ability of nodes. Extensive experimental works show that the ARL-IIGCN method can significantly improve emotion recognition accuracy on IEMOCAP and MELD datasets.
翻訳日:2023-12-29 18:05:24 公開日:2023-12-28
# 部分的識別不能光子をもつ量子ビームスプリッター:多光子干渉と漸近古典対応

The quantum beam splitter with many partially indistinguishable photons: multiphotonic interference and asymptotic classical correspondence ( http://arxiv.org/abs/2312.16774v1 )

ライセンス: Link先を確認
Miguel E. Villalobos, Alejandra Valencia, and Alonso Botero(参考訳) 我々は、量子2ポート干渉計の漸近解析を、$n$半区別できない光子の$n$の制限として提示する。 ポートとインナーモード自由度の間のユニタリユニタリ・ユニタリ双対性を用いて、出力ポートカウントの確率分布は独立したチャネルからの寄与の和として分解することができ、それぞれは$su(2)$のスピン-$j$表現と関連付けられ、この文脈では、チャネル内で効果的に区別不能な光子に対して$2j$となる。 我々の主な結果は、漸近的な出力分布が、ある$j^*$ の周りの $o(\sqrt{n})$ チャネルによって支配されるということである。 漸近形式は、本質的には2j^*$の区別がつかない光子から生じる分布の二重の半古典的包絡であり、対応する古典的強度分布を再現する。

We present the asymptotic analysis of the quantum two-port interferometer in the $n \rightarrow \infty$ limit of $n$ partially indistinguishable photons. Using the unitary-unitary duality between port and inner-mode degrees of freedom, the probability distribution of output port counts can be decomposed as a sum of contributions from independent channels, each associated to a spin-$j$ representation of $SU(2)$ and, in this context, to $2 j$ effectively indistinguishable photons in the channel. Our main result is that the asymptotic output distribution is dominated by the $O(\sqrt{n})$ channels around a certain $j^*$ that depends on the degree of indistinguishability. The asymptotic form is essentially the doubly-humped semi-classical envelope of the distribution that would arise from $2 j^*$ indistinguishable photons, and which reproduces the corresponding classical intensity distribution.
翻訳日:2023-12-29 18:04:53 公開日:2023-12-28
# 縦マンモグラムにおける乳房異常変動マップの予測のための特徴相関モデル

Unsupversied feature correlation model to predict breast abnormal variation maps in longitudinal mammograms ( http://arxiv.org/abs/2312.16772v1 )

ライセンス: Link先を確認
Jun Bai, Annie Jin, Madison Adams, Clifford Yang and Sheida Nabavi(参考訳) 乳がんは世界中で女性の死亡の大きな原因であり続けている。 乳房異常のタイムリーな診断と正確な診断は患者の予後向上に不可欠である。 本研究では,乳房異常の早期発見と診断の精度の向上に焦点をあて,乳癌の予後改善と死亡率の低下に不可欠である。 従来の検診手法の限界に対処するため,縦2次元マンモグラフィーを用いて乳房異常を示す地図を予測するための,教師なし特徴相関ネットワークを開発した。 提案モデルは,現在および前年のマンモグラムの再構成プロセスを利用して,異なる部位から組織を抽出し,その違いを分析し,癌の存在を示す可能性のある異常な変異を同定する。 本モデルは、特徴相関モジュールと、注意抑制ゲートと、予測精度を向上させるために協調して動作する乳房異常検出モジュールとを備える。 提案モデルは乳房異常変動マップを提供するだけでなく, 正常乳房と癌乳房の乳房x線像との鑑別も行う。 その結果,提案モデルは,精度,感度,特異性,Diceスコア,がん検出率において,ベースラインモデルよりも優れていた。

Breast cancer continues to be a significant cause of mortality among women globally. Timely identification and precise diagnosis of breast abnormalities are critical for enhancing patient prognosis. In this study, we focus on improving the early detection and accurate diagnosis of breast abnormalities, which is crucial for improving patient outcomes and reducing the mortality rate of breast cancer. To address the limitations of traditional screening methods, a novel unsupervised feature correlation network was developed to predict maps indicating breast abnormal variations using longitudinal 2D mammograms. The proposed model utilizes the reconstruction process of current year and prior year mammograms to extract tissue from different areas and analyze the differences between them to identify abnormal variations that may indicate the presence of cancer. The model is equipped with a feature correlation module, an attention suppression gate, and a breast abnormality detection module that work together to improve the accuracy of the prediction. The proposed model not only provides breast abnormal variation maps, but also distinguishes between normal and cancer mammograms, making it more advanced compared to the state-of the-art baseline models. The results of the study show that the proposed model outperforms the baseline models in terms of Accuracy, Sensitivity, Specificity, Dice score, and cancer detection rate.
翻訳日:2023-12-29 18:04:33 公開日:2023-12-28
# アノテーション誤り訂正を伴うスケールアウェア群数ネットワーク

Scale-Aware Crowd Count Network with Annotation Error Correction ( http://arxiv.org/abs/2312.16771v1 )

ライセンス: Link先を確認
Yi-Kuan Hsieh, Jun-Wei Hsieh, Yu-Chee Tseng, Ming-Ching Chang, Li Xin(参考訳) 従来の群衆カウントネットワークは、プール層を通じてフィーチャーマップが縮小されると情報損失を被り、遠くにいる群衆をカウントするのに不正確になる。 既存の手法では、特に混み合った場面では、ノイズの多いアノテーションの影響を無視して、トレーニング中に正しいアノテーションを仮定することが多い。 さらに、固定されたガウスカーネルの使用は、カメラ距離に関して異なる画素分布を考慮できない。 これらの課題を克服するために、ノイズの多いアノテーションのエラー訂正機能を備えた‘スケール・アウェア’アーキテクチャを導入したスケール・アウェア・クラウドカウントネットワーク(SACC-Net)を提案する。 空間的に変動するガウス分布を用いたモデルラベリング誤差 (mean) とスケール変動 (distribution) のモデルラベリング誤差 (mean) を初めて観測し, 群数計数のための細粒度熱マップを作成した。 さらに,提案する適応ガウス核分散により,低ランク近似による動的学習が可能となり,同等精度で収束効率が向上した。 SACC-Netの性能は、UCF-QNRF、UCF CC 50、NWPU、ShanghaiTech A-Bの4つの公開データセットで広く評価されている。 実験結果から,SACC-Netはすべての最先端手法より優れており,群衆カウント精度が向上することを示す。

Traditional crowd counting networks suffer from information loss when feature maps are downsized through pooling layers, leading to inaccuracies in counting crowds at a distance. Existing methods often assume correct annotations during training, disregarding the impact of noisy annotations, especially in crowded scenes. Furthermore, the use of a fixed Gaussian kernel fails to account for the varying pixel distribution with respect to the camera distance. To overcome these challenges, we propose a Scale-Aware Crowd Counting Network (SACC-Net) that introduces a ``scale-aware'' architecture with error-correcting capabilities of noisy annotations. For the first time, we {\bf simultaneously} model labeling errors (mean) and scale variations (variance) by spatially-varying Gaussian distributions to produce fine-grained heat maps for crowd counting. Furthermore, the proposed adaptive Gaussian kernel variance enables the model to learn dynamically with a low-rank approximation, leading to improved convergence efficiency with comparable accuracy. The performance of SACC-Net is extensively evaluated on four public datasets: UCF-QNRF, UCF CC 50, NWPU, and ShanghaiTech A-B. Experimental results demonstrate that SACC-Net outperforms all state-of-the-art methods, validating its effectiveness in achieving superior crowd counting accuracy.
翻訳日:2023-12-29 18:04:12 公開日:2023-12-28
# Bandit-based Large Neborhood Search を用いた適応型任意のマルチエージェント経路探索

Adaptive Anytime Multi-Agent Path Finding Using Bandit-Based Large Neighborhood Search ( http://arxiv.org/abs/2312.16767v1 )

ライセンス: Link先を確認
Thomy Phan, Taoan Huang, Bistra Dilkina, Sven Koenig(参考訳) anytime multi-agent path finding (mapf) は大規模マルチエージェントシステムにおけるスケーラブルパス最適化への有望なアプローチである。 MAPFはLarge Neighborhood Search (LNS)に基づいており、高速な初期解は、ランダム化された破壊ヒューリスティック(英語版)と優先順位付けされた計画を用いて、一定数の部品を破壊・修復することで反復的に最適化される。 近年のMAPFインスタンスの成功にもかかわらず、現在のLSSベースのアプローチでは探索と柔軟性が欠如している。 これまでのところ、これらの制限は、実際の計画を超えて、チューニングやオフラインの機械学習に先立って取り組まれてきた。 本稿では,LNSにおけるオンライン学習に着目し,BALANCE(Adaptive LArge Neighborhood Search with Exploration)を提案する。 BALANCEは、二段式マルチアームバンディットスキームを使用して、探索中のフライ時の破壊ヒューリスティックと近傍サイズの選択に適応する。 我々はMAPFベンチマークセットから複数の地図上でのBALANCEを評価し、大規模シナリオにおける最先端のMAPFと比較して、少なくとも50%のコスト改善を実証的に実証した。 我々は、トンプソンサンプリングが、代替のマルチアームバンディットアルゴリズムと比較して特に優れていることを発見した。

Anytime multi-agent path finding (MAPF) is a promising approach to scalable path optimization in large-scale multi-agent systems. State-of-the-art anytime MAPF is based on Large Neighborhood Search (LNS), where a fast initial solution is iteratively optimized by destroying and repairing a fixed number of parts, i.e., the neighborhood, of the solution, using randomized destroy heuristics and prioritized planning. Despite their recent success in various MAPF instances, current LNS-based approaches lack exploration and flexibility due to greedy optimization with a fixed neighborhood size which can lead to low quality solutions in general. So far, these limitations have been addressed with extensive prior effort in tuning or offline machine learning beyond actual planning. In this paper, we focus on online learning in LNS and propose Bandit-based Adaptive LArge Neighborhood search Combined with Exploration (BALANCE). BALANCE uses a bi-level multi-armed bandit scheme to adapt the selection of destroy heuristics and neighborhood sizes on the fly during search. We evaluate BALANCE on multiple maps from the MAPF benchmark set and empirically demonstrate cost improvements of at least 50% compared to state-of-the-art anytime MAPF in large-scale scenarios. We find that Thompson Sampling performs particularly well compared to alternative multi-armed bandit algorithms.
翻訳日:2023-12-29 18:03:47 公開日:2023-12-28
# 非可換制約満足問題に対する近似アルゴリズム

Approximation algorithms for noncommutative constraint satisfaction problems ( http://arxiv.org/abs/2312.16765v1 )

ライセンス: Link先を確認
Eric Culf, Hamoon Mousavi, and Taro Spirig(参考訳) 本研究では,制約満足度問題 (CSP) の演算子-あるいは非可換変量について検討する。 これらの高次元の変種は、非局所ゲームや絡み合ったマルチプロペラ対話型証明システム(MIP*)として生じる量子情報のコアトピックである。 cspsの高次元緩和の概念は古典文学においても重要である。 例えば、Goemans と Williamson の Max-Cut での有名な業績から、高次元ベクトル緩和は古典的 CSP の近似アルゴリズムの設計の中心となっている。 非可換なCSPに対する近似アルゴリズムを設計するためのフレームワークを提案する。 この研究に先立ち、Max-$2$-Lin$(k)$は効率よく解けることが知られている非可換 CSP の族である。 この研究は、より広範な非可換 CSP の近似比を確立する最初のものである。 古典的なcspの研究において、$k$-ary 決定変数は、しばしばユニティの$k$-th ルートで表され、これは非可換な設定をorder-$k$ユニタリ作用素として一般化する。 本稿では,表現論を用いて,SDP緩和から一元解を構築する手法を開発し,XORゲーム上でのTsirelsonの先駆的な研究を拡張した。 次に、これらの解をオーダー-$k$ユニタリに変換する新しい丸めスキームを導入する。 ここでの我々の主要な技術的革新は、任意のユニタリ作用素の集合に対して、それを密接に模倣する位数-$k$のユニタリが存在するという定理である。 円周スキームの積分部として,自由確率のツールを用いて,ランダムユニタリの固有値間の相対角分布を特徴付けるランダム行列理論を証明した。

We study operator - or noncommutative - variants of constraint satisfaction problems (CSPs). These higher-dimensional variants are a core topic of investigation in quantum information, where they arise as nonlocal games and entangled multiprover interactive proof systems (MIP*). The idea of higher-dimensional relaxations of CSPs is also important in the classical literature. For example since the celebrated work of Goemans and Williamson on Max-Cut, higher dimensional vector relaxations have been central in the design of approximation algorithms for classical CSPs. We introduce a framework for designing approximation algorithms for noncommutative CSPs. Prior to this work Max-$2$-Lin$(k)$ was the only family of noncommutative CSPs known to be efficiently solvable. This work is the first to establish approximation ratios for a broader class of noncommutative CSPs. In the study of classical CSPs, $k$-ary decision variables are often represented by $k$-th roots of unity, which generalise to the noncommutative setting as order-$k$ unitary operators. In our framework, using representation theory, we develop a way of constructing unitary solutions from SDP relaxations, extending the pioneering work of Tsirelson on XOR games. Then, we introduce a novel rounding scheme to transform these solutions to order-$k$ unitaries. Our main technical innovation here is a theorem guaranteeing that, for any set of unitary operators, there exists a set of order-$k$ unitaries that closely mimics it. As an integral part of the rounding scheme, we prove a random matrix theory result that characterises the distribution of the relative angles between eigenvalues of random unitaries using tools from free probability.
翻訳日:2023-12-29 18:03:25 公開日:2023-12-28
# 2ドルの双曲型PDEに対するバックステッピングカーネルのニューラル演算子近似

Neural Operator Approximations of Backstepping Kernels for $2\times 2$ Hyperbolic PDEs ( http://arxiv.org/abs/2312.16762v1 )

ライセンス: Link先を確認
Shanshan Wang, Mamadou Diagne and Miroslav Krsti\'c(参考訳) 非線形演算子のディープニューラルネットワーク近似(一般にDeepONet)は、1つのグールサット形式PDEが1つのフィードバックゲイン関数を支配しているPDEバックステッピング設計を近似できる。 結合されたPDEの境界制御では、結合されたGoursat形式のPDEが2つ以上のゲインカーネルを管理している。 本論では, 2\times 2$ goursat 型カーネル pde 系を制御可能な 2\times 2$ 結合系を考えることで,双曲型 pde プラントにおけるゲインカーネル pde の近似系を解く。 このような結合されたカーネルPDE問題は、石油掘削、浅い水面波のサン・ヴェナントモデル、渋滞した交通流における停止と停止の不安定性のAw-Rascleモデルといった双曲型PDE問題によって生じる。 本稿では、(合計5つの)プラントPDE関数係数からカーネルPDE解への写像の連続性を確立し、カーネルPDEへの任意の近接なDeepONet近似の存在を証明し、正確なバックステッピングゲインカーネルを置き換える際に、DeepONet近似されたゲインが安定化を保証することを保証する。 DeepONetオペレータは、コントローラゲインの計算を桁違いに高速化し、理論上証明された安定化能力はシミュレーションによって示される。

Deep neural network approximation of nonlinear operators, commonly referred to as DeepONet, has so far proven capable of approximating PDE backstepping designs in which a single Goursat-form PDE governs a single feedback gain function. In boundary control of coupled PDEs, coupled Goursat-form PDEs govern two or more gain kernels - a PDE structure unaddressed thus far with DeepONet. In this note we open the subject of approximating systems of gain kernel PDEs for hyperbolic PDE plants by considering a simple counter-convecting $2\times 2$ coupled system in whose control a $2\times 2$ Goursat form kernel PDE system arises. Such a coupled kernel PDE problem arises in several canonical $2\times 2$ hyperbolic PDE problems: oil drilling, Saint-Venant model of shallow water waves, and Aw-Rascle model of stop-and-go instability in congested traffic flow. In this paper, we establish the continuity of the mapping from (a total of five) plant PDE functional coefficients to the kernel PDE solutions, prove the existence of an arbitrarily close DeepONet approximation to the kernel PDEs, and establish that the DeepONet-approximated gains guarantee stabilization when replacing the exact backstepping gain kernels. The DeepONet operator speeds the computation of the controller gains by multiple orders of magnitude and its theoretically proven stabilizing capability is illustrated by simulations.
翻訳日:2023-12-29 18:02:56 公開日:2023-12-28
# 第4回国際ニューラルネットワークコンペティション(VNN-COMP 2023)の概要と結果

The Fourth International Verification of Neural Networks Competition (VNN-COMP 2023): Summary and Results ( http://arxiv.org/abs/2312.16760v1 )

ライセンス: Link先を確認
Christopher Brix, Stanley Bak, Changliu Liu, Taylor T. Johnson(参考訳) 本報告は、第35回コンピュータ支援検証国際会議(cav)と共同で開催された第6回ml対応自律システム(fomlas)の形式的手法に関するワークショップの一環として開催された第4回ニューラルネットワークコンペティション(vnn-comp 2023)を要約する。 VNN-COMPは、最先端のニューラルネットワーク検証ツールの公正かつ客観的な比較を促進し、ツールインターフェースの標準化を促進し、ニューラルネットワーク検証コミュニティを統合するために毎年開催される。 この目的のために、ネットワーク(ONNX)と仕様(VNN-LIB)の標準化フォーマットが定義され、同じコストのハードウェア上でツールが評価され(AWSインスタンスをベースとした自動評価パイプラインを使用して)、最終テストセットが公開される前に、ツールパラメータが参加者によって選択された。 2023年のイテレーションでは、7チームが10のスコアと4のアンスコアのベンチマークの多様なセットに参加した。 このレポートは、このコンペティションのこのイテレーションから学んだルール、ベンチマーク、参加ツール、結果、教訓を要約する。

This report summarizes the 4th International Verification of Neural Networks Competition (VNN-COMP 2023), held as a part of the 6th Workshop on Formal Methods for ML-Enabled Autonomous Systems (FoMLAS), that was collocated with the 35th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2023 iteration, 7 teams participated on a diverse set of 10 scored and 4 unscored benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.
翻訳日:2023-12-29 18:02:15 公開日:2023-12-28
# Twitterにおける反社会的行動検出のためのグラフニューラルネットワーク

Graph Neural Networks for Antisocial Behavior Detection on Twitter ( http://arxiv.org/abs/2312.16755v1 )

ライセンス: Link先を確認
Martina Toshevska, Slobodan Kalajdziski, and Sonja Gievska(参考訳) 反社会的行動のソーシャルメディアの復活は、ステレオタイプ的信念や個人や社会グループに対する憎悪的なコメント、偽ニュースや歪んだニュースに下向きのスパイラルをもたらした。 大量のグラフ構造化データに使用されるグラフニューラルネットワークの進歩は、ソーシャルメディアプラットフォームにおけるコミュニケーションのメディア化の将来への期待を高めている。 グラフ畳み込みデータに基づくアプローチは、異種データ間の依存関係をよりよく捉えるために用いられました。 この話題における過去と現在の経験を利用して、言語と文脈に依存しない汎用性を備えた反社会的行動検出のためのグラフベースのアプローチを提案し、評価した。 本研究では,共有タスクの一部として提供された複数のPANデータセットに対して,グラフベースのアプローチを実験的に検証し,提案手法による結果の議論を可能にする。

Social media resurgence of antisocial behavior has exerted a downward spiral on stereotypical beliefs, and hateful comments towards individuals and social groups, as well as false or distorted news. The advances in graph neural networks employed on massive quantities of graph-structured data raise high hopes for the future of mediating communication on social media platforms. An approach based on graph convolutional data was employed to better capture the dependencies between the heterogeneous types of data. Utilizing past and present experiences on the topic, we proposed and evaluated a graph-based approach for antisocial behavior detection, with general applicability that is both language- and context-independent. In this research, we carried out an experimental validation of our graph-based approach on several PAN datasets provided as part of their shared tasks, that enable the discussion of the results obtained by the proposed solution.
翻訳日:2023-12-29 18:01:55 公開日:2023-12-28
# 動的AD攻撃グラフにおける効果的なハニーポット配置

Catch Me if You Can: Effective Honeypot Placement in Dynamic AD Attack Graphs ( http://arxiv.org/abs/2312.16820v1 )

ライセンス: Link先を確認
Huy Quang Ngo, Mingyu Guo and Hung Nguyen(参考訳) 我々は,攻撃者が高い目標に達するのを阻止するために,攻撃者が一組のハニーポットを使用する大規模アクティブディレクトリ(AD)攻撃グラフ上で,攻撃者とディフェンダーの間のスタックルバーグゲームを研究する。 小規模で静的なアタックグラフにフォーカスする既存の作業とは対照的に、ADグラフは通常数十万のノードとエッジを含み、時間とともに絶えず変化する。 我々は,ハニーポットを観察できない単純な攻撃者と,可能な有能な攻撃者という2つのタイプを考える。 このゲームを共同で解くために,混合整数プログラミング(MIP)の定式化を提案する。 静的グラフの最適ブロッキング計画は動的グラフでは不十分であることがわかった。 動的グラフ問題を解くために, m MIP (dyMIP(m)) インスタンスを組み合わせることで, 混合整数プログラミングの定式化を再設計し, ほぼ最適ブロッキング計画を作成する。 さらに、多数の動的グラフインスタンスを処理するために、クラスタアルゴリズムを使用して、定数m(dymip(m))のm番目に代表されるグラフインスタンスを効率的に見つける。 動的グラフに対する最適ブロッキング戦略の下位境界を証明し、我々のdyMIP(m)アルゴリズムが現実的な条件下で様々なADグラフに対して最適に近い結果が得られることを示す。

We study a Stackelberg game between an attacker and a defender on large Active Directory (AD) attack graphs where the defender employs a set of honeypots to stop the attacker from reaching high-value targets. Contrary to existing works that focus on small and static attack graphs, AD graphs typically contain hundreds of thousands of nodes and edges and constantly change over time. We consider two types of attackers: a simple attacker who cannot observe honeypots and a competent attacker who can. To jointly solve the game, we propose a mixed-integer programming (MIP) formulation. We observed that the optimal blocking plan for static graphs performs poorly in dynamic graphs. To solve the dynamic graph problem, we re-design the mixed-integer programming formulation by combining m MIP (dyMIP(m)) instances to produce a near-optimal blocking plan. Furthermore, to handle a large number of dynamic graph instances, we use a clustering algorithm to efficiently find the m-most representative graph instances for a constant m (dyMIP(m)). We prove a lower bound on the optimal blocking strategy for dynamic graphs and show that our dyMIP(m) algorithms produce close to optimal results for a range of AD graphs under realistic conditions.
翻訳日:2023-12-29 17:48:57 公開日:2023-12-28
# 2層ReLUネットワークにおける隠れミニマ

Hidden Minima in Two-Layer ReLU Networks ( http://arxiv.org/abs/2312.16819v1 )

ライセンス: Link先を確認
Yossi Arjevani(参考訳) ターゲットネットワークで生成された$d$~inputs,$k$~neurons,ラベルを持つ2層ReLUネットワークの適合に関する最適化問題を考察する。 無限族の最小値が$d$と$k$の2つのカテゴリが最近発見された。 最初のカテゴリに属するminimaの損失は$d$が増加するにつれてゼロに収束する。 第2のカテゴリでは、損失はゼロから切り離されている。 つまり、後者のカテゴリに属するミニマを避けるにはどうすればよいのか? 幸いなことに、このようなミニマは標準最適化手法では検出されない。 この現象の性質に関する疑問に動機づけられ,隠れたミニマの特徴的な解析的性質を研究する手法を開発した。 既存の解析により、両方の圏のヘッセンスペクトルは、有望ではない modulus $O(d^{-1/2})$-terms に一致する。 したがって, むしろ, 損失が最小化され, 最大化される曲線を, 接弧と呼ぶことにより, 調査が進められる。 我々は、S_d$ の部分群の作用に不変な部分空間の配置に関する純粋で、一見遠隔の群表現論的な考察が、作用によって固定された記号に対して$d$ のシンボル上の対称性群であることを示す。 損失関数に適用される一般的な結果は、その構造と対称性によって特徴的に異なることを示し、前の研究に存在しない$o(d^{-1/2})$-eigenvalue項を考慮し、解析の下位値を示す。 o-極小構造について述べ、証明された理論的結果は、全ての接弧からなる集合は位相的に十分に微妙であり、接弧の数値的構成が可能であり、最終的に両圏の極小が隣接する臨界点に対してどのように配置されているかの比較である。

The optimization problem associated to fitting two-layer ReLU networks having $d$~inputs, $k$~neurons, and labels generated by a target network, is considered. Two categories of infinite families of minima, giving one minimum per $d$ and $k$, were recently found. The loss at minima belonging to the first category converges to zero as $d$ increases. In the second category, the loss remains bounded away from zero. That being so, how may one avoid minima belonging to the latter category? Fortunately, such minima are never detected by standard optimization methods. Motivated by questions concerning the nature of this phenomenon, we develop methods to study distinctive analytic properties of hidden minima. By existing analyses, the Hessian spectrum of both categories agree modulus $O(d^{-1/2})$-terms -- not promising. Thus, rather, our investigation proceeds by studying curves along which the loss is minimized or maximized, referred to as tangency arcs. We prove that pure, seemingly remote, group representation-theoretic considerations concerning the arrangement of subspaces invariant to the action of subgroups of $S_d$, the symmetry group over $d$ symbols, relative to ones fixed by the action yield a precise description of all finitely many admissible types of tangency arcs. The general results applied for the loss function reveal that arcs emanating from hidden minima differ, characteristically, by their structure and symmetry, precisely on account of the $O(d^{-1/2})$-eigenvalue terms absent in previous work, indicating the subtly of the analysis. The theoretical results, stated and proved for o-minimal structures, show that the set comprising all tangency arcs is topologically sufficiently tame, permitting a numerical construction of tangency arcs, and ultimately, a comparison of how minima from both categories are positioned relative to adjacent critical points.
翻訳日:2023-12-29 17:48:32 公開日:2023-12-28
# 複雑系における発生と因果関係--因果発生と関連する定量的研究

Emergence and Causality in Complex Systems: A Survey on Causal Emergence and Related Quantitative Studies ( http://arxiv.org/abs/2312.16815v1 )

ライセンス: Link先を確認
Bing Yuan, Zhang Jiang, Aobo Lyu, Jiayun Wu, Zhipeng Wang, Mingzhe Yang, Kaiwei Liu, Muyun Mou, Peng Cui(参考訳) 出現と因果性は、複雑なシステムを理解するための2つの基本的な概念である。 相互接続されている。 一方の出現は、マクロ的な性質が個々の性質の原因にのみ帰属できない現象を指す。 一方で因果性は出現する可能性があり、抽象のレベルを上げると新たな因果法則が発生する可能性がある。 因果発生理論はこれらの2つの概念を橋渡しすることを目的としており、出現を定量化するために因果関係の尺度を用いる。 本稿では,最近の定量的理論の進歩と因果発生の応用について概観する。 因果発生の定量化とデータ内の同定だ。 後者に対処するには、機械学習技術を使用する必要があるため、因果発生と人工知能の関連性が確立される。 因果表現学習,因果モデル抽象化,世界モデルに基づく強化学習によって,因果表現の出現を識別するアーキテクチャが共有されることを強調した。 その結果、これらの領域の進展は他の領域の恩恵を受けることができる。 潜在的なアプリケーションと今後の展望も、レビューの最終セクションで議論されている。

Emergence and causality are two fundamental concepts for understanding complex systems. They are interconnected. On one hand, emergence refers to the phenomenon where macroscopic properties cannot be solely attributed to the cause of individual properties. On the other hand, causality can exhibit emergence, meaning that new causal laws may arise as we increase the level of abstraction. Causal emergence theory aims to bridge these two concepts and even employs measures of causality to quantify emergence. This paper provides a comprehensive review of recent advancements in quantitative theories and applications of causal emergence. Two key problems are addressed: quantifying causal emergence and identifying it in data. Addressing the latter requires the use of machine learning techniques, thus establishing a connection between causal emergence and artificial intelligence. We highlighted that the architectures used for identifying causal emergence are shared by causal representation learning, causal model abstraction, and world model-based reinforcement learning. Consequently, progress in any of these areas can benefit the others. Potential applications and future perspectives are also discussed in the final section of the review.
翻訳日:2023-12-29 17:47:59 公開日:2023-12-28
# リアルタイム動的ビュー合成のための時空ガウス特徴スプレーティング

Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis ( http://arxiv.org/abs/2312.16812v1 )

ライセンス: Link先を確認
Zhan Li, Zhang Chen, Zhong Li, Yi Xu(参考訳) 動的シーンの新しいビュー合成は、興味深いが挑戦的な問題である。 近年の進歩にもかかわらず、高解像度のフォトリアリスティックな結果、リアルタイムレンダリング、コンパクトストレージを同時に達成することは、恐ろしい作業である。 これらの課題に対処するために,3つの主成分からなる新しい動的シーン表現として時空間ガウス特徴分割法を提案する。 まず,3次元ガウスを時間的不透明度とパラメトリック運動・回転で拡張することにより,表現力のある時空間ガウスを定式化する。 これにより、Spacetime Gaussianは静的でダイナミックなコンテンツだけでなく、シーン内の過渡的なコンテンツもキャプチャできる。 第二に、球面高調波をニューラルな特徴に置き換えるスプレイト特徴レンダリングを導入する。 これらの特徴は、小さなサイズを維持しながら、ビューと時間に依存した外観のモデリングを容易にする。 第3に,既存のパイプラインとの収束が困難な領域において,新たなガウス系をサンプルするために,トレーニングエラーと粗大深さの指導を利用する。 いくつかの実世界のデータセットを用いた実験により,本手法は,コンパクトなストレージを維持しつつ,最先端のレンダリング品質と速度を達成することを示す。 8K解像度では、Nvidia RTX 4090 GPU上で60FPSでレンダリングできます。

Novel view synthesis of dynamic scenes has been an intriguing yet challenging problem. Despite recent advancements, simultaneously achieving high-resolution photorealistic results, real-time rendering, and compact storage remains a formidable task. To address these challenges, we propose Spacetime Gaussian Feature Splatting as a novel dynamic scene representation, composed of three pivotal components. First, we formulate expressive Spacetime Gaussians by enhancing 3D Gaussians with temporal opacity and parametric motion/rotation. This enables Spacetime Gaussians to capture static, dynamic, as well as transient content within a scene. Second, we introduce splatted feature rendering, which replaces spherical harmonics with neural features. These features facilitate the modeling of view- and time-dependent appearance while maintaining small size. Third, we leverage the guidance of training error and coarse depth to sample new Gaussians in areas that are challenging to converge with existing pipelines. Experiments on several established real-world datasets demonstrate that our method achieves state-of-the-art rendering quality and speed, while retaining compact storage. At 8K resolution, our lite-version model can render at 60 FPS on an Nvidia RTX 4090 GPU.
翻訳日:2023-12-29 17:47:43 公開日:2023-12-28
# 産業用オープンソースデータを用いた産業システムの診断・予後予測のための機械学習手法のレビュー

Review of Machine Learning Approaches for Diagnostics and Prognostics of Industrial Systems Using Industrial Open Source Data ( http://arxiv.org/abs/2312.16810v1 )

ライセンス: Link先を確認
Hanqi Su, Jay Lee(参考訳) 近年、PHM(Prognostics and Health Management)の分野では、機械学習(ML)の適用が大幅に急増している。 この成長にもかかわらず、この分野は、これらのMLテクニックを効果的に実装するための統一されたガイドラインと体系的なアプローチの欠如と、さまざまなシナリオにわたる産業用オープンソースデータに関する包括的な分析に悩まされている。 これらのギャップに対処するため,本稿では,2018年から2023年にかけて開催されたphmデータチャレンジコンペティションのオープンソースデータセットを用いた産業システムの診断と予後に関する機械学習アプローチの包括的レビューを行い,統一mlフレームワークを要約する。 本稿では,これらのコンペで示された問題,課題,方法論,進歩を体系的に分類・精査し,検出,診断,評価,予後に関する複雑な産業課題に取り組む上で,従来の機械学習と深層学習の両方が果たす役割を明らかにする。 さらに,データ関連問題とモデル関連問題の両方を強調し,これらの課題に対処するためのソリューションを要約することによって,PHMデータチャレンジコンペティションにおける共通課題を考察する。 最後に、今後の研究の鍵となるテーマと潜在的方向性を特定し、PHMにおけるMLのさらなる発展の機会と展望を提供する。

In the field of Prognostics and Health Management (PHM), recent years have witnessed a significant surge in the application of machine learning (ML). Despite this growth, the field grapples with a lack of unified guidelines and systematic approaches for effectively implementing these ML techniques and comprehensive analysis regarding industrial open-source data across varied scenarios. To address these gaps, this paper provides a comprehensive review of machine learning approaches for diagnostics and prognostics of industrial systems using open-source datasets from PHM Data Challenge Competitions held between 2018 and 2023 by PHM Society and IEEE Reliability Society and summarizes a unified ML framework. This review systematically categorizes and scrutinizes the problems, challenges, methodologies, and advancements demonstrated in these competitions, highlighting the evolving role of both conventional machine learning and deep learning in tackling complex industrial tasks related to detection, diagnosis, assessment, and prognosis. Moreover, this paper delves into the common challenges in PHM data challenge competitions by emphasizing both data-related and model-related issues and summarizes the solutions that have been employed to address these challenges. Finally, we identify key themes and potential directions for future research, providing opportunities and prospects for ML further development in PHM.
翻訳日:2023-12-29 17:47:25 公開日:2023-12-28
# DarkShot:低解像度で高画質で暗い画像を照らす

DarkShot: Lighting Dark Images with Low-Compute and High-Quality ( http://arxiv.org/abs/2312.16805v1 )

ライセンス: Link先を確認
Jiazhang Zheng, Lei Li, Qiuping Liao, Cheng Li, Li Li, Yangxing Liu(参考訳) 夜間の撮影は極端に低照度で、主に極低信号対雑音比に起因する困難に遭遇する。 現実のデプロイメントでは、実用的なソリューションは視覚的に魅力的な結果を生み出すだけでなく、最小限の計算も必要です。 しかし、既存のほとんどの手法は修復性能の改善に焦点を当てているか、品質の犠牲で軽量モデルを採用するかのどちらかである。 本稿では,計算量を最小限に抑えつつ,低照度化タスクにおける既存のSOTA手法よりも優れた軽量ネットワークを提案する。 提案ネットワークは,Siamese Self-Attention Block (SSAB) と Skip-Channel Attention (SCA) モジュールを組み込んで,グローバルな情報を集約するモデルの能力を高め,高解像度画像に適している。 また,低照度画像復元プロセスの解析に基づいて,優れた結果を得るための2段階フレームワークを提案する。 我々のモデルは、SOTA復元の品質を維持しながら、最小限の計算でUHD 4K解像度画像を復元することができる。

Nighttime photography encounters escalating challenges in extremely low-light conditions, primarily attributable to the ultra-low signal-to-noise ratio. For real-world deployment, a practical solution must not only produce visually appealing results but also require minimal computation. However, most existing methods are either focused on improving restoration performance or employ lightweight models at the cost of quality. This paper proposes a lightweight network that outperforms existing state-of-the-art (SOTA) methods in low-light enhancement tasks while minimizing computation. The proposed network incorporates Siamese Self-Attention Block (SSAB) and Skip-Channel Attention (SCA) modules, which enhance the model's capacity to aggregate global information and are well-suited for high-resolution images. Additionally, based on our analysis of the low-light image restoration process, we propose a Two-Stage Framework that achieves superior results. Our model can restore a UHD 4K resolution image with minimal computation while keeping SOTA restoration quality.
翻訳日:2023-12-29 17:46:57 公開日:2023-12-28
# sr-livo:lidar-inertial-visual odometryとスイープ再構成によるマッピング

SR-LIVO: LiDAR-Inertial-Visual Odometry and Mapping with Sweep Reconstruction ( http://arxiv.org/abs/2312.16800v1 )

ライセンス: Link先を確認
Zikang Yuan, Jie Deng, Ruiye Ming, Fengtian Lang and Xin Yang(参考訳) 既存のLiDAR-inertial-visual odometry and Mapping (LIV-SLAM)システムは主に構造再構成のためのLiDAR-inertial odometry (LIO)モジュールと色レンダリングのためのVIOモジュールを使用している。 しかし、VIOの精度は、より堅牢なIOとは異なり、測光的な変化、弱いテクスチャ、動きのぼかしによってしばしば損なわれる。 本稿では, 画像のタイムスタンプと再構成されたスイープを整列させるためにスイープ再構成を用いた, 高度で斬新なLIV-SLAMシステムSR-LIVOを紹介する。 これにより、LIOモジュールはすべての画像モーメントの状態を正確に決定し、ポーズ精度と処理効率を高めることができる。 2つの公開データセットの実験結果が示す。 1) SRLIVOは既存のLIV-SLAMシステムよりも精度と時間効率が優れている。 2) メインストリームのLIV-SLAMシステムでは, LIOに基づくポーズ推定の方がVIOに基づくポーズ推定よりも精度が高いことが判明した。 この分野のコミュニティ開発に貢献するために、ソースコードをリリースしました。

Existing LiDAR-inertial-visual odometry and mapping (LIV-SLAM) systems mainly utilize the LiDAR-inertial odometry (LIO) module for structure reconstruction and the visual-inertial odometry (VIO) module for color rendering. However, the accuracy of VIO is often compromised by photometric changes, weak textures and motion blur, unlike the more robust LIO. This paper introduces SR-LIVO, an advanced and novel LIV-SLAM system employing sweep reconstruction to align reconstructed sweeps with image timestamps. This allows the LIO module to accurately determine states at all imaging moments, enhancing pose accuracy and processing efficiency. Experimental results on two public datasets demonstrate that: 1) our SRLIVO outperforms existing state-of-the-art LIV-SLAM systems in both pose accuracy and time efficiency; 2) our LIO-based pose estimation prove more accurate than VIO-based ones in several mainstream LIV-SLAM systems (including ours). We have released our source code to contribute to the community development in this field.
翻訳日:2023-12-29 17:46:39 公開日:2023-12-28
# 時間知覚型金融サービスアプリケーションのための時間的知識蒸留

Temporal Knowledge Distillation for Time-Sensitive Financial Services Applications ( http://arxiv.org/abs/2312.16799v1 )

ライセンス: Link先を確認
Hongda Shen and Eren Kurshan(参考訳) 金融サービス業界では異常検出がますます重要な機能になりつつある。 異常検出は、金融犯罪検出詐欺やサイバーセキュリティなどの主要なコンプライアンスやリスク機能に頻繁に使用される。 特に不正検出のような敵環境における基礎となるデータパターンの動的な性質は、機械学習モデルに深刻な課題をもたらす。 最新のデータパターンでモデルを再トレーニングすることで、急激な変更に追いつくには、トレーニングデータサイズを管理しながら、過去のパターンと現在のパターンのバランスをとる圧力が伴う。 さらに、モデルのリトレーニング時間は、リトレーニング期間が、継続的な攻撃にタイムリーに応答するモデル能力に直接影響する、時間に敏感な高ボリュームデプロイメントシステムにおいて問題を引き起こす。 本研究では,古いモデルからの学習を活かし,最新のモデルを迅速に促進し,モデルのリトレーニング時間を効果的に短縮し,機敏性を向上させる,時間的知識蒸留に基づくラベル拡張手法(tkd)を提案する。 実験の結果,提案手法はモデル性能を向上しつつ,リトレーニング時間に利点をもたらすことがわかった。

Detecting anomalies has become an increasingly critical function in the financial service industry. Anomaly detection is frequently used in key compliance and risk functions such as financial crime detection fraud and cybersecurity. The dynamic nature of the underlying data patterns especially in adversarial environments like fraud detection poses serious challenges to the machine learning models. Keeping up with the rapid changes by retraining the models with the latest data patterns introduces pressures in balancing the historical and current patterns while managing the training data size. Furthermore the model retraining times raise problems in time-sensitive and high-volume deployment systems where the retraining period directly impacts the models ability to respond to ongoing attacks in a timely manner. In this study we propose a temporal knowledge distillation-based label augmentation approach (TKD) which utilizes the learning from older models to rapidly boost the latest model and effectively reduces the model retraining times to achieve improved agility. Experimental results show that the proposed approach provides advantages in retraining times while improving the model performance.
翻訳日:2023-12-29 17:46:17 公開日:2023-12-28
# 属性に基づく人物再同定のためのクロスモーダルアライメントを用いたマルチプロンプト学習

Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification ( http://arxiv.org/abs/2312.16797v1 )

ライセンス: Link先を確認
Yajing Zhai, Yawen Zeng, Zhiyong Huang, Zheng Qin, Xin Jin, Da Cao(参考訳) 微粒な属性記述は、人物の再識別(ReID)タスクの成功に不可欠である、人物画像の貴重な意味情報を著しく補うことができる。 しかし、現在のreidアルゴリズムは、画像属性の単純化と粗い利用に依存するため、利用可能なリッチなコンテキスト情報を有効に活用できなかった。 人工知能が生成するコンテンツの最近の進歩により、詳細な属性記述を自動的に生成し、それらをフル活用できるようになった。 そこで本研究では,ReIDタスクにおいて生成した複数の属性をオフザシェルフ(大規模)モデルによるプロンプトとして用いる可能性について検討する。 そこで本研究では,mp-reid(multi-prompts reid)と呼ばれるプロンプト学習と言語モデルに基づく新しいフレームワークを提案する。 具体的には、MP-ReIDはまず、クエリイメージを記述するために、多様な、情報的、即応的な文を幻覚することを学ぶ。 この手順には (i)ある者が有する属性の明示的なプロンプト 二 この人物同一性マッチングの基準を調整・調整するための暗黙的に学習可能なプロンプト 明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。 さらに、アライメントモジュールは、マルチプロンプト(すなわち、明示的および暗黙的)を段階的に融合させ、クロスモーダルギャップを緩和するように設計されている。 既存の属性を含むReIDデータセット、すなわちMarket1501とDukeMTMC-reIDに関する大規模な実験は、提案したMP-ReIDソリューションの有効性と合理性を示している。

The fine-grained attribute descriptions can significantly supplement the valuable semantic information for person image, which is vital to the success of person re-identification (ReID) task. However, current ReID algorithms typically failed to effectively leverage the rich contextual information available, primarily due to their reliance on simplistic and coarse utilization of image attributes. Recent advances in artificial intelligence generated content have made it possible to automatically generate plentiful fine-grained attribute descriptions and make full use of them. Thereby, this paper explores the potential of using the generated multiple person attributes as prompts in ReID tasks with off-the-shelf (large) models for more accurate retrieval results. To this end, we present a new framework called Multi-Prompts ReID (MP-ReID), based on prompt learning and language models, to fully dip fine attributes to assist ReID task. Specifically, MP-ReID first learns to hallucinate diverse, informative, and promptable sentences for describing the query images. This procedure includes (i) explicit prompts of which attributes a person has and furthermore (ii) implicit learnable prompts for adjusting/conditioning the criteria used towards this person identity matching. Explicit prompts are obtained by ensembling generation models, such as ChatGPT and VQA models. Moreover, an alignment module is designed to fuse multi-prompts (i.e., explicit and implicit ones) progressively and mitigate the cross-modal gap. Extensive experiments on the existing attribute-involved ReID datasets, namely, Market1501 and DukeMTMC-reID, demonstrate the effectiveness and rationality of the proposed MP-ReID solution.
翻訳日:2023-12-29 17:46:01 公開日:2023-12-28
# ZONE:ゼロショットインストラクションガイドによるローカル編集

ZONE: Zero-Shot Instruction-Guided Local Editing ( http://arxiv.org/abs/2312.16794v1 )

ライセンス: Link先を確認
Shanglin Li, Bohan Zeng, Yutang Feng, Sicheng Gao, Xuhui Liu, Jiaming Liu, Li Lin, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang(参考訳) 安定拡散のような視覚言語モデルの最近の進歩は、創造的な画像合成と編集において顕著な力を示しているが、既存のテキストから画像への編集方法の多くは、2つの障害に遭遇している。 第2に、ローカルな編集に敏感で、非編集領域に不可逆的に影響を与え、明らかな編集トレースを残す。 これらの問題に対処するため,ZONEと呼ばれるゼロショットインストラクションを用いた局所画像編集手法を提案する。 まず、編集意図をユーザが提供する命令(例えば ``make his tie blue")からinstructpix2pixを通して特定の画像編集領域に変換する。 次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。 さらに、FFTに基づくエッジスムーズな画像と層をシームレスにブレンドする手法を開発し、残りの部分を保存しながら特定の領域を任意に操作する手法を提案する。 広範囲にわたる実験により,ZONEは局所的な編集結果とユーザフレンドリ性を実現し,最先端の手法よりも優れていた。

Recent advances in vision-language models like Stable Diffusion have shown remarkable power in creative image synthesis and editing.However, most existing text-to-image editing methods encounter two obstacles: First, the text prompt needs to be carefully crafted to achieve good results, which is not intuitive or user-friendly. Second, they are insensitive to local edits and can irreversibly affect non-edited regions, leaving obvious editing traces. To tackle these problems, we propose a Zero-shot instructiON-guided local image Editing approach, termed ZONE. We first convert the editing intent from the user-provided instruction (e.g., ``make his tie blue") into specific image editing regions through InstructPix2Pix. We then propose a Region-IoU scheme for precise image layer extraction from an off-the-shelf segment model. We further develop an edge smoother based on FFT for seamless blending between the layer and the image.Our method allows for arbitrary manipulation of a specific region with a single instruction while preserving the rest. Extensive experiments demonstrate that our ZONE achieves remarkable local editing results and user-friendliness, outperforming state-of-the-art methods.
翻訳日:2023-12-29 17:45:31 公開日:2023-12-28
# OracleプロパティによるスパースPCA

Sparse PCA with Oracle Property ( http://arxiv.org/abs/2312.16793v1 )

ライセンス: Link先を確認
Quanquan Gu and Zhaoran Wang and Han Liu(参考訳) 本稿では,高次元環境における共分散行列 $\sigma$ の 1 次元スパース主部分空間の推定について検討する。 私たちはoracleのprincipal subspaceソリューション、すなわち、真のサポートが事前に知られていると仮定して得られたprincipal subspace estimatorを回復することを目指している。 そこで本研究では,新しい正則化を伴うスパースpcaの半定値緩和に基づく推定器群を提案する。 特に、人口予想行列の大きさに関する弱い仮定の下で、この族内の1つの推定子は、高い確率で真の支持を正確に回復し、正確なランク-$k$を持ち、$\sqrt{s/n}$の収束の統計速度を、$s$は部分空間空間空間レベル、$n$のサンプルサイズに達する。 スパースPCAの既存サポート回復結果と比較して,本手法はスパイク共分散モデルや限定相関条件には適用されない。 オラクル特性を楽しむ最初の推定器の補足として、行列の大きさに関する以前の仮定が破られたとしても、家族内の別の推定器はスパースPCAの標準半定緩和よりもはるかに統計的収束率が高いことを証明した。 合成データセットの数値実験により理論的結果を検証する。

In this paper, we study the estimation of the $k$-dimensional sparse principal subspace of covariance matrix $\Sigma$ in the high-dimensional setting. We aim to recover the oracle principal subspace solution, i.e., the principal subspace estimator obtained assuming the true support is known a priori. To this end, we propose a family of estimators based on the semidefinite relaxation of sparse PCA with novel regularizations. In particular, under a weak assumption on the magnitude of the population projection matrix, one estimator within this family exactly recovers the true support with high probability, has exact rank-$k$, and attains a $\sqrt{s/n}$ statistical rate of convergence with $s$ being the subspace sparsity level and $n$ the sample size. Compared to existing support recovery results for sparse PCA, our approach does not hinge on the spiked covariance model or the limited correlation condition. As a complement to the first estimator that enjoys the oracle property, we prove that, another estimator within the family achieves a sharper statistical rate of convergence than the standard semidefinite relaxation of sparse PCA, even when the previous assumption on the magnitude of the projection matrix is violated. We validate the theoretical results by numerical experiments on synthetic datasets.
翻訳日:2023-12-29 17:45:10 公開日:2023-12-28
# RL-LOGO:ローゴ認識のための深層強化学習ローカライゼーション

RL-LOGO: Deep Reinforcement Learning Localization for Logo Recognition ( http://arxiv.org/abs/2312.16792v1 )

ライセンス: Link先を確認
Masato Fujitake(参考訳) 本稿では,強化学習に基づくローカライゼーション手法を取り入れた新しいロゴ画像認識手法を提案する。 ロゴ認識は、画像内のブランドを識別する画像分類タスクである。 ロゴのサイズや位置は画像によって大きく異なるため、正確な認識のためにその位置を決定する必要がある。 しかし、位置座標に注釈がないため、画像中のロゴの位置を訓練して推測することは不可能である。 そこで,ロゴ認識(rl-logo)のための深層強化学習ローカライズ手法を提案する。 深層強化学習を利用して、画像中のロゴ領域を位置のアノテーションなしで識別し、分類精度を向上させる。 いくつかのベンチマークで既存の手法と比較して精度が大幅に向上した。 具体的には,複雑なデータセットLogo-2K+上での競合手法よりも18ポイントの精度向上を実現した。 提案手法は,実世界のアプリケーションにおいて,ロゴ認識への有望なアプローチであることを示す。

This paper proposes a novel logo image recognition approach incorporating a localization technique based on reinforcement learning. Logo recognition is an image classification task identifying a brand in an image. As the size and position of a logo vary widely from image to image, it is necessary to determine its position for accurate recognition. However, because there is no annotation for the position coordinates, it is impossible to train and infer the location of the logo in the image. Therefore, we propose a deep reinforcement learning localization method for logo recognition (RL-LOGO). It utilizes deep reinforcement learning to identify a logo region in images without annotations of the positions, thereby improving classification accuracy. We demonstrated a significant improvement in accuracy compared with existing methods in several published benchmarks. Specifically, we achieved an 18-point accuracy improvement over competitive methods on the complex dataset Logo-2K+. This demonstrates that the proposed method is a promising approach to logo recognition in real-world applications.
翻訳日:2023-12-29 17:44:37 公開日:2023-12-28
# マルチスレッドプログラムのエラー伝搬解析 : 経験的アプローチ

Error Propagation Analysis for Multithreaded Programs: An Empirical Approach ( http://arxiv.org/abs/2312.16791v1 )

ライセンス: Link先を確認
Stefan Winter, Abraham Chan, Habib Saissi, Karthik Pattabiraman, Neeraj Suri(参考訳) フォールトインジェクションは、テスト対象のプログラムに障害を導入することで、エラーに対するプログラムの堅牢性を測定するテクニックである。 障害注入実験の後、エラー伝搬分析(EPA)がデプロイされ、エラーがプログラムの実行に与える影響を理解する。 EPAは通常、フォールトフリー(ゴールド)実行のトレースとプログラムの障害実行のトレースを比較します。 これは決定論的プログラムには十分であるが、EPAアプローチは非決定論的ゴールデンランを持つマルチスレッドプログラムには不適切である。 本稿では,マルチスレッドプログラムでEPAを実行するためのゴールデントレースの代わりに,自動推論可能な不変量(以下に示す不変量)を代替として,IPA(Invariant Propagation Analysis)を提案する。 我々は, ipaから派生した不変量の安定性とフォールトカバレッジを, 異なる6種類の障害タイプと, 異なるスレッド数で実行可能な6つの代表的なプログラム間のフォールトインジェクション実験を通じて評価する。 安定な不変量はすべてのケースで推測できるが、その欠陥カバレッジはアプリケーションと障害タイプに依存している。 また、IPAによるマルチスレッド実行の障害カバレッジは、従来の単一スレッドEPAよりもさらに高く、従来のEPA結果からIPA結果が容易に外挿できないことを強調している。

Fault injection is a technique to measure the robustness of a program to errors by introducing faults into the program under test. Following a fault injection experiment, Error Propagation Analysis (EPA) is deployed to understand how errors affect a program's execution. EPA typically compares the traces of a fault-free (golden) run with those from a faulty run of the program. While this suffices for deterministic programs, EPA approaches are unsound for multithreaded programs with non-deterministic golden runs. In this paper, we propose Invariant Propagation Analysis (IPA) as the use of automatically inferred likely invariants ("invariants" in the following) in lieu of golden traces for conducting EPA in multithreaded programs. We evaluate the stability and fault coverage of invariants derived by IPA through fault injection experiments across six different fault types and six representative programs that can be executed with varying numbers of threads. We find that stable invariants can be inferred in all cases, but their fault coverage depends on the application and the fault type. We also find that fault coverage for multithreaded executions with IPA can be even higher than for traditional singlethreaded EPA, which emphasizes that IPA results cannot be trivially extrapolated from traditional EPA results.
翻訳日:2023-12-29 17:44:25 公開日:2023-12-28
# 長期系列予測のための階層的畳み込みによる動的相関と緩和雑音の学習

Learning the Dynamic Correlations and Mitigating Noise by Hierarchical Convolution for Long-term Sequence Forecasting ( http://arxiv.org/abs/2312.16790v1 )

ライセンス: Link先を確認
Zhihao Yu, Liantao Ma, Yasha Wang, Junfeng Zhao(参考訳) ディープラーニングアルゴリズム、特にトランスフォーマーベースのモデルは、長距離の依存関係と履歴情報をキャプチャすることで、大きなパフォーマンスを達成している。 しかし、畳み込みの力は十分に調査されていない。 さらに、既存のほとんどの研究は、変数間の動的相互作用や進化的ノイズを無視している。 そこで本研究では階層的記憶ネットワーク(hmnet)を提案する。 特に階層的畳み込み構造を導入し,様々なスケールで時系列から情報を抽出する。 また,変動相関を学習する動的変数相互作用モジュールと,類似したパターンを探索・活用して雑音を緩和する適応分別モジュールを提案する。 これらのモジュールは、細粒から粗粒まで、階層構造と協調することができる。 5つのベンチマーク実験の結果、hmnetはmseで10.6%、maeで5.7%、最先端モデルを大きく上回っている。 私たちのコードはhttps://github.com/yzhhoward/hmnetでリリースしています。

Deep learning algorithms, especially Transformer-based models, have achieved significant performance by capturing long-range dependencies and historical information. However, the power of convolution has not been fully investigated. Moreover, most existing works ignore the dynamic interaction among variables and evolutionary noise in series. Addressing these issues, we propose a Hierarchical Memorizing Network (HMNet). In particular, a hierarchical convolution structure is introduced to extract the information from the series at various scales. Besides, we propose a dynamic variable interaction module to learn the varying correlation and an adaptive denoising module to search and exploit similar patterns to alleviate noises. These modules can cooperate with the hierarchical structure from the perspective of fine to coarse grain. Experiments on five benchmarks demonstrate that HMNet significantly outperforms the state-of-the-art models by 10.6% on MSE and 5.7% on MAE. Our code is released at https://github.com/yzhHoward/HMNet.
翻訳日:2023-12-29 17:44:04 公開日:2023-12-28
# コミュニティ構造を活用したメッセージパッシング機構における程度バイアスの軽減

Mitigating Degree Biases in Message Passing Mechanism by Utilizing Community Structures ( http://arxiv.org/abs/2312.16788v1 )

ライセンス: Link先を確認
Van Thuy Hoang and O-Joun Lee(参考訳) 本研究は,学習可能なグラフ拡張と新しいグラフトランスフォーマーを用いて,メッセージパス(mp)におけるノード次数バイアスに対処するために,コミュニティ構造を利用する。 最近の拡張ベースの手法では、MPニューラルネットワークは低次ノードでよく機能しておらず、低次ノードにメッセージが届かないため、度合いの偏りが生じる。 その成功にもかかわらず、ほとんどの手法は非微分可能であり、常に学習表現のための価値あるエッジを生成するとは限らないヒューリスティックまたは一様ランダム拡張を用いる。 本稿では,コミュニティ構造内を抽出することで,学習可能な拡張とグラフトランスフォーマーに基づく等級不偏表現を学習するための,コミュニティ対応グラフトランスフォーマー,すなわちCGTを提案する。 まず,学習可能なグラフ拡張の設計を行い,エッジの摂動を通じて低次ノードを接続するコミュニティ内エッジを生成する。 第2に,コミュニティ内のノードの近接性や役割を学習するための自己意識の改善を提案する。 第3に、グローバルグラフ構造を保存し、グラフ拡張を正規化するための表現を学習できる自己教師型学習タスクを提案する。 様々なベンチマークデータセットの大規模な実験により、CGTは最先端のベースラインを上回っ、ノード次数バイアスを大幅に改善した。 ソースコードはhttps://github.com/NSLab-CUK/Community-aware-Graph-Transformerで入手できる。

This study utilizes community structures to address node degree biases in message-passing (MP) via learnable graph augmentations and novel graph transformers. Recent augmentation-based methods showed that MP neural networks often perform poorly on low-degree nodes, leading to degree biases due to a lack of messages reaching low-degree nodes. Despite their success, most methods use heuristic or uniform random augmentations, which are non-differentiable and may not always generate valuable edges for learning representations. In this paper, we propose Community-aware Graph Transformers, namely CGT, to learn degree-unbiased representations based on learnable augmentations and graph transformers by extracting within community structures. We first design a learnable graph augmentation to generate more within-community edges connecting low-degree nodes through edge perturbation. Second, we propose an improved self-attention to learn underlying proximity and the roles of nodes within the community. Third, we propose a self-supervised learning task that could learn the representations to preserve the global graph structure and regularize the graph augmentations. Extensive experiments on various benchmark datasets showed CGT outperforms state-of-the-art baselines and significantly improves the node degree biases. The source code is available at https://github.com/NSLab-CUK/Community-aware-Graph-Transformer.
翻訳日:2023-12-29 17:43:50 公開日:2023-12-28
# アンタングル型形状テクスチャ表現による3次元ライフスパン顔の老化

Exploring 3D-aware Lifespan Face Aging via Disentangled Shape-Texture Representations ( http://arxiv.org/abs/2312.16881v1 )

ライセンス: Link先を確認
Qianrui Teng, Rui Wang, Xing Cui, Peipei Li, Zhaofeng He(参考訳) 既存の顔の老化法は、しばしばテクスチャの老化をモデル化するか、顔の老化を達成するために絡み合った形状テクスチャ表現を使うことに焦点を合わせている。 しかしながら、形状とテクスチャは、人間の顔の老化過程に相互に影響を及ぼす2つの異なる要因である。 本稿では,顔画像の形状とテクスチャを3次元再構成により明確に区別する,新しい3次元形状認識型不連続顔老化ネットワークである3d-stdを提案する。 さらに,高忠実度テクスチャ合成を容易にするため,経験的モード分解(emd)に基づく新しいテクスチャ生成法を提案する。 大規模定性的および定量的実験により, 形状とテクスチャ変換の両面で最先端の性能が得られた。 さらに,本手法は,従来の方法ではめったに達成されない,可塑性3次元顔老化結果の生成を支援する。

Existing face aging methods often focus on modeling either texture aging or using an entangled shape-texture representation to achieve face aging. However, shape and texture are two distinct factors that mutually affect the human face aging process. In this paper, we propose 3D-STD, a novel 3D-aware Shape-Texture Disentangled face aging network that explicitly disentangles the facial image into shape and texture representations using 3D face reconstruction. Additionally, to facilitate high-fidelity texture synthesis, we propose a novel texture generation method based on Empirical Mode Decomposition (EMD). Extensive qualitative and quantitative experiments show that our method achieves state-of-the-art performance in terms of shape and texture transformation. Moreover, our method supports producing plausible 3D face aging results, which is rarely accomplished by current methods.
翻訳日:2023-12-29 17:20:31 公開日:2023-12-28
# グラフ構造学習に基づく分子特性予測

Molecular Property Prediction Based on Graph Structure Learning ( http://arxiv.org/abs/2312.16855v1 )

ライセンス: Link先を確認
Bangyi Zhao, Weixia Xu, Jihong Guan, Shuigeng Zhou(参考訳) 分子特性予測(英: molecular property prediction、MPP)は、コンピュータ支援薬物発見プロセスにおける基本的な課題である。 近年ではmppの異なるグラフベースモデルが採用され、予測性能が大幅に向上している。 しかし、現在のモデルはしばしば分子間の関係を無視し、MPPにも役立つ。 本稿では,グラフ構造学習(GSL)に基づくMPPアプローチであるGSL-MPPを提案する。 具体的には,まず分子グラフ上にグラフニューラルネットワーク(gnn)を適用し,分子表現を抽出する。 次に分子指紋を用いて分子類似性グラフ(MSG)を構築する。 その後、msg(すなわち分子レベルグラフ構造学習)上でグラフ構造学習を行い、gnnエンコードされた分子表現と分子間の関係、すなわち分子内情報と分子間情報の両方を融合させた結果、最終的な分子埋め込みを得る。 最後に、これらの分子埋め込みを用いてmppを行う。 7つのベンチマークデータセットを広範囲に実験した結果,本手法は多くの場合,特に分類タスクにおいて最先端のパフォーマンスを実現することができた。 さらなる可視化研究は、我々の方法の優れた分子表現も示している。

Molecular property prediction (MPP) is a fundamental but challenging task in the computer-aided drug discovery process. More and more recent works employ different graph-based models for MPP, which have made considerable progress in improving prediction performance. However, current models often ignore relationships between molecules, which could be also helpful for MPP. For this sake, in this paper we propose a graph structure learning (GSL) based MPP approach, called GSL-MPP. Specifically, we first apply graph neural network (GNN) over molecular graphs to extract molecular representations. Then, with molecular fingerprints, we construct a molecular similarity graph (MSG). Following that, we conduct graph structure learning on the MSG (i.e., molecule-level graph structure learning) to get the final molecular embeddings, which are the results of fusing both GNN encoded molecular representations and the relationships among molecules, i.e., combining both intra-molecule and inter-molecule information. Finally, we use these molecular embeddings to perform MPP. Extensive experiments on seven various benchmark datasets show that our method could achieve state-of-the-art performance in most cases, especially on classification tasks. Further visualization studies also demonstrate the good molecular representations of our method.
翻訳日:2023-12-29 17:20:13 公開日:2023-12-28
# TRIAD: 人工物間の遷移リンクの2段階的推論に基づく自動トレーサビリティ回復

TRIAD: Automated Traceability Recovery based on Biterm-enhanced Deduction of Transitive Links among Artifacts ( http://arxiv.org/abs/2312.16854v1 )

ライセンス: Link先を確認
Hui Gao, Hongyu Kuang, Wesley K. G. Assun\c{c}\~ao, Christoph Mayr-Dorn, Guoping Rong, He Zhang, Xiaoxing Ma, Alexander Egyed(参考訳) トレーサビリティ(traceability)は、ソフトウェアライフサイクルにまたがって導入されたソフトウェアアーチファクト間のトレースリンクを抽出し、理解し、ソフトウェアエンジニアリングタスクに重要なサポートを提供する。 実績のあるメリットにもかかわらず、ソフトウェアのトレーサビリティは手作業で回復と維持が難しい。 したがって、自動トレーサビリティに対する多くのアプローチが提案されている。 ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。 しかしながら、異なる抽象レベルのアーティファクトは、通常異なるテキスト記述を持ち、IRベースのアプローチのパフォーマンスを著しく阻害する(例えば、自然言語の要件は、Javaクラスと小さなテキストの類似性を持つ)。 本研究では, 中間アーティファクトに基づく合意的二項関係と推移的関係(内部および外部推移的リンク)を利用して, 赤外線トレーサビリティの回復を図る。 まず、すべてのソース、中間、およびターゲットアーティファクトから二項を抽出およびフィルタリングします。 次に、中間アーティファクトと対象アーティファクトの両方のバイターを拡張するために、中間アーティファクトからの合意バイターを使用し、最終的に外部および内部推移的リンクを推論し、ソースと対象アーティファクト間のテキスト類似性を調整する。 我々は,他の文献で広く使用されている5つのシステムに基づく総合的な実証評価を行い,我々のアプローチが4つの最先端アプローチを上回り,その性能がソース,中間,ターゲットアーティファクトの異なる条件にどのように影響するかを示した。 その結果,本手法はAPのベースラインアプローチを15%以上,MAPを10%以上上回る結果が得られた。

Traceability allows stakeholders to extract and comprehend the trace links among software artifacts introduced across the software life cycle, to provide significant support for software engineering tasks. Despite its proven benefits, software traceability is challenging to recover and maintain manually. Hence, plenty of approaches for automated traceability have been proposed. Most rely on textual similarities among software artifacts, such as those based on Information Retrieval (IR). However, artifacts in different abstraction levels usually have different textual descriptions, which can greatly hinder the performance of IR-based approaches (e.g., a requirement in natural language may have a small textual similarity to a Java class). In this work, we leverage the consensual biterms and transitive relationships (i.e., inner- and outer-transitive links) based on intermediate artifacts to improve IR-based traceability recovery. We first extract and filter biterms from all source, intermediate, and target artifacts. We then use the consensual biterms from the intermediate artifacts to extend the biterms of both source and target artifacts, and finally deduce outer and inner-transitive links to adjust text similarities between source and target artifacts. We conducted a comprehensive empirical evaluation based on five systems widely used in other literature to show that our approach can outperform four state-of-the-art approaches, and how its performance is affected by different conditions of source, intermediate, and target artifacts. The results indicate that our approach can outperform baseline approaches in AP over 15% and MAP over 10% on average.
翻訳日:2023-12-29 17:19:54 公開日:2023-12-28
# 高齢者独居者の異常検出のためのセンサデータシミュレーション

Sensor Data Simulation for Anomaly Detection of the Elderly Living Alone ( http://arxiv.org/abs/2312.16852v1 )

ライセンス: Link先を確認
Kai Tanaka, Mineichi Kudo, and Keigo Kimura(参考訳) 世界中の独居高齢者の増加に伴い、センサによる異常な行動の検出の需要が高まっている。 環境センサを備えたスマートホームは,そのような異常を検出するのに有用であるが,検出アルゴリズムを開発する上で十分な実データがないという問題がある。 この問題に対処するために、いくつかのセンサデータシミュレータが提案されているが、現実に存在する異常間の長期的な遷移と相関を適切にモデル化することはできない。 そこで本稿では,センサデータ生成においてこれらの要因をモデル化可能なセンサデータシミュレータを提案する。 本研究で検討した異常は, \textit{state anomalies}, \textit{activity anomalies}, \textit{moving anomalies}の3種類に分類した。 シミュレーターは100分で10年のデータを生成する。 このシミュレータは、実データの日々の変動をシミュレートするという意味で、過去のシミュレータよりも優れていることを示す。

With the increase of the number of elderly people living alone around the world, there is a growing demand for sensor-based detection of anomalous behaviors. Although smart homes with ambient sensors could be useful for detecting such anomalies, there is a problem of lack of sufficient real data for developing detection algorithms. For coping with this problem, several sensor data simulators have been proposed, but they have not been able to model appropriately the long-term transitions and correlations between anomalies that exist in reality. In this paper, therefore, we propose a novel sensor data simulator that can model these factors in generation of sensor data. Anomalies considered in this study were classified into three types of \textit{state anomalies}, \textit{activity anomalies}, and \textit{moving anomalies}. The simulator produces 10 years data in 100 min. including six anomalies, two for each type. Numerical evaluations show that this simulator is superior to the past simulators in the sense that it simulates well day-to-day variations of real data.
翻訳日:2023-12-29 17:19:24 公開日:2023-12-28
# 周期駆動Bose-Josephson接合における異なるフロケハミルトニアンについて

On the different Floquet Hamiltonians in a periodic-driven Bose-Josephson junction ( http://arxiv.org/abs/2312.16851v1 )

ライセンス: Link先を確認
Xiaoshui Lin, Zeyu Rao, Ming Gong(参考訳) 周期駆動多体系の最も単純なモデルの一つであるボソニック・ジョセフソン接合は、過去20年間に大きく研究されてきた。 ここでは、この問題を5つの異なる手法で再検討する。 我々は、$\omega^{-2}$ (\omega$ is the modulationing frequency) の順にすると、これらのアプローチはわずかに異なるフロッケハミルトニアンを生成する。 特に、フロッケハミルトニアンのパラメータは、使われる近似値に応じて変化、増加、または減少することができる。 特に、いくつかの方法では、粒子の総数を保持する新しい相互作用が生成され、その他は発生しない。 これらの5つの有効モデルの妥当性は、人口不均衡と自己トラッピング相転移のダイナミクスを用いて検証される。 以上の結果から,ハミルトニアンへのユニタリ回転を最初に行う方法が最も精度が高いことがわかった。 これらの差は、変調周波数が駆動振幅に匹敵するときに顕著になる。 この研究で示された結果は、フロケ・ハミルトニアンの解析がある種の主観性を持ち、精度の向上を伴う将来の実験において重要な問題となることを示している。 ボース・ジョセフソン接合を用いてこの物理を実証し、これらの手法の有効性と、この研究で得られた小さな違いを、超低温原子に制限されない量子シミュレーションプラットフォームを用いて、将来の現実的な実験で検証できることを期待する。

The bosonic Josephson junction, one of the maximally simple models for periodic-driven many-body systems, has been intensively studied in the past two decades. Here, we revisit this problem with five different methods, all of which have solid theoretical reasoning. We find that to the order of $\omega^{-2}$ ($\omega$ is the modulating frequency), these approaches will yield slightly different Floquet Hamiltonians. In particular, the parameters in the Floquet Hamiltonians may be unchanged, increased, or decreased, depending on the approximations used. Especially, some of the methods generate new interactions, which still preserve the total number of particles; and the others do not. The validity of these five effective models is verified using dynamics of population imbalance and self-trapping phase transition. In all results, we find the method by first performing a unitary rotation to the Hamiltonian will have the highest accuracy. The difference between them will become significate when the modulating frequency is comparable with the driving amplitude. The results presented in this work indicate that the analysis of the Floquet Hamiltonian has some kind of subjectivity, which will become an important issue in future experiments with the increasing of precision. We demonstrate this physics using a Bose-Josephson junction, and it is to be hoped that the validity of these methods and their tiny differences put forward in this work can be verified in realistic experiments in future using quantum simulating platforms, including but not limited to ultracold atoms.
翻訳日:2023-12-29 17:19:08 公開日:2023-12-28
# 大学入学試験におけるスペイン語大言語モデルの性能評価

Evaluating the Performance of Large Language Models for Spanish Language in Undergraduate Admissions Exams ( http://arxiv.org/abs/2312.16845v1 )

ライセンス: Link先を確認
Sabino Miranda, Obdulia Pichardo-Lagunas, Bella Mart\'inez-Seis, Pierre Baldi(参考訳) 本研究は,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARD(ジェミニ・プロモデル)の性能を評価する。 試験は工学・数学・物理科学、生物・医学、社会・行政科学を対象とする。 どちらのモデルも熟練度を示し、各アカデミックプログラムの最低受入得点を75%まで上回った。 GPT-3.5は数学と物理学においてBARDより優れており、BARDは歴史や事実に関する情報に関する質問では優れていた。 GPT-3.5は、それぞれ60.94%と60.42%のスコアでBARDを上回った。

This study evaluates the performance of large language models, specifically GPT-3.5 and BARD (supported by Gemini Pro model), in undergraduate admissions exams proposed by the National Polytechnic Institute in Mexico. The exams cover Engineering/Mathematical and Physical Sciences, Biological and Medical Sciences, and Social and Administrative Sciences. Both models demonstrated proficiency, exceeding the minimum acceptance scores for respective academic programs to up to 75% for some academic programs. GPT-3.5 outperformed BARD in Mathematics and Physics, while BARD performed better in History and questions related to factual information. Overall, GPT-3.5 marginally surpassed BARD with scores of 60.94% and 60.42%, respectively.
翻訳日:2023-12-29 17:18:40 公開日:2023-12-28
# 単眼カメラを用いた衣服付き3次元アバターの動的外観モデリング

Dynamic Appearance Modeling of Clothed 3D Human Avatars using a Single Camera ( http://arxiv.org/abs/2312.16842v1 )

ライセンス: Link先を確認
Hansol Lee, Junuk Cha, Yunhoe Ku, Jae Shin Yoon and Seungryul Baek(参考訳) 服装における人間の外観は、ポーズだけでなく、その時間的文脈、すなわち運動によっても駆動される。 しかし、そのような文脈は、運動のあいまいさのために大きなダイナミクスを持つ人のビデオを学ぶのにしばしば苦労する既存のモノキュラーな人間のモデリング手法、つまり同じポーズであっても動きの文脈に依存する多数の幾何学的構成が存在することで、ほとんど無視されている。 本稿では,動的動作を有する人物の映像を用いて,服を着た3次元アバターの高品質なモデリング手法を提案する。 主な課題は、幾何学の3次元基底真理データとその時間的対応の欠如にある。 我々は,人間の明示的・暗黙的なモデリングを両立させる新しい構成的人間モデリングフレームワークを導入することで,この問題に対処する。 明示的なモデリングのために、ニューラルネットワークは、その2次元レンダリング結果と元の画像とを比較して、3dボディモデルのポイントワイズ形状残差と外観特徴を生成する。 この明示的なモデルは、時間対応を符号化することで、UV空間から識別可能な3次元運動特徴を再構成することができる。 暗黙のモデリングのために、暗黙のネットワークは、外観と3次元の運動特徴を組み合わせて、高忠実な布の3Dアバターを動きに依存した形状とテクスチャでデコードする。 実験により,本手法は物理的に妥当な方法で2次運動の大きな変動を生成できることが判明した。

The appearance of a human in clothing is driven not only by the pose but also by its temporal context, i.e., motion. However, such context has been largely neglected by existing monocular human modeling methods whose neural networks often struggle to learn a video of a person with large dynamics due to the motion ambiguity, i.e., there exist numerous geometric configurations of clothes that are dependent on the context of motion even for the same pose. In this paper, we introduce a method for high-quality modeling of clothed 3D human avatars using a video of a person with dynamic movements. The main challenge comes from the lack of 3D ground truth data of geometry and its temporal correspondences. We address this challenge by introducing a novel compositional human modeling framework that takes advantage of both explicit and implicit human modeling. For explicit modeling, a neural network learns to generate point-wise shape residuals and appearance features of a 3D body model by comparing its 2D rendering results and the original images. This explicit model allows for the reconstruction of discriminative 3D motion features from UV space by encoding their temporal correspondences. For implicit modeling, an implicit network combines the appearance and 3D motion features to decode high-fidelity clothed 3D human avatars with motion-dependent geometry and texture. The experiments show that our method can generate a large variation of secondary motion in a physically plausible way.
翻訳日:2023-12-29 17:18:27 公開日:2023-12-28
# 平凡な光景に潜む--言語ステガノグラフィの科学に向けて

Hiding in Plain Sight: Towards the Science of Linguistic Steganography ( http://arxiv.org/abs/2312.16840v1 )

ライセンス: Link先を確認
Leela Raj-Sankar and S. Raj Rajagopalan(参考訳) 隠されたコミュニケーション(英: covert communication)とは、無名に見える公開オブジェクト(カバー)の中に秘密を隠す行為であり、修正された公開オブジェクト(隠されたコード)が誰にでも意味があるが、コードを知っている人だけが秘密を抽出できる(メッセージ)。 言語ステガノグラフィー(Lguistic steganography)は、会話やツイートなどの短い公開コミュニケーションなど、自然言語のテキストで秘密のメッセージを符号化する実践である。 . 特定の領域における隠蔽コミュニケーションのためのアドホックな手法(JPEG画像、漢詩など)が存在するが、言語分類学の一般的なモデルは存在しない。 本稿では,3つのパラメータを持つ言語ステガノグラフィ符号を作成するための新しい数学的形式について述べる。デコダビリティ(符号化されたメッセージの受信者がカバーを正しくデコードする可能性),密度(カバーコード内のコードワードの頻度),検出可能性(アタッカーがアンスタンプドカバーとステガノライズドカバーの差を区別できる可能性)である。 言語的または言語的ステガノグラフィーは、秘密のメッセージを隠すためのアーティファクトが欠如しているため、最も難しい。 挿入された単語を用いて、挿入された数字を符号化し、挿入の検知可能性の尺度としてn-gram周波数歪みを用いて、Pythonにおけるツイートのステガノグラフィーコードの構築について詳述する。 パブリックアクセス可能なStanford Sentiment Analysisデータセットを使用して、ランダムに既存のツイートのランダムな位置に挿入されたコードワード(データセットの既存の単語)をツイートステガン化スキームを実装し、最小のn-gram歪みのツイートを見つけました。 これはKL距離を低コストで局所的に近似するので、形式的かつ実用的であり、コードワード密度と隠蔽メッセージの検出性とのトレードオフを許容する言語的ステガノグラフィー方式が得られる。

Covert communication (also known as steganography) is the practice of concealing a secret inside an innocuous-looking public object (cover) so that the modified public object (covert code) makes sense to everyone but only someone who knows the code can extract the secret (message). Linguistic steganography is the practice of encoding a secret message in natural language text such as spoken conversation or short public communications such as tweets.. While ad hoc methods for covert communications in specific domains exist ( JPEG images, Chinese poetry, etc), there is no general model for linguistic steganography specifically. We present a novel mathematical formalism for creating linguistic steganographic codes, with three parameters: Decodability (probability that the receiver of the coded message will decode the cover correctly), density (frequency of code words in a cover code), and detectability (probability that an attacker can tell the difference between an untampered cover compared to its steganized version). Verbal or linguistic steganography is most challenging because of its lack of artifacts to hide the secret message in. We detail a practical construction in Python of a steganographic code for Tweets using inserted words to encode hidden digits while using n-gram frequency distortion as the measure of detectability of the insertions. Using the publicly accessible Stanford Sentiment Analysis dataset we implemented the tweet steganization scheme -- a codeword (an existing word in the data set) inserted in random positions in random existing tweets to find the tweet that has the least possible n-gram distortion. We argue that this approximates KL distance in a localized manner at low cost and thus we get a linguistic steganography scheme that is both formal and practical and permits a tradeoff between codeword density and detectability of the covert message.
翻訳日:2023-12-29 17:18:01 公開日:2023-12-28
# DiffusionGAN3D: 3D GANとDiffusion Priorを併用したテキスト誘導3D生成とドメイン適応

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors ( http://arxiv.org/abs/2312.16837v1 )

ライセンス: Link先を確認
Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie(参考訳) テキスト誘導型ドメイン適応と3D認識画像の生成は、様々な分野で多くの応用を見出した。 しかしながら、トレーニングデータの欠如と、多種多様な幾何学と外観を扱うことの難しさから、これらのタスクの既存の方法は、柔軟性の欠如、不安定性、低忠実性といった問題に苦しめられている。 本稿では,3D GANと拡散前処理を組み合わせたテキスト誘導型3Dドメイン適応と生成を促進する新しいフレームワークDiffusionGAN3Dを提案する。 具体的には,事前学習した3次元生成モデル(eg3dなど)とテキストから画像への拡散モデルを統合する。 前者はテキストから安定した高品質なアバター生成のための強力な基盤を提供する。 そして、拡散モデルは、強力で効率的なテキスト誘導ドメイン適応を実現するために、3Dジェネレータの微調整を情報的方向でガイドする。 テキスト対アバタールにおけるドメイン適応の多様性と生成能力を高めるために,それぞれ,相対的距離損失とケース固有の学習可能な三面体を導入する。 さらに,上述の両タスクのテクスチャ品質を向上させるために,プログレッシブなテクスチャリファインメントモジュールを設計する。 広範な実験により、提案フレームワークは、ドメイン適応とテキストからアバレルタスクの両方において優れた結果を達成でき、生成品質と効率の点で既存の方法よりも優れています。 プロジェクトのホームページはhttps://younglbw.github.io/DiffusionGAN3D-homepage/にある。

Text-guided domain adaption and generation of 3D-aware portraits find many applications in various fields. However, due to the lack of training data and the challenges in handling the high variety of geometry and appearance, the existing methods for these tasks suffer from issues like inflexibility, instability, and low fidelity. In this paper, we propose a novel framework DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by combining 3D GANs and diffusion priors. Specifically, we integrate the pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion models. The former provides a strong foundation for stable and high-quality avatar generation from text. And the diffusion models in turn offer powerful priors and guide the 3D generator finetuning with informative direction to achieve flexible and efficient text-guided domain adaption. To enhance the diversity in domain adaption and the generation capability in text-to-avatar, we introduce the relative distance loss and case-specific learnable triplane respectively. Besides, we design a progressive texture refinement module to improve the texture quality for both tasks above. Extensive experiments demonstrate that the proposed framework achieves excellent results in both domain adaption and text-to-avatar tasks, outperforming existing methods in terms of generation quality and efficiency. The project homepage is at https://younglbw.github.io/DiffusionGAN3D-homepage/.
翻訳日:2023-12-29 17:17:23 公開日:2023-12-28
# RimSet: 定量的感受性マップによる慢性活動性多発性硬化病変の定量的同定と特徴付け

RimSet: Quantitatively Identifying and Characterizing Chronic Active Multiple Sclerosis Lesion on Quantitative Susceptibility Maps ( http://arxiv.org/abs/2312.16835v1 )

ライセンス: Link先を確認
Hang Zhang, Thanh D. Nguyen, Jinwei Zhang, Renjiu Hu, Susan A. Gauthier, and Yi Wang(参考訳) 背景: 多発性硬化症 (MS) における Rim+ 病変は, 定量的感受性マッピング (QSM) により検出され, 障害の増大と相関する。 既存の文献にはこれらの病変の定量的解析が欠けている。 本稿では,QSM上のリム+病変の定量的同定と解析のためにRimSetを紹介した。 方法: RmSetはレベルセット手法を用いた教師なしセグメンテーション手法であるRimSegと、ローカルバイナリパターンテクスチャ記述子による放射能測定を組み合わせたものである。 模擬QSM画像と177 rim+と3986 rim-lesionの172 MS 被験者の in vivo データセットを用いてRimSetを検証した。 結果: rimsegは基底真理に対して78.7%のdiceスコアを獲得し, 部分的rim病変に難渋した。 RimSetは、一部のROC AUCが0.808、PR AUCが0.737のリム+病変を検出。 QSMRim-Netは平均二乗誤差 (0.85) と高い相関 (0.91; 95% CI: 0.88, 0.93) を示した。

Background: Rim+ lesions in multiple sclerosis (MS), detectable via Quantitative Susceptibility Mapping (QSM), correlate with increased disability. Existing literature lacks quantitative analysis of these lesions. We introduce RimSet for quantitative identification and characterization of rim+ lesions on QSM. Methods: RimSet combines RimSeg, an unsupervised segmentation method using level-set methodology, and radiomic measurements with Local Binary Pattern texture descriptors. We validated RimSet using simulated QSM images and an in vivo dataset of 172 MS subjects with 177 rim+ and 3986 rim-lesions. Results: RimSeg achieved a 78.7% Dice score against the ground truth, with challenges in partial rim lesions. RimSet detected rim+ lesions with a partial ROC AUC of 0.808 and PR AUC of 0.737, surpassing existing methods. QSMRim-Net showed the lowest mean square error (0.85) and high correlation (0.91; 95% CI: 0.88, 0.93) with expert annotations at the subject level.
翻訳日:2023-12-29 17:16:59 公開日:2023-12-28
# 高次元多重グラフ埋め込みのための階層的集合

Hierarchical Aggregations for High-Dimensional Multiplex Graph Embedding ( http://arxiv.org/abs/2312.16834v1 )

ライセンス: Link先を確認
Kamel Abdous, Nairouz Mrabah, Mohamed Bouguessa(参考訳) 本研究では,複数種類の関係(次元)を通してノードが相互作用する多元グラフの組込み問題について検討する。 近年,この問題に対処する手法がいくつか開発されている。 しかし、より効果的で専門的なアプローチの必要性は、様々な特徴を持つグラフデータの生成によって増大する。 特に実世界の多重グラフは、多くの次元を示すことができ、単一のコンセンサス表現を構築することは困難である。 さらに、重要な情報は多次元に散在する複雑な潜在構造の中に隠れることができる。 そこで本稿では,高次元多重グラフの階層的アグリゲーションに基づく新しい埋め込み手法であるhmgeを提案する。 階層的アグリゲーションは、グラフ次元の階層的な組み合わせを学び、各階層レベルで埋め込みを精算する。 非線形結合は前者から計算され、多重グラフ次元に隠れた複雑な情報や潜在構造を明らかにする。 さらに,局所パッチとグローバルサマリー間の相互情報最大化を活用し,監視なしでモデルをトレーニングする。 これにより、グラフの様々な場所に存在するグローバルな関連情報をキャプチャすることができる。 合成および実世界のデータに関する詳細な実験は、リンク予測やノード分類を含む下流教師付きタスクに対する我々のアプローチの適合性を示している。

We investigate the problem of multiplex graph embedding, that is, graphs in which nodes interact through multiple types of relations (dimensions). In recent years, several methods have been developed to address this problem. However, the need for more effective and specialized approaches grows with the production of graph data with diverse characteristics. In particular, real-world multiplex graphs may exhibit a high number of dimensions, making it difficult to construct a single consensus representation. Furthermore, important information can be hidden in complex latent structures scattered in multiple dimensions. To address these issues, we propose HMGE, a novel embedding method based on hierarchical aggregation for high-dimensional multiplex graphs. Hierarchical aggregation consists of learning a hierarchical combination of the graph dimensions and refining the embeddings at each hierarchy level. Non-linear combinations are computed from previous ones, thus uncovering complex information and latent structures hidden in the multiplex graph dimensions. Moreover, we leverage mutual information maximization between local patches and global summaries to train the model without supervision. This allows to capture of globally relevant information present in diverse locations of the graph. Detailed experiments on synthetic and real-world data illustrate the suitability of our approach to downstream supervised tasks, including link prediction and node classification.
翻訳日:2023-12-29 17:16:37 公開日:2023-12-28
# ランダム結合されたパウリXYスピンの二重スケーリング極限

The double scaling limit of randomly coupled Pauli XY spins ( http://arxiv.org/abs/2312.16833v1 )

ライセンス: Link先を確認
Ryota Watanabe(参考訳) 我々は、最近ハナダらで研究されたパウリスピン作用素のモデルの二重スケーリング極限を考える。 [1] と、弦図形によるハミルトニアンのモーメントを評価する。 これらは二重スケールのsykモデルと一致することが分かり、このモデルがホログラフィの研究において重要な役割を果たす可能性が高まる。 我々は、このモデルを以前に研究した別のモデルと比較する。 また、ダブルスケーリング極限におけるハミルトニアンの形についても推測する。

We consider the double scaling limit of a model of Pauli spin operators recently studied in Hanada et al. [1] and evaluate the moments of the Hamiltonian by the chord diagrams. We find that they coincide with those of the double scaled SYK model, which makes it more likely that this model may play an important role in the study of holography. We compare the model with another previously studied model. We also speculate on the form of the Hamiltonian in the double scaling limit.
翻訳日:2023-12-29 17:16:18 公開日:2023-12-28
# METER:オンライン異常検出のための動的概念適応フレームワーク

METER: A Dynamic Concept Adaptation Framework for Online Anomaly Detection ( http://arxiv.org/abs/2312.16831v1 )

ライセンス: Link先を確認
Jiaqi Zhu, Shaofeng Cai, Fang Deng, Beng Chin Ooi, Wenqiao Zhang(参考訳) リアルタイム分析と意思決定は、データストリームのドリフトを効率的かつ効率的に処理するために、オンライン異常検出(OAD)を必要とする。 残念なことに、既存のアプローチでは、検出能力の制限やデータストリームの進化への順応の遅さ、コンセプトドリフト処理の有効性と効率性の抑制など、データストリームの発展において大きな課題となっていることが多い。 本稿では,OADの新しいパラダイムを導入した新しい動的概念適応フレームワークであるMETERを紹介する。 メータは概念ドリフトに対処するため、まず履歴データに基づくベース検出モデルをトレーニングし、反復する中心となる概念をキャプチャし、その後、概念ドリフトの検出時にデータストリームの新しい概念に動的に適応するように学習する。 特にMETERは、ハイパーネットワークを利用してベース検出モデルのパラメータシフトを動的に生成し、従来のリトレーニングや微調整よりも効率的で効率的なソリューションを提供する新しい動的概念適応技術を採用している。 さらにMETERは、明快な深層学習を基盤とする軽量なドリフト検出コントローラを導入し、堅牢で解釈可能なコンセプトドリフト検出をサポートする。 我々は広範囲な実験的評価を行い、METERは様々なアプリケーションシナリオにおいて既存のOADアプローチを大幅に上回っていることを示す。

Real-time analytics and decision-making require online anomaly detection (OAD) to handle drifts in data streams efficiently and effectively. Unfortunately, existing approaches are often constrained by their limited detection capacity and slow adaptation to evolving data streams, inhibiting their efficacy and efficiency in handling concept drift, which is a major challenge in evolving data streams. In this paper, we introduce METER, a novel dynamic concept adaptation framework that introduces a new paradigm for OAD. METER addresses concept drift by first training a base detection model on historical data to capture recurring central concepts, and then learning to dynamically adapt to new concepts in data streams upon detecting concept drift. Particularly, METER employs a novel dynamic concept adaptation technique that leverages a hypernetwork to dynamically generate the parameter shift of the base detection model, providing a more effective and efficient solution than conventional retraining or fine-tuning approaches. Further, METER incorporates a lightweight drift detection controller, underpinned by evidential deep learning, to support robust and interpretable concept drift detection. We conduct an extensive experimental evaluation, and the results show that METER significantly outperforms existing OAD approaches in various application scenarios.
翻訳日:2023-12-29 17:16:12 公開日:2023-12-28
# ノードクラスタリングのためのコントラスト変動グラフオートエンコーダ

A Contrastive Variational Graph Auto-Encoder for Node Clustering ( http://arxiv.org/abs/2312.16830v1 )

ライセンス: Link先を確認
Nairouz Mrabah, Mohamed Bouguessa, Riadh Ksantini(参考訳) 変分グラフ自動エンコーダ(VGAE)はノードクラスタリングタスクの解決に広く利用されている。 しかし、最先端の手法には多くの課題がある。 まず、既存のvgaeは、クラスタリングインダクティブバイアスを組み込んだ後、推論と生成モデルの間の不一致を考慮しない。 第二に、現在のモデルは入力信号(すなわち後崩壊)と独立に遅延符号を一致させる解を退化させる傾向がある。 第三に、既存のVGAEは、ノイズの多いクラスタリングの割り当て(特徴ランダムネス)の効果とクラスタリングと再構築(特徴ドリフト)の強いトレードオフの影響を見落としている。 これらの問題に対処するため、コントラッシブな設定で変分下界を定式化する。 我々の下界は、対応するエビデンス下界(ELBO)よりもログ様関数の厳密な近似である。 新たに特定された用語のおかげで、下限は後方崩壊から逃れることができ、推論モデルと生成モデルの違いを考慮に入れる柔軟性が増す。 さらに、私たちのソリューションには、フィーチャーランダムネスとフィーチャードリフトのトレードオフを制御する2つのメカニズムがあります。 大規模実験により,提案手法は複数のデータセットで最先端のクラスタリング結果が得られることが示された。 この改善は、対照的な学習の統合と特徴のランダムさの緩和、特徴のドリフト、後方崩壊の4つの側面に起因するという強い証拠を提供する。

Variational Graph Auto-Encoders (VGAEs) have been widely used to solve the node clustering task. However, the state-of-the-art methods have numerous challenges. First, existing VGAEs do not account for the discrepancy between the inference and generative models after incorporating the clustering inductive bias. Second, current models are prone to degenerate solutions that make the latent codes match the prior independently of the input signal (i.e., Posterior Collapse). Third, existing VGAEs overlook the effect of the noisy clustering assignments (i.e., Feature Randomness) and the impact of the strong trade-off between clustering and reconstruction (i.e., Feature Drift). To address these problems, we formulate a variational lower bound in a contrastive setting. Our lower bound is a tighter approximation of the log-likelihood function than the corresponding Evidence Lower BOund (ELBO). Thanks to a newly identified term, our lower bound can escape Posterior Collapse and has more flexibility to account for the difference between the inference and generative models. Additionally, our solution has two mechanisms to control the trade-off between Feature Randomness and Feature Drift. Extensive experiments show that the proposed method achieves state-of-the-art clustering results on several datasets. We provide strong evidence that this improvement is attributed to four aspects: integrating contrastive learning and alleviating Feature Randomness, Feature Drift, and Posterior Collapse.
翻訳日:2023-12-29 17:15:49 公開日:2023-12-28
# 層レベルの攻撃と知識蒸留による高速かつ高精度な機械学習

Layer Attack Unlearning: Fast and Accurate Machine Unlearning via Layer Level Attack and Knowledge Distillation ( http://arxiv.org/abs/2312.16823v1 )

ライセンス: Link先を確認
Hyunjune Kim, Sangyong Lee, Simon S. Woo(参考訳) 近年、個人データを含む機械学習アルゴリズムにおけるデータセットのトレーニングに関するプライバシー問題に深刻な懸念が持ち上がっている。 GDPRを含む各国の様々な規制は、個人に対して「忘れられる権利」または「消し去る権利」と呼ばれる個人情報を消去することを許可している。 しかし、機械学習全体のパフォーマンスを損なうことなく、要求された個人データをトレーニングセットから効果的かつ効果的に削除する研究は少ない。 本研究では,階層攻撃アンラーニング(Layer attack unlearning)と呼ばれる,階層レベルでの高速かつ斬新な機械学習パラダイムを提案する。 そこで本研究では, 効率よく試料の発見を行う部分PGDアルゴリズムを提案する。 さらに,前向きアルゴリズムにインスパイアされたモデルの最後の層のみをアンラーニングプロセスに使用する。 最後に、知識蒸留(KD)を用いて、ソフトラベル情報を用いて教師の意思決定境界を確実に学習し、精度を向上させる。 我々は,SOTAマシンアンラーニングモデルを用いた広範囲な実験を行い,その精度とエンドツーエンドアンラーニング性能に対するアプローチの有効性を実証した。

Recently, serious concerns have been raised about the privacy issues related to training datasets in machine learning algorithms when including personal data. Various regulations in different countries, including the GDPR grant individuals to have personal data erased, known as 'the right to be forgotten' or 'the right to erasure'. However, there has been less research on effectively and practically deleting the requested personal data from the training set while not jeopardizing the overall machine learning performance. In this work, we propose a fast and novel machine unlearning paradigm at the layer level called layer attack unlearning, which is highly accurate and fast compared to existing machine unlearning algorithms. We introduce the Partial-PGD algorithm to locate the samples to forget efficiently. In addition, we only use the last layer of the model inspired by the Forward-Forward algorithm for unlearning process. Lastly, we use Knowledge Distillation (KD) to reliably learn the decision boundaries from the teacher using soft label information to improve accuracy performance. We conducted extensive experiments with SOTA machine unlearning models and demonstrated the effectiveness of our approach for accuracy and end-to-end unlearning performance.
翻訳日:2023-12-29 17:15:27 公開日:2023-12-28
# bbscore: テキストコヒーレンスを評価するためのブラウンブリッジベースのメトリクス

BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence ( http://arxiv.org/abs/2312.16893v1 )

ライセンス: Link先を確認
Zhecheng Sheng, Tianhao Zhang, Chen Jiang, Dongyeop Kang(参考訳) テキストの一貫性を測定することは、文章コンテンツの品質を評価する上で重要な側面である。 近年のニューラル・コヒーレンス・モデリングの進歩により、エンティティ・コヒーレンスと談話の関係を捉える効果が実証され、コヒーレンス評価が向上している。 しかし、既存の多くのメソッドは静的な埋め込みに大きく依存するか、近くのコンテキストに狭く集中し、長いテキストの全体的一貫性を測定する能力を制限する。 本稿では,コヒーレントなテクストが本質的に連続的かつ凝集的な文間相互作用を示し,その中心的テーマ,目的,観点を効果的に伝達することを示す。 この抽象的な関係を探求するために、ブラウン橋理論に基づく新しい参照なし計量「BBScore」を導入し、テキストコヒーレンスを評価する。 以上の結果から,単純な付加的な分類要素を組み合わせると,標準人工的識別タスクにおける最先端技術に匹敵する性能レベルが得られることが示された。 また、この指標が特定のドメインの下で大規模言語モデルによって生成される文書とテキストとを効果的に区別する下流タスクを確立する。 さらに,多種多様な大規模言語モデルに起因する文様の検出において,この手法の有効性を示し,その一般化可能性について考察する。 まとめると, エンドツーエンドモデルトレーニングの必要性を回避しつつ, 局所的およびグローバル的テキストコヒーレンスを計測可能な, 新規なブラウンブリッジコヒーレンスメトリックを提案する。 この柔軟性により、さまざまなダウンストリームタスクに応用できる。

Measuring the coherence of text is a vital aspect of evaluating the quality of written content. Recent advancements in neural coherence modeling have demonstrated their efficacy in capturing entity coreference and discourse relations, thereby enhancing coherence evaluation. However, many existing methods heavily depend on static embeddings or focus narrowly on nearby context, constraining their capacity to measure the overarching coherence of long texts. In this paper, we posit that coherent texts inherently manifest a sequential and cohesive interplay among sentences, effectively conveying the central theme, purpose, or standpoint. To explore this abstract relationship, we introduce the "BBScore," a novel reference-free metric grounded in Brownian bridge theory for assessing text coherence. Our findings showcase that when synergized with a simple additional classification component, this metric attains a performance level comparable to state-of-the-art techniques on standard artificial discrimination tasks. We also establish in downstream tasks that this metric effectively differentiates between human-written documents and text generated by large language models under a specific domain. Furthermore, we illustrate the efficacy of this approach in detecting written styles attributed to diverse large language models, underscoring its potential for generalizability. In summary, we present a novel Brownian bridge coherence metric capable of measuring both local and global text coherence, while circumventing the need for end-to-end model training. This flexibility allows for its application in various downstream tasks.
翻訳日:2023-12-29 17:03:08 公開日:2023-12-28
# FlexSSL : 半教師付き学習のための汎用的で効率的なフレームワーク

FlexSSL : A Generic and Efficient Framework for Semi-Supervised Learning ( http://arxiv.org/abs/2312.16892v1 )

ライセンス: Link先を確認
Huiling Qin, Xianyuan Zhan, Yuanxun Li, Yu Zheng(参考訳) ラベル付きデータと高価なラベル付きデータの両方を活用できるため、半教師付き学習は多くの現実世界のアプリケーションにとって大きな可能性を秘めている。 しかし、ほとんどの半教師付き学習アルゴリズムは、まだラベル付きデータから隠れた情報を推測し活用するためにラベル付きデータに大きく依存している。 自己学習パラダイムに基づく半教師付き学習タスクは,ラベルの可観測性を識別する補助的なタスクも隠蔽する。 これら2つのタスクを共同で解決することで、ラベル付きデータとラベル付きデータの両方から情報を完全に活用することができるため、ラベル付きデータへの過度な依存の問題を軽減することができる。 これによって、私たちがflexsslと呼ぶドメイン固有の情報に依存しない、新しいジェネリックで効率的な学習フレームワークが生まれます。 flexsslの鍵となるアイデアは、メインの利害関係にある半教師付き学習タスクと、メインタスクのトレーニングを容易にするためにラベルの可観測性を推測するコンパニオンタスクとの間の協調を促進する半協力的な「ゲーム」を構築することである。 ノイズラベルにおける損失再重み付けとの関連を理論的に導出する。 多様なタスクの評価を通じて、FlexSSLは半教師付き学習アルゴリズムの性能を継続的に向上させることができることを示す。

Semi-supervised learning holds great promise for many real-world applications, due to its ability to leverage both unlabeled and expensive labeled data. However, most semi-supervised learning algorithms still heavily rely on the limited labeled data to infer and utilize the hidden information from unlabeled data. We note that any semi-supervised learning task under the self-training paradigm also hides an auxiliary task of discriminating label observability. Jointly solving these two tasks allows full utilization of information from both labeled and unlabeled data, thus alleviating the problem of over-reliance on labeled data. This naturally leads to a new generic and efficient learning framework without the reliance on any domain-specific information, which we call FlexSSL. The key idea of FlexSSL is to construct a semi-cooperative "game", which forges cooperation between a main self-interested semi-supervised learning task and a companion task that infers label observability to facilitate main task training. We show with theoretical derivation of its connection to loss re-weighting on noisy labels. Through evaluations on a diverse range of tasks, we demonstrate that FlexSSL can consistently enhance the performance of semi-supervised learning algorithms.
翻訳日:2023-12-29 17:02:22 公開日:2023-12-28
# 光キャビティにおける分子回転の偏光子

Polaritons under Extensive Disordered Molecular Rotation in Optical Cavities ( http://arxiv.org/abs/2312.16891v1 )

ライセンス: Link先を確認
Wei Liu, Jingqi Chen and Wenjie Dou(参考訳) 本研究では,100万個の分子を含む光キャビティにおけるポラリトンの動的挙動について検討し,分子と光子のカップリングに対する分子回転と準位障害の影響を強調した。 厳密な理論シミュレーションと数値解析を通じて、この複雑な環境におけるポラリトンの形成とスペクトル特性を体系的に探究する。 以上の結果から,分子の回転運動はキャビティ内の電磁場分布に大きく影響し,ポラリトン特性に異なる変化がみられた。 同時に、レベル障害の存在は様々なエネルギー準位構造を誘導し、ポラリトンのエネルギー分布に影響を与える。 これらの因子の包括的検討は、大規模空洞系における分子と光子の複雑な相互作用に関する貴重な洞察を与える。 この研究は、分子-光子カップリングの基本的な理解を深めるだけでなく、光学キャビティの設計と探索における実践的応用のための理論的ガイダンスを提供する。

This study investigates the dynamic behavior of polaritons in an optical cavity containing one million molecules, emphasizing the influence of molecular rotation and level disorder on the coupling between molecules and photons. Through rigorous theoretical simulations and numerical analyses, we systematically explore the formation and spectral characteristics of polaritons in this complex environment. Our findings reveal that the rotational motion of molecules significantly affects the electromagnetic field distribution within the cavity, leading to distinct alterations in polariton properties. Simultaneously, the presence of level disorder induces diverse energy level structures, influencing the energy distribution of polaritons. The comprehensive examination of these factors provides valuable insights into the intricate interplay between molecules and photons in large-scale cavity systems. This research not only advances the fundamental understanding of molecular-photon coupling but also offers theoretical guidance for practical applications in the design and exploration of optical cavities.
翻訳日:2023-12-29 17:01:47 公開日:2023-12-28
# 認知図面の自動描画:金標準に対する機械的スコアの品質評価

Automatic Scoring of Cognition Drawings: Assessing the Quality of Machine-Based Scores Against a Gold Standard ( http://arxiv.org/abs/2312.16887v1 )

ライセンス: Link先を確認
Arne Bethmann, Marina Aoki, Charlotte Hunsicker, Claudia Weileder(参考訳) 図面描画はしばしば認知症スクリーニングプロトコルの一部として使われる。 The Survey of Health Aging and Retirement in Europe (SHARE)は、認知に関する調査モジュールの一部として、Addenbrooke's Cognitive Examination IIIの3つの図面テストを採用した。 図面は通常訓練を受けた臨床医が採点するが、shareは面接を行う対面面接者を使ってフィールドワーク中に図面を採点する。 インタビュアーはスコアの一貫性が低く、臨床訓練の欠如によりエラーを起こしやすいため、これはデータ品質にリスクをもたらす可能性がある。 そこで本稿では,最初の概念実証を報告し,ディープラーニングを用いたスコアリングの自動化の可能性について評価する。 我々は,ドイツにおける第8波から約2,000枚の図面とそれに対応するインタビュアースコア,および自己開発した'ゴールドスタンダード'スコアを用いて,いくつかの異なる畳み込みニューラルネットワーク(cnn)モデルを訓練した。 結果は、このアプローチが実際に実現可能であることを示唆している。 インタビュアースコアのトレーニングと比較すると、ゴールド標準データに基づいてトレーニングされたモデルは、予測精度を約10ポイント向上する。 最高のパフォーマンスモデルであるconvnext baseは、約85%の精度を実現している。 これは有望な結果であるが、モデルはまだ部分的に正しい図面を得るのに苦労しており、これはインタビュアーにとっても問題となっている。 これは、プロダクションレベルの予測精度を達成するために、より優れたトレーニングデータが必要であることを示唆している。 したがって、トレーニング例の品質と量を改善するための次のステップについて議論する。

Figure drawing is often used as part of dementia screening protocols. The Survey of Health Aging and Retirement in Europe (SHARE) has adopted three drawing tests from Addenbrooke's Cognitive Examination III as part of its questionnaire module on cognition. While the drawings are usually scored by trained clinicians, SHARE uses the face-to-face interviewers who conduct the interviews to score the drawings during fieldwork. This may pose a risk to data quality, as interviewers may be less consistent in their scoring and more likely to make errors due to their lack of clinical training. This paper therefore reports a first proof of concept and evaluates the feasibility of automating scoring using deep learning. We train several different convolutional neural network (CNN) models using about 2,000 drawings from the 8th wave of the SHARE panel in Germany and the corresponding interviewer scores, as well as self-developed 'gold standard' scores. The results suggest that this approach is indeed feasible. Compared to training on interviewer scores, models trained on the gold standard data improve prediction accuracy by about 10 percentage points. The best performing model, ConvNeXt Base, achieves an accuracy of about 85%, which is 5 percentage points higher than the accuracy of the interviewers. While this is a promising result, the models still struggle to score partially correct drawings, which are also problematic for interviewers. This suggests that more and better training data is needed to achieve production-level prediction accuracy. We therefore discuss possible next steps to improve the quality and quantity of training examples.
翻訳日:2023-12-29 17:01:08 公開日:2023-12-28
# MobileVLM : モバイルデバイスのための高速で再現可能な強力な視覚言語アシスタント

MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices ( http://arxiv.org/abs/2312.16886v1 )

ライセンス: Link先を確認
Xiangxiang Chu and Limeng Qiao and Xinyang Lin and Shuang Xu and Yang Yang and Yiming Hu and Fei Wei and Xinyu Zhang and Bo Zhang and Xiaolin Wei and Chunhua Shen(参考訳) モバイル端末で動作する多モード視覚言語モデル(MMVLM)であるMobileVLMを提案する。 これは、CLIP方式で事前訓練されたマルチモーダル視覚モデル、効率的なプロジェクタによる相互モダリティ相互作用を含む、1.4Bと2.7Bのスケールの言語モデルからなる、モバイル指向の無数のアーキテクチャ設計と技法の融合である。 いくつかの典型的なVLMベンチマークでMobileVLMを評価する。 私たちのモデルは、より大規模なモデルと比較して、同等のパフォーマンスを示します。 さらに、Qualcomm Snapdragon 888 CPUとNVIDIA Jeston Orin GPUの両方で推論速度を測定し、それぞれ21.5トークンと65.3トークンの最先端のパフォーマンスを得る。 私たちのコードは、https://github.com/Meituan-AutoML/MobileVLMで利用可能になります。

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.
翻訳日:2023-12-29 17:00:38 公開日:2023-12-28
# TypeEvalPy: Python型推論ツール用のマイクロベンチマークフレームワーク

TypeEvalPy: A Micro-benchmarking Framework for Python Type Inference Tools ( http://arxiv.org/abs/2312.16882v1 )

ライセンス: Link先を確認
Ashwin Prasad Shivarpatna Venkatesh, Samkutty Sabu, Jiawei Wang, Amir M. Mir, Li Li, Eric Bodden(参考訳) pythonの型推論研究への関心が高まる中、研究者も実践者も様々な型推論技術のパフォーマンスを評価するために標準化されたプロセスを必要としている。 本稿では,型推論ツールを評価するためのマイクロベンチマークフレームワークであるTypeEvalPyを紹介する。 TypeEvalPyには154のコードスニペットがあり、さまざまなPython機能をターゲットにした18のカテゴリに845の型アノテーションがある。 このフレームワークはコンテナ化されたツールの実行を管理し、推論された型を標準化されたフォーマットに変換し、アセスメントに意味のあるメトリクスを生成する。 分析を通じて,6つの型推論ツールの性能を比較し,その長所と限界を強調した。 我々の発見は、pythonの型推論の領域におけるさらなる研究と最適化の基盤を提供する。

In light of the growing interest in type inference research for Python, both researchers and practitioners require a standardized process to assess the performance of various type inference techniques. This paper introduces TypeEvalPy, a comprehensive micro-benchmarking framework for evaluating type inference tools. TypeEvalPy contains 154 code snippets with 845 type annotations across 18 categories that target various Python features. The framework manages the execution of containerized tools, transforms inferred types into a standardized format, and produces meaningful metrics for assessment. Through our analysis, we compare the performance of six type inference tools, highlighting their strengths and limitations. Our findings provide a foundation for further research and optimization in the domain of Python type inference.
翻訳日:2023-12-29 16:59:51 公開日:2023-12-28
# 画像分類モデルに対する敵対的攻撃:分析と防御

Adversarial Attacks on Image Classification Models: Analysis and Defense ( http://arxiv.org/abs/2312.16880v1 )

ライセンス: Link先を確認
Jaydip Sen, Abhiraj Sen, and Ananda Chatterjee(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)に基づく画像分類モデルに対する逆攻撃の概念を紹介する。 画像の分類には、CNNと呼ばれるディープラーニングモデルが頻繁に使用される。 しかし、ネットワークが敵攻撃を受ける場合、画像分類タスクのための画像データセットに非常に効果的に機能する非常に強力で以前に訓練されたCNNモデルは、性能が劣る可能性がある。 本研究では,高速勾配符号法 (FGSM) として知られる1つの敵攻撃について検討し,画像分類モデルの性能に対する悪影響について検討した。 FGSM攻撃は、ImageNetデータセットからランダムに選択された画像を使用して、3つのトレーニング済みイメージ分類器CNNアーキテクチャ、ResNet-101、AlexNet、RegNetY 400MFでシミュレートされる。 モデルの分類精度は攻撃の有無と存在によって計算され、攻撃が分類器の性能に悪影響を及ぼすことを示す。 最後に,FGSM攻撃に対する防御機構を提案する。 提案手法の検証には広範な結果が得られた。

The notion of adversarial attacks on image classification models based on convolutional neural networks (CNN) is introduced in this work. To classify images, deep learning models called CNNs are frequently used. However, when the networks are subject to adversarial attacks, extremely potent and previously trained CNN models that perform quite effectively on image datasets for image classification tasks may perform poorly. In this work, one well-known adversarial attack known as the fast gradient sign method (FGSM) is explored and its adverse effects on the performances of image classification models are examined. The FGSM attack is simulated on three pre-trained image classifier CNN architectures, ResNet-101, AlexNet, and RegNetY 400MF using randomly chosen images from the ImageNet dataset. The classification accuracies of the models are computed in the absence and presence of the attack to demonstrate the detrimental effect of the attack on the performances of the classifiers. Finally, a mechanism is proposed to defend against the FGSM attack based on a modified defensive distillation-based approach. Extensive results are presented for the validation of the proposed scheme.
翻訳日:2023-12-29 16:59:40 公開日:2023-12-28
# ランダム森林予測のための量子回路

Quantum Circuit for Random Forest Prediction ( http://arxiv.org/abs/2312.16877v1 )

ライセンス: Link先を確認
Liliia Safina, Kamil Khadieva, Ilnar Zinnatullina, and Aliya Khadieva(参考訳) 本研究では,ランダムフォレストモデルを用いた2値分類予測アルゴリズムのための量子回路を提案する。 量子予測アルゴリズムはこれまでの研究で紹介されている。 回路を構築し,それをqiskitツール(量子プログラミング用のpythonモジュール)を用いて実装する。 私たちの目標の1つは、基本的な量子ゲート(要素ゲート)の数を減らすことです。 この研究で使用する基本的な量子ゲートのセットは、単一量子ビットゲートと制御されたnotゲートからなる。 自明なサーキット分解技術が$o(4^{|x|+n+h+2})$cnotゲートを与える場合、n$はランダムフォレストモデルの木の数、$h$は木の高さ、$|x|$は入力オブジェクト$x$の属性の長さである。 予測プロセスは、入力の$X$に対して対応するクラスのインデックスを返す。

In this work, we present a quantum circuit for a binary classification prediction algorithm using a random forest model. The quantum prediction algorithm is presented in our previous works. We construct a circuit and implement it using qiskit tools (python module for quantum programming). One of our goals is reducing the number of basic quantum gates (elementary gates). The set of basic quantum gates which we use in this work consists of single-qubit gates and a controlled NOT gate. The number of CNOT gates in our circuit is estimated by $O(2^{n+2h+1})$ , when trivial circuit decomposition techniques give $O(4^{|X|+n+h+2})$ CNOT gates, where $n$ is the number of trees in a random forest model, $h$ is a tree height and $|X|$ is the length of attributes of an input object $X$. The prediction process returns an index of the corresponding class for the input $X$.
翻訳日:2023-12-29 16:59:20 公開日:2023-12-28
# 無質量粒子の位置作用素の回転特性について

Note on rotational properties of position operators of massless particles ( http://arxiv.org/abs/2312.16876v1 )

ライセンス: Link先を確認
Michal Dobrski(参考訳) 質量のない粒子の位置演算子(ホートン作用素)の可換成分に対する空間回転群の非線形作用について検討した。 Callan, Coleman, Wess および Zumino 法を用いて、この作用を線型化する座標は、非可換成分を持つPryce演算子に対応することが示されている。

Nonlinear action of the group of spatial rotations on commuting components of a position operator of a massless particle (Hawton operator) is studied. Using Callan, Coleman, Wess and Zumino method it is shown that coordinates which linearize this action correspond to the Pryce operator with non-commuting components.
翻訳日:2023-12-29 16:59:05 公開日:2023-12-28
# DualFluidNet: 高精度で一般化可能な流体-固体結合シミュレーションのための注意型デュアルパイプネットワーク

DualFluidNet: an Attention-based Dual-pipeline Network for Accurate and Generalizable Fluid-solid Coupled Simulation ( http://arxiv.org/abs/2312.16867v1 )

ライセンス: Link先を確認
Yu Chen, Shuai Zheng, Menglong Jin, Yan Chang and Nianyi Wang(参考訳) 流体運動は、ラグランジアンの記述で採用された点雲変換と見なすことができる。 従来の数値解析手法と比較して、物理シミュレーションの学習に機械学習を用いると、ほぼ精度が向上し、効率は大幅に向上する。 本稿では,注意に基づく機能融合モジュールとシームレスに統合した2つのパイプラインアーキテクチャを用いた,注意に基づく2つのパイプラインネットワークを用いた3次元流体シミュレーションのための革新的な手法を提案する。 従来の単管式アプローチとは異なり、よく設計された二重管式アプローチは、大域的な流体制御と物理法則のバランスを良くする。 さらに,異なる種類の粒子を適応的に認識し,その後に機能融合を行うタイプアウェア入力モジュールを設計し,流体-固体結合問題に対処する。 実験の結果, 本手法は流体シミュレーション予測の精度を著しく向上させ, 従来考えられなかったシナリオの一般化性を高めた。 各種メトリクスの最先端アプローチよりも優れた性能を示す。

Fluid motion can be considered as point cloud transformation when adopted by a Lagrangian description. Compared to traditional numerical analysis methods, using machine learning techniques to learn physics simulations can achieve near accuracy, while significantly increasing efficiency. In this paper, we propose an innovative approach for 3D fluid simulations utilizing an Attention-based Dual-pipeline Network, which employs a dual-pipeline architecture, seamlessly integrated with an Attention-based Feature Fusion Module. Unlike previous single-pipeline approaches, we find that a well-designed dual-pipeline approach achieves a better balance between global fluid control and physical law constraints. Furthermore, we design a Type-aware Input Module to adaptively recognize particles of different types and perform feature fusion afterward, such that fluid-solid coupling issues can be better dealt with. The experiments show that our approach significantly increases the accuracy of fluid simulation predictions and enhances generalizability to previously unseen scenarios. We demonstrate its superior performance over the state-of-the-art approaches across various metrics.
翻訳日:2023-12-29 16:58:58 公開日:2023-12-28
# ゲージ場と物質におけるクラスター-アルゴリズム-アメニブルモデル

Cluster-Algorithm-Amenable Models of Gauge Fields and Matter ( http://arxiv.org/abs/2312.16865v1 )

ライセンス: Link先を確認
Emilie Huffman(参考訳) 典型的なフェルミオンアルゴリズムはフェルミオン行列式の計算(またはサンプリング)を必要とする。 代わりに、行列式を含まないクラスタアルゴリズムに焦点を合わせ、構成空間をより物理的に関連性のあるサンプリングを行う。 我々は、これらのクラスタアルゴリズムによってシミュレート可能な$\mathbb{Z}_2$および$U(1)$ゲージ場に結合したフェルミオンのための新しいクラスタアルゴリズムとモデルの設計クラスを、サインプロブレム自由な方法で開発する。 このようなシミュレーションは豊富な位相図を含み、特に量子シミュレータ実験に関係がある。

Typical fermion algorithms require the computation (or sampling) of the fermion determinant. We focus instead on cluster algorithms which do not involve the determinant and involve a more physically relevant sampling of the configuration space. We develop new cluster algorithms and design classes of models for fermions coupled to $\mathbb{Z}_2$ and $U(1)$ gauge fields that are amenable to being simulated by these cluster algorithms in a sign-problem free way. Such simulations should contain rich phase diagrams and are particularly relevant for quantum simulator experiments.
翻訳日:2023-12-29 16:58:42 公開日:2023-12-28
# OmniDialog:タスク指向対話システムのための全能事前学習モデル

OmniDialog: An Omnipotent Pre-training Model for Task-Oriented Dialogue System ( http://arxiv.org/abs/2312.16864v1 )

ライセンス: Link先を確認
Mingtao Yang, See-Kiong Ng, Jinlan Fu(参考訳) 予め訓練された会話モデル(PCM)はタスク指向対話(TOD)システムにおいて顕著な結果を示した。 多くのpcmは主に対話状態追跡や応答生成などの対話生成タスクなどの対話管理タスクに焦点を当てている。 しかし,既存のPCMでは,対話質問応答や要約タスクなど,対話理解タスクをほとんど考慮していない。 これらのタスクにより、PCMは様々な角度から対話コンテキストを作成できる。 PCMが対話管理、生成、理解タスクで事前訓練されている場合、ダウンストリーム対話タスクのパフォーマンスを向上できるだろうか? そこで我々は,Omnipotent Dialogue pre-training model (OmniDialog)を提案する。 これら3つの対話タスクをマルチタスク学習によってモノリシックなフレームワークに統合し、タスク間通信を促進する。 オムニダイアログの事前学習コーパスは、$\mathbf{7}$ 対話中心タスクにまたがり、$\mathbf{15}$データセットから引き出され、$\mathbf{3.2}$ 対話発話を含む。 我々の知る限り、OmniDialogは対話管理、生成、理解ドメイン間で事前訓練された先駆的なPCMです。 対話要約,エンドツーエンド対話モデリング,対話状態追跡,意図分類の4つのタスクでそのパフォーマンスを評価した。 結果は、ドメイン転送学習、ローリソース、フルデータセットシナリオでの有効性を強調する。 さらに,omnidialogの強みと潜在的な落とし穴を理解するために,対話中心タスクのためのきめ細かい分析フレームワークを設計した。 実験結果から,OmniDialogは長文対話や長文応答などのハードサンプルが得意であることがわかった。

Pre-trained conversation models (PCMs) have demonstrated remarkable results in task-oriented dialogue (TOD) systems. Many PCMs focus predominantly on dialogue management tasks like dialogue state tracking, dialogue generation tasks like response generation, or both. However, the existing PCMs seldom consider dialogue comprehension tasks, such as dialogue question answering and summarization tasks. These tasks allow PCMs to glean dialogue context from various angles. This observation naturally raises the question: Can the performance of downstream dialogue tasks be enhanced if a PCM is pre-trained on dialogue management, generation, and comprehension tasks? To investigate this, we proposed an Omnipotent Dialogue pre-training model (OmniDialog). It unifies these three dialogue tasks into a monolithic framework by multi-task learning, fostering inter-task communication. The pre-training corpus of OmniDialog spans $\mathbf{7}$ dialogue-focused tasks, drawing from $\mathbf{15}$ datasets and encompassing over $\mathbf{3.2}$ million dialogue utterances. To our knowledge, OmniDialog is a pioneering PCM pre-trained across dialogue management, generation, and comprehension domains. We evaluated its performance across four tasks: dialogue summarization, end-to-end dialogue modeling, dialogue state tracking, and intent classification. The results underscore its efficacy in domain transfer learning, low-resource, and full-dataset scenarios. Furthermore, to glean a nuanced understanding of OmniDialog's strengths and potential pitfalls, we designed a fine-grained analysis framework for dialogue-centric tasks. Experimental results show that the OmniDialog is good at hard samples, such as long dialogues and lengthy responses.
翻訳日:2023-12-29 16:58:31 公開日:2023-12-28
# TinyGPT-V:小さなバックボーンによる効率的なマルチモーダル大言語モデル

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones ( http://arxiv.org/abs/2312.16862v1 )

ライセンス: Link先を確認
Zhengqing Yuan, Zhaoxu Li, Lichao Sun(参考訳) 先進的なマルチモデル学習の時代、GPT-4Vのようなマルチモーダルな大規模言語モデル(MLLM)は、ブリッジング言語や視覚要素に顕著な進歩を遂げてきた。 しかし、クローズドソースの性質と相当な計算要求は、普遍的な使用と修正に顕著な課題をもたらす。 そこでLLaVAやMiniGPT-4といったオープンソースのMLLMが登場し、タスク全体での画期的な成果が示されています。 これらの成果にもかかわらず、LLaVA-v1.5-13Bのような計算効率は未解決の問題のままである。 これらの問題に対処するため、我々はTinyGPT-Vを導入した。 トレーニングには24GのGPU、推論には8GのGPUまたはCPUが必要だ。 Phi-2上に構築されたTinyGPT-Vは、BLIP-2やCLIPから事前訓練された視覚モジュールと効果的な言語バックボーンを結合する。 TinyGPT-Vの2.8Bパラメータは、ローカルな配置と8Gデバイスでの推論タスクに適したユニークな量子化プロセスを実行することができる。 我々の研究は、コスト効率、効率、高性能なMLLMを設計するためのさらなる開発を奨励し、様々な現実のシナリオで適用範囲を広げる。 さらに,小型バックボーンを用いたマルチモーダル大規模言語モデルの新たなパラダイムを提案する。 コードとトレーニングの重みはそれぞれ、https://github.com/DLYuanGod/TinyGPT-Vとhttps://huggingface.co/Tyrannosaurus/TinyGPT-Vです。

In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.
翻訳日:2023-12-29 16:58:02 公開日:2023-12-28
# アンサンブルに基づくインタラクティブ模倣学習

Ensemble-based Interactive Imitation Learning ( http://arxiv.org/abs/2312.16860v1 )

ライセンス: Link先を確認
Yichen Li, Chicheng Zhang(参考訳) 本研究では,対話型模倣学習について検討し,学習者が行動アノテーションの実証的専門家に対話的に質問し,専門家と性能的に競合するポリシーを可能な限り少ないアノテーションで学習することを目的とした。 この目標を達成するためのアルゴリズムフレームワークとして,アンサンブルベースインタラクティブ模倣学習(eiil)を提案する。 理論的には、EIILのオラクル効率のよいバージョンは、状態上の「探索的」分布からサンプルにアクセスすると、鋭い後悔の保証が得られることを証明している。 経験上、eiilはオンラインおよびオフラインの模倣学習ベンチマークを連続制御タスクで上回っている。 本研究は,インタラクティブな模倣学習にモデルアンサンブルを用いることのメリットについて,体系的な調査を行う。

We study interactive imitation learning, where a learner interactively queries a demonstrating expert for action annotations, aiming to learn a policy that has performance competitive with the expert, using as few annotations as possible. We give an algorithmic framework named Ensemble-based Interactive Imitation Learning (EIIL) that achieves this goal. Theoretically, we prove that an oracle-efficient version of EIIL achieves sharp regret guarantee, given access to samples from some ``explorative'' distribution over states. Empirically, EIIL notably surpasses online and offline imitation learning benchmarks in continuous control tasks. Our work opens up systematic investigations on the benefit of using model ensembles for interactive imitation learning.
翻訳日:2023-12-29 16:57:38 公開日:2023-12-28
# スピン軌道x状態におけるディスコードの実験的検討

Experimental investigation of discord in spin-orbit X-states ( http://arxiv.org/abs/2312.16932v1 )

ライセンス: Link先を確認
V. S. Lamego, D.G. Braga, W. F. Balthazar, and J.A.O. Huguenin(参考訳) スピン軌道x状態と量子不一致の実験的検討を行う。 これらの状態は、physで提案されたように、2段階の系が偏光と一階のエルミート・ガウシアンモードで符号化される異なるレーザー豆の非一貫性な重ね合わせによって作成される。 A 103,0022411 (2022)。 偏光と一階横モードの自由度に関する全光学トモグラフィーを行うことにより、スピン軌道x状態の異なるクラスを特徴付ける。 また、スピン軌道モードの忠実性に対するディスコドの依存性についての研究を行い、ディスコドが非コヒーレントノイズに非常に敏感であることを明らかにした。 実験結果は, 忠実度の影響を考慮した量子音声の理論的予測と一致した。 これらの結果はスピン軌道モードを量子情報処理の重要なプラットフォームとして補強する。 一方で、量子情報プロトコルによって要求されるユニタリ操作を実装するための乱視光学要素の必要性は、忠実性と量子相関の損失を意味する。 スピン軌道モードを操作する別の方法が歓迎される。

We perform an experimental investigation of Quantum Discord with Spin-Orbit X-states. These states are prepared through the incoherent superposition of different laser beans, where a two-level system is encoded in polarization and the first-order Hermitian-Gaussian modes, as proposed in Phys. Rev. A 103,0022411 (2022). We characterize different classes of spin-orbit X-states by performing an all-optical tomography for polarization and first-order transverse mode degrees of freedom. We also perform a study on the dependence of Discord with respect to the Fidelity of spin-orbit modes, revealing that Discord is very sensitive to incoherent noise. Our experimental results align with the theoretical predictions of Quantum Discord when accounting for the effect of fidelity. These results reinforce the spin-orbit modes as an important platform for quantum information processing. On the other hand, the need of astigmatic optical elements to implement unitary operations required by quantum information protocols implies in a loss of fidelity and quantum correlations. Alternative methods to manipulate spin-orbit modes are welcome.
翻訳日:2023-12-29 16:50:56 公開日:2023-12-28
# DeLR:非結合なローカライゼーションと認識クエリによる検出のためのアクティブラーニング

DeLR: Active Learning for Detection with Decoupled Localization and Recognition Query ( http://arxiv.org/abs/2312.16931v1 )

ライセンス: Link先を確認
Yuhang Zhang, Yuang Deng, Xiaopeng Zhang, Jie Li, Robert C. Qiu, Qi Tian(参考訳) アクティブラーニングはラベリングコストを削減するために有効であることが証明されているが、ほとんどの進歩は画像認識のために設計されている。 本稿では,物体検出のための局所化と認識という2つの重要な要素を再考し,それらの正しさが極めて関連性があることを見出したので,トレーニングされたモデルに擬似アノテーションが付与された場合,ボックスとクラスの両方に注釈を付ける必要はない。 そこで本研究では,DLRと呼ばれる効率的なクエリ戦略を提案し,ローカル化とアクティブクエリの認識を分離する。 このようにして、ローカライゼーションが正しい場合にはクラスアノテーションが不要になり、より有益なサンプルのためにラベル付け予算を割り当てることができます。 DeLRには2つの大きな違いがある。 1) 従来の手法とは異なり、主に画像レベルのアノテーションに焦点を当てており、クエリされたサンプルが選択され、アノテートされる。 DeLRでは、クエリはリージョンレベルに基づいており、クエリされるオブジェクト領域のみを注釈付けします。 2) ローカライゼーションと認識アノテーションを直接提供する代わりに,2つのコンポーネントを個別にクエリし,モデルが提供する擬似クラスラベルによる認識予算を削減する。 いくつかのベンチマークの実験は、その優位性を示している。 提案するクエリ戦略が,オブジェクト検出におけるアクティブラーニングの研究に光を当ててくれることを願っています。

Active learning has been demonstrated effective to reduce labeling cost, while most progress has been designed for image recognition, there still lacks instance-level active learning for object detection. In this paper, we rethink two key components, i.e., localization and recognition, for object detection, and find that the correctness of them are highly related, therefore, it is not necessary to annotate both boxes and classes if we are given pseudo annotations provided with the trained model. Motivated by this, we propose an efficient query strategy, termed as DeLR, that Decoupling the Localization and Recognition for active query. In this way, we are probably free of class annotations when the localization is correct, and able to assign the labeling budget for more informative samples. There are two main differences in DeLR: 1) Unlike previous methods mostly focus on image-level annotations, where the queried samples are selected and exhausted annotated. In DeLR, the query is based on region-level, and we only annotate the object region that is queried; 2) Instead of directly providing both localization and recognition annotations, we separately query the two components, and thus reduce the recognition budget with the pseudo class labels provided by the model. Experiments on several benchmarks demonstrate its superiority. We hope our proposed query strategy would shed light on researches in active learning in object detection.
翻訳日:2023-12-29 16:50:38 公開日:2023-12-28
# カテゴリデータのエンコーディング: ワンホットのエンコーディングよりも"ホット"なコードはありますか?

Encoding categorical data: Is there yet anything 'hotter' than one-hot encoding? ( http://arxiv.org/abs/2312.16930v1 )

ライセンス: Link先を確認
Ekaterina Poslavskaya, Alexey Korolev(参考訳) カテゴリ的特徴は現実世界の問題の約40%に存在し、前処理コンポーネントとしてのエンコーディングの重要な役割を強調している。 近年の研究では、古典的標的非依存アプローチに対する様々なターゲットベースエンコーダの利点が報告されている。 しかし、これらの主張はいかなる統計分析にも支持されず、単一のデータセットまたは非常に小さく異質なデータセットのサンプルに基づいている。 本研究は,OpenMLリポジトリの分類問題の包括的サンプルにおける符号化効果について検討する。 実験データに線形混合効果モデルを適用し、タスクIDをランダムな効果として扱い、符号化方式とカテゴリ特徴の様々な特性を固定的な効果として扱う。 マルチクラスタスクでは、ワンホットエンコーディングとヘルマートコントラストがターゲットベースエンコーダよりも優れていた。 二項処理では符号化方式に有意な差はなかったが、一点符号化は結果にわずかに正の効果を示した。 重要なことに,エンコーディング方式とカテゴリの特徴との間に有意な相互作用は認められなかった。 これは、我々の発見が、ドメインをまたがる幅広い問題に一般化できることを示唆している。

Categorical features are present in about 40% of real world problems, highlighting the crucial role of encoding as a preprocessing component. Some recent studies have reported benefits of the various target-based encoders over classical target-agnostic approaches. However, these claims are not supported by any statistical analysis, and are based on a single dataset or a very small and heterogeneous sample of datasets. The present study explores the encoding effects in an exhaustive sample of classification problems from OpenML repository. We fitted linear mixed-effects models to the experimental data, treating task ID as a random effect, and the encoding scheme and the various characteristics of categorical features as fixed effects. We found that in multiclass tasks, one-hot encoding and Helmert contrast coding outperform target-based encoders. In binary tasks, there were no significant differences across the encoding schemes; however, one-hot encoding demonstrated a marginally positive effect on the outcome. Importantly, we found no significant interactions between the encoding schemes and the characteristics of categorical features. This suggests that our findings are generalizable to a wide variety of problems across domains.
翻訳日:2023-12-29 16:50:15 公開日:2023-12-28
# 大規模二部グラフの高速クラスタリング

Efficient High-Quality Clustering for Large Bipartite Graphs ( http://arxiv.org/abs/2312.16926v1 )

ライセンス: Link先を確認
Renchi Yang and Jieming Shi(参考訳) バイパルタイトグラフは、2つの非結合頂点セット間のセット間のエッジを含み、ユーザ・イテム購入記録、著者・アーティクルの出版物、薬物とタンパク質間の生物学的相互作用などの現実世界のデータモデリングに広く用いられている。 k-Bipartite Graph Clustering (k-BGC) は、2部グラフに設定されたターゲット頂点を k 個の非結合クラスタに分割する。 クラスタリングの品質は、ソーシャルネットワーク分析、レコメンデーションシステム、テキストマイニング、バイオインフォマティクスといった様々な応用において、k-BGCの有用性にとって重要である。 k-BGCに対する既存のアプローチは、頂点間の高次情報の不十分な利用による品質の損なわれたクラスタリング結果を出力するか、数十億のエッジを持つ巨大な二部グラフを処理できないかのいずれかである。 そこで本研究では,大規模二部グラフ上での最先端性能を実現する2つの効率的なk-BGCソリューションHOPEとHOPE+を提案する。 HOPEは,高次視点ベクトル(HOP)の概念に基づく新しいk-BGC問題定式化と,HOPベクトルの低ランク近似のための効率的な手法により,高いスケーラビリティと有効性を得る。 HOPE+ はさらに k-BGC の性能を他のレベルに高め、高効率な2段階最適化フレームワークである。 2つの変種 HOPE+ (FNEM) と HOPE+ (SNEM) は、変換においてフロベニウスノルムまたはスペクトルノルムが適用されるときに設計される。 HOPEとHOPE+を10の現実世界のデータセット上の13の競合と比較した大規模な実験では、私たちのソリューション、特にHOPE+は、結果の品質という点で既存の方法よりも優れているが、桁違いに高速である。 1.1億エッジを持つ最大のデータセットmagでは、ホープ+は31分以内にクラスタを生成できるが、k-bgcの既存のソリューションには一致しない。

A bipartite graph contains inter-set edges between two disjoint vertex sets, and is widely used to model real-world data, such as user-item purchase records, author-article publications, and biological interactions between drugs and proteins. k-Bipartite Graph Clustering (k-BGC) is to partition the target vertex set in a bipartite graph into k disjoint clusters. The clustering quality is important to the utility of k-BGC in various applications like social network analysis, recommendation systems, text mining, and bioinformatics, to name a few. Existing approaches to k-BGC either output clustering results with compromised quality due to inadequate exploitation of high-order information between vertices, or fail to handle sizable bipartite graphs with billions of edges. Motivated by this, this paper presents two efficient k-BGC solutions, HOPE and HOPE+, which achieve state-of-the-art performance on large-scale bipartite graphs. HOPE obtains high scalability and effectiveness through a new k-BGC problem formulation based on the novel notion of high-order perspective (HOP) vectors and an efficient technique for low-rank approximation of HOP vectors. HOPE+ further elevates the k-BGC performance to another level with a judicious problem transformation and a highly efficient two-stage optimization framework. Two variants, HOPE+ (FNEM) and HOPE+ (SNEM) are designed when either the Frobenius norm or spectral norm is applied in the transformation. Extensive experiments, comparing HOPE and HOPE+ against 13 competitors on 10 real-world datasets, exhibit that our solutions, especially HOPE+, are superior to existing methods in terms of result quality, while being up to orders of magnitude faster. On the largest dataset MAG with 1.1 billion edges, HOPE+ is able to produce clusters with the highest clustering accuracy within 31 minutes, which is unmatched by any existing solution for k-BGC.
翻訳日:2023-12-29 16:49:54 公開日:2023-12-28
# 中国名付きエンティティ認識のための統一格子グラフ融合

Unified Lattice Graph Fusion for Chinese Named Entity Recognition ( http://arxiv.org/abs/2312.16917v1 )

ライセンス: Link先を確認
Dixiang Zhang, Junyu Lu, Pingjian Zhang(参考訳) 文字レベルシーケンスへのレキシコンの統合は、中国語名付きエンティティ認識(ner)における単語境界と意味情報の活用に効果的であることが証明されている。 しかしながら、従来のアプローチでは、通常、単語情報を統合するために特徴重み付けと位置結合を用いるが、文字-単語空間におけるきめ細かい意味単位間の意味的および文脈的対応は無視する。 この問題を解決するために,中国NERのための統一格子グラフ融合(ULGF)手法を提案する。 ULGFは、格子構造を統一グラフに変換することにより、様々なセマンティックユニットと隣接行列との様々なセマンティックおよび境界関係を明示的に捉えることができる。 ノード表現を学習するために、複数のグラフベースのイントラソース自己アテンションと、反復的にセマンティックな相互作用を実行するソース間融合層を積み重ねる。 さらに,単語情報に対する過度な依存を軽減するために,辞書エンティティ分類を補助課題として活用することを提案する。 4つの中国のNERベンチマークデータセットの実験は、ULGFアプローチの優位性を実証している。

Integrating lexicon into character-level sequence has been proven effective to leverage word boundary and semantic information in Chinese named entity recognition (NER). However, prior approaches usually utilize feature weighting and position coupling to integrate word information, but ignore the semantic and contextual correspondence between the fine-grained semantic units in the character-word space. To solve this issue, we propose a Unified Lattice Graph Fusion (ULGF) approach for Chinese NER. ULGF can explicitly capture various semantic and boundary relations across different semantic units with the adjacency matrix by converting the lattice structure into a unified graph. We stack multiple graph-based intra-source self-attention and inter-source cross-gating fusion layers that iteratively carry out semantic interactions to learn node representations. To alleviate the over-reliance on word information, we further propose to leverage lexicon entity classification as an auxiliary task. Experiments on four Chinese NER benchmark datasets demonstrate the superiority of our ULGF approach.
翻訳日:2023-12-29 16:49:14 公開日:2023-12-28
# res-attn : 軽量注意機構を用いた強化res-tuningアプローチ

Res-Attn : An Enhanced Res-Tuning Approach with Lightweight Attention Mechanism ( http://arxiv.org/abs/2312.16916v1 )

ライセンス: Link先を確認
Chaojie Mao and Zeyinzi Jiang(参考訳) res-tuningはモデルチューニングのフレキシブルで効率的なパラダイムを導入し、バックボーンネットワークから分離されたチューナーが従来の方法に匹敵するパフォーマンスを達成できることを示した。 既存の手法では、チューナーをトレーニング可能な低ランク分解行列の集合として構築し、事前訓練された基礎モデルを新しいシナリオに適応するのに十分な低ランク部分空間を仮定する。 そこで本研究では,Res-Attn と呼ばれる低ランク注意を付加した高度で効率的なチューナーを提案する。 Res-Attnはクエリ、キー、値の低ランクプロジェクションを備えた並列マルチヘッドアテンションモジュールを使用して、合理化されたアテンション操作を実行する。 この軽量アテンションモジュールのトレーニングを通じて、Res-Attnは新しいシナリオへの適応を容易にする。 提案手法は,既存の代替手法と比較して優れた性能を示すため,様々な識別・生成タスクにわたる広範な実験を行った。

Res-Tuning introduces a flexible and efficient paradigm for model tuning, showing that tuners decoupled from the backbone network can achieve performance comparable to traditional methods. Existing methods commonly construct the tuner as a set of trainable low-rank decomposition matrices, positing that a low-rank subspace suffices for adapting pre-trained foundational models to new scenarios. In this work, we present an advanced, efficient tuner augmented with low-rank attention, termed Res-Attn , which also adheres to the Res-Tuning framework. Res-Attn utilizes a parallel multi-head attention module equipped with low-rank projections for query, key, and value to execute streamlined attention operations. Through training this lightweight attention module, Res-Attn facilitates adaptation to new scenarios. Our extensive experiments across a range of discriminative and generative tasks showcase the superior performance of our method when compared to existing alternatives
翻訳日:2023-12-29 16:48:56 公開日:2023-12-28
# 害虫画像識別のためのroi対応マルチスケールクロスタッチビジョントランスフォーマ

ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image Identification ( http://arxiv.org/abs/2312.16914v1 )

ライセンス: Link先を確認
Ga-Eun Kim, Chang-Hwan Son(参考訳) 撮像装置で捕獲された害虫は、画像全体に比べて比較的小さく、複雑な背景は害虫と類似した色とテクスチャを持ち、正確な特徴抽出を阻害し、害虫識別を困難にする。 害虫識別の鍵は、関心領域(ROI)を検出し、注意と差別的学習のためにそれらをより良いものに変換できるモデルを作成することである。 これらの問題に対処するため、マルチスケールのクロスアテンション融合によるROIの生成と更新、複雑なバックグラウンドやスケールの問題に対して高い堅牢性を実現する方法について検討する。 そこで我々は,新しいroi対応マルチスケールクロスアテンションビジョントランスフォーマ(roi-vit)を提案する。 提案されたroi-vitは、ペストイメージとroiマップの入力として異なる種類のマップを取るペストとroiブランチと呼ばれる2つのブランチを使用して設計されている。 このようなROIマップをレンダリングするために、ROIジェネレータはソフトセグメンテーションとクラスアクティベーションマップを使用して構築され、ROI-ViTバックボーンに統合される。 さらに、二重分岐では、補足的特徴融合とマルチスケール階層は、新しいマルチスケールのクロスアテンション融合によって実現される。 pestブランチからのクラストークンは、roiブランチからのパッチトークンと交換される。 実験の結果,提案したROI-ViTはIP102,D0,SauTegのペストデータセットに対して81.81%,99.64%,84.66%を達成し,MViT,PVT,DeiT,Swin-ViT,EfficientNetといった最先端(SOTA)モデルを上回る結果を得た。 さらに重要なことは、複雑な背景と小さなサイズの害虫画像のみを含む新しい挑戦的データセットIP102(CBSS)において、提案モデルは高い認識精度を維持することができる一方で、他のSOTAモデルのモデルは急激に減少し、我々のモデルは複雑な背景やスケール問題に対してより堅牢であることを示す。

The pests captured with imaging devices may be relatively small in size compared to the entire images, and complex backgrounds have colors and textures similar to those of the pests, which hinders accurate feature extraction and makes pest identification challenging. The key to pest identification is to create a model capable of detecting regions of interest (ROIs) and transforming them into better ones for attention and discriminative learning. To address these problems, we will study how to generate and update the ROIs via multiscale cross-attention fusion as well as how to be highly robust to complex backgrounds and scale problems. Therefore, we propose a novel ROI-aware multiscale cross-attention vision transformer (ROI-ViT). The proposed ROI-ViT is designed using dual branches, called Pest and ROI branches, which take different types of maps as input: Pest images and ROI maps. To render such ROI maps, ROI generators are built using soft segmentation and a class activation map and then integrated into the ROI-ViT backbone. Additionally, in the dual branch, complementary feature fusion and multiscale hierarchies are implemented via a novel multiscale cross-attention fusion. The class token from the Pest branch is exchanged with the patch tokens from the ROI branch, and vice versa. The experimental results show that the proposed ROI-ViT achieves 81.81%, 99.64%, and 84.66% for IP102, D0, and SauTeg pest datasets, respectively, outperforming state-of-the-art (SOTA) models, such as MViT, PVT, DeiT, Swin-ViT, and EfficientNet. More importantly, for the new challenging dataset IP102(CBSS) that contains only pest images with complex backgrounds and small sizes, the proposed model can maintain high recognition accuracy, whereas that of other SOTA models decrease sharply, demonstrating that our model is more robust to complex background and scale problems.
翻訳日:2023-12-29 16:48:39 公開日:2023-12-28
# doepatch: 反対パッチ生成のための動的最適化アンサンブルモデル

DOEPatch: Dynamically Optimized Ensemble Model for Adversarial Patches Generation ( http://arxiv.org/abs/2312.16907v1 )

ライセンス: Link先を確認
Wenyi Tan, Yang Li, Chenxing Zhao, Zhunga Liu, and Quan Pan(参考訳) オブジェクト検出は、自律運転からインテリジェントセキュリティシステムまで、さまざまなアプリケーションにおける基本的なタスクである。 しかし、衣服が注意深くデザインされた落書きパターンで飾られた場合、人物の認識が妨げられ、物体検出の失敗に繋がる。 未知のブラックボックスモデルに対する攻撃可能性を高めるためには、複数対象検出モデルの出力に影響を与える可能性のある逆パッチが必要である。 アンサンブルモデルは有効であることが証明されているが、オブジェクト検出の分野における最近の研究は、通常、全てのモデルの出力の単純な融合に焦点を当てており、物理的世界で効果的に機能する一般的な敵パッチの開発に限定された注意が向けられている。 本稿では,エネルギーの概念を紹介し,逆パッチ生成過程を逆パッチの最適化として扱うことで,'人'カテゴリー全体のエネルギーを最小化する。 さらに, 対人訓練の導入により, 動的に最適化されたアンサンブルモデルを構築した。 トレーニング中、攻撃対象モデルの重みパラメータを調整し、生成された対向パッチが全ての目標モデルに効果的に攻撃できるバランス点を求める。 我々は6つの比較実験を行い、本アルゴリズムを5つの主流物体検出モデルで検証した。 本アルゴリズムにより生成された逆パッチは, YOLOv2 と YOLOv3 の認識精度を 13.19\% と 29.20\% に低減することができる。 また,実世界の敵パッチで被覆されたtシャツの有効性をテストする実験を行い,物体検出モデルでは認識されないことを確認できた。 最後に,Grad-CAMツールを用いて,敵パッチの攻撃機構をエネルギー的観点から検討した。

Object detection is a fundamental task in various applications ranging from autonomous driving to intelligent security systems. However, recognition of a person can be hindered when their clothing is decorated with carefully designed graffiti patterns, leading to the failure of object detection. To achieve greater attack potential against unknown black-box models, adversarial patches capable of affecting the outputs of multiple-object detection models are required. While ensemble models have proven effective, current research in the field of object detection typically focuses on the simple fusion of the outputs of all models, with limited attention being given to developing general adversarial patches that can function effectively in the physical world. In this paper, we introduce the concept of energy and treat the adversarial patches generation process as an optimization of the adversarial patches to minimize the total energy of the ``person'' category. Additionally, by adopting adversarial training, we construct a dynamically optimized ensemble model. During training, the weight parameters of the attacked target models are adjusted to find the balance point at which the generated adversarial patches can effectively attack all target models. We carried out six sets of comparative experiments and tested our algorithm on five mainstream object detection models. The adversarial patches generated by our algorithm can reduce the recognition accuracy of YOLOv2 and YOLOv3 to 13.19\% and 29.20\%, respectively. In addition, we conducted experiments to test the effectiveness of T-shirts covered with our adversarial patches in the physical world and could achieve that people are not recognized by the object detection model. Finally, leveraging the Grad-CAM tool, we explored the attack mechanism of adversarial patches from an energetic perspective.
翻訳日:2023-12-29 16:47:58 公開日:2023-12-28
# 畳み込みニューラルネットワークの効率向上のためのブロックプルーニング

Block Pruning for Enhanced Efficiency in Convolutional Neural Networks ( http://arxiv.org/abs/2312.16904v1 )

ライセンス: Link先を確認
Cheng-En Wu, Azadeh Davoodi, Yu Hen Hu(参考訳) 本稿では,エッジコンピューティング環境におけるディープニューラルネットワークにおけるブロックプルーニングをターゲットとしたネットワークプルーニング手法を提案する。 提案手法は,プロキシメトリクスを利用した従来の手法と異なり,直接ブロック除去戦略を用いて分類精度への影響を評価する。 このハンズオンアプローチにより、各ブロックの重要性を正確に評価することができる。 resnetアーキテクチャを用いてcifar-10,cifar-100,imagenetデータセットの広範な実験を行った。 本研究では,特にimagenet with resnet50のような大規模データセットにおいて,ネットワークのかなりの部分を刈り取る場合でも,精度を維持しながらモデルサイズを小さくする効果を示した。 この結果は、特にリソース制約のあるエッジコンピューティングシナリオにおいて、モデルサイズとパフォーマンスの最適なバランスを維持するための手法の能力を強調する。

This paper presents a novel approach to network pruning, targeting block pruning in deep neural networks for edge computing environments. Our method diverges from traditional techniques that utilize proxy metrics, instead employing a direct block removal strategy to assess the impact on classification accuracy. This hands-on approach allows for an accurate evaluation of each block's importance. We conducted extensive experiments on CIFAR-10, CIFAR-100, and ImageNet datasets using ResNet architectures. Our results demonstrate the efficacy of our method, particularly on large-scale datasets like ImageNet with ResNet50, where it excelled in reducing model size while retaining high accuracy, even when pruning a significant portion of the network. The findings underscore our method's capability in maintaining an optimal balance between model size and performance, especially in resource-constrained edge computing scenarios.
翻訳日:2023-12-29 16:47:31 公開日:2023-12-28
# spike no more: 大きな言語モデルの事前学習の安定化

Spike No More: Stabilizing the Pre-training of Large Language Models ( http://arxiv.org/abs/2312.16903v1 )

ライセンス: Link先を確認
Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki(参考訳) ロススパイクは、しばしば大きな言語モデルの事前トレーニング中に発生する。 スパイクは大きな言語モデルのパフォーマンスを低下させ、時には事前トレーニングを台無しにする。 事前トレーニングには膨大な計算予算が必要ですから,そのようなスパイクは避けるべきです。 損失スパイクの原因を明らかにするため,本研究では内部層の勾配に着目した。 理論的解析により, 爆発勾配の2つの原因を紹介し, 爆発防止の要件を提示する。 さらに,初期化法と組込みへの簡単な修正の組み合わせを,要件を満たす方法として導入する。 我々は理論解析を実証的に検証するために様々な実験を行う。 実験の結果,前訓練時のスパイク防止に有効であった。

The loss spike often occurs during pre-training of a large language model. The spikes degrade the performance of a large language model, and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. To investigate a cause of loss spikes, we focus on gradients of internal layers in this study. Through theoretical analyses, we introduce two causes of the exploding gradients, and provide requirements to prevent the explosion. In addition, we introduce the combination of the initialization method and a simple modification to embeddings as a method to satisfy the requirements. We conduct various experiments to verify our theoretical analyses empirically. Experimental results indicate that the combination is effective in preventing spikes during pre-training.
翻訳日:2023-12-29 16:47:18 公開日:2023-12-28
# 階層型自己蒸留による散乱点雲理解のための共同学習

Joint Learning for Scattered Point Cloud Understanding with Hierarchical Self-Distillation ( http://arxiv.org/abs/2312.16902v1 )

ライセンス: Link先を確認
Kaiyue Zhou, Ming Dong, Peiyuan Zhi, Shengjin Wang(参考訳) 多くのポイントクラウド理解技術は、エンティティ全体に焦点を当て、満足な結果と限られた空間耐性を得ることに成功した。 しかし、これらの手法は一般に欠陥や大きなギャップでスキャンされる不完全点雲に敏感である。 この問題に対処するため,本論文では,部分点雲をその場で補償し同定するエンドツーエンドアーキテクチャを提案する。 まず,上流ネットワークと下流ネットワークを同時統合し,タスク指向下流ネットワークにおいて,完了指向上流が生成するポイントを識別可能なカスケードソリューションを提案する。 これら2つのストリームは互いに補完し、完了と下流依存のタスクの両方のパフォーマンスが向上した。 第2に,予測点パターンを明確に理解するために,階層型自己蒸留(HSD)を導入し,任意の階層ベースの点クラウド手法に適用する。 HSDは、より広い知覚場と長いコード長を持つ最深部分類器が、単にマルチスケールの特徴を集約するのではなく、中間部へのさらなる正規化を提供することを保証する。 情報ボトルネックの原理に基づき,超空間における自己蒸留プロセスの利点を示す。 分類タスクにおいて,提案手法は合成データセット上で競争的に動作し,最先端モデルと比較して実世界ベンチマークにおいて優れた結果を得る。 その他の実験では、部分分割タスクにおけるフレームワークのパフォーマンスと汎用性も示しています。

Numerous point-cloud understanding techniques focus on whole entities and have succeeded in obtaining satisfactory results and limited sparsity tolerance. However, these methods are generally sensitive to incomplete point clouds that are scanned with flaws or large gaps. To address this issue, in this paper, we propose an end-to-end architecture that compensates for and identifies partial point clouds on the fly. First, we propose a cascaded solution that integrates both the upstream and downstream networks simultaneously, allowing the task-oriented downstream to identify the points generated by the completion-oriented upstream. These two streams complement each other, resulting in improved performance for both completion and downstream-dependent tasks. Second, to explicitly understand the predicted points' pattern, we introduce hierarchical self-distillation (HSD), which can be applied to arbitrary hierarchy-based point cloud methods. HSD ensures that the deepest classifier with a larger perceptual field and longer code length provides additional regularization to intermediate ones rather than simply aggregating the multi-scale features, and therefore maximizing the mutual information between a teacher and students. We show the advantage of the self-distillation process in the hyperspaces based on the information bottleneck principle. On the classification task, our proposed method performs competitively on the synthetic dataset and achieves superior results on the challenging real-world benchmark when compared to the state-of-the-art models. Additional experiments also demonstrate the superior performance and generality of our framework on the part segmentation task.
翻訳日:2023-12-29 16:47:08 公開日:2023-12-28
# 2組断面積探索のための量子アルゴリズム

Quantum Algorithm for Searching of Two Sets Intersection ( http://arxiv.org/abs/2312.16897v1 )

ライセンス: Link先を確認
Kamil Khadiev, Elizaveta Krendeleva(参考訳) 本稿では,2つの集合断面積問題について検討する。 n 個の対象の部分集合である 2 つの集合があると仮定する。 集合は、これらの集合に属する n 個のオブジェクトのどれかを示す2つの述語によって表される。 2つの集合の交叉から1つの要素を見つける量子アルゴリズムを提案する。 これは有名なGroverの検索アルゴリズムの修正であり、2つのOracleを使って述語にアクセスしている。 このアルゴリズムはGroverの検索の単純な適用よりも高速である。

In the paper, we investigate Two Sets Intersection problem. Assume that we have two sets that are subsets of n objects. Sets are presented by two predicates that show which of n objects belong to these sets. We present a quantum algorithm that finds an element from the two sets intersection. It is a modification of the well-known Grover's search algorithm that uses two Oracles with access to the predicates. The algorithm is faster than the naive application of Grover's search.
翻訳日:2023-12-29 16:46:45 公開日:2023-12-28
# 複製防止バンド機構の設計

Replication-proof Bandit Mechanism Design ( http://arxiv.org/abs/2312.16896v1 )

ライセンス: Link先を確認
Seyed Esmaeili, MohammadTaghi Hajiaghayi, Suho Shin(参考訳) エージェントが自分の腕を戦略的に登録したり複製したりする際に、複製防止バンディット機構を設計する際の課題について検討する。 我々は,自分たちの腕の平均報酬の実現を意識していないベイジアンエージェントを考察し,shin et al. (2022) のベイジアン拡張を初めて研究した。 この拡張は、S Shin et al. (2022) による完全インフォームド・セッティングとは対照的に、平衡解析において重要な課題を示しており、各エージェントが単一のアームしか持たないケースに還元される。 ベイズエージェントでは、単一エージェントの設定であっても、アルゴリズムの複製耐性を解析することが複雑になる。 H-UCB の定義した Shin et al. (2022) が提案したアルゴリズムは、探索パラメータに対してもはや複製耐性がないことを示す。 そして,単一エージェント設定において,アルゴリズムが複製耐性を持つための十分かつ必要な条件を提供する。 これらの結果は、いくつかの分析結果を中心に、独立した関心を持つ複数のbanditインスタンスの期待された後悔を比較する。 さらに、ETCアルゴリズムがこれらの特性を満たすことを証明しているが、UCBはそうではない。 この結果をマルチエージェント設定に拡張し、任意の問題に対してレプリケーション耐性アルゴリズムを提供する。 この証明は、主に単一エージェントの結果と、etのいくつかの構造的性質と、リスタートリングラウンドの新規導入に依存している。 我々は,H-UCBと一致するサブ線形後悔上限を証明し,その結果を確定する。

We study a problem of designing replication-proof bandit mechanisms when agents strategically register or replicate their own arms to maximize their payoff. We consider Bayesian agents who are unaware of ex-post realization of their own arms' mean rewards, which is the first to study Bayesian extension of Shin et al. (2022). This extension presents significant challenges in analyzing equilibrium, in contrast to the fully-informed setting by Shin et al. (2022) under which the problem simply reduces to a case where each agent only has a single arm. With Bayesian agents, even in a single-agent setting, analyzing the replication-proofness of an algorithm becomes complicated. Remarkably, we first show that the algorithm proposed by Shin et al. (2022), defined H-UCB, is no longer replication-proof for any exploration parameters. Then, we provide sufficient and necessary conditions for an algorithm to be replication-proof in the single-agent setting. These results centers around several analytical results in comparing the expected regret of multiple bandit instances, which might be of independent interest. We further prove that exploration-then-commit (ETC) algorithm satisfies these properties, whereas UCB does not, which in fact leads to the failure of being replication-proof. We expand this result to multi-agent setting, and provide a replication-proof algorithm for any problem instance. The proof mainly relies on the single-agent result, as well as some structural properties of ETC and the novel introduction of a restarting round, which largely simplifies the analysis while maintaining the regret unchanged (up to polylogarithmic factor). We finalize our result by proving its sublinear regret upper bound, which matches that of H-UCB.
翻訳日:2023-12-29 16:46:39 公開日:2023-12-28
# RLPlanner:高速熱分析によるチップレットの強化学習に基づくフロアプランニング

RLPlanner: Reinforcement Learning based Floorplanning for Chiplets with Fast Thermal Analysis ( http://arxiv.org/abs/2312.16895v1 )

ライセンス: Link先を確認
Yuanyuan Duan, Xingchen Liu, Zhiping Yu, Hanming Wu, Leilai Shao and Xiaolei Zhu(参考訳) チップレットベースのシステムは、コストの低さと競争力の面から近年大きな注目を集めている。 チップレットベースのシステムの複雑さとコンパクト性が増すにつれて、床計画段階でのマイクロポンプの割り当て、インターコネクト遅延、熱限界について慎重に検討する必要がある。 本稿では,新しい高速熱評価法により,チップレット系システムのための効率的な初期フロアプランニングツール RLPlanner を紹介する。 RLPlannerは、全線長と温度を共同で最小化するために高度な強化学習を採用している。 時間を要する熱計算を緩和するため、RLPlannerは開発した高速熱評価手法を採用し、イテレーションと最適化を高速化する。 総合実験により,提案した高速熱評価法は0.25Kの平均絶対誤差(MAE)を達成し,オープンソースの熱分解器HotSpotと比較して120倍以上のスピードアップを実現することが示された。 RLPlannerは, 高速熱評価法と一体化した場合, 目標目標(線長と温度の組み合わせ)を, 従来の模擬熱処理法とHotSpotとの比較で比較し, 平均20.28\%向上する。

Chiplet-based systems have gained significant attention in recent years due to their low cost and competitive performance. As the complexity and compactness of a chiplet-based system increase, careful consideration must be given to microbump assignments, interconnect delays, and thermal limitations during the floorplanning stage. This paper introduces RLPlanner, an efficient early-stage floorplanning tool for chiplet-based systems with a novel fast thermal evaluation method. RLPlanner employs advanced reinforcement learning to jointly minimize total wirelength and temperature. To alleviate the time-consuming thermal calculations, RLPlanner incorporates the developed fast thermal evaluation method to expedite the iterations and optimizations. Comprehensive experiments demonstrate that our proposed fast thermal evaluation method achieves a mean absolute error (MAE) of 0.25 K and delivers over 120x speed-up compared to the open-source thermal solver HotSpot. When integrated with our fast thermal evaluation method, RLPlanner achieves an average improvement of 20.28\% in minimizing the target objective (a combination of wirelength and temperature), within a similar running time, compared to the classic simulated annealing method with HotSpot.
翻訳日:2023-12-29 16:46:06 公開日:2023-12-28
# chaurah: スマートなraspberry piベースの駐車システム

Chaurah: A Smart Raspberry Pi based Parking System ( http://arxiv.org/abs/2312.16894v1 )

ライセンス: Link先を確認
Soumya Ranjan Choudhaury, Aditya Narendra, Ashutosh Mishra and Ipsit Misra(参考訳) 自動車やその他の大型の大型車両の広範な利用は、効果的な駐車インフラの開発を必要としている。 さらに、ナンバープレートの検出と認識のためのアルゴリズムは、標準化されたプレートサイズとフォントが強制される世界中の自動車を識別するためによく使われ、認識は手間のかかる作業である。 その結果、両方のデータを組み合わせることで、自動ナンバープレート認識(anpr)技術に焦点を当てたインテリジェント駐車システムを開発することができる。 入力されたナンバープレート画像から文字を取得することは、コストのかかる手続きであるANPRの唯一の目的である。 本稿では,駐車施設用に特別に開発されたraspberry pi 3に依存する,最小コストのanprシステムであるchaurahを提案する。 このシステムは2段階の手法を採用し、第1段階は2つの畳み込みニューラルネットワーク(cnns)を使用するanprシステムである。 プライマリは、車両画像からナンバープレートを特定し認識し、セカンダリは、ナンバープレートから個別番号を識別する光学文字認識(OCR)を行う。 flutterとfirebaseで構築されたデータベース管理とライセンスプレートの比較のためのアプリケーションは、ソリューション全体の第2のコンポーネントを構成する。 このアプリケーションは、パーキング期間に基づいて請求機構のユーザインターフェースとしても機能し、その結果、研究の全領域にソフトウェアが展開される。

The widespread usage of cars and other large, heavy vehicles necessitates the development of an effective parking infrastructure. Additionally, algorithms for detection and recognition of number plates are often used to identify automobiles all around the world where standardized plate sizes and fonts are enforced, making recognition an effortless task. As a result, both kinds of data can be combined to develop an intelligent parking system focuses on the technology of Automatic Number Plate Recognition (ANPR). Retrieving characters from an inputted number plate image is the sole purpose of ANPR which is a costly procedure. In this article, we propose Chaurah, a minimal cost ANPR system that relies on a Raspberry Pi 3 that was specifically created for parking facilities. The system employs a dual-stage methodology, with the first stage being an ANPR system which makes use of two convolutional neural networks (CNNs). The primary locates and recognises license plates from a vehicle image, while the secondary performs Optical Character Recognition (OCR) to identify individualized numbers from the number plate. An application built with Flutter and Firebase for database administration and license plate record comparison makes up the second component of the overall solution. The application also acts as an user-interface for the billing mechanism based on parking time duration resulting in an all-encompassing software deployment of the study.
翻訳日:2023-12-29 16:45:44 公開日:2023-12-28
# 近似量子誤差補正条件の枠組みによる誤差閾値の抽出

Extracting Error Thresholds through the Framework of Approximate Quantum Error Correction Condition ( http://arxiv.org/abs/2312.16991v1 )

ライセンス: Link先を確認
Yuanchen Zhao, Dong E. Liu(参考訳) 物理ノイズに対する量子メモリのロバスト性は、誤差回復性に対する正確で近似的な量子エラー補正(QEC)条件と、論理誤差率がシステムサイズで減少するかどうかを評価するデコーダ依存誤差閾値の2つの方法によって測定される。 ここでは、それらの関係を解明し、近似qec条件から本質的エラー閾値を抽出するための統一フレームワークを提案する。 本証明は, 相対エントロピーが漸近的回復可能性から回復不可能性への遷移を表わす順序パラメータとして有効であることを示す。 そこで我々は,QEC符号の正確かつ近似的な誤差閾値を決定するための統一的なフレームワークを構築し,ノイズチャネルやコード空間の不完全性から発生する誤りに対処する。 これにより、様々なQECコードとエラーモデル間のエラーしきい値の理解が深まる。

The robustness of quantum memory against physical noises is measured by two methods: the exact and approximate quantum error correction (QEC) conditions for error recoverability, and the decoder-dependent error threshold which assesses if the logical error rate diminishes with system size. Here we unravel their relations and propose a unified framework to extract an intrinsic error threshold from the approximate QEC condition, which could upper bound other decoder-dependent error thresholds. Our proof establishes that relative entropy, effectively measuring deviations from exact QEC conditions, serves as the order parameter delineating the transition from asymptotic recoverability to unrecoverability. Consequently, we establish a unified framework for determining the error threshold across both exact and approximate QEC codes, addressing errors originating from noise channels as well as those from code space imperfections. This result sharpens our comprehension of error thresholds across diverse QEC codes and error models.
翻訳日:2023-12-29 16:33:25 公開日:2023-12-28
# 非線形量子ビットモードの環境からの効率的な分離

Efficient decoupling of a non-linear qubit mode from its environment ( http://arxiv.org/abs/2312.16988v1 )

ライセンス: Link先を確認
Frederik Pfeiffer, Max Werninghaus, Christian Schweizer, Niklas Bruckmoser, Leon Koch, Niklas J. Glaser, Gerhard Huber, David Bunch, Franz X. Haslbeck, M. Knudsen, Gleb Krylov, Klaus Liegener, Achim Marx, Lea Richard, Jo\~ao H. Romeiro, Federico Roy, Johannes Schirk, Christian Schneider, Malay Singh, Lasse S\"odergren, Ivan Tsitsilin, Florian Wallner, Carlos A. Riofr\'io, Stefan Filipp(参考訳) 量子系の状態を制御し、測定するには、必ずしも外部自由度に結合する必要がある。 これは必然的に、パーセル効果、光子による測定バックアクションの抑制、近傍の量子系との望ましくない相互作用によるエラーによって自発的に放出される。 この根本的な課題に取り組むために、超伝導量子回路の設計柔軟性を利用して、対称性保護モードを持つ多モード素子(人工分子)を形成する。 提案された回路は、ジョセフソン接合を介して中央島に結合した3つの超伝導島からなる。 2つの重要な非線形モードがあり、そのうちの1つはフラックスに敏感であり、保護された量子ビットモードとして使用される。 第2モードはフラックス可変であり、クビットモードとリードアウト共振器との分散結合を制御するメディエータとしてクロスカー型結合を介して機能する。 本研究では, 伝達分散結合に依存しない緩和時間を測定することで, キュービットモードのパーセル保護を実証する。 再生共振器からメディエータモードを復調する際に、光子による劣化により、量子ビットのコヒーレンスが制限されないことを示し、分散結合を低減する。 その結果、チューナブルな相互作用を持つ高度に保護された量子ビットは、スケーラブルな量子プロセッサアーキテクチャの基本構成要素として機能し、量子ビットのデコヒーレンスを強く抑制する。

To control and measure the state of a quantum system it must necessarily be coupled to external degrees of freedom. This inevitably leads to spontaneous emission via the Purcell effect, photon-induced dephasing from measurement back-action, and errors caused by unwanted interactions with nearby quantum systems. To tackle this fundamental challenge, we make use of the design flexibility of superconducting quantum circuits to form a multi-mode element -- an artificial molecule -- with symmetry-protected modes. The proposed circuit consists of three superconducting islands coupled to a central island via Josephson junctions. It exhibits two essential non-linear modes, one of which is flux-insensitive and used as the protected qubit mode. The second mode is flux-tunable and serves via a cross-Kerr type coupling as a mediator to control the dispersive coupling of the qubit mode to the readout resonator. We demonstrate the Purcell protection of the qubit mode by measuring relaxation times that are independent of the mediated dispersive coupling. We show that the coherence of the qubit is not limited by photon-induced dephasing when detuning the mediator mode from the readout resonator and thereby reducing the dispersive coupling. The resulting highly protected qubit with tunable interactions may serve as a basic building block of a scalable quantum processor architecture, in which qubit decoherence is strongly suppressed.
翻訳日:2023-12-29 16:32:39 公開日:2023-12-28
# U-Netによる圧縮電界ディスプレイの画質, 均一性, 計算精度の向上

Image Quality, Uniformity and Computation Improvement of Compressive Light Field Displays with U-Net ( http://arxiv.org/abs/2312.16987v1 )

ライセンス: Link先を確認
Chen Gao, Haifeng Li, Xu Liu, Xiaodi Tan(参考訳) 圧縮光場合成にU-Netモデルを適用する。 積み重ねたCNNと反復アルゴリズムに基づく手法と比較して、この手法は画像の品質、均一性、計算量の削減をもたらす。

We apply the U-Net model for compressive light field synthesis. Compared to methods based on stacked CNN and iterative algorithms, this method offers better image quality, uniformity and less computation.
翻訳日:2023-12-29 16:32:15 公開日:2023-12-28
# 量子力学における高性能ベイズ実験設計のためのモデル認識強化学習

Model-aware reinforcement learning for high-performance Bayesian experimental design in quantum metrology ( http://arxiv.org/abs/2312.16985v1 )

ライセンス: Link先を確認
Federico Belliardo, Fabio Zoratti, Florian Marquardt, Vittorio Giovannetti(参考訳) 量子センサーは、様々なパラメータにまたがる実験者による操作を可能にすることで、推定中に制御の柔軟性を提供する。 各センシングプラットフォームでは、センサーの精度を高めるために最適な制御をピンポイントする作業は依然として困難な作業である。 分析的なソリューションは手の届かないかもしれないが、機械学習は多くの興味あるシステム、特に現代のハードウェアの能力を考えると、有望な道のりを提供する。 粒子フィルタリングに基づくモデル認識強化学習(RL)とベイズ推定を組み合わせることで、量子距離論、推定、仮説テストにおいて幅広い問題を最適化できる汎用的な手法を導入している。 これを実現するためには,粒子フィルタの計測や再サンプリングなど,多くの非微分不可能な推定ステップをトレーニングプロセスに組み込むという課題に対処しなければならなかった。 モデル認識RLは勾配に基づく手法であり、実験のシミュレーションにおいて、センサーの精度の微分は自動微分(AD)によって得られる。 我々のアプローチは、ニューラルネットワークや他のエージェントを使用して、適応的でない戦略と適応的戦略の両方を最適化するのに適しています。 我々は,この手法をqsensoroptというPythonライブラリの形式で実装し,NVセンタ,フォトニック回路,光キャビティなど,関連する物理プラットフォーム用の既製のアプリケーションをいくつか提供する。 このライブラリは間もなくpypiでリリースされる。 この手法を活用し,実験設計における現在の最先端技術を超える多くの例で結果を得た。 モデル認識RLを利用したベイズ推定に加えて、フィッシャー情報に基づくクラム・ラオ境界の最小化のための最適制御を求めることもできる。

Quantum sensors offer control flexibility during estimation by allowing manipulation by the experimenter across various parameters. For each sensing platform, pinpointing the optimal controls to enhance the sensor's precision remains a challenging task. While an analytical solution might be out of reach, machine learning offers a promising avenue for many systems of interest, especially given the capabilities of contemporary hardware. We have introduced a versatile procedure capable of optimizing a wide range of problems in quantum metrology, estimation, and hypothesis testing by combining model-aware reinforcement learning (RL) with Bayesian estimation based on particle filtering. To achieve this, we had to address the challenge of incorporating the many non-differentiable steps of the estimation in the training process, such as measurements and the resampling of the particle filter. Model-aware RL is a gradient-based method, where the derivatives of the sensor's precision are obtained through automatic differentiation (AD) in the simulation of the experiment. Our approach is suitable for optimizing both non-adaptive and adaptive strategies, using neural networks or other agents. We provide an implementation of this technique in the form of a Python library called qsensoropt, alongside several pre-made applications for relevant physical platforms, namely NV centers, photonic circuits, and optical cavities. This library will be released soon on PyPI. Leveraging our method, we've achieved results for many examples that surpass the current state-of-the-art in experimental design. In addition to Bayesian estimation, leveraging model-aware RL, it is also possible to find optimal controls for the minimization of the Cram\'er-Rao bound, based on Fisher information.
翻訳日:2023-12-29 16:32:11 公開日:2023-12-28
# PG-LBO:擬似ラベルとガウス過程誘導による高次元ベイズ最適化

PG-LBO: Enhancing High-Dimensional Bayesian Optimization with Pseudo-Label and Gaussian Process Guidance ( http://arxiv.org/abs/2312.16983v1 )

ライセンス: Link先を確認
Taicai Chen, Yue Duan, Dong Li, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) 変分オートエンコーダに基づくベイズ最適化(VAE-BO)は,高次元構造最適化問題に対処する上で優れた性能を示した。 しかし、現在の主流の手法はラベルなしデータのプールを利用して潜在空間を構築する可能性を見落とし、ラベル付きデータを活用するための洗練されたモデルの設計に集中している。 ラベル付きデータの効果的な使用にもかかわらず、これらの手法は、しばしば余分なネットワーク構造、追加の手順を必要とし、計算の非効率をもたらす。 そこで本稿では,ラベル付きデータのガイダンスを用いてラベル付きデータを効果的に活用する手法を提案する。 具体的には、半教師付き学習から擬似ラベル付け手法を調整し、未ラベルデータ内に隠された最適化対象値の相対的な大きさを明らかにする。 本手法により,識別潜在空間の構築を促進するために,ラベル付きデータに適切なトレーニング重みを割り当てる。 さらに、ベイズ最適化におけるVAEエンコーダとガウスプロセス(GP)を統合深層学習プロセスとして扱い、ガウスプロセスガイダンスと呼ばれるラベル付きデータの直接利用を可能にする。 これにより、GP精度の向上という目標を直接かつ効果的に統合し、潜在空間の構築を導くことができる。 提案手法は,様々な最適化シナリオにおいて既存のvae-boアルゴリズムよりも優れていることを示す。 私たちのコードはhttps://github.com/TaicaiChen/PG-LBO.comで公開されます。

Variational Autoencoder based Bayesian Optimization (VAE-BO) has demonstrated its excellent performance in addressing high-dimensional structured optimization problems. However, current mainstream methods overlook the potential of utilizing a pool of unlabeled data to construct the latent space, while only concentrating on designing sophisticated models to leverage the labeled data. Despite their effective usage of labeled data, these methods often require extra network structures, additional procedure, resulting in computational inefficiency. To address this issue, we propose a novel method to effectively utilize unlabeled data with the guidance of labeled data. Specifically, we tailor the pseudo-labeling technique from semi-supervised learning to explicitly reveal the relative magnitudes of optimization objective values hidden within the unlabeled data. Based on this technique, we assign appropriate training weights to unlabeled data to enhance the construction of a discriminative latent space. Furthermore, we treat the VAE encoder and the Gaussian Process (GP) in Bayesian optimization as a unified deep kernel learning process, allowing the direct utilization of labeled data, which we term as Gaussian Process guidance. This directly and effectively integrates the goal of improving GP accuracy into the VAE training, thereby guiding the construction of the latent space. The extensive experiments demonstrate that our proposed method outperforms existing VAE-BO algorithms in various optimization scenarios. Our code will be published at https://github.com/TaicaiChen/PG-LBO.
翻訳日:2023-12-29 16:31:42 公開日:2023-12-28
# 3DTINC : 経時的非コントラスト学習による経時的OCTによる疾患進展予測

3DTINC: Time-Equivariant Non-Contrastive Learning for Predicting Disease Progression from Longitudinal OCTs ( http://arxiv.org/abs/2312.16980v1 )

ライセンス: Link先を確認
Taha Emre, Arunava Chakravarty, Antoine Rivail, Dmitrii Lachinov, Oliver Leingang, Sophie Riedl, Julia Mai, Hendrik P.N. Scholl, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, and Hrvoje Bogunovi\'c(参考訳) 自己教師付き学習(SSL)は、ディープラーニングモデルの効率性と有効性を改善するための強力な技術として登場した。 コントラスト法(Contrastive method)は、イメージの2つの拡張ビューの類似した表現を抽出するSSLの顕著なファミリーである。 しかし、最先端のコントラスト法では、3d医療画像に実用的でない自然画像のために設計された大きなバッチサイズと拡張が必要となる。 これらの制約に対処するために,非コントラスト学習に基づく新しい長手SSL方式である3DTINCを提案する。 3次元光コヒーレンストモグラフィ(OCT)ボリュームの摂動不変特性をOCT用に特別に設計した拡張を用いて学習するように設計されている。 異なるタイミングで取得した患者内スキャンから暗黙的に時間情報を学習する新しい非矛盾的類似性損失項を提案する。 本実験は, 加齢に伴う黄斑変性(AMD)などの網膜疾患の進行を予測する上で, この時間的情報は重要であることを示す。 3DTINCで事前トレーニングを行った後,網膜 OCT の2つの大規模縦断データセットを用いて,学習した表現と予後モデルを評価し,湿式AMD への変換を6ヶ月以内に予測した。 本研究は,縦断的ボリュームスキャンから疾患進展予測に有用な有意義な表現を学習する上で,それぞれの寄与成分が不可欠であることを示す。

Self-supervised learning (SSL) has emerged as a powerful technique for improving the efficiency and effectiveness of deep learning models. Contrastive methods are a prominent family of SSL that extract similar representations of two augmented views of an image while pushing away others in the representation space as negatives. However, the state-of-the-art contrastive methods require large batch sizes and augmentations designed for natural images that are impractical for 3D medical images. To address these limitations, we propose a new longitudinal SSL method, 3DTINC, based on non-contrastive learning. It is designed to learn perturbation-invariant features for 3D optical coherence tomography (OCT) volumes, using augmentations specifically designed for OCT. We introduce a new non-contrastive similarity loss term that learns temporal information implicitly from intra-patient scans acquired at different times. Our experiments show that this temporal information is crucial for predicting progression of retinal diseases, such as age-related macular degeneration (AMD). After pretraining with 3DTINC, we evaluated the learned representations and the prognostic models on two large-scale longitudinal datasets of retinal OCTs where we predict the conversion to wet-AMD within a six months interval. Our results demonstrate that each component of our contributions is crucial for learning meaningful representations useful in predicting disease progression from longitudinal volumetric scans.
翻訳日:2023-12-29 16:31:15 公開日:2023-12-28
# 自動コンテンツ分析のための少ないショット学習: ウクライナへの武器供給に関する議論における議論と主張の効率的なコーディング

Few-shot learning for automated content analysis: Efficient coding of arguments and claims in the debate on arms deliveries to Ukraine ( http://arxiv.org/abs/2312.16975v1 )

ライセンス: Link先を確認
Jonas Rieger, Kostiantyn Yanchenko, Mattes Ruckdeschel, Gerret von Nordheim, Katharina Kleinen-von K\"onigsl\"ow, Gregor Wiedemann(参考訳) 自然言語処理(nlp)の分野で開発されたトランスフォーマリン・ニューラル・ネットワークに基づく事前学習型言語モデル(plm)は、コミュニケーション科学、特に教師付き機械学習による大規模データセットにおける複雑な意味カテゴリーのコーディングにおいて、自動コンテンツ分析を改善する素晴らしい機会を提供する。 しかし、これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整PLMへのトレーニングデータ作成に必要な努力など、適用分野における手法の普及を妨げている。 本研究では,多言語トランスフォーマーモデルと,トランスフォーマーへのアダプタ拡張と,少数の学習方法を組み合わせて,これらの課題に対処する。 我々は,ウクライナへの武器輸送に関するドイツのニュース討論会において,クレームや議論を自動的に検出するためのコミュニケーション科学の現実的なユースケースについて,我々のアプローチを試している。 3つの実験において,(1)データ前処理戦略とモデル変種の評価,(2)異なる少数ショット学習手法の性能,(3)実験結果の妥当性,信頼性,再現性,再現性の観点から,各トレーニングセットサイズにおいて最適な設定がいかに優れているかを評価する。 提案する変換器アダプタとパターン利用学習の組み合わせは,完全微調整PLMに代わるパラメータ効率が高く,容易に共有可能な代替手段となる。 妥当性の点で同等に機能する一方で、全体としてはコミュニケーション研究における応用により良い特性を提供する。 結果は、特に数ショット設定において、ニアドメインデータセット上のタスクの事前調整が大幅な改善をもたらすことも示している。 さらに,この結果は,特定の著名人の視点からデータセットを偏らせるのに有用であることを示す。

Pre-trained language models (PLM) based on transformer neural networks developed in the field of natural language processing (NLP) offer great opportunities to improve automatic content analysis in communication science, especially for the coding of complex semantic categories in large datasets via supervised machine learning. However, three characteristics so far impeded the widespread adoption of the methods in the applying disciplines: the dominance of English language models in NLP research, the necessary computing resources, and the effort required to produce training data to fine-tune PLMs. In this study, we address these challenges by using a multilingual transformer model in combination with the adapter extension to transformers, and few-shot learning methods. We test our approach on a realistic use case from communication science to automatically detect claims and arguments together with their stance in the German news debate on arms deliveries to Ukraine. In three experiments, we evaluate (1) data preprocessing strategies and model variants for this task, (2) the performance of different few-shot learning methods, and (3) how well the best setup performs on varying training set sizes in terms of validity, reliability, replicability and reproducibility of the results. We find that our proposed combination of transformer adapters with pattern exploiting training provides a parameter-efficient and easily shareable alternative to fully fine-tuning PLMs. It performs on par in terms of validity, while overall, provides better properties for application in communication studies. The results also show that pre-fine-tuning for a task on a near-domain dataset leads to substantial improvement, in particular in the few-shot setting. Further, the results indicate that it is useful to bias the dataset away from the viewpoints of specific prominent individuals.
翻訳日:2023-12-29 16:30:47 公開日:2023-12-28
# ニューロファジーシステムを用いた心電図からの無血カリウム測定に向けて

Towards Bloodless Potassium Measurement from ECG using Neuro-Fuzzy Systems ( http://arxiv.org/abs/2312.16969v1 )

ライセンス: Link先を確認
Zeynab Samandari, Seyyedeh Fatemeh Molaeezadeh(参考訳) カリウム障害は一般的に無症候性で致死性があり、腎疾患や心臓病の患者に多い。 心電図(ECG)信号のモルフォロジーはカリウムイオンの変化に非常に敏感であるため、心電図は実験結果より先にジスカル血症を検出する可能性がある。 本稿では,心電図に基づくカリウム測定システムについて紹介する。 提案システムは3つの主要なステップからなる。 まず,心電図とカリウム測定の5分間隔でコホート選択とデータラベリングを行い,低カリウム血症,正常,高カルシウム血症の3つのラベルを定義した。 その後,特徴抽出と選択が行われた。 抽出した特徴は、RR間隔、PR間隔、QRS期間、QT間隔、QTc間隔、P軸、QRS軸、T軸、ACCIである。 Kruskal-Wallisテクニックは、特徴の重要性を評価し、差別的なものを選択するためにも使用された。 最後に,FCMクラスタリング(FCM-ANFIS)に基づくANFISモデルの設計を行った。 使用されるデータベースはECG-ViEW IIである。 その結果, 他の特徴と比較してT軸はカリウム濃度(P<0.01, r=0.62。 FCM-ANFISの絶対誤差は0.4+0.3mM、平均絶対パーセンテージ誤差(MAPE)は9.99%、r2乗値は0.74である。 その分類精度は85.71%である。 低カリウム血症と高カルシウム血症を検出する際、感度はそれぞれ60%と80%、特異度は100%と97.3%である。 この研究は、カリウム濃度を測定し、ジスカル血症を検出するため、非侵襲的な機器の設計に光を当てた。

Potassium disorders are generally asymptomatic, potentially lethal, and common in patients with renal or cardiac disease. The morphology of the electrocardiogram (ECG) signal is very sensitive to the changes in potassium ions, so ECG has a high potential for detecting dyskalemias before laboratory results. In this regard, this paper introduces a new system for ECG-based potassium measurement. The proposed system consists of three main steps. First, cohort selection & data labeling were carried out by using a 5- minute interval between ECGs and potassium measurements and defining three labels: hypokalemia, normal, and hyperkalemia. After that, feature extraction & selection were performed. The extracted features are RR interval, PR interval, QRS duration, QT interval, QTc interval, P axis, QRS axis, T axis, and ACCI. Kruskal-Wallis technique was also used to assess the importance of the features and to select discriminative ones. Finally, an ANFIS model based on FCM clustering (FCM-ANFIS) was designed based on the selected features. The used database is ECG-ViEW II. Results showed that T axis compared with other features has a significant relationship with potassium levels (P<0.01, r=0.62). The absolute error of FCM-ANFIS is 0.4+-0.3 mM, its mean absolute percentage error (MAPE) is 9.99%, and its r-squared value is 0.74. Its classification accuracy is 85.71%. In detecting hypokalemia and hyperkalemia, the sensitivities are 60% and 80%, respectively, and the specificities are 100% and 97.3%, respectively. This research has shed light on the design of noninvasive instruments to measure potassium concentration and to detect dyskalemias, thereby reducing cardiac events.
翻訳日:2023-12-29 16:30:17 公開日:2023-12-28
# Frugal Satellite Image Change Detectionのための強化型ディスプレイサイズ選択

Reinforcement-based Display-size Selection for Frugal Satellite Image Change Detection ( http://arxiv.org/abs/2312.16965v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) 本稿では,アクティブラーニングに基づくインタラクティブ衛星画像変化検出アルゴリズムを提案する。 提案手法は反復的であり、もっとも重要な画像のラベルについてユーザー(oracle)をゆるやかに調査し、oracleのアノテーションによると、変更検出結果を更新する。 まず、各未ラベルサンプルに対して、変更検出関数のトレーニングにおいて、そのサンプルがどの程度重要かをモデル化する関連度尺度を割り当てる確率的フレームワークを検討する。 多様性,表現性,不確実性を混合した目的関数を最小化することにより,これらの関連性対策を得る。 これらの基準を組み合わせることで、異なるデータモードの探索と変更検出の精査が可能になる。 次に,この目的関数の可能性について,インタラクティブ衛星画像変化検出実験を通じて示すように,多様性,表現性,不確実性,表示サイズを最良組み合わせた強化学習手法を考察し,さらにその可能性について考察する。

We introduce a novel interactive satellite image change detection algorithm based on active learning. The proposed method is iterative and consists in frugally probing the user (oracle) about the labels of the most critical images, and according to the oracle's annotations, it updates change detection results. First, we consider a probabilistic framework which assigns to each unlabeled sample a relevance measure modeling how critical is that sample when training change detection functions. We obtain these relevance measures by minimizing an objective function mixing diversity, representativity and uncertainty. These criteria when combined allow exploring different data modes and also refining change detections. Then, we further explore the potential of this objective function, by considering a reinforcement learning approach that finds the best combination of diversity, representativity and uncertainty as well as display-sizes through active learning iterations, leading to better generalization as shown through experiments in interactive satellite image change detection.
翻訳日:2023-12-29 16:29:45 公開日:2023-12-28
# FFCA-Net:サイド情報の高速カスケードアライメントによるステレオ画像圧縮

FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side Information ( http://arxiv.org/abs/2312.16963v1 )

ライセンス: Link先を確認
Yichong Xia, Yujun Huang, Bin Chen, Haoqian Wang, Yaowei Wang(参考訳) マルチビュー圧縮技術、特にステレオ画像圧縮(SIC)は、車載カメラや3D関連アプリケーションにおいて重要な役割を果たす。 興味深いことに、分散ソース符号化(DSC)理論は、独立符号化と共同復号によって相関ソースの効率的なデータ圧縮を実現することができることを示唆している。 これは近年急速に発展してきた分散SIC手法を動機付けている。 しかし、これらのアプローチはステレオ撮影タスクのユニークな特徴を無視し、高い復号遅延を引き起こす。 この制限に対処するために,デコーダの側情報を完全に活用する機能ベースの高速カスケードアライメントネットワーク(FFCA-Net)を提案する。 FFCAは粗大なカスケードアライメントアプローチを採用する。 最初の段階では、FFCAはステレオプリミティブに基づいたフィーチャードメインパッチマッチングモジュールを使用する。 このモジュールは、自明なマッチング手法の探索空間における冗長性を低減し、さらにノイズの導入を緩和する。 その後の段階では、時間ガラスを用いたスパースステレオリファインメントネットワークを用いて、画像間特徴を計算コストの削減とともに調整する。 さらに,FFF(Fast Feature Fusion Network)と呼ばれる軽量かつ高性能な機能融合ネットワークを考案し,その特徴をデコードした。 InStereo2K,KITTI,Cityscapesのデータセットによる実験結果から,従来のSIC手法よりもアプローチが優れていることが示された。 特に,提案手法は,他の手法よりも3倍から10倍高速な復号化を実現する。

Multi-view compression technology, especially Stereo Image Compression (SIC), plays a crucial role in car-mounted cameras and 3D-related applications. Interestingly, the Distributed Source Coding (DSC) theory suggests that efficient data compression of correlated sources can be achieved through independent encoding and joint decoding. This motivates the rapidly developed deep-distributed SIC methods in recent years. However, these approaches neglect the unique characteristics of stereo-imaging tasks and incur high decoding latency. To address this limitation, we propose a Feature-based Fast Cascade Alignment network (FFCA-Net) to fully leverage the side information on the decoder. FFCA adopts a coarse-to-fine cascaded alignment approach. In the initial stage, FFCA utilizes a feature domain patch-matching module based on stereo priors. This module reduces redundancy in the search space of trivial matching methods and further mitigates the introduction of noise. In the subsequent stage, we utilize an hourglass-based sparse stereo refinement network to further align inter-image features with a reduced computational cost. Furthermore, we have devised a lightweight yet high-performance feature fusion network, called a Fast Feature Fusion network (FFF), to decode the aligned features. Experimental results on InStereo2K, KITTI, and Cityscapes datasets demonstrate the significant superiority of our approach over traditional and learning-based SIC methods. In particular, our approach achieves significant gains in terms of 3 to 10-fold faster decoding speed than other methods.
翻訳日:2023-12-29 16:29:27 公開日:2023-12-28
# 実時間3次元近接場MIMOレーダイメージングのための効率的な物理ベース学習再構成法

Efficient Physics-Based Learned Reconstruction Methods for Real-Time 3D Near-Field MIMO Radar Imaging ( http://arxiv.org/abs/2312.16959v1 )

ライセンス: Link先を確認
Irfan Manisali, Okyanus Oral, Figen S. Oktem(参考訳) 近距離場多重出力多重出力(MIMO)レーダイメージングシステムは近年注目されている。 本稿では,実時間近接場MIMOイメージングのための非定位深層学習に基づく再構成手法を提案する。 目標は、圧縮設定で計算コストの低い高画質を実現することである。 開発アプローチには2つの段階がある。 第1のアプローチでは、物理ベースの初期ステージは、画像空間に測定をバックプロジェクションするために随伴演算を行い、ディープニューラルネットワーク(dnn)ベースの第2ステージは、3dバックプロジェクションされた測定をマグニチュードのみの反射率画像に変換する。 シーン反射率はしばしばランダム位相を持つため、DNNは随伴結果の規模を直接処理する。 DNNとして、3D U-Netはレンジとクロスレンジの相関を併用するために使用される。 学習ベースアプローチにおける物理活用の意義を比較評価するために、純粋学習ベース手法として、物理ベースの第1段階を完全連結層に置き換える2つの追加アプローチも開発されている。 また、DNNアーキテクチャを第2段階に変更して、複雑な処理(マグニチュードのみの処理ではなく)、2D畳み込みカーネル(3Dの代わりに)、ResNetアーキテクチャ(U-Netの代わりに)を含むように分析する。 さらに,3次元拡張目標を用いた大規模データセット生成のためのシンセサイザーを開発した。 実験データと広範囲なシミュレーションにより,その性能を示す。 その結果,高圧縮条件下での実行時間と画質の両面での学習的再構成手法の有効性が示された。 ソースコードとデータセットはGitHubで公開されています。

Near-field multiple-input multiple-output (MIMO) radar imaging systems have recently gained significant attention. In this paper, we develop novel non-iterative deep learning-based reconstruction methods for real-time near-field MIMO imaging. The goal is to achieve high image quality with low computational cost at compressive settings. The developed approaches have two stages. In the first approach, physics-based initial stage performs adjoint operation to back-project the measurements to the image-space, and deep neural network (DNN)-based second stage converts the 3D backprojected measurements to a magnitude-only reflectivity image. Since scene reflectivities often have random phase, DNN processes directly the magnitude of the adjoint result. As DNN, 3D U-Net is used to jointly exploit range and cross-range correlations. To comparatively evaluate the significance of exploiting physics in a learning-based approach, two additional approaches that replace the physics-based first stage with fully connected layers are also developed as purely learning-based methods. The performance is also analyzed by changing the DNN architecture for the second stage to include complex-valued processing (instead of magnitude-only processing), 2D convolution kernels (instead of 3D), and ResNet architecture (instead of U-Net). Moreover, we develop a synthesizer to generate large-scale dataset for training with 3D extended targets. We illustrate the performance through experimental data and extensive simulations. The results show the effectiveness of the developed physics-based learned reconstruction approach in terms of both run-time and image quality at highly compressive settings. Our source codes and dataset are made available at GitHub.
翻訳日:2023-12-29 16:29:02 公開日:2023-12-28
# 敵対的回避攻撃に対する攻撃木解析

Attack Tree Analysis for Adversarial Evasion Attacks ( http://arxiv.org/abs/2312.16957v1 )

ライセンス: Link先を確認
Yuki Yamaguchi and Toshiaki Aoki(参考訳) 近年,ディープラーニングの進化により,機械学習(ML)の様々なシステムへの応用が促進されている。 しかし、自動運転車のようなMLシステムは、それが誤分類された場合に重大なダメージを与える。 逆に、MLシステムの特徴に基づく敵攻撃と呼ばれるML固有の攻撃がある。 例えば、攻撃の1つのタイプは回避攻撃であり、意図的に分類器を誤分類するために"adversarial examples"と呼ばれる微小摂動を使用する。 したがって、MLベースシステムの導入において、ML固有の攻撃のリスクを分析する必要がある。 本研究では,攻撃木を用いた回避攻撃のリスクを定量的に評価する手法を提案する。 提案手法は,回避攻撃を解析するための従来の攻撃木の拡張と,拡張の体系的構築方法から構成される。 従来の攻撃木の拡張では、回避攻撃の様々な特徴を表現するためにMLと従来の攻撃ノードを導入する。 システム構築過程において,攻撃木を構築するための手順を提案する。 本手法は,(1)文献中の攻撃方法に関する情報をマトリックスに整理すること,(2)マトリックス内の手法から回避攻撃シナリオを識別すること,(3)パターンを用いて特定シナリオから攻撃ツリーを構築すること,の3段階からなる。 最後に,3つのML画像認識システムを用いて,提案手法の有効性と有効性を示す実験を行った。

Recently, the evolution of deep learning has promoted the application of machine learning (ML) to various systems. However, there are ML systems, such as autonomous vehicles, that cause critical damage when they misclassify. Conversely, there are ML-specific attacks called adversarial attacks based on the characteristics of ML systems. For example, one type of adversarial attack is an evasion attack, which uses minute perturbations called "adversarial examples" to intentionally misclassify classifiers. Therefore, it is necessary to analyze the risk of ML-specific attacks in introducing ML base systems. In this study, we propose a quantitative evaluation method for analyzing the risk of evasion attacks using attack trees. The proposed method consists of the extension of the conventional attack tree to analyze evasion attacks and the systematic construction method of the extension. In the extension of the conventional attack tree, we introduce ML and conventional attack nodes to represent various characteristics of evasion attacks. In the systematic construction process, we propose a procedure to construct the attack tree. The procedure consists of three steps: (1) organizing information about attack methods in the literature to a matrix, (2) identifying evasion attack scenarios from methods in the matrix, and (3) constructing the attack tree from the identified scenarios using a pattern. Finally, we conducted experiments on three ML image recognition systems to demonstrate the versatility and effectiveness of our proposed method.
翻訳日:2023-12-29 16:28:34 公開日:2023-12-28
# SAR-Net:グローバル情報融合によるマルチスケール指向型SARネットワーク

SAR-Net: Multi-scale Direction-aware SAR Network via Global Information Fusion ( http://arxiv.org/abs/2312.16943v1 )

ライセンス: Link先を確認
Mingxiang Cao, Jie Lei, Weiying Xie, Jiaqing Zhang, Daixun Li and Yunsong Li(参考訳) ディープラーニングは、SAR(Synthetic Aperture Radar)画像を用いた物体検出において大きな進歩をもたらした。 既存の手法は、有望な結果を達成する一方で、ローカルおよびグローバルな情報、特に方向対応の機能の効果的な統合に苦慮することが多い。 本稿では,SARオブジェクト検出における方向認識情報のグローバルな融合を目的とした新しいフレームワークであるSAR-Netを提案する。 SAR-Netは、UCM(Unity Compensation Mechanism)とDAM(Direction-aware Attention Module)という2つの重要なイノベーションを活用している。 UCMは、様々な規模の機能間の補完関係の確立を促進し、効率的なグローバル情報融合を可能にする。 このうち、マルチスケールアライメントモジュール(MAM)とMFM(Multi-level Fusion Module)は、テクスチャの詳細とセマンティック情報の両方をキャプチャすることで機能統合を強化する。 次に、MEM(Multi-feature Embedding Module)は、グローバルな機能をプライマリブランチにフィードバックし、情報伝達をさらに改善する。 さらに、双方向の注意重合により方向認識情報をキャプチャし、背景干渉を効果的に排除する。 広範囲にわたる実験は、SAR-Netの有効性を実証し、航空機(SAR-AIRcraft-1.0)と船舶データセット(SSDD, HRSID)に対して最先端の結果を達成し、その一般化能力と堅牢性を確認した。

Deep learning has driven significant progress in object detection using Synthetic Aperture Radar (SAR) imagery. Existing methods, while achieving promising results, often struggle to effectively integrate local and global information, particularly direction-aware features. This paper proposes SAR-Net, a novel framework specifically designed for global fusion of direction-aware information in SAR object detection. SAR-Net leverages two key innovations: the Unity Compensation Mechanism (UCM) and the Direction-aware Attention Module (DAM). UCM facilitates the establishment of complementary relationships among features across different scales, enabling efficient global information fusion. Among them, Multi-scale Alignment Module (MAM) and distinct Multi-level Fusion Module (MFM) enhance feature integration by capturing both texture detail and semantic information. Then, Multi-feature Embedding Module (MEM) feeds back global features into the primary branches, further improving information transmission. Additionally, DAM, through bidirectional attention polymerization, captures direction-aware information, effectively eliminating background interference. Extensive experiments demonstrate the effectiveness of SAR-Net, achieving state-of-the-art results on aircraft (SAR-AIRcraft-1.0) and ship datasets (SSDD, HRSID), confirming its generalization capability and robustness.
翻訳日:2023-12-29 16:28:12 公開日:2023-12-28
# 不完全時系列からのジョイント信号回復とグラフ学習

Joint Signal Recovery and Graph Learning from Incomplete Time-Series ( http://arxiv.org/abs/2312.16940v1 )

ライセンス: Link先を確認
Amirhossein Javaheri, Arash Amini, Farokh Marvasti, Daniel P. Palomar(参考訳) データからグラフを学ぶことが、グラフ信号処理ツールを活用する鍵となります。 グラフ学習の従来のアルゴリズムのほとんどは、完全なデータ統計を必要とするが、いくつかのシナリオでは利用できない。 本研究では,不完全な時系列観測からグラフを学習することを目的とする。 別の観点からは、基礎となるグラフモデルが未知である時変グラフ信号の半盲回復の問題を考える。 本稿では,不完全データからの信号とグラフの同時推定のためのブロック逐次上界最小化法(bsum)に基づくアルゴリズムを提案する。 合成および実時間時系列のシミュレーション結果から,提案するグラフ学習法と信号復元法の性能を示す。

Learning a graph from data is the key to taking advantage of graph signal processing tools. Most of the conventional algorithms for graph learning require complete data statistics, which might not be available in some scenarios. In this work, we aim to learn a graph from incomplete time-series observations. From another viewpoint, we consider the problem of semi-blind recovery of time-varying graph signals where the underlying graph model is unknown. We propose an algorithm based on the method of block successive upperbound minimization (BSUM), for simultaneous inference of the signal and the graph from incomplete data. Simulation results on synthetic and real time-series demonstrate the performance of the proposed method for graph learning and signal recovery.
翻訳日:2023-12-29 16:27:44 公開日:2023-12-28
# evplug: イベントとイメージ融合のためのプラグアンドプレイモジュールを学習する

EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion ( http://arxiv.org/abs/2312.16933v1 )

ライセンス: Link先を確認
Jianping Jiang, Xinyu Zhou, Peiqi Duan, Boxin Shi(参考訳) イベントカメラとrgbカメラは、高ダイナミックレンジ(hdr)と高時間分解能を持ち、後者は豊かなテクスチャとカラー情報を提供する。 これにより、イベントカメラを中高レベルのRGBベースのビジョンタスクに統合することが可能になる。 しかし、マルチモーダル融合、データアノテーション、モデルアーキテクチャ設計において課題が発生する。 本稿では,既存のrgbベースモデルの監督から,プラグイン・アンド・プレイイベントとイメージ融合モジュールを学習するevplugを提案する。 学習した融合モジュールは、イベントストリームとプラグインの形式での画像特徴を統合し、高時間分解能推論を可能にしながら、RGBベースのモデルがHDRおよび高速モーションシーンに対して堅牢であるようにする。 本手法では,ラベルなしのイベント画像対(画素単位のアライメントを必要とせず)のみが必要であり,rgbモデルの構造や重みは変更しない。 オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおけるEvPlugの優位性を示す。

Event cameras and RGB cameras exhibit complementary characteristics in imaging: the former possesses high dynamic range (HDR) and high temporal resolution, while the latter provides rich texture and color information. This makes the integration of event cameras into middle- and high-level RGB-based vision tasks highly promising. However, challenges arise in multi-modal fusion, data annotation, and model architecture design. In this paper, we propose EvPlug, which learns a plug-and-play event and image fusion module from the supervision of the existing RGB-based model. The learned fusion module integrates event streams with image features in the form of a plug-in, endowing the RGB-based model to be robust to HDR and fast motion scenes while enabling high temporal resolution inference. Our method only requires unlabeled event-image pairs (no pixel-wise alignment required) and does not alter the structure or weights of the RGB-based model. We demonstrate the superiority of EvPlug in several vision tasks such as object detection, semantic segmentation, and 3D hand pose estimation
翻訳日:2023-12-29 16:27:35 公開日:2023-12-28
# マルチモーダルデータを用いたAIによる道路ネットワーク予測

AI Powered Road Network Prediction with Multi-Modal Data ( http://arxiv.org/abs/2312.17040v1 )

ライセンス: Link先を確認
Necip Enes Gengec, Ergin Tari, Ulas Bagci(参考訳) 本研究では,低解像度衛星画像とGPSトラジェクトリデータの両方を利用する融合戦略を用いて,ディープラーニングを用いた道路自動検出の革新的な手法を提案する。 我々は,早期と後期の融合戦略を精査し,異なる融合設定を用いて深層学習に基づく道路検出性能を評価する。 本研究は,多様なモデルアーキテクチャ,損失関数,地理的領域(イスタンブールとモントリオール)におけるフレームワークの有効性を評価する。 道路検出結果の偏りのない完全評価のために, 道路区分に地域ベースと境界ベースの両方の評価指標を用いる。 その結果、resunetモデルは道路抽出タスクにおいてu-netおよびd-linknetよりも優れており、低分解能sentinel-2データを用いたベンチマーク研究よりも優れた結果を得た。 本研究は,自動道路検出の分野に貢献するだけでなく,多様なアプリケーションにおけるデータ融合手法の利用に関する新たな知見を提供する。

This study presents an innovative approach for automatic road detection with deep learning, by employing fusion strategies for utilizing both lower-resolution satellite imagery and GPS trajectory data, a concept never explored before. We rigorously investigate both early and late fusion strategies, and assess deep learning based road detection performance using different fusion settings. Our extensive ablation studies assess the efficacy of our framework under diverse model architectures, loss functions, and geographic domains (Istanbul and Montreal). For an unbiased and complete evaluation of road detection results, we use both region-based and boundary-based evaluation metrics for road segmentation. The outcomes reveal that the ResUnet model outperforms U-Net and D-Linknet in road extraction tasks, achieving superior results over the benchmark study using low-resolution Sentinel-2 data. This research not only contributes to the field of automatic road detection but also offers novel insights into the utilization of data fusion methods in diverse applications.
翻訳日:2023-12-29 16:13:45 公開日:2023-12-28
# ユニタリ操作の地方認証とフォン・ノイマン測定

Local certification of unitary operations and von Neumann measurements ( http://arxiv.org/abs/2312.17037v1 )

ライセンス: Link先を確認
Mateusz St\k{e}pniak and Kamil Hendzel and {\L}ukasz Pawela and Bart{\l}omiej Gardas and Zbigniew Pucha{\l}a(参考訳) 本研究では、ユニタリ量子チャネルの局所的な証明と、量子仮説テストの自然な拡張であるフォン・ノイマン測度を分析する。 入力時の積状態に対応する2つの系で動作する量子チャネルとフォン・ノイマン測度の特別な場合を考える。 目的は、絡み合いによる補助を考慮して、I型エラーの特定の最大確率を与えられたII型エラーの確率を最小化することである。 1つのシステムを扱う際に、結果を得るために使用されるq-数値範囲の自然な一般化である新しい数学的構造q-積数値範囲を導入する。 そこで本研究では,q-product数値範囲を重要なツールとして使用し,その特性を利用して結果の導出を行い,I型エラー確率の制約の下でII型エラーの確率を最小化する。 局所認証では、テンソル積構造が本質的に現れ、q-数値範囲からq-積の数値範囲への遷移が必要となる。

In this work, we analyze the local certification of unitary quantum channels and von Neumann measurements, which is a natural extension of quantum hypothesis testing. A particular case of a quantum channel and von Neumann measurement, operating on two systems corresponding to product states at the input, is considered. The goal is to minimize the probability of the type II error, given a specified maximum probability of the type I error, considering assistance through entanglement. We introduce a new mathematical structure q-product numerical range, which is a natural generalization of the q-numerical range, used to obtain result, when dealing with one system. In our findings, we employ the q-product numerical range as a pivotal tool, leveraging its properties to derive our results and minimize the probability of type II error under the constraint of type I error probability. We show a fundamental dependency: for local certification, the tensor product structure inherently manifests, necessitating the transition from q-numerical range to q-product numerical range.
翻訳日:2023-12-29 16:13:27 公開日:2023-12-28
# リアルタイムインスタンス分割のためのアンカー割り当てのための一般化マスク対応IoU

Generalized Mask-aware IoU for Anchor Assignment for Real-time Instance Segmentation ( http://arxiv.org/abs/2312.17031v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} Can \c{C}am, Kemal \"Oks\"uz, Fehmi Kahraman, Zeynep Sonat Baltac{\i}, Sinan Kalkan, Emre Akba\c{s}(参考訳) 本稿では,インスタンスセグメンテーション法のトレーニング中に,アンカーボックスの正負の割り当てを行うための新しい尺度として,一般化マスク対応インターセクション・オーバー・ユニオン(GmaIoU)を提案する。 従来のIoU測度やその変種とは異なり、アンカーとグランドトラスボックスの近接しか考慮していないが、GmaIoUはセグメンテーションマスクも考慮している。 これにより、GmaIoUはトレーニング中により正確な監視を行うことができる。 我々は,最新のSOTAアサインラであるATSSにおいて,GmaIoUをGmaIoUに置き換えることで,GmaIoUの有効性を示す。 そして、GmaIoUベースのATSSアサインラを用いてリアルタイムインスタンスセグメンテーション手法であるYOLACTを訓練する。 GmaIoU assigner による YOLACT の結果のパフォーマンス (i)iouとのatsは$\sim 1.0-1.5$ mask apである。 (ii)固定iouしきい値アサイン付きyolactは、異なる画像サイズと異なるサイズで$\sim 1.5-2$ mask apである。 (iii)アンカーを少なくすることで、推論時間を25ドル$%減少させる。 この効率を生かして、yolactよりも高速で7ドルのマスクapポイントを精度良く検出するgmayolactをさらに考案する。 われわれのベストモデルは、COCO test-devで38.7ドルのマスクAPを26ドルfpsで達成し、リアルタイムインスタンスセグメンテーションのための新しい最先端技術を確立する。

This paper introduces Generalized Mask-aware Intersection-over-Union (GmaIoU) as a new measure for positive-negative assignment of anchor boxes during training of instance segmentation methods. Unlike conventional IoU measure or its variants, which only consider the proximity of anchor and ground-truth boxes; GmaIoU additionally takes into account the segmentation mask. This enables GmaIoU to provide more accurate supervision during training. We demonstrate the effectiveness of GmaIoU by replacing IoU with our GmaIoU in ATSS, a state-of-the-art (SOTA) assigner. Then, we train YOLACT, a real-time instance segmentation method, using our GmaIoU-based ATSS assigner. The resulting YOLACT based on the GmaIoU assigner outperforms (i) ATSS with IoU by $\sim 1.0-1.5$ mask AP, (ii) YOLACT with a fixed IoU threshold assigner by $\sim 1.5-2$ mask AP over different image sizes and (iii) decreases the inference time by $25 \%$ owing to using less anchors. Taking advantage of this efficiency, we further devise GmaYOLACT, a faster and $+7$ mask AP points more accurate detector than YOLACT. Our best model achieves $38.7$ mask AP at $26$ fps on COCO test-dev establishing a new state-of-the-art for real-time instance segmentation.
翻訳日:2023-12-29 16:13:09 公開日:2023-12-28
# 医用画像分割のための周波数領域における多軸表現の学習

Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation ( http://arxiv.org/abs/2312.17030v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang(参考訳) 近年,ビジュアルトランスフォーマー (ViT) は空間領域における自己認識機構をグローバルな知識のモデリングに応用するため,医療画像セグメンテーション (MIS) において広く利用されている。 しかし,周波数領域情報の重要性を無視しつつ,空間領域におけるモデルの改善に重点を置いている研究は多い。 そこで本稿では,VITにおける自己注意をマルチ軸外重みブロックに置き換えることで,U字型アーキテクチャに基づくマルチ軸外重みUNet(MEW-UNet)を提案する。 具体的には、入力特徴の3つの軸にフーリエ変換を行い、外部重み発生器によって生成される周波数領域の外部重みを割り当てる。 そして、逆フーリエ変換を行い、特徴を空間領域に戻す。 提案手法は,Synapse,ACDC,ISIC17,ISIC18の4つのデータセットで評価し,周波数領域情報の有効利用により,競合性能を示す。

Recently, Visual Transformer (ViT) has been extensively used in medical image segmentation (MIS) due to applying self-attention mechanism in the spatial domain to modeling global knowledge. However, many studies have focused on improving models in the spatial domain while neglecting the importance of frequency domain information. Therefore, we propose Multi-axis External Weights UNet (MEW-UNet) based on the U-shape architecture by replacing self-attention in ViT with our Multi-axis External Weights block. Specifically, our block performs a Fourier transform on the three axes of the input features and assigns the external weight in the frequency domain, which is generated by our External Weights Generator. Then, an inverse Fourier transform is performed to change the features back to the spatial domain. We evaluate our model on four datasets, including Synapse, ACDC, ISIC17 and ISIC18 datasets, and our approach demonstrates competitive performance, owing to its effective utilization of frequency domain information.
翻訳日:2023-12-29 16:12:48 公開日:2023-12-28
# FedSDD:フェデレーション学習におけるモデル集約のための拡張性と多様性強化蒸留

FedSDD: Scalable and Diversity-enhanced Distillation for Model Aggregation in Federated Learning ( http://arxiv.org/abs/2312.17029v1 )

ライセンス: Link先を確認
Ho Man Kwan, Shenghui Song(参考訳) 近年,知識蒸留(KD)に基づく新しいモデル集約手法が,連邦学習(FL)において提案されている。 これらの手法は、異種学習環境におけるモデルアグリゲーションの堅牢性を向上するだけでなく、クライアントデバイス上で異種モデルのトレーニングを可能にした。 しかし、既存のメソッドのスケーラビリティは、クライアントの数が増えるにつれてサーバのトレーニングコストが増加し、大規模システムでのアプリケーションの利用が制限されるため、満足できない。 さらに、既存のメソッドのアンサンブルは同じチェックポイントから初期化された一連のクライアントモデルから構築され、多様性が低い。 本稿では,拡張性を高めるために,クライアント数からトレーニングの複雑さを分離し,多様性を高めた一連の集約モデルからアンサンブルを構築する,スケーラブルで多様性が強化されたフェデレート蒸留スキームfeedsddを提案する。 特に、FedSDDの教師モデルは、全てのクライアントモデルではなく、集約された(グローバルな)モデルの小さなグループによって構築されたアンサンブルであり、計算コストはクライアントの数に比例しない。 さらに多様性を高めるため、FedSDDはKDのみを実行してグローバルモデルの1つ、すなわち、アンサンブルとメイングローバルモデルの両方のパフォーマンスを改善する「textit{main global model}」を強化する。 クライアントモデルをより多くのグループに分割することで、より集約されたモデルでアンサンブルを構築することができるが、個々の集約モデルの収束は遅くなる。 課題を生かした時間的アンサンブルを導入し、異種設定による大幅な改善を提供する。 実験の結果、FedSDDはベンチマークデータセット上でFedAvgやFedDFなど他のFLメソッドよりも優れていた。

Recently, innovative model aggregation methods based on knowledge distillation (KD) have been proposed for federated learning (FL). These methods not only improved the robustness of model aggregation over heterogeneous learning environment, but also allowed training heterogeneous models on client devices. However, the scalability of existing methods is not satisfactory, because the training cost on the server increases with the number of clients, which limits their application in large scale systems. Furthermore, the ensemble of existing methods is built from a set of client models initialized from the same checkpoint, causing low diversity. In this paper, we propose a scalable and diversity-enhanced federated distillation scheme, FedSDD, which decouples the training complexity from the number of clients to enhance the scalability, and builds the ensemble from a set of aggregated models with enhanced diversity. In particular, the teacher model in FedSDD is an ensemble built by a small group of aggregated (global) models, instead of all client models, such that the computation cost will not scale with the number of clients. Furthermore, to enhance diversity, FedSDD only performs KD to enhance one of the global models, i.e., the \textit{main global model}, which improves the performance of both the ensemble and the main global model. While partitioning client model into more groups allow building an ensemble with more aggregated models, the convergence of individual aggregated models will be slow down. We introduce the temporal ensembling which leverage the issues, and provide significant improvement with the heterogeneous settings. Experiment results show that FedSDD outperforms other FL methods, including FedAvg and FedDF, on the benchmark datasets.
翻訳日:2023-12-29 16:12:30 公開日:2023-12-28
# ソフトウェア開発エージェントの体験的共同学習

Experiential Co-Learning of Software-Developing Agents ( http://arxiv.org/abs/2312.17025v1 )

ライセンス: Link先を確認
Chen Qian and Yufan Dang and Jiahao Li and Wei Liu and Weize Chen and Cheng Yang and Zhiyuan Liu and Maosong Sun(参考訳) 大規模言語モデル(LLMs)の最近の進歩は、特にLLM駆動の自律エージェントを通じて、様々な領域に大きな変化をもたらした。 これらのエージェントは、シームレスに協調し、タスクを分割し、精度を高め、人間の関与の必要性を最小限に抑えることができる。 しかし、これらのエージェントはしばしば、過去の経験から利益を得ることなく、独立した様々なタスクにアプローチする。 この分離は、タスク解決における繰り返しのミスや非効率な試行につながる可能性がある。 そこで,本稿では,教師とアシスタントエージェントが過去の軌跡からショートカット指向の体験を収集し,過去の経験を相互推論に利用するための新しい枠組みであるExperiential Co-Learningを紹介する。 このパラダイムは、以前の経験に富んだもので、エージェントに見えないタスクをより効果的に対処させる。

Recent advancements in large language models (LLMs) have brought significant changes to various dimains, especially through LLM-driven autonomous agents. These agents are now capable of collaborating seamlessly, splitting tasks and enhancing accuracy, thus minimizing the need for human involvement. However, these agents often approach a diverse range of tasks in isolation, without benefiting from past experiences. This isolation can lead to repeated mistakes and inefficient trials in task solving. To this end, this paper introduces Experiential Co-Learning, a novel framework in which instructor and assistant agents gather shortcut-oriented experiences from their historical trajectories and use these past experiences for mutual reasoning. This paradigm, enriched with previous experiences, equips agents to more effectively address unseen tasks.
翻訳日:2023-12-29 16:12:00 公開日:2023-12-28
# 長距離・等価量子システムの効率的学習

Efficient Learning of Long-Range and Equivariant Quantum Systems ( http://arxiv.org/abs/2312.17019v1 )

ライセンス: Link先を確認
\v{S}t\v{e}p\'an \v{S}m\'id, Roberto Bondesan(参考訳) 本研究では,量子ハミルトニアンとその性質の量子多体物理学における基礎的課題について考察する。 近年,データから学習した幾何学的局所観測量の和の基底状態期待値を予測する課題が研究されている。 短距離ガッピングハミルトニアンに対しては、誤差の量子ビット数と準多項数の対数であるサンプル複雑性が得られた。 ここでは、分子系と原子系における長距離相互作用の関連性により、ハミルトニアンとオブザーバブルの両方の局所的な要求を超えてこれらの結果を拡張する。 系の2倍以上の大きさの指数を持つパワー則として崩壊する相互作用に対して、量子ビット数に関して同じ効率の対数スケーリングを回復するが、誤差への依存は指数関数的に悪化する。 さらに、相互作用ハイパーグラフの自己同型群の下での学習アルゴリズムは、特に周期的境界条件を持つ系における局所観測可能量の総和を学習するために、サンプルの複雑さを減少させる。 私たちは、最大128ドルキュービットの長距離および無秩序システムのdmrgシミュレーションから学ぶことで、実際に効率的なスケーリングを実演します。 最後に,中央極限定理を起点とする大域観測量の期待値の集中度を解析した結果,予測精度が向上した。

In this work, we consider a fundamental task in quantum many-body physics - finding and learning ground states of quantum Hamiltonians and their properties. Recent works have studied the task of predicting the ground state expectation value of sums of geometrically local observables by learning from data. For short-range gapped Hamiltonians, a sample complexity that is logarithmic in the number of qubits and quasipolynomial in the error was obtained. Here we extend these results beyond the local requirements on both Hamiltonians and observables, motivated by the relevance of long-range interactions in molecular and atomic systems. For interactions decaying as a power law with exponent greater than twice the dimension of the system, we recover the same efficient logarithmic scaling with respect to the number of qubits, but the dependence on the error worsens to exponential. Further, we show that learning algorithms equivariant under the automorphism group of the interaction hypergraph achieve a sample complexity reduction, leading in particular to a constant number of samples for learning sums of local observables in systems with periodic boundary conditions. We demonstrate the efficient scaling in practice by learning from DMRG simulations of $1$D long-range and disordered systems with up to $128$ qubits. Finally, we provide an analysis of the concentration of expectation values of global observables stemming from central limit theorem, resulting in increased prediction accuracy.
翻訳日:2023-12-29 16:11:46 公開日:2023-12-28
# 入射ニューラル表現のための空間的コラージュされたフーリエ基底の学習

Learning Spatially Collaged Fourier Bases for Implicit Neural Representation ( http://arxiv.org/abs/2312.17018v1 )

ライセンス: Link先を確認
Jason Chun Lok Li, Chang Liu, Binxiao Huang and Ngai Wong(参考訳) Inlicit Neural Representation (INR) への既存のアプローチは、異なる周波数のフーリエ基底の線形結合による大域的なシーン表現として解釈できる。 しかし、そのような普遍基底関数は特定の成分が不要な局所領域における表現能力を制限することができ、不愉快なアーティファクトをもたらす。 この目的のために,各領域に異なるフーリエ基底を効果的にディスパッチする学習可能な空間マスクを導入する。 これはフーリエパッチを照合し、複雑な信号の正確な表現を可能にする。 包括的実験により,画像の嵌合,映像の表現,3次元形状の表現など,既存のINRタスクのベースラインよりも優れた再現性を示す。 提案手法は,3dB以上の画像適合PSNRを改良し,98.81 IoUと0.0011 Chamfer Distanceに3D再構成した。

Existing approaches to Implicit Neural Representation (INR) can be interpreted as a global scene representation via a linear combination of Fourier bases of different frequencies. However, such universal basis functions can limit the representation capability in local regions where a specific component is unnecessary, resulting in unpleasant artifacts. To this end, we introduce a learnable spatial mask that effectively dispatches distinct Fourier bases into respective regions. This translates into collaging Fourier patches, thus enabling an accurate representation of complex signals. Comprehensive experiments demonstrate the superior reconstruction quality of the proposed approach over existing baselines across various INR tasks, including image fitting, video representation, and 3D shape representation. Our method outperforms all other baselines, improving the image fitting PSNR by over 3dB and 3D reconstruction to 98.81 IoU and 0.0011 Chamfer Distance.
翻訳日:2023-12-29 16:11:21 公開日:2023-12-28
# シリコンフォトニクスを集積したソース非依存量子乱数生成器

Source-independent quantum random number generators with integrated silicon photonics ( http://arxiv.org/abs/2312.17011v1 )

ライセンス: Link先を確認
Yongqiang Du, Xin Hua, Zhengeng Zhao, Xiaoran Sun, Zhenrong Zhang, Xi Xiao, Kejin Wei(参考訳) 乱数は多くの科学的応用において重要な役割を果たす。 ソース非依存の量子乱数生成器(SI-QRNG)は、量子力学の基本原理を活用することで真のランダム性を提供し、信頼できる情報源の必要性を排除できる。 シリコンフォトニクスは、小型化、コスト効率のよいデバイス製造、およびcmosマイクロエレクトロニクスとの互換性により、qrngに大きな期待を示している。 本研究ではシリコン系離散変数si-qrngを実験的に実証する。 適切に校正されたチップと最適化されたパラメータ戦略を用いて、7.9Mbits/sのランダム数生成率を記録破りに達成する。 我々の研究はSI-QRNGの統合の道を開いた。

Random numbers play a crucial role in numerous scientific applications. Source-independent quantum random number generators (SI-QRNGs) can offer true randomness by leveraging the fundamental principles of quantum mechanics, eliminating the need for a trusted source. Silicon photonics shows great promise for QRNG due to its benefits in miniaturization, cost-effective device manufacturing, and compatibility with CMOS microelectronics. In this study, we experimentally demonstrate a silicon-based discrete variable SI-QRNG. Using a well-calibrated chip and an optimized parameter strategy, we achieve a record-breaking random number generation rate of 7.9 Mbits/s. Our research paves the way for integrated SI-QRNGs.
翻訳日:2023-12-29 16:11:06 公開日:2023-12-28
# シーン理解のためのロバストなマルチモーダル画像スティッチ

Robust Multi-Modal Image Stitching for Improved Scene Understanding ( http://arxiv.org/abs/2312.17010v1 )

ライセンス: Link先を確認
Aritra Dutta, Dr. G Suseela, Asmita Sood(参考訳) マルチモーダル画像縫合は難しい作業である。 そこでこの論文では,OpenCVのステッチモジュールをタップする,ユニークで包括的なイメージスティッチパイプラインを考案しました。 当社のアプローチでは、機能ベースのマッチング、変換推定、ブレンディング技術を統合して、画像間の照明、スケール、方向の違いに関わらず、最上位品質のパノラマビューを実現する。 パイプラインをさまざまなデータセットでテストし、シーンの理解と実際のアプリケーション検索に非常に効果的であることに気付きました。

Multi-modal image stitching can be a difficult feat. That's why, in this paper, we've devised a unique and comprehensive image-stitching pipeline that taps into OpenCV's stitching module. Our approach integrates feature-based matching, transformation estimation, and blending techniques to bring about panoramic views that are of top-tier quality - irrespective of lighting, scale or orientation differences between images. We've put our pipeline to the test with a varied dataset and found that it's very effective in enhancing scene understanding and finding real-world applications.
翻訳日:2023-12-29 16:10:54 公開日:2023-12-28
# 1次元半古典型Bose-Hubbard鎖の熱力学的形式と異常輸送

Thermodynamic formalism and anomalous transport in 1D semiclassical Bose-Hubbard chain ( http://arxiv.org/abs/2312.17008v1 )

ライセンス: Link先を確認
Dragan Markovi\'c, Mihailo \v{C}ubrovi\'c(参考訳) 半古典的1次元ボース・ハバード鎖の時間依存自由エネルギー汎関数を解析した。 まず,システム内の弱カオスダイナミクスと,それに伴う早期の異常拡散について概説する。 異常拡散は頑健であり、厳密な量子化係数で現れ、非常に長い鎖(百箇所以上)でも持続し、後期には通常の拡散に交差する。 高速な(角度)変数と遅い(アクション)変数を識別し、それぞれ動作の修正とアクションの統合に対応して、アニールおよびクエンチされたパーティション関数を考える。 加熱された自由エネルギーにおける主量子効果を観測する一方、焼成エネルギーは熱力学的限界で定義されず、焼成状態における熱力学的平衡の欠如を示唆する。 しかし、すでに焼成状態から先導した補正は、焼成分割関数を正確に再現している。 これは、遅い状態と速い状態の両方において、異常と正常な拡散の両方が見えるという事実を包含する。

We analyze the time-dependent free energy functionals of the semiclassical one-dimensional Bose-Hubbard chain. We first review the weakly chaotic dynamics and the consequent early-time anomalous diffusion in the system. The anomalous diffusion is robust, appears with strictly quantized coefficients, and persists even for very long chains (more than hundred sites), crossing over to normal diffusion at late times. We identify fast (angle) and slow (action) variables and thus consider annealed and quenched partition functions, corresponding to fixing the actions and integrating over the actions, respectively. We observe the leading quantum effects in the annealed free energy, whereas the quenched energy is undefined in the thermodynamic limit, signaling the absence of thermodynamic equilibrium in the quenched regime. But already the leading correction away from the quenched regime reproduces the annealed partition function exactly. This encapsulates the fact that in both slow- and fast-chaos regime both the anomalous and the normal diffusion can be seen (though at different times).
翻訳日:2023-12-29 16:10:44 公開日:2023-12-28
# 勾配降下法で学習した過パラメータ変換器の収束率について

On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent ( http://arxiv.org/abs/2312.17007v1 )

ライセンス: Link先を確認
Michael Kohler and Adam Krzyzak(参考訳) 人工知能の最も最近かつ興味深いブレークスルーの1つは、人間の会話をシミュレートするチャットボットであるchatgptだ。 chatgpt は gpt4 のインスタンスであり、生成的回帰グランスフォーマーに基づく言語モデルである。 ですから,そのような人工知能がいかに強力かという理論的な観点から研究したいのであれば,トランスフォーマーネットワークを考慮し,これらのネットワークでどの問題を理論的に解決できるかを研究する,という方法があるのです。 ここでは、これらのネットワークがどのモデルに近似できるのか、あるいは、具体的なデータセットに対する最良の近似を選択することで学習した知識をいかに一般化できるかだけでなく、具体的なデータセットに基づいたトランスフォーマーネットワークの最適化がいかにうまく機能するかが重要である。 本稿では,これら3つの異なる側面を同時に検討し,観測データに適合する変圧器ネットワークの誤分類確率に関する理論的上限を示す。 本稿では,自然言語を含む分類問題の文脈における推定値の定義に適用可能なトランスフォーマーエンコーダネットワークに焦点をあてる。

One of the most recent and fascinating breakthroughs in artificial intelligence is ChatGPT, a chatbot which can simulate human conversation. ChatGPT is an instance of GPT4, which is a language model based on generative gredictive gransformers. So if one wants to study from a theoretical point of view, how powerful such artificial intelligence can be, one approach is to consider transformer networks and to study which problems one can solve with these networks theoretically. Here it is not only important what kind of models these network can approximate, or how they can generalize their knowledge learned by choosing the best possible approximation to a concrete data set, but also how well optimization of such transformer network based on concrete data set works. In this article we consider all these three different aspects simultaneously and show a theoretical upper bound on the missclassification probability of a transformer network fitted to the observed data. For simplicity we focus in this context on transformer encoder networks which can be applied to define an estimate in the context of a classification problem involving natural language.
翻訳日:2023-12-29 16:10:27 公開日:2023-12-28
# 医用画像解析における継続的な学習 : 最近の進歩と今後の展望

Continual Learning in Medical Imaging Analysis: A Comprehensive Review of Recent Advancements and Future Prospects ( http://arxiv.org/abs/2312.17004v1 )

ライセンス: Link先を確認
Pratibha Kumari, Joohi Chauhan, Afshin Bozorgpour, Reza Azad, Dorit Merhof(参考訳) 近年の医療画像解析は、高度なディープラーニングアルゴリズムの急速な発展によって、人間のレベルのパフォーマンスをはるかに上回っている。 しかし、推論データセットがモデルが1回のトレーニングで見たものとわずかに異なる場合、モデルの性能は著しく損なわれる。 この状況では、古いデータと新しいデータの両方を使ってトレーニングプロセスを再開し、計算コストがかかり、人間の学習プロセスと一致せず、ストレージの制約やプライバシーの懸念を課す必要がある。 あるいは、持続学習は、新しいクラス、タスク、および様々なアプリケーション領域の非定常環境におけるデータの漂流性を扱うために、統一的で持続可能な深層モデルを開発するための重要なアプローチとして現れてきた。 継続的な学習技術は、モデルを時間とともに適応し、知識を蓄積することを可能にする。 本稿では,医用画像解析に応用される連続学習技術の現状について概観する。 本稿では, 破滅的忘れ, データドリフト, 安定性, 塑性要件など, 既存研究の広範な調査を紹介する。 さらに,連続学習シナリオ,テクニック,評価スキーム,メトリクスなど,連続学習フレームワークの重要なコンポーネントについて,詳細な議論を行う。 継続的学習技術には、リハーサル、正規化、アーキテクチャ、ハイブリッド戦略など、さまざまなカテゴリが含まれる。 我々は、放射線学や病理学などの様々な医学分野における連続学習カテゴリの人気と適用性を評価する。

Medical imaging analysis has witnessed remarkable advancements even surpassing human-level performance in recent years, driven by the rapid development of advanced deep-learning algorithms. However, when the inference dataset slightly differs from what the model has seen during one-time training, the model performance is greatly compromised. The situation requires restarting the training process using both the old and the new data which is computationally costly, does not align with the human learning process, and imposes storage constraints and privacy concerns. Alternatively, continual learning has emerged as a crucial approach for developing unified and sustainable deep models to deal with new classes, tasks, and the drifting nature of data in non-stationary environments for various application areas. Continual learning techniques enable models to adapt and accumulate knowledge over time, which is essential for maintaining performance on evolving datasets and novel tasks. This systematic review paper provides a comprehensive overview of the state-of-the-art in continual learning techniques applied to medical imaging analysis. We present an extensive survey of existing research, covering topics including catastrophic forgetting, data drifts, stability, and plasticity requirements. Further, an in-depth discussion of key components of a continual learning framework such as continual learning scenarios, techniques, evaluation schemes, and metrics is provided. Continual learning techniques encompass various categories, including rehearsal, regularization, architectural, and hybrid strategies. We assess the popularity and applicability of continual learning categories in various medical sub-fields like radiology and histopathology...
翻訳日:2023-12-29 16:10:08 公開日:2023-12-28
# マルチモーダルMRI再構成のための空間アライメントを用いたディープアンフォールディングネットワーク

Deep Unfolding Network with Spatial Alignment for multi-modal MRI reconstruction ( http://arxiv.org/abs/2312.16998v1 )

ライセンス: Link先を確認
Hao Zhang and Qi Wang and Jun Shi and Shihui Ying and Zhijie Wen(参考訳) 多モードMRI(Multi-modal Magnetic Resonance Imaging)は相補的な診断情報を提供するが、長い走査時間によっていくつかのモダリティが制限される。 取得過程全体を高速化するために、高アンサンプされたk空間データから他の完全サンプリングされた参照モダリティへのMRI再構成が効率的である。 しかし, 臨床実践に共通するモダリティの相違は, 再建の質に悪影響を及ぼす可能性がある。 既存の学習に基づく学習手法では、モダリティ間ミスアライメントが優れているが、(1)空間アライメントタスクは、再構成プロセスと適応的に統合されておらず、2つのタスク間の相補性が不十分である。 本稿では,DUN-SAと呼ばれる空間アライメントを組み込んだ新しいDeep Unfolding Networkを構築し,空間アライメントタスクを再構成プロセスに適切に組み込む。 具体的には,空間アライメントを特別に設計した新しい関節アライメント・リコンストラクションモデルを導出する。 モデルを相互に空間的アライメントやマルチモーダル再構成タスクに緩和することにより,このモデルに代わる効率的なアルゴリズムを提案する。 次に,提案アルゴリズムの反復ステップを展開し,対応するネットワークモジュールを設計,解釈可能なdun-saを構築する。 エンド・ツー・エンドのトレーニングを通じて、再構成損失のみを用いて空間的不整合を効果的に補償し、段階的に整列した参照モダリティを利用して、対象モダリティの再構成を改善する前にモダリティ間を提供する。 3つの実データに対する包括的実験により,本手法は最先端手法に比べて優れた再構成性能を示すことが示された。

Multi-modal Magnetic Resonance Imaging (MRI) offers complementary diagnostic information, but some modalities are limited by the long scanning time. To accelerate the whole acquisition process, MRI reconstruction of one modality from highly undersampled k-space data with another fully-sampled reference modality is an efficient solution. However, the misalignment between modalities, which is common in clinic practice, can negatively affect reconstruction quality. Existing deep learning-based methods that account for inter-modality misalignment perform better, but still share two main common limitations: (1) The spatial alignment task is not adaptively integrated with the reconstruction process, resulting in insufficient complementarity between the two tasks; (2) the entire framework has weak interpretability. In this paper, we construct a novel Deep Unfolding Network with Spatial Alignment, termed DUN-SA, to appropriately embed the spatial alignment task into the reconstruction process. Concretely, we derive a novel joint alignment-reconstruction model with a specially designed cross-modal spatial alignment term. By relaxing the model into cross-modal spatial alignment and multi-modal reconstruction tasks, we propose an effective algorithm to solve this model alternatively. Then, we unfold the iterative steps of the proposed algorithm and design corresponding network modules to build DUN-SA with interpretability. Through end-to-end training, we effectively compensate for spatial misalignment using only reconstruction loss, and utilize the progressively aligned reference modality to provide inter-modality prior to improve the reconstruction of the target modality. Comprehensive experiments on three real datasets demonstrate that our method exhibits superior reconstruction performance compared to state-of-the-art methods.
翻訳日:2023-12-29 16:09:41 公開日:2023-12-28
# FlowDA:光フロー推定のための教師なしドメイン適応フレームワーク

FlowDA: Unsupervised Domain Adaptive Framework for Optical Flow Estimation ( http://arxiv.org/abs/2312.16995v1 )

ライセンス: Link先を確認
Miaojie Feng, Longliang Liu, Hao Jia, Gangwei Xu, Xin Yang(参考訳) 現実世界のオプティカルフローデータセットの収集は、ラベリングのコストが高いため、非常に難しい課題である。 データセットの不足は、光学フローモデルの実際の性能を著しく制限する。 実際のシナリオに似た仮想データセットの構築は、パフォーマンス向上のための潜在的なソリューションを提供するが、ドメインギャップは仮想データセットと実際のデータセットを分離する。 本稿では,光フロー推定のためのunsupervised domain adaptive (uda)フレームワークであるflowdaを提案する。 FlowDAは平均教師に基づくUDAアーキテクチャを採用し、教師なし光フロー推定に概念と技術を統合する。 さらに、カリキュラム学習に基づく適応的カリキュラム重み付け(ACW)モジュールを提案し、トレーニングの有効性を高める。 実験結果から,本手法は未監視光フロー推定法smurfを21.6%,実光フローデータセット生成法mpi-flowを27.8%,光フロー推定適応型フロースーパーバイザを30.9%上回っており,実世界シナリオにおける光フロー推定の性能向上のための新たな知見を提供する。 コードは、この記事の公開後にオープンソース化される。

Collecting real-world optical flow datasets is a formidable challenge due to the high cost of labeling. A shortage of datasets significantly constrains the real-world performance of optical flow models. Building virtual datasets that resemble real scenarios offers a potential solution for performance enhancement, yet a domain gap separates virtual and real datasets. This paper introduces FlowDA, an unsupervised domain adaptive (UDA) framework for optical flow estimation. FlowDA employs a UDA architecture based on mean-teacher and integrates concepts and techniques in unsupervised optical flow estimation. Furthermore, an Adaptive Curriculum Weighting (ACW) module based on curriculum learning is proposed to enhance the training effectiveness. Experimental outcomes demonstrate that our FlowDA outperforms state-of-the-art unsupervised optical flow estimation method SMURF by 21.6%, real optical flow dataset generation method MPI-Flow by 27.8%, and optical flow estimation adaptive method FlowSupervisor by 30.9%, offering novel insights for enhancing the performance of optical flow estimation in real-world scenarios. The code will be open-sourced after the publication of this paper.
翻訳日:2023-12-29 16:08:34 公開日:2023-12-28
# スペクトル持続性ホモロジー:持続性シグナル

Spectral Persistent Homology: Persistence Signals ( http://arxiv.org/abs/2312.17093v1 )

ライセンス: Link先を確認
Michael Etienne Van Huffel, Matteo Palo(参考訳) 本稿では,持続性図に対する新しい記述子群を示し,それを$\mathbb R^2_+$の信号として再認識する。 これは、トポロジカルデータ分析における重要な進歩である。 本手法は,これらの図形によって引き起こされる離散測度の関数を通して,永続化図を有限次元ベクトル空間に変換する。 主に周波数ベースの変換に焦点を当てていますが、この種の技術にのみアプローチを制限していません。 この変換のファミリを$Persistence$$Signals$と呼び、1-$Kantorovitch$-$Rubinstein$メトリックに対して、このファミリのメンバの安定性を証明し、微妙なデータバリエーションに対する応答性を保証する。 広範な比較分析の結果,ディスクリプタはトポロジカルなデータ分析文献の現在の技術と競合し,既存の手法を上回っていることが判明した。 この研究は、データサイエンティストにとって画期的な視点をもたらすだけでなく、データ分析と機械学習に永続性ダイアグラムを適用するための将来のイノベーションの基盤を確立する。

In this paper, we present a novel family of descriptors for persistence diagrams, reconceptualizing them as signals in $\mathbb R^2_+$. This marks a significant advancement in Topological Data Analysis. Our methodology transforms persistence diagrams into a finite-dimensional vector space through functionals of the discrete measures induced by these diagrams. While our focus is primarily on frequency-based transformations, we do not restrict our approach exclusively to this types of techniques. We term this family of transformations as $Persistence$ $Signals$ and prove stability for some members of this family against the 1-$Kantorovitch$-$Rubinstein$ metric, ensuring its responsiveness to subtle data variations. Extensive comparative analysis reveals that our descriptor performs competitively with the current state-of-art from the topological data analysis literature, and often surpasses, the existing methods. This research not only introduces a groundbreaking perspective for data scientists but also establishes a foundation for future innovations in applying persistence diagrams in data analysis and machine learning.
翻訳日:2023-12-29 15:53:04 公開日:2023-12-28
# Q-Align:離散テキスト記述レベルによる視覚スコーリングのためのLMM教育

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels ( http://arxiv.org/abs/2312.17090v1 )

ライセンス: Link先を確認
Haoning Wu, Zicheng Zhang, Weixia Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Yixuan Gao, Annan Wang, Erli Zhang, Wenxiu Sun, Qiong Yan, Xiongkuo Min, Guangtao Zhai, Weisi Lin(参考訳) オンラインで利用可能な視覚的コンテンツの爆発は、様々な種類の視覚的コンテンツのスコアを確実に評価する正確な機械評価器の必要性を浮き彫りにする。 近年, 大規模マルチモダリティモデル (LMM) の様々な分野における異例の可能性を実証しているが, 本研究では, 人間の意見に合わせた視覚的評価法について検討している。 主観的学習における個別のテキスト定義レベルのみを学習し判断することを観察し,この主観的過程をエミュレートし,得点ではなくテキスト定義格付けレベルでlmmsを教えることを提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美的評価(IAA)、および元のLMM構造下での映像品質評価(VQA)タスクの最先端性能を達成する。 syllabusでは、3つのタスクをさらに1つのモデルに統合します。 実験では,LMMの直接スコアに基づく変種に対する離散レベルベースシラバスの利点を実証した。 私たちのコードとトレーニング済みのウェイトはhttps://github.com/q-future/q-align.com/でリリースされます。

The explosion of visual content available online underscores the requirement for an accurate machine assessor to robustly evaluate scores across diverse types of visual contents. While recent studies have demonstrated the exceptional potentials of large multi-modality models (LMMs) on a wide range of related fields, in this work, we explore how to teach them for visual rating aligned with human opinions. Observing that human raters only learn and judge discrete text-defined levels in subjective studies, we propose to emulate this subjective process and teach LMMs with text-defined rating levels instead of scores. The proposed Q-Align achieves state-of-the-art performance on image quality assessment (IQA), image aesthetic assessment (IAA), as well as video quality assessment (VQA) tasks under the original LMM structure. With the syllabus, we further unify the three tasks into one model, termed the OneAlign. In our experiments, we demonstrate the advantage of the discrete-level-based syllabus over direct-score-based variants for LMMs. Our code and the pre-trained weights are released at https://github.com/Q-Future/Q-Align.
翻訳日:2023-12-29 15:52:44 公開日:2023-12-28
# 再訪した状態とチャネルの単発絡み合い操作

Single-shot entanglement manipulation of states and channels revisited ( http://arxiv.org/abs/2312.17088v1 )

ライセンス: Link先を確認
Thomas Theurer and Kun Fang and Gilad Gour(参考訳) 単発体制下でのタングル化蒸留と状態およびチャネルの希釈について検討した。 最近導入された変換距離の助けを借りて、純状態の希釈と蒸留のためのコンパクトな閉形式表現を提供し、これを複数の純状態のコピーで効率的に計算する方法を示す。 これらの閉形式表現は二階漸近も得る。 次に, 混合状態のエプシロン単発エンタングルメントコストが, 条件付き最大エントロピーの適切なスムーズなバージョンを含む式で正確に与えられることを証明した。 純粋な状態の場合、この式は縮小状態の滑らかな最大エントロピーに還元される。 これらの結果に基づき,チャネルの単発絡み合いコストを制限した。 次に、状態とチャネルの1方向のエンタングルメント蒸留を行い、エンタングルメントのコヒーレントな情報を示す量という観点で境界を与える。

We study entanglement distillation and dilution of states and channels in the single-shot regime. With the help of a recently introduced conversion distance, we provide compact closed-form expressions for the dilution and distillation of pure states and show how this can be used to efficiently calculate these quantities on multiple copies of pure states. These closed-form expressions also allow us to obtain second-order asymptotics. We then prove that the epsilon-single-shot entanglement cost of mixed states is given exactly in terms of an expression containing a suitably smoothed version of the conditional max-entropy. For pure states, this expression reduces to the smoothed max-entropy of the reduced state. Based on these results, we bound the single-shot entanglement cost of channels. We then turn to the one-way entanglement distillation of states and channels and provide bounds in terms of a quantity we denote coherent information of entanglement.
翻訳日:2023-12-29 15:52:21 公開日:2023-12-28
# llmsが推論に挑戦: llmsの認知的深さを明らかにするベンチマーク

Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs ( http://arxiv.org/abs/2312.17080v1 )

ライセンス: Link先を確認
Zhongshen Zeng, Pengguang Chen, Haiyun Jiang, Jiaya Jia(参考訳) 本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。 このアプローチは、従来のエージェントの認知能力を評価するために使用される既存の数学問題解決ベンチマークの重大な欠点に対処する。 我々のパラダイムは、しばしば推論プロセスを見落としている結果指向の評価から、モデル間の認知能力を効果的に区別するより包括的な評価へと焦点を移します。 例えば、我々のベンチマークでは、GPT-4はGPT3-5の10倍の精度を示している。 この新しいパラダイムの意義は、GSM8Kのような現在のベンチマークが、その飽和と様々な推論能力の効果的な分化の欠如のため、LLMの潜在的な認知的欠陥を明らかにする能力にある。 当社の包括的な分析には、オープンソースコミュニティとクローズドソースコミュニティの両方の最先端の数学モデルが含まれており、トレーニングと評価アプローチの根本的な欠陥を明らかにしています。 本稿では,LLMの評価におけるパラダイムシフトを提唱するだけでなく,AI(Artificial General Intelligence, AGI)の軌道に関する議論にも貢献する。 メタ推論評価手法の採用を促進することで,LLMの真の認知能力をより正確に評価することを目指している。

In this work, we introduce a novel evaluation paradigm for Large Language Models, one that challenges them to engage in meta-reasoning. This approach addresses critical shortcomings in existing math problem-solving benchmarks, traditionally used to evaluate the cognitive capabilities of agents. Our paradigm shifts the focus from result-oriented assessments, which often overlook the reasoning process, to a more holistic evaluation that effectively differentiates the cognitive capabilities among models. For example, in our benchmark, GPT-4 demonstrates a performance ten times more accurate than GPT3-5. The significance of this new paradigm lies in its ability to reveal potential cognitive deficiencies in LLMs that current benchmarks, such as GSM8K, fail to uncover due to their saturation and lack of effective differentiation among varying reasoning abilities. Our comprehensive analysis includes several state-of-the-art math models from both open-source and closed-source communities, uncovering fundamental deficiencies in their training and evaluation approaches. This paper not only advocates for a paradigm shift in the assessment of LLMs but also contributes to the ongoing discourse on the trajectory towards Artificial General Intelligence (AGI). By promoting the adoption of meta-reasoning evaluation methods similar to ours, we aim to facilitate a more accurate assessment of the true cognitive abilities of LLMs.
翻訳日:2023-12-29 15:52:06 公開日:2023-12-28
# O2O勧告に基づく地理的グループ特化ネットワークの適応的枠組み

An Adaptive Framework of Geographical Group-Specific Network on O2O Recommendation ( http://arxiv.org/abs/2312.17072v1 )

ライセンス: Link先を確認
Luo Ji, Jiayu Mao, Hailong Shi, Qian Li, Yunfei Chu, Hongxia Yang(参考訳) オンラインからオフラインへのレコメンデーションは、ユーザとサービスの時空間情報と強く関連しているため、より高度なモデルパーソナライズを要求する。 従来の手法は、収集された集中型データによってトレーニングされた一様モデル構造に基づいており、異なる地理的領域や期間にわたってすべてのユーザパターンをキャプチャする可能性は低い。 この課題に取り組むために,geogrouseと呼ばれる地理的グループ固有のモデリング手法を提案する。 ユーザの地理的グループ化指標に基づいて,自動グループ化パラダイムを採用し,検証する。 本手法の有効性を検証するためにオフラインおよびオンライン実験を行い,大幅なビジネス改善を実現する。

Online to offline recommendation strongly correlates with the user and service's spatiotemporal information, therefore calling for a higher degree of model personalization. The traditional methodology is based on a uniform model structure trained by collected centralized data, which is unlikely to capture all user patterns over different geographical areas or time periods. To tackle this challenge, we propose a geographical group-specific modeling method called GeoGrouse, which simultaneously studies the common knowledge as well as group-specific knowledge of user preferences. An automatic grouping paradigm is employed and verified based on users' geographical grouping indicators. Offline and online experiments are conducted to verify the effectiveness of our approach, and substantial business improvement is achieved.
翻訳日:2023-12-29 15:51:42 公開日:2023-12-28
# sctnet:リアルタイムセグメンテーションのためのトランスフォーマー意味情報付き単分岐cnn

SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation ( http://arxiv.org/abs/2312.17071v1 )

ライセンス: Link先を確認
Zhengze Xu, Dongyue Wu, Changqian Yu, Xiangxiang Chu, Nong Sang, Changxin Gao(参考訳) 最近のリアルタイム意味セマンティクスセグメンテーション手法は通常、リッチな長距離コンテキストを追求するために追加のセマンティクスブランチを採用する。 しかし、追加のブランチは望ましくない計算オーバーヘッドを発生させ、推論速度を遅くする。 このジレンマをなくすため、リアルタイムセグメンテーションのためのトランスフォーマ意味情報を持つ単一分岐CNNであるSCTNetを提案する。 sctnetは、軽量な単一分岐cnnの効率を保ちながら、推論なし意味分岐の豊かな意味表現を享受している。 SCTNetは、長距離コンテキストを抽出する優れた能力を考慮して、トレーニング専用のセマンティックブランチとしてトランスフォーマーを使用している。 提案されたトランスフォーマーに似たCNNブロックCFBlockとセマンティック情報アライメントモジュールによって、SCTNetはトレーニング中のトランスフォーマーブランチからリッチなセマンティック情報をキャプチャできる。 推論中は、単一のブランチCNNのみをデプロイする必要がある。 本研究では,Cityscapes,ADE20K,COCO-Stuff-10Kについて広範な実験を行い,本手法が新しい最先端性能を実現することを示す。 コードとモデルはhttps://github.com/xzz777/SCTNetで入手できる。

Recent real-time semantic segmentation methods usually adopt an additional semantic branch to pursue rich long-range context. However, the additional branch incurs undesirable computational overhead and slows inference speed. To eliminate this dilemma, we propose SCTNet, a single branch CNN with transformer semantic information for real-time segmentation. SCTNet enjoys the rich semantic representations of an inference-free semantic branch while retaining the high efficiency of lightweight single branch CNN. SCTNet utilizes a transformer as the training-only semantic branch considering its superb ability to extract long-range context. With the help of the proposed transformer-like CNN block CFBlock and the semantic information alignment module, SCTNet could capture the rich semantic information from the transformer branch in training. During the inference, only the single branch CNN needs to be deployed. We conduct extensive experiments on Cityscapes, ADE20K, and COCO-Stuff-10K, and the results show that our method achieves the new state-of-the-art performance. The code and model is available at https://github.com/xzz777/SCTNet
翻訳日:2023-12-29 15:51:30 公開日:2023-12-28
# フロッケ時間結晶の交換

Swapping Floquet time crystal ( http://arxiv.org/abs/2312.17070v1 )

ライセンス: Link先を確認
Roberto Gargiulo and Gianluca Passarelli and Procolo Lucignano and Angelo Russomanno(参考訳) 近傍スピン結合の周期的交換を応用した不規則相互作用型長距離スピンチェーンに基づく時間結晶モデルを提案する。 このプロトコルは任意の局所スピン級数$s$の系にも適用でき、原理的には非スピン(フェルミオンまたはボゾン)局所ヒルベルト空間を持つ系にも適用できる。 解析的および数値的手法を用いて、s = 1/2$ および $s = 1$ のケースを明示的に検討し、時間-結晶的挙動がパラメータの範囲に現れることを示す。 特に,周期2重振動の時間的持続性,フロッケスペクトルの特性("\pi$-spectral pairing and correlations of the floquet state")について検討し,初期状態が周期2倍のダイナミクスをもたらすかを評価するために量(局所不均衡)を導入する。 また、量子積分可能性/エルゴディディディティのプローブを用いて、システムが熱化しないパラメータの間隔を理解し、非自明な持続的周期双曲挙動が可能である。

We propose a time-crystal model based on a disordered interacting long-range spin chain where the periodic swapping of nearby spin couples is applied. This protocol can be applied to systems with any local spin magnitude $s$ and in principle also to systems with nonspin (fermionic or bosonic) local Hilbert space. We explicitly consider the cases $s = 1/2$ and $s = 1$, using analytical and numerical methods to show that the time-crystal behavior appears in a range of parameters. In particular, we study the persistence of period-doubling oscillations in time, the properties of the Floquet spectrum ($\pi$-spectral pairing and correlations of the Floquet states), and introduce a quantity (the local imbalance) to assess what initial states give rise to a period-doubling dynamics. We also use a probe of quantum integrability/ergodicity to understand the interval of parameters where the system does not thermalize, and a nontrivial persistent period-doubling behavior is possible.
翻訳日:2023-12-29 15:51:10 公開日:2023-12-28
# clubear:単一マシン上の膨大なデータを用いた対話型統計解析のためのサブサンプリングパッケージ

CluBear: A Subsampling Package for Interactive Statistical Analysis with Massive Data on A Single Machine ( http://arxiv.org/abs/2312.17065v1 )

ライセンス: Link先を確認
Ke Xu, Yingqiu Zhu, Yijing Liu and Hansheng Wang(参考訳) この記事では、インタラクティブな大規模データ分析のためのPythonベースのオープンソースパッケージであるCluBearを紹介します。 CluBearの重要な特徴は、ユーザが従来のシングルコンピュータシステムだけで、大量のデータを便利かつインタラクティブに統計分析できることだ。 したがって、CluBearは大規模なデータセットをマイニングする際のコスト効率の良いソリューションを提供する。 さらに、CluBearパッケージには多くの一般的な統計ツールとグラフィカルツールが組み込まれている。

This article introduces CluBear, a Python-based open-source package for interactive massive data analysis. The key feature of CluBear is that it enables users to conduct convenient and interactive statistical analysis of massive data with only a traditional single-computer system. Thus, CluBear provides a cost-effective solution when mining large-scale datasets. In addition, the CluBear package integrates many commonly used statistical and graphical tools, which are useful for most commonly encountered data analysis tasks.
翻訳日:2023-12-29 15:50:49 公開日:2023-12-28
# XZZXと回転量子表面符号の論理誤差率

Logical Error Rates of XZZX and Rotated Quantum Surface Codes ( http://arxiv.org/abs/2312.17057v1 )

ライセンス: Link先を確認
Diego Forlivesi, Lorenzo Valentini, Marco Chiani(参考訳) 表面符号は平面幾何学で知られている多用途な量子誤り訂正符号であり、実用的な実装に最適である。 当初の提案では正方形構造で Pauli $X$ あるいは Pauli $Z$ 演算子を使用していたが、これらのコードは格子を回転させたり、XZX の変種にジェネレータを混在させたりすることで改善できる。 しかし、これらの変種に対する論理的誤り率の包括的な理論的分析は不足している。 このギャップに対処するために、安定化器符号の重み分布を理解するための最近の進歩に基づく理論式を提案する。 例えば、非対称性 $a=10$ と物理誤差率 $p \to 0$ の非対称チャネル上で、論理誤差率は、回転する $[[[9,1,3]]$ xzzx コードと $p_\mathrm{l} \to 18.3 p^2$ に対して $[[13,1,3]$ surface コードに対して漸近的に $p_\mathrm{l} \to 10 p^2$ に近づく。 さらに,非対称チャネルの存在下での矩形格子に関する特定の挙動を観察する。 本研究は, 回転とXZZXの両修正を同時に実施することで, 最適な性能が得られることを示した。 したがって、矩形格子を含むシナリオでは、両方の修正を同時に使用するのを避けることが望ましい。 本研究は、XZZXと回転曲面符号の論理誤差率の理論的理解を高め、異なる条件下での性能に関する貴重な知見を提供する。

Surface codes are versatile quantum error-correcting codes known for their planar geometry, making them ideal for practical implementations. While the original proposal used Pauli $X$ or Pauli $Z$ operators in a square structure, these codes can be improved by rotating the lattice or incorporating a mix of generators in the XZZX variant. However, a comprehensive theoretical analysis of the logical error rate for these variants has been lacking. To address this gap, we present theoretical formulas based on recent advancements in understanding the weight distribution of stabilizer codes. For example, over an asymmetric channel with asymmetry $A=10$ and a physical error rate $p \to 0$, we observe that the logical error rate asymptotically approaches $p_\mathrm{L} \to 10 p^2$ for the rotated $[[9,1,3]]$ XZZX code and $p_\mathrm{L} \to 18.3 p^2$ for the $[[13,1,3]]$ surface code. Additionally, we observe a particular behavior regarding rectangular lattices in the presence of asymmetric channels. Our findings demonstrate that implementing both rotation and XZZX modifications simultaneously can lead to suboptimal performance. Thus, in scenarios involving a rectangular lattice, it is advisable to avoid using both modifications simultaneously. This research enhances our theoretical understanding of the logical error rates for XZZX and rotated surface codes, providing valuable insights into their performance under different conditions.
翻訳日:2023-12-29 15:50:40 公開日:2023-12-28
# 双方向アライメントによる文脈内学習の改善

Improving In-context Learning via Bidirectional Alignment ( http://arxiv.org/abs/2312.17055v1 )

ライセンス: Link先を確認
Chengwei Qin, Wenhan Xia, Fangkai Jiao, Shafiq Joty(参考訳) 大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) を通じて、多くのタスクにおいて驚くべき数ショットの一般化を示している。 このような突発的な能力を示すことに成功しているにもかかわらず、より大きなモデルの規模と複雑さは、前例のないほど高い計算要求と展開課題をもたらす。 これに対して研究者は、より小さなモデルの出力をより大きなモデルに合わせることで、より効率的でコンパクトなモデルに、より大きなモデルの強力な能力の移行を探求している。 既存の方法は、より小さなモデルをより大きなモデルの出力で訓練するか、トークンレベルの確率分布を模倣するかのどちらかである。 しかし, これらの蒸留法は入力部にはほとんど注意を払わず, ICLにおいても重要な役割を担っている。 ICLの性能が実演例の選択に非常に敏感であることから,小型モデルのICL能力を向上させるために,ICLのモデル選択を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。 具体的には,トークンレベルの出力分布の調整に加えて,新たなランキング損失を取り入れることで,小モデルと大モデル間の入力嗜好のアライメントを導入する。 広範な実験と分析により、BiAlignは言語理解、推論、コーディングなど、さまざまなタスクにおいて、既存のベースラインを一貫して上回ります。

Large language models (LLMs) have shown impressive few-shot generalization on many tasks via in-context learning (ICL). Despite their success in showing such emergent abilities, the scale and complexity of larger models also lead to unprecedentedly high computational demands and deployment challenges. In reaction, researchers explore transferring the powerful capabilities of larger models to more efficient and compact models by typically aligning the output of smaller models with that of larger models. Existing methods either train smaller models on the generated outputs of larger models or to imitate their token-level probability distributions. However, these distillation methods pay little to no attention to the input part, which also plays a crucial role in ICL. Based on the finding that the performance of ICL is highly sensitive to the selection of demonstration examples, we propose Bidirectional Alignment (BiAlign) to fully leverage the models' preferences for ICL examples to improve the ICL abilities of smaller models. Specifically, we introduce the alignment of input preferences between smaller and larger models by incorporating a novel ranking loss, in addition to aligning the token-level output distribution. With extensive experiments and analysis, we demonstrate that BiAlign can consistently outperform existing baselines on a variety of tasks including language understanding, reasoning, and coding.
翻訳日:2023-12-29 15:50:03 公開日:2023-12-28
# マルチアテンション核融合ドロージー駆動検出モデル

Multi-Attention Fusion Drowsy Driving Detection Model ( http://arxiv.org/abs/2312.17052v1 )

ライセンス: Link先を確認
Shulei QU, Zhenguo Gao, Xiaoxiao Wu, Yuanyuan Qiu(参考訳) ドローシー運転は交通事故の主要な原因であり、運転者ドローシー運転検知システムの実装はそのような事故の発生を著しく減少させることが証明されている。 多くのドロシー駆動検出アルゴリズムの開発にもかかわらず、その多くが完全な顔画像、最適な照明条件、RGB画像の使用といった特定の前提条件を課している。 本研究では,Multi-Attention Fusion Drowsy Driving Detection Model (MAF)と呼ばれる新しい手法を提案する。 MAFは、特に部分的な顔の閉塞と低い照明条件を含むシナリオにおいて、分類性能を著しく向上することを目的としている。 マルチアテンション融合によって提供される局所的特徴抽出能力を利用することで、アルゴリズム全体のロバスト性を高める。 データセットを強化するために、夜間および昼間の照明条件下で撮影された、隠蔽顔と隠蔽顔の両方を含む実世界のデータを収集した。 公開データセットと自己構築データの両方を用いて総合的な実験を行った。 これらの実験の結果,提案モデルが運転者の眠気検出精度96.8%を達成した。

Drowsy driving represents a major contributor to traffic accidents, and the implementation of driver drowsy driving detection systems has been proven to significantly reduce the occurrence of such accidents. Despite the development of numerous drowsy driving detection algorithms, many of them impose specific prerequisites such as the availability of complete facial images, optimal lighting conditions, and the use of RGB images. In our study, we introduce a novel approach called the Multi-Attention Fusion Drowsy Driving Detection Model (MAF). MAF is aimed at significantly enhancing classification performance, especially in scenarios involving partial facial occlusion and low lighting conditions. It accomplishes this by capitalizing on the local feature extraction capabilities provided by multi-attention fusion, thereby enhancing the algorithm's overall robustness. To enhance our dataset, we collected real-world data that includes both occluded and unoccluded faces captured under nighttime and daytime lighting conditions. We conducted a comprehensive series of experiments using both publicly available datasets and our self-built data. The results of these experiments demonstrate that our proposed model achieves an impressive driver drowsiness detection accuracy of 96.8%.
翻訳日:2023-12-29 15:49:41 公開日:2023-12-28
# filp-3d: 事前学習された視覚言語モデルによる3次元マイナショットクラスインクリメンタル学習の強化

FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models ( http://arxiv.org/abs/2312.17051v1 )

ライセンス: Link先を確認
Wan Xu, Tianyu Huang, Tianyu Qu, Guanglei Yang, Yiwen Guo, Wangmeng Zuo(参考訳) FSCIL(Few-shot class-incremental Learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。 Contrastive Vision-Language Pre-Training(CLIP)モデルは、2Dの少数/ゼロショット学習タスクに対処する上で有効であるが、3D FSCILへの直接適用には制限がある。 これらの制限は、現実世界のスキャンされた3Dデータにおける特徴空間のずれと大きなノイズから生じる。 これらの課題に対処するために、冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。 RFEは、事前訓練されたモデル(PTM)の特徴空間において、一意の次元的削減を行うことにより、入力点雲とその埋め込みの特徴空間を整列させ、意味的整合性を損なうことなく、効率的に冗長な情報を除去する。 一方、SNCはグラフベースの3次元モデルであり、点雲内の堅牢な幾何学的情報をキャプチャし、プロジェクションによって失われた知識を増大させる。 既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。 従来の精度指標は偏りがあることが証明されており、この測定値は、古いクラスと新しいクラスのバランスを維持しながら、新しいクラスを学習するモデルの習熟度に焦点を当てている。 確立された3d fscilベンチマークとデータセットにおける実験結果から,我々のアプローチが既存の最先端手法を大きく上回っていることが分かる。

Few-shot class-incremental learning (FSCIL) aims to mitigate the catastrophic forgetting issue when a model is incrementally trained on limited data. While the Contrastive Vision-Language Pre-Training (CLIP) model has been effective in addressing 2D few/zero-shot learning tasks, its direct application to 3D FSCIL faces limitations. These limitations arise from feature space misalignment and significant noise in real-world scanned 3D data. To address these challenges, we introduce two novel components: the Redundant Feature Eliminator (RFE) and the Spatial Noise Compensator (SNC). RFE aligns the feature spaces of input point clouds and their embeddings by performing a unique dimensionality reduction on the feature space of pre-trained models (PTMs), effectively eliminating redundant information without compromising semantic integrity. On the other hand, SNC is a graph-based 3D model designed to capture robust geometric information within point clouds, thereby augmenting the knowledge lost due to projection, particularly when processing real-world scanned data. Considering the imbalance in existing 3D datasets, we also propose new evaluation metrics that offer a more nuanced assessment of a 3D FSCIL model. Traditional accuracy metrics are proved to be biased; thus, our metrics focus on the model's proficiency in learning new classes while maintaining the balance between old and new classes. Experimental results on both established 3D FSCIL benchmarks and our dataset demonstrate that our approach significantly outperforms existing state-of-the-art methods.
翻訳日:2023-12-29 15:49:22 公開日:2023-12-28
# KeDuSR:カーネルフリーマッチングによる現実のデュアルレンズスーパーリゾリューション

KeDuSR: Real-World Dual-Lens Super-Resolution via Kernel-Free Matching ( http://arxiv.org/abs/2312.17050v1 )

ライセンス: Link先を確認
Huanjing Yue, Zifan Cui, Kun Li, Jingyu Yang(参考訳) デュアルレンズスーパーレゾリューション(sr)は、望遠画像(ref)を利用して低解像度広角画像(lr入力)の超レゾリューションを支援することで、参照(ref)ベースのsrの実用的なシナリオである。 一般的なRefSRとは異なり、二重レンズSRのRefは重なり合う視野(FoV)領域のみをカバーする。 しかし、現在の二重レンズSR法はこれらの特性をほとんど利用せず、LR入力とRefの密マッチングを直接行う。 LRとRefの解像度差のため、マッチングは最良整合候補を見逃し、重なり合うFoV領域における一貫した構造を破壊する可能性がある。 これらと異なるのは,まずrefをlr入力の中心領域(つまり重複したfov領域)にアライメントし,グローバルウォーピングと局所ウォーピングを組み合わせて,アライメントrefをシャープかつ一貫性を持たせることを提案する。 次に、アライメントされたRefとLR中心を値キーペアとして定式化し、LRのコーナー領域をクエリとして定式化する。 このようにして、LRコーナ(クエリ)とLR中心(キー)領域のマッチングによるカーネルフリーマッチング戦略を提案し、対応するRef(値)をターゲットのコーナー領域にワープする。 我々のカーネルフリーマッチング戦略は、LRとRefの解像度ギャップを回避し、ネットワークの一般化能力を向上する。 さらに,DuSR-Realデータセットを(LR,Ref,HR)トリプルで構築する。 3つのデータセットに対する実験により,本手法は2番目に良い手法よりも大きなマージンで優れていることが示された。 私たちのコードとデータセットはhttps://github.com/craigie-hill/kedusrで利用可能です。

Dual-lens super-resolution (SR) is a practical scenario for reference (Ref) based SR by utilizing the telephoto image (Ref) to assist the super-resolution of the low-resolution wide-angle image (LR input). Different from general RefSR, the Ref in dual-lens SR only covers the overlapped field of view (FoV) area. However, current dual-lens SR methods rarely utilize these specific characteristics and directly perform dense matching between the LR input and Ref. Due to the resolution gap between LR and Ref, the matching may miss the best-matched candidate and destroy the consistent structures in the overlapped FoV area. Different from them, we propose to first align the Ref with the center region (namely the overlapped FoV area) of the LR input by combining global warping and local warping to make the aligned Ref be sharp and consistent. Then, we formulate the aligned Ref and LR center as value-key pairs, and the corner region of the LR is formulated as queries. In this way, we propose a kernel-free matching strategy by matching between the LR-corner (query) and LR-center (key) regions, and the corresponding aligned Ref (value) can be warped to the corner region of the target. Our kernel-free matching strategy avoids the resolution gap between LR and Ref, which makes our network have better generalization ability. In addition, we construct a DuSR-Real dataset with (LR, Ref, HR) triples, where the LR and HR are well aligned. Experiments on three datasets demonstrate that our method outperforms the second-best method by a large margin. Our code and dataset are available at https://github.com/Craigie-Hill/KeDuSR.
翻訳日:2023-12-29 15:48:51 公開日:2023-12-28
# ガウス図形モデルにおける構造学習のためのクロスバリデーションの不整合

Inconsistency of cross-validation for structure learning in Gaussian graphical models ( http://arxiv.org/abs/2312.17047v1 )

ライセンス: Link先を確認
Zhao Lyu, Wai Ming Tai, Mladen Kolar, Bryon Aragam(参考訳) 様々なモデル選択基準のメリットとトレードオフに関する長年の研究にもかかわらず、クロスバリデーションの振る舞いを解明する堅牢な結果を得ることは、依然として挑戦的な取り組みである。 本稿では,ガウス図形モデルの構造を識別する上で,クロスバリデーションの本質的限界を強調する。 予測オラクルを用いて最適化されたガウスのグラフィカルモデル内のノード近傍のlasso推定器が近傍を誤認する確率の有限個のサンプル境界を提供する。 結果は非有向非巡回グラフと有向非巡回グラフの両方に関係し,一般の疎共分散構造を包含する。 理論的な知見を裏付けるために,我々はこの不整合を実証的に調査し,その結果を他の一般的な情報基準と比較し,広範なシミュレーション研究を行った。 グラフィカルモデルの構造を学ぶために設計された多くのアルゴリズムはハイパーパラメータの選択を必要とするため、このハイパーパラメータの正確なキャリブレーションは固有構造を正確に推定するために最重要である。 その結果,この広く認識されている課題に光を当てた。

Despite numerous years of research into the merits and trade-offs of various model selection criteria, obtaining robust results that elucidate the behavior of cross-validation remains a challenging endeavor. In this paper, we highlight the inherent limitations of cross-validation when employed to discern the structure of a Gaussian graphical model. We provide finite-sample bounds on the probability that the Lasso estimator for the neighborhood of a node within a Gaussian graphical model, optimized using a prediction oracle, misidentifies the neighborhood. Our results pertain to both undirected and directed acyclic graphs, encompassing general, sparse covariance structures. To support our theoretical findings, we conduct an empirical investigation of this inconsistency by contrasting our outcomes with other commonly used information criteria through an extensive simulation study. Given that many algorithms designed to learn the structure of graphical models require hyperparameter selection, the precise calibration of this hyperparameter is paramount for accurately estimating the inherent structure. Consequently, our observations shed light on this widely recognized practical challenge.
翻訳日:2023-12-29 15:48:14 公開日:2023-12-28
# 変圧器の長さ外挿:位置符号化の観点から

Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding ( http://arxiv.org/abs/2312.17044v1 )

ライセンス: Link先を確認
Liang Zhao, Xiaocheng Feng, Xiachong Feng, Bin Qin, Ting Liu(参考訳) Transformerは、シークエンスにおける複雑な依存関係をモデル化する優れた能力のため、誕生以来、自然言語処理(NLP)の分野を嵐によって捉えてきた。 ほぼ全てのnlpタスクにおけるトランスフォーマーに基づく事前学習言語モデル(plms)の成功にもかかわらず、それらはすべて事前設定された長さ制限に苦しめられており、この成功は、見かけのデータを超えた長いシーケンス、すなわち長さの補間問題にまで拡張することができない。 長さ外挿は人間の言語能力の中核的な特徴であるため、研究者の間で大きな関心を集めている。 トランスフォーマーの長さ外挿を強化するため,多くの手法が提案され,主に外挿可能な位置符号化に焦点が当てられている。 本稿では,既存の手法をより深く理解し,今後の研究に刺激を与えることを目的として,位置符号化の観点から,これらの研究成果を統一的な表記法として整理的かつ体系的に検討する。

Transformer has taken the natural language processing (NLP) field by storm since birth, owing to its superior ability to model complex dependencies in sequences. Despite the great success of pretrained language models (PLMs) based on Transformer across almost all NLP tasks, they all suffer from a preset length limit and thus can hardly extend this success to longer sequences beyond seen data, namely the length extrapolation problem. Length extrapolation has aroused great interest among researchers, as it is the core feature of human language capacity. To enhance length extrapolation of Transformers, a plethora of methods have been proposed, mostly focusing on extrapolatable position encodings. In this article, we provide an organized and systematical review of these research efforts in a unified notation from a position encoding perspective, aiming to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.
翻訳日:2023-12-29 15:47:57 公開日:2023-12-28
# InsActor: 命令駆動型物理ベースキャラクタ

InsActor: Instruction-driven Physics-based Characters ( http://arxiv.org/abs/2312.17135v1 )

ライセンス: Link先を確認
Jiawei Ren, Mingyuan Zhang, Cunjun Yu, Xiao Ma, Liang Pan, Ziwei Liu(参考訳) 直感的な制御による物理系文字のアニメーション生成は多くの応用において望ましい課題であった。 しかし、高レベルの人間の指示を反映した物理シミュレーションアニメーションを生成することは、物理的環境の複雑さと人間の言語豊かさのために難しい問題である。 本稿では,拡散型人体運動モデルの最近の進歩を利用して物理系文字の命令駆動アニメーションを生成する,原理的生成フレームワークInsActorを提案する。 提案手法は, 柔軟に条件づけされた動作計画のための拡散ポリシーを用いて, 高レベルヒューマンインストラクションとキャラクタモーションの複雑な関係を捉えることをインサクタに与える。 計画された動作における無効な状態と不可能な状態遷移を克服するために、InsActorは低レベルのスキルを発見し、コンパクトな潜在空間における潜在スキルシーケンスにマップする計画を立てる。 広範囲な実験により、InsActorは命令駆動のモーション生成や命令駆動のウェイポイント誘導など、様々なタスクで最先端の結果が得られた。 特に、ハイレベルなヒューマンインストラクションを使って物理的にシミュレートされたアニメーションを生成するinsactorの能力は、特に豊富なインストラクションセットでロングホライゾンタスクを実行する際に有用なツールである。

Generating animation of physics-based characters with intuitive control has long been a desirable task with numerous applications. However, generating physically simulated animations that reflect high-level human instructions remains a difficult problem due to the complexity of physical environments and the richness of human language. In this paper, we present InsActor, a principled generative framework that leverages recent advancements in diffusion-based human motion models to produce instruction-driven animations of physics-based characters. Our framework empowers InsActor to capture complex relationships between high-level human instructions and character motions by employing diffusion policies for flexibly conditioned motion planning. To overcome invalid states and infeasible state transitions in planned motions, InsActor discovers low-level skills and maps plans to latent skill sequences in a compact latent space. Extensive experiments demonstrate that InsActor achieves state-of-the-art results on various tasks, including instruction-driven motion generation and instruction-driven waypoint heading. Notably, the ability of InsActor to generate physically simulated animations using high-level human instructions makes it a valuable tool, particularly in executing long-horizon tasks with a rich set of instructions.
翻訳日:2023-12-29 15:39:07 公開日:2023-12-28
# ARTrackV2: 自動回帰トラッカーの表示方法と説明方法

ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to Describe ( http://arxiv.org/abs/2312.17133v1 )

ライセンス: Link先を確認
Yifan Bai, Zeyang Zhao, Yihong Gong, Xing Wei(参考訳) ARTrackV2は、追跡の2つの重要な側面、すなわち、どこを見るか(ローカライゼーション)と、ターゲットオブジェクトをビデオフレーム間でどのように記述するか(外観分析)の2点を統合する。 artrackv2は、前者の基盤を基盤として、オブジェクトの軌跡を「読み出し」し、その外観を自己回帰的に「書き直す」ための統一的な生成フレームワークを導入することで、概念を拡張している。 このアプローチは、動きと視覚的特徴の合同進化をモデル化する時間連続的な方法論を育む。 さらに、ARTrackV2はその効率性と単純さで際立つもので、フレーム内オートレグレッションの低さと外観更新のための手動パラメータを回避している。 そのシンプルさにもかかわらず、artrackv2は、既存のベンチマークデータセットで最先端のパフォーマンスを実現し、優れた効率性を示している。 特にARTrackV2は、GOT-10kで79.5\%、TrackingNetで86.1\%のAOスコアを達成し、ARTrackより3.6 \times$速い。 コードはリリースされます。

We present ARTrackV2, which integrates two pivotal aspects of tracking: determining where to look (localization) and how to describe (appearance analysis) the target object across video frames. Building on the foundation of its predecessor, ARTrackV2 extends the concept by introducing a unified generative framework to "read out" object's trajectory and "retell" its appearance in an autoregressive manner. This approach fosters a time-continuous methodology that models the joint evolution of motion and visual features, guided by previous estimates. Furthermore, ARTrackV2 stands out for its efficiency and simplicity, obviating the less efficient intra-frame autoregression and hand-tuned parameters for appearance updates. Despite its simplicity, ARTrackV2 achieves state-of-the-art performance on prevailing benchmark datasets while demonstrating remarkable efficiency improvement. In particular, ARTrackV2 achieves AO score of 79.5\% on GOT-10k, and AUC of 86.1\% on TrackingNet while being $3.6 \times$ faster than ARTrack. The code will be released.
翻訳日:2023-12-29 15:38:45 公開日:2023-12-28
# 放射支配宇宙におけるt-$vacuumからの異方性粒子生成

Anisotropic particle creation from $T-$vacuum in the radiation dominated universe ( http://arxiv.org/abs/2312.17129v1 )

ライセンス: Link先を確認
Dhamar S. Astilla, Sujoy K. Modak and Enrique Salazar(参考訳) 我々は、(1+1)次元の放射支配宇宙 [modak, jhep 12, 031 (2020)] における量子場理論の文脈で定義された、$t-$vacuum状態の新たな特徴をさらに研究する。 ここで、以前の研究を現実的 (3+1) 次元に拡張し、t-$vacuum が初期宇宙の放射能において \emph{anisotropic particle creation} を引き起こすことを示した。 粒子が熱的かつ漸近的に定義されるホーキング効果やアンルー効果とは異なり、ここでは非熱的かつ時間依存である。 この新しい粒子生成の例は、粒子の励起状態としてt-$vacuumを想定する物理・cosmological observerのフレームで検出されるため興味深いため、最終的には観測と比較することができる。

We further investigate novel features of the $T-$vacuum state, originally defined in the context of quantum field theory in a (1+1) dimensional radiation dominated universe [Modak, JHEP 12, 031 (2020)]. Here we extend the previous work to a realistic (3+1) dimensional set up and show that $T-$vacuum causes an \emph{anisotropic particle creation} in the radiation dominated early universe. Unlike the Hawking or Unruh effect, where the particle content is thermal and asymptotically defined, here it is non-thermal and time dependent. This novel example of particle creation is interesting because these particles are detected in the frame of physical/cosmological observers, who envision the $T-$vacuum as a particle excited state, and therefore may eventually be compared with observations.
翻訳日:2023-12-29 15:38:25 公開日:2023-12-28
# 因果決定のための大規模言語モデル

Large Language Model for Causal Decision Making ( http://arxiv.org/abs/2312.17122v1 )

ライセンス: Link先を確認
Haitao Jiang, Lin Ge, Yuhe Gao, Jianian Wang, Rui Song(参考訳) 大規模言語モデル(llm)は、一般的なトピックに対する言語理解と推論の成功を示している。 しかし、因果決定のようなコーパス・レア概念におけるユーザ特定構造化データと知識に基づく推論能力はまだ限られている。 本研究では,LLM を LLM4Causal に微調整することで,因果的タスクを識別し,対応する関数を実行し,ユーザのクエリと提供されるデータセットに基づいてその数値結果を解釈できる可能性を検討する。 一方,より制御可能なgptプロンプトのためのデータ生成プロセスを提案し,(1)因果問題識別のためのcausal-retrieval-benchと因果関数呼び出しのための入力パラメータ抽出,(2)文脈内因果解釈のためのcausal-interpret-benchの2つの命令チューニングデータセットを提案する。 3つのケーススタディで、llm4causalは因果問題に対するエンドツーエンドソリューションを提供し、理解しやすい回答を提供できることを示した。 数値研究では、クエリによって与えられた正しい因果タスクを識別する能力も明らかにされている。

Large Language Models (LLMs) have shown their success in language understanding and reasoning on general topics. However, their capability to inference based on user-specified structured data and knowledge in corpus-rare concepts like causal decision-making is still limited. In this work, we explore the possibility of fine-tuning an open-sourced LLM into LLM4Causal, which can identify the causal task, execute a corresponding function, and interpret its numerical results based on users' queries and the provided dataset. Meanwhile, we propose a data generation process for more controllable GPT prompting and present two instruction-tuning datasets: (1) Causal-Retrieval-Bench for causal problem identification and input parameter extraction for causal function calling and (2) Causal-Interpret-Bench for in-context causal interpretation. With three case studies, we showed that LLM4Causal can deliver end-to-end solutions for causal problems and provide easy-to-understand answers. Numerical studies also reveal that it has a remarkable ability to identify the correct causal task given a query.
翻訳日:2023-12-29 15:38:08 公開日:2023-12-28
# 数学のための生成AI: Part I -- MathPile: 数学のための数十億ドル規模の事前学習コーパス

Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math ( http://arxiv.org/abs/2312.17120v1 )

ライセンス: Link先を確認
Zengzhi Wang, Rui Xia, Pengfei Liu(参考訳) 高品質で大規模なコーパスが基礎モデルの基盤となっている。 本稿では,約9.5億トークンからなる多様で高品質な算数中心コーパスである \textsc{mathpile} を紹介する。 その作成を通じて、我々は ``\emph{less is more}'' という原則に固執し、事前訓練段階であっても量よりもデータ品質の優位をしっかりと信じていた。 私たちの精巧なデータ収集と処理には、事前処理、事前フィルタリング、言語識別、クリーニング、フィルタリング、重複処理といった複雑なスイートが含まれていました。 さらに,ダウンストリームベンチマークテストセット上でデータ汚染検出を行い,重複を除去した。 私たちの \textsc{MathPile} が言語モデルの数学的推論能力を高めるのに役立つことを願っています。 私たちは、この分野の将来の発展を促進するために、処理に使用されるスクリプトを使って、さまざまなバージョンの \mathpileをオープンソース化する予定です。

High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce \textsc{MathPile}, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ``\emph{less is more}'', firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our \textsc{MathPile} can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
翻訳日:2023-12-29 15:37:46 公開日:2023-12-28
# 完全スパース3次元パノプティカル占有予測

Fully Sparse 3D Panoptic Occupancy Prediction ( http://arxiv.org/abs/2312.17118v1 )

ライセンス: Link先を確認
Haisong Liu, Haiguang Wang, Yang Chen, Zetong Yang, Jia Zeng, Li Chen, Limin Wang(参考訳) 運転予測は自動運転の領域において重要な役割を果たす。 従来の手法では、通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストをもたらす。 さらに、これらの手法は意味的占有に限られており、異なるインスタンスを区別できない。 そこで本研究では,スパルスOccと呼ばれる,スパルスなパン光学占有ネットワークを新たに導入する。 SparseOccは最初、視覚入力からスパース3D表現を再構築する。 その後、スパースインスタンスクエリを使用して、スパース3D表現から各オブジェクトインスタンスを予測する。 これらのインスタンスクエリはマスク誘導スパースサンプリングを介して2次元特徴と相互作用するため、コストのかかる高密度特徴やグローバルな注意を回避できる。 さらに、視覚中心のpanoptic占有率ベンチマークを初めて確立しました。 SparseOccはその有効性をOcc3D-nusデータセットで示し、平均的な連邦間(mIoU)を26.0で達成し、リアルタイムの推論速度は25.4 FPSを維持した。 SparseOccは、前の8フレームから時間的モデリングを取り入れることで、その性能をさらに向上させ、30.9 mIoUをホイッスルやベルなしで達成した。 コードは利用可能になる。

Occupancy prediction plays a pivotal role in the realm of autonomous driving. Previous methods typically constructs a dense 3D volume, neglecting the inherent sparsity of the scene, which results in a high computational cost. Furthermore, these methods are limited to semantic occupancy and fail to differentiate between distinct instances. To exploit the sparsity property and ensure instance-awareness, we introduce a novel fully sparse panoptic occupancy network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D representation from visual inputs. Subsequently, it employs sparse instance queries to predict each object instance from the sparse 3D representation. These instance queries interact with 2D features via mask-guided sparse sampling, thereby circumventing the need for costly dense features or global attention. Additionally, we have established the first-ever vision-centric panoptic occupancy benchmark. SparseOcc demonstrates its efficacy on the Occ3D-nus dataset by achieving a mean Intersection over Union (mIoU) of 26.0, while maintaining a real-time inference speed of 25.4 FPS. By incorporating temporal modeling from the preceding 8 frames, SparseOcc further improves its performance, achieving 30.9 mIoU without whistles and bells. Code will be made available.
翻訳日:2023-12-29 15:37:29 公開日:2023-12-28
# グラウンドング・プロンプター:長編ビデオにおける時間文グラウンドングのためのマルチモーダル情報付きllmの促進

Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos ( http://arxiv.org/abs/2312.17117v1 )

ライセンス: Link先を確認
Houlun Chen, Xin Wang, Hong Chen, Zihan Song, Jia Jia, Wenwu Zhu(参考訳) 与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的とした時間文グラウンディング(TSG)が注目を集めている。 既存の作品は主にショートビデオ用に設計されており、長いビデオではtsgの処理に失敗した。 一 長いビデオにおける複雑な文脈は、長いモーメントシーケンスよりも時間的推論を必要とする。 二 豊富な情報を有する文言を含む複数のモダリティは、長編ビデオにおけるコンテンツ理解のための特別な設計を必要とする。 これらの課題に対処するため,本研究では,マルチモーダル情報によるLLMのプロンプトにより,長いビデオでTSGを実行できるグラウンディング・プロンプター手法を提案する。 具体的には、まず、tsgタスクとその音声や視覚を含むマルチモーダル入力を圧縮タスクのテキスト化に変換する。 さらに,複雑な文脈下での時間的推論を強化するために,3つの折りたたみを含む境界知覚的促進戦略を提案する。 i) グローバル・ローカル・セマンティクスとノイズフィルタリングを段階的に組み合わせた,CoT(Multiscale Denoising Chain-of-Thought)を設計する。 二 特定の形式に従う合理的な予測を生成するためにLLMを制約できる妥当性原則を設定し、 三 単発インコンテキスト学習(ICL)を導入し、模倣による推論を強化し、TSGタスク理解におけるLLMを強化する。 実験では,tsgにマルチモーダル情報を含むllmを促すことの利点を明らかにするとともに,グラウンディング・プロンプター法の最先端性能を実証した。

Temporal Sentence Grounding (TSG), which aims to localize moments from videos based on the given natural language queries, has attracted widespread attention. Existing works are mainly designed for short videos, failing to handle TSG in long videos, which poses two challenges: i) complicated contexts in long videos require temporal reasoning over longer moment sequences, and ii) multiple modalities including textual speech with rich information require special designs for content understanding in long videos. To tackle these challenges, in this work we propose a Grounding-Prompter method, which is capable of conducting TSG in long videos through prompting LLM with multimodal information. In detail, we first transform the TSG task and its multimodal inputs including speech and visual, into compressed task textualization. Furthermore, to enhance temporal reasoning under complicated contexts, a Boundary-Perceptive Prompting strategy is proposed, which contains three folds: i) we design a novel Multiscale Denoising Chain-of-Thought (CoT) to combine global and local semantics with noise filtering step by step, ii) we set up validity principles capable of constraining LLM to generate reasonable predictions following specific formats, and iii) we introduce one-shot In-Context-Learning (ICL) to boost reasoning through imitation, enhancing LLM in TSG task understanding. Experiments demonstrate the state-of-the-art performance of our Grounding-Prompter method, revealing the benefits of prompting LLM with multimodal information for TSG in long videos.
翻訳日:2023-12-29 15:37:05 公開日:2023-12-28
# セグメンテーションモデルによる一般化可能な視覚強化学習

Generalizable Visual Reinforcement Learning with Segment Anything Model ( http://arxiv.org/abs/2312.17116v1 )

ライセンス: Link先を確認
Ziyu Wang, Yanjie Ze, Yifei Sun, Zhecheng Yuan, Huazhe Xu(参考訳) 見えない環境に一般化できる学習政策は、視覚強化学習(RL)における根本的な課題である。 現在のほとんどの手法は補助的な監督、事前訓練、データ拡張による堅牢な視覚的表現の獲得に重点を置いているが、現代のビジョン基盤モデルの可能性は低いままである。 本稿では,Segment Anything Model for Generalizable Visual RL (SAM-G)を紹介する。これは,Segment Anything Model (SAM)の迅速なセグメンテーション能力を利用して視覚的RLエージェントの一般化能力を向上する新しいフレームワークである。 我々は,DINOv2 と SAM の画像特徴を利用して SAM へのポイントプロンプトとして対応し,SAM はエージェントに対して,高品質なマスク付き画像を直接生成する。 8つのDMControlタスクと3つのAdroitタスクで評価され、SAM-GはRLエージェントのアーキテクチャを変更することなく視覚一般化能力を著しく改善する。 特にSAM-Gは、DMControlとAdroitの挑戦的なビデオハードセットに対して、最先端の手法と比較して44%と29%の相対的な改善を実現している。 ビデオとコード:https://yanjieze.com/SAM-G/

Learning policies that can generalize to unseen environments is a fundamental challenge in visual reinforcement learning (RL). While most current methods focus on acquiring robust visual representations through auxiliary supervision, pre-training, or data augmentation, the potential of modern vision foundation models remains underleveraged. In this work, we introduce Segment Anything Model for Generalizable visual RL (SAM-G), a novel framework that leverages the promptable segmentation ability of Segment Anything Model (SAM) to enhance the generalization capabilities of visual RL agents. We utilize image features from DINOv2 and SAM to find correspondence as point prompts to SAM, and then SAM produces high-quality masked images for agents directly. Evaluated across 8 DMControl tasks and 3 Adroit tasks, SAM-G significantly improves the visual generalization ability without altering the RL agents' architecture but merely their observations. Notably, SAM-G achieves 44% and 29% relative improvements on the challenging video hard setting on DMControl and Adroit respectively, compared to state-of-the-art methods. Video and code: https://yanjieze.com/SAM-G/
翻訳日:2023-12-29 15:36:36 公開日:2023-12-28
# 信じられるAIエージェントからどこまで遠いのか? 人の行動シミュレーションの信頼性評価のための枠組み

How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation ( http://arxiv.org/abs/2312.17115v1 )

ライセンス: Link先を確認
Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu(参考訳) aiエージェントの人間の行動シミュレーションは、エージェントが信頼できる品質を持つ必要があるため、エージェントに対する信頼を確立し、エージェントの目標の達成を合理化する上で重要である。 近年のLarge Language Model (LLM) ベースのエージェントは人間の行動シミュレーションを改善しているが、LLM固有の課題(例えば、長期のコンテキストモデリング)は、その信頼性を損なう可能性がある。 これにより、AIエージェントの信頼性を評価することが必須となる。 残念ながら、先行研究はLLMの欠陥の負の影響を無視することが多い。 これらのギャップに対処するために、LLMベースのエージェントの信頼性を評価するための2つの指標(一貫性と堅牢性)とベンチマーク(SimulateBench)を紹介する。 私たちはエージェントを見つける (i)長大なプロファイル入力で提示された文字情報を正確に描写するのに苦労すること。 (二)プロファイルの乱れに対する脆弱性、及び (iii)は、その全体の信頼性に影響を与える重要な要因に大きく影響される。 CodeとSimulateBenchはhttps://github.com/GAIR-NLP/GPTManで公開されている。

Human behavior simulation of AI agents necessitates the agents to possess a quality of believability, which is crucial as it facilitates users in establishing trust toward the agents and streamlines the fulfillment of the agents' goal. While recent advancements in Large Language Model (LLM) based agents have improved human behavior simulation, challenges inherent to LLMs (e.g., long context modeling) can undermine their believability. Consequently, evaluating AI agent believability becomes imperative. Unfortunately, prior research often neglects the negative impacts of LLM deficiencies. To address these gaps, we introduce two metrics for assessing LLM-based agent believability: consistency, and robustness, together with a benchmark, SimulateBench, with which, we evaluate the consistency and robustness of agents implemented with popular LLMs. We find that agents (i) struggle to accurately depict character information when presented with lengthy profile inputs; (ii) exhibit vulnerability to profile perturbations; and (iii) are significantly affected by certain key factors that impact their overall believability. Code and SimulateBench are public at https://github.com/GAIR-NLP/GPTMan.
翻訳日:2023-12-29 15:36:11 公開日:2023-12-28
# オンラインテンソル推論

Online Tensor Inference ( http://arxiv.org/abs/2312.17111v1 )

ライセンス: Link先を確認
Xin Wen (1), Will Wei Sun (2), Yichen Zhang (2) ((1) University of Science and Technology of China, (2) Purdue University)(参考訳) 最近の技術進歩は、リアルタイム処理と順次到着するテンソルデータの分析を要求する現代の応用につながった。 従来のオフライン学習は、各計算繰り返しにおける全てのデータの保存と利用を伴い、その明るさのため高次元テンソルデータには実用的ではない。 さらに,従来の低ランクテンソル法では,リアルタイム予測や情報意思決定に不可欠な統計的推論能力が欠如している。 本稿では,低ランクテンソル学習のための新しいオンライン推論フレームワークを導入することで,これらの課題に対処する。 提案手法では,SGD (Stochastic Gradient Descent) を用いて,大規模なメモリを必要とすることなく効率的なリアルタイムデータ処理を実現する。 すべての履歴データを格納するオフラインモデルにおける推定誤差の最小値に近いオンライン低ランクsgd推定器の非漸近収束結果を確立する。 この基礎に基づいて,低ランクテンソル学習における逐次統計的推論のための,単純かつ強力なオンラインデバイアス手法を提案する。 推定と推論の両方をカバーするオンライン手続き全体は、データの分割や履歴データの保存の必要性をなくし、オンザフライ仮説テストに適している。 データ収集のシーケンシャルな性質を考えると、オフラインメソッドとサンプル分割に依存する従来の分析は不十分です。 分析では,構築したスーパーマーチンガールの総和を制御し,解経路全体の推定値が良性領域内に留まることを保証する。 さらに、新しいスペクトル表現ツールを用いて、反復推定の統計的依存関係に対処し、所望の漸近正規性を確立する。

Recent technological advances have led to contemporary applications that demand real-time processing and analysis of sequentially arriving tensor data. Traditional offline learning, involving the storage and utilization of all data in each computational iteration, becomes impractical for high-dimensional tensor data due to its voluminous size. Furthermore, existing low-rank tensor methods lack the capability for statistical inference in an online fashion, which is essential for real-time predictions and informed decision-making. This paper addresses these challenges by introducing a novel online inference framework for low-rank tensor learning. Our approach employs Stochastic Gradient Descent (SGD) to enable efficient real-time data processing without extensive memory requirements, thereby significantly reducing computational demands. We establish a non-asymptotic convergence result for the online low-rank SGD estimator, nearly matches the minimax optimal rate of estimation error in offline models that store all historical data. Building upon this foundation, we propose a simple yet powerful online debiasing approach for sequential statistical inference in low-rank tensor learning. The entire online procedure, covering both estimation and inference, eliminates the need for data splitting or storing historical data, making it suitable for on-the-fly hypothesis testing. Given the sequential nature of our data collection, traditional analyses relying on offline methods and sample splitting are inadequate. In our analysis, we control the sum of constructed super-martingales to ensure estimates along the entire solution path remain within the benign region. Additionally, a novel spectral representation tool is employed to address statistical dependencies among iterative estimates, establishing the desired asymptotic normality.
翻訳日:2023-12-29 15:35:54 公開日:2023-12-28
# MIVC:ビジュアル言語モデルのための複数のインスタンスビジュアルコンポーネント

MIVC: Multiple Instance Visual Component for Visual-Language Models ( http://arxiv.org/abs/2312.17109v1 )

ライセンス: Link先を確認
Wenyi Wu, Qi Li, Wenliang Zhong, Junzhou Huang(参考訳) ビジョン言語モデルは幅広いタスクにまたがって広く研究され、十分な性能を達成している。 しかし、さまざまな画像を通してエンティティ理解を統一し、生成タスクのために事前訓練された言語モデルと整合させる方法については、未検討である。 本稿では,様々な画像入力とオフザシェルフ視覚言語モデルとのギャップを,ニューラルネットワークを介して置換不変の方法で集約することで埋める,汎用的なマルチインスタンスビジュアルコンポーネントMIVCを提案する。 我々は,mivcをビジュアル言語モデルにプラグインすることで,製品毎に複数のイメージを持つ公開電子商取引データセット上で,視覚的質問応答,分類,キャプションタスクを一貫して改善できることを示す。 さらに,各画像の下流タスクへの寄与に関する洞察をコンポーネントが提供することを示す。

Vision-language models have been widely explored across a wide range of tasks and achieve satisfactory performance. However, it's under-explored how to consolidate entity understanding through a varying number of images and to align it with the pre-trained language models for generative tasks. In this paper, we propose MIVC, a general multiple instance visual component to bridge the gap between various image inputs with off-the-shelf vision-language models by aggregating visual representations in a permutation-invariant fashion through a neural network. We show that MIVC could be plugged into the visual-language models to improve the model performance consistently on visual question answering, classification and captioning tasks on a public available e-commerce dataset with multiple images per product. Furthermore, we show that the component provides insight into the contribution of each image to the downstream tasks.
翻訳日:2023-12-29 15:35:27 公開日:2023-12-28
# 欧州情報大学(ice: the intelligence college in europe) - 欧州情報機関の創設の試み

The Intelligence College in Europe (ICE): An Effort to Create a European Intelligence Community ( http://arxiv.org/abs/2312.17107v1 )

ライセンス: Link先を確認
Uwe M. Borghoff and Lars Berger and Fran\c{c}ois Fischer(参考訳) 欧州安全保障条約の履行において、いわゆる「知能共同体」の役者は中心的な役割を果たす。 政治や軍事の意思決定者に重要な分析や情報を提供する。 欧州情報大学(ice)は、汎ヨーロッパレベルでの諜報・セキュリティ研究における大学院レベルの学術教育と同様に、プロの諜報訓練を提供する最初の機関である。 ドイツ連邦大学ミュンヘン校(ドイツ語版)とベルリンの連邦行政科学大学(ドイツ語版)(ドイツ語版)の合同事業であるドイツ情報セキュリティ研究(ドイツ語版)(ドイツ語版) (MISS) の経験の恩恵を受けている。 この論文の主な貢献として、モジュールの反テロリズム(ミスから適応)について、ヨーロッパ大陸の諜報専門家の聴衆に話すために、段階的なモジュールをどのように修正できるかのケーススタディとして、より詳細に検討する。

In fulfilling the European security commitment, the actors of the so-called "Intelligence Community" play a central role. They provide political and military decision-makers with important analyses and information. The Intelligence College in Europe (ICE) is the first entity to offer professional intelligence training as well as postgraduate level academic education in intelligence and security studies at a pan-European level. In developing its postgraduate provision, ICE has benefited from the experience of the German Master of Intelligence and Security Studies (MISS), which is a joint effort of the University of the Bundeswehr Munich and the Department of Intelligence at the Federal University of Administrative Sciences in Berlin. As a main contribution of this paper, the module Counterterrorism (adapted from the MISS) is examined in more detail as a case study of how postgraduate modules can be modified to speak to a pan-European audience of intelligence professionals.
翻訳日:2023-12-29 15:35:11 公開日:2023-12-28
# ロバストな多視点3次元ポーズ再構成のための幾何偏差トランスフォーマー

Geometry-Biased Transformer for Robust Multi-View 3D Human Pose Reconstruction ( http://arxiv.org/abs/2312.17106v1 )

ライセンス: Link先を確認
Olivier Moliner, Sangxia Huang and Kalle {\AA}str\"om(参考訳) 咬合下での複数視点からの3次元人物ポーズ推定における課題を,重なり合いの少ない視点で解決する。 回帰問題として,多視点・単人物3次元ポーズ再構成にアプローチし,多視点2次元ポーズシーケンスから3次元ポーズを推定する新しいエンコーダ・デコーダトランスフォーマアーキテクチャを提案する。 エンコーダは、異なるビューや時間にわたって検出された2D骨格関節を洗練し、グローバルな自己注意を通じて多視点および時間情報を融合する。 本稿では,映像間の幾何学的関係を効果的に活用し,幾何バイアスの注意機構を組み込むことによりエンコーダを強化する。 さらに,2次元ポーズ検出器によって提供される検出スコアを用いて,2次元検出の信頼性に基づいて,エンコーダの注意をさらに誘導する。 デコーダはその後、これらの洗練されたトークンから3Dポーズシーケンスを回帰し、各ジョイントに対する事前定義されたクエリを使用する。 そこで我々は,シーンセンタリング,合成ビュー,トークンドロップアウトなどの手法を実装した。 我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットについて広範な実験を行った。 以上より,従来の三角測量法では難解なシナリオであるオクルードシーン,特にビュー数が少ない場面において,我々のアプローチの有効性を示す。

We address the challenges in estimating 3D human poses from multiple views under occlusion and with limited overlapping views. We approach multi-view, single-person 3D human pose reconstruction as a regression problem and propose a novel encoder-decoder Transformer architecture to estimate 3D poses from multi-view 2D pose sequences. The encoder refines 2D skeleton joints detected across different views and times, fusing multi-view and temporal information through global self-attention. We enhance the encoder by incorporating a geometry-biased attention mechanism, effectively leveraging geometric relationships between views. Additionally, we use detection scores provided by the 2D pose detector to further guide the encoder's attention based on the reliability of the 2D detections. The decoder subsequently regresses the 3D pose sequence from these refined tokens, using pre-defined queries for each joint. To enhance the generalization of our method to unseen scenes and improve resilience to missing joints, we implement strategies including scene centering, synthetic views, and token dropout. We conduct extensive experiments on three benchmark public datasets, Human3.6M, CMU Panoptic and Occlusion-Persons. Our results demonstrate the efficacy of our approach, particularly in occluded scenes and when few views are available, which are traditionally challenging scenarios for triangulation-based methods.
翻訳日:2023-12-29 15:34:49 公開日:2023-12-28
# 熱環境下での単一分子イオンの量子状態追跡と制御

Quantum state tracking and control of a single molecular ion in a thermal environment ( http://arxiv.org/abs/2312.17104v1 )

ライセンス: Link先を確認
Yu Liu, Julian Schmidt, Zhimin Liu, David R. Leibrandt, Dietrich Leibfried, Chin-wen Chou(参考訳) 分子量子状態の進化は、化学反応のダイナミクス、精密測定、分子ベースの量子技術など多くの研究分野の中心である。 進化の詳細はよく分かっていないが、分子のアンサンブル上で測定を行う場合や、分子が環境摂動を受ける場合などである。 本稿では,熱放射によって駆動される単一分子の回転状態間の量子ジャンプをリアルタイムに観察し,数秒の時間スケールで分子を選択状態に維持する手法を提案する。 分子状態検出は、量子生物学的分光法によって非破壊的に達成され、分子の状態に関する情報は、読み出しのために共トラップされた「論理」原子イオンに転送される。 状態検出と操作に対する我々のアプローチは、幅広い分子イオン種に適用可能であり、量子科学、分子物理学、イオン中性化学を含む多くの分野において、それらの利用が促進される。 測定された回転遷移速度は、背景熱放射における異方性を示し、一つの分子イオンを関連する遷移周波数における周囲磁場の強さのその場プローブとして用いる可能性を示している。

The evolution of molecular quantum states is central to many research areas, including chemical reaction dynamics, precision measurement, and molecule based quantum technology. Details of the evolution is often obscured, however, when measurements are performed on an ensemble of molecules, or when the molecules are subjected to environmental perturbations. Here, we report real-time observations of quantum jumps between rotational states of a single molecule driven by thermal radiation, and present techniques to maintain the molecule in a chosen state over a timescale of tens of seconds. Molecular state detection is achieved nondestructively through quantum-logic spectroscopy, in which information on the state of the molecule is transferred to a co-trapped "logic" atomic ion for readout. Our approaches for state detection and manipulation are applicable to a wide range of molecular ion species, thereby facilitating their use in many fields of study including quantum science, molecular physics, and ion-neutral chemistry. The measured rotational transition rates show anisotropy in the background thermal radiation, which points to the possibility of using a single molecular ion as an in-situ probe for the strengths of ambient fields at the relevant transition frequencies.
翻訳日:2023-12-29 15:34:24 公開日:2023-12-28
# TSPP: 時系列予測のための統一ベンチマークツール

TSPP: A Unified Benchmarking Tool for Time-series Forecasting ( http://arxiv.org/abs/2312.17100v1 )

ライセンス: Link先を確認
Jan B\k{a}czek, Dmytro Zhylko, Gilberto Titericz, Sajad Darabi, Jean-Francois Puget, Izzy Putterman, Dawid Majchrowski, Anmol Gupta, Kyle Kranen, Pawel Morkisz(参考訳) 近年,不正検出やレコメンダシステムなど,多くのタスクにおいて,ディープグラフ学習アルゴリズムの開発とデプロイに対する関心が高まっている。 しかし、公開可能なグラフ構造化データセットの数は限られており、そのほとんどは本番サイズのアプリケーションに比べて小さいか、あるいはアプリケーションドメインに限られている。 この作業は、数十兆のエッジと数十億のノードを持つ実運用規模のグラフにデータセットをスケールするためのスケーラブルな合成グラフ生成ツールを提案することで、この欠点に対処する。 このツールは、プロプライエタリなデータセットから一連のパラメトリックモデルを学習し、プロトタイプ開発と新規アプリケーションの増加する合成データに関する様々なグラフ手法を研究するために研究者にリリースすることができる。 一連のデータセットにまたがるフレームワークの一般化性を実証し、構造的および特徴分布を模倣するとともに、ベンチマークやモデル開発に有用であることを示す様々なサイズに拡張する能力を示す。

Recently there has been increasing interest in developing and deploying deep graph learning algorithms for many tasks, such as fraud detection and recommender systems. Albeit, there is a limited number of publicly available graph-structured datasets, most of which are tiny compared to production-sized applications or are limited in their application domain. This work tackles this shortcoming by proposing a scalable synthetic graph generation tool to scale the datasets to production-size graphs with trillions of edges and billions of nodes. The tool learns a series of parametric models from proprietary datasets that can be released to researchers to study various graph methods on the synthetic data increasing prototype development and novel applications. We demonstrate the generalizability of the framework across a series of datasets, mimicking structural and feature distributions as well as the ability to scale them across varying sizes demonstrating their usefulness for benchmarking and model development.
翻訳日:2023-12-29 15:34:04 公開日:2023-12-28
# 平衡から外れた対称性:時間結晶からブレッドドライブとフロッケ符号へ

SymTFT out of equilibrium: from time crystals to braided drives and Floquet codes ( http://arxiv.org/abs/2312.17176v1 )

ライセンス: Link先を確認
Vedant Motamarri, Campbell McLauchlan, Benjamin B\'eri(参考訳) シンメトリートポロジカル場理論(英: Symmetry Topological Field Theory、SymTFT)は、量子多体系の普遍的な特徴を1つの高次元における位相秩序の境界と見なして捉える枠組みである。 これは静的な低エネルギー設定において多くの洞察を得た。 本稿では,SymTFTの非平衡性について,一次元(1次元)駆動システムとその2次元SymTFTに着目して検討する。 駆動環境では境界条件(BC)は動的であり、空間的にも時間的にも適用できる。 トポロジカル演算子を用いてSymTFTにどのように入ってくるかを示し、1次元力学の新しい結果を明らかにする。 タイムクリスタル (TCs) を対称性に富んだ時間B BCを持つ系として明らかにすること、境界TCs、フロケ双対性のみと考えられる位相において頑健なバルクTC特徴を発見したこと、フロケ符号を双対性を持つ系の時空双対として同定することなどが含まれる。 また,双対性に富むbcs力学系を構築することにより,双対性欠陥の非可換ブレイディングが対称性に入り込み,系とbcs間の対称性電荷の正確なパンピングなどの効果を示す。 我々は、$\mathbb{z}_2$-symmetric 1d 系のアイデアを説明するが、我々の構成は任意の有限アーベル対称性に適用できる。

Symmetry Topological Field Theory (SymTFT) is a framework to capture universal features of quantum many-body systems by viewing them as a boundary of topological order in one higher dimension. This yielded numerous insights in static low-energy settings. Here we study what SymTFT can tell about nonequilibrium, focusing on one-dimensional (1D) driven systems and their 2D SymTFT. In driven settings, boundary conditions (BCs) can be dynamical and can apply both spatially and temporally. We show how this enters SymTFT via topological operators, which we then use to uncover several new results for 1D dynamics. These include revealing time crystals (TCs) as systems with symmetry-twisted temporal BCs, finding robust bulk TC features in phases thought to be only boundary TCs, Floquet dualities, or identifying Floquet codes as space-time duals to systems with duality-twisted spatial BCs. We also show how, by making duality-twisted BCs dynamical, non-Abelian braiding of duality defects can enter SymTFT, leading to effects such as the exact pumping of symmetry charges between a system and its BCs. We illustrate our ideas for $\mathbb{Z}_2$-symmetric 1D systems, but our construction applies for any finite Abelian symmetry.
翻訳日:2023-12-29 15:23:13 公開日:2023-12-28
# マルチモーダル情報を用いた画像テキスト表現の視覚的説明

Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution ( http://arxiv.org/abs/2312.17174v1 )

ライセンス: Link先を確認
Ying Wang, Tim G. J. Rudner, Andrew Gordon Wilson(参考訳) 視覚言語による事前学習モデルは非常に成功したが、その安全性に重要な設定への応用は、解釈可能性の欠如によって制限されている。 クリップなどの視覚言語モデルの解釈性を向上させるために,視覚やテキストの特徴を維持しつつ,無関係な情報を圧縮する潜在表現を学習するマルチモーダル情報ボトルネック(m2ib)手法を提案する。 本稿では,M2IBを視覚言語事前学習モデルの帰属分析に適用し,帰属精度を高め,医療などの安全クリティカル領域に適用した場合の解釈可能性を向上させる方法を示す。 重要な点として、一般的に使われるユニモーダル属性法とは違って、M2IBは基礎的な真理ラベルを必要としないため、複数のモダリティがあるときに視覚言語で事前訓練されたモデルの表現を監査することができる。 CLIPを例として、M2IB属性の有効性を示し、勾配に基づく、摂動に基づく、注意に基づく属性法を質的かつ定量的に上回ることを示す。

Vision-language pretrained models have seen remarkable success, but their application to safety-critical settings is limited by their lack of interpretability. To improve the interpretability of vision-language models such as CLIP, we propose a multi-modal information bottleneck (M2IB) approach that learns latent representations that compress irrelevant information while preserving relevant visual and textual features. We demonstrate how M2IB can be applied to attribution analysis of vision-language pretrained models, increasing attribution accuracy and improving the interpretability of such models when applied to safety-critical domains such as healthcare. Crucially, unlike commonly used unimodal attribution methods, M2IB does not require ground truth labels, making it possible to audit representations of vision-language pretrained models when multiple modalities but no ground-truth data is available. Using CLIP as an example, we demonstrate the effectiveness of M2IB attribution and show that it outperforms gradient-based, perturbation-based, and attention-based attribution methods both qualitatively and quantitatively.
翻訳日:2023-12-29 15:22:42 公開日:2023-12-28
# 大規模言語モデルに対する空でない一般化境界

Non-Vacuous Generalization Bounds for Large Language Models ( http://arxiv.org/abs/2312.17173v1 )

ライセンス: Link先を確認
Sanae Lotfi, Marc Finzi, Yilun Kuang, Tim G. J. Rudner, Micah Goldblum, Andrew Gordon Wilson(参考訳) 現代の言語モデルには何十億というパラメータが含まれており、トレーニングデータを超えて一般化できるか、単にトレーニングコーパスを再現するかという疑問を提起している。 本研究では,事前訓練された大言語モデル (LLM) に対して,非空の一般化境界を初めて提供し,言語モデルが未知のデータに一般化する正規性を発見できることを示す。 特に,予測スムージングを用いた非バウンドログ類似損失に有効な圧縮バウンダリを導出し,バウンダリを拡張してサブサンプリング処理を行い,大規模データセットにおけるバウンダリ計算を高速化する。 非空一般化境界に対する極端な圧縮レベルを達成するために、低次元非線形パラメータ化であるSubLoRAを考案する。 このアプローチを用いることで、より大きなモデルはより一般化境界を持ち、より小さなモデルよりも圧縮性が高いことが分かる。

Modern language models can contain billions of parameters, raising the question of whether they can generalize beyond the training data or simply regurgitate their training corpora. We provide the first non-vacuous generalization bounds for pretrained large language models (LLMs), indicating that language models are capable of discovering regularities that generalize to unseen data. In particular, we derive a compression bound that is valid for the unbounded log-likelihood loss using prediction smoothing, and we extend the bound to handle subsampling, accelerating bound computation on massive datasets. To achieve the extreme level of compression required for non-vacuous generalization bounds, we devise SubLoRA, a low-dimensional non-linear parameterization. Using this approach, we find that larger models have better generalization bounds and are more compressible than smaller models.
翻訳日:2023-12-29 15:22:20 公開日:2023-12-28
# Unified-IO 2: 視覚、言語、オーディオ、アクションによる自動回帰マルチモーダルモデルのスケーリング

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action ( http://arxiv.org/abs/2312.17172v1 )

ライセンス: Link先を確認
Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi(参考訳) 我々は,画像,テキスト,音声,行動の理解と生成が可能な,最初の自己回帰型マルチモーダルモデルUnified-IO 2を提案する。 異なるモダリティを統一するために、画像、テキスト、音声、アクション、バウンディングボックスなどの入力と出力を共有セマンティクス空間にトークン化し、それらを単一のエンコーダ・デコーダトランスフォーマモデルで処理します。 このような多様なモダリティを持つトレーニングは難しいため、モデルトレーニングを安定させるために様々なアーキテクチャの改善を提案する。 我々は,デノイザー目標のマルチモーダル混合を用いて,多種多様なソースからの大規模マルチモーダル事前学習コーパスをスクラッチから学習する。 マルチモーダルな指示に従うなど,幅広いスキルセットを学ぶために,プロンプトと拡張を伴う120のデータセットのアンサンブルを構築し,微調整する。 単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成し、画像生成と理解、自然言語理解、ビデオとオーディオ理解、ロボット操作を含む35以上のベンチマークで強力な結果が得られる。 すべてのモデルを研究コミュニティにリリースします。

We present Unified-IO 2, the first autoregressive multimodal model that is capable of understanding and generating image, text, audio, and action. To unify different modalities, we tokenize inputs and outputs -- images, text, audio, action, bounding boxes, etc., into a shared semantic space and then process them with a single encoder-decoder transformer model. Since training with such diverse modalities is challenging, we propose various architectural improvements to stabilize model training. We train our model from scratch on a large multimodal pre-training corpus from diverse sources with a multimodal mixture of denoisers objective. To learn an expansive set of skills, such as following multimodal instructions, we construct and finetune on an ensemble of 120 datasets with prompts and augmentations. With a single unified model, Unified-IO 2 achieves state-of-the-art performance on the GRIT benchmark and strong results in more than 35 benchmarks, including image generation and understanding, natural language understanding, video and audio understanding, and robotic manipulation. We release all our models to the research community.
翻訳日:2023-12-29 15:22:04 公開日:2023-12-28
# コードレビュアーのレコメンデーションを改善する - 正確性、レイテンシ、ワークロード、傍観者

Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and Bystanders ( http://arxiv.org/abs/2312.17169v1 )

ライセンス: Link先を確認
Peter C. Rigby, Seth Rogers, Sadruddin Saleem, Parth Suresh, Daniel Suskin, Patrick Riggs, Chandra Maddila, Nachiappan Nagappan(参考訳) コードレビューは、ピアエンジニアがコードを統合して本番環境にリリースする前に手動で検査することを保証する。 Metaでは、ソーシャルネットワーキングからカレンダやミーティングツールといったソフトウェア開発インフラストラクチャ、継続的インテグレーションなど、幅広いソフトウェアを大規模に開発しています。 私たちは常にコードレビューシステムを改善していますが、この作業では10万のエンジニアと100万のレビューで実施された一連の実験について述べています。 2018年から運用されているRevRecV1のレコメンデーションに基づいています。 我々は、レビュアーがファイルの以前のオーサシップに基づいて割り当てられていることを発見した。 我々は,本論文の特徴をレビューし,revrecv2を実機で実験した。 新しいモデルの最も重要な特徴は、著者とレビュアーの親しみであり、全体の精度が14ポイント向上したことです。 以前の研究では、レビュアーの作業負荷が歪んでいることが示されている。 作業負荷のバランスをとるために、各候補レビュアの作業負荷によってレビュアスコアをRevRecV2から分割する。 RevRecWLを開発するために,複数種類のワークロードを実験した。 作業負荷による候補レビュアーのランク付けは、しばしば、より低い作業負荷が著者によって選択されるレビュアーにつながる。 傍観者効果は、レビュアーのチームがレビューを割り当てられた時に起こりうる。 推薦レビュアーの1つをランダムに割り当てることで、傍観者効果を緩和する。 レビューに責任を持つ個人を持つことで、レビューに要する時間を-11%削減できる。

Code review ensures that a peer engineer manually examines the code before it is integrated and released into production. At Meta, we develop a wide range of software at scale, from social networking to software development infrastructure, such as calendar and meeting tools to continuous integration. We are constantly improving our code review system, and in this work we describe a series of experiments that were conducted across 10's of thousands of engineers and 100's of thousands of reviews. We build upon the recommender that has been in production since 2018, RevRecV1. We found that reviewers were being assigned based on prior authorship of files. We reviewed the literature for successful features and experimented with them with RevRecV2 in production. The most important feature in our new model was the familiarity of the author and reviewer, we saw an overall improvement in accuracy of 14 percentage points. Prior research has shown that reviewer workload is skewed. To balance workload, we divide the reviewer score from RevRecV2 by each candidate reviewers workload. We experimented with multiple types of workload to develop RevRecWL. We find that reranking candidate reviewers by workload often leads to a reviewers with lower workload being selected by authors. The bystander effect can occur when a team of reviewers is assigned the review. We mitigate the bystander effect by randomly assigning one of the recommended reviewers. Having an individual who is responsible for the review, reduces the time take for reviews by -11%.
翻訳日:2023-12-29 15:21:44 公開日:2023-12-28
# オフライン強化学習においてアクティブサンプリングは因果拡散を抑制するか?

Can Active Sampling Reduce Causal Confusion in Offline Reinforcement Learning? ( http://arxiv.org/abs/2312.17168v1 )

ライセンス: Link先を確認
Gunshi Gupta, Tim G. J. Rudner, Rowan Thomas McAllister, Adrien Gaidon, Yarin Gal(参考訳) 因果的混乱(causal confusion)とは、エージェントがデータ内の不完全なスプリアス相関を反映したポリシーを学ぶ現象である。 このようなポリシーは、トレーニングデータの大半にそのような急激な相関がある場合、トレーニング中に最適であるように見える。 この現象は特にロボット工学のような分野において顕著であり、エージェントの開ループ性能と閉ループ性能の間に大きなギャップがある可能性がある。 このような環境では、因果的に混乱したモデルがトレーニング中のオープンループメトリックスでうまく機能するように見えるが、現実世界にデプロイすると壊滅的に失敗する。 本稿では,オフライン強化学習における因果的混乱について検討する。 実演データセットから適切なポイントを選択的にサンプリングすることで、オフライン強化学習エージェントが環境の根本原因メカニズムを曖昧にし、オフライン強化学習における因果的混乱を緩和し、より安全な展開モデルを作成することができるかを検討する。 この質問に答えるために,因果曖昧性を示すオフライン強化学習データセットのセットを検討し,評価時の因果混乱を軽減するためのアクティブサンプリング手法の能力を評価する。 トレーニングが進むにつれて,一様および活発なサンプリング技術が因果的混乱を一貫して低減し,一様サンプリングよりも効果的にアクティブサンプリングを行うことができるという実証的証拠を提供する。

Causal confusion is a phenomenon where an agent learns a policy that reflects imperfect spurious correlations in the data. Such a policy may falsely appear to be optimal during training if most of the training data contain such spurious correlations. This phenomenon is particularly pronounced in domains such as robotics, with potentially large gaps between the open- and closed-loop performance of an agent. In such settings, causally confused models may appear to perform well according to open-loop metrics during training but fail catastrophically when deployed in the real world. In this paper, we study causal confusion in offline reinforcement learning. We investigate whether selectively sampling appropriate points from a dataset of demonstrations may enable offline reinforcement learning agents to disambiguate the underlying causal mechanisms of the environment, alleviate causal confusion in offline reinforcement learning, and produce a safer model for deployment. To answer this question, we consider a set of tailored offline reinforcement learning datasets that exhibit causal ambiguity and assess the ability of active sampling techniques to reduce causal confusion at evaluation. We provide empirical evidence that uniform and active sampling techniques are able to consistently reduce causal confusion as training progresses and that active sampling is able to do so significantly more efficiently than uniform sampling.
翻訳日:2023-12-29 15:21:22 公開日:2023-12-28
# 散逸系における量子相のシグナチャ

Signatures of quantum phases in a dissipative system ( http://arxiv.org/abs/2312.17166v1 )

ライセンス: Link先を確認
Rohan Joshi, Saikat Mondal, Souvik Bandyopadhyay, Sourav Bhattacharjee, and Adhip Agarwala(参考訳) リンドブラジアン形式論は散逸的および開放的系にチューニングされ、量子多体系の非平衡定常状態の解釈に万能的であった。 拡散型1次元キタエフモデルにおける自由フェルミオンおよび超伝導相の運命について検討し, 浴槽はカップリング速度の異なるフェルミオン粒子のソースとシンクの両方として機能することを示した。 これら2つの結合の関数として, 定常状態, 絡み合い含量, および初期状態からのアプローチについて検討する。 興味深いことに、定常状態相図は、基底状態臨界物理学の解読可能なシグネチャを保持する。 また,このような状況下での位相遷移のサブクラスを見つけるためには,早期忠実度が有用であることを示す。 さらに,近年の臨界シグネチャの生存は,定常状態の熱的性質に強く依存していることが示唆された。 この接続は、そのような系の定常状態における量子観測可能性と古典磁性との対応を示唆する。 我々の研究は、散逸性量子多体系、古典スピンの熱化と多体量子臨界現象の間の興味深い関係を明らかにする。

Lindbladian formalism, as tuned to dissipative and open systems, has been all-pervasive to interpret non-equilibrium steady states of quantum many-body systems. We study the fate of free fermionic and superconducting phases in a dissipative one-dimensional Kitaev model - where the bath acts both as a source and a sink of fermionic particles with different coupling rates. As a function of these two couplings, we investigate the steady state, its entanglement content, and its approach from varying initial states. Interestingly, we find that the steady state phase diagram retains decipherable signatures of ground state critical physics. We also show that early-time fidelity is a useful marker to find a subclass of phase transitions in such situations. Moreover, we show that the survival of critical signatures at late-times, strongly depend on the thermal nature of the steady state. This connection hints at a correspondence between quantum observables and classical magnetism in the steady state of such systems. Our work uncovers interesting connections between dissipative quantum many-body systems, thermalization of a classical spin and many-body quantum critical phenomena.
翻訳日:2023-12-29 15:20:58 公開日:2023-12-28
# フェデレーション学習攻撃に対するNextGシステムのセキュリティ:ゲーム理論的解法

Securing NextG Systems against Poisoning Attacks on Federated Learning: A Game-Theoretic Solution ( http://arxiv.org/abs/2312.17164v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Yi Shi(参考訳) 本稿では,次世代(NextG)通信における深層学習を用いた無線信号分類において,FLシステムにおける中毒攻撃と防御相互作用について検討する。 FLは、クライアントがデータサンプルを交換する必要なしに、グローバルモデルを集合的にトレーニングする。 地理的に分散したクライアントを利用することで、トレーニングされたグローバルモデルは、既存のユーザ識別に利用でき、スペクトル共有を容易にする。 しかし、この分散学習システムでは、悪意のあるクライアントの存在は、偽装されたローカルモデル交換を通してグローバルモデルを操作する訓練データを害するリスクをもたらす。 この課題に対処するために,FLシステムに参加するクライアントの受け入れや拒否に関する情報決定を行うための,積極的な防御機構を用いる。 その結果、攻撃と防御の相互作用はゲームとしてモデル化され、基礎となる入場と毒殺の決定を中心に行われる。 まず、アタッカーとディフェンダーにとって最高の、最悪の戦略を含むパフォーマンス境界を確立する。 その後、攻撃・防御ユーティリティはナッシュ均衡内に特徴付けられ、他のプレイヤーの固定戦略により一方的にその性能を改善することができない。 結果は,次のコミュニケーションの文脈における攻撃と防御の両方のパフォーマンスを定量化することにより,flシステムを中毒攻撃から保護する,新たな運用モードに関する洞察を提供する。

This paper studies the poisoning attack and defense interactions in a federated learning (FL) system, specifically in the context of wireless signal classification using deep learning for next-generation (NextG) communications. FL collectively trains a global model without the need for clients to exchange their data samples. By leveraging geographically dispersed clients, the trained global model can be used for incumbent user identification, facilitating spectrum sharing. However, in this distributed learning system, the presence of malicious clients introduces the risk of poisoning the training data to manipulate the global model through falsified local model exchanges. To address this challenge, a proactive defense mechanism is employed in this paper to make informed decisions regarding the admission or rejection of clients participating in FL systems. Consequently, the attack-defense interactions are modeled as a game, centered around the underlying admission and poisoning decisions. First, performance bounds are established, encompassing the best and worst strategies for attackers and defenders. Subsequently, the attack and defense utilities are characterized within the Nash equilibrium, where no player can unilaterally improve its performance given the fixed strategies of others. The results offer insights into novel operational modes that safeguard FL systems against poisoning attacks by quantifying the performance of both attacks and defenses in the context of NextG communications.
翻訳日:2023-12-29 15:20:38 公開日:2023-12-28
# FENet:レーン検出のための拡張ネットワーク

FENet: Focusing Enhanced Network for Lane Detection ( http://arxiv.org/abs/2312.17163v1 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) 人間の運転に着想を得たこの研究は、サンプリング、部分的な視野評価、fpnアーキテクチャの強化、指向性iou損失といった、自動運転のための正確な車線検出のための障害に対処するイノベーションをターゲットとしたネットワークの先駆者である。 実験では,一様アプローチと異なり,重要な遠方的詳細を強調する,集中的サンプリング戦略を実証し,安全に不可欠なベンチマークと実用的カーブ・ディスタント車線認識精度を著しく向上させた。 FENetV1は、ドライバービジョンを模倣する視点認識コンテキストを分離することで、最先端の従来のメトリックパフォーマンスを達成するが、FENetV2は提案された部分フィールド分析において最も信頼性が高いことを証明している。 したがって、標準的な全画像測定値の低下にもかかわらず、実用的なレーンナビゲーションにはv2を特に推奨する。 今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。 コードは利用可能になる。

Inspired by human driving focus, this research pioneers networks augmented with Focusing Sampling, Partial Field of View Evaluation, Enhanced FPN architecture and Directional IoU Loss - targeted innovations addressing obstacles to precise lane detection for autonomous driving. Experiments demonstrate our Focusing Sampling strategy, emphasizing vital distant details unlike uniform approaches, significantly boosts both benchmark and practical curved/distant lane recognition accuracy essential for safety. While FENetV1 achieves state-of-the-art conventional metric performance via enhancements isolating perspective-aware contexts mimicking driver vision, FENetV2 proves most reliable on the proposed Partial Field analysis. Hence we specifically recommend V2 for practical lane navigation despite fractional degradation on standard entire-image measures. Future directions include collecting on-road data and integrating complementary dual frameworks to further breakthroughs guided by human perception principles. Code will be made available.
翻訳日:2023-12-29 15:20:16 公開日:2023-12-28
# ニューラルネットワークにおける関数空間規則化:確率論的視点

Function-Space Regularization in Neural Networks: A Probabilistic Perspective ( http://arxiv.org/abs/2312.17162v1 )

ライセンス: Link先を確認
Tim G. J. Rudner, Sanyam Kapoor, Shikai Qiu, Andrew Gordon Wilson(参考訳) ニューラルネットワーク最適化におけるパラメータ空間正規化は、一般化を改善するための基本的なツールである。 しかしながら、標準的なパラメータ空間正規化手法は、望ましい予測関数に対する明示的な好みをニューラルネットワークトレーニングにエンコードすることが難しくなる。 本研究では,確率論的観点からニューラルネットワークの正則化にアプローチし,パラメータ空間正則化をモデルパラメータに対する経験的事前分布として見ることにより,所望の予測関数に関する情報をニューラルネットワークトレーニングに明示的に符号化する確率論的動機付け正規化手法を導出できることを示す。 関数空間経験ベイズ(FSEB)と呼ばれるこの手法は、パラメータ空間と関数空間の正規化の両方を含み、数学的に単純で実装が容易であり、標準的な正規化手法と比較して最小限の計算オーバーヘッドしか発生しない。 本研究では,本手法の有効性を実証的に評価し,提案手法がほぼ完全なセマンティックシフト検出,高精度な予測不確実性推定,事前学習モデルからのタスク適応の達成,共変量シフトによる一般化の改善につながることを示す。

Parameter-space regularization in neural network optimization is a fundamental tool for improving generalization. However, standard parameter-space regularization methods make it challenging to encode explicit preferences about desired predictive functions into neural network training. In this work, we approach regularization in neural networks from a probabilistic perspective and show that by viewing parameter-space regularization as specifying an empirical prior distribution over the model parameters, we can derive a probabilistically well-motivated regularization technique that allows explicitly encoding information about desired predictive functions into neural network training. This method -- which we refer to as function-space empirical Bayes (FSEB) -- includes both parameter- and function-space regularization, is mathematically simple, easy to implement, and incurs only minimal computational overhead compared to standard regularization techniques. We evaluate the utility of this regularization technique empirically and demonstrate that the proposed method leads to near-perfect semantic shift detection, highly-calibrated predictive uncertainty estimates, successful task adaption from pre-trained models, and improved generalization under covariate shift.
翻訳日:2023-12-29 15:19:57 公開日:2023-12-28
# 制約前駆体による再生

Restoration by Generation with Constrained Priors ( http://arxiv.org/abs/2312.17161v1 )

ライセンス: Link先を確認
Zheng Ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia(参考訳) 消音拡散モデルの固有生成力は、入力画像によく似た生成空間内で最適な高品質の画像を見つけることを目的としている画像復元タスクに適している。 入力画像にノイズを付加して復元し,ノイズを解消することにより,画像復元に事前学習した拡散モデルを適用する手法を提案する。 本手法は,生成モデルの空間に制約を加える必要があるという観察に基づいている。 この制約を入力画像の特徴を捉えたアンカー画像の集合を用いて生成モデルを微調整することで行う。 制約された空間があれば、画像復元のために生成に使用されるサンプリング戦略を活用できる。 我々は,過去の手法に対して評価を行い,アイデンティティと画質の保存において,複数の実世界の復元データセット上で優れた性能を示す。 また,個人のアルバムをアンカー画像として使用して生成空間を制約する,パーソナライズされた修復に関する重要かつ実用的な応用例を示す。 このアプローチにより、以前の作品ではできなかった高周波の細部を正確に保存できる結果が得られます。 プロジェクトWebページ: https://gen2res.github.io

The inherent generative power of denoising diffusion models makes them well-suited for image restoration tasks where the objective is to find the optimal high-quality image within the generative space that closely resembles the input image. We propose a method to adapt a pretrained diffusion model for image restoration by simply adding noise to the input image to be restored and then denoise. Our method is based on the observation that the space of a generative model needs to be constrained. We impose this constraint by finetuning the generative model with a set of anchor images that capture the characteristics of the input image. With the constrained space, we can then leverage the sampling strategy used for generation to do image restoration. We evaluate against previous methods and show superior performances on multiple real-world restoration datasets in preserving identity and image quality. We also demonstrate an important and practical application on personalized restoration, where we use a personal album as the anchor images to constrain the generative space. This approach allows us to produce results that accurately preserve high-frequency details, which previous works are unable to do. Project webpage: https://gen2res.github.io.
翻訳日:2023-12-29 15:19:36 公開日:2023-12-28
# 限定データを用いたレプリカツリーベース連合学習

Replica Tree-based Federated Learning using Limited Data ( http://arxiv.org/abs/2312.17159v1 )

ライセンス: Link先を確認
Ramona Ghilea and Islem Rekik(参考訳) 限られたデータから学ぶことは、深層ニューラルネットワークが大量のサンプルを使ってトレーニングした場合に最適なパフォーマンスを達成することを考慮し、機械学習で広範囲に研究されている。 集中型トレーニングのための様々な戦略が提案されているが、小さなデータセットによる連合学習の話題はほとんど未定である。 さらに、医療機関が関与するような現実的なシナリオでは、参加するクライアントの数も制限される。 本研究では,reptreeflと呼ばれる新しい連合学習フレームワークを提案する。 ソリューションの核心はレプリカの概念であり、モデルアーキテクチャをコピーして各クライアントを複製し、ローカルなデータ分散を摂動させることで、各クライアントを複製する。 当社のアプローチでは,データ分布の多様さで多数のモデルを集約することで,限られたデータと少数のクライアントから学習することができる。 さらに、レプリカ間のモデルの多様性と並行して、クライアントネットワークの階層構造(オリジナルと仮想の両方)を活用し、レプリカを木のような方法で結合し、凝集重みをモデルの不一致に基づいて動的に更新する多様性ベースのツリーアグリゲーションを導入する。 グラフ生成と画像分類(バイナリとマルチクラス)の2つのタスクと2種類のデータについて,均質なモデルアーキテクチャとヘテロジニアスなモデルアーキテクチャの両方を用いて評価を行った。 実験結果は、データとクライアントの両方が制限された設定におけるreptreeflの有効性と性能を実証する。 私たちのコードはhttps://github.com/basiralab/RepTreeFL.comで利用可能です。

Learning from limited data has been extensively studied in machine learning, considering that deep neural networks achieve optimal performance when trained using a large amount of samples. Although various strategies have been proposed for centralized training, the topic of federated learning with small datasets remains largely unexplored. Moreover, in realistic scenarios, such as settings where medical institutions are involved, the number of participating clients is also constrained. In this work, we propose a novel federated learning framework, named RepTreeFL. At the core of the solution is the concept of a replica, where we replicate each participating client by copying its model architecture and perturbing its local data distribution. Our approach enables learning from limited data and a small number of clients by aggregating a larger number of models with diverse data distributions. Furthermore, we leverage the hierarchical structure of the client network (both original and virtual), alongside the model diversity across replicas, and introduce a diversity-based tree aggregation, where replicas are combined in a tree-like manner and the aggregation weights are dynamically updated based on the model discrepancy. We evaluated our method on two tasks and two types of data, graph generation and image classification (binary and multi-class), with both homogeneous and heterogeneous model architectures. Experimental results demonstrate the effectiveness and outperformance of RepTreeFL in settings where both data and clients are limited. Our code is available at https://github.com/basiralab/RepTreeFL.
翻訳日:2023-12-29 15:19:19 公開日:2023-12-28
# 量子場のゆらぎの数値シミュレーション

Numerical Simulation of Quantum Field Fluctuations ( http://arxiv.org/abs/2312.17155v1 )

ライセンス: Link先を確認
Emily R. Taylor, Samuel Yencho, and L.H. Ford(参考訳) 場の量子ゆらぎは空間と時間の微妙な相関を示すことができる。 一対の計測値の間の間隔が変化すると、相関関数は符号を変更でき、相関関数と反相関関数のシフトを示す。 揺らぎの数値シミュレーションでは、確率分布と相関関数の両方の知識が必要である。 与えられた確率分布に従う乱数の列を生成する方法は広く用いられているが、与えられた相関関数の仮定はより困難である。 本稿では, 与えられた測定結果から確率分布のピークのシフトを判定し, 次の測定に用いる簡易な方法を提案する。 本稿では, 量子場相関関数の3つの例について考察し, 結果のシミュレーション関数が元の解析関数とよく一致することを示す。 次に, 変動場に結合した試験粒子のランダムウォークに及ぼす相関の影響の数値解析への本手法の適用について検討する。

The quantum fluctuations of fields can exhibit subtle correlations in space and time. As the interval between a pair of measurements varies, the correlation function can change sign, signaling a shift between correlation and anti-correlation. A numerical simulation of the fluctuations requires a knowledge of both the probability distribution and the correlation function. Although there are widely used methods to generate a sequence of random numbers which obey a given probability distribution, the imposition of a given correlation function can be more difficult. Here we propose a simple method in which the outcome of a given measurement determines a shift in the peak of the probability distribution, to be used for the next measurement. We illustrate this method for three examples of quantum field correlation functions, and show that the resulting simulated function agree well with the original, analytically derived function. We then discuss the application of this method to numerical studies of the effects of correlations on the random walks of test particles coupled to the fluctuating field.
翻訳日:2023-12-29 15:18:51 公開日:2023-12-28
# ハミルトニアン、群、グラフ、およびans\"atze

Hamiltonians, groups, graphs and ans\"atze ( http://arxiv.org/abs/2312.17146v1 )

ライセンス: Link先を確認
Abhinav Anand and Kenneth R. Brown(参考訳) 短期量子デバイスの有望な応用の1つは、変動アルゴリズムによって異なる問題を解くために短い回路を用いて試行波動関数を作成することである。 本研究では,グラフベースの対角化回路と任意の単量子回転ゲートを結合し,ハミルトン系グラフ状態 ans\"atze (h-gsa) を得る新しい回路設計を提案する。 12量子ビットまでの様々な分子の基底状態エネルギーを推定するために,提案するansatzの精度を検証した。 さらに,提案したアンサッツのゲート数およびパラメータ数複雑性を従来提案した手法と比較し,パラメータ数がわずかに増加し,ゲート数複雑性の規模が小さくなることを示した。 我々の研究は、優れた訓練性と収束性を持つコンパクト量子回路の構築に向けた重要なステップであり、化学や物理学の問題を解くための応用である。

One promising application of near-term quantum devices is to prepare trial wavefunctions using short circuits for solving different problems via variational algorithms. For this purpose, we introduce a new circuit design that combines graph-based diagonalization circuits with arbitrary single-qubit rotation gates to get Hamiltonian-based graph states ans\"atze (H-GSA). We test the accuracy of the proposed ansatz in estimating ground state energies of various molecules of size up to 12-qubits. Additionally, we compare the gate count and parameter number complexity of the proposed ansatz against previously proposed schemes and find an order magnitude reduction in gate count complexity with slight increase in the number of parameters. Our work represents a significant step towards constructing compact quantum circuits with good trainability and convergence properties and applications in solving chemistry and physics problems.
翻訳日:2023-12-29 15:18:26 公開日:2023-12-28
# DreamGaussian4D: 4Dガウシアンスプラッティング

DreamGaussian4D: Generative 4D Gaussian Splatting ( http://arxiv.org/abs/2312.17142v1 )

ライセンス: Link先を確認
Jiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, Ziwei Liu(参考訳) 最近、4Dコンテンツ生成で顕著な進歩を遂げた。 しかし、既存の手法では、最適化時間が長く、動作制御性が欠如しており、詳細度が低い。 本稿では,4次元ガウス分割表現に基づく効率的な4D生成フレームワークであるDreamGaussian4Dを紹介する。 我々の重要な洞察は、ガウススプラッティングにおける空間変換の明示的なモデリングは、暗黙の表現よりも4次元生成設定に適しているということである。 dreamgaussian4dは最適化時間を数時間から数分に短縮し、生成された3dモーションを柔軟に制御し、3dエンジンで効率的にレンダリングできるアニメーションメッシュを生成する。

Remarkable progress has been made in 4D content generation recently. However, existing methods suffer from long optimization time, lack of motion controllability, and a low level of detail. In this paper, we introduce DreamGaussian4D, an efficient 4D generation framework that builds on 4D Gaussian Splatting representation. Our key insight is that the explicit modeling of spatial transformations in Gaussian Splatting makes it more suitable for the 4D generation setting compared with implicit representations. DreamGaussian4D reduces the optimization time from several hours to just a few minutes, allows flexible control of the generated 3D motion, and produces animated meshes that can be efficiently rendered in 3D engines.
翻訳日:2023-12-29 15:17:39 公開日:2023-12-28
# 世界モデルによるグラディエント計画

Gradient-based Planning with World Models ( http://arxiv.org/abs/2312.17227v1 )

ライセンス: Link先を確認
Jyothir S V, Siddhartha Jalagam, Yann LeCun, Vlad Sobal(参考訳) 人工知能分野における永続的な課題は、望ましい行動を達成するためのシステムの制御である。 単純な力学方程式によって制御されるシステムでは、線形二次規則 (LQR) のような手法は歴史的に非常に効果的であることが証明されてきたが、ほとんどの実世界のタスクは、単純な方程式では容易に説明できないダイナミクスを持つ要求世界モデルを必要とする。 その結果、これらのモデルはニューラルネットワークを使用してデータから学ぶ必要がある。 視覚世界モデル用に設計されたモデル予測制御 (mpc) アルゴリズムの多くは、従来、横断エントロピーやモデル予測経路積分 (mppi) といった勾配なしの集団に基づく最適化法を探索してきた。 しかし、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。 本研究では,本手法と他のmpcベースの代替手法,およびポリシーに基づくアルゴリズムの比較分析を行った。 サンプル効率の良い環境では,ほとんどのタスクにおける代替手法と同等かそれ以上の性能が得られる。 さらに、政策ネットワークとグラデーションベースのmpcを組み合わせたハイブリッドモデルを導入することで、複雑な実世界のタスクにおいて、グラデーションベースの計画とワールドモデルとを両立させることができる。

The enduring challenge in the field of artificial intelligence has been the control of systems to achieve desired behaviours. While for systems governed by straightforward dynamics equations, methods like Linear Quadratic Regulation (LQR) have historically proven highly effective, most real-world tasks, which require a general problem-solver, demand world models with dynamics that cannot be easily described by simple equations. Consequently, these models must be learned from data using neural networks. Most model predictive control (MPC) algorithms designed for visual world models have traditionally explored gradient-free population-based optimisation methods, such as Cross Entropy and Model Predictive Path Integral (MPPI) for planning. However, we present an exploration of a gradient-based alternative that fully leverages the differentiability of the world model. In our study, we conduct a comparative analysis between our method and other MPC-based alternatives, as well as policy-based algorithms. In a sample-efficient setting, our method achieves on par or superior performance compared to the alternative approaches in most tasks. Additionally, we introduce a hybrid model that combines policy networks and gradient-based MPC, which outperforms pure policy based methods thereby holding promise for Gradient-based planning with world models in complex real-world tasks.
翻訳日:2023-12-29 14:59:54 公開日:2023-12-28
# 4DGen:時空間一貫性を備えた地上4Dコンテンツ生成

4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency ( http://arxiv.org/abs/2312.17225v1 )

ライセンス: Link先を確認
Yuyang Yin, Dejia Xu, Zhangyang Wang, Yao Zhao, Yunchao Wei(参考訳) テキストから画像への拡散モデルとテキストからビデオへの拡散モデルにより、既存の4dコンテンツ作成パイプラインはスコア蒸留サンプリングを利用して動的3dシーン全体を最適化する。 しかし、これらのパイプラインはテキストや画像入力から4dコンテンツを生成するため、試行錯誤によるエンジニアリングの迅速化にかなりの時間と労力がかかる。 この研究は、4D生成タスクを複数のステージに分解する、4Dコンテンツ作成のための新しい総合的なフレームワークである4DGenを紹介する。 静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。 我々のパイプラインは条件付き4D生成を容易にし、ユーザがジオメトリ(3Dアセット)とモーション(眼球ビデオ)を指定できるようにする。 さらに,動的3次元ガウシアンを用いて4次元表現を構築し,トレーニング中のレンダリングによる効率良く高解像度な監督が可能となり,高品質な4次元生成が容易になる。 さらに, アンカーフレームに空間的擬似ラベルを付加し, 3D-Aware スコア蒸留サンプリングと滑らか度正規化により, シームレスな一貫性を実現する。 既存のベースラインと比較すると,入力信号を忠実に再構成し,新たな視点やタイムステップからリアルに描画を推測する競争結果が得られる。 また,提案手法は,従来手法では実現が困難であった制御の強化を実現するため,基底生成をサポートする。 プロジェクトページ: https://vita-group.github.io/4DGen/

Aided by text-to-image and text-to-video diffusion models, existing 4D content creation pipelines utilize score distillation sampling to optimize the entire dynamic 3D scene. However, as these pipelines generate 4D content from text or image inputs, they incur significant time and effort in prompt engineering through trial and error. This work introduces 4DGen, a novel, holistic framework for grounded 4D content creation that decomposes the 4D generation task into multiple stages. We identify static 3D assets and monocular video sequences as key components in constructing the 4D content. Our pipeline facilitates conditional 4D generation, enabling users to specify geometry (3D assets) and motion (monocular videos), thus offering superior control over content creation. Furthermore, we construct our 4D representation using dynamic 3D Gaussians, which permits efficient, high-resolution supervision through rendering during training, thereby facilitating high-quality 4D generation. Additionally, we employ spatial-temporal pseudo labels on anchor frames, along with seamless consistency priors implemented through 3D-aware score distillation sampling and smoothness regularizations. Compared to existing baselines, our approach yields competitive results in faithfully reconstructing input signals and realistically inferring renderings from novel viewpoints and timesteps. Most importantly, our method supports grounded generation, offering users enhanced control, a feature difficult to achieve with previous methods. Project page: https://vita-group.github.io/4DGen/
翻訳日:2023-12-29 14:59:31 公開日:2023-12-28
# 複雑度理論による多重校正の意義

Complexity-Theoretic Implications of Multicalibration ( http://arxiv.org/abs/2312.17223v1 )

ライセンス: Link先を確認
S\'ilvia Casacuberta, Cynthia Dwork, Salil Vadhan(参考訳) 予測アルゴリズムの多群公正性に関する最近の文献と計算複雑性の古典的な結果との関連性を示す。 多精度予測器は、予め指定された集合の任意の集合の各々のメンバに対して正しい。 多重校正予測器はより強い条件を満たす:それらはコレクションの各セットで校正される。 多重精度はトレビサン、タルシアニ、ヴァダン(2009)によって定義される函数の正則性の概念と等価である。 彼らは、クラス$F$(おそらく単純な)関数が与えられたとき、任意の複素関数$g$は、$F$のメンバに少数のオラクル呼び出しを行う低複雑さ関数$h$によって近似できることを示した。 この複雑性理論の正則補題は、複雑性理論、加法数論、情報理論、グラフ理論、暗号学など、様々な分野に影響を及ぼすことが知られている。 多重化のより強固な概念から始め、ハードコア補題、密モデル定理、条件付き擬似ミンエントロピーと予測不可能性の同値を含む、多くの正規性補題の応用のより強固で一般的なバージョンを得る。 例えば、すべてのブール函数(その硬度に関係なく)は、それらのハードコア集合のサイズが、その領域の効率的な分割の対応する部分における関数のバランスの度合いに関係しているような、不連続なハードコア集合の小さな集合を持つことを示します。

We present connections between the recent literature on multigroup fairness for prediction algorithms and classical results in computational complexity. Multiaccurate predictors are correct in expectation on each member of an arbitrary collection of pre-specified sets. Multicalibrated predictors satisfy a stronger condition: they are calibrated on each set in the collection. Multiaccuracy is equivalent to a regularity notion for functions defined by Trevisan, Tulsiani, and Vadhan (2009). They showed that, given a class $F$ of (possibly simple) functions, an arbitrarily complex function $g$ can be approximated by a low-complexity function $h$ that makes a small number of oracle calls to members of $F$, where the notion of approximation requires that $h$ cannot be distinguished from $g$ by members of $F$. This complexity-theoretic Regularity Lemma is known to have implications in different areas, including in complexity theory, additive number theory, information theory, graph theory, and cryptography. Starting from the stronger notion of multicalibration, we obtain stronger and more general versions of a number of applications of the Regularity Lemma, including the Hardcore Lemma, the Dense Model Theorem, and the equivalence of conditional pseudo-min-entropy and unpredictability. For example, we show that every boolean function (regardless of its hardness) has a small collection of disjoint hardcore sets, where the sizes of those hardcore sets are related to how balanced the function is on corresponding pieces of an efficient partition of the domain.
翻訳日:2023-12-29 14:59:05 公開日:2023-12-28
# スパースプロップ:効率的なイベントベースシミュレーションとスパースリカレントスパイキングニューラルネットワークの訓練

SparseProp: Efficient Event-Based Simulation and Training of Sparse Recurrent Spiking Neural Networks ( http://arxiv.org/abs/2312.17216v1 )

ライセンス: Link先を確認
Rainer Engelken(参考訳) Spiking Neural Networks(SNN)は、生物学的にインスパイアされたモデルであり、アクションポテンシャルのストリームで情報を処理できる。 しかし、結合微分方程式の大規模システムを解く必要があるため、SNNのシミュレーションと訓練は計算コストがかかる。 本稿では,スパースSNNのシミュレーションとトレーニングを行うイベントベースアルゴリズムであるSparsePropを紹介する。 本アルゴリズムは,ネットワークスパイク毎にo(n)からo(log(n))までの前方および後方パス操作の計算コストを削減し,大規模スパイクネットワークの数値シミュレーションと時間的バックプロパゲーションを用いた効率的なトレーニングを可能にする。 ネットワークの間隔を活用することで、SparsePropはスパイク毎にすべてのニューロンを反復する必要をなくし、代わりに効率的な状態更新を使用する。 我々は、100万個のLIFニューロンを持つスパースSNNのシミュレーションを含む、古典的な統合火災ニューロンモデルにおけるスパースプロップの有効性を実証した。 その結果、従来のイベントベースの実装と比較して4桁を超えるスピードアップが実現した。 私たちの研究は、大規模スパイクニューラルネットワークをトレーニングするための効率的かつ正確なソリューションを提供し、より洗練された脳にインスパイアされたモデルを構築するための新しい可能性を開きます。

Spiking Neural Networks (SNNs) are biologically-inspired models that are capable of processing information in streams of action potentials. However, simulating and training SNNs is computationally expensive due to the need to solve large systems of coupled differential equations. In this paper, we introduce SparseProp, a novel event-based algorithm for simulating and training sparse SNNs. Our algorithm reduces the computational cost of both the forward and backward pass operations from O(N) to O(log(N)) per network spike, thereby enabling numerically exact simulations of large spiking networks and their efficient training using backpropagation through time. By leveraging the sparsity of the network, SparseProp eliminates the need to iterate through all neurons at each spike, employing efficient state updates instead. We demonstrate the efficacy of SparseProp across several classical integrate-and-fire neuron models, including a simulation of a sparse SNN with one million LIF neurons. This results in a speed-up exceeding four orders of magnitude relative to previous event-based implementations. Our work provides an efficient and exact solution for training large-scale spiking neural networks and opens up new possibilities for building more sophisticated brain-inspired models.
翻訳日:2023-12-29 14:58:38 公開日:2023-12-28
# 連続関数空間変動推論による連続学習

Continual Learning via Sequential Function-Space Variational Inference ( http://arxiv.org/abs/2312.17210v1 )

ライセンス: Link先を確認
Tim G. J. Rudner, Freddie Bickford Smith, Qixuan Feng, Yee Whye Teh, Yarin Gal(参考訳) 予測関数に対する逐次ベイズ推定は、データのストリームから連続学習するための自然な枠組みである。 しかし、実際にニューラルネットワークに適用することは困難であることが証明されている。 既存の手法の欠点に対処し,連続学習を逐次関数空間変動推論として定式化した最適化目標を提案する。 ニューラルネットワークのパラメータを直接正規化する既存の方法とは対照的に、この目的により、トレーニング中にパラメータが広く変化し、新しいタスクへの適応性が向上する。 ニューラルネットワークの予測を直接正規化する目的と比較して、提案する目的はより柔軟な変動分布とより効果的な正規化を可能にする。 タスクシーケンスの範囲で、逐次関数空間変動推論によって訓練されたニューラルネットワークは、前のタスクから代表点の集合をあまり持たずに、関連する手法で訓練されたネットワークよりも予測精度が良いことを示した。

Sequential Bayesian inference over predictive functions is a natural framework for continual learning from streams of data. However, applying it to neural networks has proved challenging in practice. Addressing the drawbacks of existing techniques, we propose an optimization objective derived by formulating continual learning as sequential function-space variational inference. In contrast to existing methods that regularize neural network parameters directly, this objective allows parameters to vary widely during training, enabling better adaptation to new tasks. Compared to objectives that directly regularize neural network predictions, the proposed objective allows for more flexible variational distributions and more effective regularization. We demonstrate that, across a range of task sequences, neural networks trained via sequential function-space variational inference achieve better predictive accuracy than networks trained with related methods while depending less on maintaining a set of representative points from previous tasks.
翻訳日:2023-12-29 14:58:15 公開日:2023-12-28
# EFHQ: 多目的ExtremePose-Face-HQデータセット

EFHQ: Multi-purpose ExtremePose-Face-HQ dataset ( http://arxiv.org/abs/2312.17205v1 )

ライセンス: Link先を確認
Trung Tuan Dao, Duc Hong Vu, Cuong Pham, Anh Tran(参考訳) 既存の顔データセットは、正面近のビューで豊富な画像を持っているが、極端な頭部ポーズのイメージが欠けているため、プロファイルやピッチされた顔を扱う際に、ディープラーニングモデルの性能が低下する。 この研究は、Extreme Pose Face High-Quality Dataset (EFHQ)と呼ばれる新しいデータセットを導入することで、このギャップに対処することを目的としている。 このような膨大なデータセットを生成するために、我々は、新しく精巧なデータセット処理パイプラインを使用して、さまざまな設定でキャプチャされた高解像度の顔ビデオを含む2つの公開データセット、VFHQとCelebV-HQをキュレートする。 我々のデータセットは、顔合成と2D/3D認識GAN、拡散ベースの顔生成、顔の再現など、さまざまな顔関連タスクに関する既存のデータセットを補完することができる。 具体的には、EFHQを使用したトレーニングは、モデルがさまざまなポーズにまたがって適切に一般化し、極端なビューを含むシナリオのパフォーマンスを大幅に向上するのに役立つ。 また,efhqを用いて,soma顔認証モデルの性能が正面対正面シナリオと比較して5~37\%低下し,野生の重度ポーズ条件下での顔認識研究を刺激する,難易度の高いクロスビュー顔検証ベンチマークを定義する。

The existing facial datasets, while having plentiful images at near frontal views, lack images with extreme head poses, leading to the downgraded performance of deep learning models when dealing with profile or pitched faces. This work aims to address this gap by introducing a novel dataset named Extreme Pose Face High-Quality Dataset (EFHQ), which includes a maximum of 450k high-quality images of faces at extreme poses. To produce such a massive dataset, we utilize a novel and meticulous dataset processing pipeline to curate two publicly available datasets, VFHQ and CelebV-HQ, which contain many high-resolution face videos captured in various settings. Our dataset can complement existing datasets on various facial-related tasks, such as facial synthesis with 2D/3D-aware GAN, diffusion-based text-to-image face generation, and face reenactment. Specifically, training with EFHQ helps models generalize well across diverse poses, significantly improving performance in scenarios involving extreme views, confirmed by extensive experiments. Additionally, we utilize EFHQ to define a challenging cross-view face verification benchmark, in which the performance of SOTA face recognition models drops 5-37\% compared to frontal-to-frontal scenarios, aiming to stimulate studies on face recognition under severe pose conditions in the wild.
翻訳日:2023-12-29 14:58:01 公開日:2023-12-28
# Rydberg原子を用いたスカラーQED

Scalar QED with Rydberg atoms ( http://arxiv.org/abs/2312.17201v1 )

ライセンス: Link先を確認
Yannick Meurice, James Corona, Sergio Cantu, Fangli Liu, Shengtao Wang, Kenny Heitritter, Steve Mrenna, Jin Zhang, Shan-Wen Tsai(参考訳) 我々は近年,ライドバーグ原子の矩形配列を持つ1+1$次元のスカラー電磁力学(格子アベリアヒッグスモデル)の量子シミュレーションを提案する。 最近公開されたプラットフォームは、量子シミュレータの臨界挙動の実証的な探索を可能にする。 本稿では,2脚ラグの位相図,実効ハミルトニアンアプローチ,およびコライダー物理イベントジェネレータにおけるハドロン化をターゲットとしたハイブリッド量子アルゴリズムの構築について論じる。

We review recent suggestions to quantum simulate scalar electrodynamics (the lattice Abelian Higgs model) in $1+1$ dimensions with rectangular arrays of Rydberg atoms. We show that platforms made publicly available recently allow empirical explorations of the critical behavior of quantum simulators. We discuss recent progress regarding the phase diagram of two-leg ladders, effective Hamiltonian approaches and the construction of hybrid quantum algorithms targeting hadronization in collider physics event generators.
翻訳日:2023-12-29 14:57:36 公開日:2023-12-28
# ベイズニューラルネットワークにおけるトラクタブル関数-空間変動推論

Tractable Function-Space Variational Inference in Bayesian Neural Networks ( http://arxiv.org/abs/2312.17199v1 )

ライセンス: Link先を確認
Tim G. J. Rudner, Zonghao Chen, Yee Whye Teh, Yarin Gal(参考訳) 信頼性の高い予測の不確実性推定は、ニューラルネットワークの安全クリティカルな設定へのデプロイを可能にする上で重要な役割を果たす。 ニューラルネットワークの予測の不確かさを推定するための一般的なアプローチは、ネットワークパラメータ上の事前分布を定義し、近似的な後方分布を推定し、確率的予測を行うことである。 しかし、ニューラルネットワークパラメータに対する明示的な推論は、データ生成プロセスに関する有意義な事前情報をモデルに組み込むのを難しくする。 本稿では,別のアプローチを追求する。 ニューラルネットワークのパラメータ上での後方分布によって引き起こされる関数の分布を最も興味のある対象と認識し,関数の後方分布を推定するニューラルネットワークにおけるベイズ推定を明示的に構成し,事前情報を組み込んで信頼性の高い予測不確実性推定を可能にするスケーラブルな関数空間変動推定法を提案する。 提案手法は,様々な予測タスクにおける最先端の不確実性評価と予測性能につながり,信頼性の高い不確実性評価が不可欠である挑戦的な安全クリティカルな医療診断タスクに有効であることを示す。

Reliable predictive uncertainty estimation plays an important role in enabling the deployment of neural networks to safety-critical settings. A popular approach for estimating the predictive uncertainty of neural networks is to define a prior distribution over the network parameters, infer an approximate posterior distribution, and use it to make stochastic predictions. However, explicit inference over neural network parameters makes it difficult to incorporate meaningful prior information about the data-generating process into the model. In this paper, we pursue an alternative approach. Recognizing that the primary object of interest in most settings is the distribution over functions induced by the posterior distribution over neural network parameters, we frame Bayesian inference in neural networks explicitly as inferring a posterior distribution over functions and propose a scalable function-space variational inference method that allows incorporating prior information and results in reliable predictive uncertainty estimates. We show that the proposed method leads to state-of-the-art uncertainty estimation and predictive performance on a range of prediction tasks and demonstrate that it performs well on a challenging safety-critical medical diagnosis task in which reliable uncertainty estimation is essential.
翻訳日:2023-12-29 14:57:28 公開日:2023-12-28
# 分散した自治組織の研究景観をナビゲートする:研究ノートとアジェンダ

Navigating the Research Landscape of Decentralized Autonomous Organizations: A Research Note and Agenda ( http://arxiv.org/abs/2312.17197v1 )

ライセンス: Link先を確認
Christian Ziegler, Quinn DuPont(参考訳) このメモと議題は、分散自治機構(DAO)の研究に興味を持つ学者にとって、この現象によって引き起こされる機会と課題の両方に対処する原因となる。 データ検索、データ選択基準、ガバナンストークンの価格の複雑さ、財務上の不一致、MainnetとTestnetのデータ、DAOのさまざまなタイプと提案カテゴリの理解、ガバナンスに影響を与える背景、Sybilの問題など、データの信頼性と妥当性に関する重要な側面をカバーする。 この課題は、これらの様々な側面を照らし出し、今後の研究の方向性を提示することによって、daosについて微妙かつ厳密な学術研究を行うために必要な必須知識を研究者に与えることである。

This note and agenda serve as a cause for thought for scholars interested in researching Decentralized Autonomous Organizations (DAOs), addressing both the opportunities and challenges posed by this phenomenon. It covers key aspects of data retrieval, data selection criteria, issues in data reliability and validity such as governance token pricing complexities, discrepancy in treasuries, Mainnet and Testnet data, understanding the variety of DAO types and proposal categories, airdrops affecting governance, and the Sybil problem. The agenda aims to equip scholars with the essential knowledge required to conduct nuanced and rigorous academic studies on DAOs by illuminating these various aspects and proposing directions for future research.
翻訳日:2023-12-29 14:57:07 公開日:2023-12-28
# 弾力性制約強化学習

Resilient Constrained Reinforcement Learning ( http://arxiv.org/abs/2312.17194v1 )

ライセンス: Link先を確認
Dongsheng Ding and Zhengyan Huan and Alejandro Ribeiro(参考訳) 本研究では,複数の制約仕様をトレーニング前に特定しない制約強化学習(rl)問題のクラスについて検討する。 報酬最大化目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。 この問題に対処するために、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。 本手法は、学習目的に導入される緩和コストに応じて制約を緩和する適応を特徴とする。 この特徴は、生態系が操作を変えることによって破壊に適応する様子を模倣するので、我々のアプローチは弾力性制約付きRLと呼ばれる。 具体的には、制約満足度と弾力性均衡の概念による報酬の最大化を両立させる十分条件を提供し、この均衡を最適解とする弾力性制約性ポリシー最適化の扱いやすい定式化を提案し、最適性ギャップと制約満足度に対する非漸近収束性保証を持つ2つの弾力性制約付きポリシー探索アルゴリズムを提唱する。 さらに,計算実験において,本手法の有効性と有効性を示す。

We study a class of constrained reinforcement learning (RL) problems in which multiple constraint specifications are not identified before training. It is challenging to identify appropriate constraint specifications due to the undefined trade-off between the reward maximization objective and the constraint satisfaction, which is ubiquitous in constrained decision-making. To tackle this issue, we propose a new constrained RL approach that searches for policy and constraint specifications together. This method features the adaptation of relaxing the constraint according to a relaxation cost introduced in the learning objective. Since this feature mimics how ecological systems adapt to disruptions by altering operation, our approach is termed as resilient constrained RL. Specifically, we provide a set of sufficient conditions that balance the constraint satisfaction and the reward maximization in notion of resilient equilibrium, propose a tractable formulation of resilient constrained policy optimization that takes this equilibrium as an optimal solution, and advocate two resilient constrained policy search algorithms with non-asymptotic convergence guarantees on the optimality gap and constraint satisfaction. Furthermore, we demonstrate the merits and the effectiveness of our approach in computational experiments.
翻訳日:2023-12-29 14:56:51 公開日:2023-12-28
# HISR:光リアルな3次元再構成のためのハイブリッドインシシシト表面表現

HISR: Hybrid Implicit Surface Representation for Photorealistic 3D Human Reconstruction ( http://arxiv.org/abs/2312.17192v1 )

ライセンス: Link先を確認
Angtian Wang, Yuanlu Xu, Nikolaos Sarafianos, Robert Maier, Edmond Boyer, Alan Yuille, Tony Tung(参考訳) ニューラルリコンストラクションとレンダリング戦略は、高レベルな形状の細部を維持する能力によって、最先端のパフォーマンスを証明している。 しかし、既存のアプローチでは、物体を暗黙的な表面機能または神経ボリュームとして表現し、不均一な材料、特にヒトの皮膚、毛髪、衣服の形状の回復に苦慮している。 そこで本研究では,人間の形状をモデル化するハイブリッドな表面表現を提案する。 この表現は、衣服の人体上の不透明領域と半透明領域を表す2つの表面層からなる。 視覚的手がかりを用いて異なる領域を分割し、2つの符号付き距離関数(SDF)を再構成する。 我々は,不透明領域(体,顔,衣服など)に表面ベースレンダリングを行い,高忠実な表面正規表現と半透明領域(例えば,毛髪)のボリュームレンダリングを保存する。 実験により,本手法は3次元人体再構成における最先端の成果を得るとともに,他の物体に対する競争性能を示す。

Neural reconstruction and rendering strategies have demonstrated state-of-the-art performances due, in part, to their ability to preserve high level shape details. Existing approaches, however, either represent objects as implicit surface functions or neural volumes and still struggle to recover shapes with heterogeneous materials, in particular human skin, hair or clothes. To this aim, we present a new hybrid implicit surface representation to model human shapes. This representation is composed of two surface layers that represent opaque and translucent regions on the clothed human body. We segment different regions automatically using visual cues and learn to reconstruct two signed distance functions (SDFs). We perform surface-based rendering on opaque regions (e.g., body, face, clothes) to preserve high-fidelity surface normals and volume rendering on translucent regions (e.g., hair). Experiments demonstrate that our approach obtains state-of-the-art results on 3D human reconstructions, and also shows competitive performances on other objects.
翻訳日:2023-12-29 14:56:29 公開日:2023-12-28
# コヒーレント相互作用フリーノイズ検出

Coherent interaction-free detection of noise ( http://arxiv.org/abs/2312.17190v1 )

ライセンス: Link先を確認
John J. McCord, Shruti Dogra, Gheorghe Sorin Paraoanu(参考訳) ノイズは重要な概念であり、その測定とキャラクタリゼーションは現代のメソスコピック物理学における研究分野として栄えている。 本稿では,コヒーレントと射影実現という,概念的に異なる2つのスキームを探索するノイズ検出手法として,インタラクションフリー計測を提案する。 これらの検出器は、第2の遷移が振幅または位相のノイズを持つ共鳴振動場に結合されるクエットからなる。 比較のために、この文脈で以前に議論されたより標準的な検出器、すなわちノイズ源と同じような方法で結合されたキュービットを考える。 量子ビット方式は明確な利点があり、ノイズの正確な検出とキャラクタリゼーションが可能であるが、キュービットはそうではない。 最後に,検出器信号における雑音相関のシグネチャについて検討する。

Noise is an important concept and its measurement and characterization has been a flourishing area of research in contemporary mesoscopic physics. Here we propose interaction-free measurements as a noise-detection technique, exploring two conceptually different schemes: the coherent and the projective realizations. These detectors consist of a qutrit whose second transition is coupled to a resonant oscillatory field that may have noise in amplitude or phase. For comparison, we consider a more standard detector previously discussed in this context - a qubit coupled in a similar way to the noise source. We find that the qutrit scheme offers clear advantages, allowing precise detection and characterization of the noise, while the qubit does not. Finally, we study the signature of noise correlations in the detector's signal.
翻訳日:2023-12-29 14:56:09 公開日:2023-12-28
# 同一粒子干渉法による$N$-partite $N$-levelシングルト状態のロバスト生成

Robust generation of $N$-partite $N$-level singlet states by identical particle interferometry ( http://arxiv.org/abs/2312.17184v1 )

ライセンス: Link先を確認
Matteo Piccolini, Marcin Karczewski, Andreas Winter, Rosario Lo Franco(参考訳) 我々は、N$同一ボソンとN$内部レベル(一般化シングルト)の完全非対称状態を生成するための干渉計方式を提案する。 この状態は、劇的な量子優位を持つ様々な問題の資源である。 この手順は、フーリエマルチポートのシーケンスと、その結果をフィルタリングする偶然の測定を組み合わせたものである。 入力状態の$N$粒子が各マルチポート上で分離(反バンチ)されたときに、一般化シングルトの良好な調製が確認される。 このスキームは局所的なロスレスノイズに対して堅牢であり、完全に混合された入力状態でも動作する。

We propose an interferometric scheme for generating the totally antisymmetric state of $N$ identical bosons with $N$ internal levels (generalized singlet). This state is a resource for various problems with dramatic quantum advantage. The procedure uses a sequence of Fourier multi-ports, combined with coincidence measurements filtering the results. Successful preparation of the generalized singlet is confirmed when the $N$ particles of the input state stay separate (anti-bunch) on each multiport. The scheme is robust to local lossless noise and works even with a totally mixed input state.
翻訳日:2023-12-29 14:55:55 公開日:2023-12-28
# すべてを支配する一つのモデル:テキストプロンプトによる医用画像のユニバーサルセグメンテーションに向けて

One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts ( http://arxiv.org/abs/2312.17183v1 )

ライセンス: Link先を確認
Ziheng Zhao and Yao Zhang and Chaoyi Wu and Xiaoman Zhang and Ya Zhang and Yanfeng Wang and Weidi Xie(参考訳) 本研究では,SATと呼ばれるテキストプロンプトを駆使した医療シナリオにおけるセグメンテーションのモデルの構築に焦点をあてる。 主な貢献は3つあります (i)データ構築において、複数の知識ソースを組み合わせてマルチモーダルな医療知識ツリーを構築する。次いで、31のセグメンテーションデータセットから11K以上の3D画像スキャンを収集し、視覚スキャンとラベル空間の両方を慎重に標準化することにより、トレーニング用の大規模セグメンテーションデータセットを構築する。 (II) モデルトレーニングでは, 医療用語をテキスト形式で入力することで, 普遍的なセグメンテーションモデルを定式化する。 本稿では,知識強化型表現学習フレームワークと,多数のデータセットの組み合わせを効果的に学習するための一連の戦略を提案する。 3) モデル評価では,107MパラメータのみのSAT-Nanoをトレーニングし,31種類のセグメンテーションデータセットをテキストプロンプトで分割し,362のカテゴリに分類する。 ボディ領域の平均値、クラスの平均値、データセットの平均値の3つの側面からモデルを徹底的に評価し、36のスペシャリストnnunets、すなわち、各データセット/サブセットでnnunetモデルをトレーニングし、31のデータセットに対して約1000mのパラメータを持つ36のnnunetsを生成した。 このレポートで使用されるすべてのコードとモデル、すなわちSAT-Nanoをリリースします。 さらに近い将来、より多様なデータセットに基づいて、より大きなサイズのモデルでトレーニングされたSAT-Ultraも提供します。 WebページURL: https://zhaoziheng.github.io/MedUniSeg.com

In this study, we focus on building up a model that can Segment Anything in medical scenarios, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) on data construction, we combine multiple knowledge sources to construct a multi-modal medical knowledge tree; Then we build up a large-scale segmentation dataset for training, by collecting over 11K 3D medical image scans from 31 segmentation datasets with careful standardization on both visual scans and label space; (ii) on model training, we formulate a universal segmentation model, that can be prompted by inputting medical terminologies in text form. We present a knowledge-enhanced representation learning framework, and a series of strategies for effectively training on the combination of a large number of datasets; (iii) on model evaluation, we train a SAT-Nano with only 107M parameters, to segment 31 different segmentation datasets with text prompt, resulting in 362 categories. We thoroughly evaluate the model from three aspects: averaged by body regions, averaged by classes, and average by datasets, demonstrating comparable performance to 36 specialist nnUNets, i.e., we train nnUNet models on each dataset/subset, resulting in 36 nnUNets with around 1000M parameters for the 31 datasets. We will release all the codes, and models used in this report, i.e., SAT-Nano. Moreover, we will offer SAT-Ultra in the near future, which is trained with model of larger size, on more diverse datasets. Webpage URL: https://zhaoziheng.github.io/MedUniSeg.
翻訳日:2023-12-29 14:55:44 公開日:2023-12-28
# シンクロトロンビームラインのための仮想科学コンパニオン:プロトタイプ

Virtual Scientific Companion for Synchrotron Beamlines: A Prototype ( http://arxiv.org/abs/2312.17180v1 )

ライセンス: Link先を確認
Daniel Potemkin, Carlos Soto, Ruipeng Li, Kevin Yager, and Esther Tsai(参考訳) 極端に高いX線フラックスとシンクロトロンビームラインの特殊な計器は、他の場所では不可能な多目的かつ高いスループットの研究を可能にした。 したがって、実験の有害かつ効率的な制御は効率的なビームライン演算に不可欠である。 人工知能と機械学習の手法は、施設のパフォーマンスを高めるために常に開発されているが、これらの開発の可能性は、効率的な人間とコンピュータの相互作用でのみ達成できる。 自然言語は、人間がコミュニケーションする最も直感的で効率的な方法です。 しかし、既存の大規模言語モデルやツールの信頼性と再現性が低いため、科学的目的のために堅牢で信頼性の高いパフォーマンスのために広範囲な開発が要求される。 本稿では,バーチャル・サイエンティフィック・コンパニオン(vision)のプロトタイプを紹介し,オープンソースの言語モデルとbeamlineの限られた計算資源を用いて自然言語による基本的なビームライン操作を制御できることを実証する。 VISIONの人間とAIの性質は、既存の自動化システムとシンクロトロンビームラインのデータフレームワークを活用している。

The extraordinarily high X-ray flux and specialized instrumentation at synchrotron beamlines have enabled versatile in-situ and high throughput studies that are impossible elsewhere. Dexterous and efficient control of experiments are thus crucial for efficient beamline operation. Artificial intelligence and machine learning methods are constantly being developed to enhance facility performance, but the full potential of these developments can only be reached with efficient human-computer-interaction. Natural language is the most intuitive and efficient way for humans to communicate. However, the low credibility and reproducibility of existing large language models and tools demand extensive development to be made for robust and reliable performance for scientific purposes. In this work, we introduce the prototype of virtual scientific companion (VISION) and demonstrate that it is possible to control basic beamline operations through natural language with open-source language model and the limited computational resources at beamline. The human-AI nature of VISION leverages existing automation systems and data framework at synchrotron beamlines.
翻訳日:2023-12-29 14:55:11 公開日:2023-12-28
# ifusion: スパースビューからのポーズフリー再構成のための逆拡散

iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse Views ( http://arxiv.org/abs/2312.17250v1 )

ライセンス: Link先を確認
Chin-Hsuan Wu, Yen-Chun Chen, Bolivar Solarte, Lu Yuan, Min Sun(参考訳) iFusionは、未知のカメラポーズを持つ2つのビューのみを必要とする新しい3Dオブジェクト再構成フレームワークである。 単一視点の再構成は視覚的に魅力的な結果をもたらすが、実際の物体、特に目に見えない側から大きくずれることがある。 さらなるビューは、再構築の忠実さを改善するが、既知のカメラのポーズを必要とする。 しかし、ポーズの可用性が非現実的であると仮定すると、既存のポーズ推定器はスパースビューシナリオで失敗する。 これを解決するために,様々な物体の形状や外観に関する暗黙の知識を組み込んだ,事前学習された新規ビュー合成拡散モデルを利用する。 1)新しい視点を合成するのではなく,カメラポーズ推定のための拡散モデルを逆転させる。 2) 拡散モデルは, 得られたビューと推定ポーズを用いて微調整され, 対象物に適した新しいビューシンセサイザーとなる。 3) 登録ビューと微調整拡散モデルを利用して, 3次元オブジェクトを再構成した。 実験はポーズ推定と新しい視点合成の両方において強い性能を示す。 さらに、iFusionは様々な再構築手法をシームレスに統合し、強化する。

We present iFusion, a novel 3D object reconstruction framework that requires only two views with unknown camera poses. While single-view reconstruction yields visually appealing results, it can deviate significantly from the actual object, especially on unseen sides. Additional views improve reconstruction fidelity but necessitate known camera poses. However, assuming the availability of pose may be unrealistic, and existing pose estimators fail in sparse view scenarios. To address this, we harness a pre-trained novel view synthesis diffusion model, which embeds implicit knowledge about the geometry and appearance of diverse objects. Our strategy unfolds in three steps: (1) We invert the diffusion model for camera pose estimation instead of synthesizing novel views. (2) The diffusion model is fine-tuned using provided views and estimated poses, turned into a novel view synthesizer tailored for the target object. (3) Leveraging registered views and the fine-tuned diffusion model, we reconstruct the 3D object. Experiments demonstrate strong performance in both pose estimation and novel view synthesis. Moreover, iFusion seamlessly integrates with various reconstruction methods and enhances them.
翻訳日:2023-12-29 14:36:00 公開日:2023-12-28
# アンドロイドはただの電気羊の夢だと知ってますか?

Do Androids Know They're Only Dreaming of Electric Sheep? ( http://arxiv.org/abs/2312.17249v1 )

ライセンス: Link先を確認
Sky CH-Wang, Benjamin Van Durme, Jason Eisner, Chris Kedzie(参考訳) 我々は,インコンテキスト生成タスクにおける幻覚行動を予測するトランスフォーマー言語モデルの内部表現を学習したプローブを設計した。 この検出を容易にするために、複数のタスクにまたがる有機および合成幻覚のスパンアノテートデータセットを作成する。 有機幻覚検出において,合成幻覚の強制復号状態に基づくプローブは一般的に生態学的に無効であることがわかった。 さらに、幻覚に関する隠れた状態情報は、タスクと配布に依存します。 内在的および外在的な幻覚は、階層、隠れた状態タイプ、タスクによって異なり、特に、外在的幻覚はトランスフォーマーの内部表現においてより顕著である傾向がある。 複数の現代ベースラインを達成し、モデル状態が利用できる場合の言語モデル幻覚評価に対して、探索は実現可能かつ効率的な代替手段であることを示す。

We design probes trained on the internal representations of a transformer language model that are predictive of its hallucinatory behavior on in-context generation tasks. To facilitate this detection, we create a span-annotated dataset of organic and synthetic hallucinations over several tasks. We find that probes trained on the force-decoded states of synthetic hallucinations are generally ecologically invalid in organic hallucination detection. Furthermore, hidden state information about hallucination appears to be task and distribution-dependent. Intrinsic and extrinsic hallucination saliency varies across layers, hidden state types, and tasks; notably, extrinsic hallucinations tend to be more salient in a transformer's internal representations. Outperforming multiple contemporary baselines, we show that probing is a feasible and efficient alternative to language model hallucination evaluation when model states are available.
翻訳日:2023-12-29 14:35:43 公開日:2023-12-28
# 表現複雑性レンズによるモデルベース・ポリシーベース・価値ベース強化学習の再考

Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation Complexity ( http://arxiv.org/abs/2312.17248v1 )

ライセンス: Link先を確認
Guhao Feng, Han Zhong(参考訳) 強化学習(Reinforcement Learning, RL)は、モデルベースRL、ポリシーベースRL、価値ベースRLなど、様々なパラダイムを包含する。 この研究は、これらのrlパラダイムの中で、表現複雑性の潜在的階層(表現すべき関数の複雑さ)を調査します。 まず,多種類のマルコフ決定過程 (MDPs) に対して, モデルが多項式サイズを持つ定数深度回路か, 定数層と多項式隠蔽次元を持つ多層パーセプトロン (MLPs) で表現できることを実証した。 しかし、最適ポリシーと最適値の表現は$\mathsf{NP}$-完全であることが証明され、多項式サイズの定数層 MLP によって達成できない。 これは、ポリシーベースのRLと値ベースのRLを含むモデルベースRLとモデルフリーRLの間に、重要な表現複雑性のギャップを示す。 ポリシベースのRLと値ベースのRLの間の表現複雑性階層をさらに探求するため、モデルと最適ポリシーの両方を多項式サイズの定数深度回路または多項式サイズの定数層MLPで表現できる、別の一般的なMDPのクラスを導入する。 対照的に、最適値を表すのは$\mathsf{P}$-complete であり、多項式隠れ次元を持つ定数層 MLP を通して引き出すことができる。 これは、ポリシーベースのRLと比較して、値ベースのRLに関連する複雑な表現複雑性をアクセントする。 要約すると、RL内の潜在的表現複雑性階層は、モデルが最も簡単なタスクとして出現し、次に最適なポリシーが出現し、最適値関数が最も複雑な課題を示す。

Reinforcement Learning (RL) encompasses diverse paradigms, including model-based RL, policy-based RL, and value-based RL, each tailored to approximate the model, optimal policy, and optimal value function, respectively. This work investigates the potential hierarchy of representation complexity -- the complexity of functions to be represented -- among these RL paradigms. We first demonstrate that, for a broad class of Markov decision processes (MDPs), the model can be represented by constant-depth circuits with polynomial size or Multi-Layer Perceptrons (MLPs) with constant layers and polynomial hidden dimension. However, the representation of the optimal policy and optimal value proves to be $\mathsf{NP}$-complete and unattainable by constant-layer MLPs with polynomial size. This demonstrates a significant representation complexity gap between model-based RL and model-free RL, which includes policy-based RL and value-based RL. To further explore the representation complexity hierarchy between policy-based RL and value-based RL, we introduce another general class of MDPs where both the model and optimal policy can be represented by constant-depth circuits with polynomial size or constant-layer MLPs with polynomial size. In contrast, representing the optimal value is $\mathsf{P}$-complete and intractable via a constant-layer MLP with polynomial hidden dimension. This accentuates the intricate representation complexity associated with value-based RL compared to policy-based RL. In summary, we unveil a potential representation complexity hierarchy within RL -- representing the model emerges as the easiest task, followed by the optimal policy, while representing the optimal value function presents the most intricate challenge.
翻訳日:2023-12-29 14:35:27 公開日:2023-12-28
# 野生におけるアモダルグラウンドの真理と完遂

Amodal Ground Truth and Completion in the Wild ( http://arxiv.org/abs/2312.17247v1 )

ライセンス: Link先を確認
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman(参考訳) 本稿では,可視・可視両方の部分を含む物体分割マスク全体を予測する,非モーダルイメージセグメンテーション(amodal image segmentation)について述べる。 以前の研究では、実画像上のアモーダルセグメンテーションの基底真理は通常手動の注釈によって予測され、従って主観的である。 対照的に,我々は3dデータを用いて,実画像における部分的遮蔽物体の真理アモーダルマスクを決定する自動パイプラインを構築した。 このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。 そこで本研究では,まずオクルーダを推定し,次にアモーダルマスクを補完する2段階モデルと,多数のカテゴリにわたるアモーダルセグメンテーションにおいて,安定拡散の表現力を利用する1段階モデルについて検討する。 ベルとホイッスルなしでは,COCOAや新しいMP3D-Amodalデータセットを含む多種多様なオブジェクトをカバーするAmodalセグメンテーションデータセット上で,最先端のパフォーマンスを実現する。 データセット、モデル、コードはhttps://www.robots.ox.ac.uk/~vgg/research/amodal/で入手できる。

The problem we study in this paper is amodal image segmentation: predicting entire object segmentation masks including both visible and invisible (occluded) parts. In previous work, the amodal segmentation ground truth on real images is usually predicted by manual annotaton and thus is subjective. In contrast, we use 3D data to establish an automatic pipeline to determine authentic ground truth amodal masks for partially occluded objects in real images. This pipeline is used to construct an amodal completion evaluation benchmark, MP3D-Amodal, consisting of a variety of object categories and labels. To better handle the amodal completion task in the wild, we explore two architecture variants: a two-stage model that first infers the occluder, followed by amodal mask completion; and a one-stage model that exploits the representation power of Stable Diffusion for amodal segmentation across many categories. Without bells and whistles, our method achieves a new state-of-the-art performance on Amodal segmentation datasets that cover a large variety of objects, including COCOA and our new MP3D-Amodal dataset. The dataset, model, and code are available at https://www.robots.ox.ac.uk/~vgg/research/amodal/.
翻訳日:2023-12-29 14:34:54 公開日:2023-12-28
# llm外科医は

The LLM Surgeon ( http://arxiv.org/abs/2312.17244v1 )

ライセンス: Link先を確認
Tycho F.A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort(参考訳) 利用可能な大量のテキストデータで最高のパフォーマンスを達成するために、最先端の言語モデルがますます大きくなってきている。 しかし、トランスフォーマーアーキテクチャのサイズが小さいため、計算、環境、デバイス固有の制約の中でモデルをデプロイすることは困難である。 既存の事前学習モデルのデータ駆動圧縮を,スクラッチからモデルをトレーニングする方法として検討する。 そのために,目標損失景観のkronecker-factored curvature approximationsを大規模言語モデルにスケールする。 そうすることで、削除可能な構造体の動的割り当てと、削除の原因となる余剰重みの更新の両方を計算できます。 我々は,非構造的,半構造的,構造的プルーニングのための一般的なフレームワークを提供し,重み間の相関性を高めつつ,計算効率を向上する。 実験により,OPTモデルとLlamav2-7Bから行や列を20%~30%の精度で抽出し,非構造化および半構造化された大規模言語モデルにおける最先端の結果を得ることができた。

State-of-the-art language models are becoming increasingly large in an effort to achieve the highest performance on large corpora of available textual data. However, the sheer size of the Transformer architectures makes it difficult to deploy models within computational, environmental or device-specific constraints. We explore data-driven compression of existing pretrained models as an alternative to training smaller models from scratch. To do so, we scale Kronecker-factored curvature approximations of the target loss landscape to large language models. In doing so, we can compute both the dynamic allocation of structures that can be removed as well as updates of remaining weights that account for the removal. We provide a general framework for unstructured, semi-structured and structured pruning and improve upon weight updates to capture more correlations between weights, while remaining computationally efficient. Experimentally, our method can prune rows and columns from a range of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance, and achieve state-of-the-art results in unstructured and semi-structured pruning of large language models.
翻訳日:2023-12-29 14:34:28 公開日:2023-12-28
# 教師なしユニバーサルイメージセグメンテーション

Unsupervised Universal Image Segmentation ( http://arxiv.org/abs/2312.17243v1 )

ライセンス: Link先を確認
Dantong Niu, Xudong Wang, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell(参考訳) 現在のモデルは、セマンティックセグメンテーション(例えば、stego)とクラスに依存しないインスタンスセグメンテーション(例えば、cutler)の両方を別々に扱うが、両方ではない(すなわち、panopticセグメンテーション)。 我々は,新しい統一フレームワークを用いて,様々な画像分割タスクを行うための教師なしユニバーサルセグメンテーションモデル(u2seg)を提案する。 u2segは、各クラスタがピクセルの異なる意味的および/またはインスタンス的メンバシップを表す、自己教師付きモデルを使用して、これらのセグメンテーションタスクのための擬似意味ラベルを生成する。 次に、これらの擬似セマンティックラベルのモデルを自己学習し、各タスクに適合する特殊なメソッドに対して、実質的なパフォーマンス向上をもたらす: a +2.6 AP$^{\text{box}}$ boost vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff。 さらに,本手法は従来検討されていない非教師なしパノプティカルセグメンテーションのための新しいベースラインを設定する。 U2Segはまた、小ショットセグメンテーションのための強力な事前訓練されたモデルであり、低データのレギュレーション、例えば1%のCOCOラベルでトレーニングされた場合、+5.0 AP$^{\text{mask}}$を超える。 我々の単純で効果的な方法が、教師なしの普遍的なイメージセグメンテーションのさらなる研究を促すことを願っている。

Several unsupervised image segmentation approaches have been proposed which eliminate the need for dense manually-annotated segmentation masks; current models separately handle either semantic segmentation (e.g., STEGO) or class-agnostic instance segmentation (e.g., CutLER), but not both (i.e., panoptic segmentation). We propose an Unsupervised Universal Segmentation model (U2Seg) adept at performing various image segmentation tasks -- instance, semantic and panoptic -- using a novel unified framework. U2Seg generates pseudo semantic labels for these segmentation tasks via leveraging self-supervised models followed by clustering; each cluster represents different semantic and/or instance membership of pixels. We then self-train the model on these pseudo semantic labels, yielding substantial performance gains over specialized methods tailored to each task: a +2.6 AP$^{\text{box}}$ boost vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff. Moreover, our method sets up a new baseline for unsupervised panoptic segmentation, which has not been previously explored. U2Seg is also a strong pretrained model for few-shot segmentation, surpassing CutLER by +5.0 AP$^{\text{mask}}$ when trained on a low-data regime, e.g., only 1% COCO labels. We hope our simple yet effective method can inspire more research on unsupervised universal image segmentation.
翻訳日:2023-12-29 14:34:10 公開日:2023-12-28
# 任意文体におけるテキスト生成の学習

Learning to Generate Text in Arbitrary Writing Styles ( http://arxiv.org/abs/2312.17242v1 )

ライセンス: Link先を確認
Aleem Khan, Andrew Wang, Sophia Hager, Nicholas Andrews(参考訳) 文体制御テキスト生成における以前の研究は、多作文学作家のスタイルをエミュレートしたり、形式的あるいは非公式なテキストを作成したり、生成されたテキストの毒性の度合いに重点を置いてきた。 これらのスタイルの豊富なデモンストレーションが利用可能であり、その結果、現代の言語モデルは、プロンプトまたは判別制御によって、それらをエミュレートすることができる。 しかし、アシスタントを書くようなアプリケーションでは、小さな記述サンプルに基づいて、言語モデルが著者特有のスタイルでテキストを生成することが望ましい。 命令を調整した言語モデルでは,プロンプトで示す著者固有のスタイルを再現するのに苦労する場合がある。 そこで我々は,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。 そうする上での中心的な課題は、著者の著作がジェネリック言語モデルの下で驚くほどのトークン選択によって特徴づけられることである。 この緊張を和らげるために、生成的再スコーリングと識別制御を組み合わせることで、シーケンスレベルでのスタイル一貫性を確保する。 これらのアプローチの組み合わせは、無条件生成やスタイル転送を含む様々な条件下で著者固有のスタイルに固執する上で特に効果的であり、微調整を必要とせず、基礎となる言語モデルに適用できる。

Prior work in style-controlled text generation has focused on tasks such as emulating the style of prolific literary authors, producing formal or informal text, and the degree of toxicity of generated text. Plentiful demonstrations of these styles are available, and as a result modern language models are often able to emulate them, either via prompting or discriminative control. However, in applications such as writing assistants, it is desirable for language models to produce text in an author-specific style on the basis of a small writing sample. We find that instruction-tuned language models can struggle to reproduce author-specific style demonstrated in a prompt. Instead, we propose to guide a language model to generate text in a target style using contrastively-trained representations that capture stylometric features. A central challenge in doing so is that an author's writing is characterized by surprising token choices under a generic language model. To reconcile this tension, we combine generative re-scoring to achieve an author-specific model, with discriminative control to ensure style consistency at the sequence-level. The combination of these approaches is found to be particularly effective at adhering to an author-specific style in a variety of conditions, including unconditional generation and style transfer, and is applicable to any underlying language model without requiring fine-tuning.
翻訳日:2023-12-29 14:33:34 公開日:2023-12-28
# learn hash probingを用いたコンパクトニューラルネットワークプリミティブ

Compact Neural Graphics Primitives with Learned Hash Probing ( http://arxiv.org/abs/2312.17241v1 )

ライセンス: Link先を確認
Towaki Takikawa, Thomas M\"uller, Merlin Nimier-David, Alex Evans, Sanja Fidler, Alec Jacobson, Alexander Keller(参考訳) ニューラルネットワークのプリミティブは、トレーニング可能な機能をグリッドに配置した空間データ構造によって拡張されると、より高速で高品質になる。 しかし、既存の機能グリッドには大きなメモリフットプリント(密度または分解されたグリッド、ツリー、ハッシュテーブル)または遅いパフォーマンス(インデックス学習とベクトル量子化)がある。 本稿では,学習プローブを用いたハッシュテーブルが不利な点がなく,その結果,サイズと速度の組合せが良好であることを示す。 推論は、トレーニングが1.2-2.6倍遅く、事前のインデックス学習アプローチよりも大幅に優れています。 すべてのフィーチャーグリッドを共通のフレームワークにキャストすることで、この定式化に到達します。それらはそれぞれ、フィーチャーベクトルのテーブルにインデックスするルックアップ関数に対応しています。 このフレームワークでは、既存のデータ構造のルックアップ関数をインデックスの単純な算術的な組み合わせで組み合わせることができるため、パレートの最適圧縮と速度が得られる。

Neural graphics primitives are faster and achieve higher quality when their neural networks are augmented by spatial data structures that hold trainable features arranged in a grid. However, existing feature grids either come with a large memory footprint (dense or factorized grids, trees, and hash tables) or slow performance (index learning and vector quantization). In this paper, we show that a hash table with learned probes has neither disadvantage, resulting in a favorable combination of size and speed. Inference is faster than unprobed hash tables at equal quality while training is only 1.2-2.6x slower, significantly outperforming prior index learning approaches. We arrive at this formulation by casting all feature grids into a common framework: they each correspond to a lookup function that indexes into a table of feature vectors. In this framework, the lookup functions of existing data structures can be combined by simple arithmetic combinations of their indices, resulting in Pareto optimal compression and speed.
翻訳日:2023-12-29 14:33:11 公開日:2023-12-28
# 大規模言語モデルを用いたセグメンテーションのためのベースラインの改良

An Improved Baseline for Reasoning Segmentation with Large Language Model ( http://arxiv.org/abs/2312.17240v1 )

ライセンス: Link先を確認
Senqiao Yang and Tianyuan Qu and Xin Lai and Zhuotao Tian and Bohao Peng and Shu Liu and Jiaya Jia(参考訳) lisaは、セグメンテーションと大きな言語モデルの間のギャップを効果的に橋渡しして、推論セグメンテーションを可能にするが、ターゲット領域の異なるインスタンスを区別できず、事前定義されたテキスト応答フォーマットによって制約されるという、いくつかの制限がある。 本稿では,既存のLISAモデルの更新であるLISA++を紹介する。 LISA++の主な機能拡張は以下のとおりである。 \textbf{1) Enhanced Segmentation}: インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。 \textbf{2) More Natural Conversation}: セグメンテーション結果を直接テキスト応答に組み込む機能、すなわちSegmentation in Dialogue (SiD)。 これらの改善は、構造的な変更やデータソースを追加せずにセグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。 元のLISAモデルとの比較分析は、これらの領域において大きな進歩を示し、LISA++を視覚的理解と相互作用の顕著なアップグレードとして位置づけている。 LISA++の適応性と改良された機能は、LISAが提案したマスク・アズ・エンベッド・パラダイムの汎用性と、多様なアプリケーションの基盤モデルとしての可能性を強調している。

While LISA effectively bridges the gap between segmentation and large language models to enable reasoning segmentation, it poses certain limitations: unable to distinguish different instances of the target region, and constrained by the pre-defined textual response formats. In this work, we introduce LISA++, an update to the existing LISA model, focusing on improving core functionalities while keeping the base architecture intact. The main enhancements in LISA++ include: \textbf{1) Enhanced Segmentation}: The instance segmentation ability has been added, providing a more detailed scene analysis along with the existing multi-region semantic segmentation. \textbf{2) More Natural Conversation}: Improved capability for multi-turn dialogue, with the ability to incorporate segmentation results directly into text responses, i.e., Segmentation in Dialogue (SiD). These improvements are achieved by curating the existing samples of generic segmentation datasets, aimed specifically at enhancing the segmentation and conversational skills without structural change and additional data sources. Comparative analysis with the original LISA model shows significant advancements in these areas, positioning LISA++ as a notable upgrade in visual understanding and interaction. LISA++'s adaptability and improved features highlight the versatility of the mask-as-embedding paradigm proposed by LISA, and the potential as a foundational model for diverse applications.
翻訳日:2023-12-29 14:32:53 公開日:2023-12-28
# オフロードを伴う混在言語モデルの高速推論

Fast Inference of Mixture-of-Experts Language Models with Offloading ( http://arxiv.org/abs/2312.17238v1 )

ライセンス: Link先を確認
Artyom Eliseev, Denis Mazur(参考訳) LLM(Large Language Models)の普及に伴い、多くのディープラーニング実践者がこれらのモデルをより効率的に実行するための戦略を模索している。 そのような戦略の1つは、スパース・ミックス・オブ・エクスプット(MoE) - 任意の入力に対して少数のモデル・レイヤがアクティブなモデル・アーキテクチャの一種である。 この特性により、MoEベースの言語モデルは、密集した言語よりも高速にトークンを生成することができるが、複数の専門家がいるため、モデルのサイズも大きくなる。 残念なことに、最先端のMoE言語モデルはハイエンドGPUなしでは実行が難しい。 本研究では,アクセラレーションメモリを制限したコンシューマハードウェア上で大規模moe言語モデルを実行する問題について検討する。 パラメータオフロードアルゴリズムを構築し,MoE LLMの固有特性を生かして,パラメータオフロードを高速化する新しい手法を提案する。 この戦略を用いることで、デスクトップハードウェアとフリーティアのGoogle Colabインスタンス上で、Mixtral-8x7Bを混合量子化して実行できる。

With the widespread adoption of Large Language Models (LLMs), many deep learning practitioners are looking for strategies of running these models more efficiently. One such strategy is to use sparse Mixture-of-Experts (MoE) - a type of model architectures where only a fraction of model layers are active for any given input. This property allows MoE-based language models to generate tokens faster than their dense counterparts, but it also increases model size due to having multiple experts. Unfortunately, this makes state-of-the-art MoE language models difficult to run without high-end GPUs. In this work, we study the problem of running large MoE language models on consumer hardware with limited accelerator memory. We build upon parameter offloading algorithms and propose a novel strategy that accelerates offloading by taking advantage of innate properties of MoE LLMs. Using this strategy, we build can run Mixtral-8x7B with mixed quantization on desktop hardware and free-tier Google Colab instances.
翻訳日:2023-12-29 14:32:27 公開日:2023-12-28
# コードレビューレコメンデーションへのファクタリングのエキスパート、ワークロード、ターンオーバー

Factoring Expertise, Workload, and Turnover into Code Review Recommendation ( http://arxiv.org/abs/2312.17236v1 )

ライセンス: Link先を確認
Fahimeh Hajari, Samaneh Malmir, Ehsan Mirsaeedi, Peter C. Rigby(参考訳) ソフトウェアプロジェクトでの開発者の転職は避けられず、知識の喪失、生産性の低下、欠陥の増加につながります。 ターンオーバに対処する緩和戦略は、開発者のワークロードを混乱させ、増加させる傾向がある。 本研究では,コードレビューのレコメンデーションを通じて,より均等にレビュー作業負荷を分散しながら,知識の分散とターンオーバーの緩和を提案できる。 我々は、コードレビューに固有の、レビュー作業の自然な集中度と知識の拡散度を理解するために、歴史的分析を行う。 レビューの作業負荷は高いが,コードレビューが知識を自然に広めることで,ファイルのターンオーバーのリスクが軽減されることを示す。 シミュレーションを用いて,既存のコードレビューレコメンダを評価し,レビュー中の専門知識のレベル,レビュアーのワークロード,転向リスクのあるファイルに対する影響を理解するための新しいレコメンダを開発する。 シミュレーションでは,レビュアー毎に異なるレビュアーを置き換えることなく,レビュアーのレビュアーの比較を行うために,レビュアーをシードランダムに置き換えた。 レコメンダを組み合わせることで、レビュー中のファイルが1人の開発者しか知られていない場合に、アクティブなレビュー作業の少ない専門家を推奨するsofiawlレコメンダを開発した。 対照的に、知識が開発者に集中すると、他のレビュアーにレビューを送り、知識を広める。 調査対象のプロジェクトでは,レビュー期間中の専門性の向上,+3%,ワークロードの集中度低下,-12%,ファイルのリスク低減,-28%が可能です。 スクリプトとデータをレプリケーションパッケージで利用可能にします。 開発者はプロジェクトのニーズに基づいて、特定の結果尺度を最適化したり、GitHubボットを使って結果のバランスを取ることができます。

Developer turnover is inevitable on software projects and leads to knowledge loss, a reduction in productivity, and an increase in defects. Mitigation strategies to deal with turnover tend to disrupt and increase workloads for developers. In this work, we suggest that through code review recommendation we can distribute knowledge and mitigate turnover while more evenly distributing review workload. We conduct historical analyses to understand the natural concentration of review workload and the degree of knowledge spreading that is inherent in code review. Even though review workload is highly concentrated, we show that code review natural spreads knowledge thereby reducing the files at risk to turnover. Using simulation, we evaluate existing code review recommenders and develop novel recommenders to understand their impact on the level of expertise during review, the workload of reviewers, and the files at risk to turnover. Our simulations use seeded random replacement of reviewers to allow us to compare the reviewer recommenders without the confounding variation of different reviewers being replaced for each recommender. Combining recommenders, we develop the SofiaWL recommender that suggests experts with low active review workload when none of the files under review are known by only one developer. In contrast, when knowledge is concentrated on one developer, it sends the review to other reviewers to spread knowledge. For the projects we study, we are able to globally increase expertise during reviews, +3%, reduce workload concentration, -12%, and reduce the files at risk, -28%. We make our scripts and data available in our replication package. Developers can optimize for a particular outcome measure based on the needs of their project, or use our GitHub bot to automatically balance the outcomes.
翻訳日:2023-12-29 14:32:08 公開日:2023-12-28
# 長時間ビデオ質問応答のための簡易LLMフレームワーク

A Simple LLM Framework for Long-Range Video Question-Answering ( http://arxiv.org/abs/2312.17235v1 )

ライセンス: Link先を確認
Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius(参考訳) 長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。 従来の長距離映像理解手法とは異なり,この手法ではフレーム/クリップレベルの視覚キャプション(例えば, blip2, lavila, llava)と大規模言語モデル(gpt-3.5, gpt-4)を組み合わせることで,単純かつ驚くほど効率的なlvqaフレームワークを実現する。 具体的には,LVQAの短距離・長距離モデリングの側面を2段階に分解する。 まず、短いビデオクリップ(0.5-8秒)のテキスト記述を生成するために、短い視覚キャプタを用いて、長い入力ビデオから密にサンプリングする。 その後、LLMは、高密度に抽出された短い字幕を集約して、ビデオ全体を理解して質問に答えるために必要な長距離時間的推論を行う。 単純なフレームワークをなぜ効果的にするかを分析するため、システムの様々なコンポーネントを徹底的に評価する。 その結果,視覚的キャプタとLLMの選択がLVQAの良好な性能に重要であることが明らかとなった。 さらに,LLMに対して,まずノイズの多い短期的な視覚的キャプションを要約し,与えられた入力質問に答える特別なプロンプトが,LVQA性能を著しく向上させることを示す。 非常に長い形式のビデオ質問応答ベンチマークとして知られるegoschemaでは、従来のベストパフォーマンスアプローチを18.1%上回って50.3%の精度を達成している(絶対ゲイン)。 さらに,NeXT-QAとIntentQAでは,従来の最先端技術よりも4.1%,3.1%向上した。 また、LLoViを接地したLVQAに拡張し、NeXT-GQAデータセット上のすべての先行メソッドより優れていることを示す。 コードをhttps://github.com/CeeZh/LLoViでリリースします。

We present LLoVi, a language-based framework for long-range video question-answering (LVQA). Unlike prior long-range video understanding methods, which are often costly and require specialized long-range video modeling design (e.g., memory queues, state-space layers, etc.), our approach uses a frame/clip-level visual captioner (e.g., BLIP2, LaViLa, LLaVA) coupled with a Large Language Model (GPT-3.5, GPT-4) leading to a simple yet surprisingly effective LVQA framework. Specifically, we decompose short and long-range modeling aspects of LVQA into two stages. First, we use a short-term visual captioner to generate textual descriptions of short video clips (0.5-8s in length) densely sampled from a long input video. Afterward, an LLM aggregates the densely extracted short-term captions to perform long-range temporal reasoning needed to understand the whole video and answer a question. To analyze what makes our simple framework so effective, we thoroughly evaluate various components of our system. Our empirical analysis reveals that the choice of the visual captioner and LLM is critical for good LVQA performance. Furthermore, we show that a specialized prompt that asks the LLM first to summarize the noisy short-term visual captions and then answer a given input question leads to a significant LVQA performance boost. On EgoSchema, which is best known as a very long-form video question-answering benchmark, our method achieves 50.3% accuracy, outperforming the previous best-performing approach by 18.1% (absolute gain). In addition, our approach outperforms the previous state-of-the-art by 4.1% and 3.1% on NeXT-QA and IntentQA. We also extend LLoVi to grounded LVQA and show that it outperforms all prior methods on the NeXT-GQA dataset. We will release our code at https://github.com/CeeZh/LLoVi.
翻訳日:2023-12-29 14:31:35 公開日:2023-12-28
# Dual-Pivot Tuningによるパーソナライズド修復

Personalized Restoration via Dual-Pivot Tuning ( http://arxiv.org/abs/2312.17234v1 )

ライセンス: Link先を確認
Pradyumna Chari, Sizhuo Ma, Daniil Ostashev, Achuta Kadambi, Gurunandan Krishnan, Jian Wang, Kfir Aberman(参考訳) 生成拡散モデルは、画像復元システムの解が自然画像の多様体に付着することを保証する事前として機能する。 しかし、顔画像の復元には、個人固有の顔の特徴を正確に表現し、再構成するために、パーソナライズされた事前が必要である。 本稿では,本研究で提案する2段階のアプローチであるdual-pivot tuning (dual-pivot tuning) と呼ばれるパーソナライズ修復のための簡易かつ効果的な手法を提案する。 我々のキーとなる観察は、最適なパーソナライゼーションのために、生成モデルは固定されたテキストピボットを中心に調整されるべきであり、一方で誘導ネットワークは、パーソナライズされた生成モデルを固定された「ピボット」として、汎用的な(個人化されていない)方法で調整されるべきである。 このアプローチは、パーソナライゼーションが復元プロセスに干渉しないことを保証し、結果として人物のアイデンティティと劣化した画像の属性に忠実な自然な外観をもたらす。 我々は,広く認識されている人物の画像を用いて,定性的かつ定量的に評価し,関連するベースラインと比較した。 驚くべきことに、私たちのパーソナライズされたプライオリティは、人のアイデンティティに関してアイデンティティに対する高い忠実度を達成できるだけでなく、一般的な画質で最先端のジェネリックプライオリティよりも優れています。 プロジェクトWebページ: https://personalized-restoration.github.io

Generative diffusion models can serve as a prior which ensures that solutions of image restoration systems adhere to the manifold of natural images. However, for restoring facial images, a personalized prior is necessary to accurately represent and reconstruct unique facial features of a given individual. In this paper, we propose a simple, yet effective, method for personalized restoration, called Dual-Pivot Tuning - a two-stage approach that personalize a blind restoration system while maintaining the integrity of the general prior and the distinct role of each component. Our key observation is that for optimal personalization, the generative model should be tuned around a fixed text pivot, while the guiding network should be tuned in a generic (non-personalized) manner, using the personalized generative model as a fixed ``pivot". This approach ensures that personalization does not interfere with the restoration process, resulting in a natural appearance with high fidelity to the person's identity and the attributes of the degraded image. We evaluated our approach both qualitatively and quantitatively through extensive experiments with images of widely recognized individuals, comparing it against relevant baselines. Surprisingly, we found that our personalized prior not only achieves higher fidelity to identity with respect to the person's identity, but also outperforms state-of-the-art generic priors in terms of general image quality. Project webpage: https://personalized-restoration.github.io
翻訳日:2023-12-29 14:30:58 公開日:2023-12-28
# セグメンテーション3D:手動ラベルのない細粒度クラス非依存の3Dセグメンテーション

Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels ( http://arxiv.org/abs/2312.17232v1 )

ライセンス: Link先を確認
Rui Huang, Songyou Peng, Ayca Takmaz, Federico Tombari, Marc Pollefeys, Shiji Song, Gao Huang, Francis Engelmann(参考訳) 現在の3dシーンセグメンテーション手法は、手作業による3dトレーニングデータセットに大きく依存している。 このような手動アノテーションは労働集約的であり、しばしば細かな詳細を欠いている。 重要なことに、このデータでトレーニングされたモデルは、一般的にアノテーション付きクラスを超えてオブジェクトクラスを認識するのに苦労しています。 対照的に、2Dファンデーションモデルは強力な一般化と印象的なゼロショット能力を示し、これらの特徴を2Dモデルから3Dモデルに組み込むきっかけとなった。 そこで,3次元セグメンテーションのためのトレーニングラベルを自動生成する画像セグメンテーション基礎モデルについて検討する。 高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。 既存の3Dセグメンテーションモデル(特にきめ細かいマスク)よりも改善され、手動のトレーニングラベルを必要とせずに、新たなトレーニングデータを追加してセグメンテーションパフォーマンスをさらに向上することが可能になる。

Current 3D scene segmentation methods are heavily dependent on manually annotated 3D training datasets. Such manual annotations are labor-intensive, and often lack fine-grained details. Importantly, models trained on this data typically struggle to recognize object classes beyond the annotated classes, i.e., they do not generalize well to unseen domains and require additional domain-specific annotations. In contrast, 2D foundation models demonstrate strong generalization and impressive zero-shot abilities, inspiring us to incorporate these characteristics from 2D models into 3D models. Therefore, we explore the use of image segmentation foundation models to automatically generate training labels for 3D segmentation. We propose Segment3D, a method for class-agnostic 3D scene segmentation that produces high-quality 3D segmentation masks. It improves over existing 3D segmentation models (especially on fine-grained masks), and enables easily adding new training data to further boost the segmentation performance -- all without the need for manual training labels.
翻訳日:2023-12-29 14:30:27 公開日:2023-12-28
# 決闘の前に考える - 制約のある資源下での選好学習の複雑さを理解する

Think Before You Duel: Understanding Complexities of Preference Learning under Constrained Resources ( http://arxiv.org/abs/2312.17229v1 )

ライセンス: Link先を確認
Rohan Deb, Aadirupa Saha(参考訳) 我々は, 資源消費の制約とともに, デュエル・バンディット設定における報酬最大化の問題を考える。 古典的なデュエルバンディットのように、各ラウンドにおいて学習者は1組の$k$アイテムから2組のアイテムを選択し、現在のペアに対する相対的なフィードバックを観察する必要がある。 さらに、どちらの項目でも、学習者はリソース消費のベクトルも観察する。 学習者の目標は、リソースの総消費が割り当てられた予算内であることを保証しつつ、累積報酬を最大化することである。 我々は,フィードバックの相対的性質から,バンディットよりも問題は困難であり,さらなる仮定がなければ,後悔の最小化の観点からは学習できないことを示した。 その後、利用可能な予算の仮定を利用して、関連する消費を考慮し、$\tilde{\mathcal{O}}\left({\frac{OPT^{(b)}}{B}}K^{1/3}T^{2/3}\right)$ regretを達成できるEXP3ベースのデュエルアルゴリズムを提供し、$OPT^{(b)}$が最適な値であり、$B$が利用可能な予算であることを示す。 最後に,提案手法の有効性を示す数値シミュレーションを行った。

We consider the problem of reward maximization in the dueling bandit setup along with constraints on resource consumption. As in the classic dueling bandits, at each round the learner has to choose a pair of items from a set of $K$ items and observe a relative feedback for the current pair. Additionally, for both items, the learner also observes a vector of resource consumptions. The objective of the learner is to maximize the cumulative reward, while ensuring that the total consumption of any resource is within the allocated budget. We show that due to the relative nature of the feedback, the problem is more difficult than its bandit counterpart and that without further assumptions the problem is not learnable from a regret minimization perspective. Thereafter, by exploiting assumptions on the available budget, we provide an EXP3 based dueling algorithm that also considers the associated consumptions and show that it achieves an $\tilde{\mathcal{O}}\left({\frac{OPT^{(b)}}{B}}K^{1/3}T^{2/3}\right)$ regret, where $OPT^{(b)}$ is the optimal value and $B$ is the available budget. Finally, we provide numerical simulations to demonstrate the efficacy of our proposed method.
翻訳日:2023-12-29 14:30:09 公開日:2023-12-28